DE60200857T2 - Erzeugung einer künstlichen Sprache - Google Patents
Erzeugung einer künstlichen Sprache Download PDFInfo
- Publication number
- DE60200857T2 DE60200857T2 DE60200857T DE60200857T DE60200857T2 DE 60200857 T2 DE60200857 T2 DE 60200857T2 DE 60200857 T DE60200857 T DE 60200857T DE 60200857 T DE60200857 T DE 60200857T DE 60200857 T2 DE60200857 T2 DE 60200857T2
- Authority
- DE
- Germany
- Prior art keywords
- words
- word
- generation
- individuals
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 23
- 230000002068 genetic effect Effects 0.000 claims description 22
- 238000011161 development Methods 0.000 claims description 9
- 230000035772 mutation Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000003750 conditioning effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 241001136792 Alle Species 0.000 description 1
- 241001295925 Gegenes Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 101150105350 tts1 gene Proteins 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung bezieht sich auf die Erzeugung und Bewertung von Kunstsprachen und insbesondere aber nicht ausschließlich auf die Erzeugung und Bewertung von Kunstsprachen zum Ermöglichen der automatisierten Erkennung von Sprache.
- Hintergrund der Erfindung
- Der neue Treiber der Mobilitäts- und Anwendungs-Rechnung erzeugt starke Geschäftskraft für effiziente menschliche Computerschnittstellen. In diesem Kontext können Sprachschnittstellen potenzielle Attraktionen bieten, wie z. B. Natürlichkeit und handlose Operation. Trotz 40 Jahren von Sprachsystemarbeit hat es sich jedoch als sehr schwer herausgestellt, einen Computer in einer menschlichen Sprache so zu trainieren, dass er einen Dialog mit einem Menschen führen kann. Sogar die fortschrittlichsten Gesprochene-Sprache-Systeme in den besten Forschungsgruppen der Welt leiden immer noch unter denselben Mängeln und Problemen wie weniger fortschrittliche Sprachsysteme, nämlich unter hohen Installationskosten, niedriger Effizienz und begrenzter Gesprächsbereiche.
- Die vorliegende Erfindung bezieht sich auf einen Lösungsansatz zum Verbessern von Sprachschnittstellen, der die Verwendung von Kunstsprache(n) umfasst, um eine automatisierte Spracherkennung zu ermöglichen.
- Natürlich sind alle Sprachen von Menschen gemacht, aber Kunstsprachen werden systematisch hergestellt für einen bestimmten Zweck. Sie nehmen viele Formen an, von reinen Anpassungen eines existierenden Schreibsystems (Zeichen), bis zu völlig neuen Schreibweisen (Zeichensprache), bis zu vollständig ausdrucksbehafteten Systemen von Sprache die zum Spaß erzeugt wurden (Tolkien) oder zur Geheimhaltung (Poto und Cabenga) oder zur Lernfähigkeit (Esperanto). Es gab auch Kunstsprachen, die ohne Wert erzeugt wurden, wie z. B. Dilingo und sogar Kunstsprachen-Toolkits.
- Esperanto, was wahrscheinlich die bekannteste Kunstsprache ist, wurde von Dr. Ludwig L. Zamenhof in Polen erfunden und wurde der Öffentlichkeit erstmals 1887 präsentiert. Esperanto hat eine bestimmte Anerkennung als eine internationale Sprache genossen, die z. B. bei internationalen Treffen und Konferenzen verwendet wird. Das Vokabular von Esperanto wird durch Hinzufügen von verschiedenen Affixen zu individuellen Wurzeln gebildet und wird hauptsächlich von Latein, Griechisch und den romanischen Sprachen und den germanischen Sprachen abgeleitet. Die Grammatik basiert auf der von europäischen Sprachen, ist jedoch wesentlich vereinfacht und regelmäßiger. Esperanto hat eine fonetische Rechtschreibung. Es verwendet die Symbole des römischen Alphabets, wobei jedes für nur ein Geräusch steht. Eine vereinfachte Überarbeitung von Esperanto ist Ido, kurz für Esperandido. Ido wurde 1907 durch den französischen Philosophen Luis Couturat eingeführt, hat es jedoch nicht geschafft, Esperanto zu ersetzen.
- In „Compound Derivations in Fuzzy Genetic Programming" von A. Geyer-Schulz in NAFIPS '96, wird das Konzept des Verwendens einer genetischen Programmierung zum automatischen Erzeugen von Entsprechungsumwandlungen in der Grammatik einer kontextfreien Sprache eingeführt.
- Keine der vorangehenden Kunstsprachen ist für eine automatisierte Spracherkennung angepasst.
- Unsere mitanhängige UK-Patentanmeldung Nr. 0031450.0 (22. Dezember 2000) beschreibt eine Klasse von gesprochenen Kunstsprachen, die ohne weiteres durch automatisierte Spracherkenner verstanden werden können, die der Ausrüstung zugeordnet sind, wie z. B. Sprachen, die durch menschliche Benutzer erlernt werden sollen, um mit der Ausrüstung zu sprechen. Diese gesprochenen Sprachen werden hierin nachfolgend als „Computer-Pidgin-Sprachen" oder „CPL" bezeichnet, da sie wie Pidgin-Sprachen im Allgemeinen im Hinblick auf Vokabular und Struktur vereinfacht sind. Im Gegensatz zu normalen menschlichen Pidgin-Sprachen sind die CPLs jedoch Sprachen, die speziell entworfen sind, um Erkennungsfehler durch automatisierte Spracherkenner zu minimieren. Insbesondere ist eine CPL-Sprache aus Fonemen oder anderen ausgesprochenen Elementen aufgebaut, die zumindest in Kombination nicht einfach miteinander durch einen Spracherkenner verwechselt werden können, wobei die ausgesprochenen Elemente vorzugsweise aus einer bestehenden Sprache ausgewählt sind.
- In der oben erwähnten UK-Patentanmeldung ist ein grundlegendes Verfahren beschrieben zum Erzeugen von neuen CPLs. Es ist eine Aufgabe der vorliegenden Erfindung, verbesserte Verfahren zum Erzeugen von CPLs und zum Einschätzen ihres Werts zu schaffen.
- Zusammenfassung der Erfindung
- Gemäß der vorliegenden Erfindung wird ein Verfahren geschaffen zum Erzeugen einer Kunstsprache, bei dem ein genetischer Algorithmus verwendet wird, um eine Population von Individuen über eine Mehrzahl von Generationen zu entwickeln, wobei die Individuen Kandidatenkunstsprachenwörter bilden, oder verwendet werden, um dieselben zu bilden, die unter Verwendung einer vorbestimmten Eignungsfunktion bewertet werden, wobei die Ergebnisse dieser Bewertung durch den genetischen Algorithmus verwendet werden, um Individuen auszuwählen, die entwickelt werden sollen, um die nächste Generation der Population zu bilden.
- Vorteilhafterweise sind die Individuen der Population folgende:
- – Kandidatenkunstsprachenwörter; oder
- – Prozessvorschriften zum Bilden entsprechender Vokabularien aus Kandidatenkunstsprachenwörtern; oder
- – Vokabularien aus Kandidatenkunstsprachenwörtern.
- Vorzugsweise weist die Eignungsfunktion eine Kombination auf aus:
- – einem Maß der Leichtigkeit der korrekten Erkennung eines Kandidatenkunstsprachenwortes, wenn es in ein Spracherkennungssystem gesprochen wird; und
- – einem Maß der Ähnlichkeit eines Kandidatenkunstsprachenworts mit einem zugehörigen Wort eines Satzes aus Referenzwörtern, wie sie durch ein Spracherkennungssystem gemessen werden, in das das Wort gesprochen wird.
- Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung geschaffen zum Erzeugen einer Kunstsprache, die folgende Merkmale aufweist:
- – eine Speicherungseinrichtung zum Speichern einer Population von Individuen; und
- – eine Genetischer-Algorithmus-Verarbeitungseinrichtung, die folgende Merkmale aufweist:
- – eine Bereitstellungseinrichtung zum Bereitstellen von Kandidatenkunstsprachenwörtern von den Individuen der Population, die in der Speicherungseinrichtung gespeichert sind;
- – eine Bewertungseinrichtung zum Bewerten der Kandidatenkunstsprachenwörter unter Verwendung einer vorbestimmten Eignungsfunktion;
- – eine Entwicklungseinrichtung, die auf die Entwicklung anspricht, die durch die Bewertungseinrichtung ausgeführt wird, um Individuen aus der Population auszuwählen, und um dieselben beim Bilden einer nächsten Generation der Population zu verwenden, die dann zurück in die Speicherungseinrichtung gespeichert wird; und
- – eine Steuerungseinrichtung zum Steuern der Operation der Verarbeitungseinrichtung zum Entwickeln der Population von Individuen über eine Mehrzahl von Generationen.
- Kurze Beschreibung der Zeichnungen
- Ausführungsbeispiele der Erfindung werden durch ein nicht einschränkendes Beispiel unter Bezugnahme auf die beiliegenden, diagrammartigen Zeichnungen beschrieben, in denen:
-
1 ein Diagramm ist, das ein System darstellt zum Erzeugen einer neuen CPL gemäß einem Prozess, der in der oben erwähnten Patentanmeldung beschrieben ist; -
2 ein Diagramm ist, das eine Anordnung darstellt zum Testen der Eignung der Kandidaten-CPL-Wörter; -
3 ein Diagramm ist, das einen ersten Prozess darstellt zum Erzeugen einer neuen CPL unter Verwendung eines Genetischer-Algorithmus-Lösungsansatzes; und -
4 ein Diagramm ist, das einen zweiten Prozess darstellt, zum Erzeugen einer neuen CPL, ebenfalls unter Verwendung eines Genetischer-Algorithmus-Lösungsansatzes. - Bester Modus zum Ausführen der Erfindung
- Wie bereits angezeigt wurde, bezieht sich die vorliegende Erfindung auf die Erzeugung und Bewertung von gesprochenen Kunstsprachen (CPLs), die angepasst sind, um durch Spracherkenner erkannt zu werden. Eine neue CPL kann nach Bedarf z. B. zur Verwendung mit einer neuen Geräteklasse erzeugt werden.
- Bei der oben erwähnten mitanhängigen Anmeldung ist ein Verfahren zum Erzeugen einer neuen CPL beschrieben, das das Verfolgen der einfachen Regeln umfasst, die nachfolgend ausgeführt sind:
- 1. Auswählen eines Teilsatzes von Fonemen aus einer spezifischen menschlichen Sprache (wie z. B. Englisch oder Esperanto), die nicht einfach miteinander durch eine automatisierte Spracherkennung verwechselt werden und leicht erkannt werden. Dieser Teilsatz kann eine Abhängigkeit von der verwendeten Spracherkennungstechnik aufweisen. Da jedoch allgemein eine große Überlappung zwischen den Teilsätzen von leicht erkannten Fonemen vorliegt, die mit unterschiedlichen Erkennungstechniken eingerichtet werden, ist es allgemein möglich, einen Teilsatz von Fonemen aus diesem Überlappungsbereich auszuwählen. Es sollte ferner darauf hingewiesen werden, dass der ausgewählte Fonem-Teilsatz nicht aus Fonemen aufgebaut sein muss, die alle aus derselben menschlichen Sprache kommen, wobei dies einfach durchgeführt wird, um eine bestimmte Gruppe von menschlichen Benutzern vertraut mit den Teilsatz zu machen.
- 2. Wörter erfinden, die ohne weiteres erkannt und unter Verwendung der Foneme unterschieden werden, aus dem Teilsatz, der bei (1) ausgewählt wurde. Die aufgebauten Wörter sind z. B. als KVK strukturiert (Konsonant Vokal Konsonant) wie japanisch, da sich diese Struktur angeblich im Hinblick auf die Erkennung am besten verhält. Andere Wortstrukturen, wie z. B. „KV" sind möglich.
- 3. Auswählen eines Füllklangs, der ermöglicht, dass Wortgrenzen ohne weiteres unterschieden werden (dieser Schritt ist optional, insbesondere wenn Wörter nur individuell verwendet werden sollen, da Geräuschlosigkeit dann ein effektives Füllwort darstellt).
- 4. Auswählen einer einfachen grammatikalischen Struktur mit sehr wenig Zweideutigkeit (dieser Schritt ist wiederum optional in dem Sinn, dass wo eine CPL auf Einzelwortbefehlen basiert, keine Grammatik erforderlich ist – im Gegensatz dazu, wenn die Befehlswörter individuell genommen werden).
- Wie in der oben Bezug genommenen Anmeldung beschrieben wurde, um einen Fonemteilsatz mit niedrigem Verwechslungsrisiko auszuwählen, kann eine Einzellautverwechslungsmatrix für einen bestimmten Spracherkenner erzeugt werden, durch Vergleichen des Eingangs und Ausgangs des Erkenners über eine Anzahl von Mustern. Diese Matrix zeigt für jeden Einzellaut den Grad der Korrelation mit allen anderen Einzellauten an. Anders ausgedrückt zeigt diese Matrix die Wahrscheinlichkeit an, dass ein Einzellaut fälschlicherweise für einen anderen während des Erkennungsprozesses gewählt wird. Eine beispielhafte Verwechslungsmatrix, die von einem britischenglischen Korpus erzeugt wurde, bildet
1 der oben Bezug genommenen Anmeldung. Durch Untersuchen der Matrix ist es ohne weiteres möglich, sicherzustellen, welche Paarungen von Fonemen vermieden werten sollten, wenn keine Verwechslung auftreten soll. -
1 der beiliegenden Zeichnungen (die ferner2 der oben Bezug genommenen Anmeldung bildet) stellt ein System20 dar, durch das ein Benutzer2 eine neue CPL gemäß dem oben beschriebenen Prozess erzeugen kann. Das System20 basiert auf einem Computer, der eine CPL-Erzeugungsanwendung21 betreibt und in dem Speicher22 den Fonemteilsatz23 mit niedrigem Verwechslungsrisiko für eine Sprachbasis speichert (wie z. B. britisches Englisch), die durch den Benutzer ausgewählt wird. Dieser Fonemteilsatz wird dem Benutzer2 präsentiert (siehe Pfeil25 ), der dann die Foneme als Baublöcke zum Aufbauen neuer Wörter verwendet, die zurück in den Speicher (siehe Pfeile26 ) als Teil der neuen CPL24 gespeichert werden. Der Benutzer kann ferner eine Grammatik für die neue CPL spezifizieren, wobei diese Grammatik als Teil der CPL gespeichert wird (siehe Pfeil27 ). Das System ist ferner angeordnet, um die gewählten Wörter für eine leichte Erkennung und einen Mangel an Verwechslung bei einem Zielspracherkenner zu testen, wobei die Ergebnisses dieses Tests zurück zu dem Benutzer zugeführt werden; dieses Testen kann entweder automatisch durchgeführt werden (z. B. immer wenn ein neues Wort gespeichert wird) oder einfach auf eine Benutzeranforderung hin. Während die menschliche Bedeutung, die einem CPL-Wort zugeordnet ist, wahrscheinlich auf dieser Stufe zugeschrieben werden soll (das CPL-Wort kann diese Bedeutung in der Basissprache vorschlagen), ist es nicht von Bedeutung. - Während der obige Prozess und das System zum Erzeugen einer CPL in der Lage zum Herstellen nützlicher Ergebnisse ist, ist es nicht gut angepasst, um tatsächlich effiziente CPLs zu erzeugen oder die Kriterien zusätzlich zu niedriger Verwechslung und leichter Erkennung zu berücksichtigen.
- Wie nachfolgend beschrieben wird, schafft die vorliegende Erfindung Eignungsmaße von Kandidaten-CPL-Wörtern und einen automatisierten Prozess für eine CPL-Erzeugung basierend auf der Verwendung von Genetischer-Algorithmus-Techniken (GA-Techniken).
- Eignungsmaße
- Die GA-basierten CPL-Erzeugungsverfahren, die beschrieben werden sollen, umfassen beide die Anwendung einer Eignungsfunktion an Kandidaten-CPL-Wörter, um Individuen auszuwählen, die entwickelt werden sollen. In dem vorliegenden Fall ist die Eignungsfunktion eine Kombination eines ersten Eignungsmaßes f1, das sich auf ein erstes Kriterium bezieht (Kriterium 1), wobei dieses Kandidaten-CPL-Wort ohne weiteres korrekt durch ein automatisches Spracherkennersystem (ASR-System) erkannt werden sollte, und eines zweiten Eignungsmaßes f2, das sich auf ein zweites Kriterium (Kriterium 2) bezieht, dass das Wort einfach für einen Menschen zu lernen und merken sein sollte.
-
2 zeigt den allgemeinen Prozess, der beim Bewerten von sowohl dem ersten als auch dem zweiten Eignungsmaß umfasst ist. Um ein Wort31 aus einem Vokabular30 aus L Wörtern zu bewerten (W1 bis Wl), wird das Wort in ein ASR-System34 gesprochen und ein Eignungsmaß wird durch den Bewerter38 am Ausgang39 gemäß dem Eignungsmaß f1 oder f2 erzeugt. Während das Wort, das bewertet wird, theoretisch durch einen Menschen in das ASR-System34 gesprochen werden könnte, erfordert es die Praktikabilität, dass ein Text-zu-Sprache-System (TTS-System)33 verwendet wird, hier gezeigt zusammengesetzt aus n TTS-Maschinen TTS1 – TTSn aus Gründen, die nachfolgend offensichtlich werden. - Erstes Eignungsmaß
- Genauer gesagt, beim Bewerten des ersten Eignungsmaßes f1 (wie gut ein Wort erkannt wird), wird das ASR-System
34 mit einer Sprachgrammatik installiert, die das ASR-System einstellt, um alle L Wörter aus dem Vokabular30 zu erkennen (Pfeil36 ). Somit nimmt die Grammatik üblicherweise folgende Form an: - Der Auswerter
38 , beim Anwenden des ersten Eignungsmaßes, berücksichtigt, ob ein Wort korrekt erkannt wird oder nicht, und die Vertrauenseinstufung, die der Erkennung zugeordnet ist (wobei die Vertrauenseinstufung durch das ASR-System34 erzeugt wird und bei dem vorliegenden Beispiel angeblich in dem Bereich von –100 bis +100 liegt, wie durch die Microsoft Speech API vorgesehen ist). Genauer gesagt, für ein gegebenes Wort w, wird das erste Eignungsmaß f1(w) wie folgt ausgewertet: - Diese Auswertung wird durch den Auswerter
38 bewirkt. Wenn mehrere TTS-Maschinen vorgesehen sind, spricht jede Maschine für jedes Wort das Wort abwechselnd und der Auswer ter38 kombiniert die resultierenden Maßnahmen, die für jede Maschine erzeugt werden, um ein gesamtes erstes Eignungsmaß für das betroffene Wort zu liefern. - Zweites Eignungsmaß
- Das zweite Eignungsmaß f2 berechnet, wie leicht ein Wort zu lernen und durch den Benutzer zu merken ist. Dies ist relativ schwierig einzuschätzen und basiert in dem vorliegenden Fall auf der Voraussetzung, dass es für einen Benutzer einfacher ist, Wörter zu lernen und zu verwenden, die für ihn vertraut klingen. Solche Wörter werden erfasst, dadurch, dass der Benutzer eine Liste der Wörter einrichtet, die er hören möchte (genannt „Favoriten"); alternativ kann ein Kern von allgemeinen echten Wörtern für diese Liste verwendet werden (z. B. wenn der Benutzer die Zeit nicht aufwenden möchte, eine persönliche Favoritenliste zu spezifizieren). Das Eignungsmaß f2 bewertet, wie ähnlich ein CPL-Wort zu einem Wort aus der Favoriten-Liste ist. Um diese Ähnlichkeit zu messen, wird das ASR-System mit einer Grammatik installiert, die alle Wörter aus der Favoriten-Liste erkennen kann (Pfeil
37 ). Das ASR-System wird dann verwendet, um zu versuchen, Wörter aus dem Vokabular30 zu erkennen. Für ein gegebenes Wort w bewertet das zweite Eignungsmaß f2(w) wie folgt: - Für ein Wort w, desto höher f2(w), desto ähnlicher ist w einem Wort aus der Favoriten-Liste (egal welchem). Zum Beispiel
- Kombinieren der Maße
- Das erste und das zweite Eignungsmaß werden z. B. kombiniert, dadurch, dass jedem ein Gewicht gegeben wird und dieselben addiert werden. Die Gewichtung ist ausgewählt, um z. B. f1 mehr Bedeutung zu verleihen als f2.
- Einführen zusätzlicher Faktoren
- Es ist möglich, zu verursachen, dass die Eignungsmaße bestimmte potenziell wünschenswerte Charakteristika berücksichtigen, durch geeignetes Einstellen des Auswertungskanals „TTS-System zu ASR-System). Zum Beispiel, um ein CPL-Vokabular zu liefern, das unabhängig vom Sprechergeschlecht ist, werden mehrere TTS-Maschinen bereitgestellt (wie dargestellt ist), die unterschiedlichen Geschlechtern entspre chen, mit dem Ergebnis, dass die Eignungsmaße das Verhalten für alle Geschlechter reflektieren.
- Auf ähnliche Weise gilt:
- – akustische Unabhängigkeit kann als ein Faktor umfasst sein, durch Testen der gesprochenen Wörter mit mehreren ASR-Maschinen, die unterschiedlichen akustischen Modellen entsprechen;
- – Robustheit gegen Rauschen kann als ein Faktor umfasst sein, durch Einbringen von Rauschen in die gesprochene Version der Wörter.
- Erzeugung des CPL-Vokabulars
- Zwei GA-basierte Verfahren zum Erzeugen von CPL-Wörtern werden nun beschrieben, wobei beide diese Verfahren die oben beschriebene Eignungsfunktion verwenden, die das erste und das zweite Eignungsmaß kombiniert.
- Wortcodierungspopulation (Fig. 3)
- Bei diesem CPL-Erzeugungsverfahren besteht eine Population
40 aus Individuen41 , die jeweils ein Kandidaten-CPL-Wort W1 – Wl bilden. Jedes Individuum ist als eine Zeichenfolge codiert („die „DNA" des Individuums), z. B.:
DNA(W1) = „printer",
DNA(W2) = „switch off". - Ein Wort wird unter Verwendung von maximal p Buchstaben codiert, die aus dem Alphabet ausgewählt sind. Es gibt 27 ^p mögliche Kombinationen (26 + das Platzhalterzeichen *, das für keinen Buchstaben steht). Der anfängliche Satz von Wörtern besteht aus L Wörtern aus einem Vokabular von englischen Wörtern (d. h. „print", „reboot", „crash", „windows", etc.) wobei L > K, wobei K die erforderliche Anzahl von Wörtern in dem Ziel-CPL-Vokabular ist, das erzeugt werden soll.
- Beginnend mit der anfänglichen Population wird die Eignung der individuellen Wörter
41 der Population40 bewertet unter Verwendung der oben beschriebenen Eignungsfunktion (gewichtete Maße f1 und f2), und die individuellen Wörter werden rangmäßig eingestuft (Prozess43 in3 ), um eine Rangordnung44 zu erzeugen. Die geeignetsten Individuen werden dann ausgewählt und verwendet, um die nächste Generation der Population zu erzeugen, durch Anwenden von genetischen Operationen durch Mutation und/oder Kreuzung und/oder Reproduktion (Kasten45 ). Mutation besteht aus dem Ändern von einem oder mehreren Buchstaben in der DNA eines Worts, z. B.:
DNA = „printer" -> „crinter". - Überkreuzung besteht aus dem Austauschen von DNA-Fragmenten zwischen Individuen, z. B.:
„Printer" „Telephone" -> „Prinphone" „Teleter". - Die Anwendung dieser genetischen Operatoren soll zu der Erzeugung von besseren Individuen führen, durch Austauschen von Merkmalen aus Individuen, die eine gute Eignung aufweisen.
- Der vorangehende Prozess wird dann für die neu erzeugte Population wiederholt, wobei dieser Zyklus entweder eine vorbestimmte Anzahl von Malen ausgeführt wird, oder bis sich die Gesamteignung von aufeinander folgenden Populationen stabilisiert. Schließlich werden die K besten Individuen (Wörter) aus der letzten Population (Block
48 ) ausgewählt, um das CPL-Vokabular zu bilden. Der Gesamtprozess wird durch den Steuerungsblock49 gesteuert. - Das obige CPL-Erzeugungsverfahren kann bewirkt werden, ohne Auferlegen von Einschränkungen auf die Form der Wörter, die durch den Block
45 erzeugt werden; wobei es jedoch ebenfalls möglich ist und potenziell wünschenswert ist, bestimmte Einschränkungen auf die Wortform aufzuerlegen, wie z. B., dass sich Konsonanten und Vokale abwechseln müssen. - Vokabularcodierungspopulation (Fig. 4)
- Bei diesem CPL-Erzeugungsverfahren ist eine Population
50 aus m Individuen51 aufgebaut, die jeweils eine Prozessvorschrift bilden zum Erzeugen eines jeweiligen Vokabulars aus Kandidaten-CPL-Wörtern. Die Parameter einer Prozessvorschrift sind z. B.: - – Format der Wörter, die erzeugt werden können Beispiel: K V beliebiger Buchstabe K V wobei K = Konsonant und V = Vokal
- – Satz von Vokalen, die zu Verwendung bei der Worterzeugung verfügbar sind
- – Satz von Konsonanten, die zur Verwendung bei der Worterzeugung verfügbar sind wobei ein beispielhaftes Individuum ist:
- Format = C V beliebiger Buchstabe K V
- K Satz = {b,c,d,f,h,k,l,p}
- V Satz = {a,I,o,u}
- Dieses Individuum könnte die Worte erzeugen
Balka, coupo, etc... - Für jede Generation der Population wird jedes Individuum
51 , d. h. jede Prozessvorschrift R1 – Rm willkürlich verwendet, um ein jeweiliges Vokabular52 aus L Wörtern W1 – Wl zu erzeugen. Diese Wörter werden dann ausgewertet (Block53 ) unter Verwendung der oben beschriebenen Eignungsfunktion (gewichtete Maße f1, f2) und einer Durchschnittseinstufung, die für alle Wörter in dem Vokabular52 erzeugt wird. Diese Einstufung wird als ein Maß der Eignung der betroffenen Prozessvorschrift genommen und wird verwendet, um die Prozessvorschriften rangmäßig in die Rangordnung54 einzustufen. Die geeignetsten Prozessvorschriften werden dann ausgewählt und verwendet, um die nächste Generation der Prozessvorschriftpopulation zu erzeugen (siehe Block55 ), durch Mutation und/oder Überkreuzung und/oder Reproduktion; anders ausgedrückt werden diese genetischen Operatoren verwendet, um die Parameter der Prozessvorschriften zu ändern und neue Wege zum Erzeugen von Wörtern zu erzeugen. Der Lösungsansatz basiert auf der Annahme, dass nach vielen Generationen die beste Individuum-Prozessvorschrift Wörter mit optimaler Struktur und Alphabet erzeugen wird; durch Überprüfung jedoch wird das geeignetste Individuum in jeder Generation gespeichert und seine Eignung wird mit der der geeignetsten Individuen der zumindest nächsten Generation verglichen, wobei das geeignetste Individuum immer behalten wird. Das geeignetste Individuum, das am Ende des Mehrfacherzeugungs-Entwicklungsprozesses erzeugt wird, wird dann ausgewählt und verwendet (Block58 ), um ein Vokabular der Größe L zu erzeugen, aus dem die geeignetsten K Wörter ausgewählt werden. Der Gesamtprozess wird durch den Steuerungsblock59 gesteuert. - Bei einer ersten Version dieses Verfahrens wird ein Wortformat durch einen einzelnen Parameter vorgelegt, wobei die DNA eines Individuums die Form einer Sequenz von Bits annimmt, die diese Parameter codiert und Parameter zum Spezifizieren der Konsonanten- und Vokal-Sätze der Prozessvorschrift, z. B.:
- Hier codieren die ersten 12 Bits die Struktur der Wörter, die erzeugt werden können:
- 00 -> kein Zeichen
- 01 -> Konsonant
- 10 -> Vokal
- 11 -> beliebiger Buchstabe
- 00 -> kein Zeichen
- Die nächsten 22 Bits codieren den Konsonantensatz mit einem Bitwert von „1" an einer Position i, was anzeigt, dass der Konsonant in der Position i in einer Liste von Alphabetkonsonanten zur Verwendung beim Erzeugen von Wörtern verfügbar ist. Die verbleibenden sechs Bits codieren den Vokalsatz auf dieselbe Weise; z. B. codiert die Bitsequenz „011011" den Vokalsatz von {e,i,u,y}.
- Beispiele von Wörtern, die gemäß dem obigen Beispiel erzeugt werden können, sind:
ora y, aje h - Bei einer zweiten Version dieses Verfahrens besteht jedes Wort aus einer Sequenz von Einheiten, wobei jede derselben eine feste Form aufweist. Eine Einheit kann z. B. ein Buchstabe, eine KV-Kombination, eine VK-Kombination, etc. sein. Um dies darzustellen, weist jede Prozessvorschrift einen Parameter für die Einheitsform und einen zweiten Parameter für die Anzahl von Einheiten in einem Wort auf; Die Prozessvorschrift umfasst ferner, wie zuvor, Parameter zum Codieren der Konsonanten- und Vokal-Sätze. Bei dieser Version des Verfahrens ist die Prozessvorschrift-DNA weiterhin als eine Sequenz aus Bits dargestellt, z. B.:
- Die ersten zwei Bits zeigen die Form jeder Einheit an
10 -> VK-Einheit - Die nächsten drei Bits codieren die Anzahl von Einheiten pro Wort
110 -> 6:6/2+1 = 4 Einheiten pro Wort. - Die nächsten 22 Bits codieren den Konsonantensatz, während die letzten sechs Bits den Vokalsatz codieren. Beispiele von Wörtern, die durch diese beispielhafte Prozessvorschrift erzeugt werden, sind:
obobifiy, okilimox - Verwendungen
- Beispielhafte Verwendungen einer CPL sind nachfolgend gegeben
CPL-Geschwindigkeitswahl – CPL-Kontaktnamen. - Ein Mobiltelefon enthält eine Liste von Kontaktnamen und Telefonnummern. Jeder Name aus dieser Liste kann eine CPL-Version (CPL-Spitzname) umgewandelt werden, durch Einstellen dieser Namen als Favoriten während des CPL-Erzeugungsprozesses. Ein Spracherkenner in dem Mobiltelefon ist eingestellt, um die Spitznamen zu erkennen. In Verwendung, wenn ein Benutzer eine Person auf der Kontaktnamenliste kontaktieren möchte, spricht der Benutzer den Spitznamen, um den Wählvorgang zu initiieren. Um dem Benutzer beim Verwenden des korrekten Spitznamens zu helfen, kann die Kontaktliste, die sowohl echte Namen als auch Spitznamen umfasst, auf einer Anzeige des Telefons angezeigt werden. Beispielsweise, für eine Liste, die die drei Namen Robert, Steve und Guillaume enthält, werden drei CPL-Spitznamen erzeugt: Roste, Guive, Yomer. Sie erscheinen auf dem Telefonbildschirm als:
Roste (Robert) Guive (Steve) Yomer (Guillaume) - CPL-zu-SMS-Umschreiber
- In diesem Fall ist eine Mobiltelefon- oder eine andere Textnachrichten-Vorrichtung mit einem Spracherkenner vorgesehen, zum Erkennen der Wörter einer CPL. Die Wörter der CPL werden allgemein verwendeten Ausdrücken zugewiesen, entweder standardmäßig oder durch Benutzereingabe. Um eine Textnachricht zu erzeugen, kann der Benutzer jegliche dieser Ausdrücke durch Sprechen des entsprechenden CPL-Worts eingeben, wobei der Spracherkenner das CPL-Wort erkennt und verursacht, dass die entsprechende Ausdruckzeichenfolge in die Nachricht eingegeben wird, die erzeugt wird. Typische Ausdrücke, die durch CPL-Wörter ausgedrückt werden könnten, sind „Alles Gute zum Geburtstag" oder „Bis später".
- Es wird darauf hingewiesen, dass die Verwendung einer CPL, die durch die hierin beschriebenen Verfahren erzeugt wird, allgemein das Konditionieren eines Spracherkenners umfasst, um die CPL-Wörter zu erkennen, durch Laden des CPL-Vokabulars in den Erkenner und/oder Trainieren des Erkenners an den CPL-Wörtern. Ferner kann die erzeugte CPL (und/oder Ausgewählte aus der letzten Generation der Individuen) zu Benutzern durch ein geeignetes Verfahren verteilt werden, wie z. B. durch Speichern einer Darstellung der CPL-Wörter auf einem übertragbaren Speicherungsmedium zur Verteilung.
- Varianten
- Es wird darauf hingewiesen, dass viele Varianten für die oben beschriebenen Ausführungsbeispiele der Erfindung möglich sind. Zum Beispiel könnten die Individuen einer Population, die entwickelt werden soll, durch jeweilige Vokabularien von jedem der L Kandidaten-CPL-Wörter aufgebaut werden, wobei die anfänglichen Wörter für jedes Vokabular z. B. beliebig ausgewählt werden (z. B. gemäß einer vorbestimmten Wortformatanforderung). Bei jeder Generation wird die Eignung jedes Vokabulars der Population im Wesentlichen auf dieselbe Weise gemessen wie für das Vokabular
52 des Ausführungsbeispiels aus4 . Die ungeeignetsten Vokabularien werden dann verworfen und neue werden aus den Verbleibenden erzeugt, durch eine geeignete Kombination von genetischen Operationen (z. B. Kopieren des geeignetesten Vokabulars gefolgt durch Mutation und Überkreuzung der Komponentenwörter). Die zugehörigen Wörter der behaltenen Vokabularien können dann genetischen Operationen in oder über Vokabularien unterzogen werden. Dieser Prozess der Eignungs-Auswertung, Auswahl und Erzeugung einer neuen Generation wird über mehrere Zyklen ausgeführt und die geeignetsten K Wörter des geeignetsten Vokabulars werden dann verwendet, um das Ziel-CPL-Vokabular zu bilden. - Um die Erzeugung eines Vokabulars mit benutzerfreundlichen Wörtern zu beschleunigen, können die Wörter auf der Favoritenliste als die anfängliche Population des Ausführungsbeispiels von
3 verwendet werden, oder in dem Fall des Ausführungsbeispiels, das in dem vorangehenden Absatz beschrieben wurde, als zumindest eines der Komponentenwörter von zumindest einigen der anfänglichen Vokabularien. Im Hinblick auf das Ausführungsbeispiel von4 können die zugehörigen Konsonanten und Vokale der Wörter auf der Favoritenliste als die anfänglichen Konsonanten- und Vokal-Sätze der Prozessvorschriften verwendet werden, die die Individuen der anfänglichen Population bilden. - Während die Eignungsfunktion (gewichtete Maße f1, f2) bei den beschriebenen Ausführungsbeispielen verwendet wurde, um CPL-Wörter zu bevorzugen, die ein gutes Spracherkennerverhalten und gute Benutzerfreundlichkeit ergeben (d. h., sie klingen für einen Benutzer bekannt), könnte die Eignungsfunktion auf entweder f1 oder f2 eingeschränkt werden, um Wörter auszuwählen, die eine entsprechende Charakteristik aufweisen, wobei die andere Charakteristik dann in Wör ter ausgebildet wird, durch spezifisches Zuschneiden der nachfolgenden genetischen Operationen zum geeigneten Erzeugen der Nächste-Generation-Population. Somit, wenn die Eignungsfunktion auf das Maß f1 eingestellt war, ist es möglich, die Erzeugung von CPL-Wörtern hin zu benutzerfreundlichen Wörtern vorzuspannen, durch Ausführen der Anwendung von genetischen Operationen, während der Erzeugung der nächsten Generation von Individuen, auf eine Weise, die die Erzeugung solcher Wörter favorisiert; dies kann z. B. bei der Anwendung der Überkreuzungsoperationen erreicht werden, durch Bevorzugen von neuen Individuen, die Fonemkombinationen besitzen oder wahrscheinlicher erzeugen, die vom Benutzer bevorzugt werden (wie z. B. durch Wörter auf einer Favoritenliste dargestellt sind) oder ähnlich klingende Fonemkombinationen. Auf ähnliche Weise kann eine Mutation auf eine Weise bewirkt werden, die dazu neigt, vom Benutzer bevorzugte Foneme oder Fonemkombinationen oder ähnlich klingende Foneme oder Fonemkombinationen zu favorisieren. Wie bereits angezeigt wurde, ist es alternativ möglich, anzuordnen, dass die Eignungsfunktion auf f2 eingeschränkt wird, und dann die genetischen Operatoren auf eine Weise anzuwenden, die die Erzeugung von CPL-Wörtern bevorzugt, die leicht zu erkennen sind (d. h., ein niedriges Verwechslungsrisiko aufweisen, wie angezeigt wurde, z. B, durch eine Verwechslungsmatrix, die für den betroffenen Erkenner hergeleitet wurde). Tatsächlich, obwohl nicht bevorzugt, können die genetischen Operationen derart angewendet werden, um die Erzeugung von CPL-Wörtern zu favorisieren, die sowohl leicht automatisch zu erkennen als auch benutzerfreundlich sind, wodurch der Bedarf beseitigt wird, die Eignungsfunktion zu benutzen, um eines dieser Charakteristika auszuwählen; eine weitere Alternative wäre dies beides durchzuführen und eine Auswahl basierend auf einer Eignungsfunktion zu bewirken, die sowohl f1 als auch f2 umfasst.
- Ein anderer Lösungsansatz zum Erzeugen von Wörtern, die sowohl leicht automatisch zu erkennen sind als auch eine Ver trautheit für den Benutzer aufweisen, ist einfach das Abwechseln der Eignungsfunktion zwischen f1 und f2 in aufeinander folgenden Erzeugungszyklen.
- Während das Auswertungsverfahren, das oben Bezug nehmend auf
2 beschrieben wurde, zum Bewirken von Maßen für eine einfache Erkennung und Benutzerfreundlichkeit von Wörtern bevorzugt wird, sind andere Wege zum Erstellen dieser Maße ebenfalls möglich. Zum Beispiel kann die Bewertung von Wörtern im Hinblick darauf, wie leicht sie korrekt durch ein Spracherkennungssystem erkannt werden, durch die Analyse der Fonemzusammensetzung der Wörter in Bezug auf eine Verwechslungsmatrix bewirkt werden, die für ein Zielspracherkennungssystem eingerichtet wird. Im Hinblick auf die Bewertung von Wörtern im Hinblick auf eine Vertrautheit für einen menschlichen Benutzer, kann dies bewirkt werden durch eine Analyse der Fonemzusammensetzung der Wörter in Bezug auf die eines Satzes von Referenzwörtern, die einem Benutzer vertraut sind. - Eine andere mögliche Variante ist das Auswählen der Eignungsfunktion, um zusätzliche oder unterschiedliche Eignungskriterien direkt zu berücksichtigen, wobei dies zusätzlich zu der Möglichkeit ist, die oben erörtert wurde, des Einbringens von Faktoren, wie z. B. dem Geschlecht der Stimme, in die Bewertung von f1 und/oder f2. Die Verwendung der beschriebenen GA-basierten Verfahren der Kunstsprachenerzeugung sind daher nicht auf Sprachen beschränkt, die für eine automatische Erkennung optimiert sind.
Claims (44)
- Ein Verfahren zum Erzeugen einer Kunstsprache, bei dem ein genetischer Algorithmus verwendet wird, um eine Population (
40 ;50 ) von Individuen (41 ;51 ) über eine Mehrzahl von Generationen zu entwickeln, wobei die Individuen Kandidatenkunstsprachenwörter (W) bilden oder verwendet werden, um dieselben bilden, die unter Verwendung einer vorbestimmten Eignungsfunktion bewertet werden, wobei die Ergebnisse (39 ) dieser Bewertung durch den genetischen Algorithmus (45 ;55 ) verwendet werden, um Individuen auszuwählen, die entwickelt werden sollen, um die nächste Generation der Population (40 ;50 ) zu bilden. - Ein Verfahren gemäß Anspruch 1, bei dem die Individuen (
41 ) Kandidatenkunstsprachenwörter sind, wobei die geeignetsten Wörter (W) jeder Generation verwendet werden, um die Wörter der nächsten Generation zu erzeugen, durch einen Prozeß (45 ), der zumindest entweder Mutation oder Kreuzung umfaßt. - Ein Verfahren gemäß Anspruch 2, bei dem die Herstellung der Wörter der nächsten Generation gezwungen ist, zu verursachen, daß jedes solche Wort (W) ein Format aufweist, in dem jeder zugehörige Konsonant oder Vokal, außer am Ende des Wortes, jeweils von einem Vokal oder Konsonanten gefolgt wird.
- Ein Verfahren gemäß Anspruch 2, bei dem jede Generation der Population (
40 ) aus L-Individuen (41 ) hergestellt ist, wobei das Verfahren einen abschließenden Schritt zum Auswählen der K geeignetsten Wörter der letzten Generation der Population (40 ) umfaßt, um das Vokabular der Kunstsprache zu bilden, wobei L größer ist als K. - Ein Verfahren gemäß Anspruch 1, bei dem die Individuen (
51 ) Prozeßvorschriften zum Bilden jeweiliger Vokabularien (52 ) aus Kandidatenkunstsprachenwörtern (W) sind, wobei das Verfahren bei jeder Erzeugung folgende Schritte umfaßt: Verwenden jedes Individuums (51 ), um ein jeweiliges Vokabular (52 ) zu bilden, wobei die zugehörigen Wörter (W) desselben unter Verwendung der vorbestimmten Eignungsfunktion bewertet werden; und Bilden einer Bewertung der Eignung des Individuums (51 ) aus den Bewertungen der Wörter in dem Vokabular eines Individuums; und Verwenden der geeignetsten Prozeßvorschriften (51 ) jeder Generation, um die Prozeßvorschriften der nächsten Generation herzustellen, durch einen Prozeß (55 ), der zumindest entweder Mutation oder Kreuzung umfaßt. - Ein Verfahren gemäß Anspruch 5, bei dem jede Prozeßvorschrift (
51 ) ein Wortformat spezifiziert, und einen Satz von Konsonanten und einen Satz von Vokalen, die bei der Worterzeugung gemäß dem Format zur Verwendung verfügbar sind. - Ein Verfahren gemäß Anspruch 6, bei dem das Wortformat eine spezifische Einheit-Form und eine spezifische Anzahl von Einheiten aufweist, wobei die Einheiten aus den verfügbaren Konsonanten und Vokalen gemäß der spezifizierten Einheit-Form gebildet sind.
- Ein Verfahren gemäß Anspruch 5, bei dem die geeignetste Prozeßvorschrift oder Prozeßvorschriften (
51 ) jeder Generation für einen nachfolgenden Vergleich mit denen von zumindest der nächsten Generation gespeichert werden. - Ein Verfahren gemäß Anspruch 1, bei dem die Individuen jeweilige Vokabularien der Kandidatenkunstsprachenwörter sind, wobei die Eignung der Wörter (W) in einem Vokabular bewertet und verwendet wird, um ein Gesamteignungsmaß für dieses Vokabular zu bilden, wobei dieses Maß dann als eine Basis zum Auswählen verwendet wird, welche Vokabularien entwickelt werden sollen, um die nächste Generation der Population zu bilden.
- Ein Verfahren gemäß Anspruch 9, bei dem die nächste Generation gebildet wird durch Ersetzen von zumindest dem am wenigsten geeigneten Vokabular durch ein Vokabular, das aus zumindest einem der gehaltenen Vokabularien hergeleitet wird.
- Ein Verfahren gemäß Anspruch 10, bei dem zumindest einige der Wörter (W) der gehaltenen Vokabularien einer Entwicklung durch genetische Operationen mit anderen Wörtern aus dem selben oder unterschiedlichen Vokabularien unterliegen.
- Ein Verfahren gemäß einem der vorangehenden Ansprüche, bei dem die Eignungsfunktion ein Maß (f1) der Leichtigkeit einer korrekten Erkennung eines Kandidatenkunstsprachenworts (W) aufweist, wenn es in ein Spracherkennungssystem (
34 ) gesprochen wird. - Ein Verfahren gemäß einem der Ansprüche 1 bis 11, bei dem die Eignungsfunktion ein Maß (f2) der Ähnlichkeit des Kandidatenkunstsprachenworts (W) zu einem zugehörigen Wort eines Satzes von Referenzwörtern aufweist, gemessen durch ein Spracherkennungssystem (
34 ), in das das Wort gesprochen wird. - Ein Verfahren gemäß einem der Ansprüche 1 bis 11, bei dem die Eignungsfunktion eine Kombination aufweist aus: einem Maß (f1) der Leichtigkeit der korrekten Erkennung eines Kandidatenkunstsprachenworts (W), wenn es in ein Spracherkennungssystem (
34 ) gesprochen wird; und einem Maß (f2) der Ähnlichkeit eines Kandidatenkunstsprachenworts (W) zu einem zugehörigen Wort eines Satzes von Referenzwörtern gemessen durch ein Spracherkennungssystem (34 ), in das das Wort gesprochen wird. - Ein Verfahren gemäß einem der Ansprüche 12 bis 14, bei dem die Kandidatenkunstsprachenwörter (W) in das Spracherkennungssystem (
34 ) durch mehrere Text-Zu-Sprache-Wandler (33 ) abwechselnd gesprochen werden, wobei das Eignungsmaß (f1; f2) im Hinblick darauf hergestellt wird, daß ein bestimmtes Wort eine Kombination der Maße ist, die für das Sprechen des Worts durch jeden Wandler gemacht werden. - Ein Verfahren gemäß einem der Ansprüche 12 bis 14, bei dem die Kandidatenkunstsprachenwörter (W) durch ein Text-Zu-Sprache-Umwandlungssystem (
33 ) in das Spracherkennungssystem (34 ) gesprochen werden, wobei der Kanal, der diese Systeme umfaßt, auf eine derartige Weise implementiert ist, daß das Eignungsmaß zumindest eine gewünschte Operationscharakteristik berücksichtigt. - Ein Verfahren gemäß Anspruch 16, bei dem die zumindest eine gewünschte Operationscharakteristik mindestens eine ist aus: Geschlechtsunabhängigkeit, wobei zu diesem Zweck das Text-Zu-Sprache-System mit mehreren Text-Zu-Sprache- Wandlern versehen ist, die unterschiedlichen Geschlechtern entsprechen, um gesprochene Versionen der Wörter zu erzeugen; akustischer Unabhängigkeit, wobei zu diesem Zweck das Spracherkennungssystem mit mehreren Spracherkennern versehen ist, die unterschiedlichen akustischen Modellen entsprechen; Robustheit gegenüber Rauschen, wobei zu diesem Zweck Rauschen in den Kanal eingebracht wird.
- Ein Verfahren gemäß einem der vorangehenden Ansprüche, bei dem die Entwicklung der Individuen (
41 ;51 ), die ausgewählt sind, um die nächste Generation zu bilden, auf eine Weise bewirkt wird, die die Erzeugung von Kandidatenkunstsprachenwörtern bevorzugt, die eine gewünschte Charakteristik aufweisen. - Ein Verfahren gemäß Anspruch 18, bei dem die gewünschte Charakteristik eine Leichtigkeit der Erkennung durch einen automatischen Spracherkenner ist.
- Ein Verfahren gemäß Anspruch 18, bei dem die gewünschte Charakteristik Ähnlichkeit zu Wörtern der natürlichen Sprache ist.
- Ein Verfahren gemäß einem der vorangehenden Ansprüche, bei dem zumindest ausgewählte Individuen der abschließenden Generation von Individuen auf einem übertragbaren Speicherungsmedium gespeichert sind.
- Ein Verfahren gemäß einem der vorangehenden Ansprüche, bei dem die Individuen (
41 ;51 ) der abschließenden Generation verwendet werden, um Kunstsprachenwörter zu liefern, und Darstellungen dieser Wörter auf einem übertragbaren Speicherungsmedium gespeichert werden. - Ein Verfahren zum Konditionieren eines Spracherkenners, das folgende Schritte aufweist: Erzeugen von Wörtern (W) einer Kunstsprache unter Verwendung eines Verfahrens gemäß einem der vorangehenden Ansprüche, und Laden der erzeugten Wörter der Kunstsprache in ein Lexikon des Spracherkenners.
- Ein Verfahren zum Konditionieren eines Spracherkenners, das folgende Schritte aufweist: Erzeugen von Kunstsprachenwörtern (W) unter Verwendung eines Verfahrens gemäß einem der vorangehenden Ansprüche, und Trainieren des Spracherkenners, um die erzeugten Kunstsprachenwörter zu erkennen.
- Vorrichtung zum Erzeugen einer Kunstsprache, die folgende Merkmale aufweist: eine Speicherungseinrichtung zum Speichern einer Population (
40 ;50 ) von Individuen (41 ;51 ), und eine Genetischer-Algorithmus-Verarbeitungseinrichtung, die folgende Merkmale aufweist: eine Bereitstellungseinrichtung zum Bereitstellen von Kandidatenkunstsprachenwörtern (W) von den Individuen (41 ;51 ) der Population (40 ;50 ), die in der Speicherungseinrichtung gespeichert sind; eine Bewertungseinrichtung (38 ) zum Bewerten der Kandidatenkunstsprachenwörter unter Verwendung einer vorbestimmten Eignungsfunktion; eine Entwicklungseinrichtung (45 ;55 ), die auf die Entwicklung anspricht, die durch Bewertungseinrichtung (38 ) ausgeführt wird, um Individuen aus der Population (40 ;50 ) auszuwählen und um dieselben beim Bilden einer nächsten Generation der Population zu verwenden, die dann zurück in die Speicherungseinrichtung gespeichert wird; und eine Steuerungseinrichtung (49 ;59 ) zum Steuern der Operation der Verarbeitungseinrichtung zum Entwickeln der Population (40 ;50 ) von Individuen (41 ;51 ) über eine Mehrzahl von Generationen. - Vorrichtung gemäß Anspruch 25, bei der die Individuen (
41 ) Kandidatenkunstsprachenwörter sind, wobei die Entwicklungseinrichtung (45 ) betreibbar ist, um die geeignetsten Wörter jeder Generation zu verwenden, um die Wörter (W) der nächsten Generation durch einen Prozeß herzustellen, der zumindest entweder Mutation oder Kreuzung umfaßt. - Vorrichtung gemäß Anspruch 26, bei der die Entwicklungseinrichtung (
45 ) gezwungen ist, zu verursachen, daß jedes Nächste-Generation-Wort ein Format aufweist, in dem jeder zugehörige Konsonant oder Vokal, außer am Ende des Worts, jeweils von einem Vokal oder Konsonanten gefolgt wird. - Vorrichtung gemäß Anspruch 26, bei der jede Generation der Population (
40 ) aus L-Individuen hergestellt ist, wobei die Vorrichtung ferner eine Einrichtung (48 ) aufweist, die betreibbar ist, um die K geeignetsten Wörter der letzten Generation der Population auszuwählen, um das Vokabular der Kunstsprache zu bilden, wobei L größer ist als K. - Vorrichtung gemäß Anspruch 25, bei der die Individuen (
51 ) Prozeßvorschriften zum Bilden jeweiliger Vokabu larien aus Kandidatenkunstsprachenwörtern (W) sind und wobei bei jeder Generation: die Bereitstellungseinrichtung betreibbar ist, um jede Prozeßvorschrift (51 ) zu verwenden, um ein jeweiliges Vokabular (52 ) zu bilden; die Bewertungseinrichtung (38 ) betreibbar ist, um die vorbestimmte Eignungsfunktion zu verwenden, um die zugehörigen Wörter (W) jedes Vokabulars (52 ) zu bewerten, das durch die Bereitstellungseinrichtung gebildet wird, und die Bewertungen der Wörter in jedem Vokabular zu verwenden, um eine Bewertung der Eignung der entsprechenden Prozeßvorschrift (51 ) herzustellen; und die Entwicklungseinrichtung (55 ) betreibbar ist, um die geeignetsten Prozeßvorschriften jeder Generation zu verwenden, um die Prozeßvorschriften (51 ) der nächsten Generation herzustellen, durch einen Prozeß, der zumindest entweder Mutation oder Kreuzung umfaßt. - Vorrichtung gemäß Anspruch 29, bei der jede Prozeßvorschrift (
51 ) ein Wortformat und einen Satz von Konsonanten und einen Satz von Vokalen spezifiziert, die zur Verwendung bei der Worterzeugung gemäß dem Format verfügbar sind. - Vorrichtung gemäß Anspruch 30, bei der das Wortformat eine spezifizierte Einheit-Form und eine spezifizierte Anzahl von Einheiten aufweist, wobei die Einheiten aus den verfügbaren Konsonanten und Vokalen gemäß der spezifizierten Einheit-Form gebildet sind.
- Vorrichtung gemäß Anspruch 29, die ferner eine Vergleichseinrichtung aufweist, die betreibbar ist, um die geeignetste Prozeßvorschrift oder Prozeßvorschriften jeder Generation mit denen von zumindest der nächsten Generation zu vergleichen.
- Vorrichtung gemäß Anspruch 25, bei der die Individuen jeweilige Vokabularien von Kandidatenkunstsprachenwörtern (W) sind, wobei die Bewertungseinrichtung (
38 ) betreibbar ist, um die Eignung der Wörter in dem Vokabular zu bewerten und basierend auf diesen Bewertungen ein Gesamteignungsmaß für dieses Vokabular zu bilden; wobei die Bewertungseinrichtung betreibbar ist, um dieses Eignungsmaß von jedem Vokabular als eine Basis zum Auswählen zu verwenden, welche Vokabularien entwickelt werden sollen, um die nächste Generation der Population zu bilden. - Vorrichtung gemäß Anspruch 33, bei der die Entwicklungseinrichtung betreibbar ist, um die nächste Generation zu bilden, durch Ersetzen von zumindest dem am wenigsten geeigneten Vokabular durch ein Vokabular, das aus zumindest einem der gehaltenen Vokabularien hergeleitet wird.
- Vorrichtung gemäß Anspruch 34, bei der die Entwicklungseinrichtung betreibbar ist, um zumindest einige der Wörter der behaltenen Vokabularien durch genetische Operationen mit anderen Wörtern aus demselben oder aus unterschiedlichen Vokabularien zu entwickeln.
- Vorrichtung gemäß einem der Ansprüche 25 bis 35, bei der die Bewertungseinrichtung (
38 ) ein Spracherkennungssystem (34 ) umfaßt, wobei die Bewertungseinrichtung betreibbar ist, um ein Maß (f1) der Leichtigkeit der korrekten Erkennung eines Kandidatenkunstsprachenworts (W), wenn es in das Spracherkennungssystem (34 ) gesprochen wird, herzuleiten und als zumindest einen Teil der Eignungsfunktion und zu verwenden. - Vorrichtung gemäß einem der Ansprüche 25 bis 35, bei der die Bewertungseinrichtung ein Spracherkennungssystem (
34 ) umfaßt, wobei die Bewertungseinrichtung betreibbar ist, um ein Maß (f2) der Ähnlichkeit eines Kandidatenkunstsprachenworts (W), das in das Spracherkennungssystem (34 ) gesprochen wird, zu einem zugehörigen Wort eines Satzes von Referenzwörtern gemessen durch das Spracherkennungssystem (34 ) herzuleiten und als zumindest einen Teil der Eignungsfunktion zu verwenden. - Vorrichtung gemäß einem der Ansprüche 25 bis 35, bei der die Bewertungseinrichtung ein Spracherkennungssystem (
34 ) umfaßt, wobei die Bewertungseinrichtung betreibbar ist, um in Kombination für die Eignungsfunktion eine Kombination aus den nachfolgenden herzuleiten und zu verwenden: einem Maß (f1) der Leichtigkeit der korrekten Erkennung eines Kandidatenkunstsprachenworts (W), wenn es in das Spracherkennungssystem (34 ) gesprochen wird; und einem Maß (f2) der Ähnlichkeit eines Kandidatenkunstsprachenworts (W), das in das Spracherkennungssystem (34 ) gesprochen wird, zu einem zugehörigen Wort eines Satzes von Referenzwörtern gemessen durch das Spracherkennungssystem. - Vorrichtung gemäß einem der Ansprüche 36 bis 38, bei der die Bewertungseinrichtung ferner mehrere Text-Zu-Sprache-Wandler (
33 ) umfaßt, die betreibbar sind, um Kandidatenkunstsprachenwörter (W) abwechselnd in das Spracherkennungssystem (34 ) zu sprechen, wobei das Eignungsmaß (f1; f2) im Hinblick auf ein bestimmtes Wort hergestellt wird, das eine Kombination der Maße ist, die für das Sprechen des Worts durch jeden Wandler hergestellt werden. - Vorrichtung gemäß einem der Ansprüche 36 bis 38, bei der die Bewertungseinrichtung ferner ein Text-Zu- Sprache-Umwandlersystem (
33 ) umfaßt, das betreibbar ist, um die Kandidatenkunstsprachenwörter (W) in das Spracherkennungssystem (34 ) zu sprechen, wobei der Kanal, der diese Systeme umfaßt, auf eine solche Weise implementiert ist, daß das Eignungsmaß zumindest eine gewünschte Operationscharakteristik berücksichtigt. - Vorrichtung gemäß Anspruch 40, bei der die zumindest eine gewünschte Operationscharakteristik zumindest eine ist aus: Geschlechtsunabhängigkeit, wobei zu diesem Zweck das Text-Zu-Sprache-System mit mehreren Text-Zu-Sprache-Wandlern versehen ist, die unterschiedlichen Geschlechtern entsprechen, um gesprochene Versionen der Wörter zu erzeugen; akustischer Unabhängigkeit, wobei zu diesem Zweck das Spracherkennungssystem mit mehreren Spracherkennern versehen ist, die unterschiedlichen akustischen Modellen entsprechen; Robustheit gegen Rauschen, wobei zu diesem Zweck Rauschen in den Kanal eingebracht wird.
- Vorrichtung gemäß einem der Ansprüche 25 bis 41, bei der die Entwicklungseinrichtung (
45 ;55 ) betreibbar ist, um die Individuen zu entwickeln, die ausgewählt sind, um die nächste Generation auf eine Weise zu bilden, die die Erzeugung von Kandidatenkunstsprachenwörter (W) unterstützt, die eine gewünschte Charakteristik aufweisen. - Vorrichtung gemäß Anspruch 42, bei der die gewünschte Charakteristik eine Leichtigkeit der Erkennung durch einen automatischen Spracherkenner ist.
- Vorrichtung gemäß Anspruch 42, bei der die gewünschte Charakteristik Ähnlichkeit zu Wörtern der natürlichen Sprache ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB0114236.3A GB0114236D0 (en) | 2001-06-12 | 2001-06-12 | Artificial language generation |
GB0114236 | 2001-06-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60200857D1 DE60200857D1 (de) | 2004-09-09 |
DE60200857T2 true DE60200857T2 (de) | 2005-08-04 |
Family
ID=9916380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60200857T Expired - Fee Related DE60200857T2 (de) | 2001-06-12 | 2002-05-13 | Erzeugung einer künstlichen Sprache |
Country Status (4)
Country | Link |
---|---|
US (1) | US20020198715A1 (de) |
EP (1) | EP1267326B1 (de) |
DE (1) | DE60200857T2 (de) |
GB (1) | GB0114236D0 (de) |
Families Citing this family (125)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7366500B1 (en) | 2004-03-23 | 2008-04-29 | Microsoft Corporation | SMS shorthand dictionary service |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8509826B2 (en) | 2005-09-21 | 2013-08-13 | Buckyball Mobile Inc | Biosensor measurements included in the association of context data with a text message |
US8509827B2 (en) | 2005-09-21 | 2013-08-13 | Buckyball Mobile Inc. | Methods and apparatus of context-data acquisition and ranking |
US7551935B2 (en) * | 2005-09-21 | 2009-06-23 | U Owe Me, Inc. | SMS+4D: short message service plus 4-dimensional context |
US8515468B2 (en) | 2005-09-21 | 2013-08-20 | Buckyball Mobile Inc | Calculation of higher-order data from context data |
US9166823B2 (en) * | 2005-09-21 | 2015-10-20 | U Owe Me, Inc. | Generation of a context-enriched message including a message component and a contextual attribute |
US8275399B2 (en) * | 2005-09-21 | 2012-09-25 | Buckyball Mobile Inc. | Dynamic context-data tag cloud |
US9042921B2 (en) | 2005-09-21 | 2015-05-26 | Buckyball Mobile Inc. | Association of context data with a voice-message component |
US8489132B2 (en) | 2005-09-21 | 2013-07-16 | Buckyball Mobile Inc. | Context-enriched microblog posting |
US7580719B2 (en) * | 2005-09-21 | 2009-08-25 | U Owe Me, Inc | SMS+: short message service plus context support for social obligations |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) * | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (de) | 2013-06-09 | 2016-04-20 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4935877A (en) * | 1988-05-20 | 1990-06-19 | Koza John R | Non-linear genetic algorithms for solving problems |
US5343554A (en) * | 1988-05-20 | 1994-08-30 | John R. Koza | Non-linear genetic process for data encoding and for solving problems using automatically defined functions |
GB8817705D0 (en) * | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
US5754977A (en) * | 1996-03-06 | 1998-05-19 | Intervoice Limited Partnership | System and method for preventing enrollment of confusable patterns in a reference database |
US6044343A (en) * | 1997-06-27 | 2000-03-28 | Advanced Micro Devices, Inc. | Adaptive speech recognition with selective input data to a speech classifier |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
US6892191B1 (en) * | 2000-02-07 | 2005-05-10 | Koninklijke Philips Electronics N.V. | Multi-feature combination generation and classification effectiveness evaluation using genetic algorithms |
US6868380B2 (en) * | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
US6898761B2 (en) * | 2000-05-01 | 2005-05-24 | Raytheon Company | Extensible markup language genetic algorithm |
-
2001
- 2001-06-12 GB GBGB0114236.3A patent/GB0114236D0/en not_active Ceased
-
2002
- 2002-05-13 DE DE60200857T patent/DE60200857T2/de not_active Expired - Fee Related
- 2002-05-13 EP EP02253325A patent/EP1267326B1/de not_active Expired - Fee Related
- 2002-06-11 US US10/166,256 patent/US20020198715A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
GB0114236D0 (en) | 2001-08-01 |
EP1267326A1 (de) | 2002-12-18 |
US20020198715A1 (en) | 2002-12-26 |
DE60200857D1 (de) | 2004-09-09 |
EP1267326B1 (de) | 2004-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60200857T2 (de) | Erzeugung einer künstlichen Sprache | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE3788488T2 (de) | Sprachenübersetzungssystem. | |
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE68926749T2 (de) | Sprachtraining | |
DE69828141T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
US20020198712A1 (en) | Artificial language generation and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |