DE3931638A1 - Verfahren zur sprecheradaptiven erkennung von sprache - Google Patents
Verfahren zur sprecheradaptiven erkennung von spracheInfo
- Publication number
- DE3931638A1 DE3931638A1 DE3931638A DE3931638A DE3931638A1 DE 3931638 A1 DE3931638 A1 DE 3931638A1 DE 3931638 A DE3931638 A DE 3931638A DE 3931638 A DE3931638 A DE 3931638A DE 3931638 A1 DE3931638 A1 DE 3931638A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- vocabulary
- recognition
- speech
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003044 adaptive effect Effects 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 6
- 230000006978 adaptation Effects 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 235000021012 strawberries Nutrition 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Electric Clocks (AREA)
Description
Die Erfindung betrifft ein Verfahren zur
sprecheradaptiven Erkennung von Sprache. Ein
leistungsfähiges Spracherkennungsverfahren hat unter
anderem folgende Anforderungen zu erfüllen: Es müssen
sowohl isolierte Wörter als auch ein fließender Redetext
erkannt werden. Auch bei sehr großen Wortschätzen sollte
die Erkennung möglichst in Echtzeit stattfinden. Es ist
eine schnelle Adaption an einen neuen Sprecher
erforderlich. Eine beliebige Generierung von
Referenz-Wörtern und Erweiterung des Wortschatzes soll
ohne (gar mehrfaches) Vorsprechen der hinzugefügten
Wörter möglich sein. Aussprachevarianten einzelner
Wörter müssen automatisch generiert werden können, und
zwar ohne explizites Vorsprechen dieser Varianten. Bei
fließender Rede soll eine Analyse sich überlappender
Worthypothesen die gesprochene Phrase erkennen lassen.
Die bekannten Verfahren zur Spracherkennung aus einem
großen Wortschatz (IBM, Dragon, AT, BBN,
Caregie-Mellon-Universität (CMU)/Pittsburgh;
Übersichtsartikel: Fallside F (1989) Progress in large
vocabulary speech recognition. Speech Technology 4(4),
14-15) wenden vorwiegend Hidden-Markov-Modelle auf
Phonembasis an. In keinem dieser Systeme ist eine
automatische Wortschatz-Generierung bzw. -Erweiterung
aus geschriebenem Text enthalten. Bei den Erkennern von
IBM und Dragon müssen die Wörter isoliert gesprochen
werden, während die Erkenner bei AT, BBN und CMU nicht
sprecheradaptiv arbeiten.
Üblicherweise muß jedes Wort - im Falle einer
sprecherabhängigen Erkennung - vom Benutzer ein- oder
mehrmals ausgesprochen werden, darüber hinaus - im Fall
der sprecherunabhängigen Erkennung - von einer sehr
großen Anzahl von Sprechern (Größenordnung 100 bis 1000)
mindestens je einmal. Ein solch aufwendiges
Trainingsverfahren kann vermieden werden, wenn
sprecheradaptive Verfahren verwendet werden. Mit
zunehmendem Vokabularumfang ist es hinsichtlich einer
echtzeitnahen Spracherkennung notwendig, schnell und
ohne großen Rechenaufwand eine kurze Liste
wahrscheinlich gesprochener "Wortkandidaten" zu
erstellen. Aus diesem Untervokabular aus Wortkandidaten
werden anschließend im Zuge der Feinanalyse die
gesprochenen Wörter ermittelt. Eine solche Präselektion
basiert auf der Klassifikation von groben Merkmalen in
Wortuntereinheiten, z.B. in einzelnen Merkmalsvektoren,
Phonemen oder Diphonen. Dies stellt für isoliert
gesprochene Wörter - auch aus großen Vokabularen -
ebenso wie für Ziffernfolgen (vergleiche Chen FR (1986)
Lexical access and verification in a broad phonetic
approach to continuous digit recognition. IEEE ICASSP,
27.7.1-4; Lagger H, Waibel A (1985) A coarse phonetic
knowledge source for template independent large
vocabular word recognition. IEEE ICASSP(2), 23.6.1-4;
Lubensky D, Feix W (1896) Fast feature-based
preclassification of segments in continuous digit
recognition. IEEE ICASSP, 27.6.1-4) ein praktikables
Verfahren dar. Bei kontinuierlich gesprochener Sprache
und größerem Wortschatz führt dies hingegen bereits bei
mittleren Vokabulargrößen zu einer unüberschaubaren
Hypothesenflut, da prinzipiell bei jeder dieser kleinen
Einheiten ein neues Wort anfangen kann und bei jeder
Einheit der gesamte Wortvorrat zu durchsuchen wäre. Eine
zwei- oder dreidimensionale dynamische Programmierung
ist aus Micca G, Pieraccini R, Laface P (1987) Three
dimensional DP for phonetic lattice matching. Int Conf
on Dig Signal Proc, Firence, Italy und Ruske G, Weigel W
(1986) Dynamische Programmierung auf der Basis
silbenorientierter Einheiten zur automatischen Erkennung
gesprochener Sätze. NTG-Fachberichte 94,
Sprachkommunikation, 91-96 bekannt.
Bei den bekannten Verfahren sind die vorstehend
genannten Anforderungen nicht vollständig und teilweise
nicht ganz zufriedenstellend erfüllt.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren
zur sprecheradaptiven Erkennung von Sprache zu schaffen,
das in der Lage ist, sowohl isolierte Wörter als auch
kontinuierliche Sprache bei einem praktisch unbegrenzten
Vokabular echtzeitnah zu erkennen und das auch die
weiteren Anforderungen an ein leistungsfähiges
Spracherkennungsverfahren erfüllt.
Diese Aufgabe wird erfindungsgemäß durch das Verfahren
nach Patentanspruch 1 gelöst.
Weiterbildungen der Erfindung sind den Unteransprüchen
zu entnehmen. Die Vorteile der Erfindung liegen
insbesondere in der Robustheit der Wortmustererkennung
bei fehlerhafter Silbensegmentierung und bei variabler
Aussprache, z.B. beim Verschlucken von Silben. Große
Referenzwortschätze brauchen nicht explizit
vorgesprochen zu werden. Silbenorientierte
Wortuntereinheiten ermöglichen im Vergleich zu den sonst
gebräuchlichen Phonemen eine effizientere Generierung
von Worthypothesen.
Ein Ausführungsbeispiel der Erfindung wird im folgenden
anhand der Zeichnung erläutert. Es zeigen:
Fig. 1 ein Funktionsdiagramm, das den modularen Aufbau
des erfindungsgemäßen Verfahrens erkennen läßt,
Fig. 2 ein Diagramm zur Erläuterung des
dreidimensionalen zeitdynamischen Vergleichs
zur Worterkennung, und
Fig. 3 ein Funktionsdiagramm zur Erläuterung der
akustischen Präselektion eines Untervokabulars
bei der Erkennung isolierter Wörter oder
fließender Rede.
Bei einem zur erkennenden Sprachsignal 1 findet zunächst
eine Extraktion 2 von Merkmalsvektoren statt. Ein
solcher Merkmalsvektor wird z.B. aus
Filterbank-Koeffizienten gebildet, die die Intensitäten
für die verschiedenen Frequenzbereiche des Signals
kennzeichnen. Anschließend wird eine automatische
Segmentierung und Klassifikation 3 der
aufeinanderfolgenden Merkmalsvektoren durchgeführt, und
zwar in silbenorientierte Wortuntereinheiten. Geeignete
silbenorientierte Wortuntereinheiten sind z.B.
CVC-Einheiten (CVC für: consonant cluster - vocalic
syllable kernel - consonant cluster), die aus einem
vokalischen Silbenkern V mit vorausgehender
silbeninitialer und nachfolgender silbenfinaler
Konsonantenfolge oder einzelnen konsonantischen Phonemen
C je Silbe bestehen. Die Segmentierung und
Klassifikation 3 der Vektorfolgen wird anhand eines
gespeicherten Vorrats an Wortuntereinheiten, im
folgenden als Wortuntereinheiten-Inventar 4 bezeichnet,
durchgeführt. Die Segmentierung und Klassifikation 3 der
Vektorfolgen ergibt ein Hypothesennetz 6 (oder auch
Netzwerk) aus Wortuntereinheiten, das einer
Worterkennung 7 zugeführt wird.
Ein Wortschatz 8 enthält abgespeicherte Referenzmuster
von Wörtern. In dem Verfahrensschritt Worterkennung 7
wird aus dem Hypothesennetz 6 aus Wortuntereinheiten
unter Zugriff auf die abgespeicherten Referenzmuster ein
Netz 10 von Worthypothesen regeneriert. Diese
Worthypothesen werden sich bei kontinuierlicher Sprache
im allgemeinen überlappen; aus ihnen wird in einem
nachfolgenden Syntax-Schritt 12 die gesprochene Phrase
oder der gesprochene Satz ermittelt.
In einem Verfahrenschritt Sprecheradaptivität 13 wird in
einer kurzen Trainingsphase das
Spracherkennungsverfahren an einen neuen Benutzer
angepaßt, ohne daß dieser den gesamten Wortschatz
vorsprechen muß. Dieser Verfahrensschritt wird als
Hybridansatz durchgeführt, d.h. er wird sowohl auf die
Ebene der Merkmalsvektoren als auch auf die Ebene der
Wortuntereinheiten angewendet.
Der in dem Verfahren verwendete Wortschatz 8 wird durch
die Eingabe von geschriebenem Text 14 erstellt und
erweitert. Die Grapheme dieses Textes werden in einer
Graphem-Umsetzung 15 automatisch in die hier verwendete
Wortuntereinheiten-Notierung der Wörter umgewandelt. Die
gleichfalls erzeugten Aussprachevarianten werden
ebenfalls in diese Wortuntereinheiten-Notierung
umgesetzt.
Um das Suchen in großen Wortschätzen zu beschleunigen,
ist eine Präselektion 16 vorgesehen, mit deren Hilfe
lediglich ein ausgewähltes Untervokabular auf
Ähnlichkeit mit der gesprochenen Äußerung untersucht
wird.
Die Verfahrensschritte oder Module Worterkennung 7 und
Wortschatz 8 werden nun anhand von Fig. 2 eingehender
erläutert. Die Worterkennung 7 wird durchgeführt, indem
das Hypothesennetz 6 aus Wortuntereinheiten des
Testmusters mit den Referenzmustern im Wortschatz 8
verglichen werden. In diesen Referenzmustern oder
Wortmodellen sind neben der Standardaussprache des
jeweiligen Wortes auch Aussprachevarianten, und zwar
Lineare Varianten einzelner Wortuntereinheiten oder
Varianten mit Silbenauslassungen, integriert. In dem
Wortschatz 8 (Fig. 2) ist dies beispielshaft anhand des
Wortes "Erdbeeren" dargestellt: Die Standardaussprache
V1 als dreisilbiges Wort, eine (lineare) Variante V2 an
einer Stelle, sowie eine Silbensprung-Variante V3.
Sowohl als Referenzmuster aus dem Wortschatz 8 wie auch
als Testmuster liegt je ein Wortuntereinheiten-Netz vor.
Zur Worterkennung muß deshalb ein dreidimensionaler
zeitdynamischer Vergleich 18 durchgeführt werden, bei
dem zwei Dimensionen durch die zeitliche Entwicklung von
Test- und Referenzmuster gegeben sind, während die
dritte Dimension von den verschiedenen Hypothesen oder
Aussprachevarianten pro Wortuntereinheit aufgespannt
wird.
Es sind zwar schon Spracherkennungs-Verfahren mit
dreidimensionalem Vergleich bekannt, sie verarbeiten
aber höchstens zwei Alternativen pro Wortuntereinheit
und beruhen insbesondere auf einer Segmentierung der
Sprachsignale in Folgen von Phonemen. Dies hat eine ganz
erhebliche Anzahl von möglichen Zuordnungen zur Folge.
Die in dem erfindungsgemäßen Verfahren verwendeten
silbenorientierten Wortuntereinheiten bieten dagegen den
Vorteil, daß bei der zeitdynamischen Musteranpassung nur
Einfügungen oder Auslassungen von ganzen Silben
vorkommen können, z.B. von einem Vokal zur silbenfinalen
Konsonantenfolge der nachfolgende Silbe (aus CVC/CVC
wird CVC). Dies hat eine erhebliche Einschränkung der
möglichen Zuordnungen im Vergeich zu den bekannten
Verfahren zur Folge.
Um das Vokabular aus einem geschriebenen Text
automatisch zu erstellen und zu erweitern, wird die
Orthografie - auch Rechtschrift oder Graphemfolge
eines neuen Wortes umgewandelt in eine Folge von Indizes
von silbenorientierten Wortuntereinheiten. Diese
entsprechen den Indizes der Elemente des Inventars 4,
das in der Worterkennung 7 als Referenz zur
Klassifikation der akustischen oder gesprochenen
Wortuntereinheiten verwendet wird. Die
Referenz-Wortuntereinheiten werden in der Trainingsphase
aus markierten Sprachdaten gewonnen, die alle
vorkommenden Wortuntereinheiten enthalten. Ein
Worteintrag in das Vokabular enthält demgemäß neben der
Orthografie, Silbenzahl usw. solche Indexfolgen für die
Standardaussprache und die Aussprachevarianten. Während
der Worterkennung werden diese Indexfolgen mit dem
Hypothesennetz aus Wortuntereinheiten - die ebenfalls in
Indexform vorliegen - verglichen (Fig. 2). Entscheidend
ist hier die Kompatibilität zwischen der Verarbeitung
des Sprachsignals zu Wortuntereinheiten und der damit
übereinstimmenden Analyse des geschriebenen Textes.
Um sowohl der hohen Variabilität der Aussprache eines
einzelnen Benutzers und erst recht der Aussprache
verschiedener Benutzer Rechnung zu tragen, ist es im
Hinblick auf eine zuverlässige Spracherkennung außerdem
vorteilhaft, Aussprachevarianten zu berücksichtigen. Bei
umfangreichen Wortschätzen ist nur die automatische
Generierung solcher Aussprachevarianten mit Hilfe
phonologischer Regeln praktikabel.
Um den Suchvorgang in umfangreichen Wortschätzen zu
beschleunigen, wird eine Präselektion 18 (Fig. 3)
angewendet, mit deren Hilfe lediglich ein ausgewähltes
Untervokabular auf Ähnlichkeit mit der gesprochenen
Äußerung untersucht wird. Die Präselektion beruht auf
einer Klassifikation 19 nach "groben" silbenorientierten
Wortuntereinheiten und einer "groben" und robusten Suche
(Worterkennung) 20 in einem Wortschatz 21, der
entsprechend "grob" kodierte Einträge enthält. Das
Referenzmaterial zu der Identifikation der groben
Wortuntereinheiten, ein sogenanntes Grob-Inventar 22,
wird aus dem alle Wortuntereinheiten umfassenden
Inventar 4 durch Klassenbildung generiert, die getrennt
je nach Typ der Wortuntereinheit erfolgt, z.B. jeweils
Vokale, silbeninitiale oder -finale Konsonatenfolgen.
Dabei werden akustisch ähnliche Wortuntereinheiten in
sogenannten Clustern zusammengefaßt. Dies kann z.B.
wahlweise durch eine akustische Beurteilung, durch eine
Ermittlung disjunkter Untermengen auf der Basis von
Ähnlichkeits- oder Verwechslungsmatrizen und/oder mit
Hilfe bekannter Clusteringverfahren erfolgen.
Das Zwischenergebnis nach der Grob-Klassifikation
entsprechend dem groben Referenzinventar besteht also
aus einer Folge 24 aus groben Wortuntereinheiten. Aus
dieser Folge 24 ermittelt das Modul zur groben
Worterkennung 20 ein Untervokabular 25 mit den
bestpassenden Wortkandidaten. Deren Wortmodelle, d.h.
deren Wortuntereinheiten-Notierungen für die
Standardaussprache und die Aussprachevarianten werden in
der Worterkennung 7 zum Vergleich mit dem Hypothesennetz
6 herangezogen und nochmals eine Auswahl 16 getroffen.
Die beschriebene Präselektion eignet sich im Gegensatz
zu allen bisher bekannten Methoden sowohl zur schnellen
Vorauswahl eines Untervokabulars bei der Erkennung von
Einzelwörtern als auch von verbundener Sprache, da die
Generierung von Wortkandidaten auf die Silbenanfänge
reduziert ist und somit eine überschaubare
Hypothesenmenge erzeugt.
Claims (6)
1. Verfahren zur sprecheradaptiven Erkennung von
Sprache, dadurch gekennzeichnet,
- - daß aus dem zu erkennenden Sprachsignal Merkmalsvektoren extrahiert werden,
- - daß die aufeinanderfolgenden extrahierten Merkmalsvektoren in silbenorientierte Wortuntereinheiten segmentiert und klassifiziert werden, und
- - daß mit diesen Wortuntereinheiten mit Mehrfachhypothesen aus einem abgespeicherten Testmuster-Inventar ein dreidimensionaler zeitdynamischer Vergleich mit Aussprachevarianten aus einem Referenzmuster-Wortschatz durchgeführt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß bei fließender Rede die sich überlappenden
Worthypothesen einer syntaktischen Analyse unterworfen
und dadurch die gesprochene Phrase ermittelt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß die abgespeicherten Referenz-Sprachdaten mit einem
Hybridansatz anhand der in einer kurzen Trainingsphase
gesprochenen Äußerungen eines neuen Sprechers an diesen
Sprecher adaptiert werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet,
daß sowohl die Merkmalsvektoren als auch die
Wortuntereinheiten adaptiert werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß der abgespeicherte Wortschatz einschließlich
Aussprachevarianten durch Eingeben von geschriebenem
Text und regelbasiertes Umsetzen dieses Textes in
Symbole für Wortuntereinheiten generiert und erweitert
wird.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß zum beschleunigten Erkennen von Sprache bei großen
gespeicherten Wortschätzen eine Präselektion eines
Untervokabulars mit Hilfe von silbenorientierten
Wortuntereinheiten durchgeführt wird.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE3931638A DE3931638A1 (de) | 1989-09-22 | 1989-09-22 | Verfahren zur sprecheradaptiven erkennung von sprache |
ES90117539T ES2086345T3 (es) | 1989-09-22 | 1990-09-12 | Metodo para el reconocimiento del habla adaptable al usuario. |
AT90117539T ATE134275T1 (de) | 1989-09-22 | 1990-09-12 | Verfahren zur sprecheradaptiven erkennung von sprache |
DE59010131T DE59010131D1 (de) | 1989-09-22 | 1990-09-12 | Verfahren zur sprecheradaptiven Erkennung von Sprache |
EP90117539A EP0418711B1 (de) | 1989-09-22 | 1990-09-12 | Verfahren zur sprecheradaptiven Erkennung von Sprache |
AU62559/90A AU640164B2 (en) | 1989-09-22 | 1990-09-17 | Method of speech recognition |
US07/586,086 US5170432A (en) | 1989-09-22 | 1990-09-21 | Method of speaker adaptive speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE3931638A DE3931638A1 (de) | 1989-09-22 | 1989-09-22 | Verfahren zur sprecheradaptiven erkennung von sprache |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3931638A1 true DE3931638A1 (de) | 1991-04-04 |
Family
ID=6389967
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3931638A Withdrawn DE3931638A1 (de) | 1989-09-22 | 1989-09-22 | Verfahren zur sprecheradaptiven erkennung von sprache |
DE59010131T Expired - Lifetime DE59010131D1 (de) | 1989-09-22 | 1990-09-12 | Verfahren zur sprecheradaptiven Erkennung von Sprache |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59010131T Expired - Lifetime DE59010131D1 (de) | 1989-09-22 | 1990-09-12 | Verfahren zur sprecheradaptiven Erkennung von Sprache |
Country Status (6)
Country | Link |
---|---|
US (1) | US5170432A (de) |
EP (1) | EP0418711B1 (de) |
AT (1) | ATE134275T1 (de) |
AU (1) | AU640164B2 (de) |
DE (2) | DE3931638A1 (de) |
ES (1) | ES2086345T3 (de) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE19857070A1 (de) * | 1998-12-10 | 2000-06-15 | Michael Mende | Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes |
DE19942869A1 (de) * | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen |
DE10017717A1 (de) * | 2000-04-11 | 2001-10-18 | Kostal Leopold Gmbh & Co Kg | Spracheingabe gesteuertes Steuergerät |
US6453293B1 (en) | 1998-05-15 | 2002-09-17 | Siemens Aktiengesellschaft | Method and device for recognizing at least one keyword in spoken speech using a computer |
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
DE10337823A1 (de) * | 2003-08-18 | 2005-03-17 | Siemens Ag | Sprachsteuerung von Audio- und Videogeräten |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1229782B (it) * | 1989-05-22 | 1991-09-11 | Face Standard Ind | Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento |
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
US5425129A (en) * | 1992-10-29 | 1995-06-13 | International Business Machines Corporation | Method for word spotting in continuous speech |
ES2078834B1 (es) * | 1992-10-30 | 1997-04-16 | Alcatel Standard Electrica | Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas. |
DE4412930A1 (de) * | 1994-04-15 | 1995-10-19 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern |
US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
ATE190167T1 (de) * | 1994-09-20 | 2000-03-15 | Philips Corp Intellectual Pty | System zum ermitteln von wörtern aus einem sprachsignal |
CN1130688C (zh) * | 1995-05-03 | 2003-12-10 | 皇家菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
JP5025759B2 (ja) * | 1997-11-17 | 2012-09-12 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発音矯正装置、発音矯正方法および記録媒体 |
JP4267101B2 (ja) | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) * | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
JP3720595B2 (ja) * | 1998-09-17 | 2005-11-30 | キヤノン株式会社 | 音声認識装置及びその方法、コンピュータ可読メモリ |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6868381B1 (en) * | 1999-12-21 | 2005-03-15 | Nortel Networks Limited | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition |
US7089184B2 (en) | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US7136852B1 (en) * | 2001-11-27 | 2006-11-14 | Ncr Corp. | Case-based reasoning similarity metrics implementation using user defined functions |
US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
US20030115169A1 (en) * | 2001-12-17 | 2003-06-19 | Hongzhuan Ye | System and method for management of transcribed documents |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
WO2004029773A2 (en) * | 2002-09-27 | 2004-04-08 | Callminer, Inc. | Software for statistical analysis of speech |
KR100486733B1 (ko) * | 2003-02-24 | 2005-05-03 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
US20060031069A1 (en) * | 2004-08-03 | 2006-02-09 | Sony Corporation | System and method for performing a grapheme-to-phoneme conversion |
US20070094270A1 (en) * | 2005-10-21 | 2007-04-26 | Callminer, Inc. | Method and apparatus for the processing of heterogeneous units of work |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9747897B2 (en) * | 2013-12-17 | 2017-08-29 | Google Inc. | Identifying substitute pronunciations |
WO2015105994A1 (en) | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
US9570069B2 (en) * | 2014-09-09 | 2017-02-14 | Disney Enterprises, Inc. | Sectioned memory networks for online word-spotting in continuous speech |
KR102371697B1 (ko) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US11691076B2 (en) | 2020-08-10 | 2023-07-04 | Jocelyn Tan | Communication with in-game characters |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4780906A (en) * | 1984-02-17 | 1988-10-25 | Texas Instruments Incorporated | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
IT1229782B (it) * | 1989-05-22 | 1991-09-11 | Face Standard Ind | Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento |
-
1989
- 1989-09-22 DE DE3931638A patent/DE3931638A1/de not_active Withdrawn
-
1990
- 1990-09-12 DE DE59010131T patent/DE59010131D1/de not_active Expired - Lifetime
- 1990-09-12 EP EP90117539A patent/EP0418711B1/de not_active Expired - Lifetime
- 1990-09-12 AT AT90117539T patent/ATE134275T1/de active
- 1990-09-12 ES ES90117539T patent/ES2086345T3/es not_active Expired - Lifetime
- 1990-09-17 AU AU62559/90A patent/AU640164B2/en not_active Ceased
- 1990-09-21 US US07/586,086 patent/US5170432A/en not_active Expired - Lifetime
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
US6453293B1 (en) | 1998-05-15 | 2002-09-17 | Siemens Aktiengesellschaft | Method and device for recognizing at least one keyword in spoken speech using a computer |
DE19857070A1 (de) * | 1998-12-10 | 2000-06-15 | Michael Mende | Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes |
DE19942869A1 (de) * | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen |
DE10017717A1 (de) * | 2000-04-11 | 2001-10-18 | Kostal Leopold Gmbh & Co Kg | Spracheingabe gesteuertes Steuergerät |
DE10017717B4 (de) * | 2000-04-11 | 2006-01-05 | Leopold Kostal Gmbh & Co. Kg | Spracheingabe gesteuertes Steuergerät |
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
DE10337823A1 (de) * | 2003-08-18 | 2005-03-17 | Siemens Ag | Sprachsteuerung von Audio- und Videogeräten |
Also Published As
Publication number | Publication date |
---|---|
EP0418711A2 (de) | 1991-03-27 |
AU640164B2 (en) | 1993-08-19 |
US5170432A (en) | 1992-12-08 |
AU6255990A (en) | 1991-03-28 |
DE59010131D1 (de) | 1996-03-28 |
EP0418711B1 (de) | 1996-02-14 |
ES2086345T3 (es) | 1996-07-01 |
ATE134275T1 (de) | 1996-02-15 |
EP0418711A3 (en) | 1991-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0418711B1 (de) | Verfahren zur sprecheradaptiven Erkennung von Sprache | |
DE69713452T2 (de) | Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese | |
Kat et al. | Fast accent identification and accented speech recognition | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
EP0984428B1 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
Mercier et al. | The KEAL speech understanding system | |
de Mareüil et al. | Multi-lingual automatic phoneme clustering | |
Billa et al. | Arabic speech and text in Tides OnTap | |
Minematsu et al. | Integration of MLLR adaptation with pronunciation proficiency adaptation for non-native speech recognition | |
DE10034235C1 (de) | Verfahren zur Spracherkennung und Spracherkenner | |
Sakai et al. | A classification method of spoken words in continuous speech for many speakers | |
Gong et al. | Phoneme-based continuous speech recognition without pre-segmentation. | |
EP1172802B1 (de) | Sprecherabhängige Adaption der phonetischen Transkriptionen eines Aussprache-Lexikons | |
Gong et al. | DURATION () F PH () NES AS FUNCTION (OF UTTERANCE LENCTH AND) ITS USE IN AUT () MATIC SPEECH RECOGNITION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |