DE3931638A1 - Verfahren zur sprecheradaptiven erkennung von sprache - Google Patents

Verfahren zur sprecheradaptiven erkennung von sprache

Info

Publication number
DE3931638A1
DE3931638A1 DE3931638A DE3931638A DE3931638A1 DE 3931638 A1 DE3931638 A1 DE 3931638A1 DE 3931638 A DE3931638 A DE 3931638A DE 3931638 A DE3931638 A DE 3931638A DE 3931638 A1 DE3931638 A1 DE 3931638A1
Authority
DE
Germany
Prior art keywords
word
vocabulary
recognition
speech
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE3931638A
Other languages
English (en)
Inventor
Heidi Dr Rer Nat Hackbarth
Manfred Dr Rer Na Immendoerfer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent Deutschland AG
Original Assignee
Standard Elektrik Lorenz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Standard Elektrik Lorenz AG filed Critical Standard Elektrik Lorenz AG
Priority to DE3931638A priority Critical patent/DE3931638A1/de
Priority to ES90117539T priority patent/ES2086345T3/es
Priority to AT90117539T priority patent/ATE134275T1/de
Priority to DE59010131T priority patent/DE59010131D1/de
Priority to EP90117539A priority patent/EP0418711B1/de
Priority to AU62559/90A priority patent/AU640164B2/en
Priority to US07/586,086 priority patent/US5170432A/en
Publication of DE3931638A1 publication Critical patent/DE3931638A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Electric Clocks (AREA)

Description

Die Erfindung betrifft ein Verfahren zur sprecheradaptiven Erkennung von Sprache. Ein leistungsfähiges Spracherkennungsverfahren hat unter anderem folgende Anforderungen zu erfüllen: Es müssen sowohl isolierte Wörter als auch ein fließender Redetext erkannt werden. Auch bei sehr großen Wortschätzen sollte die Erkennung möglichst in Echtzeit stattfinden. Es ist eine schnelle Adaption an einen neuen Sprecher erforderlich. Eine beliebige Generierung von Referenz-Wörtern und Erweiterung des Wortschatzes soll ohne (gar mehrfaches) Vorsprechen der hinzugefügten Wörter möglich sein. Aussprachevarianten einzelner Wörter müssen automatisch generiert werden können, und zwar ohne explizites Vorsprechen dieser Varianten. Bei fließender Rede soll eine Analyse sich überlappender Worthypothesen die gesprochene Phrase erkennen lassen.
Die bekannten Verfahren zur Spracherkennung aus einem großen Wortschatz (IBM, Dragon, AT, BBN, Caregie-Mellon-Universität (CMU)/Pittsburgh; Übersichtsartikel: Fallside F (1989) Progress in large vocabulary speech recognition. Speech Technology 4(4), 14-15) wenden vorwiegend Hidden-Markov-Modelle auf Phonembasis an. In keinem dieser Systeme ist eine automatische Wortschatz-Generierung bzw. -Erweiterung aus geschriebenem Text enthalten. Bei den Erkennern von IBM und Dragon müssen die Wörter isoliert gesprochen werden, während die Erkenner bei AT, BBN und CMU nicht sprecheradaptiv arbeiten.
Üblicherweise muß jedes Wort - im Falle einer sprecherabhängigen Erkennung - vom Benutzer ein- oder mehrmals ausgesprochen werden, darüber hinaus - im Fall der sprecherunabhängigen Erkennung - von einer sehr großen Anzahl von Sprechern (Größenordnung 100 bis 1000) mindestens je einmal. Ein solch aufwendiges Trainingsverfahren kann vermieden werden, wenn sprecheradaptive Verfahren verwendet werden. Mit zunehmendem Vokabularumfang ist es hinsichtlich einer echtzeitnahen Spracherkennung notwendig, schnell und ohne großen Rechenaufwand eine kurze Liste wahrscheinlich gesprochener "Wortkandidaten" zu erstellen. Aus diesem Untervokabular aus Wortkandidaten werden anschließend im Zuge der Feinanalyse die gesprochenen Wörter ermittelt. Eine solche Präselektion basiert auf der Klassifikation von groben Merkmalen in Wortuntereinheiten, z.B. in einzelnen Merkmalsvektoren, Phonemen oder Diphonen. Dies stellt für isoliert gesprochene Wörter - auch aus großen Vokabularen - ebenso wie für Ziffernfolgen (vergleiche Chen FR (1986) Lexical access and verification in a broad phonetic approach to continuous digit recognition. IEEE ICASSP, 27.7.1-4; Lagger H, Waibel A (1985) A coarse phonetic knowledge source for template independent large vocabular word recognition. IEEE ICASSP(2), 23.6.1-4; Lubensky D, Feix W (1896) Fast feature-based preclassification of segments in continuous digit recognition. IEEE ICASSP, 27.6.1-4) ein praktikables Verfahren dar. Bei kontinuierlich gesprochener Sprache und größerem Wortschatz führt dies hingegen bereits bei mittleren Vokabulargrößen zu einer unüberschaubaren Hypothesenflut, da prinzipiell bei jeder dieser kleinen Einheiten ein neues Wort anfangen kann und bei jeder Einheit der gesamte Wortvorrat zu durchsuchen wäre. Eine zwei- oder dreidimensionale dynamische Programmierung ist aus Micca G, Pieraccini R, Laface P (1987) Three dimensional DP for phonetic lattice matching. Int Conf on Dig Signal Proc, Firence, Italy und Ruske G, Weigel W (1986) Dynamische Programmierung auf der Basis silbenorientierter Einheiten zur automatischen Erkennung gesprochener Sätze. NTG-Fachberichte 94, Sprachkommunikation, 91-96 bekannt.
Bei den bekannten Verfahren sind die vorstehend genannten Anforderungen nicht vollständig und teilweise nicht ganz zufriedenstellend erfüllt.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur sprecheradaptiven Erkennung von Sprache zu schaffen, das in der Lage ist, sowohl isolierte Wörter als auch kontinuierliche Sprache bei einem praktisch unbegrenzten Vokabular echtzeitnah zu erkennen und das auch die weiteren Anforderungen an ein leistungsfähiges Spracherkennungsverfahren erfüllt.
Diese Aufgabe wird erfindungsgemäß durch das Verfahren nach Patentanspruch 1 gelöst.
Weiterbildungen der Erfindung sind den Unteransprüchen zu entnehmen. Die Vorteile der Erfindung liegen insbesondere in der Robustheit der Wortmustererkennung bei fehlerhafter Silbensegmentierung und bei variabler Aussprache, z.B. beim Verschlucken von Silben. Große Referenzwortschätze brauchen nicht explizit vorgesprochen zu werden. Silbenorientierte Wortuntereinheiten ermöglichen im Vergleich zu den sonst gebräuchlichen Phonemen eine effizientere Generierung von Worthypothesen.
Ein Ausführungsbeispiel der Erfindung wird im folgenden anhand der Zeichnung erläutert. Es zeigen:
Fig. 1 ein Funktionsdiagramm, das den modularen Aufbau des erfindungsgemäßen Verfahrens erkennen läßt,
Fig. 2 ein Diagramm zur Erläuterung des dreidimensionalen zeitdynamischen Vergleichs zur Worterkennung, und
Fig. 3 ein Funktionsdiagramm zur Erläuterung der akustischen Präselektion eines Untervokabulars bei der Erkennung isolierter Wörter oder fließender Rede.
Bei einem zur erkennenden Sprachsignal 1 findet zunächst eine Extraktion 2 von Merkmalsvektoren statt. Ein solcher Merkmalsvektor wird z.B. aus Filterbank-Koeffizienten gebildet, die die Intensitäten für die verschiedenen Frequenzbereiche des Signals kennzeichnen. Anschließend wird eine automatische Segmentierung und Klassifikation 3 der aufeinanderfolgenden Merkmalsvektoren durchgeführt, und zwar in silbenorientierte Wortuntereinheiten. Geeignete silbenorientierte Wortuntereinheiten sind z.B. CVC-Einheiten (CVC für: consonant cluster - vocalic syllable kernel - consonant cluster), die aus einem vokalischen Silbenkern V mit vorausgehender silbeninitialer und nachfolgender silbenfinaler Konsonantenfolge oder einzelnen konsonantischen Phonemen C je Silbe bestehen. Die Segmentierung und Klassifikation 3 der Vektorfolgen wird anhand eines gespeicherten Vorrats an Wortuntereinheiten, im folgenden als Wortuntereinheiten-Inventar 4 bezeichnet, durchgeführt. Die Segmentierung und Klassifikation 3 der Vektorfolgen ergibt ein Hypothesennetz 6 (oder auch Netzwerk) aus Wortuntereinheiten, das einer Worterkennung 7 zugeführt wird.
Ein Wortschatz 8 enthält abgespeicherte Referenzmuster von Wörtern. In dem Verfahrensschritt Worterkennung 7 wird aus dem Hypothesennetz 6 aus Wortuntereinheiten unter Zugriff auf die abgespeicherten Referenzmuster ein Netz 10 von Worthypothesen regeneriert. Diese Worthypothesen werden sich bei kontinuierlicher Sprache im allgemeinen überlappen; aus ihnen wird in einem nachfolgenden Syntax-Schritt 12 die gesprochene Phrase oder der gesprochene Satz ermittelt.
In einem Verfahrenschritt Sprecheradaptivität 13 wird in einer kurzen Trainingsphase das Spracherkennungsverfahren an einen neuen Benutzer angepaßt, ohne daß dieser den gesamten Wortschatz vorsprechen muß. Dieser Verfahrensschritt wird als Hybridansatz durchgeführt, d.h. er wird sowohl auf die Ebene der Merkmalsvektoren als auch auf die Ebene der Wortuntereinheiten angewendet.
Der in dem Verfahren verwendete Wortschatz 8 wird durch die Eingabe von geschriebenem Text 14 erstellt und erweitert. Die Grapheme dieses Textes werden in einer Graphem-Umsetzung 15 automatisch in die hier verwendete Wortuntereinheiten-Notierung der Wörter umgewandelt. Die gleichfalls erzeugten Aussprachevarianten werden ebenfalls in diese Wortuntereinheiten-Notierung umgesetzt.
Um das Suchen in großen Wortschätzen zu beschleunigen, ist eine Präselektion 16 vorgesehen, mit deren Hilfe lediglich ein ausgewähltes Untervokabular auf Ähnlichkeit mit der gesprochenen Äußerung untersucht wird.
Die Verfahrensschritte oder Module Worterkennung 7 und Wortschatz 8 werden nun anhand von Fig. 2 eingehender erläutert. Die Worterkennung 7 wird durchgeführt, indem das Hypothesennetz 6 aus Wortuntereinheiten des Testmusters mit den Referenzmustern im Wortschatz 8 verglichen werden. In diesen Referenzmustern oder Wortmodellen sind neben der Standardaussprache des jeweiligen Wortes auch Aussprachevarianten, und zwar Lineare Varianten einzelner Wortuntereinheiten oder Varianten mit Silbenauslassungen, integriert. In dem Wortschatz 8 (Fig. 2) ist dies beispielshaft anhand des Wortes "Erdbeeren" dargestellt: Die Standardaussprache V1 als dreisilbiges Wort, eine (lineare) Variante V2 an einer Stelle, sowie eine Silbensprung-Variante V3.
Sowohl als Referenzmuster aus dem Wortschatz 8 wie auch als Testmuster liegt je ein Wortuntereinheiten-Netz vor. Zur Worterkennung muß deshalb ein dreidimensionaler zeitdynamischer Vergleich 18 durchgeführt werden, bei dem zwei Dimensionen durch die zeitliche Entwicklung von Test- und Referenzmuster gegeben sind, während die dritte Dimension von den verschiedenen Hypothesen oder Aussprachevarianten pro Wortuntereinheit aufgespannt wird.
Es sind zwar schon Spracherkennungs-Verfahren mit dreidimensionalem Vergleich bekannt, sie verarbeiten aber höchstens zwei Alternativen pro Wortuntereinheit und beruhen insbesondere auf einer Segmentierung der Sprachsignale in Folgen von Phonemen. Dies hat eine ganz erhebliche Anzahl von möglichen Zuordnungen zur Folge. Die in dem erfindungsgemäßen Verfahren verwendeten silbenorientierten Wortuntereinheiten bieten dagegen den Vorteil, daß bei der zeitdynamischen Musteranpassung nur Einfügungen oder Auslassungen von ganzen Silben vorkommen können, z.B. von einem Vokal zur silbenfinalen Konsonantenfolge der nachfolgende Silbe (aus CVC/CVC wird CVC). Dies hat eine erhebliche Einschränkung der möglichen Zuordnungen im Vergeich zu den bekannten Verfahren zur Folge.
Um das Vokabular aus einem geschriebenen Text automatisch zu erstellen und zu erweitern, wird die Orthografie - auch Rechtschrift oder Graphemfolge eines neuen Wortes umgewandelt in eine Folge von Indizes von silbenorientierten Wortuntereinheiten. Diese entsprechen den Indizes der Elemente des Inventars 4, das in der Worterkennung 7 als Referenz zur Klassifikation der akustischen oder gesprochenen Wortuntereinheiten verwendet wird. Die Referenz-Wortuntereinheiten werden in der Trainingsphase aus markierten Sprachdaten gewonnen, die alle vorkommenden Wortuntereinheiten enthalten. Ein Worteintrag in das Vokabular enthält demgemäß neben der Orthografie, Silbenzahl usw. solche Indexfolgen für die Standardaussprache und die Aussprachevarianten. Während der Worterkennung werden diese Indexfolgen mit dem Hypothesennetz aus Wortuntereinheiten - die ebenfalls in Indexform vorliegen - verglichen (Fig. 2). Entscheidend ist hier die Kompatibilität zwischen der Verarbeitung des Sprachsignals zu Wortuntereinheiten und der damit übereinstimmenden Analyse des geschriebenen Textes.
Um sowohl der hohen Variabilität der Aussprache eines einzelnen Benutzers und erst recht der Aussprache verschiedener Benutzer Rechnung zu tragen, ist es im Hinblick auf eine zuverlässige Spracherkennung außerdem vorteilhaft, Aussprachevarianten zu berücksichtigen. Bei umfangreichen Wortschätzen ist nur die automatische Generierung solcher Aussprachevarianten mit Hilfe phonologischer Regeln praktikabel.
Um den Suchvorgang in umfangreichen Wortschätzen zu beschleunigen, wird eine Präselektion 18 (Fig. 3) angewendet, mit deren Hilfe lediglich ein ausgewähltes Untervokabular auf Ähnlichkeit mit der gesprochenen Äußerung untersucht wird. Die Präselektion beruht auf einer Klassifikation 19 nach "groben" silbenorientierten Wortuntereinheiten und einer "groben" und robusten Suche (Worterkennung) 20 in einem Wortschatz 21, der entsprechend "grob" kodierte Einträge enthält. Das Referenzmaterial zu der Identifikation der groben Wortuntereinheiten, ein sogenanntes Grob-Inventar 22, wird aus dem alle Wortuntereinheiten umfassenden Inventar 4 durch Klassenbildung generiert, die getrennt je nach Typ der Wortuntereinheit erfolgt, z.B. jeweils Vokale, silbeninitiale oder -finale Konsonatenfolgen.
Dabei werden akustisch ähnliche Wortuntereinheiten in sogenannten Clustern zusammengefaßt. Dies kann z.B. wahlweise durch eine akustische Beurteilung, durch eine Ermittlung disjunkter Untermengen auf der Basis von Ähnlichkeits- oder Verwechslungsmatrizen und/oder mit Hilfe bekannter Clusteringverfahren erfolgen.
Das Zwischenergebnis nach der Grob-Klassifikation entsprechend dem groben Referenzinventar besteht also aus einer Folge 24 aus groben Wortuntereinheiten. Aus dieser Folge 24 ermittelt das Modul zur groben Worterkennung 20 ein Untervokabular 25 mit den bestpassenden Wortkandidaten. Deren Wortmodelle, d.h. deren Wortuntereinheiten-Notierungen für die Standardaussprache und die Aussprachevarianten werden in der Worterkennung 7 zum Vergleich mit dem Hypothesennetz 6 herangezogen und nochmals eine Auswahl 16 getroffen.
Die beschriebene Präselektion eignet sich im Gegensatz zu allen bisher bekannten Methoden sowohl zur schnellen Vorauswahl eines Untervokabulars bei der Erkennung von Einzelwörtern als auch von verbundener Sprache, da die Generierung von Wortkandidaten auf die Silbenanfänge reduziert ist und somit eine überschaubare Hypothesenmenge erzeugt.

Claims (6)

1. Verfahren zur sprecheradaptiven Erkennung von Sprache, dadurch gekennzeichnet,
  • - daß aus dem zu erkennenden Sprachsignal Merkmalsvektoren extrahiert werden,
  • - daß die aufeinanderfolgenden extrahierten Merkmalsvektoren in silbenorientierte Wortuntereinheiten segmentiert und klassifiziert werden, und
  • - daß mit diesen Wortuntereinheiten mit Mehrfachhypothesen aus einem abgespeicherten Testmuster-Inventar ein dreidimensionaler zeitdynamischer Vergleich mit Aussprachevarianten aus einem Referenzmuster-Wortschatz durchgeführt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei fließender Rede die sich überlappenden Worthypothesen einer syntaktischen Analyse unterworfen und dadurch die gesprochene Phrase ermittelt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die abgespeicherten Referenz-Sprachdaten mit einem Hybridansatz anhand der in einer kurzen Trainingsphase gesprochenen Äußerungen eines neuen Sprechers an diesen Sprecher adaptiert werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß sowohl die Merkmalsvektoren als auch die Wortuntereinheiten adaptiert werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der abgespeicherte Wortschatz einschließlich Aussprachevarianten durch Eingeben von geschriebenem Text und regelbasiertes Umsetzen dieses Textes in Symbole für Wortuntereinheiten generiert und erweitert wird.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zum beschleunigten Erkennen von Sprache bei großen gespeicherten Wortschätzen eine Präselektion eines Untervokabulars mit Hilfe von silbenorientierten Wortuntereinheiten durchgeführt wird.
DE3931638A 1989-09-22 1989-09-22 Verfahren zur sprecheradaptiven erkennung von sprache Withdrawn DE3931638A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE3931638A DE3931638A1 (de) 1989-09-22 1989-09-22 Verfahren zur sprecheradaptiven erkennung von sprache
ES90117539T ES2086345T3 (es) 1989-09-22 1990-09-12 Metodo para el reconocimiento del habla adaptable al usuario.
AT90117539T ATE134275T1 (de) 1989-09-22 1990-09-12 Verfahren zur sprecheradaptiven erkennung von sprache
DE59010131T DE59010131D1 (de) 1989-09-22 1990-09-12 Verfahren zur sprecheradaptiven Erkennung von Sprache
EP90117539A EP0418711B1 (de) 1989-09-22 1990-09-12 Verfahren zur sprecheradaptiven Erkennung von Sprache
AU62559/90A AU640164B2 (en) 1989-09-22 1990-09-17 Method of speech recognition
US07/586,086 US5170432A (en) 1989-09-22 1990-09-21 Method of speaker adaptive speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE3931638A DE3931638A1 (de) 1989-09-22 1989-09-22 Verfahren zur sprecheradaptiven erkennung von sprache

Publications (1)

Publication Number Publication Date
DE3931638A1 true DE3931638A1 (de) 1991-04-04

Family

ID=6389967

Family Applications (2)

Application Number Title Priority Date Filing Date
DE3931638A Withdrawn DE3931638A1 (de) 1989-09-22 1989-09-22 Verfahren zur sprecheradaptiven erkennung von sprache
DE59010131T Expired - Lifetime DE59010131D1 (de) 1989-09-22 1990-09-12 Verfahren zur sprecheradaptiven Erkennung von Sprache

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59010131T Expired - Lifetime DE59010131D1 (de) 1989-09-22 1990-09-12 Verfahren zur sprecheradaptiven Erkennung von Sprache

Country Status (6)

Country Link
US (1) US5170432A (de)
EP (1) EP0418711B1 (de)
AT (1) ATE134275T1 (de)
AU (1) AU640164B2 (de)
DE (2) DE3931638A1 (de)
ES (1) ES2086345T3 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE19857070A1 (de) * 1998-12-10 2000-06-15 Michael Mende Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes
DE19942869A1 (de) * 1999-09-08 2001-03-15 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen
DE10017717A1 (de) * 2000-04-11 2001-10-18 Kostal Leopold Gmbh & Co Kg Spracheingabe gesteuertes Steuergerät
US6453293B1 (en) 1998-05-15 2002-09-17 Siemens Aktiengesellschaft Method and device for recognizing at least one keyword in spoken speech using a computer
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE10337823A1 (de) * 2003-08-18 2005-03-17 Siemens Ag Sprachsteuerung von Audio- und Videogeräten

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
DE4412930A1 (de) * 1994-04-15 1995-10-19 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
ATE190167T1 (de) * 1994-09-20 2000-03-15 Philips Corp Intellectual Pty System zum ermitteln von wörtern aus einem sprachsignal
CN1130688C (zh) * 1995-05-03 2003-12-10 皇家菲利浦电子有限公司 基于新字建模的语音识别方法和装置
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
JP5025759B2 (ja) * 1997-11-17 2012-09-12 ニュアンス コミュニケーションズ,インコーポレイテッド 発音矯正装置、発音矯正方法および記録媒体
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
JP3720595B2 (ja) * 1998-09-17 2005-11-30 キヤノン株式会社 音声認識装置及びその方法、コンピュータ可読メモリ
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6868381B1 (en) * 1999-12-21 2005-03-15 Nortel Networks Limited Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
US7089184B2 (en) 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US7136852B1 (en) * 2001-11-27 2006-11-14 Ncr Corp. Case-based reasoning similarity metrics implementation using user defined functions
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
WO2004029773A2 (en) * 2002-09-27 2004-04-08 Callminer, Inc. Software for statistical analysis of speech
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US20060031069A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for performing a grapheme-to-phoneme conversion
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
WO2015105994A1 (en) 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US9570069B2 (en) * 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US11691076B2 (en) 2020-08-10 2023-07-04 Jocelyn Tan Communication with in-game characters

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6453293B1 (en) 1998-05-15 2002-09-17 Siemens Aktiengesellschaft Method and device for recognizing at least one keyword in spoken speech using a computer
DE19857070A1 (de) * 1998-12-10 2000-06-15 Michael Mende Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes
DE19942869A1 (de) * 1999-09-08 2001-03-15 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen
DE10017717A1 (de) * 2000-04-11 2001-10-18 Kostal Leopold Gmbh & Co Kg Spracheingabe gesteuertes Steuergerät
DE10017717B4 (de) * 2000-04-11 2006-01-05 Leopold Kostal Gmbh & Co. Kg Spracheingabe gesteuertes Steuergerät
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE10337823A1 (de) * 2003-08-18 2005-03-17 Siemens Ag Sprachsteuerung von Audio- und Videogeräten

Also Published As

Publication number Publication date
EP0418711A2 (de) 1991-03-27
AU640164B2 (en) 1993-08-19
US5170432A (en) 1992-12-08
AU6255990A (en) 1991-03-28
DE59010131D1 (de) 1996-03-28
EP0418711B1 (de) 1996-02-14
ES2086345T3 (es) 1996-07-01
ATE134275T1 (de) 1996-02-15
EP0418711A3 (en) 1991-09-04

Similar Documents

Publication Publication Date Title
EP0418711B1 (de) Verfahren zur sprecheradaptiven Erkennung von Sprache
DE69713452T2 (de) Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese
Kat et al. Fast accent identification and accented speech recognition
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP0984428B1 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
Mercier et al. The KEAL speech understanding system
de Mareüil et al. Multi-lingual automatic phoneme clustering
Billa et al. Arabic speech and text in Tides OnTap
Minematsu et al. Integration of MLLR adaptation with pronunciation proficiency adaptation for non-native speech recognition
DE10034235C1 (de) Verfahren zur Spracherkennung und Spracherkenner
Sakai et al. A classification method of spoken words in continuous speech for many speakers
Gong et al. Phoneme-based continuous speech recognition without pre-segmentation.
EP1172802B1 (de) Sprecherabhängige Adaption der phonetischen Transkriptionen eines Aussprache-Lexikons
Gong et al. DURATION () F PH () NES AS FUNCTION (OF UTTERANCE LENCTH AND) ITS USE IN AUT () MATIC SPEECH RECOGNITION

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee