DE60208956T2 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung Download PDF

Info

Publication number
DE60208956T2
DE60208956T2 DE60208956T DE60208956T DE60208956T2 DE 60208956 T2 DE60208956 T2 DE 60208956T2 DE 60208956 T DE60208956 T DE 60208956T DE 60208956 T DE60208956 T DE 60208956T DE 60208956 T2 DE60208956 T2 DE 60208956T2
Authority
DE
Germany
Prior art keywords
measure
verification
boundary
pbvm
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60208956T
Other languages
English (en)
Other versions
DE60208956D1 (de
Inventor
Yin Hay łc/o Adv. Technology Center Lam
Ralf łc/o Adv. Technology Center Stu Kompe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Publication of DE60208956D1 publication Critical patent/DE60208956D1/de
Application granted granted Critical
Publication of DE60208956T2 publication Critical patent/DE60208956T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Erkennen von Sprache und insbesondere auf ein Verfahren zum Erkennen von Sprache, in dem Lautgrenzen-Verifikationsmaße als Vertrauensmaßmerkmale verwendet werden, um ein Vertrauensmaß für ein Erkennungsergebnis zu konstruieren.
  • Bei Prozessen zum Erkennen von Sprache werden die erhaltenen Erkennungsergebnisse oder Teile davon oft klassifiziert, indem sogenannte Vertrauensmaße abgeleitet werden, die Maße oder Schätzwerte für die Zuverlässigkeit bereitstellen, dass eine gesprochene Äußerung oder Teile hiervon innerhalb des Erkennungsprozesses richtig erkannt worden sind.
  • In bekannten herkömmlichen Schemata zum Erhalten und Erzeugen von Vertrauensmaßen wird nicht erkannt oder berücksichtigt, dass die Verfahren zum Erkennen von Sprache manchmal Lautgrenzen liefern, die nicht plausibel sind, insbesondere wenn Erkennungsfehler auftreten.
  • Es ist eine Aufgabe der Erfindung, ein Verfahren zum Erkennen von Sprache zu schaffen, bei dem ein Vertrauensmaß bereitgestellt werden kann, das das Erkennungsergebnis in einer zuverlässigeren Weise klassifiziert.
  • Die Aufgabe wird durch ein Verfahren zum Erkennen von Sprache entsprechend den Merkmalen des Anspruchs 1 gelöst. Außerdem wird die Aufgabe durch ein System zum Erkennen von Sprache gemäß Anspruch 22 bzw. durch ein Computerprogrammprodukt gemäß Anspruch 23 gelöst.
  • Es wird eine Lautgrenzen-Verifikationsmaß-Funktion erhalten und/oder verwendet, die Ähnlichkeiten und/oder Abstände der linken und rechten Kontexte und/oder der linken und rechten Kontextvektoren der Lautgrenzen beschreiben kann.
  • Es kann z.B. eine Ähnlichkeitsfunktion als die Lautgrenzen-Verifikationsmaß-Funktion oder als ein Teil von ihr verwendet werden. Insbesondere können die Ähnlichkeitsfunktionen eine Ähnlichkeit s(x, y) der linken und rechten Kontexte und/oder der linken rechten Kontextvektoren x und y der Lautgrenzen messen.
  • In einer besonderen Ausführungsform des Verfahrens der Erfindung kann ein normiertes Skalarprodukt linker und rechter Kontextvektoren x und y als Ähnlichkeitsfunktion s verwendet werden. Ein derartiges normiertes Skalarprodukt kann durch
    Figure 00020001
    definiert sein. Innerhalb dieser Struktur bezeichnet xt einen transponierten linken Kontextvektor x einer gegebenen Lautgrenze und bezeichnet y einen rechten Kontextvektor der gegebenen Lautgrenze. Außerdem bezeichnet ||·|| die Normierungsfunktion im Vektorraum der linken und rechten Kontextvektoren x und y.
  • Gemäß einer weiteren Alternative der Erfindung kann ein Abstandsmaß d oder eine Abstandsmaß-Funktion d als die Lautgrenzen-Verifikationsmaß-Funktion oder als ein Teil hiervon verwendet werden. Dieses Abstandsmaß d kann einen Abstand d(x, y) linker und rechter Kontexte und/oder linker und rechter Kontextvektoren x und y von gegebenen Lautgrenzen messen.
  • Gemäß der Erfindung können Spektralvektoren als linke und/oder rechte Kontextvektoren x und y verwendet werden, wobei insbesondere diese Kontextvektoren x und y Mel-Frequenz-Cepstral-Vektoren oder dergleichen sein können.
  • Es ist ferner vorteilhaft, eine Lautgrenze k zu definieren, damit sie eine Grenze und/oder eine Position von ihr zwischen einem gegebenen ersten Laut k innerhalb eines gegebenen Erkennungsergebnisses und einem direkt nachfolgendem Laut k + 1 innerhalb des Erkennungsergebnisses ist.
  • Die Erfindung basiert hauptsächlich auf Bewertungsschemata in Bezug auf linke und rechte Kontexte hinsichtlich einer gegebenen Lautgrenze. Deshalb gibt es verschiedene Möglichkeiten, um linke und rechte Kontexte zu konstruieren und um linke und rechte Kontextvektoren für eine gegebene Lautgrenze zu konstruieren.
  • Gemäß einer möglichen Alternative der Erfindung ist es vorgesehen, als einen linken Kontext zum Erhalten eines linken Kontextvektors x für eine gegebene Lautgrenze k alle Sprachrahmen eines letzten Zustandes, insbesondere eines Hidden-Markov-Modells HMM, für eine gegebene Lauthypothese k zu verwenden und/oder einzuschließen.
  • Außerdem und/oder alternativ werden als ein rechter Kontext zum Erhalten eines rechten Kontextvektors y für eine gegebene Lautgrenze k alle Sprachrahmen eines ersten Zustandes, insbesondere eines Hidden-Markov-Modells HMM, für eine gegebene Lauthypothese k + 1 verwendet.
  • Ferner werden außerdem oder alternativ als ein linker Kontext zum Erhalten eines linken Kontextvektors x für eine gegebene Lautgrenze k alle Sprachrahmen eines letzten zweiten Zustandes, insbesondere eines Hidden-Markov-Modells HMM, für eine gegebene Lauthypothese k verwendet.
  • Außerdem und/oder alternativ werden als ein rechter Kontext zum Erhalten eines rechten Kontextvektors x für eine gegebene Lautgrenze k alle Sprachrahmen eines zweiten Zustandes, insbesondere eines Hidden-Markov-Modells HMM, für eine Lauthypothese k + 1 verwendet.
  • Als eine weitere Alternative oder ferner außerdem werden als ein linker Kontext zum Erhalten eines linken Kontextvektors x für eine gegebene Lautgrenze k alle n Sprachrahmen i – n, i – n + 1, ..., i mit n ≤ i verwendet.
  • Außerdem werden als ein rechter Kontext zum Erhalten eines rechten Kontextvektors y für eine gegebene Lautgrenze k + 1 alle m Sprachrahmen i + 1, i + 2, ..., i + m verwendet.
  • Gemäß einer weiteren bevorzugten Ausführungsform des Verfahrens der Erfindung zum Erkennen von Sprache werden als eine Lautgrenzen-Verifikationsmaß-Funktion PB und/oder als ein Lautgrenzen-Verifikationsmaß PBVM bei einer gegebenen Lautgrenze k eine Ähnlichkeitsfunktion s oder ein Abstandsmaß d zwischen zwei spektralen linken und rechten Kontextvektoren x bzw. y verwendet. Dies kann z.B. unter Verwendung von mittleren Vektoren, die die linken und rechten Kontexte der gegebenen Lautgrenze k darstellen, ausgeführt werden.
  • Insbesondere ist es möglich, die Lautgrenzen-Verifikationsmaß-Funktion PB und/oder das Lautgrenzen-Verifikationsmaß PBVM als
    Figure 00040001
    bzw.
    Figure 00040002
    zu definieren.
  • Es gibt mehrere Möglichkeiten, die linken und rechten Kontextvektoren x bzw. y zu wählen. Diese linken und rechten Kontextvektoren x und y können als spektrale Vektordarstellungen eines linken bzw. eines rechten Kontexts Xls(k) bzw. Xrs(k) für eine gegebene Lautgrenze k definiert sein. Außerdem können ihre Ableitungen X'ls(k) und X'rs(k) gewählt werden, insbesondere Xls(k) – ml(k) bzw. Xrs(k) – mr(k) oder μl(k) bzw. μr(k), wobei ml(k), mr(k) mittlere Spektren des linken bzw. des rechten Kontexts bezeichnen und μl(k), μr(k) Mittelwerte Gaußscher Verteilungen entsprechender Zustände bezeichnen.
  • Es ist ferner besonders vorteilhaft, für erhaltene verschiedene Hypothesen als Erkennungsergebnisse entsprechende Lautgrenzen-Verifikationsmaße PBVM zu erhalten und/oder zu erzeugen und die verschiedenen entsprechenden Lautgrenzen-Verifikationsmaße PBVM miteinander zu kombinieren, insbesondere um ein Vertrauensmaßmerkmal zu bilden.
  • Es gibt verschiedene Arten, um die verschiedenen Lautgrenzen-Verifikationsmaße zu kombinieren, die von verschiedenen Erkennungshypothesen stammen. Die folgenden Größen können z.B. verwendet werden, um die Werte der Lautgrenzen-Verifikationsmaße PBVM aller Lautgrenzen in einer Erkennungseinrichtungs-Worthypothese zu kombinieren, um neue Vertrauensmaßmerkmale für entsprechende Erkennungsergebnisse oder Erkennungshypothesen zu bilden:
    • – ein Mittelwert von Lautgrenzen-Verifikationsmaßen in einem Erkennungsergebnis (RR) und/oder
    • – ein Minimalwert eines Lautgrenzen-Verifikationsmaßes in einem Erkennungsergebnis (RR) und/oder
    • – eine Differenz zwischen einem Minimalwert und einem Maximalwert eines Lautgrenzen-Verifikationsmaßes in einem Erkennungsergebnis (RR) und/oder
    • – eine Standardabweichung von Lautgrenzen-Verifikationsmaßen in einem Erkennungsergebnis (RR) und/oder
    • – eine Koeffizientenveränderung von Lautgrenzen-Verifikationsmaßen in einem Erkennungsergebnis (RR).
  • Es ist ein weiterer Aspekt der Erfindung, ein System, eine Vorrichtung, eine Einrichtung und/oder dergleichen zum Erkennen von Sprache zu schaffen, das bzw. die in jedem Fall das Verfahren der Erfindung zum Erkennen von Sprache und/oder seine Schritte ausführen und/oder verwirklichen kann.
  • Außerdem ist es ein weiterer Aspekt der Erfindung, ein Computerprogrammprodukt zu schaffen, das Computerprogrammittel enthält, die so beschaffen sind, dass sie das Verfahren der Erfindung zum Erkennen von Sprache oder seine Schritte ausführen und/oder verwirklichen können, wenn sie in einem Computer, einem digitalen Signalverarbeitungsmittel und/oder dergleichen ausgeführt werden.
  • Die obenerwähnten weiteren Aspekte der Erfindung werden weiter erklärt, wobei die folgenden Bemerkungen berücksichtigt werden:
    Die Vertrauensmaße (CM) schaffen ein Maß der Zuverlässigkeit, mit der ein gesprochenes Wort oder eine gesprochene Äußerung durch die automatische Spracherkennungseinrichtung erkannt worden ist. Herkömmliche CMs berücksichtigten jedoch normalerweise nicht die Tatsache, dass die Spracherkennungseinrichtungen manchmal unplausible Lautgrenzen liefern, wenn Erkennungsfehler auftreten. Ein Lautgrenzen-Verifikationsmaß (PBVM) wird vorgeschlagen, das ein Maß der Zuverlässigkeit schafft, mit der die Lautgrenzen der Erkennungseinrichtungs-Ausgangshypothese in der Tat den wahren Lautgrenzen entsprechen. Dann wird eine Gruppe neuer Merkmale aus dem PBVM für die Vertrauensmaße abgeleitet.
  • Ein Abstandsmaß und Ähnlichkeitsmaße sind in der Literatur wohlbekannt, insbesondere auf dem Gebiet der Mustererkennung. Ähnlichkeitsmaße sind verwendet worden, um eine spektrale Variationsfunktion abzuleiten. Die spektrale Variationsfunktion ist hauptsächlich für die Spracherkennung, die automatische Sprachsegmentierung und die Lautbezeichnung verwendet worden. Die Phonemausrichtung ist ein Standardalgorithmus in der Spracherkennung.
  • Die Vertrauensmaße sind außerdem wohlbekannt.
  • Das Lautgrenzenmaß ist jedoch niemals für das Vertrauensmaß angewendet worden.
  • Die Vertrauensmaße werden z. B. innerhalb einer Strategie mit zwei Durchgängen entwickelt und verwendet, d.h., während des Erkennungsprozesses und aus der Erkennungseinrichtungs-Ausgangshypothese wird eine Gruppe von Merkmalen extrahiert. Die Merkmale werden dann durch ein neuronales Netz ähnlich einer Klassifizierungseinrichtung und eine lineare Klassifizierungseinrichtung kombiniert, um eine Vertrauensmaß-Bewertung zu liefern. Diese Merkmale enthalten akustische grenzbezogene Merkmale aus Rahmen-, Zustands-, Laut- und Wortpegeln und außerdem zeitliche Merkmale, die die Abweichung der Lautdauer von einer im Voraus geschätzten Verteilung messen.
  • Die Vertrauensmaße für Erkennungseinrichtungen sowohl für ein isoliertes Wort als auch für umfangreiche kontinuierliche Sprache sind erfolgreich implementiert worden.
  • Aktuelle herkömmliche Vertrauensmaße können keine 100% richtige Klassifikationsrate nach der Erkennungseinrichtungs-Ausgangshypothese liefern. Zusätzlich zu den akustischen bewertungsbezogenen Merkmalen und den zeitlichen Merkmalen müssen Merkmale untersucht werden. Aktuelle herkömmliche Vertrauensmaße können Erkennungsfehler nicht klassifizieren, selbst wenn es eine offensichtliche Phonem-Fehlausrichtung in der Erkennungseinrichtungs-Hypothese gibt.
  • Im Gegensatz schlägt die Erfindung neue Vertrauensmaßmerkmale vor, die derartige Lautgrenzen-Fehlausrichtungen explizit messen.
  • In dieser Erfindung wird eine Lautgrenzen-Verifikationsmaß-Funktion (PBVM-Funktion) vorgeschlagen. Das PBVM misst die Ähnlichkeit und/oder den Abstand zwischen zwei Vektoren, die die linken und rechten Kontexte einer Lautgrenze darstellen. Es schafft ein quantitatives Maß, um zu beurteilen, ob Lautgrenzen-Fehlanpassungen in der Erkennungseinrichtungs-Ausgangshypothese aufgetreten sind. Ein derartiges Maß wird dann verwendet, um für jede Erkennungseinrichtungs-Worthypothese neue Vertrauensmaßmerkmale abzuleiten.
  • Im PBVM wird z.B. zuerst vorgeschlagen, eine Ähnlichkeitsfunktion und/oder ein Abstandsmaß s(x, y) zu verwenden, um die Ähnlichkeit und/oder den Abstand zwischen zwei spektralen Vektoren x und y, z.B. Mel-Frequenz-Cepstral-Vektoren, zu messen. Die normierten Skalarprodukte von zwei Vektoren x und y, d.h. der Winkel zwischen den Vektoren, schafft ein Maß der Ähnlichkeit zwischen zwei Vektoren:
  • Figure 00070001
  • Zweitens wird eine Lautgrenze k als die Grenze zwischen dem Laut k und dem Laut k + 1 in einer Spracherkennungseinrichtungs-Worthypothese definiert. Die linken und rechten Kontexte der Lautgrenze k werden dann definiert. In den folgenden Beispielen werden drei mögliche Kontextdarstellungen angegeben:
    • – Der linke Kontext besteht aus allen Sprachrahmen im letzten Zustand des Hidden-Markov-Modells (HMM) der Lauthypothese k, während der rechte Kontext diejenigen Rahmen im ersten HHM-Zustand der Lauthypothese k + 1 enthält, wie in 3 gezeigt ist, und/oder
    • – der linke Kontext besteht aus allen Sprachrahmen im letzten zweiten Zustand des Hidden-Markov-Modells (HMM) der Worthypothese k, während der rechte Kontext diejenigen Rahmen im zweiten HHM-Zustand der Lauthypothese k + 1 enthält, wie in 4 gezeigt ist, und/oder
    • – der linke Kontext enthält die Rahmen [i – n; i – n + 1, ..., i], während der rechte Kontext die Rahmen [i + 1, i + 2, ..., i + m] enthält, wie in 5 gezeigt ist.
  • Die Lautgrenzen-Verifikationsfunktion PBVM(k) an der Lautgrenze k ist dann als eine Funktion der Ähnlichkeitsfunktion und/oder des Abstandsmaßes zwischen zwei Spektralvektoren, z.B. den mittleren Vektoren, definiert, die die linken und rechten Kontexte der Lautgrenze k darstellen, z.B.
    Figure 00070002
    bzw.
    Figure 00080001
    mit Xls(k) = Xls(k) und X'rs(k) = Xrs(k) (3)oder Xls(k) = Xls(k) – ml(k) und X'rs(k) = Xrs(k) – mr(k) (4)
  • Dabei sind Xls(k) und Xrs(k) die spektralen Vektordarstellungen der linken und rechten Kontexte der Lautgrenze k, wobei ml(k) und mr(k) die mittleren Spektren sowohl der linken als auch der rechten Kontexte Xls(k) und Xrs(k) sind.
  • Falls Gaußsche Dichten verwendet werden, um die HMM-Zustände zu modellieren, können die linken und rechten Kontexte außerdem z.B. durch den Mittelwert der Gaußschen Verteilung der HMM-Zustände dargestellt werden, die in 3 und 4 beschrieben sind, X'ls(k) = μls(k) oder X'rs(k) – μrs(k), (5)wobei μl(k) und μr(k) die Gaußschen Mittelwerte der Zustände sind, die die linken und rechten Kontexte Xls(k) und Xrs(k) darstellen.
  • In dem in den Gleichungen (2a) und (2b) angegebenen Beispiel ist die PBVM(k) eine kontinuierliche Funktion zwischen 0 und 1. Der Wert PBVM(k) = 0 entspricht dem Extremfall, dass die mittleren Spektralvektoren der linken und rechten Kontexte zueinander völlig gleich sind. Dies liefert eine Anzeige, dass die Lautgrenzen-Hypothese nicht die wahre Lautgrenze ist und folglich ein Erkennungsfehler auftreten könnte. Andererseits gibt der Wert PBVM(k) = 1 einen anderen Extremfall an, dass zwei mittlere Spektralvektoren in entgegengesetzte Richtungen orientiert sind, d.h., dass sie voneinander vollständig verschieden sind. Dies zeigt an, dass die Lautgrenze k in der Tat die richtige Lautgrenze in den Sprachsignalen sein könnte. Folglich schafft PBVM(k) ein Maß der Wahrscheinlichkeit, dass die Lautgrenze k die wahre Lautgrenze ist.
  • Da jede Worthypothese eine unterschiedliche Anzahl von Lauten besitzen kann, wird ferner vorgeschlagen, alle PBVM(k) in einem Wort zu kombinieren, um ein Vertrauensmaßmerkmal zu bilden. Die folgenden Größen können z.B. verwendet werden, um die Werte des Lautgrenzen-Verifikationsmaßes aller Lautgrenzen in einer Erkennungseinrichtungs-Worthypothese zu kombinieren, um neue CM-Merkmale für die entsprechende Worthypothese zu bilden:
    • – Der Mittelwert der Lautgrenzen-Verifikationsmaße in der Worthypothese und/oder
    • – der Minimalwert der Lautgrenzen-Verifikationsmaße in der Worthypothese und/oder
    • – die Differenz zwischen dem Maximalwert und dem Minimalwert der Lautgrenzen-Verifikationsmaße in der Worthypothese und/oder
    • – die Standardabweichung der Lautgrenzen-Verifikationsmaße in der Worthypothese und/oder
    • – der Koeffizient der Veränderung der Lautgrenzen-Verifikationsmaße in der Worthypothese.
  • Jedes der obigen CM-Merkmale kann direkt als eine Vertrauensbewertung verwendet werden, oder sie können durch eine Klassifizierungseinrichtung mit anderen Merkmalen kombiniert werden, um eine Vertrauensbewertung zu liefern. 4 gibt ein Beispiel, wie das PBVM im CM für eine Spracherkennungseinrichtung verwendet werden kann.
  • Außerdem können anstelle der Verwendung von Spektralvektoren auch Signale im Zeitbereich verwendet werden, um die linken und rechten Kontexte der Lauthypothesengrenze k darzustellen und um folglich das Lautgrenzen-Verifikationsmaß in einer ähnlichen Weise abzuleiten, wie oben beschrieben worden ist. Obwohl die Erfindung hauptsächlich auf die Verifikation von Lautgrenzen abzielt, kann die obige Idee außerdem auf die Verifikation anderer Unterworteinheitsgrenzen, wie z.B. Zustandsgrenzen und Wortgrenzen, usw. angewendet werden.
  • Die folgenden Bemerkungen erklären einige Aspekte der Erfindung ausführlicher:
    Das Konzept der Vertrauensmaße kann sowohl auf die Wortebene als auch auf die Äußerungsebene angewendet werden. Eine Sprachäußerung kann z.B. einem empfangenen Spracheingang äquivalent sein. Für einen empfangenen Spracheingang oder eine Sprachäußerung wird ein Prozess des Erkennens der Sprache für die Sprachäußerung oder den empfangenen Spracheingang ausgeführt, um wenigstens ein Erkennungsergebnis zu erhalten, wobei jedes Erkennungsergebnis wenigstens eine Worthypothese enthält. Unter der Vorrausset zung eines Spracheingangs xxxx, der "The weather today is nice" entspricht, erzeugt die Erkennungseinrichtung z. B. zwei Erkennungsergebnisse, z. B.:
    • 1. "The weather yesterday is nice." und
    • 2. "The weather today is nice."
  • Wenn auf der Wortebene für jede Worthypothese in den obigen Erkennungsergebnissen ein Vertrauensmaß angewendet wird, wird eine Vertrauensbewertung erzeugt, die die folgenden Werte auf der Wortebene besitzt:
  • Figure 00100001
  • Anhand der Vertrauensbewertung und eines gegebenen Schwellenwertes wird eine Worthypothese in einem Erkennungsergebnis als zuverlässig oder unzuverlässig beurteilt. In einer Anwendung unter Verwendung der Spracherkennung mit einem Vertrauensmaß wird z.B., wenn 0,5 als ein Stellenwert verwendet wird, dann die Worthypothese "yesterday" als unzuverlässig betrachtet, wobei sie folglich zurückgewiesen wird oder so, während die anderen Wörter akzeptiert werden.
  • Wenn das Vertrauensmaß auf die Äußerungsebene angewendet wird, dann wird eine Vertrauensbewertung für die Äußerung in ihrer Gesamtheit erzeugt, z.B.:
    The weather yesterday is nice → Vertrauensbewertung.
  • Wenn die Vertrauensbewertung höher als ein gegebener Schwellenwert ist, dann wird die ganze Äußerung als zuverlässig betrachtet und akzeptiert. Andernfalls wird sie als unzuverlässig betrachtet und zurückgewiesen.
  • Es gibt wenigstens zwei Zugänge, um eine Vertrauensbewertung auf der Äußerungsebene zu erzeugen:
    • 1. Die Erzeugung einer Vertrauensbewertung der Äußerung direkt aus einigen aus der ganzen Äußerung erzeugten Vertrauensmaßmerkmalen.
    • 2. Die Erzeugung einer Vertrauensbewertung für jede Worthypothese in der Äußerung und eine folgende Kombination der Vertrauensbewertungen der Wörter, um eine Vertrauensbewertung der Äußerung zu liefern.
  • Die vorgeschlagene Erfindung kann auf die Verwendung des Lautgrenzen-Verifikationsmaßes abzielen, um Vertrauensmaßmerkmale zu bilden, um eine Vertrauensbewertung auf der Wortebene zu erzeugen.
  • Es liegt jedoch außerdem innerhalb des Umfangs der Erfindung, das Konzept des Vertrauensmaßes auszudehnen, um das Vertrauensmaß für die Äußerungsebene unter Verwendung des oben beschriebenen Zugangs 1 einzuschließen. Gemäß dem Zugang 1 ist es möglich, das Lautgrenzen-Verifikationsmaß für alle Lautgrenzen in der Sprachäußerung zu verwenden, um die Vertrauensmaßmerkmale direkt zu erzeugen, um eine Vertrauensbewertung für die ganze oder vollständige Sprachäußerung zu liefern. Gemäß dem Zugang 2 wird eine Vertrauensbewertung für jede Worthypothese erzeugt, indem die auf das Lautgrenzen-Verifikationsmaß bezogenen Merkmale in dem Wort verwendet werden und dann die Vertrauensbewertungen der Wörter kombiniert werden, um eine Vertrauensbewertung der Äußerung zu bilden.
  • Es ist außerdem möglich, eine Vertrauensbewertung auf der Äußerungsebene zu verwenden, um eine Entscheidung in Bezug auf das endgültige Erkennungsergebnis zu treffen. Es wird z.B. angenommen, dass die Spracherkennungseinrichtung die folgenden mehreren Erkennungsergebnisse liefert:
    • 1. "The weather yesterday is nice." (Vertrauensbewertung der Äußerung = 0,75) und
    • 2. "The weather today is nice." (Vertrauensbewertung der Äußerung = 0,82).
  • Dann wird das Erkennungsergebnis mit der höheren Vertrauensbewertung als das endgültige Erkennungsergebnis in einer Anwendung ausgewählt.
  • Im Folgenden werden weitere Vorteile und Aspekte der Erfindung unter Bezugnahme auf die beigefügten Figuren beschrieben.
  • 1 ist ein schematischer Blockschaltplan, der eine bevorzugte Ausführungsform des Verfahrens der Erfindung zum Erkennen von Sprache beschreibt.
  • 2 ist ein schematischer Blockschaltplan, der eine weitere bevorzugte Ausführungsform des Verfahrens der Erfindung zum Erkennen von Sprache beschreibt.
  • 35 veranschaulichen drei verschiedene Möglichkeiten, die linken und rechten Kontexte für eine gegebene Lautgrenze k zu definieren.
  • Ein erstes Beispiel des Verfahrens der Erfindung zum Erkennen von Sprache wird mittels eines schematischen Blockschaltplans nach 1 dargestellt.
  • In einem ersten Schritt S0 wird das Verfahren begonnen und/oder initialisiert. Im Schritt S1 wird die Spracheingabe SI empfangen. In einem folgenden Schritt S2 wird ein Prozess des Erkennens der Spracheingabe SI innerhalb des Schrittes S2 ausgeführt, was zu einer oder mehreren Hypothesen als Erkennungsergebnisse RR führt. Die Schritte S3-1, S3-2a und S3-2b des Abschnitts S3 können aufeinanderfolgend oder parallel ausgeführt werden. In einem ersten Schritt S3-1 werden die Vertrauensmaßmerkmale CMF aus den Erkennungsergebnissen RR und/oder während des Prozesses des Erkennens der Spracheingabe SI extrahiert. Im Schritt S3-2a wird ein Lautgrenzen-Verifikationsmaß PBVM in Bezug auf die erkannte Spracheingabe SI und in Bezug auf das Erkennungsergebnis RR des Schrittes S2 erzeugt und bewertet. Aus dem Lautgrenzen-Verifikationsmaß werden im Schritt S3-2b Lautgrenzenmerkmale PBF konstruiert und/oder extrahiert. Das erzeugte Lautgrenzen-Verifikationsmaß PBVM und/oder die extrahierten Lautgrenzenmerkmale PBF werden in den Schritt S3-1b des Erzeugens eines Vertrauensmaßes CM eingespeist. Anhand des Vertrauensmaßes und/oder des Lautgrenzen-Verifikationsmaßes PBVM wird das erhaltene Erkennungsergebnis RR bewertet und/oder klassifiziert. Die Ausführungsform nach 1 endet oder kehrt zu einer Hauptroutine des Schrittes S5 zurück.
  • Der schematische Blockschaltplan nach 2 veranschaulicht eine weitere bevorzugte Ausführungsform des Verfahrens der Erfindung zum Erkennen von Sprache. Im Schritt T1 wird ein Spracheingang SI empfangen. Im Schritt T2 werden die spektralen Merkmale aus dem gegebenen Spracheingang SI extrahiert. Anhand der spektralen Merkmale wird im Schritt T3 eine Spracherkennungseinrichtung auf den Spracheingang SI angewendet, die ein Hidden-Markov-Modell T4 berücksichtigt, was zu einem Erkennungsergebnis RR führt. Anhand des Erkennungsergebnisses RR wird im Schritt T5 eine Phonemausrichtung extrahiert. Anhand der spektralen Merkmale des Schrittes T2 und der Phonemausrichtung des Schrittes T5 wird im Schritt T6 ein Lautgrenzen-Veri fikationsmaß PBVM konstruiert und bewertet. Im Schritt T7 wird anhand der spektralen Merkmale des Schrittes T2, der Lautausrichtungsinformationen des Schrittes T5 und des Lautgrenzen-Verifikationsmaßes des Schrittes T7 das Vertrauensmaß CM konstruiert und bewertet, dem ein Schritt T8 des Konstruierens und Bewertens einer Vertrauensbewertung folgt, um die Erkennungsergebnisse RR zu klassifizieren.
  • Wie bereits oben angegeben worden ist, beschreiben die 3 bis 5 die verschiedenen Situationen in Bezug auf die Definition der linken und rechten Kontexte.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium geschaffen, das das Computerprogrammprodukt der Erfindung umfasst.

Claims (24)

  1. Verfahren zum Erkennen von Sprache, – bei dem ein Spracheingang (SI) von wenigstens einem Sprecher empfangen wird (S1), – bei dem ein Prozess zum Erkennen von Sprache (S2) für den Spracheingang (SI) ausgeführt wird, um so wenigstens ein Erkennungsergebnis (RR) für den Spracheingang (SI) zu erhalten, – bei dem aus dem Spracheingang (SI) wenigstens ein Vertrauensmaß (CM) für das Erkennungsergebnis (RR) erhalten wird, wobei das Vertrauensmaß (CM) die Zuverlässigkeit des Erkennungsergebnisses (RR) für den Spracheingang (SI) beschreibt, – bei dem wenigstens ein Unterworteinheitsgrenzen-Verifikationsmaß (SBVM) aus dem Spracheingang (SI) erhalten wird (S3-1), wobei das Unterworteinheitsgrenzen-Verifikationsmaß (SBVM) Grenzen von Unterworteinheiten beschreibt, – bei dem der Prozess (S3-1) des Erhaltens des Vertrauensmaßes (CM) das Unterworteinheitsgrenzen-Verifikationsmaß (SBVM) verwendet, – bei dem zum Erhalten (S3-1) des Unterworteinheitsgrenzen-Verifikationsmaßes (SBVM) eine Grenzen-Verifikationsmaß-Funktion (PB) erhalten und/oder verwendet wird und – bei dem eine Ähnlichkeitsfunktion (s) als die Grenzen-Verifikationsmaß-Funktion (PB) verwendet wird, die eine Ähnlichkeit (s(x, y)) von linken und rechten Kontexten oder von linken und rechten Kontextvektoren (x, y) von Grenzen messen kann.
  2. Verfahren nach Anspruch 1, bei dem wenigstens ein Lautgrenzen-Verifikationsmaß (PBVM) als ein Unterworteinheitsgrenzen-Verifikationsmaß (SBVM) verwendet wird.
  3. Verfahren nach Anspruch 2, – bei dem aus dem Lautgrenzen-Verifikationsmaß (PBVM) eine Gruppe von Lautgrenzenmerkmalen (PBF) als eine Gruppe neuer Merkmale abgeleitet wird und – bei dem die Gruppe von Lautgrenzenmerkmalen (PBF) als eine Gruppe von Merkmalen zum Erhalten (S3-1) des Vertrauensmaßes (CM) verwendet wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Gruppe von Vertrauensmaßmerkmalen (CMF) während des Prozesses (S2) des Erkennens von Sprache und aus dem Erkennungsergebnis (RR) zum Erhalten (S3-1) des Vertrauensmaßes (CM) erhalten wird.
  5. Verfahren nach Anspruch 4, bei dem die Gruppe von Vertrauensmaßmerkmalen (CMF) aus Rahmen-, Zustands-, Laut- oder Wortpegeln oder aus Lautdauern beschreibenden zeitlichen Merkmalen erhalten wird, damit sie akustische grenzbezogene Merkmale enthält.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Lautgrenzen-Verifikationsmaß-Funktion (PB) erhalten wird, die Ähnlichkeiten von linken und rechten Kontexten oder von linken und rechten Kontextvektoren (x, y) von Lautgrenzen beschreiben kann.
  7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein normiertes Skalarprodukt linker und rechter Kontextvektoren x und y als Ähnlichkeitsfunktion s verwendet wird, die definiert ist durch:
    Figure 00150001
    wobei xt einen transponierten linken Kontextvektor x einer gegebenen Lautgrenze bezeichnet, y einen rechten Kontextvektor der gegebenen Lautgrenze bezeichnet und ||·|| die Normierungsfunktion des Vektorraums der linken und rechten Kontextvektoren x und y bezeichnet.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als die Lautgrenzen-Verifikationsmaß-Funktion (PB) ein Abstandsmaß (d) verwendet wird, das einen Abstand (d(x, y)) linker und rechter Kontexte oder linker und rechter Kontextvektoren (x, y) von Lautgrenzen messen kann.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Spektralvektoren als der linke und/oder der rechte Kontextvektor (x, y) oder als Mel-Frequency-Cepstral-Vektoren verwendet werden.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Laut genze (k) als eine Grenze hiervon zwischen einem gegebenen ersten Laut (k) innerhalb eines gegebenen Erkennungsergebnisses (RR) und einem direkt nachfolgendem zweiten Laut (k + 1) innerhalb des Erkennungsergebnisses (RR) definiert ist.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein linker Kontext zum Erhalten eines linken Kontextvektors (x) für eine gegebene Lautgrenze (k) alle Sprachrahmen eines letzten Zustandes eines Hidden-Markov-Modells (HMM) für eine Lauthypothese (k) verwendet werden.
  12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein rechter Kontext zum Erhalten eines rechten Kontextvektors (y) für eine gegebene Lautgenze (k) alle Sprachrahmen eines ersten Zustandes eines Hidden-Markov-Modells (HMM) für eine Lauthypothese (k + 1) verwendet werden.
  13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein linker Kontext zum Erhalten eines linken Kontextvektors (x) für eine gegebene Lautgrenze (k) alle Sprachrahmen eines letzten zweiten Zustandes eines Hidden-Markov-Modells (HMM) für eine Lauthypothese (k) verwendet werden.
  14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein rechter Kontext zum Erhalten eines rechten Kontextvektors (y) für eine gegebene Lautgenze (k) alle Sprachrahmen eines zweiten Zustandes eines Hidden-Markov-Modells (HMM) für eine Lauthypothese (k + 1) verwendet werden.
  15. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein linker Kontext zum Erhalten eines linken Kontextvektors (x) für eine gegebene Lautgenze (k) alle n Sprachrahmen i – n, i – n + 1, ..., i mit n ≤ i verwendet werden.
  16. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als ein rechter Kontext zum Erhalten eines rechten Kontextvektors (y) für eine gegebene Lautgenze (k) alle m Sprachrahmen i + 1, i + 2, ..., i + m verwendet werden.
  17. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als eine Lautgrenzen-Verifikationsmaß-Funktion (PB) oder als ein Lautgrenzen-Verifikationsmaß (PBVM) bei einer gegebenen Lautgrenze (k) eine Ähnlichkeitsfunktion (s) oder ein Abstandsmaß (d) zwischen zwei spektralen linken und rechten Kontextvektoren (x, y) verwendet wird.
  18. Verfahren nach Anspruch 17, bei dem die Lautgrenzen-Verifikationsmaß-Funktion (PB) oder das Lautgrenzen-Verifikationsmaß (PBVM) folgendermaßen definiert sind:
    Figure 00170001
    bzw.
    Figure 00170002
  19. Verfahren nach Anspruch 18, bei dem die zwei spektralen linken und rechten Kontextvektoren (x, y) als spektrale Vektordarstellungen eines linken bzw. eines rechten Kontexts Xls(k) bzw. Xrs(k) der gegebenen Lautgrenze k oder als Ableitungen X'ls(k) bzw. X'rs(k) hiervon definiert sind, insbesondere Xls(k) – ml(k) bzw. Xrs(k) – mr(k) oder μl(k) bzw. μr(k), wobei ml(k), mr(k) mittlere Spektren des linken bzw. des rechten Kontexts Xls(k), Xrs(k) bezeichnen und μl(k), μr(k) Gaußsche Verteilungen entsprechender Zustände bezeichnen.
  20. Verfahren nach einem der vorhergehenden Ansprüche, – bei dem für erhaltene unterschiedliche Hypothesen als Erkennungsergebnisse (RR) entsprechende Lautgrenzen-Verifikationsmaße (PBVM) erhalten werden und – bei dem die entsprechenden Lautgrenzen-Verifikationsmaße (PBVM) kombiniert werden, um ein Vertrauensmaß-Merkmal zu bilden.
  21. Verfahren nach Anspruch 20, bei dem wenigstens eine oder eine beliebige Mehrzahl der folgenden Größen verwendet werden, um Werte eines Lautgrenzen-Verifikationsmaßes (PBVM) aller Lautgrenzen in einem Erkennungsergebnis (RR) zu kombinieren, um neue Vertrauensmaßmerkmale entsprechender Hypothesen zu bilden: – ein Mittelwert von Lautgrenzen-Verifikationsmaßen (PBVM) in einem Erkennungsergebnis (RR), – ein Minimalwert eines Lautgrenzen-Verifikationsmaßes (PBVM) in einem Erkennungsergebnis (RR), – eine Differenz zwischen einem Minimalwert und einem Maximalwert eines Lautgrenzen-Verifikationsmaßes (PBVM) in einem Erkennungsergebnis (RR), – eine Standardabweichung von Lautgrenzen-Verifikationsmaßen (PBVM) in einem Erkennungsergebnis (RR) und – eine Koeffizientenveränderung von Lautgrenzen-Verifikationsmaßen (PBVM) in einem Erkennungsergebnis (RR).
  22. System zur Spracherkennung, das so beschaffen ist, dass es ein Verfahren zum Erkennen von Sprache nach einem der vorhergehenden Ansprüche 1 bis 21 und die Schritte hiervon ausführt.
  23. Computerprogrammprodukt, das Computerprogrammmittel enthält, die so beschaffen sind, dass sie das Verfahren zum Erkennen von Sprache nach einem der Ansprüche 1 bis 21 und die Schritte hiervon ausführen, wenn sie auf einem Computer oder einem digitalen Signalverarbeitungsmittel ausgeführt werden.
  24. Computerlesbares Speichermedium, das ein Computerprogrammprodukt nach Anspruch 23 enthält.
DE60208956T 2002-10-14 2002-10-14 Verfahren zur Spracherkennung Expired - Lifetime DE60208956T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP02022963A EP1414023B1 (de) 2002-10-14 2002-10-14 Verfahren zur Spracherkennung

Publications (2)

Publication Number Publication Date
DE60208956D1 DE60208956D1 (de) 2006-04-13
DE60208956T2 true DE60208956T2 (de) 2006-09-14

Family

ID=32049980

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60208956T Expired - Lifetime DE60208956T2 (de) 2002-10-14 2002-10-14 Verfahren zur Spracherkennung

Country Status (4)

Country Link
US (1) US7752044B2 (de)
EP (1) EP1414023B1 (de)
JP (1) JP2004133477A (de)
DE (1) DE60208956T2 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
JP5498252B2 (ja) * 2010-05-17 2014-05-21 日本電信電話株式会社 音声データ区分方法、音声データ区分装置、及びプログラム
WO2013033119A1 (en) * 2011-08-29 2013-03-07 Accumente, Llc Utilizing multiple processing units for rapid training of hidden markov models
JP5689862B2 (ja) * 2012-09-27 2015-03-25 株式会社東芝 情報処理装置用保守装置およびプログラム
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
JP7487794B2 (ja) 2020-11-25 2024-05-21 日本電信電話株式会社 ラベリング処理方法、ラベリング処理装置およびラベリング処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60198596A (ja) * 1984-03-21 1985-10-08 電子計算機基本技術研究組合 音声入力装置
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
DE19842405A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Spracherkennungsverfahren mit Konfidenzmaßbewertung
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition

Also Published As

Publication number Publication date
EP1414023A1 (de) 2004-04-28
DE60208956D1 (de) 2006-04-13
JP2004133477A (ja) 2004-04-30
EP1414023B1 (de) 2006-02-01
US20040122671A1 (en) 2004-06-24
US7752044B2 (en) 2010-07-06

Similar Documents

Publication Publication Date Title
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69323841T2 (de) Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69620324T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60004331T2 (de) Sprecher-erkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition