DE69824063T2 - Normalisierung von Sprachsignalen - Google Patents

Normalisierung von Sprachsignalen Download PDF

Info

Publication number
DE69824063T2
DE69824063T2 DE69824063T DE69824063T DE69824063T2 DE 69824063 T2 DE69824063 T2 DE 69824063T2 DE 69824063 T DE69824063 T DE 69824063T DE 69824063 T DE69824063 T DE 69824063T DE 69824063 T2 DE69824063 T2 DE 69824063T2
Authority
DE
Germany
Prior art keywords
long
parameter
parameters
term
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69824063T
Other languages
English (en)
Other versions
DE69824063D1 (de
Inventor
Tetsuo Ohta-ku Kosaka
Yasuhiro Ohta-ku Komori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69824063D1 publication Critical patent/DE69824063D1/de
Application granted granted Critical
Publication of DE69824063T2 publication Critical patent/DE69824063T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

  • Diese Erfindung bezieht sich auf eine Technik zum Ausführen einer Spracherkennung unter Verwendung eines Merkmals einer Sprachzeitserie, wie ein Kepstrum oder dergleichen.
  • Die Erfindung bezieht sich auch auf die Beseitigung eines Multiplikationsstörgeräuschs, wie beispielsweise Leitungseigenschaften oder dergleichen.
  • Die Erfindung bezieht sich des weiteren auf eine Technik zum Ermöglichen einer plötzlichen oder nachfolgenden Anpassung an ein Störgeräusch.
  • Bei Ausführen einer Spracherkennung in einer realen Umgebung verursacht insbesondere das Multiplikationsstörgeräusch aufgrund einer Verzerrung von Leitungseigenschaften Probleme, durch den Einfluß eines Mikrofons, Fernsprechleitungseigenschaften oder dergleichen und ein Zusatzstörgeräusch, wie ein internes Störgeräusch oder dergleichen. Als Verfahren zum Handhaben der Verzerrung der Leitungseigenschaften ist ein Kepstrum-Mittelwert-Subtraktionsverfahren (CMS-Verfahren) vorgeschlagen worden. Das CMS-Verfahren ist in Einzelheiten offenbart in Rahim, et al., "Signal Bias Removal for Robust Telephone Based Speech Recognition in Adverse Environments", Proc. Of ICASSP'94, 1994, oder dergleichen.
  • Das CMS-Verfahren ist ein solches zum Kompensieren der Verzerrung der Leitungseigenschaften. Nach diesem Verfahren wird auf der Grundlage einer aus der eingegebenen Sprache ausgelesenen Information die Leitungsverzerrung auf der Seite der Eingabezeitserie oder der Modellseite, wie HMM oder dergleichen, korrigiert, wodurch die Eingabeumgebung adaptiv wird. Selbst wenn die Leitungseigenschaften fluktuieren, ist es somit möglich, solche Situation in flexibler Weise zu handhaben.
  • Das CMS-Verfahren ist ein solches zum Kompensieren von Multiplikationsstörgeräusch (Zeilenverzerrung), das aufgrund einer Faltung einer Impulsantwort arbeitet. Ein Langzeitspektrum eingegebener Sprache wird von der eingegebenen Sprache subtrahiert, und ein Langzeitspektrum einer Sprache, die in der Modellbildung verwendet wird, wird vom Modell subtrahiert, wodurch eine Differenz der Leitungseigenschaften normalisiert wird. Der Normalisierprozeß wird üblicherweise in einer logarithmischen Spektrumzone oder einer Kepstrumzone ausgeführt. Da das Multiplikationsstörgeräusch als Zusatzverzerrung in jenen beiden Zonen auftritt, kann das Multiplikationsstörgeräusch durch Subtraktion kompensiert werden. Ein Verfahren zum Ausführen eines solchen Prozesses in der Kepstrumzone wird CMS-Verfahren genannt.
  • Unter Verwendung des CMS-Verfahrens, das zuvor erwähnt wurde, ist es möglich, mit der Verzerrung der Leitungseigenschaften aufgrund des Einflusses vom Mikrofon, der Fernsprechleitungseigenschaften oder dergleichen fertig zu werden. Im Falle der Verwendung des CMS-Verfahrens muß der Benutzer jedoch auf den Abschluß der Eingabe der Sprache als Erkennungsziel warten, um ein Kepstrumlangzeitmittel (CM) aus der eingegebenen Sprache als Erkennungsziel zu errechnen. Der Erkennungsprozeß erfolgt, nachdem CM erzielt wurde, nämlich nach dem Ende der Spracheingabe. Ein Erkennungsalgorithmus kann folglich nicht synchron mit der Spracheingabe erfolgen. Folglich ist es unmöglich, eine Echtzeitverarbeitung nach dem herkömmlichen Verfahren durchzuführen.
  • Aus dem Dokument US-A-5 583 961 zur Verarbeitung von Sprache zum Erkennen des Sprechers unter Verwendung der Verarbeitung, bei der Kepstralvektoren durch Subtrahieren eines laufend errechneten Durchschnitts aus den Kepstralkoeffizienten für eine Anzahl von Rahmen normalisiert werden, ist bekannt, daß der laufende Durchschnitt bei einem Rahmen auf Rahmenbasis aktualisiert wird.
  • Aspekte der vorliegenden Erfindung sind in den anliegenden Patentansprüchen angegeben.
  • Da nach einem Ausführungsbeispiel der Erfindung eine Verzerrung von Leitungseigenschaften, die fluktuieren können, mit hoher Geschwindigkeit in Halbechtzeitweise kompensiert werden, kann die Spracherkennung in Echtzeitart mit hoher Genauigkeit ausgeführt werden, nachdem eine Normalisierung der Leitungseigenschaften erfolgt ist.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • 1 ist ein funktionales Blockaufbaudiagramm eines Gerätes nach der Erfindung;
  • 2 ist ein Ablaufdiagramm für ein Spracherkennungsverfahren unter Verwendung eines Rechenverfahrens von CM durch einen Wichtungsprozeß einer eingegebenen Länge;
  • 3 ist ein Ablaufdiagramm für ein Spracherkennungsverfahren unter Verwendung eines CM-Rechenverfahrens zur Zeit einer Rückwärtssuche unter Verwendung einer Mehrfachdurchgangssuche;
  • 4 ist ein Ablaufdiagramm für ein Spracherkennungsverfahren, das das CM-Rechenverfahren durch den Wichtungsprozeß der eingegebenen Länge bei der Zeit einer Vorwärtssuche anwendet und des weiteren eine Neuerrechnung eines CM zur Zeit der Rückwärtssuche ausführt;
  • 5 ist ein Vergleichsdiagramm einer Erkennungsverarbeitungszeit für jedes Verfahren; und
  • 6 ist ein Blockaufbaudiagramm des Gerätes nach der Erfindung.
  • DETAILLIERTE BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • Ein Ausführungsbeispiel nach der Erfindung ist nachstehend detailliert anhand der Zeichnung beschrieben.
  • 6 ist ein Blockdiagramm, das einen Aufbau eines Spracherkennungsgerätes nach der Erfindung zeigt. Bezugszeichen 101 bedeutet eine Anzeigeeinheit, wie eine Kathodenstrahlröhre, eine Flüssigkristallanzeige oder dergleichen, zum Darstellen eines Zeichenzuges, der als Ergebnis einer Spracherkennung gewonnen wird; und Bezugszeichen 102 bedeutet eine Druckeinheit, wie LBP, Tintenstrahldrucker oder dergleichen, zum Drucken des Zeichenzuges, der als Ergebnis der Spracherkennung gewonnen wird. Der Zeichenzug, der von der Anzeigeeinheit 101 oder der Druckeinheit 102 abgegeben wird, ist ein Zug von Zeichenschrift gemäß Kandidatenzeichencodes der Erkennungsergebnisse. Bezugszeichen 103 bedeutet eine Spracheingabeeinheit, wie ein Mikrofon oder dergleichen. Sprache kann auch über Übertragungsmittel, wie öffentliche Leitung, LAN oder dergleichen, als Spracheingabeeinheit 103 eingegeben werden. Bezugszeichen 104 bedeutet eine CPU zum Steuern, um so verschiedene Prozesse auszuführen, die später zu erläutern sind, gemäß Steuerprogrammen, die in einer Speichereinheit 105 oder einem herausnehmbaren Speichermedium 107, wie CD-ROM oder dergleichen, gespeichert sind. Obwohl die CPU 104 das Ausführen verschiedener Anwendungen zusätzlich zu Prozessen steuert, die später zu erläutern sind, steuert die CPU 104 ebenfalls (beispielsweise "Drucken", "Ende" und dergleichen), um so verschiedene Prozesse hinsichtlich Anwendungen gemäß einem Befehl entsprechend der erkannten Sprache durch das Verfahren der Erfindung auszuführen. Bezugszeichen 105 bedeutet die Speichereinheit, die im Gerät vorgesehen ist. Die Speichereinheit 105 speichert Steuerprogramme für verschiedene Prozesse, die die CPU 104 ausführt und die später zu erläutern sind, verschiedene Parameter (beispielsweise Daten entsprechend einem Wörterbuch, das für die Spracherkennung verwendet wird, und dergleichen), die für die Steuerprogramme, zu erkennende Sprachdaten und dergleichen notwendig sind. Die Steuerprogramme und die verschiedenen Parameter, die in der Speichereinheit 105 gespeichert sind, können vom Speichermedium 107 eingegeben werden oder können auch über eine Übertragungsleitung eingegeben und gespeichert werden. Bezugszeichen 106 bedeutet eine Übertragungs-I/F zum Steuern einer Übertragung, um so Daten durch Übertragungsmittel, wie öffentliche Leitung, LAN oder dergleichen, zu senden und zu empfangen. Es ist auch möglich, in der Weise vorzugehen, daß die von einem anderen Gerät eingegebene Sprache oder Steuerprogramme und verschiedene Parameter, die in den anderen Geräten gespeichert sind, über die Übertragungs-I/F 106 in das Gerät geholt werden und in der Speichereinheit 105 gespeichert werden, und danach wird jeder Prozeß, der nachstehend erläutert ist, begonnen. Bezugszeichen 107 bedeutet das Speichermedium, wie CD-ROM, FD oder dergleichen, das in den/vom Gerätegrundkörper eingefügt und herausgenommen werden kann, nämlich das Speichermedium, das die Steuerprogramme, verschiedene Parameter und Sprachdaten speichern kann, die bereits beschrieben und in der Speichereinheit 105 gespeichert wurden, und das eingefügt und herausgenommen werden kann in den/vom Gerätegrundkörper. Die Daten können aus dem Speichermedium 107 in die Speichereinheit 105 heruntergeladen werden, bevor verschiedene Prozesse beginnen, die hiernach zu erläutern sind, oder die CPU 104 kann auch direkt auf das Speichermedium 107 zugreifen. Steuerprogramme für verschiedene Prozesse sind in der Speichereinheit 105 gespeichert; und ein Parameterspeicherabschnitt, ein Sprachdatenspeicherabschnitt, ein Arbeitsbereich und dergleichen sind daneben ebenfalls vorgesehen.
  • 1 ist ein funktionales Blockaufbaudiagramm eines Spracherkennungsgerätes des Ausführungsbeispiels nach der Erfindung. Im Diagramm bedeutet Bezugszeichen 1 ein Mikrofon zur Spracheingabe. Das Mikrofon 1 ist realisiert durch die Spracheingabeeinheit 103. Bezugszeichen 2 bedeutet einen Sprachanalysator zum Umsetzen der eingegebenen Sprache in eine Merkmalsparameterzeitserie; Bezugszeichen 3 bedeutet eine Sucheinrichtung, die eine korrekte Erkennungsserie unter Verwendung von Informationen aus Merkmalsparametern, Grammatik- und Phonemmodellen sucht. Der Sprachanalysator 2 und die Sucheinrichtung 3 sind von der CPU 104 in 6 realisiert. Bezugszeichen 4 bedeutet eine Erkennungsgrammatik, und Bezugszeichen 5 bedeutet ein Phonemmodell zur Spracherkennung. Die Erkennungsgrammatik 4 und das Phonemmodell 5 zur Spracherkennung verwenden in der Speichereinheit 105 oder im Speichermedium 107 gespeicherte Daten.
  • Nachstehend zuerst beschrieben ist
  • 1) Eine Errechnung eines Kepstrumlangzeitmittels (CM) durch einen Wichtungsprozeß der eingegebenen Länge
  • Dieses Verfahren ist ein solches, das einen Schätzwert von CM immer dann aktualisiert, wenn ein Sprachrahmen eingegeben ist und der letzte Schätzwert von CM aus dem letzten Sprachrahmen subtrahiert ist. Da jedoch die Anzahl von Sprachrahmen, die zum Errechnen des Schätzwertes von CM verwendet werden, gerade nach dem Start der Sprache gering ist, enthält der Wert viele Fehler, so daß es die Gefahr der Verschlechterung der Erkennungsausführung gibt. Um diesen Nachteil zu überwinden, wird eine Wichtung gemäß der Anzahl von Rahmen bei der Errechnung des CM-Schätzwertes, nämlich die Anzahl eingegebener Rahmen zu diesem Zeitpunkt, CM hinzugefügt. Wenn die Anzahl eingegebener Rahmen gering ist, ist die hinzuzufügende Wichtung verringert, wodurch die zu subtrahierende CM-Menge sinkt. Wenn andererseits die Anzahl eingegebener Rahmen ansteigt, ist die Wichtung erhöht, wodurch die zu subtrahierende CM-Menge vergrößert wird. Die Wichtung wird in einem Bereich von 0 bis 1 gemäß der Anzahl von Rahmen erhöht oder verringert (Eingabezeitlänge).
  • Der Sprachanalysator 2 führt eine allgemeine Kepstrumanalyse der Sprache aus, die vom Mikrofon 1 hereinkommt. Eine Normalisierung eines Parameters xn des n-ten Rahmens in einer eingegebenen Sprache, die nach der Analyse abgeschnitten wurden, wird nach folgender Gleichung (1) ausgeführt, wodurch ein normalisierter Parameter (xn)' des n-ten Rahmens gewonnen wird.
    Figure 00070001
    wobei μd CM einer Datenbank ist und τ eine Konstante ist.
  • Die Wichtung n/(n + τ) von der Rahmenmenge des zweiten Ausdrucks ist nicht auf die obige Gleichung beschränkt, sondern kann substituiert werden durch eine Funktion, bei der ein Wert auf einen Wert innerhalb des Bereichs von 0 bis 1 mit einem Anstieg in n gesetzt wird. Der Parameter (xn)', gewonnen durch Normalisierung in der zuvor beschriebenen Weise, wird als Merkmalsparameter erkannt.
  • Als nächstes beschrieben ist
  • (2) Ein Subtrahierprozeß von CM unter Verwendung der Mehrfachdurchgangssuche
  • Das Mehrfachdurchgangsverfahren ist ein solches des Annäherns korrekter Antwortkandidaten durch häufiges Wiederholen der Suche (wenigstens zweimal). Bei der ersten Suche wird die Suche ausgeführt, während CM der eingegebenen Sprache errechnet wird. Bei der ersten Suche wird CM der eingegebenen Sprache nicht zur Spracherkennung zurückgegeben. Zur Zeit der zweiten Suche wird CM, gewonnen aus der gesamten eingegebenen Sprache, in der die Spracheingabe bereits abgeschlossen ist und die Errechnung abgeschlossen wurde, vom Spracheingabekepstrum subtrahiert, wodurch das Multiplikationsstörgeräusch als Fluktuation von Leitungseigenschaften beseitigt wird.
  • Die Mehrfachdurchgangssuche wird in der Sucheinrichtung 3 in 1 angewandt. Es gibt ein Baum-Trellis auf der Grundlage einer Suche oder einer Vorwärts-Rückwärts-Suche als Verfahren der Erkennung durch Mehrfachdurchgangssuche. Die Suche, die auf Baum-Trellis beruht, ist in Einzelheiten in der Literatur von F. K. Soong und E. F. Huang beschrieben in "A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypoteses in Continuous Speech Recognition", Proc. Of ICASSP91, Seiten 705 bis 708, Mai 1991. Die Vorwärts-Rückwärts-Suche ist detailliert beschrieben in der Literatur von S. Austin, R. Schwartz und P.
  • Placeway in "The Forward-Backward Search Algorithm", Proc. Of ICASSP91, Seiten 697 bis 700, Mai 1991. Obwohl ein Beispiel, das eine Suche verwendet, die auf Baum-Trellis basiert, im Ausführungsbeispiel beschrieben wird, ist das Suchverfahren einer Sucheinrichtung 3 nicht auf dieses Beispiel beschränkt. Das Suchverfahren nach Baum-Trellis ist ein Algorithmus zum Realisieren einer strikten N-Bestensuche und ist aufgebaut durch Suche zweier Stufen der Vorwärts- und der Rückwärtssuche. Bei der Vorwärtssuche (die erste Suche) wird eine Viterbi-Suche ausgeführt, die mit dem Rahmen synchronisiert ist, und eine obere bestimmte Anzahl von Ergebnissen unter den Ergebnissen, die in der Vorwärtssuche erzielt werden, wird als Erkennungsergebniskandidaten der eingegebenen Sprache ausgewählt. Bei der Rückwärtssuche (die zweite Suche) wird eine A*-Suche ausgeführt, in der Ergebnisse der Vorwärtssuche heuristisch in Hinsicht auf jeden ausgewählten Kandidaten ausgeführt wird.
  • In den Suchen der beiden Stufen wird CM der gesamten eingegebenen Sprache parallel mit der Suche zur Zeit der Vorwärtssuche errechnet, und das sich ergebende CM wird subtrahiert, und der Suchprozeß wird zur Zeit der Rückwärtssuche ausgeführt, wobei die Leitungseigenschaften normalisiert werden. Die Normalisierung zur Zeit der Rückwärtssuche erfolgt entweder durch die nachstehende Gleichung (2) oder (3).
    Figure 00080001
    wobei N die Rahmenlänge der eingegebenen Sprache bedeutet.
  • Da gemäß Gleichung (2) der subtrahierte Betrag von CM insbesondere in dem Fall verringert wird, bei dem die Rahmenlänge der eingegebenen Sprache kurz ist, können Fehler vom CM, die aufgrund der kurzen Eingabezeitlänge auftreten, verringert werden, und es ist effektiv, die Erkennungsleistung zu verbessern.
  • Durch Ändern des Normalisierungsverfahrens der eingegebenen Sprache gemäß der Vorwärtssuche und der Rückwärtssuche, wie zuvor erwähnt, kann eine hinreichende Genauigkeit beibehalten werden, obwohl die Bedingungen der A*-Suche nicht erfüllt sind, durch hinreichendes Vergrößern eines Stapels von N-Besten und Sortieren der Erkennungsergebniskandidaten gemäß der Wahrscheinlichkeit.
  • Die Verfahren 1) und 2) werden weiterhin kombiniert bei der Vorwärtssuche, die Suche erfolgt nach dem Verfahren von 1), während das Normalisieren von CM ausgeführt wird, gewonnen durch den Wichtungsprozeß der eingegebenen Länge, und in der Rückwärtssuche wird die Normalisierung nach dem Verfahren 2) ausgeführt.
  • Ein Ablauf der oben erwähnten Rechnung ist in den Ablaufdiagrammen der 2 bis 4 gezeigt. 2 ist das Ablaufdiagramm für ein Spracherkennungsverfahren, das das Rechenverfahren mit CM durch den Wichtungsprozeß der eingegebenen Länge von 1) verwendet. Der Eingabeparameter wird normalisiert (22) durch die Gleichung (1) vor der Vorwärtssuche (23). Zur Zeit der Rückwärtssuche wird eine Logarithmuswahrscheinlichkeit eines jeden Parameters zur Zeit der Vorwärtssuche (24) errechnet und unverändert verwendet und addiert. 3 ist ein Ablaufdiagramm für ein Spracherkennungsverfahren, das das CM-Rechenverfahren zur Zeit der Rückwärtssuche unter Verwendung der Mehrfachdurchgangssuche in 2) verwendet. Zur Zeit der Vorwärtssuche (32) wird gemäß diesem Verfahren die Suche unter Verwendung des Kepstrumparameters durch die übliche Sprachanalyse, die nicht normalisiert ist, durchgeführt. Nach Abschluß der Spracheingabe (33) wird jeder in der Vorwärtssuche ausgewählte Kandidat der Normalisierung der eingegebenen Parameter durch die Gleichungen (2) oder (3) unterzogen, wodurch das Suchen (34) erfolgt. Die Wahrscheinlichkeit zur Zeit der Vorwärtssuche und diejenige zur Zeit der Rückwärtssuche ist unterschiedlich, und die A*-Bedingung wird somit nicht erfüllt. Die Erkennungsergebniskandidaten werden folglich entsprechend der Wahrscheinlichkeit (35) sortiert, und das Ergebnis wird abgegeben (36). 4 bezieht sich auf die Kombination des Verfahrens gemäß 1) und 2). Zur Zeit der Vorwärtssuche (43) wird die Suche ausgeführt (42) unter Verwendung der durch Gleichung (1) normalisierten Parameter. Zur Zeit der Rückwärtssuche (44) wird die Suche ausgeführt unter Verwendung des Parameters (44), der durch Gleichung (2) oder (3) normalisiert wurde. Da auch in diesem Falle die Wahrscheinlichkeiten bei der Vorwärtssuche und der Rückwärtssuche offensichtlich unterschiedlich ausfallen, werden die Erkennungsergebniskandidaten entsprechend der Wahrscheinlichkeit (46) gespeichert, und das Erkennungsergebnis wird abgegeben (47). Die obigen Prozesse werden für jede eingegebene Sprache ausgeführt.
  • Das Ausführungsbeispiel ist zuvor in Hinsicht auf Beispiel des Normalisierens der Leitungseigenschaften bei jeder Spracheingabe beschrieben worden. Wenn jedoch herausgefunden wird, daß es keine Fluktuation in den Leitungseigenschaften gibt, kann durch Normalisieren der Leitungseigenschaften in Hinsicht auf die Vielzahl von Spracheingaben die stabilere Normalisierung der Leitungseigenschaften ausgeführt werden. Bei der obigen Beschreibung werden jedesmal bei der Änderung der eingegebenen Sprache der Wert von n in Gleichung (1) oder der Wert von N in den Gleichungen (2) und (3) gelöscht. Beim Verfahren des Ausführens der Normalisierung für eine Vielzahl eingegebener Sprachen wird jedoch ein solcher Wert nicht jedesmal gelöscht, sondern der Wert wird für eine Vielzahl von Spracheingaben gehalten und die Normalisierung wird ausgeführt.
  • Obwohl das obige Ausführungsbeispiel in Hinsicht auf die Annahme des Kepstrums als Parameter beschrieben wurde, kann ein Algorithmusspektrum ebenfalls anstelle des Kepstrums verwendet werden.
  • 5 ist ein Diagramm, das eine Wirkung der Erfindung und eine Erkennungsverarbeitungszeit eines jeden Verfahrens zeigt.
  • Die Experimentalbedingungen sind folgende. Zuerst erfolgt die Bewertung durch eine unspezifizierte Sprechersatzerkennung. Die Anzahl von Wörtern wird auf 1.004 gesetzt. Das Wort ist Perplexität 30.2. Die Analysebedingungen werden eingestellt auf eine Abtastrate von 8 kHz, auf eine Rahmenperiode von 10 ms, eine Fensterbreite von 25,6 ms und auf eine Anhebung von 0,97. Hinsichtlich der Merkmalsbeträge werden ein LPC-Melkepstrum vom 12-ten Grad, ein ΔLPC-Melkepstrum vom 12-ten Grad und eine Δ-Logarithmushochzahl verwendet. Bei der Spracherkennung wird ein HMM von 3 Zuständen und 6 Mischungen in einem Erkennungssystem verwendet, bei dem HMM als Basis dient, und 243 Arten rechter Umgebungsabhängigkeitsphonemen HMM werden in einer Diagonalisierungs-Covarianzmatrix verwendet. Erkennungsziele sind 50 Sätze, die von 10 Sprechern geäußert werden. Durch Senden der Sprachen durch ein Bandpaßfilter von 300 bis 3.200 Hz wird eine Verzerrung der Leitungseigenschaften angegeben. Gemäß dem herkömmlichen Verfahren kann der Normalisierungsprozeß nur zum Zeitpunkt ausgeführt werden, wenn die Sprachäußerung beendet ist, so daß es 1 s oder länger als Erkennungszeit nach dem Ende der Äußerung dauert. In jedem Fall wird andererseits gemäß dem Ausführungsbeispiel die Erkennung für ein Zeitintervall von 0,05 s bis etwa 0,26 s nach dem Ende der Äußerung beendet. Ein numerischer Wert, der im unteren Abschnitt des Diagramms gezeigt ist, zeigt eine Erkennungsrate eines jeden Verfahrens im Falle des Justierens von τ auf. Zum Vergleich ist eine Erkennungsrate im Falle des Nichtausführens der Normalisierung von Zeileneigenschaften gleich 65,0%. Gemäß dem Kombinationsverfahren von 1) + 2) ist die Verringerung der Erkennungsrate sehr gering, wie leicht zu verstehen ist, und der Rechenumfang kann bemerkenswert reduziert werden. Nach dem zuvor beschriebenen Verfahren kann die Verarbeitung der Normalisierung der Verzerrung von den Zeileneigenschaften synchron mit der Spracheingabe erfolgen und die Leitungseigenschaften lassen sich mit hoher Geschwindigkeit normalisieren.

Claims (32)

  1. Verfahren zur Sprachverarbeitung, mit den Verfahrensschritten: Empfangen eines Eingangssignals einer Sequenz von Merkmalsparametern; Aktualisieren (22) eines langfristigen Mittelwertes der Merkmalsparameter unter Verwendung von bis dahin eingegebenen Merkmalsparametern bei jeder Eingabe eines neuen Merkmalsparameters; und Ausführen (22) einer Normalisierung eines jeden Merkmalsparameters unter Verwendung des langfristigen Mittelwertes zum Erzielen einer Sequenz normalisierter Parameter, wobei bei Ausführen der Normalisierung eines jeden neuen Merkmalsparameters der langfristige Wert gewichtet wird unter Verwendung einer Wichtung, bestimmt gemäß der Anzahl von Merkmalsparametern, die zum Herleiten des langfristigen Mittelwertes vom Parameter verwendet wurden; dadurch gekennzeichnet, daß der Normalisierungsprozeß angewandt wird auf einen Spracherkennungsprozeß mit Mehrfachdurchgangssuche eingegebener Sprache, wobei während des Errechnens vom langfristigen Mittelwert bei der ersten Suche eine Anzahl von Erkennungskandidaten bestimmt wird und eine zweite Suche nur bezüglich der Anzahl von Erkennungskandidaten durch Anwenden des Normalisierungsprozesses unter Verwendung des langfristigen Mittelwertes erfolgt.
  2. Verfahren nach Anspruch 1, bei dem der langfristige Mittelwert des Merkmalsparameters ein Wert ist, der Störgeräuscheigenschaften darstellt.
  3. Verfahren nach Anspruch 1, dessen Merkmalsparameter ein Kepstrumparameter ist.
  4. Verfahren nach Anspruch 1, dessen Merkmalsparameter eine logarithmische Spektralzeitserie ist.
  5. Verfahren nach Anspruch 1, bei dem die Wichtung mit der Anzahl der Merkmalsparameter ansteigt.
  6. Verfahren nach Anspruch 5, bei dem die Wichtungserrechnung mit n/(n + τ) erfolgt, wobei n die Anzahl der zum Herleiten des langfristigen Mittelwertes verwendeten Merkmalsparameter bedeutet und τ eine Konstante ist.
  7. Verfahren nach Anspruch 1, bei dem die Normalisierung der Parameter ein Prozeß zum Subtrahieren des gewichteten langfristigen Mittelwerts der Parameter von den eingegebenen Merkmalsparametern ist.
  8. Verfahren nach Anspruch 1, bei dem die Normalisierung des Merkmalsparameters ein Prozeß des Kompensierens der Leitungseigenschaften ist.
  9. Verfahren nach Anspruch 1, mit den weiteren Verfahrensschritten: Ausschneiden (21) eines Sprachintervalls aus eingegebener Sprache; und Gewinnen (22) des langfristigen Mittelwertwertes vom im ausgeschnittenen Sprachintervall fortgesetzten Merkmalsparameter.
  10. Verfahren nach Anspruch 1, mit dem Verfahrensschritt des Ausführens (23; 24, 25) einer Spracherkennung unter Verwendung der normalisierten Parameter.
  11. Verfahren nach Anspruch 10, mit dem Verfahrensschritt des Anzeigens (25) von als Ergebnis der bei der Spracherkennung aufgekommenen Zeichen auf einer Anzeige (101).
  12. Verfahren nach Anspruch 10, mit dem Verfahrensschritt des Druckens (25) von als Ergebnis der Spracherkennung durch Betrieb eines Druckers (102) aufgekommenen Zeichen.
  13. Verfahren nach Anspruch 1, mit dem Verfahrensschritt des Analysierens von aus einem Mikrophon (103) eingegebener Sprache zum Gewinnen der Sequenz von Merkmalsparametern.
  14. Verfahren nach Anspruch 1, bei dem die Sequenz von Parametern über eine Übertragungsleitung (106) hereinkommt.
  15. Verfahren nach Anspruch 10, bei dem der Betrieb des Anlegens gemäß einem Ergebnis der Spracherkennung gesteuert wird.
  16. Sprachverarbeitungsgerät, mit: einem Eingabemittel (2) zum Aufnehmen einer Eingabe einer Sequenz von Merkmalsparametern; einem Herleitmittel (104) langfristigen Durchschnitts, das einen langfristigen Mittelwert bei jedem neu eingegebenen Parameter aus Merkmalsparametern unter Verwendung solcher bis dahin eingegebener aktualisiert (22); und einem Normalisierungsmittel (106) zum Ausführen (22) einer Normalisierung jeden neuen Merkmalsparameters unter Verwendung des langfristigen Mittelwertes zum Erzielen einer Sequenz normalisierter Parameter, wobei beim Ausführen der Normalisierung eines jeden neuen Merkmalsparameters das Normalisierungsmittel betriebsbereit ist zum Wichten des langfristigen Mittelwertes unter Verwendung einer Wichtung, die bestimmt ist gemäß der Anzahl von zum Herleiten des langfristigen Mittelwertes vom Parameter verwendeten Merkmalsparametern; dadurch gekennzeichnet, daß das Normalisierungsmittel anwendbar ist auf einen Spracherkennungsprozeß mit Mehrfachdurchgangssuche eingegebener Sprache, wobei das Gerät ausgestattet ist mit einem Mittel zum Bestimmen einer Anzahl von Erkennungskandidaten bei der ersten Suche, während der langfristige Mittelwert errechnet wird, und einem Mittel zum Ausführen einer zweiten Suche lediglich bezüglich der Anzahl von Erkennungskandidaten durch Anwenden des Normalisierungsprozesses unter Verwendung des langfristigen Mittelwertes.
  17. Gerät nach Anspruch 16, bei dem der langfristige Mittelwert des Parameters ein Störgeräuscheigenschaften repräsentierender Wert ist.
  18. Gerät nach Anspruch 16, bei dem der Merkmalsparameter ein Kepstrumparameter ist.
  19. Gerät nach Anspruch 16, bei dem der Merkmalsparameter eine logarithmische Spektralzeitserie ist.
  20. Gerät nach Anspruch 17, dessen Normalisierungsmittel die Wichtung mit der Anzahl der Merkmalsparameter erhöht.
  21. Gerät nach Anspruch 20, dessen Normalisierungsmittel die Wichtung mit n/(n + τ) errechnet, wobei n die Anzahl von Merkmalsparametern ist, die der Herleitung des langfristigen Mittelwertes dienen, und τ eine Konstante ist.
  22. Gerät nach Anspruch 16, dessen Normalisierungsmittel die Normalisierung durch Subtrahieren des Langzeitmittelwerts von aus dem eingegebenen Merkmalsparameter gewonnenen Parametern ausführt.
  23. Gerät nach Anspruch 16, dessen Normalisierungsmittel eine Kompensation der Leitungseigenschaften einer Sendeleitung bereitstellt, über die der Empfang der eingegebene Sprache erfolgt.
  24. Gerät nach Anspruch 16, das des weiteren über ein Abschneidemittel verfügt, um ein Sprachintervall aus der eingegebenen Sprache auszuschneiden, wobei das den langfristigen Mittelwert herleitende Mittel, das den langfristigen Mittelwert des Merkmalsparameters gewinnt, im vom Ausschneidemittel ausgeschnittene Sprachintervall fortfährt.
  25. Gerät nach Anspruch 16, das des weiteren über ein Erkennungsmittel verfügt, um Sprache unter Verwendung der normalisierten Parameter zu erkennen.
  26. Gerät nach Anspruch 25, das des weiteren über ein Anzeigemittel (101) verfügt, um Zeichen als Ergebnis darzustellen, welche Sprache vom Erkennungsmittel erkannt wurde.
  27. Gerät nach Anspruch 25, das des weiteren über ein Druckmittel (102) verfügt, um Zeichen als Ergebnis auszudrucken, welche Sprache das Erkennungsmittel erkannt hat.
  28. Gerät nach Anspruch 16, das des weiteren über ein Sprachanalysiermittel verfügt, um den Parameter durch Analysieren (2) aus einem Mikrophon (1) eingegebener Sprache zu erzielen.
  29. Gerät nach Anspruch 16, das des weiteren über ein Mikrophon (1) zur Spracheingabe verfügt.
  30. Gerät nach Anspruch 16, das des weiteren über ein Übertragungsleitungssteuermittel (106) verfügt, um den Parameter durch eine Übertragungsleitung einzugeben.
  31. Gerät nach Anspruch 25, das des weiteren über ein Steuermittel (104) verfügt, um die Operation einer Anwendung gemäß einem Ergebnis zu steuern, welche Sprache das Erkennungsmittel erkannt hat.
  32. Datenträgerspeicherprogrammbefehl zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 15, wenn dies auf einem Computer geschieht.
DE69824063T 1997-03-13 1998-03-13 Normalisierung von Sprachsignalen Expired - Lifetime DE69824063T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP5916197 1997-03-13
JP05916197A JP3962445B2 (ja) 1997-03-13 1997-03-13 音声処理方法及び装置

Publications (2)

Publication Number Publication Date
DE69824063D1 DE69824063D1 (de) 2004-07-01
DE69824063T2 true DE69824063T2 (de) 2004-10-28

Family

ID=13105382

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69824063T Expired - Lifetime DE69824063T2 (de) 1997-03-13 1998-03-13 Normalisierung von Sprachsignalen

Country Status (4)

Country Link
US (1) US6236962B1 (de)
EP (1) EP0865033B1 (de)
JP (1) JP3962445B2 (de)
DE (1) DE69824063T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007015497B4 (de) * 2006-03-31 2014-01-23 Denso Corporation Spracherkennungsvorrichtung und Spracherkennungsprogramm

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
WO2002031643A1 (fr) * 2000-10-11 2002-04-18 Canon Kabushiki Kaisha Dispositif de traitement d'information, procede de traitement d'information et support de stockage
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US20040243556A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS)
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
CN107112011B (zh) * 2014-12-22 2021-11-09 英特尔公司 用于音频特征提取的倒谱方差归一化
WO2017154279A1 (ja) * 2016-03-10 2017-09-14 ソニー株式会社 音声処理装置および音声処理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53105303A (en) * 1977-02-25 1978-09-13 Hitachi Ltd Preprocessing system for audio recognition
EP0427485B1 (de) 1989-11-06 1996-08-14 Canon Kabushiki Kaisha Verfahren und Einrichtung zur Sprachsynthese
JPH03150599A (ja) 1989-11-07 1991-06-26 Canon Inc 日本語音節の符号化方式
JP3066920B2 (ja) 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH04362698A (ja) 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5583961A (en) 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5598505A (en) 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007015497B4 (de) * 2006-03-31 2014-01-23 Denso Corporation Spracherkennungsvorrichtung und Spracherkennungsprogramm

Also Published As

Publication number Publication date
JPH10254492A (ja) 1998-09-25
DE69824063D1 (de) 2004-07-01
EP0865033A2 (de) 1998-09-16
EP0865033A3 (de) 1999-03-24
US6236962B1 (en) 2001-05-22
EP0865033B1 (de) 2004-05-26
JP3962445B2 (ja) 2007-08-22

Similar Documents

Publication Publication Date Title
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60000134T2 (de) Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69824063T2 (de) Normalisierung von Sprachsignalen
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69229124T2 (de) Mehrteiliger expertsystem
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE60207784T2 (de) Sprecheranpassung für die Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69321656T2 (de) Verfahren zur Spracherkennung
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69524321T2 (de) Spracherkenner
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition