DE69031284T2

DE69031284T2 - Verfahren und Einrichtung zur Spracherkennung

Info

Publication number: DE69031284T2
Application number: DE69031284T
Authority: DE
Inventors: Tetsuo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-01-24
Filing date: 1990-01-23
Publication date: 1998-01-08
Anticipated expiration: 2010-01-24
Also published as: EP0380297A3; EP0380297B1; DE69031284D1; EP0380297A2; US5893058A; JPH02195400A

Description

HINTERGRUND DER ERFINDUNG

1. Gebiet der Erfindung

Die Erfindung betrifft ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung, die eine Erkennung der Sprache eines nicht spezifizierten Sprechers durch Bezug auf ein Wortverzeichnis durchführt, bei den Phoneme von Wörtern angegeben sind.

2. Beschreibung des Stands der Technik

In letzter Zeit wurden Techniken, die Phoneme oder Silben als eine Einheit verwenden, für eine Sprachverarbeitungsvorrichtung untersucht. Diese Techniken hängen von nachstehend beschriebenen Gründen ab.
Bei einer auf ein großes Vokabular ausgerichteten Spracherkennungsvorrichtung ist eine große Speicherkapazität zum Speichern von Standardmustern für jedes Wort erforderlich. Zusätzlich ist es aufwendig, diese Worte zu registrieren, wobei es schwierig wird, neue Worte anzufügen. Demgegenüber können mit einem Verfahren, das Phoneme und dergleichen als eine Basiseinheit zur Erkennung verwendet, da die in Roman- Zeichen (romanji) oder japanischen Silben (kana) geschriebenen Worte in einem Verzeichnis gespeichert werden können, die vorstehenden Probleme beseitigt werden.
Jedoch ist die Spracherkennung nicht einfach, da Probleme bei der Variation des Phonemspektrums bei der Sprache, Kombinationen von Intonationen bzw. Tonfällen sowie schwierig zu erkennende Phoneme wie Verschlußlaute auftreten. Außerdem beeinflußt ein individueller Unterschied ebenfalls die Erkennung, wenn nicht spezifizierte Sprecher berücksichtigt werden sollen, was die Erkennung noch schwieriger macht.
Deshalb wurden die nachstehend beschriebenen Techniken zur Lösung dieser Probleme untersucht.
(1) Lernen von Vokalen
(2) Statistisches Unterscheidungsverfahren
(3) Verstecktes Markov-Modell (hidden Markov model)
(4) Mehrschablonenverfahren (multi-template method)
Jedoch ist die Spracherkennung auf der Grundlage eines einheitlichen Verfahrens schwierig, da im Japanischen jedes Phonem sich von jeden anderen bei dem Auftreten von Phonemen in Phonemgruppen unterscheidet.
Beispielsweise sind, obwohl Vokale durch die relative Position des Formants gekennzeichnet sind, Halbvokale, Verschlußlaute und dergleichen durch eine Änderung im Zeitspektrum gekennzeichnet. Außerdem treten, obwohl die Änderungen im Spektrum für jeden Halbvokal und Verschlußlaut kennzeichnend sind, Unterschiede dahingehend auf, daß das Spektrum sich re- lativ langsam bei den Halbvokalen ändert. Demgegenüber verän dert sich das Spektrum bei den Verschlußlauten in einer kurzen Zeit schnell.
Bei der Erkennung dieser unterschiedlich gekennzeichneten Phoneme gibt es den Mangel, daß eine hohe Erkennungsrate nicht erhalten werden kann, da alle Phoneme gleichförmig unter Verwendung eines der vorstehend beschriebenen Verfahren der herkömmlichen Vorrichtung erkannt werden. Beispielsweise kann die Erfassung der Segmenteigenschaften, die auf die Erkennung kontinuierlicher Sprache abzielt (Kosaka et al., Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) als ein dem vorstehend erwähnten Verfahren (2) zugeordnetes Verfahren erwähnt werden. Jedoch ist, obwohl die Erkennungsrate für Verschlußlaute und dergleichen hoch ist, da dieses Verfahren zur Übereinstimmung mit den Veränderungen im Zeitspektrum ausgelegt ist, dieses Verfahren nicht zur Erkennung der Phoneme wie Halbvokale geeignet, deren Spektrum sich langsam verändert und deren Zeitstruktur sich verändert, da es nicht die Veränderung des Spektrums bezüglich der Zeit bewältigen kann.
Zusätzlich gibt es Systeme, die eine Phonemerkennung bei jeder grob eingeordneten Gruppe durch voneinander unterschiedliche Verfahren nach einer groben Segmentierung durchführen, wie ein am MIT-Lincoln-Insitute entwickeltes System (vergl. Yasunaga Niimi, Speech Recognition, Seiten 81 bis 87, Kyoritsu Buildung, Oktober 1979). Jedoch gibt es den Nachteil, daß die Segmentierung bei einem derartigen System stark auftritt und die Erkennungsrate stark von der Qualität der Segmentierung abhängt.
Die Erfindung ist auf das vorstehend beschriebene Problem gerichtet. Insbesondere liegt der Erfindung die Aufgabe zugrunde, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung zu schaffen, die die Schwierigkeit bei der Erkennung eines nicht spezifizierten Sprechers beseitigen und eine hohe Erkennungsgenauigkeit aufweisen.
Die in der "ICASSP 86 IEEE-IECEJ-ASJ International Conference on Acoustics, Speech, and Signal processing" veröffentlichte Druckschrift "Top-down controlled and optimal syllabletemplate chaining algorithm for large vocabulary speech recognition" von S. Kabasawa et al. offenbart einen Algorithmus zur Spracherkennung. Jedoch berücksichtigt diese Druckschrift nicht die Schritte der Segmentierung von eingegebenen Sprachdaten, der Einordnung jedes Segments der eingegebenen Sprache und der darauffolgenden Auswahl eines geeigneten Erkennungsverfahrens für jedes eingeordnete Seument.
Dementsprechend wird gemäß einem ersten Aspekt der Erfindung ein Spracherkennungsverfahren wie in Patentanspruch 1 dargelegt geschaffen.
Gemäß einem zweiten Aspekt der Erfindung wird eine wie in Patentanspruch 4 dargelegte Spracherkennungsvorrichtung geschaffen.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher beschrieben. Es zeigen:
Fig. 1A und 1B Flußdiagramme, die einen erfindungsgemäßen Spracherkennungs-Verarbeitungsvorgang darstellen, und
Fig. 2 ein Blockschaltbild einer Spracherkennungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.

AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE

Nachstehend ist ein Ausführungsbeispiel der Erfindung unter Bezug auf die beiliegende Zeichnung ausführlich beschrieben.
Fig. 1A und 1B zeigen Flußdiagramme, die ausführlich die Funktionsweise dieser Vorrichtung darstellen. Diese Figuren zeigen Verarbeitungsschritte, nachdem ein Wort ausgesprochen und analysiert wurde. Der Silbennasal /N/ ist gemäß diesem Ausführungsbeispiel bei den Vokalen eingeschlossen.
Zunächst wird bei einem Schritt S1 ein Sprachblock in mehrere Phonemgruppen unter Verwendung aller Parameterzeitfolgen der eingegebenen Worte eingeordnet. Die Anzahl der Phonemgruppen, in die unterteilt wird, hängt davon ab, wie viele nachstehend beschriebene Erkennungssystemarten für Phoneme vorbereitet sind. Gemäß diesen Ausführungsbeispiel wird ein Sprachblock in drei Arten von Klassen unterteilt, daß heißt, Vokal, Halbvokal und andere.
Da die Klassifizierung in dem Dokument "Speech Recognition" (Yasunaga Niime, Seiten 81 bis 87, Kyoritsu Publishing, Oktober 1979) usw. beschrieben ist, entfällt in dieser Beschreibung deren Erläuterung.
Darauffolgend wird bei einem Schritt fr ein Zeiger (Pointer) initialisiert (in diesen Fall werden die Sprachdaten bei fr=1 eingegeben), der den Rahmen der eingegebenen Sprache darstellt (gemäß diesem Ausführungsbeispiel wird er mit "0" gelöscht). Bei einem Schritt S3 wird der Rahmenzeiger fr erhöht, wobei die nächsten Daten eingegeben werden. Bei einem Schritt S4 wird beurteilt, ob der Sprachblock beendet wird oder nicht, wobei, wenn der Sprachdatensatz beendet wird, die Verarbeitung zu einen Schritt S12 und andernfalls zu einem Schritt S5 voranschreitet.
Bei dem Schritt S5 wird das Phonem unter Bezug auf die Ergebnisse der durch die Verarbeitung bei dem Schritt S1 erhaltene grobe Segmentierung beurteilt. Gemäß diesem Ausführungsbeispiel werden Phoneme in drei Arten eingeordnet, Vokale, Halbvokale und andere, wobei die Verarbeitung entlang einem Schritt S6, einem Schritt S8 und einem Schritt S10 entsprechend den Ergebnissen voranschreitet. Bei den Schritten S6, S8 und S10 werden jeweils die Vokale, die Halbvokale und die anderen Phoneme erkannt. Wenn die Erkennung beendet wird, wird der als Ergebnis ausgegebene Wert in einem Bereich von "0" bis "1" bei jedem der Schritte S7, S9 und S10 normalisiert.
Außerdem wird gemäß diesem Ausführungsbeispiel ein neurales Netz verwendet, das die Koeffizienten jedes Sprechers zur Erkennung der Vokale bei dem Schritt 6 gelernt hat. Da dieses Verfahren zur Vorbereitung und Erkennung dieses neutralen Netzes in dem Dokument "Speech Recognition By A Statistical Modell" (Seiichi Nakagawa, Seiten 156 bis 177, Society for Elektronix Informaiton Communication, Juli 1988) beschrieben ist, ist dieses Verfahren in dieser Beschreibung nicht beschrieben.
Eine (nachstehend "DP" bezeichnete) dynamische Programmierung unter Verwendung eines statistischen Distanzindexes wird bei dem Schritt S8 zur Erkennung der Halbvokale verwendet. Dieses Verfahren ist in einer Arbeit ("Word Speech Recognistion by DP Matching Using Mahalanobis Distance", Journal of Electro- Communication, Januar 1983, Band J-66-A, nr. 1, Seiten 64 bis 70) ausführlich unter der Bezeichnung Mahalanobis-DP beschrieben. Obwohl diese Arbeit das Worterkennungsverfahren beschreibt, wird dieses Verfahren gemäß diesem Ausführungsbeispiel unter Verwendung der Anfänge und der Enden der durch die Segementierung bei dem Schritt S1 erhaltenen Halbvokale als Anfänge und Ende der dynamischen Programmierung DP angewendet.
Bei der Erkennung der anderen Phoneme bei dem Schritt S10 wird das Ldentifizierungsverfahren entsprechend der Bayesschen Entscheidung (Bayesian decision) der Veränderung von Mustern eines Spektrums über die Zeit verwendet. Dieses Verfahren ist ausführlich in den "Society Data" ("Detection of the Characteristics of Segment Aiming at the Recognition of Continuous Speech", Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) beschrieben.
Bei den Erkennungsverarbeitungen für die Vokale bei dem Schritt S6 und anderen Phonemen bei dem Schritt S10 haben sich die ausgegebenen Ergebnisse in einem Bereich von "0" bis "1" einander angeglichen. In diesem Fall ist die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so höher, je größer das Ausgangssignal ist. Demgegenüber ist bei den Erkennungsverfahren für die Halbvokale bei den Schritt S8 die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so größer, je kleiner das ausgegebene Ergebnis ist, da eine Mahalanobis-Distanz zum Zeitpunkt der Erkennung verwendet wird. Die Ausgangswerte nähern sich bei einem Bereich größer "0" an. Zur Normalisierung bei dem Schritt S9 wird zunächst der maximale Wert des Ausgangssignal zu "0" gemacht, indem der Ausgangswert mit einem Minuszeichen versehen wird. Darauffolgend wird ein Schwellwert th (< 0) eingestellt, wobei Ausgangswerte, die kleiner oder gleich th sind, mit th ersetzt werden, damit der Bereich des Wertes von th bis "0" eingestellt wird. Zusätzlich wird eine lineare Transformation derart durchgeführt, daß die Ausgangswerte th T "0" und "0" T 1 werden, wobei die erhaltenen Ergebnisse als normalisiertes Ausgangssignal verwendet werden.
Die vorstehend beschriebene Verarbeitung wird bei jedem Schritt wiederholt, bis der Sprachblock abgeschlossen ist und die Verarbeitung zu dem Schritt S12 voranschreitet, bei dem sie beendet wird.
Bei dem Schritt S12 wird die vorbereitende Auswahl von Worten auf der Grundlage der groben Segmentierung bei dem Schritt S1 ausgeführt. Genauer gesagt besteht die Verarbeitung darin, daß lediglich Worte, die mit den Reihen der drei durch die Segnentierung erhaltenen Segmentarten übereinstimmen, aus dem Wortverzeichnis ausgewählt werden. Die bei dem Schritt S12 ausgewählten Worte in dem Wortverzeichnis werden nacheinander bei dem Schritt S13 ausgelesen, wobei bei einem Schritt S14 beurteilt wird, ob alle ausgewählten Worte verglichen sind oder nicht. Falls der Vorgang nicht beendet ist, wird entsprechend der dynamischen Programmierung DP eine Bewertungsberechnung durchgeführt. Diese dynamische Programmierung vergleicht direkt die Reihe der Phonemstandardmuster entsprechend der aus den Wortverzeichnis erhaltenen Reihe von Phonemsymbolen mit der Parameterzeitfolge der eingegebenen Sprache. Die Bewertung d(i, j) bei dem Rahmen j und der Phonemklasse Ci wird unter Verwendung der jeweils bei den Schritten S7, S8 und S11 unverändert erhaltenen Werte berechnet. Die Gleichungen bei dieser dynamischen Programmierung sind wie nachstehend:
[wobei es sich bei A um das Verzeichnis, bei X um ein eingegebenes Wort, bei g(i, j) um eine gesammelte Bewertung bei (i,j) und bei I sowie J um Maximalwerte von i und j handelt.]
Wenn das Verzeichnis entsprechend der Beurteilung bei dem Schritt S14 beendet ist, schreitet die Verarbeitung zu dem Schritt S16 voran. Das Wort, dem die maximale Bewertung gegeben wird, wird aus den verglichenen Worten ausgewählt und als Erkennungsergebnis der eingegebenen Sprache verwendet. Dieses Erkennungsergebnis wird bei einen Schritt S17 ausgegeben.
Fig. 2 zeigt ein Blockschaltbild, daß den festverdrahteten Aufbau bzw. den Hardware-Aufbau dieser Vorrichtung darstellt. Wie in dieser Darstellung gezeigt, wird die in ein Mikrophon 18 eingegebene Sprache durch eine Bandpaßfiltergruppe bei einer Analysiereinheit 19 analysiert und in ein Kurzzeitspektrum umgewandelt. Eine Zentraleinheit (CPU) 20 steuert den in Fig. 1 gezeigten Verarbeitungsablauf, wobei dieses Programm in einem ersten Festspeicher (ROM1) 21 gespeichert ist. Ein zweiter Festspeicher(ROM2) 22 wird als Wortverzeichnis verwendet. Ein Speicher mit wahlfreiem Zugriff (RAM) 23 wird zum Speichern der Phonem-Muster verwendet und speichert die aus einer Disketteneinrichtung 24 oder dem Festspeicher 22 gesendeten Daten. Die Phonem-Muster werden in dem Speicher mit wahlfreiem Zugriff gespeichert, damit das Phonem-Muster beim Lernen der Vokale auf eine spezifische Person angewendet werden kann. In diesem Fall werden die Inhalte in dem Speicher mit wahlfreiem Zugriff erneut geschrieben und das Vokalmuster registriert.
Gemäß diesem Ausführungsbeispiel wird ebenfalls das Verfahren betrachtet, das verschiedene Parameter entsprechend den Phonengruppen verwendet, obwohl als ein Beispiel das denselben Parameter verwendende Erkennungsverfahren beschrieben worden ist. In diesem Fall kann der Parameter nicht ausgewählt werden, da die Phonem-Art bei dem Schritt der groben Segmentierung nicht bestimmt werden kann Jedoch wird die Phonem-Art bei der Verarbeitung bei dem in Fig. 1A gezeigten Schritt S5 bestimmt, nachdem die eingegebene Sprache erneut durch ein anderes Verfahren analysiert ist.
In einem derartigen Fall wird ein Bandpaßfilter bei dem Schritt S10 ähnlich verwendet, wobei ein Parameter der LPC- Art , dessen Spitzenwert gut ausgedrückt ist, bei den Schritten S6 und S8 verwendet wird.
Gemäß diesem Ausführungsbeispiel wird die Analyse durch Programme bzw. Software durchgeführt, da verschiedene Parameter verwendet werden. Folglich kann der Aufbau der festverdrahteten Schaltung bzw. der Hardware vereinfacht werden. Deshalb ist die in Fig. 2 gezeigte Analysiereinheit 19 zur Analysierung der eingegebenen Sprache nicht erforderlich, führt aber eine Analog-Digitalwandlung durch und begrenzt sie lediglich auf die tieferen Frequenzen.
Obwohl die Erfindung vorstehend unter Bezug auf das bevorzugte Ausführungsbeispiel beschrieben worden ist, ist die Erfindung nicht auf das vorstehend beschriebene Ausführungsbeispiel beschränkt, wobei verschiedene Abänderungen innerhalb des Schutzbereichs der beiliegenden Patentansprüche möglich sind.
Wie vorstehend beschrieben kann erfindungsgemäß die Spracherkennung mit hoher Genauigkeit durchgeführt werden, da die verschiedenen Parameter und Erkennungsverfahren entsprechend der Art der Phoneme verwendet werden, wobei eine dynamische Programmierung zur Positionierung der Phonem-Muster entsprechend der eingegebenen Sprache nach einer groben Segmentierung angewendet wird. Außerdem kann eine gegenüber nicht spezifizierten Sprechern beständige Spracherkennung durch Lernen der Phoneme wie Vokale durchgeführt werden, bei denen individuelle Unterschiede stark hervortreten.

Claims

1. Spracherkennungsverfahren mit den Schritten

Eingeben von Sprachdaten in eine Spracherkennungsvorrichtung (19, 20) und Durchführen eines Segnentierungsvorgangs an den eingegebenen Sprachdaten derart, daß jedes Segment ein Phonem aufweist,

Klassifizieren (S5) jedes derart erzeugten Segments in Abhängigkeit von dessen Phonem,

Auswählen eines bei jedem Segment anzuwendenden geeigneten Erkennungsverfahrens aus einer Vielzahl von Erkennungsverfahren im Ansprechen auf die Klassifizierung des Segments (S5),

Erkennen (S6, S8, S10) jedes Segments unter Verwendung des für das Segment ausgewählten Erkennungsverfahrens und Spezifizieren eines Erkennungsergebnisses und eines Ähnlichkeitswerts jedes durch den Erkennungsschritt erhaltenen Erkennungsergebnisses,

gekennzeichnet durch

Umwandeln des durch jedes Erkennungsverfahren erhaltenen Ähnlichkeitswerts in einen Einheitsbereichswert und

Verwenden der Einheitsbereichswerte bei einem dynamischen Programmiervorgang zur Erzeugung einer Erkennungsausgabe.

2. Verfahren nach Anspruch 1, gekennzeichnet durch Auswählen von Worten aus einem Wortverzeichnis, die in dem Wortverzeichnis gespeichert sind, deren Phoneme klassifiziert worden sind, und

Anpassen der aus den eingegebenen Sprachdaten erhaltenen normalisierten Werte an die ausgewählten Worte.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Erkennungsverfahren die Erkennung eines Vokals, die Erkennung eines Konsonanten und die Erkennung anderer Phoneme aufweisen.

4. Spracherkennungsvorrichtung mit

einer Einrichtung (19) zur Durchführung eines Segmentierungsvorgangs an eingegebenen Sprachdaten derart, daß jedes Segment ein Phonem aufweist,

einer Vielzahl von Einrichtungen (19, 20, 21) zur Zuweisung verschiedener Klassifizierungen an aus dem Segementierungsvorgang hergeleiteten Segmenten in Abhängigkeit von den Phonemen der Segmente,

einer Vielzahl von Erkennungseinrichtungen (20, 23, 21) jeweils zur Ausführung einer unterschiedlichen Erkennungsverarbeitung an einem Segment,

einer Einrichtung zur Übertragung jedes Segments zu einer ausgewählten Erkennungseinrichtung entsprechend der Klassifizierung des Segments, um einen Ahnlichkeitswert für das Segment zu erzeugen,

gekennzeichnet durch

eine Einrichtung zur Normalisierung der aus den Erkennungseinrichtungen ausgegebenen Ahnlichkeitswerte zu Einheitsbereichswerten, und

eine dynamische Programmiereinrichtung zur Verarbeitung der normalisierten Werte und zur Erzeugung einer Erkennungsausgabe.

5. Vorrichtung nach Anspruch 4, gekennzeichnet durch ein Wortverzeichnis (22) in dem Worte gespeichert sind, deren Phoneme klassifiziert worden sind, und

eine Einrichtung (20) zur Auswahl der Worte aus dem Wortverzeichnis und zum Anpassen der normalisierten Erkennungsergebnisse an die ausgewählten Worte.

6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Erkennungseinrichtung eine Einrichtung zur Erkennung von Vokalen, eine Einrichtung zur Erkennung von Konsonanten und eine Einrichtung zu Erkennung anderer Phoneme aufweist.