DE112010005168B4

DE112010005168B4 - Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer

Info

Publication number: DE112010005168B4
Application number: DE112010005168.2T
Authority: DE
Inventors: Yuzo Maruta
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2018-12-13
Anticipated expiration: 2030-01-23
Also published as: WO2011089651A1; CN102687197B; US9177545B2; DE112010005168T5; JPWO2011089651A1; JP4942860B2; CN102687197A; US20120203553A1

Abstract

Erkennungswörterbuch-Erzeugungsvorrichtung umfassend:
eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben;
eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen;
eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen;
eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird;
eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist;
eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache;
eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und
eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Erkennungswörterbuch-Erzeugungsvorrichtung, die ein Wort in einem Wörterbuch für eine Spracherkennung durch eine Stimmenäußerung eines Benutzer registriert, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung nutzt und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung nutzt.
Hintergrund der Erfindung
Eine Anwendung, die Spracherkennung einsetzt, registriert die Stimmenäußerung eines Benutzers und verwendet diese Stimme als ein Wort, das in einigen Fällen erkannt werden soll. Im Folgenden wird diese Operation als eine Erzeugung eines Benutzerwörterbuchs bezeichnet. Als Beispiele einer Erzeugung eines Benutzerwörterbuchs aus einer Stimme gibt es einen Fall, bei welchem ein Radiosendername entsprechend einer Funkfrequenz durch eine Stimme registriert wird und ein Fall, bei welchem der Name einer Person oder ein Ortsname entsprechend einer Telefonnummer durch eine Stimme registriert wird.
Ferner wird eine Sprachenumschaltfunktion bei einer Spracherkennung benötigt, die in einer Apparatur verwendet wird, welche in einer Vielzahl von Ländern verwendet werden kann, sowie zum Beispiel ein Autonavigationssystem und ein Mobilendgerät.
Als eine verwandte konventionelle Technologie beschreibt Patentdokument 1 zum Beispiel ein Nutzungssprachenumschaltverfahren zum Bestimmen einer Sprache, die ein Benutzer verwenden möchte, wenn zwischen Nutzungssprachen gewechselt wird, für ein elektronisches Wörterbuch, indem Eigenschaftsdaten, welche durch ein Durchführen von Spracherkennung einer Stimmenäußerung des Benutzer erlangt werden, mit darin gespeicherten Wörtern verglichen werden.
Typischerweise werden Stimmendaten für jede Sprache gesammelt und die Stimmenäußerung eines Benutzers wird erkannt, indem ein Spracherkennungsalgorithmus und ein Stimmenstandardmodell verwendet werden, welche unter Verwendung der gesammelten Stimmendaten konfiguriert werden. Daher, wenn ein Wechsel zwischen Sprachen durchgeführt wird, ist es notwendig, die Spracherkennungseinheit selbst und das Tonstandardmodell zu wechseln.
Konventionell wird auch eine Spracherkennungsvorrichtung vorgeschlagen, welche Phonemlabelketten erzeugt, die jeweils eine Stimmenäußerung eines Benutzers am besten für jede Sprache ausdrücken, indem eine typisch bekannte Spracherkennungstechnik verwendet wird und dann die Phonemlabelkette als ein Benutzerwörterbuch gespeichert wird, wodurch ermöglicht wird, Spracherkennung für die Stimmenäußerung des Benutzers durchzuführen, auch wenn zwischen Sprachen, die für Spracherkennung verwendet werden, gewechselt wird.
Es besteht jedoch das Problem, dass, weil Stimmenäußerungen in einem Speicher gespeichert sind und verarbeitet werden, wenn Phonemlabelketten erzeugt werden, jedes Mal, wenn die Sprache gewechselt wird, ein Speicher mit großer Größe benötigt wird, welcher den Stimmenäußerungen einen Speicherbereich zur Verfügung stellen kann.
Ferner, in einem Fall, in welchem Stimmenäußerungen nicht in einem Speicher gespeichert werden können, müssen Phonemlabelketten für jede der Sprachen erzeugt werden, von denen angenommen wird, dass sie verwendet werden. Da es jedoch viel Zeit benötigt, Phonemlabelketten zu erzeugen, auch für eine einzelne Sprache, wird die Verarbeitungszeit, die benötigt wird, um Phonemlabelketten für jede der Sprachen, von denen angenommen wird, dass sie verwendet werden, zu erzeugen, sehr groß. Außerdem wird auch ein Speicher großer Größe benötigt, welcher Phonemlabelketten für all die Sprachen speichern kann.
Die vorliegende Erfindung zielt darauf ab, die oben genannten Probleme zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, einen Erkennungswörterbuch-Erzeugungsvorrichtung bereitzustellen, die nicht einen Speicher großer Größe haben muss, um Stimmenäußerungen zu speichern, und Phonemlabelketten nicht für alle Sprachen im Voraus erzeugen muss, und welche die Zeit, die zum Erzeugen von Phonemlabelketten für jede Sprache benötigt wird, verkürzen kann, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung verwendet und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung verwendet.
Stand-der-Technik-Dokument
Patentdokument 1: JP 2001 - 282 788 A Druckschrift US 7 181 395 B1 , 20 Februar 2007, bezieht sich auf ein Verfahren und eine Vorrichtung zum automatischen Ableiten mehrerer phonetischen Grundformen eines Wortes aus einer Sprachäußerung des Wortes.
Druckschrift US 2005/0 197 835 A1 , bezieht sich auf einen Spracherkennungsvorrichtung.
Zusammenfassung der Erfindung
Gemäß der vorliegenden Erfindung wird eine Erkennungswörterbuch-Erzeugungsvorrichtung bereitgestellt, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse auf einem Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die dort von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind, um eine Phonemlabelkette der Stimmeingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welchem die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, die in dem Benutzerwörterbuch registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert wird; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
Die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung umfasst das Benutzerwörterbuch, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und die Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und greift auf die Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, und in einer Sprache ausgedrückt ist, die zu der Zeit eingestellt wird, wenn das Benutzerwörterbuch erzeugt wird, in eine Phonemlabelkette zu wandeln, die in einer anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
Weil auch nach dem Umschalten zu einer anderen Sprache die Erkennungswörterbuch-Erzeugungseinheit das registrierte Wort in ein Wort wandeln kann, das in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat, mit einer hohen Geschwindigkeit, indem auf die Abbildungstabelle in der oben beschriebenen Weise zurückgegriffen wird, wird der Vorteil erzielt, dass die Notwendigkeit eliminiert wird, einen Speicher großer Größe bereitzustellen, um Stimmenäußerungen zu speichern, und Phonemlabelketten für alle Sprachen im Voraus zu erzeugen, und, dass es ermöglicht wird, die Zeit zu verkürzen, die benötigt wird, um Phonemlabelketten für jede Sprache zu erzeugen.
Figurenliste

1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
2 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird;
3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchführt, nachdem zwischen Sprachen umgeschaltet wurde;
4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt;
5 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von der Spracherkennungsvorrichtung gemäß Ausführungsform 2 durchgeführt wird;
6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt;
7 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von dem Stimmensynthesizer gemäß Ausführungsform 3 durchgeführt wird;
8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt;
9 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchgeführt wird; und
10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Sprachen umgeschaltet wurde.

Ausführungsformen der Erfindung
Im Folgenden werden, um diese Erfindung detaillierter zu beschreiben, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezug auf die beigefügten Zeichnungen beschrieben.
Ausführungsform 1.
1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Bezugnehmend auf 1, wird die Erkennungswörterbuch-Erzeugungsvorrichtung 1 gemäß Ausführungsform 1 mit einem Mikrofon 2a, einer Stimmenerfassungseinheit 2, einer Akustikanalyseeinheit 3, Akustikstandardmustern 4, die für jede Sprache bereitgestellt werden, einer Akustikdaten-Abgleichseinheit 5, einer Benutzerwörterbuchregistrierungseinheit (Benutzerwörterbuchspeichereinheit) 6, einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit (Sprachenspeichereinheit) 7, einer Sprachenumschalteinheit 8, und einer Phonemlabelketten-Wandlungseinheit 9 und einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 (Abbildungstabellen-Speichereinheit) bereitgestellt.
Die Stimmenerfassungseinheit 2 ist eine Komponente zum Wandeln einer Stimme, die von dem Mikrofon 2a erfasst wird, in ein digitales Signal. Die Akustikanalyseeinheit 3 ist eine Komponente zum Analysieren des Stimmensignals, das von der Stimmenerfassungseinheit 2 digitalisiert wurde, um das Stimmensignal in eine Zeitreihe von Akustikmerkmalen zu wandeln. Zum Beispiel analysiert die Akustikanalyseeinheit das Stimmensignal zu festen Zeitintervallen, um eine Akustikmerkmalsgröße (Akustikmerkmalgrößenvektor) zu berechnen, die Akustikmerkmale zeigt.
Die Akustikstandardmuster 4 sind Standardakustikmuster die jeweils Phonemlabelketten entsprechen, die in einer Sprache X (X = 1, 2, 3,...) ausgedrückt sind (ein Standardmodell, das die Eigenschaften von Akustikmerkmalsgrößen über Stimmenfragmente zeigt). Zum Beispiel werden die Akustikstandardmuster durch eine Modellierung in Einheiten eines Phonems unter Verwendung von HMM (Hidden Markov Model) oder Ähnlichem erzeugt. Die Akustikdaten-Abgleichseinheit 5 ist eine Komponente zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die von der Akustikanalyseeinheit 3 erlangt wird, mit den Akustikstandardmustern 4, die der Sprache X entsprechen, um eine Phonemlabelkette zu erzeugen, welche der Stimmeneingabe von den Phonemlabelketten am meisten ähnelt, entsprechend den Standardakustikmerkmalen, welche die Akustikstandardmuster 4 bilden.
Die Benutzerwörterbuch-Registrierungseinheit 6 ist eine Komponente mit einem Benutzerwörterbuch und speichert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in dem Benutzerwörterbuch. Die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 ist eine Speichereinheit zum Speichern von Information, die eine Einstellsprache zeigt, welche die Erkennungswörterbuch-Erzeugungseinheit als eine Sprache zur Spracherkennung einstellt, wenn das Benutzerwörterbuch erzeugt wird. Die Sprachenumschalteinheit 8 ist eine Komponente zum Umschalten zwischen Einstellsprachen, die jeweils als eine Sprache zur Spracherkennung genutzt werden.
Die Phonemlabelketten-Wandlungseinheit 9 ist eine Komponente zum Wandeln einer Phonemlabelkette, welche in der Sprache ausgedrückt ist, die zu der Zeit eingestellt ist, zu welcher die Phonemlabelkette in dem Benutzerwörterbuch registriert wird, in eine Phonemlabelkette, die in einer Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit 8 umgeschaltet hat, unter Verwendung einer Zwischensprachen-Akustikdaten-Abbildungstabelle. Die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 ist eine Speichereinheit zum Speichern von Zwischensprachen-Tondaten-Abbildungstabellen, die jeweils eine Entsprechung zwischen einem Paar von verschiedenen Sprachen und Phonemlabeln zeigen, ausgedrückt in diesen Sprachen.
In einem Fall, in welchem eine Sprache eines Paars ein Phonemlabel nicht in einer anderen Sprache des Paars ausdrücken kann, wird ein Phonemlabel unter Phonemlabeln, die in der anderen Sprache ausgedrückt werden können, welches einem Phonemlabel in der Sprache am meisten ähnelt, in Entsprechung mit diesem Phonemlabel gebracht. Zum Beispiel kann das englische Phonemlabel /1/ nicht in Japanisch ausgedrückt werden. Daher wird in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Japanisch und Englisch das japanische Phonemlabel /r/ welches dem englischen Phonemlabel /1/ in der Aussprache am meisten ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht.
Ferner, indem ein Erkennungswörterbuch-Erzeugungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Erkennungswörterbuch-Erzeugungsprogramm ausführt, können die Stimmenerfassungseinheit 2, die Akustikanalyseeinheit 3, die Akustikstandardmuster 4, die Akustikdaten-Abgleichseinheit 5, die Benutzerwörterbuch-Registrierungseinheit 6, die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7, die Sprachenumschalteinheit 8, die Phonemlabelketten-Wandlungseinheit 9 und die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher von den Akustikstandardmustern 4, der Benutzerwörterbuch-Registrierungseinheit 6, der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 und der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 verwendet wird, in einer Speichereinheit in dem oben beschriebenen Computer konfiguriert, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium.
Als nächstes wird der Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
2 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird.
Nachdem der Erkennungswörter-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt ST1), äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, was ein Personenname ist. Die Stimmenerfassungseinheit 2 erfasst die Stimmenäußerung von dem Benutzer über das Mikrofon 2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an die Akustikanalyseeinheit 3 aus (Schritt ST2) .
Als nächstes prüft die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, wobei die Einstellsprache derzeit bei der Akustikdaten-Abgleichseinheit 5 eingestellt ist (Schritt ST3), und registriert eine Information, die die Einstellsprache darin zeigt (Schritt ST4). Die Einstellsprache wird im Voraus als die Sprache eingestellt, die das Ziel für eine Spracherkennung und Stimmensynthese in einer Spracherkennungsvorrichtung, die die Erkennungswörterbuch-Erzeugungsvorrichtung 1 verwendet, und einem Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung 1 verwendet, ist. In dem Beispiel der 2 ist Englisch derzeit als die Einstellsprache eingestellt. Die Akustikanalyseeinheit 3 führt eine Akustikanalyse auf dem Stimmensignal durch, das von der Stimmenerfassungseinheit 2 in Schritt ST2 eingegeben wird, und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (Schritt ST5).
Die Akustikdaten-Abgleichseinheit 5 liest die Akustikstandardmuster 4 entsprechend der Sprache (Einstellsprache), die dazu eingestellt ist, und vergleicht die Akustikstandardmuster 4 entsprechend dieser Einstellsprache mit der Zeitserie von Akustikmerkmalen der Stimmeneingabe, welche von der Akustikanalyseeinheit 3 erlangt wird, um eine optimale Phonemlabelkette zu erzeugen, welche die Stimmeneingabe zeigt und welche der Zeitreihe von Akustikmerkmalen der Stimmeneingabe von den Phonemlabelketten, die den Standardakustikmerkmalen entsprechen, welche die Akustikstandardmuster 4 bilden (Schritt ST6), am ähnlichsten ist. In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die Einstellsprache Englisch ist, erlangt zum Beispiel die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in 2 gezeigt.
Die Benutzerwörterbuch-Registrierungseinheit 6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in dem Benutzerwörterbuch (Schritt ST7). Als ein Ergebnis wird ein Benutzerwörterbuch erzeugt, in welchem eine Phonemlabelkette, die dem Text entspricht, der in der Einstellsprache eines Worts, das registriert werden soll, ausgedrückt ist, registriert wird.
Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 nach einem Umschalten zwischen Einstellsprachen durchführt. Ein Fall in welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in 2 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt.
Zum Beispiel schaltet, in Ansprechen auf eine Sprache, welche der Benutzer bei der Sprachenumschalteinheit 8 unter Verwendung der Eingabeeinheit neu einstellt, die Sprachenumschalteinheit 8 zu der Sprache um und stellt die Sprache, zu welcher die Sprachenumschalteinheit umgeschaltet hat, bei der Phonemlabelketten-Wandlungseinheit 9 ein (Schritt ST1a). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit zu Japanisch umgeschaltet hat.
Die Phonemlabelketten-Wandlungseinheit 9 liest die Information, die die Sprache zeigt, die in der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 gespeichert ist, um die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch zu prüfen (Schritt ST2a). Wie oben erwähnt, ist die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch in dem Beispiel von 2 Englisch.
Als nächstes verwendet die Phonemlabelketten-Wandlungseinheit 9 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, welche die Phonemlabelketten-Wandlungseinheit bei Schritt ST2a geprüft hat, und die Sprache, welche von der Sprachenumschalteinheit 8 spezifiziert wird und auf welche die Sprachenumschalteinheit umgeschaltet hat, um die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 zu durchsuchen, um die Zwischensprachen-Tondaten-Abbildungstabelle zu lesen, die der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache entspricht, auf welche die Sprachenumschalteinheit umgeschaltet hat.
Die Zwischensprachen-Tondaten-Abbildungstabelle zeigt eine Entsprechung zwischen englischen Phonemlabeln und japanischen Phonemlabeln, wie in 3 gezeigt. Bezugnehmend auf 3 umfassen 3 verschiedene englische Phonemlabel, die durch einen Referenzbuchstaben A gezeigt werden, welche sich in der Aussprache zueinander ähneln, was auf Japanisch zum Beispiel nicht ausgedrückt werden kann. In diesem Fall wird das japanische Phonemlabel (/a/), welches in der Aussprache den englischen Phonemlabeln ähnelt, die durch den Referenzbuchstaben A gezeigt werden, in Entsprechung mit den englischen Phonemlabeln gebracht. Ferner, weil das englische Phonemlabel /1/ nicht durch irgendein japanisches Phonemlabel ausgedrückt werden kann, wird das japanische Phonemlabel /r/, welches dem englischen Phonemlabel /1/ ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht.
Die Phonemlabelketten-Wandlungseinheit 9 wandelt die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, die aus der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 gelesen wurde (Schritt ST3a).
Zum Beispiel, wie in 3 gezeigt, wandelt die Phonemlabelketten-Wandlungseinheit „#, /m/, /a/, /i/, /k/, /1/, #“, was die englische Phonemlabelkette von „Michael“ ist, in „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, gemäß der Entsprechung in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Englisch und Japanisch.
Ein Verfahren zum Erzeugen einer Zwischensprachen-Akustikdaten-Abbildungstabelle wird in der folgenden Referenz 1 offenbart. Referenz 1; Japanische ungeprüfte Patentanmeldung Veröffentlichungsnummer 2007/155833
Die Benutzerwörterbuch-Registrierungseinheit 6 speichert die Phonemlabelkette erneut, zu welcher die ursprüngliche Phonemlabelkette durch die Phonemlabelketten-Wandlungseinheit 9 in Schritt ST3a gewandelt wird in dem Benutzerwörterbuch (Schritt ST4a). Bezugnehmend auf 3, weil das registrierte Wort „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert.
Wie oben beschrieben, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 mit dem Benutzerwörterbuch bereitgestellt, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und einer Zwischensprachen-Akustikdaten-Abbildungstabelle, in welche eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und wandelt die Phonemlabelkette, die in einer Sprache ausgedrückt ist, welche zu der Zeit der Erzeugung des Benutzerwörterbuchs eingestellt ist, in eine Phonemlabelkette, die in einer anderen Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, durch ein Zurückgreifen auf die Zwischensprachen-Akustikdaten-Abbildungstabelle.
Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, kann, auch wenn die Einstellsprache von der Einen zu der Zeit der Registrierung in dem Benutzerwörterbuch zu einer anderen Sprache umgeschaltet wird, die Erkennungswörterbuch-Erzeugungsvorrichtung ein Benutzerwörterbuch erzeugen, das in der anderen Sprache geschrieben ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, nur durch ein Wandeln der Phonemlabelkette in eine Phonemlabelkette, die in der anderen Sprache ausgedrückt ist, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, und kann die Verarbeitungszeit, die benötigt wird, um eine Phonemlabelkette entsprechend der anderen Sprache zu erzeugen, spürbar reduzieren.
Ferner, auch wenn eine Phonemlabelkette jedes Mal erzeugt wird, wenn die Erkennungswörterbuch-Erzeugungsvorrichtung die Einstellsprache ändert, muss die Erkennungswörterbuch-Erzeugungsvorrichtung eine Stimmenäußerung nicht speichern. Ferner muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur eine Phonemlabelkette zu der Zeit der Registrierung in das Benutzerwörterbuch speichern und muss nicht im Voraus Phonemlabel für alle Sprachen erzeugen, von denen angenommen wird, dass sie genutzt werden. Als Ergebnis ist es nicht notwendig, einen Speicher großer Größe bereitzustellen.
Ausführungsform 2
4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt, und zeigt die Spracherkennungsvorrichtung die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben erwähnten Ausführungsform 1 verwendet. Bezugnehmend auf 4, wird die Spracherkennungsvorrichtung 1A gemäß Ausführungsform 2 mit einer Wörterbuchvergleichseinheit 11, einem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster für jede Sprache, und einer Erkennungsergebnis-Ausgabeeinheit 13 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung 1, die in der oben erwähnten Ausführungsform 1 gezeigt ist. In 4 werden dieselben Komponenten wie die in 1 gezeigten und Komponenten, die in derselben Weise wie die in 1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen.
Die Wörterbuchvergleichseinheit 11 ist eine Komponente zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe mit einem Vokabular in dem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache, und einem Vokabular, das in einem Benutzerwörterbuch registriert ist, das in einer Benutzerwörterbuch-Registrierungseinheit 6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch 12 und dem Vokabular in dem Benutzerwörterbuch. Das Allgemeinwörterbuch 12 ist ausgedrückt durch die Akustikstandardmuster entsprechend jeder Sprache X (X = 1, 2, 3,...) und ein großes Vokabular (Phonemlabelketten), das die Namen von Orten umfasst, die in jeder Sprache geschrieben sind, ist in dem Allgemeinwörterbuch registriert. Die Erkennungsergebnis-Ausgabeeinheit 13 ist eine Komponente zum Ausgeben eines Spracherkennungsergebnisses und gibt das Wort aus, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, welches die Wörterbuchvergleichseinheit 11 als das Ergebnis des Vergleichs erlangt hat.
Ferner, indem ein Spracherkennungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Spracherkennungsprogramm ausführt, können die Wörterbuchvergleichseinheit 11, das Allgemeinwörterbuch 12, ausgedrückt durch die Akustikstandardmuster für jede Sprache, und die Erkennungsergebnis-Ausgabeeinheit 13 auf dem Computer als konkrete Mittel implementiert werden, bei denen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster 4 und das Allgemeinwörterbuch 12 verwendet wird, in einer Speichereinheit konfiguriert, die in dem oben erwähnten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externes Speichermedium.
Als nächstes wird ein Betrieb der Spracherkennungsvorrichtung beschrieben.
5 ist ein Flussdiagramm, das einen Ablauf des Betriebs der Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt.
Nachdem der Spracherkennungsvorrichtung befohlen wurde, eine Spracherkennung zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt ST1b), äußert ein Benutzer eine Stimme, welche das Ziel für die Spracherkennung ist. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit 2 erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon 2a und wandelt diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit 3 aus (Schritt ST2b). Die Akustikanalyseeinheit 3 führt eine Akustikanalyse für das Stimmensignal, das von der Stimmenerfassungseinheit 2 in Schritt ST2b eingegeben wird, aus und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen.
Eine Akustikdaten-Abgleichseinheit 5 liest Information, die eine Sprache zeigt, welche in einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 gespeichert ist, um die Einstellsprache zu prüfen, die zu der Zeit einer Registrierung in dem Benutzerwörterbuch (Schritt ST3b) eingestellt ist. Es wird angenommen, dass die Einstellsprache, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, in dem Flussdiagramm von 5 Japanisch ist.
Die Akustikdaten-Abgleichseinheit 5 erzeugt dann eine Phonemlabelkette, die der Stimmeneingabe entspricht und in der Einstellsprache ausgedrückt ist, aus der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erfasst von der Akustikanalyseeinheit 3, und den Akustikstandardmustern 4, entsprechend der Einstellsprache (Schritt ST4b). Zum Beispiel, in einem Fall, in welchem die Stimmeingabe „Michael“ ist und die Einstellsprache Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“,als eine Phonemlabelkette erlangt, die durch die japanischen Akustikstandardmuster ausgedrückt ist.
Als nächstes vergleicht die Wörterbuchvergleichseinheit 11 die Phonemlabelkette der Stimmeneingabe, welche durch die Akustikdaten-Abgleichseinheit 5 erzeugt wird, mit dem Vokabular in dem Allgemeinwörterbuch 12, welches durch die Akustikstandardmuster 4 entsprechend der Einstellsprache ausgedrückt ist, und dem Vokabular, welches in dem Benutzerwörterbuch registriert ist, welches in der Benutzerwörterbuch-Registrierungseinheit 6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch 12 und dem Vokabular in dem Benutzerwörter (Schritt ST5b). Die Erkennungsergebnis-Ausgabeeinheit 13 gibt das Wort aus, welches als das Ergebnis des Vergleichs erlangt wird, das von der Wörterbuchvergleichseinheit 11 gemacht wird und welches der Phonemlabelkette der Stimmeneingabe (Schritt ST6b) am ähnlichsten ist.
Wie in 5 gezeigt, ist ein großes Vokabular, wie zum Beispiel die Namen von Orten, als Phonemlabelketten in dem Allgemeinwörterbuch 12 registriert, ausgedrückt durch die Akustikstandardmuster entsprechend der Einstellsprache (in diesem Beispiel Japanisch). Ferner, wie in oben erwähnter Ausführungsform 1 gezeigt, werden beliebige Wörter als Phonemlabelketten in dem Benutzerwörterbuch durch die Äußerungen des Benutzers registriert. In einem Fall, in welchem „#, /m/, /a/, /i/, /k/, /r/, #“ als ein registriertes Wort 1 des Benutzerwörterbuchs registriert ist, spezifiziert die Wörterbuchvergleichseinheit 11 das registrierte Wort 1 als das Wort, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, und die Erkennungsergebnis-Ausgabeeinheit 13 gibt das registrierte Wort 1 als das Erkennungsergebnis aus.
Wie oben erwähnt, da die Spracherkennungsvorrichtung 1a gemäß dieser Ausführungsform 2 mit der Allgemeinwörterbuch-Speichereinheit zum Speichern des Allgemeinwörterbuchs 12, der Wörterbuchvergleichseinheit 11 zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe, welche von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, mit dem Allgemeinwörterbuch 12 und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch 12 und dem Benutzerwörterbuch, und der Erkennungsergebnis-Ausgabeeinheit 13, zum Ausgeben des Worts, das von der Wörterbuchvergleichseinheit 11 als das Spracherkennungsergebnis spezifiziert wird, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 bereitgestellt wird, kann ein Vorteil erzielt werden, dass ermöglicht wird, die Spracherkennungsvorrichtung 1A bereitzustellen, welche eine Spracherkennung unter Verwendung des Benutzerwörterbuchs durchführt, zusätzlich zu dem Vorteil, der durch die oben erwähnte Ausführungsform 1 bereitgestellt wird.
Ausführungsform 3.
6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt, und zeigt den Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 verwendet. Bezugnehmend auf 6, wird der Stimmensynthesizer 1b gemäß Ausführungsform 3 mit einer Texteingabeeinheit 14, einer Registriertes-Wort-Teil-Erfassungseinheit 15, einer Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit (Registriertes-Wort-Austauscheinheit) 16, einer Anderer-Teil-Phonemlabelketten-Austauscheinheit (Allgemeinwörterbuch-Austauscheinheit) 17, und einer Stimmensyntheseeinheit 18 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung 1, die in der oben erwähnten Ausführungsform 1 gezeigt ist, und dem Allgemeinwörterbuch 12, das in der oben erwähnten Ausführungsform 2 gezeigt ist, und durch die Akustikstandardmuster für jede Sprache ausgedrückt ist. In 6 werden dieselben Komponenten wie die in 1 und 4 gezeigten und Komponenten, die in derselben Weise wie die in 1 und 4 gezeigten betrieben werden, durch dieselben Bezugszeichen bezeichnet und die Erklärung der Komponenten wird im Folgenden ausgelassen.
Die Texteingabeeinheit 14 ist eine Komponente zum Eingeben eines Texts, welcher in eine Stimme konvertiert werden soll. Die Registriertes-Wort-Teil-Erfassungseinheit 15 ist eine Komponente zum Erfassen eines registrierten Worts, welches in einem Benutzerwörterbuch registriert ist, aus der Texteingabe, die von der Texteingabeeinheit 14 erfasst wird. Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 ist eine Komponente zum Ersetzen des registrierten Wortes, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, mit einer Phonemlabelkette aus dem Benutzerwörterbuch. Die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 ist eine Komponente zum Eingeben eines anderen Teils des Eingabetexts als dem registrierten Wort, das von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, und ersetzt den anderen Teil des Eingabetexts als das registrierte Wort mit einer Phonemlabelkette aus dem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache. Die Stimmensyntheseeinheit 18 ist eine Komponente zum Erzeugen einer synthetischen Stimme der Texteingabe aus den Phonemlabelketten, die mit der Texteingabe assoziiert sind, welche durch die Phonemlabelketten-Austauscheinheiten 16 und 17 erlangt werden.
Indem ein Stimmensyntheseprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Stimmensyntheseprogramm ausführt, können die Texteingabeeinheit 14, die Registriertes-Wort-Teil-Erfassungseinheit 15, die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 und die Stimmensyntheseeinheit 18 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software in Kooperation miteinander arbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster 4 und das Allgemeinwörterbuch 12 verwendet wird, in einer Speichereinheit konfiguriert, welche in dem oben genannten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium.
Als nächstes wird ein Betrieb des Stimmensynthesizers beschrieben.
7 ist ein Flussdiagramm, das ein Ablauf des Betriebs des Stimmensynthesizers gemäß Ausführungsform 3 zeigt.
Ein Benutzer gibt einen Text, der in eine Stimme gewandelt werden soll, in den Stimmensynthesizer unter Verwendung der Texteingabeeinheit 14 ein (Schritt ST1c). Zu dieser Zeit stellt der Benutzer einen Identifizierer zum Identifizieren eines registrierten Worts in dem Benutzerwörterbuch ein. Zum Beispiel, wie in 7 gezeigt, wenn ein Text eingegeben wird, umfassend ein registriertes Wort 1, das in dem Benutzerwörterbuch registriert ist, setzt der Benutzer Klammern mit doppeltem Haken, welche der Identifizierer zum Identifizieren eines registrierten Worts sind, vor und hinter das registrierte Wort 1.
Die Registriertes-Wort-Teil-Erfassungseinheit 15 erhält die Texteingabe von der Texteingabeeinheit 14 und erfasst das registrierte Wort unter Verwendung des Identifizierers zum Identifizieren eines registrierten Worts, der in dem Eingabetext gesetzt ist (Schritt ST2c). Im Beispiel von 7 wird das registrierte Wort 1 erfasst, vor und hinter welchem Klammern mit doppeltem Haken gesetzt sind.
Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 ersetzt dann das registrierte Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, mit einer Phonemlabelkette, die von dem Benutzerwörterbuch erhalten wird (Schritt ST3c). Als ein Ergebnis wird das registrierte Wort 1 durch „#, /m/, /a/, /i/, /k/, /r/, #“ ersetzt, welches eine entsprechende Phonemlabelkette ist.
Die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 gibt den anderen Teil in dem Eingabetext als dem registrierten Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, ein, und tauscht den anderen Teil in dem Eingabetext als dem registrierten Wort mit einer Phonemlabelkette aus, die aus dem Allgemeinwörterbuch 12 erhalten wird, entsprechend der Einstellsprache (Schritt ST4c). In diesem Fall, unter der Annahme, dass die Einstellsprache Japanisch ist, werden der Artikel „wa“, das Nomen „Osaka“, der Artikel „ni“ und das Verb „itta“, welche ein anderer Teil des Eingabetexts als das registrierte Wort sind, durch entsprechende Phonemlabelketten ersetzt, welche in dem japanischen Allgemeinwörterbuch 12 jeweils registriert sind, wie in 7 gezeigt.
Die Stimmensyntheseeinheit 18 erzeugt eine synthetisches Stimme des Eingabetext aus den Phonemlabelketten, die mit dem Eingabetext assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 erlangt werden (Schritt ST5c). Im Beispiel der 7 wird eine synthetische Stimme von „Maikr wa Osaka ni itta“ ausgegeben. In diesem Fall, während der andere Teil als das registrierte Wort 1 mit japanischem Phonemlabeln geäußert wird, wird „Maikr“, welches das registrierte Wort 1 ist, in einer englischen Aussprache geäußert, weil die Einstellsprache zu der Zeit der Registrierung des Wortes in dem Benutzerwörterbuch Englisch war, wie im oben erwähnten Beispiel in Ausführungsform 1 gezeigt.
Wie oben erwähnt, umfasst der Stimmensynthesizer gemäß dieser Ausführungsform 1 die Texteingabeeinheit 14 zum Eingeben eines Textes, die Registriertes-Wort-Teil-Erfassungseinheit 15 zum Erfassen eines Wort-Teils entsprechend einer Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, aus der Buchstabenkette der Texteingabe, die von der Texteingabeeinheit 14 eingegeben wird, die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 zum Ersetzen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Benutzerwörterbuch erlangt wird, die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 zum Ersetzen eines Teils des Eingabetextes anders als der registrierte Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Allgemeinwörterbuch 12 erlangt wird, und die Stimmensyntheseeinheit 18 zum Erzeugen einer synthetischen Stimme des Textes aus den Phonemlabelketten, die mit dem Text assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 erlangt werden, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungseinheit gemäß oben erwähnter Ausführungsform 1.
Weil der Stimmensynthesizer in dieser Weise konfiguriert ist, kann ein Vorteil erzielt werden, dass der Stimmensynthesizer 1B, welcher eine Stimmensynthese durchführt, bereitgestellt werden kann, unter Verwendung des Benutzerwörterbuchs, zusätzlich zu dem Vorteil, der durch oben erwähnte Ausführungsform 1 erzielt wird.
Ausführungsform 4
8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt. Bezugnehmend auf 8 wird die Erkennungswörterbuch-Erzeugungsvorrichtung 1a gemäß Ausführungsform 4 bereitgestellt mit einer Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 anstelle der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7, bereitgestellt in den strukturellen Komponenten gemäß oben erwähnter Ausführungsform 1. Die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 ist eine Komponente zum Einstellen einer vorbestimmten Sprache, welche darin im Voraus als die Sprache von Akustikstandardmustern 4 registriert ist, die für einen Prozess verwendet wird, durchgeführt durch eine Akustikdaten-Abgleichseinheit 5, unabhängig von einer Einstellsprache, welche entweder für eine Spracherkennungsvorrichtung eingestellt wird, welche die Erkennungswörterbuch-Erzeugungsvorrichtung 1a verwendet, oder einen Stimmensynthesizer, welcher die Erkennungswörterbuch-Erzeugungsvorrichtung 1a verwendet. Diese vorbestimmte Sprache wird in der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 im Voraus unabhängig von der Einstellsprache registriert. In 8 werden dieselben Komponenten wie die in 1 gezeigten und Komponenten, welche in derselben Weise wie die in 1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen.
Als nächstes wird ein Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
9 ist ein Flussdiagramm, das ein Ablauf einer Benutzerwörterbuch-Registrierungsoperation der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 zeigt.
Nachdem der Erkennungswörterbuch-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, unter Verwendung einer Eingabeeinheit (Schritt ST1d) äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon 2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit 3 aus (Schritt ST2d) .
Als nächstes stellt die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 die vorbestimmte Sprache, welche darin im Voraus registriert ist, bei der Akustikdaten-Abgleichseinheit 5 ein, anstelle der Einstellsprache, die in dem System (Schritt ST3d) eingestellt ist. Im Beispiel von 9 wird Englisch als die vorbestimmte Sprache eingestellt. Die Akustikanalyseeinheit 3 führt eine Akustikanalyse für das Stimmensignal durch, das von der Stimmenerfassungseinheit 2 in Schritt ST2d eingegeben wird und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (Schritt ST4d) .
Die Akustikdaten-Abgleichseinheit 5 liest Akustikstandardmuster 4 entsprechend der vorbestimmten Sprache, die dazu eingestellt ist, aus der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19, und erzeugt eine optimale Phonemlabelkette, die die Stimmeneingabe zeigt, aus den Akustikstandardmustern 4, entsprechend dieser Sprache, die dazu eingestellt ist, und der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erlangt von der Akustikanalyseeinheit 3 (Schritt ST5d). In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die vorbestimmte Sprache Englisch ist, erlangt die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in 9 gezeigt.
Eine Benutzerwörterbuch-Registrierungseinheit 6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in einem Benutzerwörterbuch (Schritt ST6d).
Als nächstes bringt eine Phonemlabelketten-Wandlungseinheit 9 die Phonemlabelkette, die der Stimmeneingabe (registriertes Wort) entspricht und in der vorbestimmten Sprache ausgedrückt ist, die in der oben genannten Weise erlangt wird, in Entsprechung mit einem Phonemlabel, das in der Einstellsprache ausgedrückt ist, die derzeitig für das System eingestellt ist, gemäß einer Zwischensprachen-Akustikdaten-Abbildungstabelle, welche aus einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 gelesen wird, um die Phonemlabelkette, die dem registrierten Wort entspricht, das in dem Benutzerwörterbuch registriert ist und in der vorbestimmten Sprache ausgedrückt ist, in die Phonemlabel zu wandeln, das in der Einstellsprache ausgedrückt ist, und registriert dieses Phonemlabel, das in der Einstellsprache ausgedrückt ist, in der Benutzerwörterbuch-Registrierungseinheit 6 als das derzeitige Benutzerwörterbuch (Schritt ST7d).
Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Einstellsprachen umgeschaltet wurde. Ein Fall, bei welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in 9 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt.
In Ansprechen auf eine Sprache, welche der Benutzer unter Verwendung einer Eingabeeinheit neu für eine Sprachenumschalteinheit 8 einstellt, , stellt die Sprachenumschalteinheit 8 die Sprache, auf welche die Sprachenumschalteinheit 8 umgeschaltet wurde, bei der Phonemlabelketten-Wandlungseinheit 9 ein (Schritt ST1a). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit auf Japanisch umgeschaltet hat.
Die Phonemlabelketten-Wandlungseinheit 9 verwendet die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat und welche durch die Sprachenumschalteinheit 8 spezifiziert ist, und die vorbestimmte Sprache, um durch die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 zu suchen, um die Zwischensprachen-Tondaten-Abbildungstabelle entsprechend der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, zu lesen und wandelt die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, welche in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß dem Zwischensprachen-Akustikdaten-Abbildungstabelle (Schritt ST2e) .
Zum Beispiel wird die Phonemlabelkette „#, /m/, /a/, /i/, /k/, /1/, #“ von „Michael“ auf Englisch, welche die vorbestimmte Sprache ist, in „#, /m/, /a/, /i/, /k/, /r/, #“ gewandelt, welches eine japanische Phonemlabelkette gemäß der Entsprechung in der Zwischensprachen-Akustikdaten-Abbildungstabelle zwischen Englisch und Japanisch ist, welches die Sprache ist, auf welche die Sprachenumschalteinheit umgeschaltet hat.
Die Benutzerwörterbuch-Registrierungseinheit 6 speichert zusätzlich die Phonemlabelkette, in welche die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, durch die Phonemlabelketten-Wandlungseinheit 9 gewandelt wird in Schritt ST2a in dem Benutzerwörterbuch (Schritt ST3e). Bezugnehmend auf 10, wird, weil der registrierte Worttext „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, „#, /m/, /a/, /i/, /k/, /r/, #“ welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert.
Wie oben erwähnt, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 4 mit dem Benutzerwörterbuch bereitgestellt, in welches eine Phonemlabelkette einer Stimmeneingabe registriert wird, der Zwischensprachen-Akustikdaten-Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabel in verschiedenen Sprachen definiert ist, und der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 zum Auswählen von Akustikstandardmustern entsprechend einer voreingestellten Sprache aus Akustikstandardmustern, und greift auf die Zwischensprachen-Akustikdaten-Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 gewählt ist, in eine Phonemlabelkette zu wandeln, die in einer Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet hat.
Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, in einem Fall, in welchem eine aus N verschiedenen Sprachen als eine Zielsprache eingestellt werden kann, in welcher ein Wort, das in dem Benutzerwörterbuch registriert werden soll, ausgedrückt ist, verglichen mit oben erwähnter Ausführungsform 1, bei welcher es notwendig ist, Zwischen-Sprachen-Akustikdaten-Abbildungstabellen entsprechend allen (N x (N-1))/2 Kombinationen der Sprache bereitzustellen, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, und einer weitere Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung eingestellt werden kann, muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur Zwischensprachen-Akustikdaten-Abbildungstabellen entsprechend (N-1) Kombinationen der einzelnen vorbestimmten Sprache bereitstellen, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 eingestellt wird, und einer weiteren Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung wie oben erwähnt eingestellt werden kann. Daher kann die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform die Datengröße der Zwischensprachen-Akustikdaten-Abbildungstabellen reduzieren.
Obwohl die Fälle, bei welchen die Spracherkennungsvorrichtung und der Stimmensynthesizer unter Verwendung der Erkennungswörterbuch-Erzeugungsvorrichtung 1 gemäß oben erwähnter Ausführungsform 1 konfiguriert sind, in oben erwähnten Ausführungsformen 2 und 3 jeweils gezeigt sind, können die Spracherkennungsvorrichtung und der Stimmensynthesizer mit den Konfigurationen, die in 4 und 6 gezeigt sind, jeweils in Kombination mit der Erkennungswörterbuch-Erzeugungsvorrichtung 1a gemäß der oben erwähnten Ausführungsform 4 konfiguriert sein, die in 8 gezeigt ist, anstelle der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß oben erwähnter Ausführungsform 1. Als Ergebnis kann daher eine Spracherkennungsvorrichtung und ein Stimmensynthesizer bereitgestellt werden, welche auch denselben Vorteil erzielen, wie der, welcher durch oben erwähnte Ausführungsform 4 erzielt wird.
Industrielle Anwendbarkeit
Da die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung nicht einen Speicher großer Größe zum Speichern von Stimmenäußerungen haben und Phonemlabelketten für alle Sprachen im Voraus erzeugen muss und die Zeit verkürzen kann, die benötigt wird um Phonemlabelketten für jede Sprache zu erzeugen, ist die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung dazu geeignet, in einer Spracherkennungsvorrichtung, die in einem Fahrzeug angebracht ist, und einem Stimmensynthesizer, der an einem Fahrzeug angebracht ist, verwendet zu werden.

Claims

Erkennungswörterbuch-Erzeugungsvorrichtung umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen von der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.
Erkennungswörterbuch-Erzeugungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für eine Spracherkennungsvorrichtung und/oder einen Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für die Spracherkennungsvorrichtung eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für den Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.