DE112010005168B4 - Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer - Google Patents
Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer Download PDFInfo
- Publication number
- DE112010005168B4 DE112010005168B4 DE112010005168.2T DE112010005168T DE112010005168B4 DE 112010005168 B4 DE112010005168 B4 DE 112010005168B4 DE 112010005168 T DE112010005168 T DE 112010005168T DE 112010005168 B4 DE112010005168 B4 DE 112010005168B4
- Authority
- DE
- Germany
- Prior art keywords
- acoustic
- language
- unit
- phoneme label
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 23
- 238000013506 data mapping Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01G—COMPOUNDS CONTAINING METALS NOT COVERED BY SUBCLASSES C01D OR C01F
- C01G41/00—Compounds of tungsten
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01P—INDEXING SCHEME RELATING TO STRUCTURAL AND PHYSICAL ASPECTS OF SOLID INORGANIC COMPOUNDS
- C01P2006/00—Physical properties of inorganic compounds
- C01P2006/80—Compositional purity
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- Inorganic Chemistry (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Erkennungswörterbuch-Erzeugungsvorrichtung umfassend:
eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben;
eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen;
eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen;
eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird;
eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist;
eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache;
eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und
eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben;
eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen;
eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen;
eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird;
eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist;
eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache;
eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und
eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung betrifft eine Erkennungswörterbuch-Erzeugungsvorrichtung, die ein Wort in einem Wörterbuch für eine Spracherkennung durch eine Stimmenäußerung eines Benutzer registriert, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung nutzt und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung nutzt.
- Hintergrund der Erfindung
- Eine Anwendung, die Spracherkennung einsetzt, registriert die Stimmenäußerung eines Benutzers und verwendet diese Stimme als ein Wort, das in einigen Fällen erkannt werden soll. Im Folgenden wird diese Operation als eine Erzeugung eines Benutzerwörterbuchs bezeichnet. Als Beispiele einer Erzeugung eines Benutzerwörterbuchs aus einer Stimme gibt es einen Fall, bei welchem ein Radiosendername entsprechend einer Funkfrequenz durch eine Stimme registriert wird und ein Fall, bei welchem der Name einer Person oder ein Ortsname entsprechend einer Telefonnummer durch eine Stimme registriert wird.
- Ferner wird eine Sprachenumschaltfunktion bei einer Spracherkennung benötigt, die in einer Apparatur verwendet wird, welche in einer Vielzahl von Ländern verwendet werden kann, sowie zum Beispiel ein Autonavigationssystem und ein Mobilendgerät.
- Als eine verwandte konventionelle Technologie beschreibt Patentdokument 1 zum Beispiel ein Nutzungssprachenumschaltverfahren zum Bestimmen einer Sprache, die ein Benutzer verwenden möchte, wenn zwischen Nutzungssprachen gewechselt wird, für ein elektronisches Wörterbuch, indem Eigenschaftsdaten, welche durch ein Durchführen von Spracherkennung einer Stimmenäußerung des Benutzer erlangt werden, mit darin gespeicherten Wörtern verglichen werden.
- Typischerweise werden Stimmendaten für jede Sprache gesammelt und die Stimmenäußerung eines Benutzers wird erkannt, indem ein Spracherkennungsalgorithmus und ein Stimmenstandardmodell verwendet werden, welche unter Verwendung der gesammelten Stimmendaten konfiguriert werden. Daher, wenn ein Wechsel zwischen Sprachen durchgeführt wird, ist es notwendig, die Spracherkennungseinheit selbst und das Tonstandardmodell zu wechseln.
- Konventionell wird auch eine Spracherkennungsvorrichtung vorgeschlagen, welche Phonemlabelketten erzeugt, die jeweils eine Stimmenäußerung eines Benutzers am besten für jede Sprache ausdrücken, indem eine typisch bekannte Spracherkennungstechnik verwendet wird und dann die Phonemlabelkette als ein Benutzerwörterbuch gespeichert wird, wodurch ermöglicht wird, Spracherkennung für die Stimmenäußerung des Benutzers durchzuführen, auch wenn zwischen Sprachen, die für Spracherkennung verwendet werden, gewechselt wird.
- Es besteht jedoch das Problem, dass, weil Stimmenäußerungen in einem Speicher gespeichert sind und verarbeitet werden, wenn Phonemlabelketten erzeugt werden, jedes Mal, wenn die Sprache gewechselt wird, ein Speicher mit großer Größe benötigt wird, welcher den Stimmenäußerungen einen Speicherbereich zur Verfügung stellen kann.
- Ferner, in einem Fall, in welchem Stimmenäußerungen nicht in einem Speicher gespeichert werden können, müssen Phonemlabelketten für jede der Sprachen erzeugt werden, von denen angenommen wird, dass sie verwendet werden. Da es jedoch viel Zeit benötigt, Phonemlabelketten zu erzeugen, auch für eine einzelne Sprache, wird die Verarbeitungszeit, die benötigt wird, um Phonemlabelketten für jede der Sprachen, von denen angenommen wird, dass sie verwendet werden, zu erzeugen, sehr groß. Außerdem wird auch ein Speicher großer Größe benötigt, welcher Phonemlabelketten für all die Sprachen speichern kann.
- Die vorliegende Erfindung zielt darauf ab, die oben genannten Probleme zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, einen Erkennungswörterbuch-Erzeugungsvorrichtung bereitzustellen, die nicht einen Speicher großer Größe haben muss, um Stimmenäußerungen zu speichern, und Phonemlabelketten nicht für alle Sprachen im Voraus erzeugen muss, und welche die Zeit, die zum Erzeugen von Phonemlabelketten für jede Sprache benötigt wird, verkürzen kann, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung verwendet und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung verwendet.
- Stand-der-Technik-Dokument
- Patentdokument 1:
JP 2001 - 282 788 A US 7 181 395 B1 , 20 Februar 2007, bezieht sich auf ein Verfahren und eine Vorrichtung zum automatischen Ableiten mehrerer phonetischen Grundformen eines Wortes aus einer Sprachäußerung des Wortes. - Druckschrift
US 2005/0 197 835 A1 - Zusammenfassung der Erfindung
- Gemäß der vorliegenden Erfindung wird eine Erkennungswörterbuch-Erzeugungsvorrichtung bereitgestellt, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse auf einem Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die dort von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind, um eine Phonemlabelkette der Stimmeingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welchem die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, die in dem Benutzerwörterbuch registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert wird; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
- Die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung umfasst das Benutzerwörterbuch, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und die Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und greift auf die Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, und in einer Sprache ausgedrückt ist, die zu der Zeit eingestellt wird, wenn das Benutzerwörterbuch erzeugt wird, in eine Phonemlabelkette zu wandeln, die in einer anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
- Weil auch nach dem Umschalten zu einer anderen Sprache die Erkennungswörterbuch-Erzeugungseinheit das registrierte Wort in ein Wort wandeln kann, das in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat, mit einer hohen Geschwindigkeit, indem auf die Abbildungstabelle in der oben beschriebenen Weise zurückgegriffen wird, wird der Vorteil erzielt, dass die Notwendigkeit eliminiert wird, einen Speicher großer Größe bereitzustellen, um Stimmenäußerungen zu speichern, und Phonemlabelketten für alle Sprachen im Voraus zu erzeugen, und, dass es ermöglicht wird, die Zeit zu verkürzen, die benötigt wird, um Phonemlabelketten für jede Sprache zu erzeugen.
- Figurenliste
-
-
1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt; -
2 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird; -
3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchführt, nachdem zwischen Sprachen umgeschaltet wurde; -
4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt; -
5 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von der Spracherkennungsvorrichtung gemäß Ausführungsform 2 durchgeführt wird; -
6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt; -
7 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von dem Stimmensynthesizer gemäß Ausführungsform 3 durchgeführt wird; -
8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt; -
9 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchgeführt wird; und -
10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Sprachen umgeschaltet wurde. - Ausführungsformen der Erfindung
- Im Folgenden werden, um diese Erfindung detaillierter zu beschreiben, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezug auf die beigefügten Zeichnungen beschrieben.
- Ausführungsform 1.
-
1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Bezugnehmend auf1 , wird die Erkennungswörterbuch-Erzeugungsvorrichtung1 gemäß Ausführungsform1 mit einem Mikrofon2a , einer Stimmenerfassungseinheit2 , einer Akustikanalyseeinheit3 , Akustikstandardmustern4 , die für jede Sprache bereitgestellt werden, einer Akustikdaten-Abgleichseinheit5 , einer Benutzerwörterbuchregistrierungseinheit (Benutzerwörterbuchspeichereinheit)6 , einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit (Sprachenspeichereinheit)7 , einer Sprachenumschalteinheit8 , und einer Phonemlabelketten-Wandlungseinheit9 und einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 (Abbildungstabellen-Speichereinheit) bereitgestellt. - Die Stimmenerfassungseinheit
2 ist eine Komponente zum Wandeln einer Stimme, die von dem Mikrofon2a erfasst wird, in ein digitales Signal. Die Akustikanalyseeinheit3 ist eine Komponente zum Analysieren des Stimmensignals, das von der Stimmenerfassungseinheit2 digitalisiert wurde, um das Stimmensignal in eine Zeitreihe von Akustikmerkmalen zu wandeln. Zum Beispiel analysiert die Akustikanalyseeinheit das Stimmensignal zu festen Zeitintervallen, um eine Akustikmerkmalsgröße (Akustikmerkmalgrößenvektor) zu berechnen, die Akustikmerkmale zeigt. - Die Akustikstandardmuster
4 sind Standardakustikmuster die jeweils Phonemlabelketten entsprechen, die in einer Sprache X (X = 1, 2, 3,...) ausgedrückt sind (ein Standardmodell, das die Eigenschaften von Akustikmerkmalsgrößen über Stimmenfragmente zeigt). Zum Beispiel werden die Akustikstandardmuster durch eine Modellierung in Einheiten eines Phonems unter Verwendung von HMM (Hidden Markov Model) oder Ähnlichem erzeugt. Die Akustikdaten-Abgleichseinheit5 ist eine Komponente zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die von der Akustikanalyseeinheit3 erlangt wird, mit den Akustikstandardmustern4 , die der Sprache X entsprechen, um eine Phonemlabelkette zu erzeugen, welche der Stimmeneingabe von den Phonemlabelketten am meisten ähnelt, entsprechend den Standardakustikmerkmalen, welche die Akustikstandardmuster4 bilden. - Die Benutzerwörterbuch-Registrierungseinheit
6 ist eine Komponente mit einem Benutzerwörterbuch und speichert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit5 erzeugt wird, in dem Benutzerwörterbuch. Die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 ist eine Speichereinheit zum Speichern von Information, die eine Einstellsprache zeigt, welche die Erkennungswörterbuch-Erzeugungseinheit als eine Sprache zur Spracherkennung einstellt, wenn das Benutzerwörterbuch erzeugt wird. Die Sprachenumschalteinheit8 ist eine Komponente zum Umschalten zwischen Einstellsprachen, die jeweils als eine Sprache zur Spracherkennung genutzt werden. - Die Phonemlabelketten-Wandlungseinheit
9 ist eine Komponente zum Wandeln einer Phonemlabelkette, welche in der Sprache ausgedrückt ist, die zu der Zeit eingestellt ist, zu welcher die Phonemlabelkette in dem Benutzerwörterbuch registriert wird, in eine Phonemlabelkette, die in einer Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit8 umgeschaltet hat, unter Verwendung einer Zwischensprachen-Akustikdaten-Abbildungstabelle. Die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 ist eine Speichereinheit zum Speichern von Zwischensprachen-Tondaten-Abbildungstabellen, die jeweils eine Entsprechung zwischen einem Paar von verschiedenen Sprachen und Phonemlabeln zeigen, ausgedrückt in diesen Sprachen. - In einem Fall, in welchem eine Sprache eines Paars ein Phonemlabel nicht in einer anderen Sprache des Paars ausdrücken kann, wird ein Phonemlabel unter Phonemlabeln, die in der anderen Sprache ausgedrückt werden können, welches einem Phonemlabel in der Sprache am meisten ähnelt, in Entsprechung mit diesem Phonemlabel gebracht. Zum Beispiel kann das englische Phonemlabel /1/ nicht in Japanisch ausgedrückt werden. Daher wird in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Japanisch und Englisch das japanische Phonemlabel /r/ welches dem englischen Phonemlabel /1/ in der Aussprache am meisten ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht.
- Ferner, indem ein Erkennungswörterbuch-Erzeugungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Erkennungswörterbuch-Erzeugungsprogramm ausführt, können die Stimmenerfassungseinheit
2 , die Akustikanalyseeinheit3 , die Akustikstandardmuster4 , die Akustikdaten-Abgleichseinheit5 , die Benutzerwörterbuch-Registrierungseinheit6 , die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 , die Sprachenumschalteinheit8 , die Phonemlabelketten-Wandlungseinheit9 und die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher von den Akustikstandardmustern4 , der Benutzerwörterbuch-Registrierungseinheit6 , der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 und der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 verwendet wird, in einer Speichereinheit in dem oben beschriebenen Computer konfiguriert, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium. - Als nächstes wird der Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
-
2 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird. - Nachdem der Erkennungswörter-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt
ST1 ), äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, was ein Personenname ist. Die Stimmenerfassungseinheit2 erfasst die Stimmenäußerung von dem Benutzer über das Mikrofon2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an die Akustikanalyseeinheit3 aus (SchrittST2 ) . - Als nächstes prüft die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit
7 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, wobei die Einstellsprache derzeit bei der Akustikdaten-Abgleichseinheit5 eingestellt ist (SchrittST3 ), und registriert eine Information, die die Einstellsprache darin zeigt (SchrittST4 ). Die Einstellsprache wird im Voraus als die Sprache eingestellt, die das Ziel für eine Spracherkennung und Stimmensynthese in einer Spracherkennungsvorrichtung, die die Erkennungswörterbuch-Erzeugungsvorrichtung1 verwendet, und einem Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung1 verwendet, ist. In dem Beispiel der2 ist Englisch derzeit als die Einstellsprache eingestellt. Die Akustikanalyseeinheit3 führt eine Akustikanalyse auf dem Stimmensignal durch, das von der Stimmenerfassungseinheit2 in SchrittST2 eingegeben wird, und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (SchrittST5 ). - Die Akustikdaten-Abgleichseinheit
5 liest die Akustikstandardmuster4 entsprechend der Sprache (Einstellsprache), die dazu eingestellt ist, und vergleicht die Akustikstandardmuster4 entsprechend dieser Einstellsprache mit der Zeitserie von Akustikmerkmalen der Stimmeneingabe, welche von der Akustikanalyseeinheit3 erlangt wird, um eine optimale Phonemlabelkette zu erzeugen, welche die Stimmeneingabe zeigt und welche der Zeitreihe von Akustikmerkmalen der Stimmeneingabe von den Phonemlabelketten, die den Standardakustikmerkmalen entsprechen, welche die Akustikstandardmuster4 bilden (SchrittST6 ), am ähnlichsten ist. In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die Einstellsprache Englisch ist, erlangt zum Beispiel die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in2 gezeigt. - Die Benutzerwörterbuch-Registrierungseinheit
6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit5 erzeugt wird, in dem Benutzerwörterbuch (SchrittST7 ). Als ein Ergebnis wird ein Benutzerwörterbuch erzeugt, in welchem eine Phonemlabelkette, die dem Text entspricht, der in der Einstellsprache eines Worts, das registriert werden soll, ausgedrückt ist, registriert wird. - Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
-
3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 nach einem Umschalten zwischen Einstellsprachen durchführt. Ein Fall in welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in2 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt. - Zum Beispiel schaltet, in Ansprechen auf eine Sprache, welche der Benutzer bei der Sprachenumschalteinheit
8 unter Verwendung der Eingabeeinheit neu einstellt, die Sprachenumschalteinheit8 zu der Sprache um und stellt die Sprache, zu welcher die Sprachenumschalteinheit umgeschaltet hat, bei der Phonemlabelketten-Wandlungseinheit9 ein (SchrittST1a ). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit zu Japanisch umgeschaltet hat. - Die Phonemlabelketten-Wandlungseinheit
9 liest die Information, die die Sprache zeigt, die in der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 gespeichert ist, um die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch zu prüfen (SchrittST2a ). Wie oben erwähnt, ist die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch in dem Beispiel von2 Englisch. - Als nächstes verwendet die Phonemlabelketten-Wandlungseinheit
9 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, welche die Phonemlabelketten-Wandlungseinheit bei SchrittST2a geprüft hat, und die Sprache, welche von der Sprachenumschalteinheit8 spezifiziert wird und auf welche die Sprachenumschalteinheit umgeschaltet hat, um die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 zu durchsuchen, um die Zwischensprachen-Tondaten-Abbildungstabelle zu lesen, die der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache entspricht, auf welche die Sprachenumschalteinheit umgeschaltet hat. - Die Zwischensprachen-Tondaten-Abbildungstabelle zeigt eine Entsprechung zwischen englischen Phonemlabeln und japanischen Phonemlabeln, wie in
3 gezeigt. Bezugnehmend auf3 umfassen 3 verschiedene englische Phonemlabel, die durch einen Referenzbuchstaben A gezeigt werden, welche sich in der Aussprache zueinander ähneln, was auf Japanisch zum Beispiel nicht ausgedrückt werden kann. In diesem Fall wird das japanische Phonemlabel (/a/), welches in der Aussprache den englischen Phonemlabeln ähnelt, die durch den Referenzbuchstaben A gezeigt werden, in Entsprechung mit den englischen Phonemlabeln gebracht. Ferner, weil das englische Phonemlabel /1/ nicht durch irgendein japanisches Phonemlabel ausgedrückt werden kann, wird das japanische Phonemlabel /r/, welches dem englischen Phonemlabel /1/ ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht. - Die Phonemlabelketten-Wandlungseinheit
9 wandelt die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, die aus der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 gelesen wurde (SchrittST3a ). - Zum Beispiel, wie in
3 gezeigt, wandelt die Phonemlabelketten-Wandlungseinheit „#, /m/, /a/, /i/, /k/, /1/, #“, was die englische Phonemlabelkette von „Michael“ ist, in „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, gemäß der Entsprechung in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Englisch und Japanisch. - Ein Verfahren zum Erzeugen einer Zwischensprachen-Akustikdaten-Abbildungstabelle wird in der folgenden Referenz 1 offenbart. Referenz 1; Japanische ungeprüfte Patentanmeldung Veröffentlichungsnummer 2007/155833
- Die Benutzerwörterbuch-Registrierungseinheit
6 speichert die Phonemlabelkette erneut, zu welcher die ursprüngliche Phonemlabelkette durch die Phonemlabelketten-Wandlungseinheit9 in SchrittST3a gewandelt wird in dem Benutzerwörterbuch (SchrittST4a ). Bezugnehmend auf3 , weil das registrierte Wort „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert. - Wie oben beschrieben, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 mit dem Benutzerwörterbuch bereitgestellt, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und einer Zwischensprachen-Akustikdaten-Abbildungstabelle, in welche eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und wandelt die Phonemlabelkette, die in einer Sprache ausgedrückt ist, welche zu der Zeit der Erzeugung des Benutzerwörterbuchs eingestellt ist, in eine Phonemlabelkette, die in einer anderen Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, durch ein Zurückgreifen auf die Zwischensprachen-Akustikdaten-Abbildungstabelle.
- Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, kann, auch wenn die Einstellsprache von der Einen zu der Zeit der Registrierung in dem Benutzerwörterbuch zu einer anderen Sprache umgeschaltet wird, die Erkennungswörterbuch-Erzeugungsvorrichtung ein Benutzerwörterbuch erzeugen, das in der anderen Sprache geschrieben ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, nur durch ein Wandeln der Phonemlabelkette in eine Phonemlabelkette, die in der anderen Sprache ausgedrückt ist, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, und kann die Verarbeitungszeit, die benötigt wird, um eine Phonemlabelkette entsprechend der anderen Sprache zu erzeugen, spürbar reduzieren.
- Ferner, auch wenn eine Phonemlabelkette jedes Mal erzeugt wird, wenn die Erkennungswörterbuch-Erzeugungsvorrichtung die Einstellsprache ändert, muss die Erkennungswörterbuch-Erzeugungsvorrichtung eine Stimmenäußerung nicht speichern. Ferner muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur eine Phonemlabelkette zu der Zeit der Registrierung in das Benutzerwörterbuch speichern und muss nicht im Voraus Phonemlabel für alle Sprachen erzeugen, von denen angenommen wird, dass sie genutzt werden. Als Ergebnis ist es nicht notwendig, einen Speicher großer Größe bereitzustellen.
- Ausführungsform 2
-
4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt, und zeigt die Spracherkennungsvorrichtung die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben erwähnten Ausführungsform 1 verwendet. Bezugnehmend auf4 , wird die Spracherkennungsvorrichtung1A gemäß Ausführungsform 2 mit einer Wörterbuchvergleichseinheit11 , einem Allgemeinwörterbuch12 , ausgedrückt durch Akustikstandardmuster für jede Sprache, und einer Erkennungsergebnis-Ausgabeeinheit13 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung1 , die in der oben erwähnten Ausführungsform 1 gezeigt ist. In4 werden dieselben Komponenten wie die in1 gezeigten und Komponenten, die in derselben Weise wie die in1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen. - Die Wörterbuchvergleichseinheit
11 ist eine Komponente zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe mit einem Vokabular in dem Allgemeinwörterbuch12 , ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache, und einem Vokabular, das in einem Benutzerwörterbuch registriert ist, das in einer Benutzerwörterbuch-Registrierungseinheit6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch12 und dem Vokabular in dem Benutzerwörterbuch. Das Allgemeinwörterbuch12 ist ausgedrückt durch die Akustikstandardmuster entsprechend jeder Sprache X (X = 1, 2, 3,...) und ein großes Vokabular (Phonemlabelketten), das die Namen von Orten umfasst, die in jeder Sprache geschrieben sind, ist in dem Allgemeinwörterbuch registriert. Die Erkennungsergebnis-Ausgabeeinheit13 ist eine Komponente zum Ausgeben eines Spracherkennungsergebnisses und gibt das Wort aus, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, welches die Wörterbuchvergleichseinheit11 als das Ergebnis des Vergleichs erlangt hat. - Ferner, indem ein Spracherkennungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Spracherkennungsprogramm ausführt, können die Wörterbuchvergleichseinheit
11 , das Allgemeinwörterbuch12 , ausgedrückt durch die Akustikstandardmuster für jede Sprache, und die Erkennungsergebnis-Ausgabeeinheit13 auf dem Computer als konkrete Mittel implementiert werden, bei denen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster4 und das Allgemeinwörterbuch12 verwendet wird, in einer Speichereinheit konfiguriert, die in dem oben erwähnten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externes Speichermedium. - Als nächstes wird ein Betrieb der Spracherkennungsvorrichtung beschrieben.
-
5 ist ein Flussdiagramm, das einen Ablauf des Betriebs der Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt. - Nachdem der Spracherkennungsvorrichtung befohlen wurde, eine Spracherkennung zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt
ST1b ), äußert ein Benutzer eine Stimme, welche das Ziel für die Spracherkennung ist. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit2 erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon2a und wandelt diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit3 aus (SchrittST2b ). Die Akustikanalyseeinheit3 führt eine Akustikanalyse für das Stimmensignal, das von der Stimmenerfassungseinheit2 in SchrittST2b eingegeben wird, aus und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen. - Eine Akustikdaten-Abgleichseinheit
5 liest Information, die eine Sprache zeigt, welche in einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 gespeichert ist, um die Einstellsprache zu prüfen, die zu der Zeit einer Registrierung in dem Benutzerwörterbuch (SchrittST3b ) eingestellt ist. Es wird angenommen, dass die Einstellsprache, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, in dem Flussdiagramm von5 Japanisch ist. - Die Akustikdaten-Abgleichseinheit
5 erzeugt dann eine Phonemlabelkette, die der Stimmeneingabe entspricht und in der Einstellsprache ausgedrückt ist, aus der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erfasst von der Akustikanalyseeinheit3 , und den Akustikstandardmustern4 , entsprechend der Einstellsprache (SchrittST4b ). Zum Beispiel, in einem Fall, in welchem die Stimmeingabe „Michael“ ist und die Einstellsprache Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“,als eine Phonemlabelkette erlangt, die durch die japanischen Akustikstandardmuster ausgedrückt ist. - Als nächstes vergleicht die Wörterbuchvergleichseinheit
11 die Phonemlabelkette der Stimmeneingabe, welche durch die Akustikdaten-Abgleichseinheit5 erzeugt wird, mit dem Vokabular in dem Allgemeinwörterbuch12 , welches durch die Akustikstandardmuster4 entsprechend der Einstellsprache ausgedrückt ist, und dem Vokabular, welches in dem Benutzerwörterbuch registriert ist, welches in der Benutzerwörterbuch-Registrierungseinheit6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch12 und dem Vokabular in dem Benutzerwörter (SchrittST5b ). Die Erkennungsergebnis-Ausgabeeinheit13 gibt das Wort aus, welches als das Ergebnis des Vergleichs erlangt wird, das von der Wörterbuchvergleichseinheit11 gemacht wird und welches der Phonemlabelkette der Stimmeneingabe (SchrittST6b ) am ähnlichsten ist. - Wie in
5 gezeigt, ist ein großes Vokabular, wie zum Beispiel die Namen von Orten, als Phonemlabelketten in dem Allgemeinwörterbuch12 registriert, ausgedrückt durch die Akustikstandardmuster entsprechend der Einstellsprache (in diesem Beispiel Japanisch). Ferner, wie in oben erwähnter Ausführungsform 1 gezeigt, werden beliebige Wörter als Phonemlabelketten in dem Benutzerwörterbuch durch die Äußerungen des Benutzers registriert. In einem Fall, in welchem „#, /m/, /a/, /i/, /k/, /r/, #“ als ein registriertes Wort1 des Benutzerwörterbuchs registriert ist, spezifiziert die Wörterbuchvergleichseinheit11 das registrierte Wort1 als das Wort, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, und die Erkennungsergebnis-Ausgabeeinheit13 gibt das registrierte Wort1 als das Erkennungsergebnis aus. - Wie oben erwähnt, da die Spracherkennungsvorrichtung
1a gemäß dieser Ausführungsform 2 mit der Allgemeinwörterbuch-Speichereinheit zum Speichern des Allgemeinwörterbuchs12 , der Wörterbuchvergleichseinheit11 zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe, welche von der Akustikdaten-Abgleichseinheit5 erzeugt wird, mit dem Allgemeinwörterbuch12 und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch12 und dem Benutzerwörterbuch, und der Erkennungsergebnis-Ausgabeeinheit13 , zum Ausgeben des Worts, das von der Wörterbuchvergleichseinheit11 als das Spracherkennungsergebnis spezifiziert wird, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 bereitgestellt wird, kann ein Vorteil erzielt werden, dass ermöglicht wird, die Spracherkennungsvorrichtung1A bereitzustellen, welche eine Spracherkennung unter Verwendung des Benutzerwörterbuchs durchführt, zusätzlich zu dem Vorteil, der durch die oben erwähnte Ausführungsform 1 bereitgestellt wird. - Ausführungsform 3.
-
6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt, und zeigt den Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 verwendet. Bezugnehmend auf6 , wird der Stimmensynthesizer1b gemäß Ausführungsform3 mit einer Texteingabeeinheit14 , einer Registriertes-Wort-Teil-Erfassungseinheit15 , einer Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit (Registriertes-Wort-Austauscheinheit)16 , einer Anderer-Teil-Phonemlabelketten-Austauscheinheit (Allgemeinwörterbuch-Austauscheinheit)17 , und einer Stimmensyntheseeinheit18 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung1 , die in der oben erwähnten Ausführungsform1 gezeigt ist, und dem Allgemeinwörterbuch12 , das in der oben erwähnten Ausführungsform 2 gezeigt ist, und durch die Akustikstandardmuster für jede Sprache ausgedrückt ist. In6 werden dieselben Komponenten wie die in1 und4 gezeigten und Komponenten, die in derselben Weise wie die in1 und4 gezeigten betrieben werden, durch dieselben Bezugszeichen bezeichnet und die Erklärung der Komponenten wird im Folgenden ausgelassen. - Die Texteingabeeinheit
14 ist eine Komponente zum Eingeben eines Texts, welcher in eine Stimme konvertiert werden soll. Die Registriertes-Wort-Teil-Erfassungseinheit15 ist eine Komponente zum Erfassen eines registrierten Worts, welches in einem Benutzerwörterbuch registriert ist, aus der Texteingabe, die von der Texteingabeeinheit14 erfasst wird. Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 ist eine Komponente zum Ersetzen des registrierten Wortes, das durch die Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wurde, mit einer Phonemlabelkette aus dem Benutzerwörterbuch. Die Anderer-Teil-Phonemlabelketten-Austauscheinheit17 ist eine Komponente zum Eingeben eines anderen Teils des Eingabetexts als dem registrierten Wort, das von der Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 , und ersetzt den anderen Teil des Eingabetexts als das registrierte Wort mit einer Phonemlabelkette aus dem Allgemeinwörterbuch12 , ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache. Die Stimmensyntheseeinheit18 ist eine Komponente zum Erzeugen einer synthetischen Stimme der Texteingabe aus den Phonemlabelketten, die mit der Texteingabe assoziiert sind, welche durch die Phonemlabelketten-Austauscheinheiten16 und17 erlangt werden. - Indem ein Stimmensyntheseprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Stimmensyntheseprogramm ausführt, können die Texteingabeeinheit
14 , die Registriertes-Wort-Teil-Erfassungseinheit15 , die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 , die Anderer-Teil-Phonemlabelketten-Austauscheinheit17 und die Stimmensyntheseeinheit18 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software in Kooperation miteinander arbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster4 und das Allgemeinwörterbuch12 verwendet wird, in einer Speichereinheit konfiguriert, welche in dem oben genannten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium. - Als nächstes wird ein Betrieb des Stimmensynthesizers beschrieben.
-
7 ist ein Flussdiagramm, das ein Ablauf des Betriebs des Stimmensynthesizers gemäß Ausführungsform 3 zeigt. - Ein Benutzer gibt einen Text, der in eine Stimme gewandelt werden soll, in den Stimmensynthesizer unter Verwendung der Texteingabeeinheit
14 ein (SchrittST1c ). Zu dieser Zeit stellt der Benutzer einen Identifizierer zum Identifizieren eines registrierten Worts in dem Benutzerwörterbuch ein. Zum Beispiel, wie in7 gezeigt, wenn ein Text eingegeben wird, umfassend ein registriertes Wort1 , das in dem Benutzerwörterbuch registriert ist, setzt der Benutzer Klammern mit doppeltem Haken, welche der Identifizierer zum Identifizieren eines registrierten Worts sind, vor und hinter das registrierte Wort1 . - Die Registriertes-Wort-Teil-Erfassungseinheit
15 erhält die Texteingabe von der Texteingabeeinheit14 und erfasst das registrierte Wort unter Verwendung des Identifizierers zum Identifizieren eines registrierten Worts, der in dem Eingabetext gesetzt ist (SchrittST2c ). Im Beispiel von7 wird das registrierte Wort1 erfasst, vor und hinter welchem Klammern mit doppeltem Haken gesetzt sind. - Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit
16 ersetzt dann das registrierte Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wurde, mit einer Phonemlabelkette, die von dem Benutzerwörterbuch erhalten wird (SchrittST3c ). Als ein Ergebnis wird das registrierte Wort1 durch „#, /m/, /a/, /i/, /k/, /r/, #“ ersetzt, welches eine entsprechende Phonemlabelkette ist. - Die Anderer-Teil-Phonemlabelketten-Austauscheinheit
17 gibt den anderen Teil in dem Eingabetext als dem registrierten Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 , ein, und tauscht den anderen Teil in dem Eingabetext als dem registrierten Wort mit einer Phonemlabelkette aus, die aus dem Allgemeinwörterbuch12 erhalten wird, entsprechend der Einstellsprache (SchrittST4c ). In diesem Fall, unter der Annahme, dass die Einstellsprache Japanisch ist, werden der Artikel „wa“, das Nomen „Osaka“, der Artikel „ni“ und das Verb „itta“, welche ein anderer Teil des Eingabetexts als das registrierte Wort sind, durch entsprechende Phonemlabelketten ersetzt, welche in dem japanischen Allgemeinwörterbuch12 jeweils registriert sind, wie in7 gezeigt. - Die Stimmensyntheseeinheit
18 erzeugt eine synthetisches Stimme des Eingabetext aus den Phonemlabelketten, die mit dem Eingabetext assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit17 erlangt werden (SchrittST5c ). Im Beispiel der7 wird eine synthetische Stimme von „Maikr wa Osaka ni itta“ ausgegeben. In diesem Fall, während der andere Teil als das registrierte Wort1 mit japanischem Phonemlabeln geäußert wird, wird „Maikr“, welches das registrierte Wort1 ist, in einer englischen Aussprache geäußert, weil die Einstellsprache zu der Zeit der Registrierung des Wortes in dem Benutzerwörterbuch Englisch war, wie im oben erwähnten Beispiel in Ausführungsform 1 gezeigt. - Wie oben erwähnt, umfasst der Stimmensynthesizer gemäß dieser Ausführungsform 1 die Texteingabeeinheit
14 zum Eingeben eines Textes, die Registriertes-Wort-Teil-Erfassungseinheit15 zum Erfassen eines Wort-Teils entsprechend einer Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, aus der Buchstabenkette der Texteingabe, die von der Texteingabeeinheit14 eingegeben wird, die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 zum Ersetzen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Benutzerwörterbuch erlangt wird, die Anderer-Teil-Phonemlabelketten-Austauscheinheit17 zum Ersetzen eines Teils des Eingabetextes anders als der registrierte Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Allgemeinwörterbuch12 erlangt wird, und die Stimmensyntheseeinheit18 zum Erzeugen einer synthetischen Stimme des Textes aus den Phonemlabelketten, die mit dem Text assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit17 erlangt werden, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungseinheit gemäß oben erwähnter Ausführungsform 1. - Weil der Stimmensynthesizer in dieser Weise konfiguriert ist, kann ein Vorteil erzielt werden, dass der Stimmensynthesizer
1B , welcher eine Stimmensynthese durchführt, bereitgestellt werden kann, unter Verwendung des Benutzerwörterbuchs, zusätzlich zu dem Vorteil, der durch oben erwähnte Ausführungsform 1 erzielt wird. - Ausführungsform 4
-
8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt. Bezugnehmend auf8 wird die Erkennungswörterbuch-Erzeugungsvorrichtung1a gemäß Ausführungsform 4 bereitgestellt mit einer Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 anstelle der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit7 , bereitgestellt in den strukturellen Komponenten gemäß oben erwähnter Ausführungsform 1. Die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 ist eine Komponente zum Einstellen einer vorbestimmten Sprache, welche darin im Voraus als die Sprache von Akustikstandardmustern4 registriert ist, die für einen Prozess verwendet wird, durchgeführt durch eine Akustikdaten-Abgleichseinheit5 , unabhängig von einer Einstellsprache, welche entweder für eine Spracherkennungsvorrichtung eingestellt wird, welche die Erkennungswörterbuch-Erzeugungsvorrichtung1a verwendet, oder einen Stimmensynthesizer, welcher die Erkennungswörterbuch-Erzeugungsvorrichtung1a verwendet. Diese vorbestimmte Sprache wird in der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit19 im Voraus unabhängig von der Einstellsprache registriert. In8 werden dieselben Komponenten wie die in1 gezeigten und Komponenten, welche in derselben Weise wie die in1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen. - Als nächstes wird ein Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
-
9 ist ein Flussdiagramm, das ein Ablauf einer Benutzerwörterbuch-Registrierungsoperation der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 zeigt. - Nachdem der Erkennungswörterbuch-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, unter Verwendung einer Eingabeeinheit (Schritt
ST1d ) äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit3 aus (SchrittST2d ) . - Als nächstes stellt die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 die vorbestimmte Sprache, welche darin im Voraus registriert ist, bei der Akustikdaten-Abgleichseinheit
5 ein, anstelle der Einstellsprache, die in dem System (SchrittST3d ) eingestellt ist. Im Beispiel von9 wird Englisch als die vorbestimmte Sprache eingestellt. Die Akustikanalyseeinheit3 führt eine Akustikanalyse für das Stimmensignal durch, das von der Stimmenerfassungseinheit2 in SchrittST2d eingegeben wird und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (SchrittST4d ) . - Die Akustikdaten-Abgleichseinheit
5 liest Akustikstandardmuster4 entsprechend der vorbestimmten Sprache, die dazu eingestellt ist, aus der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19, und erzeugt eine optimale Phonemlabelkette, die die Stimmeneingabe zeigt, aus den Akustikstandardmustern4 , entsprechend dieser Sprache, die dazu eingestellt ist, und der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erlangt von der Akustikanalyseeinheit3 (SchrittST5d ). In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die vorbestimmte Sprache Englisch ist, erlangt die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in9 gezeigt. - Eine Benutzerwörterbuch-Registrierungseinheit
6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit5 erzeugt wird, in einem Benutzerwörterbuch (SchrittST6d ). - Als nächstes bringt eine Phonemlabelketten-Wandlungseinheit
9 die Phonemlabelkette, die der Stimmeneingabe (registriertes Wort) entspricht und in der vorbestimmten Sprache ausgedrückt ist, die in der oben genannten Weise erlangt wird, in Entsprechung mit einem Phonemlabel, das in der Einstellsprache ausgedrückt ist, die derzeitig für das System eingestellt ist, gemäß einer Zwischensprachen-Akustikdaten-Abbildungstabelle, welche aus einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 gelesen wird, um die Phonemlabelkette, die dem registrierten Wort entspricht, das in dem Benutzerwörterbuch registriert ist und in der vorbestimmten Sprache ausgedrückt ist, in die Phonemlabel zu wandeln, das in der Einstellsprache ausgedrückt ist, und registriert dieses Phonemlabel, das in der Einstellsprache ausgedrückt ist, in der Benutzerwörterbuch-Registrierungseinheit6 als das derzeitige Benutzerwörterbuch (SchrittST7d ). - Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
-
10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Einstellsprachen umgeschaltet wurde. Ein Fall, bei welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in9 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt. - In Ansprechen auf eine Sprache, welche der Benutzer unter Verwendung einer Eingabeeinheit neu für eine Sprachenumschalteinheit
8 einstellt, , stellt die Sprachenumschalteinheit8 die Sprache, auf welche die Sprachenumschalteinheit8 umgeschaltet wurde, bei der Phonemlabelketten-Wandlungseinheit9 ein (SchrittST1a ). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit auf Japanisch umgeschaltet hat. - Die Phonemlabelketten-Wandlungseinheit
9 verwendet die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat und welche durch die Sprachenumschalteinheit8 spezifiziert ist, und die vorbestimmte Sprache, um durch die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit10 zu suchen, um die Zwischensprachen-Tondaten-Abbildungstabelle entsprechend der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, zu lesen und wandelt die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, welche in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß dem Zwischensprachen-Akustikdaten-Abbildungstabelle (SchrittST2e ) . - Zum Beispiel wird die Phonemlabelkette „#, /m/, /a/, /i/, /k/, /1/, #“ von „Michael“ auf Englisch, welche die vorbestimmte Sprache ist, in „#, /m/, /a/, /i/, /k/, /r/, #“ gewandelt, welches eine japanische Phonemlabelkette gemäß der Entsprechung in der Zwischensprachen-Akustikdaten-Abbildungstabelle zwischen Englisch und Japanisch ist, welches die Sprache ist, auf welche die Sprachenumschalteinheit umgeschaltet hat.
- Die Benutzerwörterbuch-Registrierungseinheit
6 speichert zusätzlich die Phonemlabelkette, in welche die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, durch die Phonemlabelketten-Wandlungseinheit9 gewandelt wird in SchrittST2a in dem Benutzerwörterbuch (SchrittST3e ). Bezugnehmend auf10 , wird, weil der registrierte Worttext „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, „#, /m/, /a/, /i/, /k/, /r/, #“ welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert. - Wie oben erwähnt, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 4 mit dem Benutzerwörterbuch bereitgestellt, in welches eine Phonemlabelkette einer Stimmeneingabe registriert wird, der Zwischensprachen-Akustikdaten-Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabel in verschiedenen Sprachen definiert ist, und der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit
19 zum Auswählen von Akustikstandardmustern entsprechend einer voreingestellten Sprache aus Akustikstandardmustern, und greift auf die Zwischensprachen-Akustikdaten-Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit19 gewählt ist, in eine Phonemlabelkette zu wandeln, die in einer Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet hat. - Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, in einem Fall, in welchem eine aus N verschiedenen Sprachen als eine Zielsprache eingestellt werden kann, in welcher ein Wort, das in dem Benutzerwörterbuch registriert werden soll, ausgedrückt ist, verglichen mit oben erwähnter Ausführungsform 1, bei welcher es notwendig ist, Zwischen-Sprachen-Akustikdaten-Abbildungstabellen entsprechend allen (N x (N-1))/2 Kombinationen der Sprache bereitzustellen, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, und einer weitere Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung eingestellt werden kann, muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur Zwischensprachen-Akustikdaten-Abbildungstabellen entsprechend (N-1) Kombinationen der einzelnen vorbestimmten Sprache bereitstellen, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit
19 eingestellt wird, und einer weiteren Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung wie oben erwähnt eingestellt werden kann. Daher kann die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform die Datengröße der Zwischensprachen-Akustikdaten-Abbildungstabellen reduzieren. - Obwohl die Fälle, bei welchen die Spracherkennungsvorrichtung und der Stimmensynthesizer unter Verwendung der Erkennungswörterbuch-Erzeugungsvorrichtung
1 gemäß oben erwähnter Ausführungsform1 konfiguriert sind, in oben erwähnten Ausführungsformen2 und3 jeweils gezeigt sind, können die Spracherkennungsvorrichtung und der Stimmensynthesizer mit den Konfigurationen, die in4 und6 gezeigt sind, jeweils in Kombination mit der Erkennungswörterbuch-Erzeugungsvorrichtung1a gemäß der oben erwähnten Ausführungsform 4 konfiguriert sein, die in8 gezeigt ist, anstelle der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß oben erwähnter Ausführungsform 1. Als Ergebnis kann daher eine Spracherkennungsvorrichtung und ein Stimmensynthesizer bereitgestellt werden, welche auch denselben Vorteil erzielen, wie der, welcher durch oben erwähnte Ausführungsform 4 erzielt wird. - Industrielle Anwendbarkeit
- Da die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung nicht einen Speicher großer Größe zum Speichern von Stimmenäußerungen haben und Phonemlabelketten für alle Sprachen im Voraus erzeugen muss und die Zeit verkürzen kann, die benötigt wird um Phonemlabelketten für jede Sprache zu erzeugen, ist die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung dazu geeignet, in einer Spracherkennungsvorrichtung, die in einem Fahrzeug angebracht ist, und einem Stimmensynthesizer, der an einem Fahrzeug angebracht ist, verwendet zu werden.
Claims (6)
- Erkennungswörterbuch-Erzeugungsvorrichtung umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
- Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen von der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
- Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.
- Erkennungswörterbuch-Erzeugungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für eine Spracherkennungsvorrichtung und/oder einen Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
- Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für die Spracherkennungsvorrichtung eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
- Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für den Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000369 WO2011089651A1 (ja) | 2010-01-22 | 2010-01-22 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE112010005168T5 DE112010005168T5 (de) | 2012-11-08 |
DE112010005168B4 true DE112010005168B4 (de) | 2018-12-13 |
Family
ID=44306475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112010005168.2T Expired - Fee Related DE112010005168B4 (de) | 2010-01-22 | 2010-01-22 | Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer |
Country Status (5)
Country | Link |
---|---|
US (1) | US9177545B2 (de) |
JP (1) | JP4942860B2 (de) |
CN (1) | CN102687197B (de) |
DE (1) | DE112010005168B4 (de) |
WO (1) | WO2011089651A1 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013195928A (ja) * | 2012-03-22 | 2013-09-30 | Yamaha Corp | 音声素片切出装置 |
JP5990962B2 (ja) * | 2012-03-23 | 2016-09-14 | ヤマハ株式会社 | 歌唱合成装置 |
JP5942559B2 (ja) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | 音声認識装置 |
US9197481B2 (en) * | 2012-07-10 | 2015-11-24 | Tencent Technology (Shenzhen) Company Limited | Cloud-based translation method and system for mobile client |
US9886947B2 (en) * | 2013-02-25 | 2018-02-06 | Seiko Epson Corporation | Speech recognition device and method, and semiconductor integrated circuit device |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
JP6263868B2 (ja) | 2013-06-17 | 2018-01-24 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP6080978B2 (ja) * | 2013-11-20 | 2017-02-15 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9747897B2 (en) * | 2013-12-17 | 2017-08-29 | Google Inc. | Identifying substitute pronunciations |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
US10628567B2 (en) * | 2016-09-05 | 2020-04-21 | International Business Machines Corporation | User authentication using prompted text |
WO2019049364A1 (ja) * | 2017-09-11 | 2019-03-14 | 三菱電機株式会社 | 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法 |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
CN109243428B (zh) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
US10957318B2 (en) * | 2018-11-02 | 2021-03-23 | Visa International Service Association | Dynamic voice authentication |
CN113611282B (zh) * | 2021-08-09 | 2024-05-14 | 苏州市广播电视总台 | 广播节目智能播报系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282788A (ja) | 2000-03-28 | 2001-10-12 | Kyocera Corp | 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体 |
US20050197835A1 (en) | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7181395B1 (en) | 2000-10-27 | 2007-02-20 | International Business Machines Corporation | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
KR100277694B1 (ko) * | 1998-11-11 | 2001-01-15 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
JP3378547B2 (ja) * | 1999-12-27 | 2003-02-17 | 日本電信電話株式会社 | 音声認識方法及び装置 |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
US6272464B1 (en) | 2000-03-27 | 2001-08-07 | Lucent Technologies Inc. | Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition |
US6738738B2 (en) * | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
EP1233406A1 (de) * | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Angepasste Spracherkennung für ausländische Sprecher |
JP2002247646A (ja) | 2001-02-19 | 2002-08-30 | Sony Corp | 携帯端末装置およびコンピュータプログラム |
EP1239459A1 (de) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Anpassung eines Spracherkenners an die Aussprache eines ausländischen Sprechers |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US7716050B2 (en) * | 2002-11-15 | 2010-05-11 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
US7567896B2 (en) * | 2004-01-16 | 2009-07-28 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
EP1769489B1 (de) * | 2004-07-22 | 2009-09-09 | France Telecom | Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
US7630898B1 (en) * | 2005-09-27 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | System and method for preparing a pronunciation dictionary for a text-to-speech voice |
JP2007155833A (ja) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
US20070255567A1 (en) * | 2006-04-27 | 2007-11-01 | At&T Corp. | System and method for generating a pronunciation dictionary |
US8290775B2 (en) * | 2007-06-29 | 2012-10-16 | Microsoft Corporation | Pronunciation correction of text-to-speech systems between different spoken languages |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US8073693B2 (en) * | 2008-12-04 | 2011-12-06 | At&T Intellectual Property I, L.P. | System and method for pronunciation modeling |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
JP5343293B2 (ja) * | 2009-07-08 | 2013-11-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
-
2010
- 2010-01-22 DE DE112010005168.2T patent/DE112010005168B4/de not_active Expired - Fee Related
- 2010-01-22 CN CN201080056433.9A patent/CN102687197B/zh not_active Expired - Fee Related
- 2010-01-22 JP JP2011550720A patent/JP4942860B2/ja not_active Expired - Fee Related
- 2010-01-22 WO PCT/JP2010/000369 patent/WO2011089651A1/ja active Application Filing
- 2010-01-22 US US13/500,855 patent/US9177545B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282788A (ja) | 2000-03-28 | 2001-10-12 | Kyocera Corp | 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体 |
US7181395B1 (en) | 2000-10-27 | 2007-02-20 | International Business Machines Corporation | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data |
US20050197835A1 (en) | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
Also Published As
Publication number | Publication date |
---|---|
WO2011089651A1 (ja) | 2011-07-28 |
CN102687197B (zh) | 2014-07-23 |
US9177545B2 (en) | 2015-11-03 |
DE112010005168T5 (de) | 2012-11-08 |
JPWO2011089651A1 (ja) | 2013-05-20 |
JP4942860B2 (ja) | 2012-05-30 |
CN102687197A (zh) | 2012-09-19 |
US20120203553A1 (en) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112010005168B4 (de) | Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69721939T2 (de) | Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
DE69514382T2 (de) | Spracherkennung | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
DE602005001125T2 (de) | Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE112010005918B4 (de) | Spracherkennungsvorrichtung | |
DE69826446T2 (de) | Stimmumwandlung | |
Abushariah et al. | Natural speaker-independent Arabic speech recognition system based on Hidden Markov Models using Sphinx tools | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE69416670T2 (de) | Sprachverarbeitung | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
EP1892700A1 (de) | Verfahren zur Spracherkennung und Sprachwiedergabe | |
DE112010006037T5 (de) | Spracherkennungsvorrichtung und Navigationssystem | |
DE112014007287B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
DE212016000292U1 (de) | System zur Text-zu-Sprache-Leistungsbewertung | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE04735990T1 (de) | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm | |
CN112509550A (zh) | 语音合成模型训练方法、语音合成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: HOFFMANN - EITLE PATENT- UND RECHTSANWAELTE PA, DE Representative=s name: HOFFMANN - EITLE, DE |
|
R084 | Declaration of willingness to licence | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |