DE112010005168B4 - Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer - Google Patents

Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer Download PDF

Info

Publication number
DE112010005168B4
DE112010005168B4 DE112010005168.2T DE112010005168T DE112010005168B4 DE 112010005168 B4 DE112010005168 B4 DE 112010005168B4 DE 112010005168 T DE112010005168 T DE 112010005168T DE 112010005168 B4 DE112010005168 B4 DE 112010005168B4
Authority
DE
Germany
Prior art keywords
acoustic
language
unit
phoneme label
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE112010005168.2T
Other languages
English (en)
Other versions
DE112010005168T5 (de
Inventor
Yuzo Maruta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112010005168T5 publication Critical patent/DE112010005168T5/de
Application granted granted Critical
Publication of DE112010005168B4 publication Critical patent/DE112010005168B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • CCHEMISTRY; METALLURGY
    • C01INORGANIC CHEMISTRY
    • C01GCOMPOUNDS CONTAINING METALS NOT COVERED BY SUBCLASSES C01D OR C01F
    • C01G41/00Compounds of tungsten
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • CCHEMISTRY; METALLURGY
    • C01INORGANIC CHEMISTRY
    • C01PINDEXING SCHEME RELATING TO STRUCTURAL AND PHYSICAL ASPECTS OF SOLID INORGANIC COMPOUNDS
    • C01P2006/00Physical properties of inorganic compounds
    • C01P2006/80Compositional purity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Inorganic Chemistry (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Erkennungswörterbuch-Erzeugungsvorrichtung umfassend:
eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben;
eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen;
eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen;
eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird;
eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist;
eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache;
eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und
eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Erkennungswörterbuch-Erzeugungsvorrichtung, die ein Wort in einem Wörterbuch für eine Spracherkennung durch eine Stimmenäußerung eines Benutzer registriert, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung nutzt und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung nutzt.
  • Hintergrund der Erfindung
  • Eine Anwendung, die Spracherkennung einsetzt, registriert die Stimmenäußerung eines Benutzers und verwendet diese Stimme als ein Wort, das in einigen Fällen erkannt werden soll. Im Folgenden wird diese Operation als eine Erzeugung eines Benutzerwörterbuchs bezeichnet. Als Beispiele einer Erzeugung eines Benutzerwörterbuchs aus einer Stimme gibt es einen Fall, bei welchem ein Radiosendername entsprechend einer Funkfrequenz durch eine Stimme registriert wird und ein Fall, bei welchem der Name einer Person oder ein Ortsname entsprechend einer Telefonnummer durch eine Stimme registriert wird.
  • Ferner wird eine Sprachenumschaltfunktion bei einer Spracherkennung benötigt, die in einer Apparatur verwendet wird, welche in einer Vielzahl von Ländern verwendet werden kann, sowie zum Beispiel ein Autonavigationssystem und ein Mobilendgerät.
  • Als eine verwandte konventionelle Technologie beschreibt Patentdokument 1 zum Beispiel ein Nutzungssprachenumschaltverfahren zum Bestimmen einer Sprache, die ein Benutzer verwenden möchte, wenn zwischen Nutzungssprachen gewechselt wird, für ein elektronisches Wörterbuch, indem Eigenschaftsdaten, welche durch ein Durchführen von Spracherkennung einer Stimmenäußerung des Benutzer erlangt werden, mit darin gespeicherten Wörtern verglichen werden.
  • Typischerweise werden Stimmendaten für jede Sprache gesammelt und die Stimmenäußerung eines Benutzers wird erkannt, indem ein Spracherkennungsalgorithmus und ein Stimmenstandardmodell verwendet werden, welche unter Verwendung der gesammelten Stimmendaten konfiguriert werden. Daher, wenn ein Wechsel zwischen Sprachen durchgeführt wird, ist es notwendig, die Spracherkennungseinheit selbst und das Tonstandardmodell zu wechseln.
  • Konventionell wird auch eine Spracherkennungsvorrichtung vorgeschlagen, welche Phonemlabelketten erzeugt, die jeweils eine Stimmenäußerung eines Benutzers am besten für jede Sprache ausdrücken, indem eine typisch bekannte Spracherkennungstechnik verwendet wird und dann die Phonemlabelkette als ein Benutzerwörterbuch gespeichert wird, wodurch ermöglicht wird, Spracherkennung für die Stimmenäußerung des Benutzers durchzuführen, auch wenn zwischen Sprachen, die für Spracherkennung verwendet werden, gewechselt wird.
  • Es besteht jedoch das Problem, dass, weil Stimmenäußerungen in einem Speicher gespeichert sind und verarbeitet werden, wenn Phonemlabelketten erzeugt werden, jedes Mal, wenn die Sprache gewechselt wird, ein Speicher mit großer Größe benötigt wird, welcher den Stimmenäußerungen einen Speicherbereich zur Verfügung stellen kann.
  • Ferner, in einem Fall, in welchem Stimmenäußerungen nicht in einem Speicher gespeichert werden können, müssen Phonemlabelketten für jede der Sprachen erzeugt werden, von denen angenommen wird, dass sie verwendet werden. Da es jedoch viel Zeit benötigt, Phonemlabelketten zu erzeugen, auch für eine einzelne Sprache, wird die Verarbeitungszeit, die benötigt wird, um Phonemlabelketten für jede der Sprachen, von denen angenommen wird, dass sie verwendet werden, zu erzeugen, sehr groß. Außerdem wird auch ein Speicher großer Größe benötigt, welcher Phonemlabelketten für all die Sprachen speichern kann.
  • Die vorliegende Erfindung zielt darauf ab, die oben genannten Probleme zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, einen Erkennungswörterbuch-Erzeugungsvorrichtung bereitzustellen, die nicht einen Speicher großer Größe haben muss, um Stimmenäußerungen zu speichern, und Phonemlabelketten nicht für alle Sprachen im Voraus erzeugen muss, und welche die Zeit, die zum Erzeugen von Phonemlabelketten für jede Sprache benötigt wird, verkürzen kann, eine Spracherkennungsvorrichtung, die diese Erkennungswörterbuch-Erzeugungsvorrichtung verwendet und einen Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung verwendet.
  • Stand-der-Technik-Dokument
  • Patentdokument 1: JP 2001 - 282 788 A Druckschrift US 7 181 395 B1 , 20 Februar 2007, bezieht sich auf ein Verfahren und eine Vorrichtung zum automatischen Ableiten mehrerer phonetischen Grundformen eines Wortes aus einer Sprachäußerung des Wortes.
  • Druckschrift US 2005/0 197 835 A1 , bezieht sich auf einen Spracherkennungsvorrichtung.
  • Zusammenfassung der Erfindung
  • Gemäß der vorliegenden Erfindung wird eine Erkennungswörterbuch-Erzeugungsvorrichtung bereitgestellt, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse auf einem Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die dort von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind, um eine Phonemlabelkette der Stimmeingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welchem die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, die in dem Benutzerwörterbuch registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert wird; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
  • Die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung umfasst das Benutzerwörterbuch, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und die Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und greift auf die Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, und in einer Sprache ausgedrückt ist, die zu der Zeit eingestellt wird, wenn das Benutzerwörterbuch erzeugt wird, in eine Phonemlabelkette zu wandeln, die in einer anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
  • Weil auch nach dem Umschalten zu einer anderen Sprache die Erkennungswörterbuch-Erzeugungseinheit das registrierte Wort in ein Wort wandeln kann, das in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat, mit einer hohen Geschwindigkeit, indem auf die Abbildungstabelle in der oben beschriebenen Weise zurückgegriffen wird, wird der Vorteil erzielt, dass die Notwendigkeit eliminiert wird, einen Speicher großer Größe bereitzustellen, um Stimmenäußerungen zu speichern, und Phonemlabelketten für alle Sprachen im Voraus zu erzeugen, und, dass es ermöglicht wird, die Zeit zu verkürzen, die benötigt wird, um Phonemlabelketten für jede Sprache zu erzeugen.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
    • 2 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird;
    • 3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchführt, nachdem zwischen Sprachen umgeschaltet wurde;
    • 4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt;
    • 5 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von der Spracherkennungsvorrichtung gemäß Ausführungsform 2 durchgeführt wird;
    • 6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt;
    • 7 ist ein Flussdiagramm, das einen Ablauf einer Operation zeigt, die von dem Stimmensynthesizer gemäß Ausführungsform 3 durchgeführt wird;
    • 8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt;
    • 9 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchgeführt wird; und
    • 10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Sprachen umgeschaltet wurde.
  • Ausführungsformen der Erfindung
  • Im Folgenden werden, um diese Erfindung detaillierter zu beschreiben, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezug auf die beigefügten Zeichnungen beschrieben.
  • Ausführungsform 1.
  • 1 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Bezugnehmend auf 1, wird die Erkennungswörterbuch-Erzeugungsvorrichtung 1 gemäß Ausführungsform 1 mit einem Mikrofon 2a, einer Stimmenerfassungseinheit 2, einer Akustikanalyseeinheit 3, Akustikstandardmustern 4, die für jede Sprache bereitgestellt werden, einer Akustikdaten-Abgleichseinheit 5, einer Benutzerwörterbuchregistrierungseinheit (Benutzerwörterbuchspeichereinheit) 6, einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit (Sprachenspeichereinheit) 7, einer Sprachenumschalteinheit 8, und einer Phonemlabelketten-Wandlungseinheit 9 und einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 (Abbildungstabellen-Speichereinheit) bereitgestellt.
  • Die Stimmenerfassungseinheit 2 ist eine Komponente zum Wandeln einer Stimme, die von dem Mikrofon 2a erfasst wird, in ein digitales Signal. Die Akustikanalyseeinheit 3 ist eine Komponente zum Analysieren des Stimmensignals, das von der Stimmenerfassungseinheit 2 digitalisiert wurde, um das Stimmensignal in eine Zeitreihe von Akustikmerkmalen zu wandeln. Zum Beispiel analysiert die Akustikanalyseeinheit das Stimmensignal zu festen Zeitintervallen, um eine Akustikmerkmalsgröße (Akustikmerkmalgrößenvektor) zu berechnen, die Akustikmerkmale zeigt.
  • Die Akustikstandardmuster 4 sind Standardakustikmuster die jeweils Phonemlabelketten entsprechen, die in einer Sprache X (X = 1, 2, 3,...) ausgedrückt sind (ein Standardmodell, das die Eigenschaften von Akustikmerkmalsgrößen über Stimmenfragmente zeigt). Zum Beispiel werden die Akustikstandardmuster durch eine Modellierung in Einheiten eines Phonems unter Verwendung von HMM (Hidden Markov Model) oder Ähnlichem erzeugt. Die Akustikdaten-Abgleichseinheit 5 ist eine Komponente zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, die von der Akustikanalyseeinheit 3 erlangt wird, mit den Akustikstandardmustern 4, die der Sprache X entsprechen, um eine Phonemlabelkette zu erzeugen, welche der Stimmeneingabe von den Phonemlabelketten am meisten ähnelt, entsprechend den Standardakustikmerkmalen, welche die Akustikstandardmuster 4 bilden.
  • Die Benutzerwörterbuch-Registrierungseinheit 6 ist eine Komponente mit einem Benutzerwörterbuch und speichert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in dem Benutzerwörterbuch. Die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 ist eine Speichereinheit zum Speichern von Information, die eine Einstellsprache zeigt, welche die Erkennungswörterbuch-Erzeugungseinheit als eine Sprache zur Spracherkennung einstellt, wenn das Benutzerwörterbuch erzeugt wird. Die Sprachenumschalteinheit 8 ist eine Komponente zum Umschalten zwischen Einstellsprachen, die jeweils als eine Sprache zur Spracherkennung genutzt werden.
  • Die Phonemlabelketten-Wandlungseinheit 9 ist eine Komponente zum Wandeln einer Phonemlabelkette, welche in der Sprache ausgedrückt ist, die zu der Zeit eingestellt ist, zu welcher die Phonemlabelkette in dem Benutzerwörterbuch registriert wird, in eine Phonemlabelkette, die in einer Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit 8 umgeschaltet hat, unter Verwendung einer Zwischensprachen-Akustikdaten-Abbildungstabelle. Die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 ist eine Speichereinheit zum Speichern von Zwischensprachen-Tondaten-Abbildungstabellen, die jeweils eine Entsprechung zwischen einem Paar von verschiedenen Sprachen und Phonemlabeln zeigen, ausgedrückt in diesen Sprachen.
  • In einem Fall, in welchem eine Sprache eines Paars ein Phonemlabel nicht in einer anderen Sprache des Paars ausdrücken kann, wird ein Phonemlabel unter Phonemlabeln, die in der anderen Sprache ausgedrückt werden können, welches einem Phonemlabel in der Sprache am meisten ähnelt, in Entsprechung mit diesem Phonemlabel gebracht. Zum Beispiel kann das englische Phonemlabel /1/ nicht in Japanisch ausgedrückt werden. Daher wird in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Japanisch und Englisch das japanische Phonemlabel /r/ welches dem englischen Phonemlabel /1/ in der Aussprache am meisten ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht.
  • Ferner, indem ein Erkennungswörterbuch-Erzeugungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Erkennungswörterbuch-Erzeugungsprogramm ausführt, können die Stimmenerfassungseinheit 2, die Akustikanalyseeinheit 3, die Akustikstandardmuster 4, die Akustikdaten-Abgleichseinheit 5, die Benutzerwörterbuch-Registrierungseinheit 6, die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7, die Sprachenumschalteinheit 8, die Phonemlabelketten-Wandlungseinheit 9 und die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher von den Akustikstandardmustern 4, der Benutzerwörterbuch-Registrierungseinheit 6, der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 und der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 verwendet wird, in einer Speichereinheit in dem oben beschriebenen Computer konfiguriert, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium.
  • Als nächstes wird der Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
  • 2 ist ein Flussdiagramm, das einen Ablauf einer Benutzerwörterbuch-Registrierungsoperation zeigt, die von der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird.
  • Nachdem der Erkennungswörter-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt ST1), äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, was ein Personenname ist. Die Stimmenerfassungseinheit 2 erfasst die Stimmenäußerung von dem Benutzer über das Mikrofon 2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an die Akustikanalyseeinheit 3 aus (Schritt ST2) .
  • Als nächstes prüft die Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, wobei die Einstellsprache derzeit bei der Akustikdaten-Abgleichseinheit 5 eingestellt ist (Schritt ST3), und registriert eine Information, die die Einstellsprache darin zeigt (Schritt ST4). Die Einstellsprache wird im Voraus als die Sprache eingestellt, die das Ziel für eine Spracherkennung und Stimmensynthese in einer Spracherkennungsvorrichtung, die die Erkennungswörterbuch-Erzeugungsvorrichtung 1 verwendet, und einem Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung 1 verwendet, ist. In dem Beispiel der 2 ist Englisch derzeit als die Einstellsprache eingestellt. Die Akustikanalyseeinheit 3 führt eine Akustikanalyse auf dem Stimmensignal durch, das von der Stimmenerfassungseinheit 2 in Schritt ST2 eingegeben wird, und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (Schritt ST5).
  • Die Akustikdaten-Abgleichseinheit 5 liest die Akustikstandardmuster 4 entsprechend der Sprache (Einstellsprache), die dazu eingestellt ist, und vergleicht die Akustikstandardmuster 4 entsprechend dieser Einstellsprache mit der Zeitserie von Akustikmerkmalen der Stimmeneingabe, welche von der Akustikanalyseeinheit 3 erlangt wird, um eine optimale Phonemlabelkette zu erzeugen, welche die Stimmeneingabe zeigt und welche der Zeitreihe von Akustikmerkmalen der Stimmeneingabe von den Phonemlabelketten, die den Standardakustikmerkmalen entsprechen, welche die Akustikstandardmuster 4 bilden (Schritt ST6), am ähnlichsten ist. In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die Einstellsprache Englisch ist, erlangt zum Beispiel die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in 2 gezeigt.
  • Die Benutzerwörterbuch-Registrierungseinheit 6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in dem Benutzerwörterbuch (Schritt ST7). Als ein Ergebnis wird ein Benutzerwörterbuch erzeugt, in welchem eine Phonemlabelkette, die dem Text entspricht, der in der Einstellsprache eines Worts, das registriert werden soll, ausgedrückt ist, registriert wird.
  • Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
  • 3 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 nach einem Umschalten zwischen Einstellsprachen durchführt. Ein Fall in welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in 2 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt.
  • Zum Beispiel schaltet, in Ansprechen auf eine Sprache, welche der Benutzer bei der Sprachenumschalteinheit 8 unter Verwendung der Eingabeeinheit neu einstellt, die Sprachenumschalteinheit 8 zu der Sprache um und stellt die Sprache, zu welcher die Sprachenumschalteinheit umgeschaltet hat, bei der Phonemlabelketten-Wandlungseinheit 9 ein (Schritt ST1a). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit zu Japanisch umgeschaltet hat.
  • Die Phonemlabelketten-Wandlungseinheit 9 liest die Information, die die Sprache zeigt, die in der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 gespeichert ist, um die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch zu prüfen (Schritt ST2a). Wie oben erwähnt, ist die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch in dem Beispiel von 2 Englisch.
  • Als nächstes verwendet die Phonemlabelketten-Wandlungseinheit 9 die Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch, welche die Phonemlabelketten-Wandlungseinheit bei Schritt ST2a geprüft hat, und die Sprache, welche von der Sprachenumschalteinheit 8 spezifiziert wird und auf welche die Sprachenumschalteinheit umgeschaltet hat, um die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 zu durchsuchen, um die Zwischensprachen-Tondaten-Abbildungstabelle zu lesen, die der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache entspricht, auf welche die Sprachenumschalteinheit umgeschaltet hat.
  • Die Zwischensprachen-Tondaten-Abbildungstabelle zeigt eine Entsprechung zwischen englischen Phonemlabeln und japanischen Phonemlabeln, wie in 3 gezeigt. Bezugnehmend auf 3 umfassen 3 verschiedene englische Phonemlabel, die durch einen Referenzbuchstaben A gezeigt werden, welche sich in der Aussprache zueinander ähneln, was auf Japanisch zum Beispiel nicht ausgedrückt werden kann. In diesem Fall wird das japanische Phonemlabel (/a/), welches in der Aussprache den englischen Phonemlabeln ähnelt, die durch den Referenzbuchstaben A gezeigt werden, in Entsprechung mit den englischen Phonemlabeln gebracht. Ferner, weil das englische Phonemlabel /1/ nicht durch irgendein japanisches Phonemlabel ausgedrückt werden kann, wird das japanische Phonemlabel /r/, welches dem englischen Phonemlabel /1/ ähnelt, in Entsprechung mit dem englischen Phonemlabel /1/ gebracht.
  • Die Phonemlabelketten-Wandlungseinheit 9 wandelt die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, die aus der Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 gelesen wurde (Schritt ST3a).
  • Zum Beispiel, wie in 3 gezeigt, wandelt die Phonemlabelketten-Wandlungseinheit „#, /m/, /a/, /i/, /k/, /1/, #“, was die englische Phonemlabelkette von „Michael“ ist, in „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, gemäß der Entsprechung in der Zwischensprachen-Tondaten-Abbildungstabelle zwischen Englisch und Japanisch.
  • Ein Verfahren zum Erzeugen einer Zwischensprachen-Akustikdaten-Abbildungstabelle wird in der folgenden Referenz 1 offenbart. Referenz 1; Japanische ungeprüfte Patentanmeldung Veröffentlichungsnummer 2007/155833
  • Die Benutzerwörterbuch-Registrierungseinheit 6 speichert die Phonemlabelkette erneut, zu welcher die ursprüngliche Phonemlabelkette durch die Phonemlabelketten-Wandlungseinheit 9 in Schritt ST3a gewandelt wird in dem Benutzerwörterbuch (Schritt ST4a). Bezugnehmend auf 3, weil das registrierte Wort „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“, welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert.
  • Wie oben beschrieben, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 mit dem Benutzerwörterbuch bereitgestellt, in welchem eine Phonemlabelkette einer Stimmeneingabe registriert wird, und einer Zwischensprachen-Akustikdaten-Abbildungstabelle, in welche eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist, und wandelt die Phonemlabelkette, die in einer Sprache ausgedrückt ist, welche zu der Zeit der Erzeugung des Benutzerwörterbuchs eingestellt ist, in eine Phonemlabelkette, die in einer anderen Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, durch ein Zurückgreifen auf die Zwischensprachen-Akustikdaten-Abbildungstabelle.
  • Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, kann, auch wenn die Einstellsprache von der Einen zu der Zeit der Registrierung in dem Benutzerwörterbuch zu einer anderen Sprache umgeschaltet wird, die Erkennungswörterbuch-Erzeugungsvorrichtung ein Benutzerwörterbuch erzeugen, das in der anderen Sprache geschrieben ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet wurde, nur durch ein Wandeln der Phonemlabelkette in eine Phonemlabelkette, die in der anderen Sprache ausgedrückt ist, gemäß der Zwischensprachen-Akustikdaten-Abbildungstabelle, und kann die Verarbeitungszeit, die benötigt wird, um eine Phonemlabelkette entsprechend der anderen Sprache zu erzeugen, spürbar reduzieren.
  • Ferner, auch wenn eine Phonemlabelkette jedes Mal erzeugt wird, wenn die Erkennungswörterbuch-Erzeugungsvorrichtung die Einstellsprache ändert, muss die Erkennungswörterbuch-Erzeugungsvorrichtung eine Stimmenäußerung nicht speichern. Ferner muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur eine Phonemlabelkette zu der Zeit der Registrierung in das Benutzerwörterbuch speichern und muss nicht im Voraus Phonemlabel für alle Sprachen erzeugen, von denen angenommen wird, dass sie genutzt werden. Als Ergebnis ist es nicht notwendig, einen Speicher großer Größe bereitzustellen.
  • Ausführungsform 2
  • 4 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt, und zeigt die Spracherkennungsvorrichtung die die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben erwähnten Ausführungsform 1 verwendet. Bezugnehmend auf 4, wird die Spracherkennungsvorrichtung 1A gemäß Ausführungsform 2 mit einer Wörterbuchvergleichseinheit 11, einem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster für jede Sprache, und einer Erkennungsergebnis-Ausgabeeinheit 13 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung 1, die in der oben erwähnten Ausführungsform 1 gezeigt ist. In 4 werden dieselben Komponenten wie die in 1 gezeigten und Komponenten, die in derselben Weise wie die in 1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen.
  • Die Wörterbuchvergleichseinheit 11 ist eine Komponente zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe mit einem Vokabular in dem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache, und einem Vokabular, das in einem Benutzerwörterbuch registriert ist, das in einer Benutzerwörterbuch-Registrierungseinheit 6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch 12 und dem Vokabular in dem Benutzerwörterbuch. Das Allgemeinwörterbuch 12 ist ausgedrückt durch die Akustikstandardmuster entsprechend jeder Sprache X (X = 1, 2, 3,...) und ein großes Vokabular (Phonemlabelketten), das die Namen von Orten umfasst, die in jeder Sprache geschrieben sind, ist in dem Allgemeinwörterbuch registriert. Die Erkennungsergebnis-Ausgabeeinheit 13 ist eine Komponente zum Ausgeben eines Spracherkennungsergebnisses und gibt das Wort aus, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, welches die Wörterbuchvergleichseinheit 11 als das Ergebnis des Vergleichs erlangt hat.
  • Ferner, indem ein Spracherkennungsprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Spracherkennungsprogramm ausführt, können die Wörterbuchvergleichseinheit 11, das Allgemeinwörterbuch 12, ausgedrückt durch die Akustikstandardmuster für jede Sprache, und die Erkennungsergebnis-Ausgabeeinheit 13 auf dem Computer als konkrete Mittel implementiert werden, bei denen Hardware und Software miteinander zusammenarbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster 4 und das Allgemeinwörterbuch 12 verwendet wird, in einer Speichereinheit konfiguriert, die in dem oben erwähnten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externes Speichermedium.
  • Als nächstes wird ein Betrieb der Spracherkennungsvorrichtung beschrieben.
  • 5 ist ein Flussdiagramm, das einen Ablauf des Betriebs der Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt.
  • Nachdem der Spracherkennungsvorrichtung befohlen wurde, eine Spracherkennung zu beginnen, indem eine Eingabeeinheit verwendet wird (Schritt ST1b), äußert ein Benutzer eine Stimme, welche das Ziel für die Spracherkennung ist. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit 2 erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon 2a und wandelt diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit 3 aus (Schritt ST2b). Die Akustikanalyseeinheit 3 führt eine Akustikanalyse für das Stimmensignal, das von der Stimmenerfassungseinheit 2 in Schritt ST2b eingegeben wird, aus und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen.
  • Eine Akustikdaten-Abgleichseinheit 5 liest Information, die eine Sprache zeigt, welche in einer Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7 gespeichert ist, um die Einstellsprache zu prüfen, die zu der Zeit einer Registrierung in dem Benutzerwörterbuch (Schritt ST3b) eingestellt ist. Es wird angenommen, dass die Einstellsprache, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, in dem Flussdiagramm von 5 Japanisch ist.
  • Die Akustikdaten-Abgleichseinheit 5 erzeugt dann eine Phonemlabelkette, die der Stimmeneingabe entspricht und in der Einstellsprache ausgedrückt ist, aus der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erfasst von der Akustikanalyseeinheit 3, und den Akustikstandardmustern 4, entsprechend der Einstellsprache (Schritt ST4b). Zum Beispiel, in einem Fall, in welchem die Stimmeingabe „Michael“ ist und die Einstellsprache Japanisch ist, wird „#, /m/, /a/, /i/, /k/, /r/, #“,als eine Phonemlabelkette erlangt, die durch die japanischen Akustikstandardmuster ausgedrückt ist.
  • Als nächstes vergleicht die Wörterbuchvergleichseinheit 11 die Phonemlabelkette der Stimmeneingabe, welche durch die Akustikdaten-Abgleichseinheit 5 erzeugt wird, mit dem Vokabular in dem Allgemeinwörterbuch 12, welches durch die Akustikstandardmuster 4 entsprechend der Einstellsprache ausgedrückt ist, und dem Vokabular, welches in dem Benutzerwörterbuch registriert ist, welches in der Benutzerwörterbuch-Registrierungseinheit 6 gespeichert ist, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Vokabular in dem Allgemeinwörterbuch 12 und dem Vokabular in dem Benutzerwörter (Schritt ST5b). Die Erkennungsergebnis-Ausgabeeinheit 13 gibt das Wort aus, welches als das Ergebnis des Vergleichs erlangt wird, das von der Wörterbuchvergleichseinheit 11 gemacht wird und welches der Phonemlabelkette der Stimmeneingabe (Schritt ST6b) am ähnlichsten ist.
  • Wie in 5 gezeigt, ist ein großes Vokabular, wie zum Beispiel die Namen von Orten, als Phonemlabelketten in dem Allgemeinwörterbuch 12 registriert, ausgedrückt durch die Akustikstandardmuster entsprechend der Einstellsprache (in diesem Beispiel Japanisch). Ferner, wie in oben erwähnter Ausführungsform 1 gezeigt, werden beliebige Wörter als Phonemlabelketten in dem Benutzerwörterbuch durch die Äußerungen des Benutzers registriert. In einem Fall, in welchem „#, /m/, /a/, /i/, /k/, /r/, #“ als ein registriertes Wort 1 des Benutzerwörterbuchs registriert ist, spezifiziert die Wörterbuchvergleichseinheit 11 das registrierte Wort 1 als das Wort, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, und die Erkennungsergebnis-Ausgabeeinheit 13 gibt das registrierte Wort 1 als das Erkennungsergebnis aus.
  • Wie oben erwähnt, da die Spracherkennungsvorrichtung 1a gemäß dieser Ausführungsform 2 mit der Allgemeinwörterbuch-Speichereinheit zum Speichern des Allgemeinwörterbuchs 12, der Wörterbuchvergleichseinheit 11 zum Vergleichen einer Phonemlabelkette einer Stimmeneingabe, welche von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, mit dem Allgemeinwörterbuch 12 und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch 12 und dem Benutzerwörterbuch, und der Erkennungsergebnis-Ausgabeeinheit 13, zum Ausgeben des Worts, das von der Wörterbuchvergleichseinheit 11 als das Spracherkennungsergebnis spezifiziert wird, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 bereitgestellt wird, kann ein Vorteil erzielt werden, dass ermöglicht wird, die Spracherkennungsvorrichtung 1A bereitzustellen, welche eine Spracherkennung unter Verwendung des Benutzerwörterbuchs durchführt, zusätzlich zu dem Vorteil, der durch die oben erwähnte Ausführungsform 1 bereitgestellt wird.
  • Ausführungsform 3.
  • 6 ist ein Blockdiagramm, das die Struktur eines Stimmensynthesizers gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt, und zeigt den Stimmensynthesizer, der die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der oben genannten Ausführungsform 1 verwendet. Bezugnehmend auf 6, wird der Stimmensynthesizer 1b gemäß Ausführungsform 3 mit einer Texteingabeeinheit 14, einer Registriertes-Wort-Teil-Erfassungseinheit 15, einer Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit (Registriertes-Wort-Austauscheinheit) 16, einer Anderer-Teil-Phonemlabelketten-Austauscheinheit (Allgemeinwörterbuch-Austauscheinheit) 17, und einer Stimmensyntheseeinheit 18 bereitgestellt, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung 1, die in der oben erwähnten Ausführungsform 1 gezeigt ist, und dem Allgemeinwörterbuch 12, das in der oben erwähnten Ausführungsform 2 gezeigt ist, und durch die Akustikstandardmuster für jede Sprache ausgedrückt ist. In 6 werden dieselben Komponenten wie die in 1 und 4 gezeigten und Komponenten, die in derselben Weise wie die in 1 und 4 gezeigten betrieben werden, durch dieselben Bezugszeichen bezeichnet und die Erklärung der Komponenten wird im Folgenden ausgelassen.
  • Die Texteingabeeinheit 14 ist eine Komponente zum Eingeben eines Texts, welcher in eine Stimme konvertiert werden soll. Die Registriertes-Wort-Teil-Erfassungseinheit 15 ist eine Komponente zum Erfassen eines registrierten Worts, welches in einem Benutzerwörterbuch registriert ist, aus der Texteingabe, die von der Texteingabeeinheit 14 erfasst wird. Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 ist eine Komponente zum Ersetzen des registrierten Wortes, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, mit einer Phonemlabelkette aus dem Benutzerwörterbuch. Die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 ist eine Komponente zum Eingeben eines anderen Teils des Eingabetexts als dem registrierten Wort, das von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, und ersetzt den anderen Teil des Eingabetexts als das registrierte Wort mit einer Phonemlabelkette aus dem Allgemeinwörterbuch 12, ausgedrückt durch Akustikstandardmuster entsprechend einer Einstellsprache. Die Stimmensyntheseeinheit 18 ist eine Komponente zum Erzeugen einer synthetischen Stimme der Texteingabe aus den Phonemlabelketten, die mit der Texteingabe assoziiert sind, welche durch die Phonemlabelketten-Austauscheinheiten 16 und 17 erlangt werden.
  • Indem ein Stimmensyntheseprogramm gemäß dem Umfang der vorliegenden Erfindung in einem Computer gespeichert wird und dann bewirkt wird, dass eine CPU dieses Stimmensyntheseprogramm ausführt, können die Texteingabeeinheit 14, die Registriertes-Wort-Teil-Erfassungseinheit 15, die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 und die Stimmensyntheseeinheit 18 auf dem Computer als konkrete Mittel implementiert werden, bei welchen Hardware und Software in Kooperation miteinander arbeiten. Ferner ist ein Speicherbereich, welcher für die Akustikstandardmuster 4 und das Allgemeinwörterbuch 12 verwendet wird, in einer Speichereinheit konfiguriert, welche in dem oben genannten Computer angebracht ist, zum Beispiel einer Festplattenlaufwerkeinheit oder einem externen Speichermedium.
  • Als nächstes wird ein Betrieb des Stimmensynthesizers beschrieben.
  • 7 ist ein Flussdiagramm, das ein Ablauf des Betriebs des Stimmensynthesizers gemäß Ausführungsform 3 zeigt.
  • Ein Benutzer gibt einen Text, der in eine Stimme gewandelt werden soll, in den Stimmensynthesizer unter Verwendung der Texteingabeeinheit 14 ein (Schritt ST1c). Zu dieser Zeit stellt der Benutzer einen Identifizierer zum Identifizieren eines registrierten Worts in dem Benutzerwörterbuch ein. Zum Beispiel, wie in 7 gezeigt, wenn ein Text eingegeben wird, umfassend ein registriertes Wort 1, das in dem Benutzerwörterbuch registriert ist, setzt der Benutzer Klammern mit doppeltem Haken, welche der Identifizierer zum Identifizieren eines registrierten Worts sind, vor und hinter das registrierte Wort 1.
  • Die Registriertes-Wort-Teil-Erfassungseinheit 15 erhält die Texteingabe von der Texteingabeeinheit 14 und erfasst das registrierte Wort unter Verwendung des Identifizierers zum Identifizieren eines registrierten Worts, der in dem Eingabetext gesetzt ist (Schritt ST2c). Im Beispiel von 7 wird das registrierte Wort 1 erfasst, vor und hinter welchem Klammern mit doppeltem Haken gesetzt sind.
  • Die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 ersetzt dann das registrierte Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, mit einer Phonemlabelkette, die von dem Benutzerwörterbuch erhalten wird (Schritt ST3c). Als ein Ergebnis wird das registrierte Wort 1 durch „#, /m/, /a/, /i/, /k/, /r/, #“ ersetzt, welches eine entsprechende Phonemlabelkette ist.
  • Die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 gibt den anderen Teil in dem Eingabetext als dem registrierten Wort, das durch die Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wurde, über die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16, ein, und tauscht den anderen Teil in dem Eingabetext als dem registrierten Wort mit einer Phonemlabelkette aus, die aus dem Allgemeinwörterbuch 12 erhalten wird, entsprechend der Einstellsprache (Schritt ST4c). In diesem Fall, unter der Annahme, dass die Einstellsprache Japanisch ist, werden der Artikel „wa“, das Nomen „Osaka“, der Artikel „ni“ und das Verb „itta“, welche ein anderer Teil des Eingabetexts als das registrierte Wort sind, durch entsprechende Phonemlabelketten ersetzt, welche in dem japanischen Allgemeinwörterbuch 12 jeweils registriert sind, wie in 7 gezeigt.
  • Die Stimmensyntheseeinheit 18 erzeugt eine synthetisches Stimme des Eingabetext aus den Phonemlabelketten, die mit dem Eingabetext assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 erlangt werden (Schritt ST5c). Im Beispiel der 7 wird eine synthetische Stimme von „Maikr wa Osaka ni itta“ ausgegeben. In diesem Fall, während der andere Teil als das registrierte Wort 1 mit japanischem Phonemlabeln geäußert wird, wird „Maikr“, welches das registrierte Wort 1 ist, in einer englischen Aussprache geäußert, weil die Einstellsprache zu der Zeit der Registrierung des Wortes in dem Benutzerwörterbuch Englisch war, wie im oben erwähnten Beispiel in Ausführungsform 1 gezeigt.
  • Wie oben erwähnt, umfasst der Stimmensynthesizer gemäß dieser Ausführungsform 1 die Texteingabeeinheit 14 zum Eingeben eines Textes, die Registriertes-Wort-Teil-Erfassungseinheit 15 zum Erfassen eines Wort-Teils entsprechend einer Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist, aus der Buchstabenkette der Texteingabe, die von der Texteingabeeinheit 14 eingegeben wird, die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 zum Ersetzen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Benutzerwörterbuch erlangt wird, die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 zum Ersetzen eines Teils des Eingabetextes anders als der registrierte Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit 15 erfasst wird, durch eine entsprechende Phonemlabelkette, die aus dem Allgemeinwörterbuch 12 erlangt wird, und die Stimmensyntheseeinheit 18 zum Erzeugen einer synthetischen Stimme des Textes aus den Phonemlabelketten, die mit dem Text assoziiert sind, welche durch die Registriertes-Wort-Teil-Phonemlabelketten-Austauscheinheit 16 und die Anderer-Teil-Phonemlabelketten-Austauscheinheit 17 erlangt werden, zusätzlich zu den strukturellen Komponenten der Erkennungswörterbuch-Erzeugungseinheit gemäß oben erwähnter Ausführungsform 1.
  • Weil der Stimmensynthesizer in dieser Weise konfiguriert ist, kann ein Vorteil erzielt werden, dass der Stimmensynthesizer 1B, welcher eine Stimmensynthese durchführt, bereitgestellt werden kann, unter Verwendung des Benutzerwörterbuchs, zusätzlich zu dem Vorteil, der durch oben erwähnte Ausführungsform 1 erzielt wird.
  • Ausführungsform 4
  • 8 ist ein Blockdiagramm, das die Struktur einer Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt. Bezugnehmend auf 8 wird die Erkennungswörterbuch-Erzeugungsvorrichtung 1a gemäß Ausführungsform 4 bereitgestellt mit einer Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 anstelle der Benutzerwörterbuch-Erzeugungszeitsprachen-Speichereinheit 7, bereitgestellt in den strukturellen Komponenten gemäß oben erwähnter Ausführungsform 1. Die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 ist eine Komponente zum Einstellen einer vorbestimmten Sprache, welche darin im Voraus als die Sprache von Akustikstandardmustern 4 registriert ist, die für einen Prozess verwendet wird, durchgeführt durch eine Akustikdaten-Abgleichseinheit 5, unabhängig von einer Einstellsprache, welche entweder für eine Spracherkennungsvorrichtung eingestellt wird, welche die Erkennungswörterbuch-Erzeugungsvorrichtung 1a verwendet, oder einen Stimmensynthesizer, welcher die Erkennungswörterbuch-Erzeugungsvorrichtung 1a verwendet. Diese vorbestimmte Sprache wird in der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 im Voraus unabhängig von der Einstellsprache registriert. In 8 werden dieselben Komponenten wie die in 1 gezeigten und Komponenten, welche in derselben Weise wie die in 1 gezeigten betrieben werden, mit denselben Bezugszeichen bezeichnet und die Beschreibung der Komponenten wird im Folgenden ausgelassen.
  • Als nächstes wird ein Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung beschrieben.
  • 9 ist ein Flussdiagramm, das ein Ablauf einer Benutzerwörterbuch-Registrierungsoperation der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 zeigt.
  • Nachdem der Erkennungswörterbuch-Erzeugungsvorrichtung befohlen wird, die Erzeugung eines Benutzerwörterbuchs zu beginnen, unter Verwendung einer Eingabeeinheit (Schritt ST1d) äußert ein Benutzer ein Wort, welches er oder sie in der Erkennungswörterbuch-Erzeugungsvorrichtung registrieren möchte. Zum Beispiel wird angenommen, dass der Benutzer „Michael“ äußert, welches ein Personenname ist. Eine Stimmenerfassungseinheit erfasst die Stimmenäußerung von dem Benutzer über ein Mikrofon 2a und wandelt dann diese Stimmeneingabe in ein digitales Signal und gibt dieses digitale Signal an eine Akustikanalyseeinheit 3 aus (Schritt ST2d) .
  • Als nächstes stellt die Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 die vorbestimmte Sprache, welche darin im Voraus registriert ist, bei der Akustikdaten-Abgleichseinheit 5 ein, anstelle der Einstellsprache, die in dem System (Schritt ST3d) eingestellt ist. Im Beispiel von 9 wird Englisch als die vorbestimmte Sprache eingestellt. Die Akustikanalyseeinheit 3 führt eine Akustikanalyse für das Stimmensignal durch, das von der Stimmenerfassungseinheit 2 in Schritt ST2d eingegeben wird und wandelt dann dieses Stimmensignal in eine Zeitreihe von Akustikmerkmalen (Schritt ST4d) .
  • Die Akustikdaten-Abgleichseinheit 5 liest Akustikstandardmuster 4 entsprechend der vorbestimmten Sprache, die dazu eingestellt ist, aus der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19, und erzeugt eine optimale Phonemlabelkette, die die Stimmeneingabe zeigt, aus den Akustikstandardmustern 4, entsprechend dieser Sprache, die dazu eingestellt ist, und der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, erlangt von der Akustikanalyseeinheit 3 (Schritt ST5d). In einem Fall, in welchem die Stimmeneingabe „Michael“ ist und die vorbestimmte Sprache Englisch ist, erlangt die Akustikdaten-Abgleichseinheit eine Phonemlabelkette von „#, /m/, /a/, /i/, /k/, /1/, #“, wie in 9 gezeigt.
  • Eine Benutzerwörterbuch-Registrierungseinheit 6 registriert die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit 5 erzeugt wird, in einem Benutzerwörterbuch (Schritt ST6d).
  • Als nächstes bringt eine Phonemlabelketten-Wandlungseinheit 9 die Phonemlabelkette, die der Stimmeneingabe (registriertes Wort) entspricht und in der vorbestimmten Sprache ausgedrückt ist, die in der oben genannten Weise erlangt wird, in Entsprechung mit einem Phonemlabel, das in der Einstellsprache ausgedrückt ist, die derzeitig für das System eingestellt ist, gemäß einer Zwischensprachen-Akustikdaten-Abbildungstabelle, welche aus einer Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 gelesen wird, um die Phonemlabelkette, die dem registrierten Wort entspricht, das in dem Benutzerwörterbuch registriert ist und in der vorbestimmten Sprache ausgedrückt ist, in die Phonemlabel zu wandeln, das in der Einstellsprache ausgedrückt ist, und registriert dieses Phonemlabel, das in der Einstellsprache ausgedrückt ist, in der Benutzerwörterbuch-Registrierungseinheit 6 als das derzeitige Benutzerwörterbuch (Schritt ST7d).
  • Als nächstes wird ein Betrieb zu der Zeit eines Umschaltens zwischen Einstellsprachen beschrieben.
  • 10 ist ein Flussdiagramm, das einen Ablauf der Benutzerwörterbuch-Registrierungsoperation zeigt, welche die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 4 durchführt, nachdem zwischen Einstellsprachen umgeschaltet wurde. Ein Fall, bei welchem, nachdem die Benutzerwörterbuch-Registrierungsoperation, die in 9 gezeigt ist, durchgeführt wurde, ein Umschalten zwischen Einstellsprachen durchgeführt wird, wird gezeigt.
  • In Ansprechen auf eine Sprache, welche der Benutzer unter Verwendung einer Eingabeeinheit neu für eine Sprachenumschalteinheit 8 einstellt, , stellt die Sprachenumschalteinheit 8 die Sprache, auf welche die Sprachenumschalteinheit 8 umgeschaltet wurde, bei der Phonemlabelketten-Wandlungseinheit 9 ein (Schritt ST1a). Im Folgenden wird angenommen, dass die Sprachenumschalteinheit auf Japanisch umgeschaltet hat.
  • Die Phonemlabelketten-Wandlungseinheit 9 verwendet die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat und welche durch die Sprachenumschalteinheit 8 spezifiziert ist, und die vorbestimmte Sprache, um durch die Zwischensprachen-Akustikdaten-Abbildungstabellen-Speichereinheit 10 zu suchen, um die Zwischensprachen-Tondaten-Abbildungstabelle entsprechend der Einstellsprache zu der Zeit der Registrierung in dem Benutzerwörterbuch und der Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, zu lesen und wandelt die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, welche in dem Benutzerwörterbuch registriert ist, in eine Phonemlabelkette, die in der Sprache ausgedrückt ist, auf welche die Sprachenumschalteinheit umgeschaltet hat, gemäß dem Zwischensprachen-Akustikdaten-Abbildungstabelle (Schritt ST2e) .
  • Zum Beispiel wird die Phonemlabelkette „#, /m/, /a/, /i/, /k/, /1/, #“ von „Michael“ auf Englisch, welche die vorbestimmte Sprache ist, in „#, /m/, /a/, /i/, /k/, /r/, #“ gewandelt, welches eine japanische Phonemlabelkette gemäß der Entsprechung in der Zwischensprachen-Akustikdaten-Abbildungstabelle zwischen Englisch und Japanisch ist, welches die Sprache ist, auf welche die Sprachenumschalteinheit umgeschaltet hat.
  • Die Benutzerwörterbuch-Registrierungseinheit 6 speichert zusätzlich die Phonemlabelkette, in welche die Phonemlabelkette, die in der vorbestimmten Sprache ausgedrückt ist, durch die Phonemlabelketten-Wandlungseinheit 9 gewandelt wird in Schritt ST2a in dem Benutzerwörterbuch (Schritt ST3e). Bezugnehmend auf 10, wird, weil der registrierte Worttext „Michael“ ist und die Sprache, auf welche die Sprachenumschalteinheit umgeschaltet hat, Japanisch ist, „#, /m/, /a/, /i/, /k/, /r/, #“ welches eine japanische Phonemlabelkette ist, als ein registriertes Wort gespeichert.
  • Wie oben erwähnt, wird die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 4 mit dem Benutzerwörterbuch bereitgestellt, in welches eine Phonemlabelkette einer Stimmeneingabe registriert wird, der Zwischensprachen-Akustikdaten-Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabel in verschiedenen Sprachen definiert ist, und der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 zum Auswählen von Akustikstandardmustern entsprechend einer voreingestellten Sprache aus Akustikstandardmustern, und greift auf die Zwischensprachen-Akustikdaten-Abbildungstabelle zurück, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 gewählt ist, in eine Phonemlabelkette zu wandeln, die in einer Sprache ausgedrückt ist, auf welche die Erkennungswörterbuch-Erzeugungsvorrichtung umgeschaltet hat.
  • Weil die Erkennungswörterbuch-Erzeugungsvorrichtung in dieser Weise konfiguriert ist, in einem Fall, in welchem eine aus N verschiedenen Sprachen als eine Zielsprache eingestellt werden kann, in welcher ein Wort, das in dem Benutzerwörterbuch registriert werden soll, ausgedrückt ist, verglichen mit oben erwähnter Ausführungsform 1, bei welcher es notwendig ist, Zwischen-Sprachen-Akustikdaten-Abbildungstabellen entsprechend allen (N x (N-1))/2 Kombinationen der Sprache bereitzustellen, die zu der Zeit der Registrierung in dem Benutzerwörterbuch eingestellt ist, und einer weitere Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung eingestellt werden kann, muss die Erkennungswörterbuch-Erzeugungsvorrichtung nur Zwischensprachen-Akustikdaten-Abbildungstabellen entsprechend (N-1) Kombinationen der einzelnen vorbestimmten Sprache bereitstellen, die von der Tonmuster-zur-Zeit-der-Registrierung-Einstelleinheit 19 eingestellt wird, und einer weiteren Sprache, welche für die Erkennungswörterbuch-Erzeugungsvorrichtung wie oben erwähnt eingestellt werden kann. Daher kann die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform die Datengröße der Zwischensprachen-Akustikdaten-Abbildungstabellen reduzieren.
  • Obwohl die Fälle, bei welchen die Spracherkennungsvorrichtung und der Stimmensynthesizer unter Verwendung der Erkennungswörterbuch-Erzeugungsvorrichtung 1 gemäß oben erwähnter Ausführungsform 1 konfiguriert sind, in oben erwähnten Ausführungsformen 2 und 3 jeweils gezeigt sind, können die Spracherkennungsvorrichtung und der Stimmensynthesizer mit den Konfigurationen, die in 4 und 6 gezeigt sind, jeweils in Kombination mit der Erkennungswörterbuch-Erzeugungsvorrichtung 1a gemäß der oben erwähnten Ausführungsform 4 konfiguriert sein, die in 8 gezeigt ist, anstelle der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß oben erwähnter Ausführungsform 1. Als Ergebnis kann daher eine Spracherkennungsvorrichtung und ein Stimmensynthesizer bereitgestellt werden, welche auch denselben Vorteil erzielen, wie der, welcher durch oben erwähnte Ausführungsform 4 erzielt wird.
  • Industrielle Anwendbarkeit
  • Da die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung nicht einen Speicher großer Größe zum Speichern von Stimmenäußerungen haben und Phonemlabelketten für alle Sprachen im Voraus erzeugen muss und die Zeit verkürzen kann, die benötigt wird um Phonemlabelketten für jede Sprache zu erzeugen, ist die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung dazu geeignet, in einer Spracherkennungsvorrichtung, die in einem Fahrzeug angebracht ist, und einem Stimmensynthesizer, der an einem Fahrzeug angebracht ist, verwendet zu werden.

Claims (6)

  1. Erkennungswörterbuch-Erzeugungsvorrichtung umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
  2. Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen von der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt wird, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
  3. Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe mit den in der Akustikstandardmuster-Speichereinheit gespeicherten Akustikstandardmustern entsprechend einer für eine Spracherkennung und/oder eine Stimmensynthese eingestellten Sprache, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenspeichereinheit zum Speichern von Information, die eine Sprache der Phonemlabelkette zeigt, welche in dem Benutzerwörterbuch registriert ist; eine Sprachenumschalteinheit zum Umschalten von einer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Information gezeigt ist, die in der Sprachenspeichereinheit gespeichert ist, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.
  4. Erkennungswörterbuch-Erzeugungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für eine Spracherkennungsvorrichtung und/oder einen Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; und eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat.
  5. Spracherkennungsvorrichtung, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für die Spracherkennungsvorrichtung eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Allgemeinwörterbuch-Speichereinheit zum Speichern eines Allgemeinwörterbuchs mit einem Vokabular, das durch die Akustikstandardmuster ausgedrückt ist; eine Wörterbuchvergleichseinheit zum Vergleichen der Phonemlabelkette der Stimmeneingabe, die durch die Akustikdaten-Abgleichseinheit erzeugt wird, mit dem Allgemeinwörterbuch und dem Benutzerwörterbuch, um ein Wort zu spezifizieren, welches der Phonemlabelkette der Stimmeneingabe am ähnlichsten ist, aus dem Allgemeinwörterbuch und dem Benutzerwörterbuch; und eine Erkennungsergebnis-Ausgabeeinheit zum Ausgeben des Worts, das durch die Wörterbuchvergleichseinheit spezifiziert wird, als ein Spracherkennungsergebnis.
  6. Stimmensynthesizer, umfassend: eine Akustikanalyseeinheit zum Durchführen einer Akustikanalyse für ein Stimmensignal einer Stimmeneingabe, um eine Zeitreihe von Akustikmerkmalen auszugeben; eine Akustikstandardmuster-Speichereinheit zum Speichern von Akustikstandardmustern, die Standardakustikmerkmale für jede Sprache zeigen; eine Akustikstandardmuster-Einstelleinheit zum Wählen von Akustikstandardmustern für eine voreingestellte Sprache aus den Akustikstandardmustern, die in der Akustikstandardmuster-Speichereinheit gespeichert sind; eine Akustikdaten-Abgleichseinheit zum Vergleichen der Zeitreihe von Akustikmerkmalen der Stimmeneingabe, welche darin von der Akustikanalyseeinheit eingegeben wird, mit den Akustikstandardmustern für die Sprache, welche durch die Akustikstandardmuster-Einstelleinheit gewählt werden, um eine Phonemlabelkette der Stimmeneingabe zu erzeugen; eine Benutzerwörterbuch-Speichereinheit zum Speichern eines Benutzerwörterbuchs, in welches die Phonemlabelkette der Stimmeneingabe, die von der Akustikdaten-Abgleichseinheit erzeugt wird, registriert wird; eine Sprachenumschalteinheit zum Umschalten von einer für den Stimmensynthesizer eingestellten Sprache zu einer anderen Sprache; eine Abbildungstabellen-Speichereinheit zum Speichern einer Abbildungstabelle, in welcher eine Entsprechung zwischen Phonemlabeln in verschiedenen Sprachen definiert ist; eine Phonemlabelketten-Wandlungseinheit zum Zurückgreifen auf die Abbildungstabelle, die in der Abbildungstabellen-Speichereinheit gespeichert ist, um die Phonemlabelkette, die in dem Benutzerwörterbuch registriert ist und in der Sprache ausgedrückt ist, die durch die Akustikstandardmuster-Einstelleinheit gewählt wird, in eine Phonemlabelkette zu wandeln, die in der anderen Sprache ausgedrückt ist, zu welcher die Sprachenumschalteinheit umgeschaltet hat; eine Texteingabeeinheit zum Eingeben eines Texts; eine Registriertes-Wort-Teil-Erfassungseinheit zum Erfassen eines Wort-Teils, der der Phonemlabelkette entspricht, die in dem Benutzerwörterbuch registriert ist, aus einer Buchstabenkette des Texts, der von der Texteingabeeinheit eingegeben wird; eine Registriertes-Wort-Austauscheinheit zum Austauschen des Wort-Teils, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit der Phonemlabelkette, die von dem Benutzerwörterbuch erlangt wird und dem Wort-Teil entspricht; eine Allgemeinwörterbuch-Austauscheinheit zum Austauschen eines Teils der Buchstabenkette des anderen Textes als dem Wort-Teil, der von der Registriertes-Wort-Teil-Erfassungseinheit erfasst wird, mit einer Phonemlabelkette eines entsprechenden Worts in dem Allgemeinwörterbuch; und eine Stimmensyntheseeinheit zum Erzeugen einer synthetischen Stimme des Texts aus den Phonemlabelketten des Texts, welche durch die Registriertes-Wort-Austauscheinheit und die Allgemeinwörterbuch-Austauscheinheit erlangt werden.
DE112010005168.2T 2010-01-22 2010-01-22 Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer Expired - Fee Related DE112010005168B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/000369 WO2011089651A1 (ja) 2010-01-22 2010-01-22 認識辞書作成装置、音声認識装置及び音声合成装置

Publications (2)

Publication Number Publication Date
DE112010005168T5 DE112010005168T5 (de) 2012-11-08
DE112010005168B4 true DE112010005168B4 (de) 2018-12-13

Family

ID=44306475

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010005168.2T Expired - Fee Related DE112010005168B4 (de) 2010-01-22 2010-01-22 Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer

Country Status (5)

Country Link
US (1) US9177545B2 (de)
JP (1) JP4942860B2 (de)
CN (1) CN102687197B (de)
DE (1) DE112010005168B4 (de)
WO (1) WO2011089651A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013195928A (ja) * 2012-03-22 2013-09-30 Yamaha Corp 音声素片切出装置
JP5990962B2 (ja) * 2012-03-23 2016-09-14 ヤマハ株式会社 歌唱合成装置
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
US9197481B2 (en) * 2012-07-10 2015-11-24 Tencent Technology (Shenzhen) Company Limited Cloud-based translation method and system for mobile client
US9886947B2 (en) * 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
JP6263868B2 (ja) 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US10628567B2 (en) * 2016-09-05 2020-04-21 International Business Machines Corporation User authentication using prompted text
WO2019049364A1 (ja) * 2017-09-11 2019-03-14 三菱電機株式会社 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法
JP6920153B2 (ja) * 2017-09-27 2021-08-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
CN113611282B (zh) * 2021-08-09 2024-05-14 苏州市广播电视总台 广播节目智能播报系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US20050197835A1 (en) 2004-03-04 2005-09-08 Klaus Reinhard Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7181395B1 (en) 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
JP3378547B2 (ja) * 1999-12-27 2003-02-17 日本電信電話株式会社 音声認識方法及び装置
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US6272464B1 (en) 2000-03-27 2001-08-07 Lucent Technologies Inc. Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition
US6738738B2 (en) * 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
EP1233406A1 (de) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Angepasste Spracherkennung für ausländische Sprecher
JP2002247646A (ja) 2001-02-19 2002-08-30 Sony Corp 携帯端末装置およびコンピュータプログラム
EP1239459A1 (de) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Anpassung eines Spracherkenners an die Aussprache eines ausländischen Sprechers
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
US7716050B2 (en) * 2002-11-15 2010-05-11 Voice Signal Technologies, Inc. Multilingual speech recognition
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
US7567896B2 (en) * 2004-01-16 2009-07-28 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
EP1769489B1 (de) * 2004-07-22 2009-09-09 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
US20070255567A1 (en) * 2006-04-27 2007-11-01 At&T Corp. System and method for generating a pronunciation dictionary
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8073693B2 (en) * 2008-12-04 2011-12-06 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
JP5343293B2 (ja) * 2009-07-08 2013-11-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US7181395B1 (en) 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US20050197835A1 (en) 2004-03-04 2005-09-08 Klaus Reinhard Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers

Also Published As

Publication number Publication date
WO2011089651A1 (ja) 2011-07-28
CN102687197B (zh) 2014-07-23
US9177545B2 (en) 2015-11-03
DE112010005168T5 (de) 2012-11-08
JPWO2011089651A1 (ja) 2013-05-20
JP4942860B2 (ja) 2012-05-30
CN102687197A (zh) 2012-09-19
US20120203553A1 (en) 2012-08-09

Similar Documents

Publication Publication Date Title
DE112010005168B4 (de) Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69514382T2 (de) Spracherkennung
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE112010005918B4 (de) Spracherkennungsvorrichtung
DE69826446T2 (de) Stimmumwandlung
Abushariah et al. Natural speaker-independent Arabic speech recognition system based on Hidden Markov Models using Sphinx tools
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE69416670T2 (de) Sprachverarbeitung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
DE112010006037T5 (de) Spracherkennungsvorrichtung und Navigationssystem
DE112014007287B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE04735990T1 (de) Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
CN112509550A (zh) 语音合成模型训练方法、语音合成方法、装置及电子设备

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: HOFFMANN - EITLE PATENT- UND RECHTSANWAELTE PA, DE

Representative=s name: HOFFMANN - EITLE, DE

R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee