DE112013007617T5 - Spracherkennungsvorrichtung und Spracherkennungsverfahren - Google Patents

Spracherkennungsvorrichtung und Spracherkennungsverfahren Download PDF

Info

Publication number
DE112013007617T5
DE112013007617T5 DE112013007617.9T DE112013007617T DE112013007617T5 DE 112013007617 T5 DE112013007617 T5 DE 112013007617T5 DE 112013007617 T DE112013007617 T DE 112013007617T DE 112013007617 T5 DE112013007617 T5 DE 112013007617T5
Authority
DE
Germany
Prior art keywords
speech
voice
acoustic
recognition
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112013007617.9T
Other languages
English (en)
Other versions
DE112013007617B4 (de
Inventor
Yusuke Seto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112013007617T5 publication Critical patent/DE112013007617T5/de
Application granted granted Critical
Publication of DE112013007617B4 publication Critical patent/DE112013007617B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine Sprachakquisitionseinheit (1) akquiriert eine von einem Benutzer frei geäußerte Originalsprache. Eine Sprachdaten-Verarbeitungseinheit (7) verarbeitet ein Originalsprachsignal, um ein verarbeitetes Sprachsignal zu erzeugen. Eine Akustikmodell-Schalteinheit (4) bestimmt ein Akustikmodell aus einer Vielzahl von Akustikmodellen (3-1 bis 3-x) auf Grundlage einer Erkennungsbewertungszahl für jede Sprache, wobei eine Spracherkennungseinheit (5) einen Erkennungsprozess auf Zeitreihendaten über ein Akustikmerkmal des verarbeiteten Sprachsignals, das berechnet werden soll, durch Verwendung der Akustikmodelle (3-1 bis 3-x) für individuelle Sprachen durchführt.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren, die eine von einem Benutzer geäußerte Sprache erkennen.
  • HINTERGRUNDTECHNIK
  • Eine Spracherkennungsvorrichtung der letzten Jahre ist zum Erkennen einer Vielzahl von Sprachen fähig. In solch einer Spracherkennungsvorrichtung ist es erforderlich, einen Erkennungsprozess durch Verwendung eines Akustikmodells durchzuführen, das für eine von einem Benutzer verwendete Sprache geeignet ist, so dass eine Erkennungsrate erhöht wird. Selbst in dem beispielhaften Fall von Englisch ist eine Aussprache von Englisch durch einen Benutzer, dessen Muttersprache Deutsch ist, unterschiedlich von dieser durch einen Benutzer, dessen Muttersprache Französisch ist, und daher ist es erforderlich, das für einen jeweiligen Benutzer geeignete Akustikmodell zu verwenden.
  • Ein Beispiel eines konventionellen Schaltverfahrens einer Vielzahl von Sprachen enthält ein Verwendungssprache-Schaltverfahren einer Elektronisches-Wörterbuch-Vorrichtung gemäß Patentdokument 1. Die Elektronisches-Wörterbuch-Vorrichtung enthält eine Registrierungseinheit, die ein Wort für jede Sprache registriert, eine Bestimmungseinheit, die bestimmt, ob oder ob nicht eine von einem Benutzer geäußerte Sprache mit dem in der Registrierungseinheit registrierten Wort übereinstimmt, und eine Schalteinheit, die zu einem Wörterbuch für eine Sprache schaltet, welche(s) dem Wort entspricht, mit dem die Sprache übereingestimmt hat. Es ist für den Benutzer erforderlich gewesen, das einer jeweiligen Sprache entsprechende Wort in der Registrierungseinheit im Voraus zu registrieren, und zu der Zeit des Schaltens zu dem Wörterbuch für eine Sprache, die der Benutzer verwenden möchte, das der Sprache entsprechende Wort zu äußern.
  • ZITIERUNGSLISTE
  • PATENTDOKUMENT
    • Patentdokument 1: Veröffentlichung der japanischen Patentanmeldung Nr. 2001-282788
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
  • In der oben beschriebenen Spracherkennungsvorrichtung muss der Benutzer, wenn das Verfahren wie beispielsweise in Patentdokument 1 verwendet wird, um zu dem Akustikmodell zu schalten, das für die durch den Benutzer verwendete Sprache geeignet ist, das Wort registrieren und äußern, so dass es ein Problem gegeben hat, dass solche Operationen für den Benutzer lästig sind.
  • Die vorliegende Erfindung ist gemacht worden, um das obige Problem zu lösen, und es ist eine Aufgabe davon, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren bereitzustellen, die automatisch zu einem passenden Akustikmodell schalten, ohne von einem Benutzer zu erfordern, spezielle Operationen, so wie eine Registrierung und Äußerung eines Wortes, durchzuführen.
  • MITTEL ZUM LÖSEN DER PROBLEME
  • Eine Spracherkennungsvorrichtung der vorliegenden Erfindung enthält: einen Sprachakquirierer, der eine Sprache akquiriert, um die Sprache als ein Originalsprachsignal auszugeben; einen Sprachdatenprozessor, der das Originalsprachsignal verarbeitet, um ein verarbeitetes Sprachsignal zu erzeugen; einen Akustikanalysierer, der das Originalsprachsignal und das verarbeitete Sprachsignal analysiert, um Zeitreihendaten über ein Akustikmerkmal (Engl.: acoustic feature) zu erzeugen; eine Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen; einen Spracherkenner, der die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache umwandelt durch Verwenden des Akustikmodells für jede Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen, und der einen Erkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache durchführt, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und einen Akustikmodellschalter, der ein Akustikmodell aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache bestimmt, die durch den Spracherkenner berechnet worden ist.
  • Ein Spracherkennungsverfahren der Erfindung enthält: Verarbeiten eines Originalsprachsignals als eine Sprache in einer Form eines Digitalsignals, um ein verarbeitetes Sprachsignal zu erzeugen; Analysieren des Originalsprachsignals und des verarbeiteten Sprachsignals, um Zeitreihendaten über ein Akustikmerkmal zu erzeugen; durch Verwendung einer Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen, Umwandeln der Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen; Durchführen eines Erkennungsprozesses auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und Bestimmen eines Akustikmodells aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache.
  • WIRKUNG DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird das Akustikmodell durch Verwendung der von einem Benutzer frei geäußerten Sprache bestimmt, und somit ist es für den Benutzer nicht erforderlich, spezielle Operationen, so wie eine Registrierung und Äußerung eines Wortes, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren. Durch Durchführen einer Verarbeitung, so wie einer Überlagerung eines Umgebungsstörgeräuschs auf das Originalsprachsignal, ist es außerdem möglich, das Akustikmodell unter Berücksichtigung des Umgebungsstörgeräuschs oder dergleichen zu bestimmen und ein Schalten zu einem unpassenden Akustikmodell zu vermeiden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, das ein Grundkonzept einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
  • 2 ist ein Flussdiagramm, das einen Prozess zum Bestimmen eines für einen Benutzer geeigneten Akustikmodells in der Spracherkennungsvorrichtung gemäß Ausführungsform 1 zeigt.
  • 3 ist ein Flussdiagramm, das das Detail eines Prozessschrittes im Schritt ST4 von 2 zeigt.
  • 4 ist ein Flussdiagramm, das das Detail eines Prozessschrittes im Schritt ST5 von 2 zeigt.
  • 5 ist eine Tabelle, die ein Beispiel einer Erkennungsbewertungszahl zeigt, die durch den Prozessschritt im Schritt ST5 von 2 bestimmt worden ist.
  • 6 ist ein Blockdiagramm, das ein Beispiel einer Ausgestaltung einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der Erfindung zeigt.
  • MODI ZUM AUSFÜHREN DER ERFINDUNG
  • Um die vorliegende Erfindung in größerem Detail zu beschreiben, wird hier untenstehend der beste Modus zum Ausführen der Erfindung gemäß den begleitenden Zeichnungen beschrieben werden.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm, das ein Grundkonzept einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung enthält eine Sprachakquisitionseinheit 1, eine Akustikanalyseeinheit 2, Akustikmodelle 3-1 bis 3-x (x ist irgendeine Zahl), die für individuelle Sprachen vorbereitet sind, eine Akustikmodell-Schalteinheit 4, eine Spracherkennungseinheit 5, eine Sprachdaten-Speichereinheit 6, eine Sprachdaten-Verarbeitungseinheit 7, eine Wörterbucherzeugungseinheit 8 und Bestimmungswörterbücher 9-1 bis 9-x, die für individuelle Sprachen erzeugt worden sind.
  • Die Sprachakquisitionseinheit 1 führt eine A/D-(Analog/Digital) Umwandlung auf einer von einem Benutzer geäußerten Sprache (hier im Nachfolgenden als eine Originalsprache bezeichnet) durch, die von einem Mikrofon eingegeben wird, das nicht gezeigt ist, durch beispielsweise PCM (Pulscodemodulation), um die Sprache in ein Digitalsignal umzuwandeln.
  • Man beachte, dass in der folgenden Beschreibung ein Sprachsignal, das durch Umwandeln der Originalsprache in das Digitalsignal erhalten worden ist, als ein Originalsprachsignal bezeichnet wird.
  • Die Sprachdaten-Speichereinheit 6 speichert das durch die Sprachakquisitionseinheit 1 ausgegebene Originalsprachsignal.
  • Die Sprachdaten-Verarbeitungseinheit 7 akquiriert das Originalsprachsignal von der Sprachdaten-Speichereinheit 6 und verarbeitet das Originalsprachsignal, um Sprachsignale von einem oder mehr Mustern neu zu erzeugen.
  • Man beachte, dass in der folgenden Beschreibung solch ein Sprachsignal, das verarbeitet wird, als ein verarbeitetes Sprachsignal bezeichnet wird.
  • Ein Beispiel des Verarbeitungsverfahrens enthält eine Überlagerung eines Umgebungsstörgeräuschs, das in einer Umgebung erwartet wird, wo die Spracherkennungsvorrichtung verwendet wird, Änderung einer Lautstärke, Änderung einer Geschwindigkeit oder eine Kombination davon, und das Verarbeitungsverfahren kann irgendein Verfahren sein, solange wie das Verfahren nicht Merkmale einer Äußerung eines Benutzers löscht. Andererseits werden eine Überlagerung einer Sprache, in der eine Stimme einer Person gemischt wird, und eine Änderung einer Frequenz verhindert.
  • Die Akustikanalyseeinheit 2 analysiert das Originalsprachsignal, das in das Digitalsignal durch die Sprachakquisitionseinheit 1 umgewandelt worden ist, und das durch die Sprachdaten-Verarbeitungseinheit 7 erzeugte verarbeitete Sprachsignal und wandelt sie in Zeitreihendaten über ein Akustikmerkmal um.
  • Die Akustikanalyseeinheit 2 analysiert beispielsweise das Sprachsignal bei konstanten Zeitintervallen und gibt die Zeitreihendaten über das Akustikmerkmal aus, welche das Merkmal der Sprache repräsentieren (Akustikmerkmalausmaßvektor).
  • Die Akustikmodelle 3-1 bis 3-x sind Standardakustikmerkmale, die Sprachbezeichnungen (beispielsweise Phonembezeichnungen) der ersten bis x-ten Sprache entsprechen, und die Akustikmerkmale sind beispielsweise durch ein HMM (Hidden Markov Model) oder dergleichen modelliert.
  • Beispielsweise wird Englisch, das von einem Benutzer geäußert worden ist, dessen Muttersprache Englisch ist, als die erste Sprache gesetzt, und das Akustikmodell 3-1 und das Bestimmungswörterbuch 9-1, das später beschrieben ist, sind für die erste Sprache vorbereitet. Andererseits wird Englisch, das von einem Benutzer geäußert wird, dessen Muttersprache Deutsch ist, als die zweite Sprache gesetzt, und das Akustikmodell 3-2 und das Bestimmungswörterbuch 9-2, später beschrieben, sind für die zweite Sprache vorbereitet.
  • Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, empfängt die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, prüft die Zeitreihendaten mit jedem der Akustikmodelle 3-1 bis 3-x, um eine entsprechende Sprachbezeichnungskette (beispielsweise eine Phonembezeichnungskette) zu bestimmen, und gibt die Sprachbezeichnungskette aus.
  • Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, empfängt außerdem die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, führt einen Spracherkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal durch Verwendung der Akustikmodelle 3-1 bis 3-x und der Bestimmungswörterbücher 9-1 bis 9-x aus und gibt eine Erkennungsbewertungszahl als ein Erkennungsergebnis aus.
  • Andererseits empfängt in einem üblichen Spracherkennungsprozess die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, führt den Spracherkennungsprozess durch Verwendung irgendeines der Akustikmodelle 3-1 bis 3-x durch, das durch die Akustikmodell-Schalteinheit 4 bestimmt worden ist, und gibt das Erkennungsergebnis aus.
  • Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, speichert die Wörterbucherzeugungseinheit 8 die durch die Spracherkennungseinheit 5 ausgegebene Phonembezeichnungskette in einem der Bestimmungswörterbücher 9-1 bis 9-x für die entsprechende Sprache.
  • In dem beispielhaften Fall, wo die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal mit dem Akustikmodell 3-1 für die erste Sprache prüft und die entsprechende Phonembezeichnungskette ausgibt, speichert die Wörterbucherzeugungseinheit 8 die Phonembezeichnungskette in dem Bestimmungswörterbuch 9-1 für die erste Sprache.
  • Wenn die Spracherkennungseinheit 5 die Funktion der Wörterbucherzeugungseinheit 8 hat, kann außerdem die Spracherkennungseinheit 5 ausgebildet sein zum Erzeugen der Bestimmungswörterbücher 9-1 bis 9-x.
  • Die Akustikmodell-Schalteinheit 4 bestimmt das für den Benutzer geeignete Modell, welcher die Originalsprache geäußert hat, aus den Akustikmodellen 3-1 bis 3-x auf Grundlage des Erkennungsergebnisses (Erkennungsbewertungszahl) des verarbeiteten Sprachsignals, das dem Spracherkennungsprozess durch die Spracherkennungseinheit 5 unterzogen worden ist, und benachrichtigt die Spracherkennungseinheit 5 über das bestimmte Akustikmodell.
  • Ein Prozess zum Bestimmen des Akustikmodells durch die Akustikmodell-Schalteinheit 4 wird später beschrieben werden.
  • Man beachte, dass die Sprachdaten-Speichereinheit 6, die Akustikmodelle 3-1 bis 3-x und die Bestimmungswörterbücher 9-1 bis 9-x in einem gemeinsamen Speicherelement, einer Speichervorrichtung oder dergleichen gespeichert sein können und auch in Speicherelementen, Speichervorrichtungen oder dergleichen gespeichert sein können, die voneinander unabhängig sind.
  • Außerdem kann die Spracherkennungsvorrichtung konfiguriert sein, einen Speicher, in dem ein Programm gespeichert ist, und eine CPU (Central Processing Unit) zu haben, die das Programm ausführt, und Funktionen der Sprachakquisitionseinheit 1, der Akustikanalyseeinheit 2, der Akustikmodell-Schalteinheit 4, der Spracherkennungseinheit 5, der Sprachdaten-Verarbeitungseinheit 7 und der Wörterbucherzeugungseinheit 8 können mit Verwendung von Software durch Ausführung des Programms durch die CPU realisiert sein, oder ein Teil davon kann mit Hardware ersetzt sein.
  • Außerdem ist die Spracherkennungsvorrichtung konfiguriert zum Durchführen des Spracherkennungsprozesses durch eine Phonemeinheit, aber sie kann auch konfiguriert sein zum Durchführen des Spracherkennungsprozesses durch eine andere Einheit als das Phonem.
  • Als Nächstes wird der Prozess der Spracherkennungsvorrichtung gemäß Ausführungsform 1 mit Verwendung von in 2 bis 4 gezeigten Flussdiagrammen beschrieben werden.
  • 2 ist ein Flussdiagramm, das den Prozess zum Bestimmen des für den Benutzer geeigneten Akustikmodells zeigt.
  • Zuerst akquiriert die Sprachakquisitionseinheit 1 die von dem Benutzer frei geäußerte Sprache als die Originalsprache via ein Mikrofon, führt die A/D-Umwandlung auf der Originalsprache beispielsweise durch PCM durch, um die Originalsprache in das Originalsprachsignal umzuwandeln (Schritt ST1), und speichert das Originalsprachsignal in der Sprachdaten-Speichereinheit 6 (Schritt ST2).
  • Anschließend akquiriert die Sprachdaten-Verarbeitungseinheit 7 das Originalsprachsignal von der Sprachdaten-Speichereinheit 6, verarbeitet das Originalsprachsignal und erzeugt die verarbeiteten Sprachsignale von einem oder mehr Mustern neu (Schritt ST3).
  • Danach analysiert die Akustikanalyseeinheit 2 das Originalsprachsignal, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen, die Spracherkennungseinheit 5 prüft die Zeitreihendaten über das Akustikmerkmal mit jedem der Akustikmodelle 3-1 bis 3-x, um die entsprechende Phonembezeichnungskette zu bestimmen, und die Wörterbucherzeugungseinheit 8 speichert die Phonembezeichnungskette in einem der Bestimmungswörterbücher 9-1 bis 9-x für die entsprechende Sprache (Schritt ST4).
  • Hier wird das Detail des Prozessschrittes im Schritt ST4 durch Verwendung eines in 3 gezeigten Flussdiagramms beschrieben werden.
  • Zuerst analysiert die Akustikanalyseeinheit 2 das Originalsprachsignal und wandelt das Originalsprachsignal in die Zeitreihendaten über das Akustikmerkmal um (Schritt ST11).
  • Anschließend initialisiert die Akustikmodell-Schalteinheit 4 einen Zähler n zum Zählen der Akustikmodelle 3-1 bis 3-x (Schritt ST12). Dann, in dem Fall, wo der Zähler n nicht mehr als die Anzahl von Akustikmodellen x ist (Schritt ST13 "JA"), gibt die Akustikmodell-Schalteinheit 4 eine Anweisung an die Spracherkennungseinheit 5 so aus, dass das Originalsprachsignal erkannt wird durch Verwendung eines Akustikmodells 3-n für die n-te Sprache (Schritt ST14).
  • Anschließend prüft die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals, die durch die Akustikanalyseeinheit 2 ausgegeben worden sind, mit dem Akustikmodell 3-n für die n-te Sprache, die durch die Akustikmodell-Schalteinheit 4 spezifiziert worden ist, und gibt die Phonembezeichnungskette der n-ten Sprache aus, die den Zeitreihendaten über das Akustikmerkmal entspricht (Schritt ST15).
  • Danach speichert die Wörterbucherzeugungseinheit 8 die Phonembezeichnungskette der n-ten Sprache, die durch die Spracherkennungseinheit 5 ausgegeben worden ist, in dem Bestimmungswörterbuch 9-n für die n-te Sprache (Schritt ST16). Anschließend inkrementiert die Akustikmodell-Schalteinheit 4 den Zähler n (Schritt ST17) und kehrt zu dem Prozessschritt in Schritt ST13 zurück.
  • Wenn die Prozessschritte in den Schritten ST13 bis ST17 wiederholt werden, und die Erzeugung der Phonembezeichnungsketten sämtlicher der Sprachen für das Originalsprachsignal beendet wird, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler n mehr als die Anzahl von Akustikmodellen x ist (Schritt ST13 "NEIN"), und schreitet zum Schritt ST5 in dem Flussdiagramm von 2.
  • Zu dem Schritt ST5 von 2 zurückkehrend, analysiert die Akustikanalyseeinheit 2 jedes verarbeitete Sprachsignal, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen, die Spracherkennungseinheit 5 führt den Spracherkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal jedes verarbeiteten Sprachsignals durch Verwendung der Akustikmodelle 3-1 bis 3-x und der entsprechenden Bestimmungswörterbücher 9-1 bis 9-x durch, um die Erkennungsbewertungszahl auszugeben, und die Akustikmodell-Schalteinheit 4 speichert jede Erkennungsbewertungszahl in Verknüpfung mit einem der Akustikmodelle 3-1 bis 3-x (Schritt ST5).
  • Hier wird das Detail des Prozessschrittes im Schritt ST5 durch Verwendung eines in 4 gezeigten Flussdiagramms beschrieben werden.
  • Zuerst analysiert die Akustikanalyseeinheit 2 die verarbeiteten Sprachsignale einer Vielzahl von Mustern (beispielsweise das erste bis y-te Muster; y ist irgendeine Zahl), erzeugt aus einem Originalsprachsignal durch die Sprachdaten-Verarbeitungseinheit 7, und wandelt jedes der verarbeiteten Sprachsignale in die Zeitreihendaten über das Akustikmerkmal um (Schritt ST21).
  • Die Akustikmodell-Schalteinheit 4 initialisiert einen Zähler m zum Zählen der verarbeiteten Sprachsignale des ersten bis y-ten Musters (Schritt ST22). Dann, in dem Fall, wo der Zähler m nicht mehr als die Anzahl verarbeiteter Sprachsignale y ist (Schritt ST23 "JA"), initialisiert die Akustikmodell-Schalteinheit 4 den Zähler n zum Zählen der Akustikmodelle 3-1 bis 3-x (Schritt ST24), und in dem Fall, wo der Zähler n nicht mehr als die Anzahl von Akustikmodellen ist (Schritt ST25 "JA"), gibt die Akustikmodell-Schalteinheit 4 eine Anweisung an die Spracherkennungseinheit 5 so aus, dass der Spracherkennungsprozess auf dem verarbeiteten Sprachsignal des m-ten Musters durch Verwendung des Akustikmodells 3-n und des Bestimmungswörterbuchs 9-n für die n-te Sprache durchgeführt wird. Anschließend empfängt die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals des m-ten Musters, führt den Spracherkennungsprozess durch Verwendung des Akustikmodells 3-n und des Bestimmungswörterbuchs 9-n für die n-te Sprache aus, welche durch die Akustikmodell-Schalteinheit 4 spezifiziert worden ist/sind, und gibt die Erkennungsbewertungszahl als das Erkennungsergebnis aus (Schritt ST26).
  • Anschließend speichert beispielsweise, wie in 5 gezeigt, die Akustikmodell-Schalteinheit 4 die Erkennungsbewertungszahl des verarbeiteten Sprachsignals des m-ten Musters, ausgegeben durch die Spracherkennungseinheit 5, in Verknüpfung mit dem Akustikmodell 3-n für die n-te Sprache (Schritt ST27). Dann inkrementiert die Akustikmodell-Schalteinheit 4 den Zähler n (Schritt ST28) und kehrt zu dem Prozessschritt im Schritt ST25 zurück.
  • Wenn die Prozessschritte in Schritten ST25 bis ST28 wiederholt werden, und die Spracherkennungsprozesse sämtlicher der Sprachen für das verarbeitete Sprachsignal des m-ten Musters beendet sind, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler n mehr als die Anzahl der Akustikmodelle ist (Schritt ST25 "NEIN"), inkrementiert den Zähler m (Schritt ST29) und kehrt zu dem Prozessschritt im Schritt ST23 zurück.
  • Wenn die Prozessschritte in den Schritten ST23 bis ST29 wiederholt werden, und die Spracherkennungsprozesse sämtlicher der Sprachen für die verarbeiteten Sprachsignale sämtlicher Muster beendet sind, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler m mehr als die Anzahl verarbeiteter Sprachsignale y ist (Schritt ST23 "NEIN") und schreitet zum Schritt ST6 in dem Flussdiagramm von 2.
  • Zu Schritt ST6 von 2 zurückkehrend, bestimmt die Akustikmodell-Schalteinheit 4 das für den Benutzer geeignete Akustikmodell, der die Originalsprache geäußert hat, aus den Akustikmodellen 3-1 bis 3-x auf Grundlage der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale des ersten bis y-ten Musters, die in Verknüpfung mit den Akustikmodellen 3-1 bis 3-x gespeichert sind (Schritt ST6).
  • Die Spracherkennungseinheit 5 verwendet das durch die Akustikmodell-Schalteinheit 4 bestimmte Akustikmodell in dem anschließenden Spracherkennungsprozess.
  • Hier wird das Detail des Prozessschrittes im Schritt ST6 durch Verwendung eines Beispiels der in 5 gezeigten Erkennungsbewertungszahl beschrieben werden. In 5 wird angenommen, dass eine Wahrscheinlichkeit zwischen den Zeitreihendaten über das Akustikmerkmal und dem Akustikmodell höher ist, wenn/wie der Wert der Erkennungsbewertungszahl höher ist.
  • Die Akustikmodell-Schalteinheit 4 bestimmt einen Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis y-ten Muster für jedes der Akustikmodelle 3-1 bis 3-x und bestimmt das Akustikmodell mit dem größten Mittelwert.
  • Genauer genommen ist in dem Fall, wo die Erkennungsbewertungszahlen, wenn der Spracherkennungsprozess des verarbeiteten Sprachsignals ausgeführt wird durch Verwendung der Akustikmodelle 3-1 bis 3-x für die ersten bis x-ten Sprachen, die in 5 Gezeigten sind, der Mittelwert der Erkennungsbewertungszahlen "400", "430" und "400" der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-1 für die erste Sprache verknüpft sind, "410". Der Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-2 für die zweite Sprache verknüpft sind, ist "390", und der Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-3 für die dritte Sprache verknüpft sind, ist "380". Deshalb bestimmt die Akustikmodell-Schalteinheit 4 das Akustikmodell 3-1 für die erste Sprache mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell.
  • Alternativ bestimmt die Akustikmodell-Schalteinheit 4, ob oder ob nicht die Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis y-ten Muster geringer als ein vorbestimmter Schwellenwert (oder mehr als der Schwellenwert) für jedes der Akustikmodelle 3-1 bis 3-x sind, berechnet die Anzahl der Erkennungsbewertungszahlen, die nicht geringer als der Schwellenwert (oder mehr als der Schwellenwert) sind, und verwendet die Anzahl davon als einen Evaluationswert. Dann bestimmt die Schalteinheit das Akustikmodell mit dem größten Evaluationswert.
  • In dem Fall der in 5 gezeigten Erkennungsbewertungszahlen ist genauer genommen, wenn angenommen wird, dass der Schwellenwert "400" ist, der Evaluationswert des Akustikmodells 3-1 für die erste Sprache "3", ist der Evaluationswert des Akustikmodells 3-2 für die zweite Sprache "1", und ist der Evaluationswert des Akustikmodells 3-3 für die dritte Sprache "0". Deshalb bestimmt die Akustikmodell-Schalteinheit 4 das Akustikmodell 3-1 für die erste Sprache mit dem größten Evaluationswert als das für den Benutzer geeignete Akustikmodell.
  • Von dem Obigen ist gemäß Ausführungsform 1 die Spracherkennungsvorrichtung konfiguriert zum Enthalten von: der Sprachakquisitionseinheit 1, die die Sprache akquiriert und die Sprache als das Originalsprachsignal ausgibt; der Sprachdaten-Verarbeitungseinheit 7, die das Originalsprachsignal verarbeitet, um das verarbeitete Sprachsignal zu erzeugen; der Akustikanalyseeinheit 2, die das Originalsprachsignal und das verarbeitete Sprachsignal analysiert, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen; der Vielzahl von Akustikmodellen 3-1 bis 3-x, entsprechend der Vielzahl von Sprachen, die jeweils als ein Erkennungsziel dienen; der Spracherkennungseinheit 5, die die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in die Sprachbezeichnungsketten (beispielsweise Phonembezeichnungsketten) der individuellen Sprachen umwandelt durch Verwenden der Akustikmodelle 3-1 bis 3-x für die individuellen Sprachen, um die Bestimmungswörterbücher 9-1 bis 9-x für die individuellen Sprachen zu erzeugen, und den Erkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durchführt durch Verwendung der Akustikmodelle 3-1 bis 3-x und der Bestimmungswörterbücher 9-1 bis 9-x für die individuellen Sprachen, um die Erkennungsbewertungszahl für jede der Sprachen zu berechnen; und der Akustikmodell-Schalteinheit 4, die ein Akustikmodell aus der Vielzahl von Akustikmodellen 3-1 bis 3-x auf Grundlage der Erkennungsbewertungszahl für jede Sprache bestimmt, die durch die Spracherkennungseinheit 5 berechnet worden ist. Demgemäß wird es möglich, das Akustikmodell durch Verwenden der von dem Benutzer frei geäußerten Sprache zu bestimmen, so dass es nicht erforderlich ist für den Benutzer, spezielle Operationen, so wie eine Registrierung und eine Äußerung eines Wortes, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren. Mittels Durchführen einer Verarbeitung, so wie einer Überlagerung des Umgebungsstörgeräuschs auf das Originalsprachsignal, ist es außerdem möglich, das Akustikmodell unter Berücksichtigung des Umgebungsstörgeräuschs oder dergleichen zu bestimmen, und ein Schalten zu einem unpassenden Akustikmodell zu verhindern.
  • Außerdem ist gemäß Ausführungsform 1 sie derart ausgestaltet, dass die Sprachdaten-Verarbeitungseinheit 7 die verarbeiteten Sprachsignale der Vielzahl von Mustern aus einem Originalsprachsignal erzeugt, und dass die Akustikmodell-Schalteinheit 4 den Mittelwert der Vielzahl von Erkennungsbewertungszahlen entsprechend den verarbeiteten Sprachsignalen der Vielzahl von Mustern für jede der Sprachen berechnet, und das Akustikmodell für die Sprache mit dem größten Mittelwert bestimmt.
  • Alternativ kann sie derart ausgestaltet sein, dass die Sprachdaten-Verarbeitungseinheit 7 die verarbeiteten Sprachsignale der Vielzahl von Mustern aus einem Originalsprachsignal erzeugt, und dass die Akustikmodell-Schalteinheit 4 die Vielzahl von Erkennungsbewertungszahlen entsprechend den verarbeiteten Sprachsignalen der Vielzahl von Mustern mit dem Schwellenwert für jede der Sprachen vergleicht und das Akustikmodell für die Sprache mit der größten Anzahl von Erkennungsbewertungszahlen, die nicht geringer als der Schwellenwert sind (d.h. der größte Evaluationswert), bestimmt.
  • Dadurch wird es möglich, das Akustikmodell zu bestimmen, das geeigneter für den Benutzer ist.
  • Man beachte, dass die Akustikmodell-Schalteinheit 4 in Ausführungsform 1 ein Originalsprachsignal empfängt und einen Mittelwert (oder Evaluationswert) der Erkennungsbewertungszahlen für jedes der Akustikmodelle 3-1 bis 3-x bestimmt, aber sie nicht darauf beschränkt ist. Beispielsweise kann die Akustikmodell-Schalteinheit 4 eine Vielzahl der Originalsprachsignale empfangen, die Prozessschritte in Schritten ST4 und ST5 von 2 mehrfach durchführen, eine Vielzahl der Mittelwerte (oder Evaluationswerte) der Erkennungsbewertungszahlen für ein Akustikmodell bestimmen, den Mittelwert der Vielzahl von Mittelwerten (oder den Mittelwert der Vielzahl von Evaluationswerten) berechnen und das Akustikmodell mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell bestimmen.
  • Ferner kann die Akustikmodell-Schalteinheit 4 konfiguriert sein zum Speichern des Mittelwertes (oder Evaluationswertes) der Erkennungsbewertungszahlen der Akustikmodelle 3-1 bis 3-x, die in der Vergangenheit berechnet werden, und wenn die Äußerung des Benutzers neu durchgeführt wird, zum Berechnen des Mittelwertes (oder Evaluationswertes) der vergangenen Erkennungsbewertungszahlen und des Mittelwertes (oder Evaluationswertes) der Erkennungsbewertungszahlen, die aus dem Originalsprachsignal der aktuellen Äußerung des Benutzers berechnet worden sind, um somit das Akustikmodell mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell zu bestimmen.
  • Außerdem kann in dem Fall, wo der Mittelwert der vergangenen und aktuellen Mittelwerte (oder Evaluationswerte) der Erkennungsbewertungszahlen berechnet wird, die Akustikmodell-Schalteinheit 4 den Mittelwert (oder Evaluationswert) der Erkennungsbewertungszahlen gewichten. Beispielsweise wird der Gewichtungswert des Mittelwertes (oder Evaluationswertes) der neuen Erkennungsbewertungszahlen gesetzt, größer als der des Mittelwertes (oder Evaluationswertes) der alten Erkennungsbewertungszahlen, die zu einer früheren Zeit berechnet worden sind, zu sein. Da die Stimme eines Menschen sich gemäß einem Alter oder dergleichen ändert, kann der Mittelwert (oder Evaluationswert) neuerer Erkennungsbewertungszahlen bei der Akustikmodellbestimmung wiedergegeben werden.
  • Dadurch ist es möglich, die aktuelle körperliche Bedingung des Benutzers und die aktuelle Situation des Umgebungsstörgeräuschs wiederzugeben, und daher ist es möglich, das Akustikmodell zu bestimmen, das geeigneter für den Benutzer ist.
  • Außerdem ist gemäß Ausführungsform 1 die Sprachdaten-Verarbeitungseinheit 7 ausgebildet zum Erzeugen des verarbeiteten Sprachsignals, in dem die Frequenz des Originalsprachsignals fixiert ist und die Lautstärke geändert ist, und somit ist es möglich, zu verhindern, dass das Merkmal einer Äußerung des Benutzers gelöscht wird, wenn das Originalsprachsignal verarbeitet wird. Folglich ist es möglich, zu verhindern, dass ein unpassendes Akustikmodell für den Benutzer bestimmt wird.
  • Ausführungsform 2
  • 6 ist ein Blockdiagramm, das eine Ausgestaltung einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt, und ist ein Beispiel, in dem die Spracherkennungsvorrichtung in eine Navigationsvorrichtung aufgenommen ist, die in einem mobilen Objekt, so wie einem Fahrzeug, montiert ist.
  • Die Navigationsvorrichtung, auf die die Spracherkennungsvorrichtung gemäß Ausführungsform 2 angewendet wird, enthält eine Navigationsoperation-Ausführungseinheit 10, ein Navigationssystemwörterbuch 11 und ein Sprachkennzeichnung-Benutzerwörterbuch 12. Die Navigationsoperation-Ausführungseinheit 10 erfasst die Position eines Fahrzeugs, in dem die Navigationsvorrichtung montiert ist, und zeigt die Position des Fahrzeugs auf einer Karte einer Anzeige an, die nicht gezeigt ist, und führt eine Routenführung von der Position des Fahrzeugs zu einem Bestimmungsort durch. In dem Navigationssystemwörterbuch 11 ist eine Phonembezeichnungskette eines Operationsbefehls gespeichert, der mit einer durch die Navigationsoperation-Ausführungseinheit 10 ausgeführten Funktion verknüpft ist.
  • Man beachte, dass in 6 dieselben oder ähnliche Komponenten wie diese von 1 mit denselben Bezugszeichen bezeichnet sind, und deren Beschreibung wird weggelassen werden.
  • Außerdem enthält die Navigationsvorrichtung, auf die die Spracherkennungsvorrichtung gemäß Ausführungsform 2 angewendet wird, eine Funktion zum Registrieren der von einem Benutzer, so wie einem Fahrer, geäußerten Sprache, als eine Sprachkennzeichnung (bzw. einen Sprachbefehl, Engl.: voice tag) in dem Sprachkennzeichnung-Benutzerwörterbuch 12 und zum Verwenden der Sprachkennzeichnung als ein Erkennungszielwort (hier im Nachfolgenden als eine Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache bezeichnet). Man beachte, dass die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache nicht auf die Sprachkennzeichnung beschränkt ist, und die Funktion kann zweckgemäß eine Funktion mit einem Prozess zum Speichern der von dem Fahrer geäußerten Sprache sein.
  • Ferner wird in Ausführungsform 2 die Sprache, wenn die Benutzerwörterbuch-Erzeugungsfunktion ausgeführt wird (beispielsweise Sprachkennzeichnung), bei der Akustikmodellbestimmung verwendet.
  • Hier wird die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache mittels Verwendung des Flussdiagramms von 2 beschrieben werden.
  • Es wird beispielsweise ein Fall betrachtet werden, wo ein Operationsbefehl zum Veranlassen der Navigationsoperation-Ausführungseinheit 10, die Routenführung von der Position des Fahrzeugs zu einem „nach Hause“ auszuführen, in dem Sprachkennzeichnung-Benutzerwörterbuch 12 als die Sprachkennzeichnung registriert wird. In diesem Fall, wenn der Benutzer „nach Hause“ zum Registrieren der Sprachkennzeichnung äußert, akquiriert die Sprachakquisitionseinheit 1 die Sprache als die Originalsprache (Schritt ST1) und speichert die Originalsprache in der Sprachdaten-Speichereinheit 6 (Schritt ST2).
  • Eine Sprachdaten-Verarbeitungseinheit 7a überlagert ein Störgeräusch in einem Fahrzeugabteil (beispielsweise ein Betriebsgeräusch gemäß der Geschwindigkeit des Fahrzeugs, ein Scheibenwischergeräusch, ein Blinkergeräusch usw.) zusätzlich zu den Änderungen der Lautstärke und der Geschwindigkeit, wenn die Sprachdaten-Verarbeitungseinheit 7a das Originalsprachsignal verarbeitet, um somit das verarbeitete Sprachsignal zu erzeugen (Schritt ST3).
  • Anschließend werden ähnlich zu Ausführungsform 1 die Prozessschritte in Schritten ST4, ST5 und ST6 durchgeführt, und die Akustikmodell-Schalteinheit 4 bestimmt das für den Benutzer geeignete Akustikmodell aus den Akustikmodellen 3-1 bis 3-x. Da die von dem Benutzer geäußerte Sprache zum Registrieren der Sprachkennzeichnung für die Akustikmodellbestimmung verwendet werden kann, ist es somit für den Benutzer nicht erforderlich, eine spezielle Operation für die Akustikmodellbestimmung durchzuführen.
  • Danach registriert eine Wörterbucherzeugungseinheit 8a die Phonembezeichnungskette, die dem Originalsprachsignal von „nach Hause“ entspricht, die durch eine Spracherkennungseinheit 5a erzeugt wird durch Verwendung des durch die Akustikmodell-Schalteinheit 4 bestimmten Akustikmodells, in dem Sprachkennzeichnung-Benutzerwörterbuch 12. Somit dient die Sprachkennzeichnung „nach Hause“ als das Erkennungszielwort.
  • In dem anschließenden üblichen Spracherkennungsprozess (wenn die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache nicht ausgeführt wird) in dem Fall, wo der Benutzer die Sprachkennzeichnung (beispielsweise „nach Hause“) geäußert hat, empfängt die Spracherkennungseinheit 5a die Zeitreihendaten über das Akustikmerkmal der Sprachkennzeichnung, ausgegeben durch die Akustikanalyseeinheit 2, führt den Spracherkennungsprozess aus durch Verwendung von irgendeinem der Akustikmodelle 3-1 bis 3-x, die durch die Akustikmodell-Schalteinheit 4 bestimmt worden sind, und des Sprachkennzeichnung-Benutzerwörterbuchs 12, und gibt ein Erkennungsergebnis an die Navigationsoperation-Ausführungseinheit 10 aus. Die Navigationsoperation-Ausführungseinheit 10 führt einen vorbestimmten Operationsbefehl aus, der in Verknüpfung mit der Sprachkennzeichnung des Erkennungsergebnisses registriert worden ist (beispielsweise eine Funktion zum Durchführen der Routenführung von der Position des Fahrzeugs zu dem „nach Hause“).
  • Außerdem empfängt beispielsweise in dem Fall, wo der Benutzer einen Navigationsoperationsbefehl (beispielsweise eine Funktion zum Ändern des Maßstabs der Karte) auch in dem üblichen Spracherkennungsprozess geäußert hat, die Spracherkennungseinheit 5a die Zeitreihendaten über das Akustikmerkmal der geäußerten Sprache und führt den Spracherkennungsprozess aus durch Verwendung irgendeines der Akustikmodelle 3-1 bis 3-x, die durch die Akustikmodell-Schalteinheit 4 bestimmt worden sind, und des Navigationssystemwörterbuchs 11. Die Navigationsoperation-Ausführungseinheit 10 führt die Funktion aus, die in Verknüpfung mit dem Erkennungsergebnis registriert worden ist, das von der Spracherkennungseinheit 5a ausgegeben worden ist.
  • Von dem Obigen ist gemäß Ausführungsform 2 die Spracherkennungsvorrichtung konfiguriert zum Enthalten der Wörterbucherzeugungseinheit 8a, die die von dem Benutzer geäußerte Sprache in dem Sprachkennzeichnung-Benutzerwörterbuch 12 als das Erkennungszielwort der Spracherkennungseinheit 5a registriert, und die Sprachakquisitionseinheit 1 akquiriert die Sprache (beispielsweise Sprachkennzeichnung), die von dem Benutzer geäußert worden ist zum Registrieren der Sprache in dem Sprachkennzeichnung-Benutzerwörterbuch 12, und somit ist es für den Benutzer nicht erforderlich, spezielle Operationen, so wie die Registrierung des Wortes und die Äußerung, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren.
  • Außerdem ist gemäß Ausführungsform 2 sie derart ausgestaltet, dass die Sprachakquisitionseinheit 1 die von einem Fahrzeuginsassen geäußerte Sprache akquiriert, und dass die Sprachdaten-Verarbeitungseinheit 7 das verarbeitete Sprachsignal erzeugt, in dem das Störgeräusch des Fahrzeugs auf das Originalsprachsignal überlagert ist, und somit ist es möglich, das passende Akustikmodell unter Berücksichtigung des Störgeräuschs des Fahrzeugs oder dergleichen zu bestimmen. Folglich ist es möglich, die Spracherkennungsvorrichtung zu realisieren, die zur Verwendung in der Im-Fahrzeug-Navigationsvorrichtung oder dergleichen geeignet ist.
  • Man beachte, dass in Ausführungsform 2 die Beschreibung getätigt worden ist, indem der Fall als ein Beispiel genommen wird, wo die Spracherkennungsvorrichtung auf die in dem Fahrzeug montierte Navigationsvorrichtung angewendet wird, aber die Spracherkennungsvorrichtung kann auf die Navigationsvorrichtung für ein mobiles Objekt anders als das Fahrzeug angewendet werden, oder kann auch auf ein Endgerät oder einen Server eines Navigationssystems angewendet werden, welches aus dem in dem mobilen Objekt montierten Endgerät und dem Server besteht, der eine für die Navigation erforderliche Information dem Endgerät bereitstellt. Außerdem kann es auch ein Anwendungsprogramm sein, das in einem persönlichen digitalen Assistenten installiert ist, in dem Fall, wo der persönliche digitale Assistent, so wie ein Smartphone, ein Tablet-PC (Personalcomputer) oder ein Mobiltelefon, als das Endgerät der Navigationsvorrichtung oder das Navigationssystem verwendet wird.
  • In dem Fall, wo die Spracherkennungsvorrichtung von Ausführungsform 2 auf das Navigationssystem angewendet wird, das aus dem in dem mobilen Objekt montierten Endgerät und dem Server besteht, kann das Endgerät wenigstens die Sprachakquisitionseinheit 1 enthalten, und der Server kann die anderen Komponenten enthalten, und das Originalsprachsignal oder dergleichen kann zweckgemäß von dem Endgerät an den Server durch eine Drahtloskommunikation übertragen werden.
  • Ferner wird in Ausführungsform 2 die Spracherkennungsvorrichtung auf die Navigationsvorrichtung angewendet, aber sie kann auch auf ein Rundfunkgerät, eine Freisprechvorrichtung oder dergleichen angewendet werden. In diesem Fall wird als die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache ein Radiosendername entsprechend der Frequenz eines Radios in der Form der Sprache (beispielsweise Sprachkennzeichnung) registriert, oder der Name einer Person oder der Name eines Platzes entsprechend einer Telefonnummer wird in der Form der Sprache (beispielsweise Sprachkennzeichnung) registriert.
  • In Ausführungsformen 1 und 2 wird es beschrieben, dass das Akustikmodell und das Bestimmungswörterbuch für jede Sprache vorbereitet sind, aber die Einheit einer Vorbereitung des Akustikmodells und des Bestimmungswörterbuchs ist nicht auf die Sprache beschränkt. Beispielsweise können das Akustikmodell und das Bestimmungswörterbuch separat gemäß einem Unterschied in dem Akzent eines Dialekts zwischen Regionen vorbereitet sein.
  • Es sollte verstanden werden, dass eine freie Kombination der individuellen Ausführungsformen, Variationen irgendwelcher Komponenten der individuellen Ausführungsformen oder ein Entfernen irgendwelcher Komponenten der individuellen Ausführungsformen innerhalb des Schutzbereichs der Erfindung möglich sind.
  • GEWERBLICHE ANWENDBARKEIT
  • Wie oben beschrieben ist in der Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung, da das Akustikmodell automatisch auf Grundlage der von dem Benutzer geäußerten Sprache geschaltet wird, die Spracherkennungsvorrichtung zur Verwendung als die in einem Fahrzeug oder dergleichen montierte Spracherkennungsvorrichtung geeignet.
  • Bezugszeichenliste
  • 1
    Sprachakquisitionseinheit
    2
    Akustikanalyseeinheit
    3-1 bis 3-x
    Akustikmodell
    4
    Akustikmodell-Schalteinheit
    5, 5a
    Spracherkennungseinheit
    6
    Sprachdaten-Speichereinheit
    7, 7a
    Sprachdaten-Verarbeitungseinheit
    8, 8a
    Wörterbucherzeugungseinheit
    9-1 bis 9-x
    Bestimmungswörterbuch
    10
    Navigationsoperation-Ausführungseinheit
    11
    Navigationssystemwörterbuch
    12
    Sprachkennzeichnung-Benutzerwörterbuch

Claims (10)

  1. Spracherkennungsvorrichtung mit: einem Sprachakquirierer, der eine Sprache akquiriert, um die Sprache als ein Originalsprachsignal auszugeben; einem Sprachdatenprozessor, der das Originalsprachsignal verarbeitet, um ein verarbeitetes Sprachsignal zu erzeugen; einem Akustikanalysierer, der das Originalsprachsignal und das verarbeitete Sprachsignal analysiert, um Zeitreihendaten über ein Akustikmerkmal zu erzeugen; einer Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen; einem Spracherkenner, der die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache umwandelt durch Verwenden des Akustikmodells für jede Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen, und der einen Erkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache durchführt, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und einem Akustikmodellschalter, der ein Akustikmodell aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache bestimmt, die durch den Spracherkenner berechnet worden ist.
  2. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei der Sprachdatenprozessor eine Vielzahl der verarbeiteten Sprachsignale für ein Originalsprachsignal erzeugt, und der Akustikmodellschalter einen Mittelwert einer Vielzahl der Erkennungsbewertungszahlen, der Vielzahl der verarbeiteten Sprachsignale entsprechend, für jede Sprache berechnet und das Akustikmodell für die Sprache mit dem größten Mittelwert bestimmt.
  3. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei der Sprachdatenprozessor eine Vielzahl der verarbeiteten Sprachsignale für ein Originalsprachsignal erzeugt, und der Akustikmodellschalter für jede Sprache eine Vielzahl der Erkennungsbewertungszahlen, der Vielzahl der verarbeiteten Sprachsignale entsprechend, mit einem Schwellenwert vergleicht und das Akustikmodell für die Sprache mit der größten Anzahl der Erkennungsbewertungszahlen bestimmt, die nicht geringer als der Schwellenwert sind.
  4. Spracherkennungsvorrichtung gemäß Anspruch 2, wobei der Akustikmodellschalter für jede Sprache die Erkennungsbewertungszahl gemäß einer Zeit gewichtet, wenn der Sprachakquirierer das Originalsprachsignal akquiriert.
  5. Spracherkennungsvorrichtung gemäß Anspruch 3, wobei der Akustikmodelschalter die Erkennungsbewertungszahl gemäß einer Zeit gewichtet, wenn der Sprachakquirierer das Originalsprachsignal akquiriert.
  6. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei der Sprachdatenprozessor das verarbeitete Sprachsignal erzeugt, in dem ein Umgebungsgeräusch auf das Originalsprachsignal überlagert ist.
  7. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei der Sprachdatenprozessor das verarbeitete Sprachsignal erzeugt, in dem eine Frequenz des Originalsprachsignals fixiert ist, und eine Lautstärke geändert ist.
  8. Spracherkennungsvorrichtung gemäß Anspruch 1, mit ferner einem Wörterbuchgenerator, der eine von einem Benutzer geäußerte Sprache in einem Benutzerwörterbuch als ein Erkennungszielwort des Spracherkenners registriert, wobei der Sprachakquirierer die von dem Benutzer geäußerte Sprache akquiriert zum Registrieren der Sprache in dem Benutzerwörterbuch und die akquirierte Sprache als das Originalsprachsignal ausgibt.
  9. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei der Sprachakquirierer die von einem Fahrzeuginsassen geäußerte Sprache akquiriert, und der Sprachdatenprozessor das verarbeitete Sprachsignal erzeugt, in dem ein Störgeräusch des Fahrzeugs auf das Originalsprachsignal überlagert ist.
  10. Spracherkennungsverfahren mit: Verarbeiten eines Originalsprachsignals als eine Sprache in einer Form eines Digitalsignals, um ein verarbeitetes Sprachsignal zu erzeugen; Analysieren des Originalsprachsignals und des verarbeiteten Sprachsignals, um Zeitreihendaten über ein Akustikmerkmal zu erzeugen; durch Verwendung einer Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen, Umwandeln der Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen; Durchführen eines Erkennungsprozesses auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und Bestimmen eines Akustikmodells aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache.
DE112013007617.9T 2013-11-20 2013-11-20 Spracherkennungsvorrichtung und Spracherkennungsverfahren Active DE112013007617B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/081287 WO2015075789A1 (ja) 2013-11-20 2013-11-20 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
DE112013007617T5 true DE112013007617T5 (de) 2016-08-04
DE112013007617B4 DE112013007617B4 (de) 2020-06-18

Family

ID=53179097

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112013007617.9T Active DE112013007617B4 (de) 2013-11-20 2013-11-20 Spracherkennungsvorrichtung und Spracherkennungsverfahren

Country Status (5)

Country Link
US (1) US9711136B2 (de)
JP (1) JP6080978B2 (de)
CN (1) CN105793920B (de)
DE (1) DE112013007617B4 (de)
WO (1) WO2015075789A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10403268B2 (en) 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
WO2018173295A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 ユーザインタフェース装置及び方法、並びに音操作システム
JP6920153B2 (ja) * 2017-09-27 2021-08-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN110118563A (zh) * 2018-02-05 2019-08-13 上海博泰悦臻电子设备制造有限公司 导航终端及其导航地图数据更新方法、及无人驾驶车辆
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
JP2020056972A (ja) * 2018-10-04 2020-04-09 富士通株式会社 言語識別プログラム、言語識別方法及び言語識別装置
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11373657B2 (en) * 2020-05-01 2022-06-28 Raytheon Applied Signal Technology, Inc. System and method for speaker identification in audio data
US11315545B2 (en) * 2020-07-09 2022-04-26 Raytheon Applied Signal Technology, Inc. System and method for language identification in audio data
US12020697B2 (en) 2020-07-15 2024-06-25 Raytheon Applied Signal Technology, Inc. Systems and methods for fast filtering of audio keyword search
US20220148600A1 (en) * 2020-11-11 2022-05-12 Rovi Guides, Inc. Systems and methods for detecting a mimicked voice input signal
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JPH0673800U (ja) 1993-03-30 1994-10-18 富士通テン株式会社 音声認識装置
JP3531198B2 (ja) * 1994-02-18 2004-05-24 松下電器産業株式会社 言語識別装置
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US20030191639A1 (en) * 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
JP4333838B2 (ja) * 2003-07-04 2009-09-16 マイクロジェニックス株式会社 複数言語音声認識プログラム及び複数言語音声認識システム
JP2005241833A (ja) 2004-02-25 2005-09-08 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
EP1769489B1 (de) * 2004-07-22 2009-09-09 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
ATE385024T1 (de) 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
JP5119055B2 (ja) * 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
EP2192575B1 (de) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Spracherkennung auf Grundlage eines mehrsprachigen akustischen Modells
CN102239517B (zh) * 2009-01-28 2013-05-08 三菱电机株式会社 声音识别装置
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE112010005226T5 (de) * 2010-02-05 2012-11-08 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
WO2012064765A1 (en) * 2010-11-08 2012-05-18 Google Inc. Generating acoustic models
US9129591B2 (en) 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
EP2736042A1 (de) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Vorrichtung und Verfahren zur Erstellung eines mehrsprachigen akustischen Modells und computerlesbares Aufzeichnungsmedium für Speicherprogramm zur Ausführung des Verfahrens
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置

Also Published As

Publication number Publication date
US20160240188A1 (en) 2016-08-18
JP6080978B2 (ja) 2017-02-15
CN105793920B (zh) 2017-08-08
WO2015075789A1 (ja) 2015-05-28
CN105793920A (zh) 2016-07-20
JPWO2015075789A1 (ja) 2017-03-16
DE112013007617B4 (de) 2020-06-18
US9711136B2 (en) 2017-07-18

Similar Documents

Publication Publication Date Title
DE112013007617B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE112017004374B4 (de) System und Verfahren zur Spracherkennung
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE112017004397T5 (de) System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE60110315T2 (de) Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
DE69705830T2 (de) Sprachverarbeitung
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69616568T2 (de) Mustererkennung
US20020173962A1 (en) Method for generating pesonalized speech from text
CN105632501A (zh) 一种基于深度学习技术的自动口音分类方法及装置
US11443759B2 (en) Information processing apparatus, information processing method, and storage medium
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
CN112233651A (zh) 方言类型的确定方法、装置、设备及存储介质
Shekofteh et al. Autoregressive modeling of speech trajectory transformed to the reconstructed phase space for ASR purposes
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
JP5083951B2 (ja) 音声処理装置およびプログラム
DE60037486T2 (de) Vorrichtung und Verfahren zur Mustererkennung und Bereitstellungsmedium
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final