-
TECHNISCHES GEBIET
-
Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren, die eine von einem Benutzer geäußerte Sprache erkennen.
-
HINTERGRUNDTECHNIK
-
Eine Spracherkennungsvorrichtung der letzten Jahre ist zum Erkennen einer Vielzahl von Sprachen fähig. In solch einer Spracherkennungsvorrichtung ist es erforderlich, einen Erkennungsprozess durch Verwendung eines Akustikmodells durchzuführen, das für eine von einem Benutzer verwendete Sprache geeignet ist, so dass eine Erkennungsrate erhöht wird. Selbst in dem beispielhaften Fall von Englisch ist eine Aussprache von Englisch durch einen Benutzer, dessen Muttersprache Deutsch ist, unterschiedlich von dieser durch einen Benutzer, dessen Muttersprache Französisch ist, und daher ist es erforderlich, das für einen jeweiligen Benutzer geeignete Akustikmodell zu verwenden.
-
Ein Beispiel eines konventionellen Schaltverfahrens einer Vielzahl von Sprachen enthält ein Verwendungssprache-Schaltverfahren einer Elektronisches-Wörterbuch-Vorrichtung gemäß Patentdokument 1. Die Elektronisches-Wörterbuch-Vorrichtung enthält eine Registrierungseinheit, die ein Wort für jede Sprache registriert, eine Bestimmungseinheit, die bestimmt, ob oder ob nicht eine von einem Benutzer geäußerte Sprache mit dem in der Registrierungseinheit registrierten Wort übereinstimmt, und eine Schalteinheit, die zu einem Wörterbuch für eine Sprache schaltet, welche(s) dem Wort entspricht, mit dem die Sprache übereingestimmt hat. Es ist für den Benutzer erforderlich gewesen, das einer jeweiligen Sprache entsprechende Wort in der Registrierungseinheit im Voraus zu registrieren, und zu der Zeit des Schaltens zu dem Wörterbuch für eine Sprache, die der Benutzer verwenden möchte, das der Sprache entsprechende Wort zu äußern.
-
ZITIERUNGSLISTE
-
PATENTDOKUMENT
-
- Patentdokument 1: Veröffentlichung der japanischen Patentanmeldung Nr. 2001-282788
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
-
In der oben beschriebenen Spracherkennungsvorrichtung muss der Benutzer, wenn das Verfahren wie beispielsweise in Patentdokument 1 verwendet wird, um zu dem Akustikmodell zu schalten, das für die durch den Benutzer verwendete Sprache geeignet ist, das Wort registrieren und äußern, so dass es ein Problem gegeben hat, dass solche Operationen für den Benutzer lästig sind.
-
Die vorliegende Erfindung ist gemacht worden, um das obige Problem zu lösen, und es ist eine Aufgabe davon, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren bereitzustellen, die automatisch zu einem passenden Akustikmodell schalten, ohne von einem Benutzer zu erfordern, spezielle Operationen, so wie eine Registrierung und Äußerung eines Wortes, durchzuführen.
-
MITTEL ZUM LÖSEN DER PROBLEME
-
Eine Spracherkennungsvorrichtung der vorliegenden Erfindung enthält: einen Sprachakquirierer, der eine Sprache akquiriert, um die Sprache als ein Originalsprachsignal auszugeben; einen Sprachdatenprozessor, der das Originalsprachsignal verarbeitet, um ein verarbeitetes Sprachsignal zu erzeugen; einen Akustikanalysierer, der das Originalsprachsignal und das verarbeitete Sprachsignal analysiert, um Zeitreihendaten über ein Akustikmerkmal (Engl.: acoustic feature) zu erzeugen; eine Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen; einen Spracherkenner, der die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache umwandelt durch Verwenden des Akustikmodells für jede Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen, und der einen Erkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache durchführt, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und einen Akustikmodellschalter, der ein Akustikmodell aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache bestimmt, die durch den Spracherkenner berechnet worden ist.
-
Ein Spracherkennungsverfahren der Erfindung enthält: Verarbeiten eines Originalsprachsignals als eine Sprache in einer Form eines Digitalsignals, um ein verarbeitetes Sprachsignal zu erzeugen; Analysieren des Originalsprachsignals und des verarbeiteten Sprachsignals, um Zeitreihendaten über ein Akustikmerkmal zu erzeugen; durch Verwendung einer Vielzahl von Akustikmodellen, die einer Vielzahl von Sprachen entspricht, die jeweils als ein Erkennungsziel dienen, Umwandeln der Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in eine Sprachbezeichnungskette jeder Sprache, um ein Bestimmungswörterbuch für jede Sprache zu erzeugen; Durchführen eines Erkennungsprozesses auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durch Verwendung des Akustikmodells und des Bestimmungswörterbuchs für jede Sprache, um eine Erkennungsbewertungszahl für jede Sprache zu berechnen; und Bestimmen eines Akustikmodells aus der Vielzahl der Akustikmodelle auf Grundlage der Erkennungsbewertungszahl für jede Sprache.
-
WIRKUNG DER ERFINDUNG
-
Gemäß der vorliegenden Erfindung wird das Akustikmodell durch Verwendung der von einem Benutzer frei geäußerten Sprache bestimmt, und somit ist es für den Benutzer nicht erforderlich, spezielle Operationen, so wie eine Registrierung und Äußerung eines Wortes, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren. Durch Durchführen einer Verarbeitung, so wie einer Überlagerung eines Umgebungsstörgeräuschs auf das Originalsprachsignal, ist es außerdem möglich, das Akustikmodell unter Berücksichtigung des Umgebungsstörgeräuschs oder dergleichen zu bestimmen und ein Schalten zu einem unpassenden Akustikmodell zu vermeiden.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Blockdiagramm, das ein Grundkonzept einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
-
2 ist ein Flussdiagramm, das einen Prozess zum Bestimmen eines für einen Benutzer geeigneten Akustikmodells in der Spracherkennungsvorrichtung gemäß Ausführungsform 1 zeigt.
-
3 ist ein Flussdiagramm, das das Detail eines Prozessschrittes im Schritt ST4 von 2 zeigt.
-
4 ist ein Flussdiagramm, das das Detail eines Prozessschrittes im Schritt ST5 von 2 zeigt.
-
5 ist eine Tabelle, die ein Beispiel einer Erkennungsbewertungszahl zeigt, die durch den Prozessschritt im Schritt ST5 von 2 bestimmt worden ist.
-
6 ist ein Blockdiagramm, das ein Beispiel einer Ausgestaltung einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der Erfindung zeigt.
-
MODI ZUM AUSFÜHREN DER ERFINDUNG
-
Um die vorliegende Erfindung in größerem Detail zu beschreiben, wird hier untenstehend der beste Modus zum Ausführen der Erfindung gemäß den begleitenden Zeichnungen beschrieben werden.
-
Ausführungsform 1
-
1 ist ein Blockdiagramm, das ein Grundkonzept einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung enthält eine Sprachakquisitionseinheit 1, eine Akustikanalyseeinheit 2, Akustikmodelle 3-1 bis 3-x (x ist irgendeine Zahl), die für individuelle Sprachen vorbereitet sind, eine Akustikmodell-Schalteinheit 4, eine Spracherkennungseinheit 5, eine Sprachdaten-Speichereinheit 6, eine Sprachdaten-Verarbeitungseinheit 7, eine Wörterbucherzeugungseinheit 8 und Bestimmungswörterbücher 9-1 bis 9-x, die für individuelle Sprachen erzeugt worden sind.
-
Die Sprachakquisitionseinheit 1 führt eine A/D-(Analog/Digital) Umwandlung auf einer von einem Benutzer geäußerten Sprache (hier im Nachfolgenden als eine Originalsprache bezeichnet) durch, die von einem Mikrofon eingegeben wird, das nicht gezeigt ist, durch beispielsweise PCM (Pulscodemodulation), um die Sprache in ein Digitalsignal umzuwandeln.
-
Man beachte, dass in der folgenden Beschreibung ein Sprachsignal, das durch Umwandeln der Originalsprache in das Digitalsignal erhalten worden ist, als ein Originalsprachsignal bezeichnet wird.
-
Die Sprachdaten-Speichereinheit 6 speichert das durch die Sprachakquisitionseinheit 1 ausgegebene Originalsprachsignal.
-
Die Sprachdaten-Verarbeitungseinheit 7 akquiriert das Originalsprachsignal von der Sprachdaten-Speichereinheit 6 und verarbeitet das Originalsprachsignal, um Sprachsignale von einem oder mehr Mustern neu zu erzeugen.
-
Man beachte, dass in der folgenden Beschreibung solch ein Sprachsignal, das verarbeitet wird, als ein verarbeitetes Sprachsignal bezeichnet wird.
-
Ein Beispiel des Verarbeitungsverfahrens enthält eine Überlagerung eines Umgebungsstörgeräuschs, das in einer Umgebung erwartet wird, wo die Spracherkennungsvorrichtung verwendet wird, Änderung einer Lautstärke, Änderung einer Geschwindigkeit oder eine Kombination davon, und das Verarbeitungsverfahren kann irgendein Verfahren sein, solange wie das Verfahren nicht Merkmale einer Äußerung eines Benutzers löscht. Andererseits werden eine Überlagerung einer Sprache, in der eine Stimme einer Person gemischt wird, und eine Änderung einer Frequenz verhindert.
-
Die Akustikanalyseeinheit 2 analysiert das Originalsprachsignal, das in das Digitalsignal durch die Sprachakquisitionseinheit 1 umgewandelt worden ist, und das durch die Sprachdaten-Verarbeitungseinheit 7 erzeugte verarbeitete Sprachsignal und wandelt sie in Zeitreihendaten über ein Akustikmerkmal um.
-
Die Akustikanalyseeinheit 2 analysiert beispielsweise das Sprachsignal bei konstanten Zeitintervallen und gibt die Zeitreihendaten über das Akustikmerkmal aus, welche das Merkmal der Sprache repräsentieren (Akustikmerkmalausmaßvektor).
-
Die Akustikmodelle 3-1 bis 3-x sind Standardakustikmerkmale, die Sprachbezeichnungen (beispielsweise Phonembezeichnungen) der ersten bis x-ten Sprache entsprechen, und die Akustikmerkmale sind beispielsweise durch ein HMM (Hidden Markov Model) oder dergleichen modelliert.
-
Beispielsweise wird Englisch, das von einem Benutzer geäußert worden ist, dessen Muttersprache Englisch ist, als die erste Sprache gesetzt, und das Akustikmodell 3-1 und das Bestimmungswörterbuch 9-1, das später beschrieben ist, sind für die erste Sprache vorbereitet. Andererseits wird Englisch, das von einem Benutzer geäußert wird, dessen Muttersprache Deutsch ist, als die zweite Sprache gesetzt, und das Akustikmodell 3-2 und das Bestimmungswörterbuch 9-2, später beschrieben, sind für die zweite Sprache vorbereitet.
-
Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, empfängt die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, prüft die Zeitreihendaten mit jedem der Akustikmodelle 3-1 bis 3-x, um eine entsprechende Sprachbezeichnungskette (beispielsweise eine Phonembezeichnungskette) zu bestimmen, und gibt die Sprachbezeichnungskette aus.
-
Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, empfängt außerdem die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, führt einen Spracherkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal durch Verwendung der Akustikmodelle 3-1 bis 3-x und der Bestimmungswörterbücher 9-1 bis 9-x aus und gibt eine Erkennungsbewertungszahl als ein Erkennungsergebnis aus.
-
Andererseits empfängt in einem üblichen Spracherkennungsprozess die Spracherkennungseinheit 5 die durch die Akustikanalyseeinheit 2 ausgegebenen Zeitreihendaten über das Akustikmerkmal, führt den Spracherkennungsprozess durch Verwendung irgendeines der Akustikmodelle 3-1 bis 3-x durch, das durch die Akustikmodell-Schalteinheit 4 bestimmt worden ist, und gibt das Erkennungsergebnis aus.
-
Wenn das für den Benutzer geeignete Akustikmodell bestimmt ist/wird, speichert die Wörterbucherzeugungseinheit 8 die durch die Spracherkennungseinheit 5 ausgegebene Phonembezeichnungskette in einem der Bestimmungswörterbücher 9-1 bis 9-x für die entsprechende Sprache.
-
In dem beispielhaften Fall, wo die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal mit dem Akustikmodell 3-1 für die erste Sprache prüft und die entsprechende Phonembezeichnungskette ausgibt, speichert die Wörterbucherzeugungseinheit 8 die Phonembezeichnungskette in dem Bestimmungswörterbuch 9-1 für die erste Sprache.
-
Wenn die Spracherkennungseinheit 5 die Funktion der Wörterbucherzeugungseinheit 8 hat, kann außerdem die Spracherkennungseinheit 5 ausgebildet sein zum Erzeugen der Bestimmungswörterbücher 9-1 bis 9-x.
-
Die Akustikmodell-Schalteinheit 4 bestimmt das für den Benutzer geeignete Modell, welcher die Originalsprache geäußert hat, aus den Akustikmodellen 3-1 bis 3-x auf Grundlage des Erkennungsergebnisses (Erkennungsbewertungszahl) des verarbeiteten Sprachsignals, das dem Spracherkennungsprozess durch die Spracherkennungseinheit 5 unterzogen worden ist, und benachrichtigt die Spracherkennungseinheit 5 über das bestimmte Akustikmodell.
-
Ein Prozess zum Bestimmen des Akustikmodells durch die Akustikmodell-Schalteinheit 4 wird später beschrieben werden.
-
Man beachte, dass die Sprachdaten-Speichereinheit 6, die Akustikmodelle 3-1 bis 3-x und die Bestimmungswörterbücher 9-1 bis 9-x in einem gemeinsamen Speicherelement, einer Speichervorrichtung oder dergleichen gespeichert sein können und auch in Speicherelementen, Speichervorrichtungen oder dergleichen gespeichert sein können, die voneinander unabhängig sind.
-
Außerdem kann die Spracherkennungsvorrichtung konfiguriert sein, einen Speicher, in dem ein Programm gespeichert ist, und eine CPU (Central Processing Unit) zu haben, die das Programm ausführt, und Funktionen der Sprachakquisitionseinheit 1, der Akustikanalyseeinheit 2, der Akustikmodell-Schalteinheit 4, der Spracherkennungseinheit 5, der Sprachdaten-Verarbeitungseinheit 7 und der Wörterbucherzeugungseinheit 8 können mit Verwendung von Software durch Ausführung des Programms durch die CPU realisiert sein, oder ein Teil davon kann mit Hardware ersetzt sein.
-
Außerdem ist die Spracherkennungsvorrichtung konfiguriert zum Durchführen des Spracherkennungsprozesses durch eine Phonemeinheit, aber sie kann auch konfiguriert sein zum Durchführen des Spracherkennungsprozesses durch eine andere Einheit als das Phonem.
-
Als Nächstes wird der Prozess der Spracherkennungsvorrichtung gemäß Ausführungsform 1 mit Verwendung von in 2 bis 4 gezeigten Flussdiagrammen beschrieben werden.
-
2 ist ein Flussdiagramm, das den Prozess zum Bestimmen des für den Benutzer geeigneten Akustikmodells zeigt.
-
Zuerst akquiriert die Sprachakquisitionseinheit 1 die von dem Benutzer frei geäußerte Sprache als die Originalsprache via ein Mikrofon, führt die A/D-Umwandlung auf der Originalsprache beispielsweise durch PCM durch, um die Originalsprache in das Originalsprachsignal umzuwandeln (Schritt ST1), und speichert das Originalsprachsignal in der Sprachdaten-Speichereinheit 6 (Schritt ST2).
-
Anschließend akquiriert die Sprachdaten-Verarbeitungseinheit 7 das Originalsprachsignal von der Sprachdaten-Speichereinheit 6, verarbeitet das Originalsprachsignal und erzeugt die verarbeiteten Sprachsignale von einem oder mehr Mustern neu (Schritt ST3).
-
Danach analysiert die Akustikanalyseeinheit 2 das Originalsprachsignal, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen, die Spracherkennungseinheit 5 prüft die Zeitreihendaten über das Akustikmerkmal mit jedem der Akustikmodelle 3-1 bis 3-x, um die entsprechende Phonembezeichnungskette zu bestimmen, und die Wörterbucherzeugungseinheit 8 speichert die Phonembezeichnungskette in einem der Bestimmungswörterbücher 9-1 bis 9-x für die entsprechende Sprache (Schritt ST4).
-
Hier wird das Detail des Prozessschrittes im Schritt ST4 durch Verwendung eines in 3 gezeigten Flussdiagramms beschrieben werden.
-
Zuerst analysiert die Akustikanalyseeinheit 2 das Originalsprachsignal und wandelt das Originalsprachsignal in die Zeitreihendaten über das Akustikmerkmal um (Schritt ST11).
-
Anschließend initialisiert die Akustikmodell-Schalteinheit 4 einen Zähler n zum Zählen der Akustikmodelle 3-1 bis 3-x (Schritt ST12). Dann, in dem Fall, wo der Zähler n nicht mehr als die Anzahl von Akustikmodellen x ist (Schritt ST13 "JA"), gibt die Akustikmodell-Schalteinheit 4 eine Anweisung an die Spracherkennungseinheit 5 so aus, dass das Originalsprachsignal erkannt wird durch Verwendung eines Akustikmodells 3-n für die n-te Sprache (Schritt ST14).
-
Anschließend prüft die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals, die durch die Akustikanalyseeinheit 2 ausgegeben worden sind, mit dem Akustikmodell 3-n für die n-te Sprache, die durch die Akustikmodell-Schalteinheit 4 spezifiziert worden ist, und gibt die Phonembezeichnungskette der n-ten Sprache aus, die den Zeitreihendaten über das Akustikmerkmal entspricht (Schritt ST15).
-
Danach speichert die Wörterbucherzeugungseinheit 8 die Phonembezeichnungskette der n-ten Sprache, die durch die Spracherkennungseinheit 5 ausgegeben worden ist, in dem Bestimmungswörterbuch 9-n für die n-te Sprache (Schritt ST16). Anschließend inkrementiert die Akustikmodell-Schalteinheit 4 den Zähler n (Schritt ST17) und kehrt zu dem Prozessschritt in Schritt ST13 zurück.
-
Wenn die Prozessschritte in den Schritten ST13 bis ST17 wiederholt werden, und die Erzeugung der Phonembezeichnungsketten sämtlicher der Sprachen für das Originalsprachsignal beendet wird, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler n mehr als die Anzahl von Akustikmodellen x ist (Schritt ST13 "NEIN"), und schreitet zum Schritt ST5 in dem Flussdiagramm von 2.
-
Zu dem Schritt ST5 von 2 zurückkehrend, analysiert die Akustikanalyseeinheit 2 jedes verarbeitete Sprachsignal, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen, die Spracherkennungseinheit 5 führt den Spracherkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal jedes verarbeiteten Sprachsignals durch Verwendung der Akustikmodelle 3-1 bis 3-x und der entsprechenden Bestimmungswörterbücher 9-1 bis 9-x durch, um die Erkennungsbewertungszahl auszugeben, und die Akustikmodell-Schalteinheit 4 speichert jede Erkennungsbewertungszahl in Verknüpfung mit einem der Akustikmodelle 3-1 bis 3-x (Schritt ST5).
-
Hier wird das Detail des Prozessschrittes im Schritt ST5 durch Verwendung eines in 4 gezeigten Flussdiagramms beschrieben werden.
-
Zuerst analysiert die Akustikanalyseeinheit 2 die verarbeiteten Sprachsignale einer Vielzahl von Mustern (beispielsweise das erste bis y-te Muster; y ist irgendeine Zahl), erzeugt aus einem Originalsprachsignal durch die Sprachdaten-Verarbeitungseinheit 7, und wandelt jedes der verarbeiteten Sprachsignale in die Zeitreihendaten über das Akustikmerkmal um (Schritt ST21).
-
Die Akustikmodell-Schalteinheit 4 initialisiert einen Zähler m zum Zählen der verarbeiteten Sprachsignale des ersten bis y-ten Musters (Schritt ST22). Dann, in dem Fall, wo der Zähler m nicht mehr als die Anzahl verarbeiteter Sprachsignale y ist (Schritt ST23 "JA"), initialisiert die Akustikmodell-Schalteinheit 4 den Zähler n zum Zählen der Akustikmodelle 3-1 bis 3-x (Schritt ST24), und in dem Fall, wo der Zähler n nicht mehr als die Anzahl von Akustikmodellen ist (Schritt ST25 "JA"), gibt die Akustikmodell-Schalteinheit 4 eine Anweisung an die Spracherkennungseinheit 5 so aus, dass der Spracherkennungsprozess auf dem verarbeiteten Sprachsignal des m-ten Musters durch Verwendung des Akustikmodells 3-n und des Bestimmungswörterbuchs 9-n für die n-te Sprache durchgeführt wird. Anschließend empfängt die Spracherkennungseinheit 5 die Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals des m-ten Musters, führt den Spracherkennungsprozess durch Verwendung des Akustikmodells 3-n und des Bestimmungswörterbuchs 9-n für die n-te Sprache aus, welche durch die Akustikmodell-Schalteinheit 4 spezifiziert worden ist/sind, und gibt die Erkennungsbewertungszahl als das Erkennungsergebnis aus (Schritt ST26).
-
Anschließend speichert beispielsweise, wie in 5 gezeigt, die Akustikmodell-Schalteinheit 4 die Erkennungsbewertungszahl des verarbeiteten Sprachsignals des m-ten Musters, ausgegeben durch die Spracherkennungseinheit 5, in Verknüpfung mit dem Akustikmodell 3-n für die n-te Sprache (Schritt ST27). Dann inkrementiert die Akustikmodell-Schalteinheit 4 den Zähler n (Schritt ST28) und kehrt zu dem Prozessschritt im Schritt ST25 zurück.
-
Wenn die Prozessschritte in Schritten ST25 bis ST28 wiederholt werden, und die Spracherkennungsprozesse sämtlicher der Sprachen für das verarbeitete Sprachsignal des m-ten Musters beendet sind, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler n mehr als die Anzahl der Akustikmodelle ist (Schritt ST25 "NEIN"), inkrementiert den Zähler m (Schritt ST29) und kehrt zu dem Prozessschritt im Schritt ST23 zurück.
-
Wenn die Prozessschritte in den Schritten ST23 bis ST29 wiederholt werden, und die Spracherkennungsprozesse sämtlicher der Sprachen für die verarbeiteten Sprachsignale sämtlicher Muster beendet sind, bestimmt die Akustikmodell-Schalteinheit 4, dass der Zähler m mehr als die Anzahl verarbeiteter Sprachsignale y ist (Schritt ST23 "NEIN") und schreitet zum Schritt ST6 in dem Flussdiagramm von 2.
-
Zu Schritt ST6 von 2 zurückkehrend, bestimmt die Akustikmodell-Schalteinheit 4 das für den Benutzer geeignete Akustikmodell, der die Originalsprache geäußert hat, aus den Akustikmodellen 3-1 bis 3-x auf Grundlage der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale des ersten bis y-ten Musters, die in Verknüpfung mit den Akustikmodellen 3-1 bis 3-x gespeichert sind (Schritt ST6).
-
Die Spracherkennungseinheit 5 verwendet das durch die Akustikmodell-Schalteinheit 4 bestimmte Akustikmodell in dem anschließenden Spracherkennungsprozess.
-
Hier wird das Detail des Prozessschrittes im Schritt ST6 durch Verwendung eines Beispiels der in 5 gezeigten Erkennungsbewertungszahl beschrieben werden. In 5 wird angenommen, dass eine Wahrscheinlichkeit zwischen den Zeitreihendaten über das Akustikmerkmal und dem Akustikmodell höher ist, wenn/wie der Wert der Erkennungsbewertungszahl höher ist.
-
Die Akustikmodell-Schalteinheit 4 bestimmt einen Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis y-ten Muster für jedes der Akustikmodelle 3-1 bis 3-x und bestimmt das Akustikmodell mit dem größten Mittelwert.
-
Genauer genommen ist in dem Fall, wo die Erkennungsbewertungszahlen, wenn der Spracherkennungsprozess des verarbeiteten Sprachsignals ausgeführt wird durch Verwendung der Akustikmodelle 3-1 bis 3-x für die ersten bis x-ten Sprachen, die in 5 Gezeigten sind, der Mittelwert der Erkennungsbewertungszahlen "400", "430" und "400" der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-1 für die erste Sprache verknüpft sind, "410". Der Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-2 für die zweite Sprache verknüpft sind, ist "390", und der Mittelwert der Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis dritten Muster, die mit dem Akustikmodell 3-3 für die dritte Sprache verknüpft sind, ist "380". Deshalb bestimmt die Akustikmodell-Schalteinheit 4 das Akustikmodell 3-1 für die erste Sprache mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell.
-
Alternativ bestimmt die Akustikmodell-Schalteinheit 4, ob oder ob nicht die Erkennungsbewertungszahlen der verarbeiteten Sprachsignale der ersten bis y-ten Muster geringer als ein vorbestimmter Schwellenwert (oder mehr als der Schwellenwert) für jedes der Akustikmodelle 3-1 bis 3-x sind, berechnet die Anzahl der Erkennungsbewertungszahlen, die nicht geringer als der Schwellenwert (oder mehr als der Schwellenwert) sind, und verwendet die Anzahl davon als einen Evaluationswert. Dann bestimmt die Schalteinheit das Akustikmodell mit dem größten Evaluationswert.
-
In dem Fall der in 5 gezeigten Erkennungsbewertungszahlen ist genauer genommen, wenn angenommen wird, dass der Schwellenwert "400" ist, der Evaluationswert des Akustikmodells 3-1 für die erste Sprache "3", ist der Evaluationswert des Akustikmodells 3-2 für die zweite Sprache "1", und ist der Evaluationswert des Akustikmodells 3-3 für die dritte Sprache "0". Deshalb bestimmt die Akustikmodell-Schalteinheit 4 das Akustikmodell 3-1 für die erste Sprache mit dem größten Evaluationswert als das für den Benutzer geeignete Akustikmodell.
-
Von dem Obigen ist gemäß Ausführungsform 1 die Spracherkennungsvorrichtung konfiguriert zum Enthalten von: der Sprachakquisitionseinheit 1, die die Sprache akquiriert und die Sprache als das Originalsprachsignal ausgibt; der Sprachdaten-Verarbeitungseinheit 7, die das Originalsprachsignal verarbeitet, um das verarbeitete Sprachsignal zu erzeugen; der Akustikanalyseeinheit 2, die das Originalsprachsignal und das verarbeitete Sprachsignal analysiert, um die Zeitreihendaten über das Akustikmerkmal zu erzeugen; der Vielzahl von Akustikmodellen 3-1 bis 3-x, entsprechend der Vielzahl von Sprachen, die jeweils als ein Erkennungsziel dienen; der Spracherkennungseinheit 5, die die Zeitreihendaten über das Akustikmerkmal des Originalsprachsignals in die Sprachbezeichnungsketten (beispielsweise Phonembezeichnungsketten) der individuellen Sprachen umwandelt durch Verwenden der Akustikmodelle 3-1 bis 3-x für die individuellen Sprachen, um die Bestimmungswörterbücher 9-1 bis 9-x für die individuellen Sprachen zu erzeugen, und den Erkennungsprozess auf den Zeitreihendaten über das Akustikmerkmal des verarbeiteten Sprachsignals durchführt durch Verwendung der Akustikmodelle 3-1 bis 3-x und der Bestimmungswörterbücher 9-1 bis 9-x für die individuellen Sprachen, um die Erkennungsbewertungszahl für jede der Sprachen zu berechnen; und der Akustikmodell-Schalteinheit 4, die ein Akustikmodell aus der Vielzahl von Akustikmodellen 3-1 bis 3-x auf Grundlage der Erkennungsbewertungszahl für jede Sprache bestimmt, die durch die Spracherkennungseinheit 5 berechnet worden ist. Demgemäß wird es möglich, das Akustikmodell durch Verwenden der von dem Benutzer frei geäußerten Sprache zu bestimmen, so dass es nicht erforderlich ist für den Benutzer, spezielle Operationen, so wie eine Registrierung und eine Äußerung eines Wortes, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren. Mittels Durchführen einer Verarbeitung, so wie einer Überlagerung des Umgebungsstörgeräuschs auf das Originalsprachsignal, ist es außerdem möglich, das Akustikmodell unter Berücksichtigung des Umgebungsstörgeräuschs oder dergleichen zu bestimmen, und ein Schalten zu einem unpassenden Akustikmodell zu verhindern.
-
Außerdem ist gemäß Ausführungsform 1 sie derart ausgestaltet, dass die Sprachdaten-Verarbeitungseinheit 7 die verarbeiteten Sprachsignale der Vielzahl von Mustern aus einem Originalsprachsignal erzeugt, und dass die Akustikmodell-Schalteinheit 4 den Mittelwert der Vielzahl von Erkennungsbewertungszahlen entsprechend den verarbeiteten Sprachsignalen der Vielzahl von Mustern für jede der Sprachen berechnet, und das Akustikmodell für die Sprache mit dem größten Mittelwert bestimmt.
-
Alternativ kann sie derart ausgestaltet sein, dass die Sprachdaten-Verarbeitungseinheit 7 die verarbeiteten Sprachsignale der Vielzahl von Mustern aus einem Originalsprachsignal erzeugt, und dass die Akustikmodell-Schalteinheit 4 die Vielzahl von Erkennungsbewertungszahlen entsprechend den verarbeiteten Sprachsignalen der Vielzahl von Mustern mit dem Schwellenwert für jede der Sprachen vergleicht und das Akustikmodell für die Sprache mit der größten Anzahl von Erkennungsbewertungszahlen, die nicht geringer als der Schwellenwert sind (d.h. der größte Evaluationswert), bestimmt.
-
Dadurch wird es möglich, das Akustikmodell zu bestimmen, das geeigneter für den Benutzer ist.
-
Man beachte, dass die Akustikmodell-Schalteinheit 4 in Ausführungsform 1 ein Originalsprachsignal empfängt und einen Mittelwert (oder Evaluationswert) der Erkennungsbewertungszahlen für jedes der Akustikmodelle 3-1 bis 3-x bestimmt, aber sie nicht darauf beschränkt ist. Beispielsweise kann die Akustikmodell-Schalteinheit 4 eine Vielzahl der Originalsprachsignale empfangen, die Prozessschritte in Schritten ST4 und ST5 von 2 mehrfach durchführen, eine Vielzahl der Mittelwerte (oder Evaluationswerte) der Erkennungsbewertungszahlen für ein Akustikmodell bestimmen, den Mittelwert der Vielzahl von Mittelwerten (oder den Mittelwert der Vielzahl von Evaluationswerten) berechnen und das Akustikmodell mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell bestimmen.
-
Ferner kann die Akustikmodell-Schalteinheit 4 konfiguriert sein zum Speichern des Mittelwertes (oder Evaluationswertes) der Erkennungsbewertungszahlen der Akustikmodelle 3-1 bis 3-x, die in der Vergangenheit berechnet werden, und wenn die Äußerung des Benutzers neu durchgeführt wird, zum Berechnen des Mittelwertes (oder Evaluationswertes) der vergangenen Erkennungsbewertungszahlen und des Mittelwertes (oder Evaluationswertes) der Erkennungsbewertungszahlen, die aus dem Originalsprachsignal der aktuellen Äußerung des Benutzers berechnet worden sind, um somit das Akustikmodell mit dem größten Mittelwert als das für den Benutzer geeignete Akustikmodell zu bestimmen.
-
Außerdem kann in dem Fall, wo der Mittelwert der vergangenen und aktuellen Mittelwerte (oder Evaluationswerte) der Erkennungsbewertungszahlen berechnet wird, die Akustikmodell-Schalteinheit 4 den Mittelwert (oder Evaluationswert) der Erkennungsbewertungszahlen gewichten. Beispielsweise wird der Gewichtungswert des Mittelwertes (oder Evaluationswertes) der neuen Erkennungsbewertungszahlen gesetzt, größer als der des Mittelwertes (oder Evaluationswertes) der alten Erkennungsbewertungszahlen, die zu einer früheren Zeit berechnet worden sind, zu sein. Da die Stimme eines Menschen sich gemäß einem Alter oder dergleichen ändert, kann der Mittelwert (oder Evaluationswert) neuerer Erkennungsbewertungszahlen bei der Akustikmodellbestimmung wiedergegeben werden.
-
Dadurch ist es möglich, die aktuelle körperliche Bedingung des Benutzers und die aktuelle Situation des Umgebungsstörgeräuschs wiederzugeben, und daher ist es möglich, das Akustikmodell zu bestimmen, das geeigneter für den Benutzer ist.
-
Außerdem ist gemäß Ausführungsform 1 die Sprachdaten-Verarbeitungseinheit 7 ausgebildet zum Erzeugen des verarbeiteten Sprachsignals, in dem die Frequenz des Originalsprachsignals fixiert ist und die Lautstärke geändert ist, und somit ist es möglich, zu verhindern, dass das Merkmal einer Äußerung des Benutzers gelöscht wird, wenn das Originalsprachsignal verarbeitet wird. Folglich ist es möglich, zu verhindern, dass ein unpassendes Akustikmodell für den Benutzer bestimmt wird.
-
Ausführungsform 2
-
6 ist ein Blockdiagramm, das eine Ausgestaltung einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt, und ist ein Beispiel, in dem die Spracherkennungsvorrichtung in eine Navigationsvorrichtung aufgenommen ist, die in einem mobilen Objekt, so wie einem Fahrzeug, montiert ist.
-
Die Navigationsvorrichtung, auf die die Spracherkennungsvorrichtung gemäß Ausführungsform 2 angewendet wird, enthält eine Navigationsoperation-Ausführungseinheit 10, ein Navigationssystemwörterbuch 11 und ein Sprachkennzeichnung-Benutzerwörterbuch 12. Die Navigationsoperation-Ausführungseinheit 10 erfasst die Position eines Fahrzeugs, in dem die Navigationsvorrichtung montiert ist, und zeigt die Position des Fahrzeugs auf einer Karte einer Anzeige an, die nicht gezeigt ist, und führt eine Routenführung von der Position des Fahrzeugs zu einem Bestimmungsort durch. In dem Navigationssystemwörterbuch 11 ist eine Phonembezeichnungskette eines Operationsbefehls gespeichert, der mit einer durch die Navigationsoperation-Ausführungseinheit 10 ausgeführten Funktion verknüpft ist.
-
Man beachte, dass in 6 dieselben oder ähnliche Komponenten wie diese von 1 mit denselben Bezugszeichen bezeichnet sind, und deren Beschreibung wird weggelassen werden.
-
Außerdem enthält die Navigationsvorrichtung, auf die die Spracherkennungsvorrichtung gemäß Ausführungsform 2 angewendet wird, eine Funktion zum Registrieren der von einem Benutzer, so wie einem Fahrer, geäußerten Sprache, als eine Sprachkennzeichnung (bzw. einen Sprachbefehl, Engl.: voice tag) in dem Sprachkennzeichnung-Benutzerwörterbuch 12 und zum Verwenden der Sprachkennzeichnung als ein Erkennungszielwort (hier im Nachfolgenden als eine Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache bezeichnet). Man beachte, dass die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache nicht auf die Sprachkennzeichnung beschränkt ist, und die Funktion kann zweckgemäß eine Funktion mit einem Prozess zum Speichern der von dem Fahrer geäußerten Sprache sein.
-
Ferner wird in Ausführungsform 2 die Sprache, wenn die Benutzerwörterbuch-Erzeugungsfunktion ausgeführt wird (beispielsweise Sprachkennzeichnung), bei der Akustikmodellbestimmung verwendet.
-
Hier wird die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache mittels Verwendung des Flussdiagramms von 2 beschrieben werden.
-
Es wird beispielsweise ein Fall betrachtet werden, wo ein Operationsbefehl zum Veranlassen der Navigationsoperation-Ausführungseinheit 10, die Routenführung von der Position des Fahrzeugs zu einem „nach Hause“ auszuführen, in dem Sprachkennzeichnung-Benutzerwörterbuch 12 als die Sprachkennzeichnung registriert wird. In diesem Fall, wenn der Benutzer „nach Hause“ zum Registrieren der Sprachkennzeichnung äußert, akquiriert die Sprachakquisitionseinheit 1 die Sprache als die Originalsprache (Schritt ST1) und speichert die Originalsprache in der Sprachdaten-Speichereinheit 6 (Schritt ST2).
-
Eine Sprachdaten-Verarbeitungseinheit 7a überlagert ein Störgeräusch in einem Fahrzeugabteil (beispielsweise ein Betriebsgeräusch gemäß der Geschwindigkeit des Fahrzeugs, ein Scheibenwischergeräusch, ein Blinkergeräusch usw.) zusätzlich zu den Änderungen der Lautstärke und der Geschwindigkeit, wenn die Sprachdaten-Verarbeitungseinheit 7a das Originalsprachsignal verarbeitet, um somit das verarbeitete Sprachsignal zu erzeugen (Schritt ST3).
-
Anschließend werden ähnlich zu Ausführungsform 1 die Prozessschritte in Schritten ST4, ST5 und ST6 durchgeführt, und die Akustikmodell-Schalteinheit 4 bestimmt das für den Benutzer geeignete Akustikmodell aus den Akustikmodellen 3-1 bis 3-x. Da die von dem Benutzer geäußerte Sprache zum Registrieren der Sprachkennzeichnung für die Akustikmodellbestimmung verwendet werden kann, ist es somit für den Benutzer nicht erforderlich, eine spezielle Operation für die Akustikmodellbestimmung durchzuführen.
-
Danach registriert eine Wörterbucherzeugungseinheit 8a die Phonembezeichnungskette, die dem Originalsprachsignal von „nach Hause“ entspricht, die durch eine Spracherkennungseinheit 5a erzeugt wird durch Verwendung des durch die Akustikmodell-Schalteinheit 4 bestimmten Akustikmodells, in dem Sprachkennzeichnung-Benutzerwörterbuch 12. Somit dient die Sprachkennzeichnung „nach Hause“ als das Erkennungszielwort.
-
In dem anschließenden üblichen Spracherkennungsprozess (wenn die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache nicht ausgeführt wird) in dem Fall, wo der Benutzer die Sprachkennzeichnung (beispielsweise „nach Hause“) geäußert hat, empfängt die Spracherkennungseinheit 5a die Zeitreihendaten über das Akustikmerkmal der Sprachkennzeichnung, ausgegeben durch die Akustikanalyseeinheit 2, führt den Spracherkennungsprozess aus durch Verwendung von irgendeinem der Akustikmodelle 3-1 bis 3-x, die durch die Akustikmodell-Schalteinheit 4 bestimmt worden sind, und des Sprachkennzeichnung-Benutzerwörterbuchs 12, und gibt ein Erkennungsergebnis an die Navigationsoperation-Ausführungseinheit 10 aus. Die Navigationsoperation-Ausführungseinheit 10 führt einen vorbestimmten Operationsbefehl aus, der in Verknüpfung mit der Sprachkennzeichnung des Erkennungsergebnisses registriert worden ist (beispielsweise eine Funktion zum Durchführen der Routenführung von der Position des Fahrzeugs zu dem „nach Hause“).
-
Außerdem empfängt beispielsweise in dem Fall, wo der Benutzer einen Navigationsoperationsbefehl (beispielsweise eine Funktion zum Ändern des Maßstabs der Karte) auch in dem üblichen Spracherkennungsprozess geäußert hat, die Spracherkennungseinheit 5a die Zeitreihendaten über das Akustikmerkmal der geäußerten Sprache und führt den Spracherkennungsprozess aus durch Verwendung irgendeines der Akustikmodelle 3-1 bis 3-x, die durch die Akustikmodell-Schalteinheit 4 bestimmt worden sind, und des Navigationssystemwörterbuchs 11. Die Navigationsoperation-Ausführungseinheit 10 führt die Funktion aus, die in Verknüpfung mit dem Erkennungsergebnis registriert worden ist, das von der Spracherkennungseinheit 5a ausgegeben worden ist.
-
Von dem Obigen ist gemäß Ausführungsform 2 die Spracherkennungsvorrichtung konfiguriert zum Enthalten der Wörterbucherzeugungseinheit 8a, die die von dem Benutzer geäußerte Sprache in dem Sprachkennzeichnung-Benutzerwörterbuch 12 als das Erkennungszielwort der Spracherkennungseinheit 5a registriert, und die Sprachakquisitionseinheit 1 akquiriert die Sprache (beispielsweise Sprachkennzeichnung), die von dem Benutzer geäußert worden ist zum Registrieren der Sprache in dem Sprachkennzeichnung-Benutzerwörterbuch 12, und somit ist es für den Benutzer nicht erforderlich, spezielle Operationen, so wie die Registrierung des Wortes und die Äußerung, zum Schalten des Akustikmodells durchzuführen. Folglich ist es möglich, die Lästigkeit der Operationen zu eliminieren.
-
Außerdem ist gemäß Ausführungsform 2 sie derart ausgestaltet, dass die Sprachakquisitionseinheit 1 die von einem Fahrzeuginsassen geäußerte Sprache akquiriert, und dass die Sprachdaten-Verarbeitungseinheit 7 das verarbeitete Sprachsignal erzeugt, in dem das Störgeräusch des Fahrzeugs auf das Originalsprachsignal überlagert ist, und somit ist es möglich, das passende Akustikmodell unter Berücksichtigung des Störgeräuschs des Fahrzeugs oder dergleichen zu bestimmen. Folglich ist es möglich, die Spracherkennungsvorrichtung zu realisieren, die zur Verwendung in der Im-Fahrzeug-Navigationsvorrichtung oder dergleichen geeignet ist.
-
Man beachte, dass in Ausführungsform 2 die Beschreibung getätigt worden ist, indem der Fall als ein Beispiel genommen wird, wo die Spracherkennungsvorrichtung auf die in dem Fahrzeug montierte Navigationsvorrichtung angewendet wird, aber die Spracherkennungsvorrichtung kann auf die Navigationsvorrichtung für ein mobiles Objekt anders als das Fahrzeug angewendet werden, oder kann auch auf ein Endgerät oder einen Server eines Navigationssystems angewendet werden, welches aus dem in dem mobilen Objekt montierten Endgerät und dem Server besteht, der eine für die Navigation erforderliche Information dem Endgerät bereitstellt. Außerdem kann es auch ein Anwendungsprogramm sein, das in einem persönlichen digitalen Assistenten installiert ist, in dem Fall, wo der persönliche digitale Assistent, so wie ein Smartphone, ein Tablet-PC (Personalcomputer) oder ein Mobiltelefon, als das Endgerät der Navigationsvorrichtung oder das Navigationssystem verwendet wird.
-
In dem Fall, wo die Spracherkennungsvorrichtung von Ausführungsform 2 auf das Navigationssystem angewendet wird, das aus dem in dem mobilen Objekt montierten Endgerät und dem Server besteht, kann das Endgerät wenigstens die Sprachakquisitionseinheit 1 enthalten, und der Server kann die anderen Komponenten enthalten, und das Originalsprachsignal oder dergleichen kann zweckgemäß von dem Endgerät an den Server durch eine Drahtloskommunikation übertragen werden.
-
Ferner wird in Ausführungsform 2 die Spracherkennungsvorrichtung auf die Navigationsvorrichtung angewendet, aber sie kann auch auf ein Rundfunkgerät, eine Freisprechvorrichtung oder dergleichen angewendet werden. In diesem Fall wird als die Benutzerwörterbuch-Erzeugungsfunktion durch die Sprache ein Radiosendername entsprechend der Frequenz eines Radios in der Form der Sprache (beispielsweise Sprachkennzeichnung) registriert, oder der Name einer Person oder der Name eines Platzes entsprechend einer Telefonnummer wird in der Form der Sprache (beispielsweise Sprachkennzeichnung) registriert.
-
In Ausführungsformen 1 und 2 wird es beschrieben, dass das Akustikmodell und das Bestimmungswörterbuch für jede Sprache vorbereitet sind, aber die Einheit einer Vorbereitung des Akustikmodells und des Bestimmungswörterbuchs ist nicht auf die Sprache beschränkt. Beispielsweise können das Akustikmodell und das Bestimmungswörterbuch separat gemäß einem Unterschied in dem Akzent eines Dialekts zwischen Regionen vorbereitet sein.
-
Es sollte verstanden werden, dass eine freie Kombination der individuellen Ausführungsformen, Variationen irgendwelcher Komponenten der individuellen Ausführungsformen oder ein Entfernen irgendwelcher Komponenten der individuellen Ausführungsformen innerhalb des Schutzbereichs der Erfindung möglich sind.
-
GEWERBLICHE ANWENDBARKEIT
-
Wie oben beschrieben ist in der Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung, da das Akustikmodell automatisch auf Grundlage der von dem Benutzer geäußerten Sprache geschaltet wird, die Spracherkennungsvorrichtung zur Verwendung als die in einem Fahrzeug oder dergleichen montierte Spracherkennungsvorrichtung geeignet.
-
Bezugszeichenliste
-
- 1
- Sprachakquisitionseinheit
- 2
- Akustikanalyseeinheit
- 3-1 bis 3-x
- Akustikmodell
- 4
- Akustikmodell-Schalteinheit
- 5, 5a
- Spracherkennungseinheit
- 6
- Sprachdaten-Speichereinheit
- 7, 7a
- Sprachdaten-Verarbeitungseinheit
- 8, 8a
- Wörterbucherzeugungseinheit
- 9-1 bis 9-x
- Bestimmungswörterbuch
- 10
- Navigationsoperation-Ausführungseinheit
- 11
- Navigationssystemwörterbuch
- 12
- Sprachkennzeichnung-Benutzerwörterbuch