DE112013001772T5 - Spracherkennungssystem - Google Patents

Spracherkennungssystem Download PDF

Info

Publication number
DE112013001772T5
DE112013001772T5 DE112013001772.5T DE112013001772T DE112013001772T5 DE 112013001772 T5 DE112013001772 T5 DE 112013001772T5 DE 112013001772 T DE112013001772 T DE 112013001772T DE 112013001772 T5 DE112013001772 T5 DE 112013001772T5
Authority
DE
Germany
Prior art keywords
recognition
unit
speech
recognition result
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112013001772.5T
Other languages
English (en)
Other versions
DE112013001772B4 (de
Inventor
Keita Yamamuro
Youhei OKATO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112013001772T5 publication Critical patent/DE112013001772T5/de
Application granted granted Critical
Publication of DE112013001772B4 publication Critical patent/DE112013001772B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Ein System hat eine Spracherkennungseinheit (2) mit einer ersten Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und einer zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen von Teilen der Wortketten; und eine Entscheidungseinheit (4), die in Übereinstimmung mit einer Differenz zwischen den Dauern erster und zweiter Erkennungsergebniskandidaten, die Erkennungsergebnisse der Spracherkennung durch die ersten und zweiten Erkennungsfunktionseinheiten (2a und 2b) sind, einen oder mehrere wahrscheinliche Erkennungsergebniskandidaten aus den ersten und zweiten Erkennungsergebniskandidaten auswählt.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft ein Spracherkennungssystem, das einen wahrscheinlichen Erkennungsergebniskandidaten aus einer Vielzahl von Spracherkennungsergebnissen auswählt und ausgibt.
  • HINTERGRUNDTECHNIK
  • Konventionell ist ein Spracherkennungssystem vorgeschlagen worden, das eine Spracherkennung durch ein gemeinsames Verwenden einer Vielzahl von Erkennungsfunktionseinheiten ausführt, die sich in einem Gebiet und eines Umfeldes eines erkennbaren Vokabulars unterscheiden, und ein wahrscheinliches Erkennungsergebnis aus den akquirierten Erkennungsergebnissen erhält (siehe beispielsweise Patentdokument 1).
  • DOKUMENT DES STANDES DER TECHNIK
  • PATENTDOKUMENT
  • Patentdokument 1: Offengelegtes japanisches Patent Nr. 2007-33671 .
  • OFFENBARUNG DER ERFINDUNG VON DER ERFINDUNG ZU LOSENDE PROBLEME
  • Beim Auswählen eines finalen Erkennungsergebnisses aus den Erkennungsergebnissen, die eine Vielzahl von Erkennungsfunktionseinheiten erhält, wählt das Spracherkennungssystem konventionell das wahrscheinlichste Erkennungsergebnis aus mittels Vergleichen der Zuverlässigkeit bzw. Reliabilität der Erkennungsergebnisse, bestimmt gemäß den individuellen Standards der Vielzahl von Erkennungsfunktionseinheiten, oder nach einem Sortieren sämtlicher der Erkennungsergebnisse der Vielzahl von Erkennungsfunktionseinheiten in absteigender Zuverlässigkeitsreihenfolge.
  • Demgemäß hat es ein Problem darin gegeben, dass, wenn ein Wort oder ein Teil einer Wortkette (von nun an als ”Wortkette” bezeichnet, und es wird angenommen, dass der Begriff ”Wortkette” ein einzelnes Wort enthält), das/der durch eine erste Erkennungsfunktionseinheit erkennbar ist, mit einer durch eine zweite Erkennungsfunktionseinheit erkennbaren Wortkette übereinstimmt, das durch die erste Erkennungsfunktionseinheit zu erkennende Ergebnis falsch als das Ergebnis der zweiten Erkennungsfunktionseinheit erkannt werden kann.
  • Man betrachte beispielsweise den Fall, wo eine erste Erkennungsfunktionseinheit verwendet wird mit einer zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen einer Wortkette, die kürzer ist als die der ersten Erkennungsfunktionseinheit, und eine Kette ”California Los Angeles” geäußert wird. Obwohl das Erkennungsergebnis der ersten Erkennungsfunktionseinheit als wahrscheinlich ausgewählt werden soll, kann in diesem Fall das Wort ”California” durch die zweite Erkennungsfunktionseinheit erkannt werden. Da die Sprache das Wort ”California” enthält, das durch die erste und die zweite Erkennungsfunktionseinheit erkennbar ist, ist es somit wahrscheinlich, dass das Ergebnis der zweiten Erkennungsfunktionseinheit ausgewählt wird als das finale Erkennungsergebnis in Abhängigkeit von der Zuverlässigkeit der Erkennungsergebnisse, bestimmt gemäß den individuellen Standards der ersten und zweiten Erkennungsfunktionseinheiten.
  • Die vorliegende Erfindung wird realisiert, um die vorherigen Probleme zu lösen. Deshalb ist es eine Aufgabe der vorliegenden Erfindung, ein Spracherkennungssystem bereitzustellen, das zum Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit einer hohen Genauigkeit fähig ist.
  • MITTEL ZUM LÖSEN DER PROBLEME
  • Ein Spracherkennungssystem in Übereinstimmung mit der vorliegenden Erfindung umfasst: eine Spracheingabeeinheit, die Sprache eingibt; eine Spracherkennungseinheit mit einer Vielzahl von Erkennungsfunktionseinheiten bzw. Erkennungs-Engines, die die von der Spracheingabeeinheit akquirierte Sprache erkennen; und eine Entscheidungseinheit, die in Übereinstimmung mit Differenzen zwischen Dauern von Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, einen oder mehrere Erkennungsergebniskandidaten aus den Erkennungsergebniskandidaten auswählt.
  • VORTEILE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung bietet sie einen Vorteil, dass sie fähig ist zum Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit hoher Genauigkeit.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 1 in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 2 ist ein Blockdiagramm, das eine Ausgestaltung einer Erkennungsfunktionseinheit zeigt.
  • 3 ist ein Diagramm, das ein Beispiel einer Sprache-Beginn-Ende-Erfassung zeigt.
  • 4 ist eine Tabelle, die ein Beispiel von Wortketten zeigt, die durch erste und zweite Erkennungsfunktionseinheiten erkennbar sind.
  • 5 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 1 zeigt.
  • 6 ist eine Tabelle, die ein Beispiel einer Ausgabeinformation der ersten und zweiten Erkennungsfunktionseinheiten zeigt.
  • 7 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 2 in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 8 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 2 zeigt.
  • 9 ist eine Tabelle, die ein Beispiel von Ergebnissen eines Vergleichens von Dauern von Erkennungsergebniskandidaten mit einer akquirierten Sprachdauer zeigt.
  • 10 ist ein Diagramm, das eine Verarbeitung zum Bestimmen eines Referenzwertes einer Sprachdauer mit Verwendung eines gesetzten Wertes in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette zeigt.
  • BESTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
  • Der beste Modus zum Ausführen der Erfindung wird nun mit Verweis auf die begleitenden Zeichnungen beschrieben werden, um die vorliegende Erfindung in größerem Detail zu erläutern.
  • AUSFÜHRUNGSFORM 1
  • 1 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 1 in Übereinstimmung mit der vorliegenden Erfindung zeigt. Das in 1 gezeigte Spracherkennungssystem ist ein System, das als eine Eingabeeinrichtung eines Navigationssystems oder eines Audiosystems verwendet wird, das in einem Fahrzeug montiert oder darin getragen wird. Die Ausgestaltung umfasst eine Spracheingabeeinheit 1, eine Spracherkennungseinheit 2, erste und zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b, eine Entscheidungseinheit 4 und eine Integriereinheit 5.
  • Die Spracheingabeeinheit 1 hat eine Funktion zum Aufnehmen von Sprache und zum Akquirieren eines Eingabesignals. Beispielsweise wandelt sie ein von einem Mikrophon geliefertes Sprachsignal in ein digitales Signal um.
  • Die Spracherkennungseinheit 2 umfasst erste und zweite Erkennungsfunktionseinheiten bzw. Erkennungs-Engines 2a und 2b, die eine Spracherkennung desselben Sprachsignals ausführen, das von der Spracheingabeeinheit 1 ausgegeben worden ist.
  • Die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b führen eine Spracherkennungsverarbeitung des eingegebenen Sprachsignals aus und geben eine Erkennungsergebniskette, eine Erkennungsergebniszuverlässigkeit und eine Erkennungsergebnisdauer aus. Es wird hier angenommen, dass die erste Erkennungsfunktionseinheit wenigstens eine Wortkette erkennen kann, die als ihren Teil eine durch die zweite Erkennungsfunktionseinheit erkennbare Wortkette enthält.
  • Übrigens wird die Ausführungsform 1 unten mit der Annahme beschrieben, dass die Anzahl von Wörtern, die eine durch die zweite Erkennungsfunktionseinheit 2b erkennbare Wortkette begründen, nicht größer ist als die Anzahl von Wörtern, die eine durch die erste Erkennungsfunktionseinheit 2a erkennbare Wortkette begründen.
  • Genauer genommen wird angenommen, dass die erste Erkennungsfunktionseinheit 2a eine Wortkette erkennen kann, die aus einer Kombination eines Staatnamens und eines Stadtnamens der USA bestehen, und die zweite Erkennungsfunktionseinheit 2b einen Staatnamen erkennen kann.
  • Obwohl in der Ausführungsform 1 angenommen wird, dass die Spracherkennungseinheit 2 die zwei Erkennungsfunktionseinheiten umfasst, kann sie außerdem drei oder mehr Erkennungsfunktionseinheiten umfassen, solange wie die Erkennungsfunktionseinheiten wenigstens eine Wortkette erkennen können, die als ihren Teil eine durch die anderen Erkennungsfunktionseinheiten erkennbare Wortkette enthält (es ist dasselbe in der Ausführungsform 2).
  • Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b sind mit den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b der Spracherkennungseinheit 2 verbunden. Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren aus den Spracherkennungsverarbeitungsergebnissen der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b nicht nur Erkennungsergebnisketten als Erkennungsergebniskandidaten, sondern auch eine Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauer der Erkennungsergebniskandidaten.
  • Übrigens wird es in der folgenden Beschreibung angenommen, dass der Erkennungsergebniskandidat, der von der ersten Erkennungsfunktionseinheit 2a durch die erste Erkennungskandidat-Akquiriereinheit 3a akquiriert worden ist, als ein ”erster Erkennungsergebniskandidat” bezeichnet wird.
  • Außerdem wird es angenommen, dass der Erkennungsergebniskandidat, der von der zweiten Erkennungsfunktionseinheit 2b durch die zweite Erkennungskandidat-Akquiriereinheit 3b akquiriert worden ist, als ein ”zweiter Erkennungsergebniskandidat” bezeichnet wird.
  • Die Entscheidungseinheit 4 tätigt eine Richtig- oder Falsch-Entscheidung der Erkennungsergebniskandidaten in Übereinstimmung mit den Differenzen zwischen den Dauern der ersten Erkennungsergebniskandidaten und den Dauern der zweiten Erkennungsergebniskandidaten. In der Richtig- oder Falsch-Entscheidung verwirft die Entscheidungseinheit 4 die als die Falsch-Erkennung entschiedenen Erkennungsergebniskandidaten und wählt die verbleibenden Erkennungsergebniskandidaten als wahrscheinliche Erkennungsergebniskandidaten aus.
  • Beispielsweise berechnet die Entscheidungseinheit 4 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und der Dauer sämtlicher der zweiten Erkennungsergebniskandidaten. Dann verwirft sie die zweiten Erkennungsergebniskandidaten, die die Differenz zwischen den Dauern nicht geringer als eine vorbestimmte erste Schwelle (oder größer als die Schwelle) haben. Dann wählt sie die ersten Erkennungsergebniskandidaten und die zweiten Erkennungsergebniskandidaten aus, die nicht verworfen worden sind, und liefert sie an die Erkennungsergebnis-Integriereinheit 5.
  • Als ein anderes Verfahren berechnet beispielsweise die Entscheidungseinheit 4 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und der Dauer des zuverlässigsten Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten. Dann, wenn die Differenz der Dauer nicht geringer als eine vorbestimmte erste Schwelle (oder größer als die Schwelle) ist, verwirft sie sämtliche der zweiten Erkennungsergebniskandidaten und wählt die ersten Erkennungsergebniskandidaten aus. Dann liefert sie die ausgewählten Erkennungsergebniskandidaten an die Integriereinheit 5.
  • Die Integriereinheit 5 erstellt eine einzige Erkennungsergebniskandidatengruppe durch ein Kombinieren der Erkennungsergebniskandidaten, die die Entscheidungseinheit 4 als wahrscheinlich aus den Erkennungsergebniskandidaten auswählt, die die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren, und sortiert die Erkennungsergebniskandidaten in der Erkennungskandidatengruppe in absteigender Zuverlässigkeitsreihenfolge.
  • Wenn die Entscheidungseinheit 4 unfähig zum Verwerfen sämtlicher der zweiten Erkennungsergebniskandidaten war, kann übrigens die Integriereinheit 5 die Zuverlässigkeit der individuellen Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten gemäß den Differenzen zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und den Dauern der individuellen Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten korrigieren, und kann sie in Übereinstimmung mit der Zuverlässigkeit nach der Korrektur sortieren.
  • 2 ist ein Blockdiagramm, das eine Ausgestaltung der Erkennungsfunktionseinheit zeigt. Wie in 2 gezeigt, umfassen die erste und die zweite Erkennungsfunktionseinheit 2a und 2b jeweils eine Erfassungseinheit 20, eine Sprachsignal-Verarbeitungseinheit 21, eine Vergleichseinheit 22 und ein Spracherkennungswörterbuch 23.
  • Die Erfassungseinheit 20 empfängt ein von der Spracheingabeeinheit 1 ausgegebenes Sprachsignal und erfasst die Beginnzeit und Endzeit der Sprache des Sprachsignals. Die Sprachdauer (sprachaktiver Abschnitt) des Sprachsignals, die aus der Beginnzeit und der Endzeit der Sprache entschieden worden ist, die durch die Erfassungseinheit 20 erfasst worden ist, wird an die Sprachsignal-Verarbeitungseinheit 21 geliefert.
  • 3 ist ein Diagramm, das ein Beispiel der Sprache-Beginn-Ende-Erfassung zeigt. Die Erfassungseinheit 20 erfasst die Beginnzeit und die Endzeit der Sprache aus dem gesamten eingegebenen Sprachsignal und klassifiziert es in den sprachinaktiven Abschnitt und den sprachaktiven Abschnitt (Sprachdauer). Wie in 3 gezeigt, werden der Beginn und das Ende der Sprache aus der Amplitude des Sprachsignals bestimmt.
  • Hinsichtlich der Sprachwellenform des Sprachsignals wird beispielsweise der Zeitpunkt, bei dem die Amplitude einen Amplitudenreferenzwert zuerst entlang der Zeitbasis überschreitet, als die Beginnzeit der Sprache bestimmt. Außerdem wird der Zeitpunkt, zu dem die Amplitude den Amplitudenreferenzwert zuletzt entlang der Zeitbasis überschreitet, als die Endzeit der Sprache bestimmt.
  • Die Sprachsignal-Verarbeitungseinheit 21 empfängt den sprachaktiven Abschnitt des Sprachsignals, der durch die Erfassungseinheit 20 erfasst worden ist, führt eine Signalverarbeitung, so wie eine Schnelle Fourier-Transformation, Filteranalyse, lineare prädiktive Analyse und Cepstrum-Analyse, für den sprachaktiven Abschnitt aus und extrahiert Sprachmerkmalparameter. Die Sprachmerkmalparameter werden an die Vergleichseinheit 22 geliefert.
  • Die Vergleichseinheit 22 vergleicht die Sprachmerkmalparameter des Sprachsignals, die durch die Sprachsignal-Verarbeitungseinheit 21 extrahiert worden sind, mit einer Vielzahl von Sprachmerkmalparametern, die in dem Spracherkennungswörterbuch 23 gespeichert sind, und gibt ein Erkennungsergebnis aus, das Sprachmerkmalparameter mit einem hohen Grad einer Ähnlichkeit mit den Sprachmerkmalparametern hat, die in dem Spracherkennungswörterbuch 23 aufgezeichnet sind. Hier gibt die Vergleichseinheit 22 einen Wert aus, der erhalten worden ist durch Normalisieren des Grades der Ähnlichkeit, als eine Erkennungsergebniszuverlässigkeit. Ferner gibt sie die zu der Zeit der Vergleichsverarbeitung berechnete Erkennungsergebnisdauer aus.
  • Das Spracherkennungswörterbuch 23 ist Wörterbuchdaten, die aus ein oder mehreren Wortketten bestehen, die erkannt werden sollen, die zusammen mit ihren Sprachmerkmalparametern aufgezeichnet sind. Inder Ausführungsform 1 haben die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b das Spracherkennungswörterbuch 23, das Wortketten jeweils unterschiedlicher Längen aufzeichnet.
  • Das Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a zeichnet wenigstens eine Wortkette auf, die einen Teil einer Wortkette enthält, die in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet ist.
  • Die in dem Spracherkennungswörterbuch 23 aufgezeichneten Wortketten variieren in Übereinstimmung mit dem Erkennungsmodus des Spracherkennungssystems. Wenn beispielsweise der Erkennungsmodus von Adressen gesetzt ist, zeichnet das Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a Wortketten auf, die zu einer Kategorie von Adressen gehören, so wie ”California Los Angeles” und ”California San Diego”.
  • Da die zweite Erkennungsfunktionseinheit 2b eine Erkennungsfunktionseinheit ist, die eine kürzere Wortkette als die erste Erkennungsfunktionseinheit 2a erkennt, zeichnet andererseits das Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b ein Wort auf, so wie ”California”.
  • Auf diese Weise wird in 4 das Wort ”California”, das in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet ist, in den Wortketten, so wie ”California Los Angeles” und ”California San Diego”, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a aufgezeichnet sind, wiederholt.
  • Obwohl 4 ein Beispiel zeigt, das die zu der Kategorie von Adressen gehörenden Wortketten in dem Spracherkennungswörterbuch 23 des Erkennungsmodus des Spracherkennungssystems aufzeichnet, können übrigens die Spracherkennungswörterbücher 23 der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b die zu der Kategorie von Namen gehörenden Wortketten mittels Setzen des Erkennungsmodus von Namen aufzeichnen. Ein Abändern des Modus befähigt somit die Spracherkennungswörterbücher 23 zum Aufzeichnen von Wortketten, die zu einer anderen Kategorie als die Adressen oder Namen gehören.
  • Übrigens können die Spracheingabeeinheit 1, Spracherkennungseinheit 2, ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4 und Integriereinheit 5 als konkrete Einrichtungen realisiert sein, in denen Hardware und Software miteinander kooperieren, durch ein Veranlassen eines Mikrocomputers, Programme auszuführen, die die für die vorliegende Erfindung bestimmte Verarbeitung beschreiben.
  • Als Nächstes wird die Operation beschrieben werden.
  • 5 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 1 zeigt.
  • Zuerst führen die erste Erkennungsfunktionseinheit 2a und die zweite Erkennungsfunktionseinheit 2b, die die unterschiedlichen Spracherkennungswörterbücher 23 haben, die Spracherkennungsverarbeitung des von der Spracheingabeeinheit 1 gelieferten Sprachsignals durch (Schritt ST1). Wie in 4 gezeigt, wird es hier angenommen, dass die erste Erkennungsfunktionseinheit wenigstens eine Wortkette erkennen kann, die als ihren Teil eine durch die zweite Erkennungsfunktionseinheit erkennbare Wortkette enthält.
  • Als Nächstes akquirieren die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b (Schritt ST2). Die Spracherkennungsverarbeitungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b werden von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b an die Entscheidungseinheit 4 geliefert.
  • Die Entscheidungseinheit 4 berechnet die Differenz zwischen der Dauer des Erkennungsergebniskandidaten mit der höchsten Zuverlässigkeit unter den ersten Erkennungsergebniskandidaten und der Dauer des Erkennungsergebniskandidaten mit der höchsten Zuverlässigkeit unter den zweiten Erkennungsergebniskandidaten. Auf diese Weise macht ein Schätzen der Wahrscheinlichkeit der Erkennungsergebnisse gemäß der Differenz zwischen den Dauern der Erkennungsergebniskandidaten, die durch die Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erfasst worden sind, und gemäß der Zuverlässigkeit der Erkennungsergebniskandidaten es möglich, einen wahrscheinlicheren Erkennungsergebniskandidaten mit höherer Genauigkeit auszuwählen.
  • Als Nächstes entscheidet die Entscheidungseinheit 4 hinsichtlich dessen, ob die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den ersten Erkennungsergebniskandidaten und der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den zweiten Erkennungsergebniskandidaten nicht geringer als die vorbestimmte erste Schwelle ist oder nicht ist (Schritt ST3).
  • Es wird hier angenommen, dass die erste Schwelle ein Wert ist, den die Entscheidungseinheit 4 erhält durch ein Berechnen im Voraus der Differenzen zwischen den Dauern der Wortketten, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a und in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet sind, und durch ein Ausführen einer statistischen Verarbeitung dieser.
  • In diesem Fall wird die erste Schwelle variabel in Übereinstimmung mit den Kategorien der Wortketten gesetzt bzw. festgelegt, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a und in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet sind.
  • Die Entscheidungseinheit 4 ändert mit anderen Worten die erste Schwelle in Übereinstimmung mit dem Erkennungsmodus ab, weil die Spracherkennungswörterbücher 23 die Wortketten aufzeichnen, die zu der Kategorie gehören, die dem Erkennungsmodus des Spracherkennungssystems entspricht, wie mit Verweis auf 4 beschrieben. Auf diese Weise kann die Entscheidungseinheit 4 einen Erkennungsergebniskandidaten mit höherer Genauigkeit mittels Berücksichtigung des Erkennungsmodus des Spracherkennungssystems verwerfen.
  • Falls die Differenz zwischen den Dauern nicht geringer als die erste Schwelle ist (JA bei Schritt ST3), verwirft die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten (Schritt ST4). Beim Gebrauchen der Erkennungsfunktionseinheiten mit unterschiedlichen erkennbaren Wortkettenlängen ermöglicht auf diese Weise die Richtig- oder Falsch-Entscheidung auf Grundlage der Differenz zwischen den Dauern der Erkennungsergebniskandidaten ein Verwerfen eines falsch erkannten Erkennungsergebniskandidaten mit höherer Genauigkeit.
  • Falls die Differenz zwischen den Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist (NEIN bei Schritt ST3), werden andererseits die ersten und zweiten Erkennungsergebniskandidaten von der Entscheidungseinheit 4 an die Integriereinheit 5 geliefert. Die ersten und zweiten Erkennungsergebniskandidaten von der Entscheidungseinheit 4 akquirierend, kombiniert die Integriereinheit 5 sie zu einer einzigen Erkennungsergebniskandidatengruppe (Schritt ST5).
  • Beim Kombinieren der ersten und zweiten Erkennungsergebniskandidaten oder beim Empfangen der verbleibenden ersten Erkennungsergebniskandidaten, nachdem die zweiten Erkennungskandidaten verworfen werden in der Verarbeitung bei Schritt ST4, sortiert die Integriereinheit 5 die Erkennungsergebniskandidaten in absteigender Zuverlässigkeitsreihenfolge (Schritt ST6). Auf diese Weise kann das System einen Benutzer mit einem Ergebnis eines Auswählens wahrscheinlicher Erkennungsergebniskandidaten in Übereinstimmung mit dem Zuverlässigkeitsgrad versorgen.
  • Falls die Differenz zwischen den Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist (NEIN bei Schritt ST3) und die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten nicht verwerfen kann, kann übrigens die Integriereinheit 5 die Zuverlässigkeit der individuellen zweiten Erkennungsergebniskandidaten durch die Differenz zwischen den Dauern der Erkennungsergebniskandidaten, die bei Schritt ST3 berechnet worden sind, korrigieren und kann auf der Grundlage der Zuverlässigkeit nach der Korrektur sie sortieren.
  • Außerdem können die Kandidaten von der Spitze bis zu einer bestimmten Rangordnung als die finalen Erkennungsergebniskandidaten ausgegeben werden.
  • Als Nächstes wird eine Beschreibung mit Verweis auf ein konkretes Beispiel gemacht werden.
  • Falls die Sprache ”California Los Angeles” geäußert wird, nimmt die Spracheingabeeinheit 1 die Sprache auf und liefert das Sprachsignal ”California Los Angeles” an die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b.
  • Die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b führen die Spracherkennungsverarbeitung des Sprachsignals ”California Los Angeles” durch. Es wird hier angenommen, dass die Spracherkennungswörterbücher 23 der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b die in 4 gezeigten Wortketten aufzeichnen.
  • Als Nächstes akquirieren die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b und liefern sie an die Entscheidungseinheit 4. 6 zeigt ein Beispiel der ersten und zweiten Erkennungsergebniskandidaten, die durch die erste und die zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b akquiriert worden sind.
  • Die Entscheidungseinheit 4 berechnet die Differenz 1500 ms mittels Subtrahieren der Dauer 2500 ms des zuverlässigsten Kandidaten ”California” unter den zweiten Erkennungsergebniskandidaten von der Dauer 4000 ms des zuverlässigsten Kandidaten ”California Los Angeles” unter den ersten Erkennungsergebniskandidaten.
  • Danach vergleicht die Entscheidungseinheit 4 die Differenz 1500 ms zwischen den Dauern mit der vorbestimmten ersten Schwelle. Übrigens ist die Schwelle bei 1000 ms gesetzt, unter Berücksichtigung der Differenz zwischen den Dauern der Wortketten, die in den Spracherkennungswörterbüchern 23 der individuellen Erkennungsfunktionseinheiten aufgezeichnet sind.
  • Da die Differenz 1500 ms zwischen den individuellen Dauern der Erkennungsergebniskandidaten nicht geringer als die erste Schwelle 1000 ms ist, verwirft die Entscheidungseinheit 4 sämtliche der zweiten Erkennungsergebniskandidaten.
  • Beispielsweise ist der Kandidat mit der höchsten Zuverlässigkeit unter den ersten und zweiten Erkennungsergebniskandidaten ”California” mit der Zuverlässigkeit 6000, der der zweite Erkennungsergebniskandidat ist. Selbst obwohl die Sprache ”California Los Angeles” tatsächlich geäußert wird, wird demgemäß das konventionelle System, das die Zuverlässigkeit als den Auswahlstandard einsetzt, wahrscheinlich ”California” ausgeben, was erhalten wird als das finale Erkennungsergebnis durch die Spracherkennung der zweiten Erkennungsfunktionseinheit 2b.
  • Im Gegensatz dazu kann gemäß der vorliegenden Erfindung, da der Kandidat ”California” verworfen wird durch die Differenz zwischen den Dauern der Erkennungsergebniskandidaten, das System das richtige Erkennungsergebnis ”California Los Angeles” zweckgemäß als das finale Erkennungsergebnis auswählen.
  • Schließlich sortiert die Integriereinheit 5 die ersten Erkennungsergebniskandidaten in absteigender Zuverlässigkeitsreihenfolge.
  • Falls die Differenz zwischen den individuellen Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist, und die zweiten Erkennungsergebniskandidaten nicht verworfen werden, kann hier die Integriereinheit 5 die Zuverlässigkeit der individuellen zweiten Erkennungsergebniskandidaten in Übereinstimmung mit der Differenz zwischen den Dauern der Erkennungsergebniskandidaten korrigieren und kann sie auf der Grundlage der Zuverlässigkeit nach der Korrektur sortieren.
  • Beim Korrigieren der Zuverlässigkeit der zweiten Erkennungsergebniskandidaten, die in 6 gezeigt sind, berechnet beispielsweise die Integriereinheit 5 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den ersten Erkennungsergebniskandidaten und den Dauern sämtlicher der zweiten Erkennungsergebniskandidaten. Als Nächstes berechnet sie Gewichte für die individuellen Erkennungsergebniskandidaten aus den Differenzen zwischen den Dauern sämtlicher der Erkennungsergebniskandidaten und korrigiert die Zuverlässigkeit mittels Multiplizieren der Zuverlässigkeit der individuellen Erkennungsergebniskandidaten mit den Gewichten. Beispielsweise korrigiert die Integriereinheit 5 die Zuverlässigkeit in der Richtung zum Reduzieren der Zuverlässigkeit mittels Zuweisen des Gewichtes ”1”, wenn die Differenz ”0” ist, und mittels Reduzieren des Gewichtes in Richtung null, wie/wenn die Differenz zunimmt.
  • Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 1 sie die Spracherkennungseinheit 2 mit der ersten Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und der zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen eines Teils der vorherigen Wortketten; und die Entscheidungseinheit 4, die eine oder mehrere wahrscheinliche Erkennungsergebniskandidaten aus den ersten und zweiten Erkennungsergebniskandidaten auswählt in Übereinstimmung mit den Differenzen zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die das Erkennungsergebnis der Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
  • Die derart angeordnete Ausgestaltung kann die Erkennungsergebniskandidaten mit klar falscher Dauer unter den ersten und zweiten Erkennungsergebniskandidaten unterscheiden, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und die anderen Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählen. Somit kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit einer höheren Genauigkeit aus den ersten und zweiten Erkennungsergebniskandidaten auswählen, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
  • Außerdem umfasst gemäß der vorliegenden Ausführungsform 1 die Spracherkennungseinheit 2 die erste Erkennungsfunktionseinheit, die fähig ist zum Erkennen der vorbestimmten Wortketten, und die zweite Erkennungsfunktionseinheit, die fähig ist zum Erkennen eines Teils der vorherigen Wortketten, wobei die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten verwirft, wenn die Differenz zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erkennen, nicht geringer als die vorbestimmte erste Schwelle ist, und die ersten Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählt. Auf diese Weise ermöglicht ein Tätigen der Richtig- oder Falsch-Entscheidung auf Grundlage der Differenz zwischen den Dauern der Erkennungsergebniskandidaten ein Verwerfen der falsch erkannten Erkennungsergebniskandidaten mit hoher Genauigkeit.
  • Weiterhin schätzt gemäß der vorliegenden Ausführungsform 1 die Entscheidungseinheit 4 die Wahrscheinlichkeit der Erkennungsergebniskandidaten gemäß der Differenz zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und gemäß der Zuverlässigkeit der Erkennungsergebniskandidaten. Auf diese Weise kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit hoher Genauigkeit auswählen.
  • Darüber hinaus ändert gemäß der vorliegenden Ausführungsform 1 die Entscheidungseinheit 4 die erste Schwelle in Übereinstimmung mit der Kategorie der Erkennungsziel-Wortkette ab. Auf diese Weise kann sie die Erkennungsergebniskandidaten mit höherer Genauigkeit mittels Berücksichtigung des Erkennungsmodus auswählen.
  • AUSFÜHRUNGSFORM 2
  • 7 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 2 in Übereinstimmung mit der vorliegenden Erfindung zeigt. Das in 7 gezeigte Spracherkennungssystem wird als eine Eingabeeinrichtung eines Navigationssystems oder eines Audiosystems verwendet, das beispielsweise in einem Fahrzeug montiert oder darin getragen wird, wie in der Ausführungsform 1.
  • Es umfasst die Spracheingabeeinheit 1, Spracherkennungseinheit 2, erste und zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4A, Integriereinheit 5 und Erfassungseinheit 6.
  • Übrigens sind in 7 dieselben Komponenten wie die von 1 mit denselben Bezugszeichen bezeichnet, und ihre Beschreibung wird weggelassen werden.
  • Die vorhergehende Ausführungsform 1 macht eine Richtig- oder Falsch-Entscheidung der Erkennungsergebniskandidaten mittels Vergleichen der Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die Erkennungsergebnisse der Spracherkennung der zwei oder mehr Erkennungsfunktionseinheiten sind.
  • Im Gegensatz dazu umfasst die Ausführungsform 2 die Erfassungseinheit 6 separat von den Erkennungsfunktionseinheiten, und die Entscheidungseinheit 4A setzt die Sprachdauer (von nun als ”akquirierte Sprachdauer” bezeichnet) der Sprache, die die Erfassungseinheit 6 erfasst, als einen Referenzwert der Richtig- oder Falsch-Entscheidung. Hier wird die Sprache durch die Spracheingabeeinheit 1 akquiriert.
  • Die Erfassungseinheit 6 bestimmt die akquirierte Sprachdauer, die der Referenzwert ist, der mit den Dauern der individuellen Erkennungsergebniskandidaten durch die Entscheidungseinheit 4A verglichen werden soll. Beispielsweise erfasst, auf dieselbe Weise wie die Erfassungseinheit 20 in den Erkennungsfunktionseinheiten, die Erfassungseinheit 6 die akquirierte Sprachdauer aus dem von der Spracheingabeeinheit 1 gelieferten Sprachsignal und liefert sie an die Entscheidungseinheit 4A.
  • Da die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b jeweils eine unterschiedliche Spracherkennungsverarbeitung ausführen können, berechnen die Erkennungsfunktionseinheiten manchmal die Sprachdauerinformation mit Verwendung unterschiedlicher Algorithmen.
  • Außerdem wird die akquirierte Sprachdauer, die von der Erfassungseinheit 6 ausgegeben worden ist, ein Referenzwert zum Vergleichen der Erkennungsfunktionseinheiten, die unterschiedliche Algorithmen verwenden. Als ein Beispiel der unterschiedliche Spracherkennungsalgorithmen verwendenden Erkennungsfunktionseinheiten gibt es VoCon von Nuance Communications Inc., Google Voice Search von Google Inc. und Julius von Nagoya Institute of Technology und Kyoto University. Die Namen der Erkennungsfunktionseinheiten sind jeweils als Marke eingetragen.
  • Übrigens können die Spracheingabeeinheit 1, Spracherkennungseinheit 2, die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4A, Integriereinheit 5 und Erfassungseinheit 6 als eine konkrete Einrichtung realisiert sein, in der Hardware und Software miteinander zusammenarbeiten, mittels Veranlassen eines Mikrocomputers, Programme auszuführen, die die für die vorliegende Erfindung bestimmte Verarbeitung beschreiben.
  • Als Nächstes wird die Operation beschrieben werden.
  • 8 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 2 zeigt.
  • Zuerst führen die erste Erkennungsfunktionseinheit 2a und die zweite Erkennungsfunktionseinheit 2b die Spracherkennungsverarbeitung des von der Spracheingabeeinheit 1 gelieferten Sprachsignals durch. Hier erfasst die Erfassungseinheit 6 die akquirierte Sprachdauer von dem durch die Spracheingabeeinheit 1 eingegebenen Sprachsignal.
  • Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b. Die Spracherkennungsverarbeitungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b werden von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b an die Entscheidungseinheit 4A geliefert. Außerdem wird die akquirierte Sprachdauer, die die Erfassungseinheit 6 erfasst, an die Entscheidungseinheit 4A als der Referenzwert geliefert.
  • Die Entscheidungseinheit 4A akquiriert die Ketten der Erkennungsergebniskandidaten, die erhalten worden sind von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten, und die akquirierte Sprachdauer, die die Erfassungseinheit 6 erfasst, und wird der Referenzwert (Schritt ST1a).
  • Danach berechnet die Entscheidungseinheit 4A die Differenz zwischen der Dauer von jedem der sämtlichen Erkennungsergebniskandidaten, die von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquiriert worden sind, und der als der Referenzwert verwendeten akquirierten Sprachdauer und erhält den Absolutwert der Differenz.
  • Als Nächstes-vergleicht die Entscheidungseinheit 4A den Absolutwert der Differenz mit einer vorbestimmten zweiten Schwelle und entscheidet hinsichtlich dessen, ob der Absolutwert der Differenz nicht geringer als die zweite Schwelle ist oder nicht ist (Schritt ST2a).
  • Falls der Absolutwert der Differenz nicht geringer als die zweite Schwelle ist (JA bei Schritt ST2a), verwirft die Entscheidungseinheit 4A den Erkennungsergebniskandidaten, für den der Absolutwert der Differenz erhalten wird (Schritt ST3a). Danach kehrt sie zu der Verarbeitung bei Schritt ST2a zurück und wiederholt die Richtig- oder Falsch-Entscheidung, bis die Verarbeitung abschließt, hinsichtlich sämtlicher der Erkennungsergebniskandidaten.
  • Als Nächstes kombiniert die Integriereinheit 5 die verbliebenen Erkennungsergebniskandidaten, die nicht verworfen werden durch die Entscheidungseinheit 4A, unter den ersten und zweiten Erkennungsergebniskandidaten, in eine einzige Erkennungsergebniskandidatengruppe (Schritt ST4a).
  • Schließlich sortiert die Integriereinheit 5 die Erkennungsergebniskandidaten in der Erkennungsergebniskandidatengruppe in absteigender Zuverlässigkeitsreihenfolge (Schritt ST5a). Hier führt die Integriereinheit 5 die Korrektur zum Reduzieren der Zuverlässigkeit der Erkennungsergebniskandidaten für die individuellen Erkennungsergebniskandidaten in der Erkennungsergebniskandidatengruppe in Übereinstimmung mit den Differenzen zwischen den Dauern der Erkennungsergebniskandidaten und der akquirierten Sprachdauer aus, die bei Schritt ST2a berechnet worden ist und als der Referenzwert verwendet wird.
  • Genauer genommen korrigiert die Integriereinheit 5 die Zuverlässigkeit jedes ersten Erkennungsergebniskandidaten, der nicht verworfen werden kann, in die Richtung zum Reduzieren der Zuverlässigkeit in Übereinstimmung mit der Differenz zwischen der Dauer des ersten Erkennungsergebniskandidaten, der nicht verworfen werden kann, und der akquirierten Sprachdauer, und korrigiert die Zuverlässigkeit jedes zweiten Erkennungsergebniskandidaten, der nicht verworfen werden kann, in die Richtung zum Reduzieren der Zuverlässigkeit in Übereinstimmung mit der Differenz zwischen der Dauer des zweiten Erkennungsergebniskandidaten, der nicht verworfen werden kann, und der akquirierten Sprachdauer. Dann kann sie in Übereinstimmung mit der Zuverlässigkeit nach der Korrektur sortieren. Außerdem können Kandidaten von der Spitze bis zu einer vorbestimmten Rangordnung als die finalen Erkennungsergebniskandidaten ausgegeben werden.
  • Als Nächstes wird eine Beschreibung mit Verweis auf ein konkretes Beispiel gemacht werden.
  • 9 ist eine Tabelle, die ein Beispiel der Ergebnisse des Vergleichens der Dauern der Erkennungsergebniskandidaten mit der akquirierten Sprachdauer zeigt, in dem eine Richtig- oder Falsch-Entscheidung gemacht wird hinsichtlich sechs Erkennungsergebniskandidaten mit Verwendung der zweiten Schwelle. In 9 ist die akquirierte Sprachdauer bei 4100 ms gesetzt, und die zweite Schwelle für die Richtig- oder Falsch-Entscheidung ist bei 800 ms gesetzt.
  • Beispielsweise wird hinsichtlich des Erkennungsergebniskandidaten ”California Los Angeles” ein Berechnen des Absolutwertes der Differenz von der akquirierten Sprachdauer 100 ergeben, was geringer als die zweite Schwelle 800 ist. Somit wird der Erkennungsergebniskandidat als ein wahrscheinlicher Erkennungsergebniskandidat ausgewählt.
  • Hinsichtlich des Erkennungsergebniskandidaten ”California San Jose” ist andererseits der Absolutwert der Differenz von der akquirierten Sprachdauer 900, was größer als die zweite Schwelle 800 ist. Somit wird der zweite Erkennungsergebniskandidat verworfen.
  • Die Entscheidungseinheit 4A führt dieselbe Verarbeitung wie oben beschrieben für sämtliche der Erkennungsergebniskandidaten aus.
  • Hinsichtlich der als der Referenzwert verwendeten akquirierten Sprachdauer bestimmt außerdem die Erfassungseinheit 6 sie in Übereinstimmung mit dem Erkennungsmodus des Spracherkennungssystems, d. h. der Kategorie der Erkennungsziel-Wortkette.
  • 10 ist ein Diagramm, das die Verarbeitung zum Bestimmen der als der Referenzwert verwendeten akquirierten Sprachdauer durch ein Verwenden eines gesetzten Wertes entsprechend der Kategorie der Erkennungsziel-Wortkette zeigt. Die Erfassungseinheit 6 bestimmt als die Beginnzeit der Sprache einen Zeitpunkt, zu dem es in der Sprachwellenform des eingegebenen Sprachsignals erfasst wird, dass die Amplitude den Amplitudenreferenzwert erstmals entlang der Zeitbasis überschreitet.
  • Außerdem bestimmt sie als einen Endkandidaten ein Intervall, bei dem die Amplitude geringer wird als der Amplitudenreferenzwert entlang der Zeitbasis, gefolgt durch ein Erfassen der den Amplitudenreferenzwert überschreitenden Amplitude.
  • 10 zeigt ein Beispiel, das zwei Endkandidaten der Sprache hat. Ein Kandidat (1) hat einen sprachinaktiven Abschnitt von 0,7 s, und ein Kandidat (2) hat einen sprachinaktiven Abschnitt von 3,0 s.
  • Außerdem hat die Erfassungseinheit 6 eine dritte Schwelle, die gesetzt ist in Übereinstimmung mit der Kategorie der Erkennungsziel-Wortkette zum Erfassen der Endzeit einer Sprache.
  • Wenn der sprachinaktive Abschnitt des Endkandidaten nicht länger als die dritte Schwelle andauert, erfasst genauer genommen die Erfassungseinheit 6 den Kandidaten als die Endposition des eingegebenen Sprachsignals.
  • In dem Fall von 10 ist die dritte Schwelle bei 1,0 s oder mehr für den Erkennungsmodus von Adressen gesetzt, d. h. falls die Kategorie der Erkennungsziel-Wortkette ”Adresse” ist, und ist bei 0,5 s oder mehr für den Erkennungsmodus von Telefonnummern gesetzt, d. h. falls die Kategorie der Erkennungsziel-Wortkette ”Telefonnummer” ist.
  • Wenn der Erkennungsmodus Adresse gesetzt ist, erfasst die Erfassungseinheit 6 den Kandidaten (2), für den der sprachinaktive Abschnitt 1,0 s oder mehr andauert, als das Ende der Sprache. Falls der Erkennungsmodus Telefonnummer gesetzt ist, erfasst im Gegensatz dazu die Erfassungseinheit 6 den Kandidaten (1), für den der sprachinaktive Abschnitt 0,5 s oder mehr andauert, als das Ende der Sprache. Übrigens kann die dritte Schwelle für die Enderfassung gemäß der Kategorie der Erkennungsziel-Wortkette abgeändert werden.
  • Die Erfassungseinheit 6 erfasst die akquirierte Sprachdauer, die als der Referenzwert verwendet wird, mittels Erfassen des Endes der Sprache durch die dritte Schwelle entsprechend der Kategorie der Erkennungsziel-Wortkette, wie oben beschrieben. Somit bestimmt die Erfassungseinheit 6 die akquirierte Sprachdauer, die als der Referenzwert verwendet wird, aus der Kategorie der Erkennungsziel-Wortkette und der Sprachwellenform der eingegebenen Sprache.
  • Da ein Benutzer eine Sprache in Konformität mit dem Erkennungsmodus des Spracherkennungssystems gibt, ermöglicht ein Bestimmen des Referenzwertes aus der Kategorie der Erkennungsziel-Wortkette und der Sprachwellenform der eingegebenen Sprache ein Erfassen des Referenzwertes entsprechend der echten eingegebenen Sprache. Dies ermöglicht ein Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit.
  • Obwohl 7 die Ausgestaltung zeigt, in der die Spracherkennungseinheit 2 die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b umfasst, kann die Spracherkennungseinheit 2 übrigens zwei oder mehr Erkennungsfunktionseinheiten umfassen.
  • Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 2 sie die Spracherkennungseinheit 2 mit den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b, die die eingegebene Sprache erkennen; und die Entscheidungseinheit 4A, die die wahrscheinlichen Erkennungsergebniskandidaten aus den Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, auswählt gemäß den Differenzen zwischen den Dauern der Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und der akquirierten Sprachdauer, die durch die Erfassungseinheit 6 erfasst worden ist, die separat bereitgestellt ist von der Erfassungseinheit 20 der Erkennungsfunktionseinheiten.
  • Die derart angeordnete Ausgestaltung kann auf dieselbe Weise wie die vorhergehende Ausführungsform 1 die Erkennungsergebniskandidaten mit klar falschen Dauern unter den Erkennungsergebniskandidaten unterscheiden, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und die verbleibenden Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählen. Somit kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit aus den Erkennungsergebniskandidaten auswählen, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
  • Außerdem verwirft gemäß der vorliegenden Ausführungsform 2 die Entscheidungseinheit 4A die Erkennungsergebniskandidaten, für die die Differenzen zwischen den Dauern der Erkennungsergebniskandidaten, die durch die Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erfasst worden sind, und der akquirierten Sprachdauer nicht geringer als die vorbestimmte zweite Schwelle sind, und wählt den Rest als die wahrscheinlichen Erkennungsergebniskandidaten aus.
  • Auf diese Weise ermöglicht ein Tätigen einer Richtig- oder Falsch-Entscheidung durch die Differenzen zwischen den Dauern der Erkennungsergebniskandidaten und der akquirierten Sprachdauer ein Verwerfen der falsch erkannten Erkennungsergebniskandidaten mit hoher Genauigkeit.
  • Weiterhin umfasst gemäß der vorliegenden Ausführungsform 2 sie die Erfassungseinheit 6, die die akquirierte Sprachdauer aus der Kategorie der Erkennungsziel-Wortkette und aus der Wellenform der eingegebenen Sprache bestimmt.
  • Die derart angeordnete Ausgestaltung ermöglicht ein Erfassen des Referenzwertes entsprechend der echten eingegebenen Sprache. Dies macht es möglich, die wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit auszuwählen.
  • Übrigens sollte es verstanden werden, dass eine freie Kombination der individuellen Ausführungsformen, Variationen irgendwelcher Komponenten der individuellen Ausführungsformen oder ein Entfernen irgendwelcher Komponenten der individuellen Ausführungsformen innerhalb des Schutzbereichs der vorliegenden Erfindung möglich ist.
  • GEWERBLICHE ANWENDBARKEIT
  • Ein Spracherkennungssystem in Übereinstimmung mit der vorliegenden Erfindung kann wahrscheinliche Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit hoher Genauigkeit auswählen. Demgemäß wird es geeignet auf beispielsweise eine Eingabeeinrichtung eines Bordnavigationssystems und dergleichen angewendet.
  • BESCHREIBUNG DER BEZUGSZEICHEN
    • 1 Spracheingabeeinheit; 2 Spracherkennungseinheit; 2a erste Erkennungsfunktionseinheit; 2b zweite Erkennungsfunktionseinheit; 3a erste Erkennungskandidat-Akquiriereinheit; 3b zweite Erkennungskandidat-Akquiriereinheit; 4 Entscheidungseinheit; 5 Integriereinheit; 6; 20 Entscheidungseinheit; 21 Sprachsignal-Verarbeitungseinheit; 22 Vergleichseinheit; 23 Spracherkennungswörterbuch

Claims (7)

  1. Spracherkennungssystem mit: einer Spracheingabeeinheit, die Sprache eingibt; einer Spracherkennungseinheit mit einer Vielzahl von Erkennungsfunktionseinheiten, die die von der Spracheingabeeinheit akquirierte Sprache erkennen; und eine Entscheidungseinheit, die in Übereinstimmung mit Differenzen zwischen Dauern von Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, einen oder mehrere Erkennungsergebniskandidaten von den Erkennungsergebniskandidaten auswählt.
  2. Spracherkennungssystem gemäß Anspruch 1, wobei die Spracherkennungseinheit eine erste Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und eine zweite Erkennungsfunktionseinheit umfasst, die fähig ist zum Erkennen von Teilen der Wortketten; und die Entscheidungseinheit, wenn eine Differenz, die erhalten worden ist mittels Subtrahieren der Dauer eines zweiten Erkennungsergebniskandidaten, den die zweite Erkennungsfunktionseinheit erkennt, von der Dauer eines ersten Erkennungsergebniskandidaten, den die erste Erkennungsfunktionseinheit erkennt, nicht geringer als eine vorbestimmte erste Schwelle ist, den zweiten Erkennungsergebniskandidaten verwirft und den ersten Erkennungsergebniskandidaten auswählt.
  3. Spracherkennungssystem gemäß Anspruch 2 mit ferner: einer Integriereinheit, die in Übereinstimmung mit der Differenz eine Zuverlässigkeit eines zweiten Erkennungsergebniskandidaten, der nicht durch die Entscheidungseinheit verworfen wird, in einer Richtung zum Reduzieren der Zuverlässigkeit korrigiert.
  4. Spracherkennungssystem gemäß Anspruch 2, wobei die Entscheidungseinheit die vorbestimmte erste Schwelle in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette abändert.
  5. Spracherkennungssystem gemäß Anspruch 1 mit ferner: einer Erfassungseinheit, die eine akquirierte Sprachdauer vom Beginn bis zum Ende der akquirierten Sprache erfasst, wobei die Entscheidungseinheit einen Erkennungsergebniskandidaten verwirft, hinsichtlich dessen eine Differenz zwischen der Dauer von jedem der Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, und der akquirierten Sprachdauer nicht geringer als eine vorbestimmte zweite Schwelle ist.
  6. Spracherkennungssystem gemäß Anspruch 5 mit ferner: einer Integriereinheit, die in Übereinstimmung mit der Differenz zwischen der Dauer von jedem der Erkennungsergebniskandidaten, die die Entscheidungseinheit nicht verwirft, und der akquirierten Sprachdauer die Zuverlässigkeit des Erkennungsergebniskandidaten, der nicht verworfen wird, in eine Richtung zum Reduzieren der Zuverlässigkeit korrigiert.
  7. Spracherkennungssystem gemäß Anspruch 5, das die akquirierte Sprachdauer in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette und einer Schwelle einer Enderfassung der akquirierten Sprache bestimmt.
DE112013001772.5T 2013-11-29 2013-11-29 Spracherkennungssystem Active DE112013001772B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082227 WO2015079568A1 (ja) 2013-11-29 2013-11-29 音声認識装置

Publications (2)

Publication Number Publication Date
DE112013001772T5 true DE112013001772T5 (de) 2015-08-06
DE112013001772B4 DE112013001772B4 (de) 2020-02-13

Family

ID=51617794

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112013001772.5T Active DE112013001772B4 (de) 2013-11-29 2013-11-29 Spracherkennungssystem

Country Status (5)

Country Link
US (1) US9424839B2 (de)
JP (1) JP5583301B1 (de)
CN (1) CN104823235B (de)
DE (1) DE112013001772B4 (de)
WO (1) WO2015079568A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN108701459A (zh) * 2015-12-01 2018-10-23 纽昂斯通讯公司 将来自各种语音服务的结果表示为统一概念知识库
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
CN106601257B (zh) 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN110299136A (zh) * 2018-03-22 2019-10-01 上海擎感智能科技有限公司 一种用于语音识别的处理方法及其系统
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
US20210312930A1 (en) * 2018-09-27 2021-10-07 Optim Corporation Computer system, speech recognition method, and program
US11150866B2 (en) * 2018-11-13 2021-10-19 Synervoz Communications Inc. Systems and methods for contextual audio detection and communication mode transactions
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772899A (ja) 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
TW323364B (de) * 1993-11-24 1997-12-21 At & T Corp
JP3171107B2 (ja) 1996-04-26 2001-05-28 日本電気株式会社 音声認識装置
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
EP1067512B1 (de) * 1999-07-08 2007-12-26 Sony Deutschland GmbH Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP4826719B2 (ja) 2005-07-25 2011-11-30 日本電気株式会社 音声認識システム、音声認識方法、および音声認識プログラム
JPWO2007097390A1 (ja) * 2006-02-23 2009-07-16 日本電気株式会社 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
EP2221806B1 (de) * 2009-02-19 2013-07-17 Nuance Communications, Inc. Spracherkennung eines Listeneintrags
CN102013253B (zh) * 2009-09-07 2012-06-06 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
CN103065627B (zh) * 2012-12-17 2015-07-29 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法

Also Published As

Publication number Publication date
CN104823235B (zh) 2017-07-14
JPWO2015079568A1 (ja) 2017-03-16
JP5583301B1 (ja) 2014-09-03
US9424839B2 (en) 2016-08-23
CN104823235A (zh) 2015-08-05
WO2015079568A1 (ja) 2015-06-04
US20150348539A1 (en) 2015-12-03
DE112013001772B4 (de) 2020-02-13

Similar Documents

Publication Publication Date Title
DE112013001772B4 (de) Spracherkennungssystem
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
CN111429935B (zh) 一种语音话者分离方法和装置
DE112014006343T5 (de) Sprachsuchvorrichtung und Sprachsuchverfahren
CN110648670B (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
US20160019897A1 (en) Speaker recognition from telephone calls
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE112014006795B4 (de) Spracherkennungssystem und Spracherkennungsverfahren
EP1723636A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
CN111370000A (zh) 声纹识别算法评估方法、系统、移动终端及存储介质
EP0829850B1 (de) Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten
CN106971725B (zh) 一种具有优先级的声纹识方法和系统
US20200098375A1 (en) Speaker recognition method and system
EP0965088A1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
EP1406244B1 (de) Voice Activity Detection auf Basis von unüberwacht trainierten Clusterverfahren
CN115662464B (zh) 一种智能识别环境噪声的方法及系统
DE102008062923A1 (de) Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
CN114999465A (zh) 说话人分割聚类方法、装置、存储介质及电子装置
Xian et al. i-vector Evaluation of Electrocardiogram (ECG) Biometric Identification System based on Sequential Compensation Approach
JPS59124391A (ja) 音声認識処理方式
EP1298415A3 (de) Navigationssystem mit Spracherkennung
Larrota et al. Blind speaker identification for audio forensic purposes

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015180000

Ipc: G10L0015320000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final