DE112018007970T5

DE112018007970T5 - Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren

Info

Publication number: DE112018007970T5
Application number: DE112018007970.8T
Authority: DE
Inventors: Naoya Baba; Yusuke Koji
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2021-05-20
Also published as: CN112823387A; JPWO2020079733A1; JP6847324B2; WO2020079733A1; US20220036877A1

Abstract

Eine Sprachsignalverarbeitungseinheit (21) trennt individuell die geäußerte Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen. Eine Spracherkennungseinheit (22) führt eine Spracherkennung an der geäußerten Sprache jedes der von der Sprachsignalverarbeitungseinheit (21) getrennten Mitfahrer durch und berechnet einen Spracherkennungswert. Eine Punktwertverwendung-Bestimmungseinheit (23) bestimmt ein Spracherkennungsergebnis, welcher der Mitfahrer aus den Spracherkennungsergebnissen für die Mitfahrer zu verwenden ist, unter Verwendung des Spracherkennungsbewertungspunkten jedes der Mitfahrer.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung, ein Spracherkennungssystem und ein Spracherkennungsverfahren.
HINTERGRUND
Im verwandten Stand der Technik werden Spracherkennungsvorrichtungen zur Bedienung von Informationsgeräten in einem Fahrzeug durch Sprache entwickelt. Nachfolgend wird ein Sitz, auf dem die Spracherkennung in einem Fahrzeug durchgeführt wird, als „Spracherkennungszielsitz“ bezeichnet. Unter den Mitfahrern, die auf einem Spracherkennungszielsitz sitzen, wird ein Mitfahrer, der Sprache zur Bedienung ausspricht, als „Sprecher“ bezeichnet. Außerdem wird die an eine Spracherkennungsvorrichtung gerichtete Sprache eines Sprechers als „geäußerte Sprache“ bezeichnet.
Da in einem Fahrzeug verschiedene Arten von Geräuschen auftreten können, wie beispielsweise Gespräche zwischen Mitfahrern, Geräusche von fahrenden Fahrzeugen oder Führungssprache von Bordgeräten, gibt es Fälle, in denen eine Spracherkennungsvorrichtung aufgrund der Geräusche eine geäußerte Sprache fälschlicherweise erkennt. Daher detektiert eine in der Patentliteratur 1 beschriebene Spracherkennungsvorrichtung die Starteingabezeit und die Endzeit der Spracheingabe auf der Basis von Schalldaten und bestimmt auf der Basis von Bilddaten, die einen Mitfahrer erfassen, ob ein Zeitraum von der Starteingabezeit bis zur Endzeit der Spracheingabe ein Äußerungszeitraum ist, in dem der Mitfahrer spricht. Auf diese Weise unterdrückt die Spracherkennungseinrichtung eine fehlerhafte Erkennung von Sprache, die der Mitfahrer nicht geäußert hat.
LITERATURLISTE
PATENTLITERATUR
Patentliteratur 1: JP 2007-199552 A
ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Hier wird von einem Beispiel ausgegangen, bei dem die in Patentliteratur 1 beschriebene Spracherkennungsvorrichtung in einem Fahrzeug angewendet wird, in dem sich mehrere Mitfahrer an Bord befinden. In diesem Beispiel gibt es Fälle, in denen ein anderer Mitfahrer in einem Abschnitt, in dem ein bestimmter Mitfahrer spricht, den Mund in einer Weise bewegt, die dem Sprechen ähnlich ist, wie beispielsweise Gähnen, und in denen die Spracherkennungsvorrichtung fälschlicherweise feststellt, dass der andere Mitfahrer, der beispielsweise gähnt, spricht, obwohl der Mitfahrer nicht spricht, und fälschlicherweise die geäußerte Sprache des bestimmten Mitfahrers als geäußerte Sprache des anderen Mitfahrers erkennt. Auf diese Weise besteht bei Spracherkennungsvorrichtungen zur Erkennung von Sprache, die von mehreren Mitfahrern an Bord eines Fahrzeugs geäußert wird, der Nachteil, dass eine fehlerhafte Erkennung auch dann auftritt, wenn wie in der Patentliteratur 1 Tondaten und Bilder verwendet werden, die von einer Kamera aufgenommen wurden.
Die vorliegende Erfindung wurde gemacht, um den oben genannten Nachteil zu lösen, und ein Ziel der Erfindung ist es, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, in einer Spracherkennungsvorrichtung zu unterdrücken, die von einer Vielzahl von Mitfahrern verwendet wird.
LÖSUNG DER AUFGABE
Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung umfasst: eine Sprachsignalverarbeitungseinheit zum individuellen Trennen von geäußerter Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen, eine Spracherkennungseinheit zum Durchführen von Spracherkennung an der geäußerten Sprache jedes der Mitfahrer, die durch die Sprachsignalverarbeitungseinheit getrennt wurde, und zum Berechnen eines Spracherkennungspunktwerts; und eine Punktwertverwendung-Bestimmungseinheit zum Bestimmen eines Spracherkennungsergebnisses, welches der Mitfahrer aus den Spracherkennungsergebnissen für die Mitfahrer verwendet werden soll, unter Verwendung des Spracherkennungspunktwerts jedes der Mitfahrer.
VORTEILHAFTE EFFEKT DER ERFINDUNG
Gemäß der vorliegenden Erfindung ist es möglich, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, in einer Spracherkennungsvorrichtung, die von einer Vielzahl von Mitfahrern verwendet wird, zu unterdrücken.
Figurenliste

1 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung mit einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform zeigt.
2A ist ein Referenzbeispiel zur Erleichterung des Verständnisses der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform und ist ein Diagramm, das ein Beispiel für eine Situation in einem Fahrzeug illustriert.
2B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung des Referenzbeispiels in der Situation von 2A darstellt.
3A ist ein Diagramm, das ein Beispiel für eine Situation in einem Fahrzeug in der ersten Ausführungsform darstellt.
3B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der ersten Ausführungsform in der Situation von 3A zeigt.
4A ist ein Diagramm, das ein Beispiel für eine Situation in einem Fahrzeug gemäß der ersten Ausführungsform darstellt.
4B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der ersten Ausführungsform in der Situation von 4A darstellt.
5A ist ein Diagramm, das ein Beispiel für eine Situation in einem Fahrzeug gemäß der ersten Ausführungsform darstellt.
5B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der ersten Ausführungsform in der Situation von 5A darstellt.
6 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform darstellt.
7 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung mit einer Spracherkennungsvorrichtung gemäß einer zweiten Ausführungsform darstellt.
8 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform in der Situation von 3A darstellt.
9 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform in der Situation von 4A zeigt.
10 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform in der Situation von 5A veranschaulicht.
11 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform darstellt.
12 ist ein Blockdiagramm, das eine Modifikation der Spracherkennungsvorrichtung gemäß der zweiten Ausführungsform illustriert.
13 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Informationsgeräts mit einer Spracherkennungsvorrichtung gemäß einer dritten Ausführungsform darstellt.
14 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung gemäß der dritten Ausführungsform illustriert.
15 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der dritten Ausführungsform illustriert.
16 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung mit einer Spracherkennungsvorrichtung gemäß einer vierten Ausführungsform illustriert.
17 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung gemäß der vierten Ausführungsform illustriert.
18 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung gemäß der vierten Ausführungsform illustriert.
19A ist ein Diagramm, das ein Beispiel für die Hardwarekonfiguration der Spracherkennungsvorrichtungen der Ausführungsformen darstellt.
19B ist ein Diagramm, das ein weiteres Beispiel für die Hardwarekonfiguration der Spracherkennungsvorrichtungen der Ausführungsformen darstellt.

BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Um die vorliegende Erfindung näher zu beschreiben, werden im Folgenden Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.
Erste Ausführungsform
1 ist ein Blockdiagramm, das ein Ausführungsbeispiel einer Informationsvorrichtung 10 mit einer Spracherkennungsvorrichtung 20 gemäß einer ersten Ausführungsform zeigt. Die Informationsvorrichtung 10 ist beispielsweise ein Navigationssystem für ein Fahrzeug oder eine Zähleranzeige für einen Fahrer, ein Computer (PC) oder ein mobiles Informationsterminal wie ein integriertes Cockpit-System mit einem Tablet-PC und einem Smartphone. Das Informationsgerät 10 umfasst eine Tonsammelvorrichtung 11 und eine Spracherkennungsvorrichtung 20.
Es ist zu beachten, dass die Spracherkennungsvorrichtung 20, die Japanisch erkennt, im Folgenden als Beispiel beschrieben wird; die Sprache, die die Spracherkennungsvorrichtung 20 erkennt, ist jedoch nicht auf Japanisch beschränkt.
Die Spracherkennungsvorrichtung 20 umfasst eine Sprachsignalverarbeitungseinheit 21, eine Spracherkennungseinheit 22, eine Punktwertverwendung-Bestimmungseinheit 23, eine Dialogmanagement-Datenbank 24 (im Folgenden als „Dialogmanagement-DB 24“ bezeichnet) und eine Antwortbestimmungseinheit 25. Die Spracherkennungsvorrichtung 20 ist mit der Schallsammelvorrichtung 11 verbunden.
Die Schallsammelvorrichtung 11 umfasst N Mikrofone 11-1 bis 11-N (N ist eine ganze Zahl größer oder gleich 2). Es ist zu beachten, dass die Schallsammeleinrichtung 11 ein Array-Mikrofon sein kann, in dem Mikrofone mit Kugelcharakteristik 11-1 bis 11-N in konstanten Abständen angeordnet sind. Alternativ können Richtmikrofone 11-1 bis 11-N vor jedem Spracherkennungszielsitz des Fahrzeugs angeordnet sein. Die Schallsammeleinrichtung 11 kann an einer beliebigen Position angeordnet werden, solange die Sprache aller Mitfahrer, die auf den Spracherkennungszielsitzen sitzen, erfasst werden kann.
In der ersten Ausführungsform wird die Spracherkennungsvorrichtung 20 unter der Prämisse beschrieben, dass die Mikrofone 11-1 bis 11-N in einer Mikrofonanordnung (Array) enthalten sind. Die Schallsammelvorrichtung 11 gibt ein analoges Signal (A1 bis AN) (im Folgenden als „Sprachsignal“ bezeichnet) aus, das der von jedem der Mikrofone 11-1 bis 11-N gesammelten Sprache entspricht. Das heißt, die Sprachsignale A1 bis AN entsprechen den Mikrofonen 11-1 bis 11-N auf einer Eins-zu-Eins-Basis.
Die Sprachsignalverarbeitungseinheit 21 führt zunächst eine Analog-Digital-Wandlung (im Folgenden als „AD-Wandlung“ bezeichnet) an den von der Schallsammelvorrichtung 11 ausgegebenen analogen Sprachsignalen A1 bis AN durch, um digitale Sprachsignale D1 bis DN zu erhalten. Als nächstes trennt die Sprachsignalverarbeitungseinheit 21 aus den Sprachsignalen D1 bis DN die Sprachsignale d1 bis dM, die nur die geäußerte Sprache eines Sprechers enthalten, der auf den jeweiligen Zielsitzen der Spracherkennung sitzt. Es ist zu beachten, dass M eine ganze Zahl kleiner oder gleich N ist und beispielsweise der Anzahl der Spracherkennungszielplätze entspricht. Nachfolgend wird die Sprachsignalverarbeitung zum Trennen der Sprachsignale d1 bis dM von den Sprachsignalen D1 bis DN im Detail beschrieben.
Die Sprachsignalverarbeitungseinheit 21 entfernt aus den Sprachsignalen D1 bis DN einen Anteil, der einem von der gesprochenen Sprache abweichenden Geräusch entspricht (im Folgenden als „Rauschanteil“ bezeichnet). Damit die Spracherkennungseinheit 22 in der Lage ist, die geäußerte Sprache jedes der Mitfahrer unabhängig zu erkennen, umfasst die Sprachsignalverarbeitungseinheit 21 außerdem M Verarbeitungseinheiten von ersten bis M-ten Verarbeitungseinheiten 21-1 bis 21-M, und die ersten bis M-ten Verarbeitungseinheiten 21-1 bis 21-M geben M Sprachsignale d1 bis dM aus, die von den ersten bis M-ten Verarbeitungseinheiten 21-1 bis 21-M erhalten wurden, indem sie nur die Sprache eines Sprechers extrahieren, der auf den jeweiligen Spracherkennungszielplätzen sitzt.
Eine Geräuschkomponente umfasst beispielsweise eine Komponente, die dem durch die Fahrt eines Fahrzeugs erzeugten Geräusch entspricht, und eine Komponente, die der Sprache entspricht, die von einem Mitfahrer geäußert wird, der sich von dem Sprecher unter den Mitfahrern unterscheidet. Zur Entfernung von Rauschkomponenten in der Sprachsignalverarbeitungseinheit 21 können verschiedene bekannte Verfahren wie ein Strahlformungsverfahren, ein binäres Maskierungsverfahren oder ein spektrales Subtraktionsverfahren verwendet werden. Auf eine detaillierte Beschreibung der Entfernung von Rauschanteilen in der Sprachsignalverarbeitungseinheit 21 wird daher verzichtet.
Es ist zu beachten, dass in einem Fall, in dem die Sprachsignalverarbeitungseinheit 21 eine Technologie zur blinden Quellentrennung, wie beispielsweise die unabhängige Komponentenanalyse, verwendet, die Sprachsignalverarbeitungseinheit 21 eine erste Verarbeitungseinheit 21-1 umfasst, und die erste Verarbeitungseinheit 21-1 die Sprachsignale d1 bis dM von den Sprachsignalen D1 bis DN trennt. Da jedoch in einem Fall, in dem die Technologie der blinden Quellentrennung verwendet wird, eine Vielzahl von Schallquellen (das heißt eine Vielzahl von Sprechern) erforderlich ist, ist es notwendig, die Anzahl der Mitfahrer und die Anzahl der Sprecher durch eine Kamera 12 und eine Bildanalyseeinheit 26, die später beschrieben wird, zu erfassen und die Sprachsignalverarbeitungseinheit 21 über die Zahlen zu informieren.
Die Spracherkennungseinheit 22 detektiert zunächst unter den von der Sprachsignalverarbeitungseinheit 21 ausgegebenen Sprachsignalen d1 bis dM einen Sprachabschnitt (im Folgenden als „Äußerungsperiode“ bezeichnet), der einer geäußerten Sprache entspricht. Als nächstes extrahiert die Spracherkennungseinheit 22 eine Merkmalsmenge für die Spracherkennung aus der Äußerungsperiode und führt die Spracherkennung unter Verwendung der Merkmalsmenge durch. Es ist zu beachten, dass die Spracherkennungseinheit 22 M Erkennungseinheiten der ersten bis M-ten Erkennungseinheit 22-1 bis 22-M umfasst, so dass die Spracherkennung unabhängig von der geäußerten Sprache der jeweiligen Mitfahrer durchgeführt werden kann. Die ersten bis M-ten Erkennungseinheiten 22-1 bis 22-M geben an die Punktwertverwendung-Bestimmungseinheit 23 Spracherkennungsergebnisse von Äußerungsperioden, die aus den Sprachsignalen d1 bis dM erkannt wurden, Spracherkennungspunktwerte, die die Zuverlässigkeit der Spracherkennungsergebnisse angeben, und die Startzeit und die Endzeit der Äußerungsperioden aus.
Für die Spracherkennungsverarbeitung in der Spracherkennungseinheit 22 können verschiedene bekannte Verfahren wie das Hidden-Markov-Modell (HMM) verwendet werden. Daher wird auf eine detaillierte Beschreibung der Spracherkennungsverarbeitung in der Spracherkennungseinheit 22 verzichtet. Der von der Spracherkennungseinheit 22 berechnete Spracherkennungspunktwerte kann ein Wert sein, der sowohl die Ausgabewahrscheinlichkeit eines akustischen Modells als auch die Ausgabewahrscheinlichkeit eines Sprachmodells berücksichtigt, oder er kann ein akustischer Punktwert sein, der nur die Ausgabewahrscheinlichkeit eines akustischen Modells berücksichtigt.
Die den Punktwertverwendung-Bestimmungseinheit 23 bestimmt zunächst, ob es unter den von der Spracherkennungseinheit 22 ausgegebenen Spracherkennungsergebnissen identische Spracherkennungsergebnisse innerhalb einer bestimmten Zeitspanne (beispielsweise innerhalb von 1 Sekunde) gibt oder nicht. Dieser bestimmte Zeitraum ist eine Zeitspanne, in der ein Spracherkennungsergebnis eines anderen Mitfahrers durch Überlagerung der geäußerten Sprache eines Mitfahrers mit der geäußerten Sprache des anderen Mitfahrers beeinflusst werden kann, und wird der die Punktwertverwendung-Bestimmungseinheit 23 im Voraus mitgeteilt. In einem Fall, in dem es identische Spracherkennungsergebnisse innerhalb einer bestimmten Zeitspanne gibt, bezieht sich die den Punktwertverwendung-Bestimmungseinheit 23 auf den Spracherkennungspunktwert, der jedem der identischen Spracherkennungsergebnisse entspricht, und nimmt das Spracherkennungsergebnis mit dem besten Punktwert an. Ein Spracherkennungsergebnis, das nicht die beste Punktwert (Punktzahl oder Score) aufweist, wird verworfen. Andererseits übernimmt die die Punktwertverwendung-Bestimmungseinheit 23 jedes der unterschiedlichen Spracherkennungsergebnisse in einem Fall, in dem es unterschiedliche Spracherkennungsergebnisse innerhalb des bestimmten Zeitraums gibt.
Es ist zu beachten, dass es auch denkbar ist, dass eine Vielzahl von Sprechern gleichzeitig den identischen Inhalt der Äußerung spricht. Daher kann die Punktwertverwendung-Bestimmungseinheit 23 einen Schwellenwert für den Spracherkennungspunktwert festlegen, bestimmen, dass ein Mitfahrer, der dem Spracherkennungsergebnis mit einem Spracherkennungspunktwert größer oder gleich dem Schwellenwert entspricht, spricht, und dieses Spracherkennungsergebnis übernehmen. Die die Punktwertverwendung-Bestimmungseinheit 23 kann weiter den Schwellenwert für jedes Erkennungszielwort ändern. Alternativ kann die den Punktwertverwendung-Bestimmungseinheit 23 zunächst eine Schwellenwertbestimmung der Spracherkennungsergebnisse durchführen, und in einem Fall, in dem alle Spracherkennungspunkte der identischen Spracherkennungsergebnisse kleiner als der Schwellenwert sind, kann die den Punktwertverwendung-Bestimmungseinheit 23 nur das Spracherkennungsergebnis mit dem besten Punktwert übernehmen.
In der Dialogmanagement-DB 24 wird die Korrespondenz zwischen Spracherkennungsergebnissen und Funktionen, die von der Informationsvorrichtung 10 ausgeführt werden sollen, als Datenbank definiert. Zum Beispiel wird für das Spracherkennungsergebnis „Verringern Sie die Luftstrommenge der Klimaanlage um eine Stufe“ eine Funktion „Verringern Sie die Luftstrommenge der Klimaanlage.“ definiert. Im Dialogmanagement-DB 24 können weiterhin Informationen definiert werden, die angeben, ob eine Funktion von einem Sprecher abhängig ist oder nicht.
Die Antwortbestimmungseinheit 25 bezieht sich auf den Dialogmanagement-DB 24 und bestimmt eine Funktion, die dem Spracherkennungsergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit 23 angenommen wurde. In einem Fall, in dem die Punktwertverwendung-Bestimmungseinheit 23 eine Vielzahl identischer Spracherkennungsergebnisse annimmt und die Funktion nicht von einem Sprecher abhängig ist, bestimmt die Antwortbestimmungseinheit 25 ein Spracherkennungsergebnis mit dem besten Spracherkennungspunktwert, das heißt nur eine Funktion, die dem zuverlässigsten Spracherkennungsergebnis entspricht. Die Antwortbestimmungseinheit 25 gibt die ermittelte Funktion an das Informationsgerät 10 aus. Das Informationsgerät 10 führt die von der Antwortbestimmungseinheit 25 ausgegebene Funktion aus. Die Informationsvorrichtung 10 kann einen Antwortton ausgeben, um den Mitfahrer über die Ausführung der Funktion zu informieren, zum Beispiel über einen Lautsprecher, wenn die Funktion ausgeführt wird.
Hier wird eine beispielhafte Funktion, die von einem Lautsprecher abhängig ist, und eine beispielhafte Funktion, die nicht von einem Lautsprecher abhängig ist, beschrieben.
In Bezug auf den Betrieb der Klimaanlage können beispielsweise für jeden Sitzplatz unterschiedliche Luftstrommengen und Temperaturen eingestellt werden, so dass es notwendig ist, für jeden Sprecher eine Funktion auszuführen, auch wenn die Ergebnisse der Spracherkennung gleich sind. Genauer gesagt, nehmen wir an, dass die Spracherkennungsergebnisse der geäußerten Sprache eines ersten Mitfahrers 1 und eines zweiten Mitfahrers 2 „Senken Sie die Temperatur der Klimaanlage“ lauten und dass die Spracherkennungswerte beider Spracherkennungsergebnisse größer oder gleich einem Schwellenwert sind. In diesem Fall bestimmt die Antwortbestimmungseinheit 25, dass die Funktion „Verringern des Luftstromvolumens der Klimaanlage um eine Stufe“, die dem Spracherkennungsergebnis „Senken der Temperatur der Klimaanlage“ entspricht, von einem Sprecher abhängig ist, und führt eine Funktion zum Senken der Temperatur der Klimaanlage für den ersten Mitfahrer 1 und den zweiten Mitfahrer 2 aus.
In der Zwischenzeit ist es für Funktionen wie Zielsuche und Musikwiedergabe, die nicht von einem Sprecher abhängig sind, sondern von allen Mitfahrern gemeinsam genutzt werden, nicht notwendig, eine solche Funktion für jeden Sprecher auszuführen, wenn die Spracherkennungsergebnisse identisch sind. Daher bestimmt die Antwortbestimmungseinheit 25 in einem Fall, in dem es mehrere identische Spracherkennungsergebnisse gibt und eine Funktion, die den Spracherkennungsergebnissen entspricht, nicht von einem Sprecher abhängig ist, eine Funktion, die nur dem Spracherkennungsergebnis mit der besten Punktzahl entspricht. Genauer gesagt, nehmen wir an, dass die Spracherkennungsergebnisse der geäußerten Sprache des ersten Mitfahrers 1 und des zweiten Mitfahrers 2 „Musik spielen“ sind und dass die Spracherkennungsergebnisse beider Spracherkennungsergebnisse größer oder gleich einem Schwellenwert sind. In diesem Fall bestimmt die Antwortbestimmungseinheit 25, dass die Funktion „Musik wiedergeben“, die dem Spracherkennungsergebnis „Musik abspielen“ entspricht, nicht von einem Sprecher abhängig ist, und führt eine Funktion aus, die derjenigen mit einem höheren Spracherkennungswert aus dem Spracherkennungsergebnis des ersten Mitfahrers 1 und dem Spracherkennungsergebnis des zweiten Mitfahrers 2 entspricht.
Als nächstes wird ein konkretes Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben.
Zunächst wird ein Referenzbeispiel zur Erleichterung des Verständnisses der Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform unter Bezugnahme auf 2A und 2B beschrieben. In 2A sind eine Informationsvorrichtung 10A und eine Spracherkennungsvorrichtung 20A des Referenzbeispiels in einem Fahrzeug installiert. Die Spracherkennungsvorrichtung 20A des Referenzbeispiels entspricht der in der zuvor beschriebenen Patentliteratur 1 beschriebenen Spracherkennungsvorrichtung. 2B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 des Referenzbeispiels in der Situation von 2A zeigt.
In 2A sitzen vier Mitfahrer des ersten bis vierten Mitfahrers 1 bis 4 auf den Zielsitzen der Spracherkennungsvorrichtung 20A. Der erste Mitfahrer 1 spricht „Luftstrommenge der Klimaanlage reduzieren“. Der zweite Mitfahrer 2 und der vierte Mitfahrer 4 sprechen nicht. Der dritte Mitfahrer 3 gähnt zufällig, während der erste Mitfahrer 1 spricht. Die Spracherkennungsvorrichtung 20A erkennt eine Sprechperiode unter Verwendung eines Sprachsignals und bestimmt, ob die Sprechperiode eine geeignete Sprechperiode ist, indem sie ein von einer Kamera aufgenommenes Bild verwendet (das heißt, ob es eine Sprechperiode gibt oder nicht). In dieser Situation sollte die Spracherkennungsvorrichtung 20A nur das Spracherkennungsergebnis „Reduziere die Luftstrommenge der Klimaanlage“ des ersten Mitfahrers 1 ausgeben. Da die Spracherkennungsvorrichtung 20A die Spracherkennung jedoch nicht nur für den ersten Mitfahrer 1, sondern auch für den zweiten Mitfahrer 2, den dritten Mitfahrer 3 und den vierten Mitfahrer 4 durchführt, gibt es Fälle, in denen Sprache auch für den zweiten Mitfahrer 2 und den dritten Mitfahrer 3 fehlerhaft erkannt wird, wie in 2B dargestellt. Was den zweiten Mitfahrer 2 betrifft, kann die Spracherkennungsvorrichtung 20A feststellen, dass der zweite Mitfahrer 2 nicht spricht, indem sie anhand des von der Kamera aufgenommenen Bildes feststellt, ob der zweite Mitfahrer 2 spricht oder nicht, und kann das Spracherkennungsergebnis „Luftstromvolumen der Klimaanlage reduzieren“ zurückweisen. In einem Fall, in dem der dritte Mitfahrer 3 zufällig gähnt und der Mund sich ähnlich wie beim Sprechen bewegt, bestimmt die Spracherkennungsvorrichtung 20A fälschlicherweise, dass der dritte Mitfahrer 3 spricht, obwohl die Bestimmung, ob der dritte Mitfahrer 3 spricht, unter Verwendung des von der Kamera aufgenommenen Bildes erfolgt. Dann kommt es zu der irrtümlichen Erkennung, dass der dritte Mitfahrer 3 spricht „Reduzieren Sie die Luftstrommenge der Klimaanlage“. In diesem Fall antwortet die Informationsvorrichtung 10A entsprechend dem Spracherkennungsergebnis der Spracherkennungsvorrichtung 20A fälschlicherweise „Luftstromvolumen der Klimaanlage für den vorderen linken Sitz und den hinteren linken Sitz verringern“.
3A ist ein Diagramm, das ein Beispiel für eine Situation im Fahrzeug in der ersten Ausführungsform zeigt. 3B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform in der Situation von 3A darstellt. In 3A spricht der erste Beifahrer 1 wie in 2A „Luftstrommenge der Klimaanlage reduzieren“. Der zweite Mitfahrer 2 und der vierte Mitfahrer 4 sind nicht am Sprechen. Der dritte Mitfahrer 3 gähnt gerade, während der erste Mitfahrer 1 spricht. In einem Fall, in dem die Sprachsignalverarbeitungseinheit 21 nicht in der Lage war, die geäußerte Sprache des ersten Mitfahrers 1 vollständig von den Sprachsignalen d2 und d3 zu trennen, bleibt die geäußerte Sprache des ersten Mitfahrers 1 im Sprachsignal d2 des zweiten Mitfahrers 2 und im Sprachsignal d3 des dritten Mitfahrers 3 enthalten. In diesem Fall detektiert die Spracherkennungseinheit 22 aus den Sprachsignalen d1 bis d3 der ersten bis dritten Mitfahrer 1 bis 3 Äußerungsperioden und erkennt die Sprache von „Luftmenge der Klimaanlage reduzieren“. Da die Sprachsignalverarbeitungseinheit 21 jedoch den geäußerten Sprachanteil des ersten Mitfahrers 1 aus dem Sprachsignal d2 des zweiten Mitfahrers 2 und dem Sprachsignal d3 des dritten Mitfahrers 3 abgeschwächt hat, sind die Spracherkennungswerte, die den Sprachsignalen d2 und d3 entsprechen, niedriger als der Spracherkennungswert des Sprachsignals d1, in dem die geäußerte Sprache betont ist. Die den Punktwertverwendung-Bestimmungseinheit 23 vergleicht die Spracherkennungspunkte, die den identischen Spracherkennungsergebnissen für die ersten bis dritten Mitfahrer 1 bis 3 entsprechen, und übernimmt nur das Spracherkennungsergebnis des ersten Mitfahrers 1, das dem besten Spracherkennungspunkt entspricht. Die Punktwertverwendung-Bestimmungseinheit 23 bestimmt weiter die Spracherkennungsergebnisse des zweiten Mitfahrers 2 und des dritten Mitfahrers 3 als nicht sprechend, da sie nicht den besten Spracherkennungspunktwert aufweisen und verwirft die Spracherkennungsergebnisse. Dadurch kann die Spracherkennungsvorrichtung 20 ein unnötiges Spracherkennungsergebnis, das dem dritten Mitfahrer 3 entspricht, verwerfen und das Spracherkennungsergebnis nur des ersten Mitfahrers 1 entsprechend übernehmen. In diesem Fall kann die Informationsvorrichtung 10 eine korrekte Antwort „Absenken der Luftstrommenge der Klimaanlage für den vorderen linken Sitz“ in Übereinstimmung mit dem Spracherkennungsergebnis der Spracherkennungsvorrichtung 20 zurückgeben.
4A ist ein Diagramm, das ein Beispiel für eine Situation im Fahrzeug in der ersten Ausführungsform darstellt. 4B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform in der Situation von 4A darstellt. Im Beispiel von 4A spricht der erste Beifahrer 1 „Luftstrommenge der Klimaanlage reduzieren“, während der zweite Beifahrer 2 „Musik abspielen“ spricht. Der dritte Mitfahrer 3 gähnt, während der erste Mitfahrer 1 und der zweite Mitfahrer 2 sprechen. Der vierte Mitfahrer 4 spricht nicht. Trotz des Zustands, in dem der dritte Mitfahrer 3 nicht spricht, erkennt die Spracherkennungseinheit 22 die Sprache „Luftstrommenge der Klimaanlage reduzieren“ für den ersten Mitfahrer 1 und den dritten Mitfahrer 3. Die Bewertungseinheit 23 übernimmt jedoch das Spracherkennungsergebnis des ersten Mitfahrers 1 mit dem besten Spracherkennungspunktwert und lehnt das Spracherkennungsergebnis des dritten Mitfahrers 3 ab. In der Zwischenzeit unterscheidet sich das Spracherkennungsergebnis von „Musik abspielen“ des zweiten Mitfahrers 2 von den Spracherkennungsergebnissen des ersten Mitfahrers 1 und des dritten Mitfahrers 3, und daher übernimmt die Punktwertverwendung-Bestimmungseinheit 23 das Spracherkennungsergebnis des zweiten Mitfahrers 2, ohne einen Vergleich zwischen den Spracherkennungsergebnissen durchzuführen. In diesem Fall kann die Informationsvorrichtung 10 die korrekten Antworten „Absenken der Luftstrommenge der Klimaanlage für den vorderen linken Sitz“ und „Abspielen von Musik“ in Übereinstimmung mit den Spracherkennungsergebnissen der Spracherkennungsvorrichtung 20 zurückgeben.
5A ist ein Diagramm, das ein Beispiel für eine Situation im Fahrzeug in der ersten Ausführungsform darstellt. 5B ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform in der Situation von 5A darstellt. In 5A sprechen der erste Beifahrer 1 und der zweite Beifahrer 2 im Wesentlichen gleichzeitig „Reduzieren Sie die Luftstrommenge der Klimaanlage“, und der dritte Beifahrer 3 gähnt, während sie sprechen. Der vierte Mitfahrer 4 spricht nicht. Der dritte Mitfahrer 3 gähnt, während der erste Mitfahrer 1 und der zweite Mitfahrer 2 sprechen. Der vierte Mitfahrer 4 spricht nicht. Trotz des Zustands, in dem der dritte Mitfahrer 3 nicht spricht, erkennt die Spracherkennungseinheit 22 die Sprache „Luftstrommenge der Klimaanlage reduzieren“ für den ersten Mitfahrer 1, den zweiten Mitfahrer 2 und den dritten Mitfahrer 3. In diesem Beispiel vergleicht die Punktwertverwendung-Bestimmungseinheit 23 einen Schwellenwert von „5000“ für Spracherkennungsergebnisse mit den Spracherkennungsergebnissen, die den identischen Spracherkennungsergebnissen des ersten bis dritten Mitfahrers 1 bis 3 entsprechen. Dann übernimmt die Punktwertverwendung-Bestimmungseinheit 23 die Spracherkennungsergebnisse des ersten Mitfahrers 1 und des zweiten Mitfahrers 2, die einen Spracherkennungswert größer oder gleich dem Schwellenwert „5000“ haben. In der Zwischenzeit lehnt die Punktwertverwendung-Bestimmungseinheit 23 das Spracherkennungsergebnis des dritten Mitfahrers 3 ab, dessen Spracherkennungsergebnis kleiner als der Schwellenwert „5000“ ist. In diesem Fall kann die Informationsvorrichtung 10 eine korrekte Antwort „Absenken der Luftstrommenge der Klimaanlage für die Vordersitze“ in Übereinstimmung mit den Spracherkennungsergebnissen der Spracherkennungsvorrichtung 20 zurückgeben.
Als nächstes wird ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben.
6 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform zeigt. Die Spracherkennungsvorrichtung 20 wiederholt den im Flussdiagramm von 6 dargestellten Vorgang, zum Beispiel während des Betriebs der Informationsvorrichtung 10.
Im Schritt ST001 wandelt die Sprachsignalverarbeitungseinheit 21 AD-Sprachsignale A1 bis AN, die von der Schallsammeleinrichtung 11 ausgegeben werden, in Sprachsignale D1 bis DN um.
In Schritt ST002 führt die Sprachsignalverarbeitungseinheit 21 eine Sprachsignalverarbeitung zum Entfernen von Rauschkomponenten an den Sprachsignalen D1 bis DN aus, um Sprachsignale d1 bis dM zu erhalten, in denen der Inhalt der Äußerung für jeden der auf den Zielsitzen der Spracherkennung sitzenden Mitfahrer getrennt ist. Zum Beispiel in einem Fall, in dem die ersten bis vierten Mitfahrer 1 bis 4 im Fahrzeug sitzen, wie in 3A dargestellt, gibt die Sprachsignalverarbeitungseinheit 21 das Sprachsignal d1 aus, das die Richtung des ersten Mitfahrers 1 betont, das Sprachsignal d2, das die Richtung des zweiten Mitfahrers 2 betont, das Sprachsignal d3, das die Richtung des dritten Mitfahrers 3 betont, und das Sprachsignal d4, das die Richtung des vierten Mitfahrers 4 betont.
In Schritt ST003 detektiert die Spracherkennungseinheit 22 anhand der Sprachsignale d1 bis dM Äußerungsperioden für die jeweiligen Mitfahrer. In Schritt ST004 extrahiert die Spracherkennungseinheit 22 unter Verwendung der Sprachsignale d1 bis dM Merkmalsmengen von Sprache, die den erkannten Äußerungsperioden entsprechen, führt eine Spracherkennung durch und berechnet Spracherkennungswerte.
Es ist zu beachten, dass im Beispiel von 6 die Spracherkennungseinheit 22 und die die Punktwertverwendung-Bestimmungseinheit 23 keine Prozesse nach Schritt ST004 bei einem Mitfahrer ausführen, für den in Schritt ST003 keine Äußerungsperiode erkannt wurde.
In Schritt ST005 vergleicht die Punktwertverwendung-Bestimmungseinheit 23 die Spracherkennungspunkte von Spracherkennungsergebnissen, die von der Spracherkennungseinheit 22 ausgegeben werden, mit einem Schwellenwert, bestimmt einen Mitfahrer, der einem Spracherkennungsergebnis mit einem Spracherkennungspunktwert größer oder gleich dem Schwellenwert entspricht, als sprechend, und gibt das Spracherkennungsergebnis an die Punktwertverwendung-Bestimmungseinheit 23 aus („JA“ in Schritt ST005). Andererseits bestimmt die die Punktwertverwendung-Bestimmungseinheit 23 einen Mitfahrer, der einem Spracherkennungsergebnis mit einer Spracherkennungspunktzahl kleiner als der Schwellenwert entspricht, als nicht sprechend („NO“ in Schritt ST005).
In Schritt ST006 bestimmt die die Punktwertverwendung-Bestimmungseinheit 23, ob es eine Vielzahl von identischen Spracherkennungsergebnissen innerhalb einer bestimmten Zeitspanne unter den Spracherkennungsergebnissen gibt, die Mitfahrern entsprechen, die als sprechend bestimmt wurden oder nicht. Wenn die die Punktwertverwendung-Bestimmungseinheit 23 bestimmt, dass es eine Vielzahl von identischen Spracherkennungsergebnissen innerhalb einer bestimmten Zeitspanne gibt („JA“ in Schritt ST006), nimmt die die Punktwertverwendung-Bestimmungseinheit 23 ein Spracherkennungsergebnis mit der besten Punktzahl unter der Vielzahl von identischen Spracherkennungsergebnissen in Schritt ST007 an („JA“ in Schritt ST007). In Schritt ST008 bezieht sich die Antwortbestimmungseinheit 25 auf den Dialogmanagement-DB 24 und bestimmt die Funktion, die dem von der Punktwertverwendung-Bestimmungseinheit 23 angenommenen Spracherkennungsergebnis entspricht. Andererseits lehnt die die Punktwertverwendung-Bestimmungseinheit 23 andere Spracherkennungsergebnisse als das Spracherkennungsergebnis mit der besten Punktzahl unter der Vielzahl identischer Spracherkennungsergebnisse ab („NO“ in Schritt ST007).
Wenn es ein Spracherkennungsergebnis gibt, das einem Mitfahrer entspricht, von dem bestimmt wird, dass er innerhalb eines bestimmten Zeitraums spricht, oder wenn es eine Vielzahl von Spracherkennungsergebnissen innerhalb eines bestimmten Zeitraums gibt, aber die Spracherkennungsergebnisse nicht identisch sind („NEIN“ in Schritt ST006), fährt der Prozess mit Schritt ST008 fort. In Schritt ST008 bezieht sich die Antwortbestimmungseinheit 25 auf den Dialogmanagement-DB 24 und bestimmt die Funktion, die dem Spracherkennungsergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit 23 angenommen wurde.
Es ist zu beachten, dass, obwohl die Punktwertverwendung-Bestimmungseinheit 23 die Schwellenwertbestimmung in Schritt ST005 in 6 ausführt, die Schwellenwertbestimmung möglicherweise nicht durchgeführt wird. Übrigens, obwohl die die Punktwertverwendung-Bestimmungseinheit 23 ein Spracherkennungsergebnis mit der besten Punktzahl in Schritt ST007 annimmt, kann ein Spracherkennungsergebnis mit einer Spracherkennungspunktzahl, die größer oder gleich dem Schwellenwert ist, angenommen werden. Die Antwortbestimmungseinheit 25 kann weiter berücksichtigen, ob die Funktion von einem Sprecher abhängig ist oder nicht, wenn sie eine Funktion bestimmt, die dem Spracherkennungsergebnis in Schritt ST008 entspricht.
Wie oben beschrieben, umfasst die Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform die Sprachsignalverarbeitungseinheit 21, die Spracherkennungseinheit 22 und die Punktwertverwendung-Bestimmungseinheit 23. Die Sprachsignalverarbeitungseinheit 21 trennt geäußerte Sprache einer Vielzahl von Mitfahrern, die auf einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen, in geäußerte Sprache jedes der Mitfahrer. Die Spracherkennungseinheit 22 führt eine Spracherkennung an der geäußerten Sprache jedes der von der Sprachsignalverarbeitungseinheit 21 getrennten Mitfahrer durch und berechnet einen Spracherkennungswert. Die den Punktwertverwendung-Bestimmungseinheit 23 bestimmt, welchem Mitfahrer ein Spracherkennungsergebnis entspricht, um aus den Spracherkennungsergebnissen für die jeweiligen Mitfahrer einen Spracherkennungspunktwert für jeden der Mitfahrer zu übernehmen. Mit dieser Konfiguration ist es möglich, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, in der Spracherkennungsvorrichtung 20 zu unterdrücken, die von einer Vielzahl von Mitfahrern verwendet wird.
Außerdem umfasst die Spracherkennungsvorrichtung 20 gemäß der ersten Ausführungsform den Dialogmanagement-DB 24 und die Antwortbestimmungseinheit 25. Der Dialogmanagement-DB 24 definiert die Korrespondenz zwischen Spracherkennungsergebnissen und auszuführenden Funktionen. Die Antwortbestimmungseinheit 25 bezieht sich auf den Dialogverwaltungs-DB 24 und bestimmt eine Funktion, die dem Spracherkennungsergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit 23 übernommen wurde. Mit dieser Konfiguration ist es in der Informationseinrichtung 10, die von mehreren Mitfahrern per Sprache bedient wird, möglich, die fehlerhafte Ausführung einer Funktion für die von einem anderen Mitfahrer geäußerte Sprache zu unterdrücken.
Es ist zu beachten, dass, obwohl das Beispiel in der ersten Ausführungsform beschrieben wurde, in der die Spracherkennungsvorrichtung 20 den Dialogverwaltungs-DB 24 und die Antwortbestimmungseinheit 25 umfasst, die Informationsvorrichtung 10 den Dialogverwaltungs-DB 24 und die Antwortbestimmungseinheit 25 umfassen kann. In diesem Fall gibt die Punktwertverwendung-Bestimmungseinheit 23 das angenommene Spracherkennungsergebnis an die Antwortbestimmungseinheit 25 der Informationsvorrichtung 10 aus.
Zweite Ausführungsform
7 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung 10 mit einer Spracherkennungsvorrichtung 20 gemäß einer zweiten Ausführungsform zeigt. Die Informationsvorrichtung 10 gemäß der zweiten Ausführungsform hat eine Konfiguration, in der eine Kamera 12 zu der Informationsvorrichtung 10 gemäß der in 1 dargestellten ersten Ausführungsform hinzugefügt ist. Die Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform weist eine Konfiguration auf, in der eine Bildanalyseeinheit 26 und eine Bildverwendung-Bestimmungseinheit 27 zu der Spracherkennungsvorrichtung 20 der in 1 dargestellten ersten Ausführungsform weiter hinzugefügt werden. In 7 ist derselbe oder ein entsprechender Teil wie in 1 mit demselben Symbol gekennzeichnet, und eine Beschreibung desselben entfällt.
Die Kamera 12 nimmt das Innere eines Fahrzeugs auf. Die Kamera 12 umfasst beispielsweise eine Infrarotkamera oder eine Kamera mit sichtbarem Licht und hat einen Blickwinkel, der es ermöglicht, zumindest einen Bereich einschließlich der Gesichter von Mitfahrern, die auf Zielsitzen der Spracherkennung sitzen, zu erfassen. Es ist zu beachten, dass die Kamera 12 mehrere Kameras umfassen kann, um Bilder von den Gesichtern aller Mitfahrer zu erfassen, die auf den jeweiligen Spracherkennungszielsitzen sitzen.
Die Bildanalyseeinheit 26 erfasst Bilddaten, die von der Kamera 12 mit konstanten Zyklen, wie beispielsweise 30 Bildern pro Sekunde (fps), erfasst wurden, und extrahiert einen Gesichtsmerkmalsbetrag, der ein gesichtsbezogener Merkmalsbetrag aus den Bilddaten ist. Ein Gesichtsmerkmalsbetrag umfasst beispielsweise Koordinatenwerte der Oberlippe und der Unterlippe und den Öffnungsgrad des Mundes. Es ist zu beachten, dass die Bildanalyseeinheit 26 M Analyseeinheiten von der ersten bis zur M-ten Analyseeinheit 26-1 bis 26-M hat, so dass Gesichtsmerkmalsbeträge der jeweiligen Mitfahrer unabhängig voneinander extrahiert werden können. Die ersten bis M-ten Analyseeinheiten 26-1 bis 26-M geben die Gesichtsmerkmalbeträge der jeweiligen Mitfahrer und den Zeitpunkt, zu dem die Gesichtsmerkmalbeträge extrahiert wurden (im Folgenden als „Zeitpunkt der Extraktion der Gesichtsmerkmalbeträge“ bezeichnet), an die Bildverwendung-Bestimmungseinheit 27 aus.
Die Bildverwendung-Bestimmungseinheit 27 extrahiert einen Gesichtsmerkmalbetrag, der einer Äußerungsperiode entspricht, unter Verwendung der Startzeit und der Endzeit der Äußerungsperiode, die von der Spracherkennungseinheit 22 ausgegeben werden, und eines Gesichtsmerkmalbetrags und einer extrahierten Gesichtsmerkmalzeit, die von der Bildanalyseeinheit 26 ausgegeben werden. Dann bestimmt die Bildverwendung-Bestimmungseinheit 27 anhand des Gesichtsmerkmalsbetrags, der dem Äußerungszeitraum entspricht, ob der Mitfahrer spricht oder nicht. Es ist zu beachten, dass die Bildverwendung-Bestimmungseinheit 27 M Bestimmungseinheiten von der ersten bis zur M-ten Bestimmungseinheit 27-1 bis 27-M hat, so dass für jeden der Mitfahrer unabhängig bestimmt werden kann, ob eine Äußerung vorliegt oder nicht. Zum Beispiel bestimmt die erste Bestimmungseinheit 27-1, ob der erste Mitfahrer 1 spricht oder nicht, indem sie einen Gesichtsmerkmalbetrag extrahiert, der einer Äußerungsperiode des ersten Mitfahrers 1 entspricht, unter Verwendung der Startzeit und der Endzeit der Äußerungsperiode des ersten Mitfahrers 1, die von einer ersten Erkennungseinheit 22-1 ausgegeben werden, und eines Gesichtsmerkmalbetrags und einer extrahierten Gesichtsmerkmalzeit des ersten Mitfahrers 1, die von der ersten Analyseeinheit 26-1 ausgegeben werden. Die ersten bis M-ten Bestimmungseinheiten 27-1 bis 27-M geben die Äußerungsbestimmungsergebnisse der jeweiligen Mitfahrer unter Verwendung von Bildern, Spracherkennungsergebnissen und Spracherkennungspunktwerten der Spracherkennungsergebnisse an eine Punktwertverwendung-Bestimmungseinheit 23B aus.
Es ist zu beachten, dass die Bildverwendung-Bestimmungseinheit 27 bestimmen kann, ob eine Äußerung vorliegt oder nicht, indem sie beispielsweise den Öffnungsgrad des Mundes quantifiziert, der in einer Gesichtsmerkmalsbetrag enthalten ist, und den quantisierten Öffnungsgrad des Mundes mit einem vorbestimmten Schwellenwert vergleicht. Alternativ können ein Äußerungsmodell und ein Nicht-Äußerungsmodell im Voraus beispielsweise durch maschinelles Lernen unter Verwendung von Trainingsbildern erstellt werden, und die Bildverwendung-Bestimmungseinheit 27 kann unter Verwendung dieser Modelle bestimmen, ob eine Äußerung vorliegt oder nicht. Die Bildverwendung-Bestimmungseinheit 27 kann weiter einen Bestimmungspunktwert berechnen, die die Zuverlässigkeit der Bestimmung anzeigt, wenn die Bestimmung unter Verwendung der Modelle erfolgt.
Hier bestimmt die Bildverwendung-Bestimmungseinheit 27, ob eine Äußerung vorliegt oder nicht, nur für einen Mitfahrer, für den die Spracherkennungseinheit 22 eine Äußerungsperiode erkannt hat. Zum Beispiel in der in 3A dargestellten Situation haben die ersten bis dritten Erkennungseinheiten 22-1 bis 22-3 Äußerungsperioden für die ersten bis dritten Mitfahrer 1 bis 3 erkannt, und daher bestimmen die ersten bis dritten Bestimmungseinheiten 27-1 bis 27-3, ob die ersten bis dritten Mitfahrer 1 bis 3 sprechen. In der Zwischenzeit bestimmt die vierte Bestimmungseinheit 27-4 nicht, ob der vierte Mitfahrer 4 spricht oder nicht, da die vierte Erkennungseinheit 22-4 keine Äußerungsperiode für den vierten Mitfahrer 4 erkannt hat.
Die den Punktwertverwendung-Bestimmungseinheit 23B arbeitet ähnlich wie die den Punktwertverwendung-Bestimmungseinheit 23 der ersten Ausführungsform. Jedoch bestimmt die Punktwertverwendung-Bestimmungseinheit 23B, welches Spracherkennungsergebnis übernommen werden soll, unter Verwendung eines Spracherkennungsergebnisses eines Mitfahrers, der von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurde, und eines Spracherkennungspunktwertes des Spracherkennungsergebnisses.
Als nächstes wird ein spezifisches Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben.
8 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform in der Situation von 3A zeigt. Die Bildverwendung-Bestimmungseinheit 27 bestimmt, ob die ersten bis dritten Mitfahrer 1 bis 3 sprechen, für die eine Äußerungsperiode durch die Spracherkennungseinheit 22 erkannt wurde. Da der erste Mitfahrer 1 „Luftstrommenge der Klimaanlage reduzieren“ spricht, stellt die Bildverwendung-Bestimmungseinheit 27 fest, dass eine Äußerung vorliegt. Da der zweite Mitfahrer 2 den Mund schließt, stellt die bildverarbeitende Bestimmungseinheit 27 fest, dass keine Äußerung vorliegt. Da der dritte Mitfahrer 3 gähnt und den Mund ähnlich wie beim Sprechen bewegt, ermittelt die Bildverwendung-Bestimmungseinheit 27 fälschlicherweise, dass eine Äußerung vorliegt. Die Punktwertverwendung-Bestimmungseinheit 23B vergleicht Spracherkennungspunktwerte, die den identischen Spracherkennungsergebnissen für den ersten Mitfahrer 1 und den dritten Mitfahrer 3 entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, und übernimmt nur das Spracherkennungsergebnis des ersten Mitfahrers 1, das dem besten Spracherkennungspunktwert entspricht.
9 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform in der Situation von 4A zeigt. Die Bildverwendung-Bestimmungseinheit 27 bestimmt, ob die ersten bis dritten Mitfahrer 1 bis 3 sprechen, für die eine Äußerungsperiode durch die Spracherkennungseinheit 22 erkannt wurde. Da der erste Mitfahrer 1 „Luftstrommenge der Klimaanlage reduzieren“ spricht, bestimmt die Bildverwendung-Bestimmungseinheit 27, dass eine Äußerung vorliegt. Da der zweite Mitfahrer 2 „Musik abspielen“ spricht, stellt die bildverarbeitende Bestimmungseinheit 27 fest, dass eine Äußerung vorliegt. Da der dritte Mitfahrer 3 gähnt und den Mund ähnlich wie beim Sprechen bewegt, bestimmt die Bildverwendung-Bestimmungseinheit 27 fälschlicherweise, dass eine Äußerung vorliegt. Die Punktwertverwendung-Bestimmungseinheit 23B vergleicht Spracherkennungspunkte, die den identischen Spracherkennungsergebnissen für den ersten Mitfahrer 1 und den dritten Mitfahrer 3 entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, und nimmt nur das Spracherkennungsergebnis des ersten Mitfahrers 1 an, das dem besten Spracherkennungspunkt entspricht. In der Zwischenzeit unterscheidet sich das Spracherkennungsergebnis von „Musik abspielen“ des zweiten Mitfahrers 2 von den Spracherkennungsergebnissen des ersten Mitfahrers 1 und des dritten Mitfahrers 3, und daher übernimmt die den Punktwertverwendung-Bestimmungseinheit 23B das Spracherkennungsergebnis des zweiten Mitfahrers 2, ohne einen Vergleich zwischen den Spracherkennungspunkten durchzuführen.
10 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform in der Situation von 5A zeigt. Die Bildverwendung-Bestimmungseinheit 27 bestimmt, ob die ersten bis dritten Mitfahrer 1 bis 3 sprechen oder nicht, für die eine Äußerungsperiode von der Spracherkennungseinheit 22 erkannt wurde. Da der erste Mitfahrer 1 und der zweite Mitfahrer 2 „Reduzieren Sie die Luftstrommenge der Klimaanlage“ sprechen, bestimmt die Bildverwendung-Bestimmungseinheit 27, dass eine Äußerung vorliegt. Da der dritte Mitfahrer 3 gähnt und den Mund in ähnlicher Weise wie beim Sprechen bewegt, bestimmt die Bildverwendung-Bestimmungseinheit 27 fälschlicherweise, dass eine Äußerung vorliegt. In diesem Beispiel vergleicht die Punktwertverwendung-Bestimmungseinheit 23B einen Schwellenwert von „5000“ für Spracherkennungsergebnisse mit den Spracherkennungsergebnissen, die den identischen Spracherkennungsergebnissen des ersten bis dritten Mitfahrers 1 bis 3 entsprechen. Dann übernimmt die Punktwertverwendung-Bestimmungseinheit 23B die Spracherkennungsergebnisse des ersten Mitfahrers 1 und des zweiten Mitfahrers 2, die einen Spracherkennungswert größer oder gleich dem Schwellenwert „5000“ haben.
Als nächstes wird ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben.
11 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform zeigt. Die Spracherkennungsvorrichtung 20 wiederholt den im Flussdiagramm von 11 dargestellten Vorgang, während beispielsweise die Informationsvorrichtung 10 in Betrieb ist. Da die Schritte ST001 bis ST004 in 11 der gleiche Vorgang sind wie die Schritte ST001 bis ST004 in 6 der ersten Ausführungsform, wird deren Beschreibung weggelassen.
In Schritt ST011 erfasst die Bildanalyseeinheit 26 in konstanten Zyklen Bilddaten von der Kamera 12. In Schritt ST012 extrahiert die Bildanalyseeinheit 26 einen Gesichtsmerkmalbetrag für jeden der Mitfahrer, die auf den Zielsitzen für die Spracherkennung sitzen, aus den erfassten Bilddaten und gibt den Gesichtsmerkmalbetrag und die extrahierte Zeit des Gesichtsmerkmalbetrags an die Bildverwendung-Bestimmungseinheit 27 aus.
In Schritt ST013 extrahiert die Bildverwendung-Bestimmungseinheit 27 einen Gesichtsmerkmalbetrag, der einer Äußerungsperiode entspricht, unter Verwendung der Startzeit und der Endzeit der Äußerungsperiode, die von der Spracherkennungseinheit 22 ausgegeben werden, und eines Gesichtsmerkmalbetrags und eines extrahierten Gesichtsmerkmalbetrags, die von der Bildanalyseeinheit 26 ausgegeben werden. Dann bestimmt die Bildverwendung-Bestimmungseinheit 27, dass ein Mitfahrer, dessen Äußerungsperiode erkannt wurde und dessen Mund sich in ähnlicher Weise wie beim Sprechen in der Äußerungsperiode bewegt („YES“ in Schritt ST013). In der Zwischenzeit bestimmt die Bildverwendung-Bestimmungseinheit 27, dass ein Mitfahrer, dessen Äußerungsperiode nicht erkannt wurde, oder ein Mitfahrer, dessen Äußerungsperiode erkannt wurde, aber dessen Mund sich nicht in einer ähnlichen Weise wie beim Sprechen in der Äußerungsperiode bewegt, nicht spricht („NO“ in Schritt ST013).
In den Schritten ST006 bis ST008 bestimmt die die Punktwertverwendung-Bestimmungseinheit 23B, ob es eine Vielzahl von identischen Spracherkennungsergebnissen innerhalb einer bestimmten Zeitspanne unter den Spracherkennungsergebnissen gibt, die Mitfahrern entsprechen, die von der das Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, oder nicht. Es ist zu beachten, dass der Betrieb der Schritte ST006 bis ST008 durch die Punktwertverwendung-Bestimmungseinheit 23B derselbe ist wie der Betrieb der Schritte ST006 bis ST008 von 6 in der ersten Ausführungsform, eine Beschreibung davon wird ausgelassen.
Wie oben beschrieben, umfasst die Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform die Bildanalyseeinheit 26 und die Bildverwendung-Bestimmungseinheit 27. Die Bildanalyseeinheit 26 berechnet den Gesichtsmerkmalbetrag für jeden Mitfahrer unter Verwendung eines Bildes, das eine Vielzahl von Mitfahrern erfasst. Die Bildverwendung-Bestimmungseinheit 27 bestimmt, ob jeder der Mitfahrer spricht oder nicht, indem sie den Gesichtsmerkmalbetrag von der Startzeit bis zur Endzeit der geäußerten Sprache jedes der Mitfahrer verwendet. In einem Fall, in dem es identische Spracherkennungsergebnisse gibt, die zwei oder mehr Mitfahrern entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, bestimmt die Punktwertverwendung-Bestimmungseinheit 23B, ob die Spracherkennungsergebnisse unter Verwendung von Spracherkennungspunkten der jeweiligen zwei oder mehr Mitfahrer übernommen werden sollen oder nicht. Mit dieser Konfiguration ist es in der Spracherkennungsvorrichtung 20, die von einer Vielzahl von Mitfahrern verwendet wird, möglich, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, weiter zu unterdrücken.
Es ist zu beachten, dass, obwohl die die Punktwertverwendung-Bestimmungseinheit 23B der zweiten Ausführungsform bestimmt, ob ein Spracherkennungsergebnis unter Verwendung einer Spracherkennungspunktzahl angenommen wird oder nicht, die die Punktwertverwendung-Bestimmungseinheit 23B bestimmen kann, ob ein Spracherkennungsergebnis angenommen wird oder nicht, indem sie auch eine Bestimmungspunktzahl berücksichtigt, die von der Bildverwendung-Bestimmungseinheit 27 berechnet wird. In diesem Fall verwendet die Punktwertverwendung-Bestimmungseinheit 23B beispielsweise einen Wert, der durch Addition oder Mittelwertbildung des Spracherkennungsergebnisses und des von der Bildverwendung-Bestimmungseinheit 27 berechneten Bestimmungsergebnisses erhalten wird, anstelle des Spracherkennungsergebnisses. Mit dieser Konfiguration kann die Spracherkennungsvorrichtung 20 eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, weiter unterdrücken.
12 ist ein Blockdiagramm, das eine Modifikation der Spracherkennungsvorrichtung 20 gemäß der zweiten Ausführungsform zeigt. Wie in 12 dargestellt, bestimmt eine Bildverwendung-Bestimmungseinheit 27 die Startzeit und die Endzeit einer Äußerungsperiode, in der ein Mitfahrer spricht, unter Verwendung einer Gesichtsmerkmalsbetrag, die von einer Bildanalyseeinheit 26 ausgegeben wird, und gibt das Vorhandensein oder Nichtvorhandensein der Äußerungsperiode und die bestimmte Äußerungsperiode an eine Spracherkennungseinheit 22 aus. Die Spracherkennungseinheit 22 führt eine Spracherkennung für die von der bildverwendenden Ermittlungseinheit 27 ermittelte Äußerungsperiode aus den Sprachsignalen d1 bis dM durch, die von einer Sprachsignalverarbeitungseinheit 21 über die bildverwendende Ermittlungseinheit 27 erfasst wurden. Das heißt, die Spracherkennungseinheit 22 führt die Spracherkennung auf der geäußerten Sprache in der Äußerungsperiode eines Mitfahrers durch, der von der Bildverwendung-Bestimmungseinheit 27 bestimmt wurde, die Äußerungsperiode zu haben, und führt keine Spracherkennung auf der geäußerten Sprache eines Mitfahrers durch, der bestimmt wurde, keine Äußerungsperiode zu haben. Mit dieser Konfiguration kann die Verarbeitungslast der Spracherkennungsvorrichtung 20 reduziert werden. Darüber hinaus besteht zwar die Möglichkeit, dass eine Äußerungsperiode nicht erkannt werden kann, weil beispielsweise die geäußerte Sprache in einem Fall, in dem die Spracherkennungseinheit 22 eine Äußerungsperiode unter Verwendung von Sprachsignalen d1 bis dM erkennt (beispielsweise die erste Ausführungsform), klein ist, aber die Leistung der Bestimmung von Äußerungsperioden wird durch die Bestimmung einer Äußerungsperiode unter Verwendung eines Gesichtsmerkmalbetrags durch die Bildverwendung-Bestimmungseinheit 27 verbessert. Es ist zu beachten, dass die Spracherkennungseinheit 22 die Sprachsignale d1 bis dM von der Sprachsignalverarbeitungseinheit 21 erfassen kann, ohne die Bildverwendung-Bestimmungseinheit 27 zu durchlaufen.
Dritte Ausführungsform
13 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung 10 mit einer Spracherkennungsvorrichtung 20 gemäß einer dritten Ausführungsform zeigt. Die Spracherkennungsvorrichtung 20 gemäß der dritten Ausführungsform hat eine Konfiguration, in der eine Absichtsverständniseinheit 30 zu der Spracherkennungsvorrichtung 20 der in 1 dargestellten ersten Ausführungsform hinzugefügt ist. In 13 ist derselbe oder ein entsprechender Teil wie in 1 durch dasselbe Symbol gekennzeichnet, und die Beschreibung desselben wird weggelassen.
Die Absichtsverständniseinheit (Absichtserfassungseinheit) 30 führt einen Absichtsverständnisprozess (Absichtserfassungsprozess) auf Spracherkennungsergebnissen der jeweiligen Mitfahrer durch, die von einer Spracherkennungseinheit 22 ausgegeben werden. Die Absichtsverständniseinheit 30 gibt Absichtsverständnisergebnisse der jeweiligen Mitfahrer und Absichtsverständnis-Punktwerte, die die Zuverlässigkeit der Absichtsverständnisergebnisse anzeigen, an eine Punktwertverwendung-Bestimmungseinheit 23C aus. Es ist zu beachten, dass die Absichtsverständniseinheit 30 ähnlich wie die Spracherkennungseinheit 22 M Verständniseinheiten von ersten bis M-ten Verständniseinheiten 30-1 bis 30-M umfasst, die den jeweiligen Spracherkennungszielplätzen entsprechen, so dass der Absichtsverständnisprozess unabhängig auf dem Inhalt der Äußerung der jeweiligen Mitfahrer durchgeführt werden kann.
Damit die Absichtsverständniseinheit 30 den Absichtsverständnisprozess ausführen kann, wird beispielsweise der angenommene Inhalt der Äußerung in einen Text geschrieben und ein Modell wie ein Vektorraummodell, in dem der Text für jede Absicht klassifiziert wird, vorbereitet. Die Absichtsverständniseinheit 30 berechnet die Ähnlichkeit, beispielsweise die Kosinusähnlichkeit, zwischen dem Wortvektor eines Spracherkennungsergebnisses und dem Wortvektor einer Gruppe von Texten, die im Voraus für jede Absicht klassifiziert wurden, wobei ein vorbereitetes Vektorraummodell verwendet wird, wenn der Absichtsverständnisprozess ausgeführt wird. Dann setzt die Absichtsverständniseinheit 30 die Absicht mit der höchsten Ähnlichkeit als das Absichtsverständnisergebnis. In diesem Beispiel entspricht die Punktzahl für das Absichtsverstehen dem Grad der Ähnlichkeit.
Die die Punktwertverwendung-Bestimmungseinheit 23C bestimmt zunächst, ob es innerhalb eines bestimmten Zeitraums identische Absichtsverständnisergebnisse unter den von der Absichtsverständniseinheit 30 ausgegebenen Absichtsverständnisergebnissen gibt oder nicht. In einem Fall, in dem es identische Absichtsverständnisergebnisse innerhalb eines bestimmten Zeitraums gibt, bezieht sich die die Punktwertverwendung-Bestimmungseinheit 23C auf die Absichtsverständnispunktzahlen, die den jeweiligen identischen Absichtsverständnisergebnissen entsprechen, und nimmt das Absichtsverständnisergebnis mit der besten Punktzahl an. Ein Absichtsverständnisergebnis, das nicht die beste Punktzahl aufweist, wird verworfen. Alternativ kann, ähnlich wie bei der ersten und zweiten Ausführungsform, die die Punktwertverwendung-Bestimmungseinheit 23C einen Schwellenwert für Absichtsverständnispunktzahlen festlegen, bestimmen, dass ein Mitfahrer, der einem Absichtsverständnisergebnis mit einer Absichtsverständnispunktzahl größer oder gleich dem Schwellenwert entspricht, spricht, und dieses Absichtsverständnisergebnis übernehmen. In einem Fall, in dem die Punktwertverwendung-Bestimmungseinheit 23C zuerst eine Schwellenwertbestimmung von Absichtsverständniswerten durchführt und alle Absichtsverständniswerte der identischen Absichtsverständnisergebnisse kleiner als der Schwellenwert sind, kann die Punktwertverwendung-Bestimmungseinheit 23C nur das Absichtsverständnisergebnis mit dem besten Wert übernehmen.
Es ist zu beachten, dass, obwohl die die Punktwertverwendung-Bestimmungseinheit 23C bestimmt, ob ein Absichtsverständnisergebnis unter Verwendung einer Absichtsverständnispunktzahl, wie oben beschrieben, übernommen werden soll oder nicht, die die Punktwertverwendung-Bestimmungseinheit 23C bestimmen kann, ob ein Absichtsverständnisergebnis unter Verwendung einer Spracherkennungspunktzahl, die von der Spracherkennungseinheit 22 berechnet wird, übernommen werden soll oder nicht. In diesem Fall kann die Punktwertverwendung-Bestimmungseinheit 23C die von der Spracherkennungseinheit 22 berechneten Spracherkennungspunkte von der Spracherkennungseinheit 22 oder über die Absichtsverständniseinheit 30 erhalten. Dann bestimmt die Punktwertverwendung-Bestimmungseinheit 23C, dass beispielsweise ein Mitfahrer, der einem Absichtsverständnisergebnis entspricht, das einem Spracherkennungsergebnis mit einem Spracherkennungswert größer oder gleich dem Schwellenwert entspricht, spricht, und nimmt dieses Absichtsverständnisergebnis an.
In diesem Fall kann die den Punktwertverwendung-Bestimmungseinheit 23C zuerst bestimmen, ob der Mitfahrer unter Verwendung der Spracherkennungspunktwerte spricht oder nicht, und dann kann die Absichtsverständniseinheit 30 den Absichtsverständnisprozess nur auf dem Spracherkennungsergebnis des Mitfahrers ausführen, der von der Punktwertverwendung-Bestimmungseinheit 23C als sprechend bestimmt wurde. Dieses Beispiel wird im Detail in 14 beschrieben.
Eine weitere Alternative besteht darin, dass die den Punktwertverwendung-Bestimmungseinheit 23C bestimmt, ob ein Absichtsverständnisergebnis unter Berücksichtigung nicht nur des Absichtsverständnisergebnisses, sondern auch des Spracherkennungsergebnisses angenommen werden soll oder nicht. In diesem Fall verwendet die die Punktwertverwendung-Bestimmungseinheit 23C beispielsweise einen Wert, der durch Addition oder Mittelwertbildung der Absichtsverständnispunktzahl und der Spracherkennungspunktzahl erhalten wird, anstelle der Absichtsverständnispunktzahl.
In einem Dialogmanagement-DB 24C wird die Korrespondenz zwischen Absichtsverständnisergebnissen und von der Informationsvorrichtung 10 auszuführenden Funktionen als Datenbank definiert. Wenn zum Beispiel die Absicht, die der Äußerung „Reduziere die Luftstrommenge der Klimaanlage“ entspricht, „SteuerungKlimaanlage (Menge = runter)“ ist, wird die Funktion „Reduziere die Luftstrommenge der Klimaanlage um eine Stufe“ für diese Absicht definiert. Ähnlich wie bei der ersten und zweiten Ausführungsform können im Dialogmanagement-DB 24C weitere Informationen definiert werden, die angeben, ob eine Funktion von einem Sprecher abhängig ist oder nicht.
Eine Antwortbestimmungseinheit 25C bezieht sich auf den Dialogverwaltungs-DB 24C und bestimmt eine Funktion, die dem Absichtsverständnisergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit 23C angenommen wurde. Darüber hinaus bestimmt die Antwortbestimmungseinheit 25C in einem Fall, in dem die Punktwertverwendung-Bestimmungseinheit 23C eine Vielzahl von identischen Absichtsverständnisergebnissen annimmt, nur eine Funktion, die einem Absichtsverständnisergebnis mit dem besten Absichtsverständnisergebnis entspricht, wenn die Funktion nicht von einem Sprecher abhängig ist. Die Antwortbestimmungseinheit 25C gibt die bestimmte Funktion an die Informationsvorrichtung 10 aus. Das Informationsgerät 10 führt die von der Antwortbestimmungseinheit 25C ausgegebene Funktion aus. Die Informationsvorrichtung 10 kann einen Antwortton ausgeben, um den Mitfahrer über die Ausführung der Funktion zu informieren, beispielsweise über einen Lautsprecher, wenn die Funktion ausgeführt wird.
Hier wird eine beispielhafte Funktion, die von einem Lautsprecher abhängig ist, und eine beispielhafte Funktion, die nicht von einem Lautsprecher abhängig ist, beschrieben.
Ähnlich wie bei der ersten und zweiten Ausführungsform können in Bezug auf den Betrieb der Klimaanlage für jeden Sitzplatz unterschiedliche Luftstrommengen und Temperaturen eingestellt werden, so dass es notwendig ist, für jeden Lautsprecher eine Funktion auszuführen, auch wenn die Ergebnisse des Absichtsverständnisses gleich sind. Genauer gesagt, nehmen wir an, dass das Spracherkennungsergebnis des ersten Mitfahrers 1 „die Temperatur der Klimaanlage senken“ ist, dass das Spracherkennungsergebnis des zweiten Mitfahrers 2 „es ist heiß“ ist, dass die Absichtsverständnisergebnisse des ersten Mitfahrers 1 und des zweiten Mitfahrers 2 „SteuerungKlimaanlage (Temperatur = runter)“ sind, und dass die Absichtsverständniswerte beider Absichtsverständnisergebnisse größer oder gleich dem Schwellenwert sind. In diesem Fall bestimmt die Antwortbestimmungseinheit 25C, dass das Absichtsverständnisergebnis von „SteuerungKlimaanlage“ von einem Lautsprecher abhängig ist, und führt die Funktion aus, die Temperatur der Klimaanlage für den ersten Mitfahrer 1 und den zweiten Mitfahrer 2 zu senken.
In der Zwischenzeit ist es für Funktionen wie Zielsuche und Musikwiedergabe, die nicht von einem Lautsprecher abhängig sind, sondern von allen Mitfahrern gemeinsam genutzt werden, nicht notwendig, eine solche Funktion für jeden Lautsprecher auszuführen, wenn die Ergebnisse des Absichtsverständnis gleich sind. Daher bestimmt die Antwortbestimmungseinheit 25C in einem Fall, in dem es mehrere identische Absichtsverständnisergebnisse gibt und eine Funktion, die den Absichtsverständnisergebnissen entspricht, nicht von einem Sprecher abhängig ist, eine Funktion, die nur einem Absichtsverständnisergebnis mit der besten Punktzahl entspricht. Genauer gesagt, nehmen wir an, dass das Spracherkennungsergebnis des ersten Mitfahrers 1 „Musik abspielen“ ist, dass das Spracherkennungsergebnis des zweiten Mitfahrers 2 „Musik wiedergeben“ ist, dass die Absichtsverständnisergebnisse des ersten Mitfahrers 1 und des zweiten Mitfahrers 2 „SpieleMusik (Zustand = ein)“ sind, und dass die Absichtsverständniswerte beider Absichtsverständnisergebnisse größer oder gleich dem Schwellenwert sind. In diesem Fall bestimmt die Antwortbestimmungseinheit 25C, dass das Absichtsverständnisergebnis „SpieleMusik‟ nicht von einem Lautsprecher abhängig ist, und führt eine Funktion aus, die entweder dem Absichtsverständnisergebnis des ersten Mitfahrers 1 oder dem Absichtsverständnisergebnis des zweiten Mitfahrers 2 entspricht, das einen höheren Absichtsverständniswert hat.
Als nächstes wird ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben. 14 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 gemäß der dritten Ausführungsform zeigt. Die Spracherkennungsvorrichtung 20 wiederholt den im Flussdiagramm von 14 dargestellten Vorgang, zum Beispiel, während die Informationsvorrichtung 10 in Betrieb ist. Da die Schritte ST001 bis ST005 in 14 der gleiche Vorgang sind wie die Schritte ST001 bis ST005 in 6 der ersten Ausführungsform, wird deren Beschreibung weggelassen.
15 ist ein Diagramm, das ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der dritten Ausführungsform darstellt. Die Beschreibung erfolgt hier beispielhaft anhand eines spezifischen Beispiels, das in 15 dargestellt ist. Im Beispiel von 15 spricht der erste Mitfahrer 1 „Erhöhe die Luftstrommenge der Klimaanlage“ und der zweite Mitfahrer 2 „Erhöhe die Luftstrommenge der Klimaanlage“. Der dritte Mitfahrer 3 gähnt, während der erste Mitfahrer 1 und der zweite Mitfahrer 2 sprechen. Der vierte Mitfahrer 4 spricht nicht.
In Schritt ST101 führt die Absichtsverständniseinheit 30 den Absichtsverständnisprozess an Spracherkennungsergebnissen aus, deren Spracherkennungsergebnis von der Punktwertverwendung-Bestimmungseinheit 23C als größer oder gleich dem Schwellenwert bestimmt wurde, und gibt Absichtsverständnisergebnisse und Absichtsverständniswerte an die Punktwertverwendung-Bestimmungseinheit 23C aus. Im Beispiel von 15, da die Spracherkennungsergebnisse des ersten Mitfahrers 1, des zweiten Mitfahrers 2 und des dritten Mitfahrers 3 alle größer oder gleich dem Schwellenwert „5000“ sind, wird der Absichtsverständnisprozess ausgeführt. Der erste Mitfahrer 1, der zweite Mitfahrer 2 und der dritte Mitfahrer 3 haben alle das identische Absichtsverständnisergebnis von „SteuerungKlimaanlage (Menge = rauf)“. Währenddessen beträgt der Absichtsverständniswert „0,96“ für den ersten Mitfahrer 1, „0,9“ für den zweiten Mitfahrer 2 und „0,67“ für den dritten Mitfahrer 3. Es ist zu beachten, dass der dritte Mitfahrer 3 einen niedrigen Absichtsverständniswert hat, da der Absichtsverständnisprozess auf dem Spracherkennungsergebnis von „Erhöhe das Luftstromvolumen der Luft“ durchgeführt wurde, was eine fehlerhafte Erkennung der geäußerten Sprache des ersten Mitfahrers 1 und des zweiten Mitfahrers 2 ist.
In Schritt ST102 bestimmt die Punktwertverwendung-Bestimmungseinheit 23C, ob es eine Vielzahl von identischen Absichtsverständnisergebnissen innerhalb einer bestimmten Zeitspanne unter den Absichtsverständnisergebnissen gibt, die von der Absichtsverständniseinheit 30 ausgegeben werden, oder nicht. Wenn die Punktwertverwendung-Bestimmungseinheit 23C bestimmt, dass es eine Vielzahl von identischen Absichtsverständnisergebnissen innerhalb eines bestimmten Zeitraums gibt („JA“ in Schritt ST102), bestimmt die Punktwertverwendung-Bestimmungseinheit 23C in Schritt ST103, ob ein Absichtsverständnispunktwert von jedem der Vielzahl von identischen Absichtsverständnisergebnissen größer oder gleich dem Schwellenwert ist, und bestimmt, dass ein Mitfahrer, der einem Absichtsverständnisergebnis entspricht, dessen Absichtsverständnispunktwert größer oder gleich dem Schwellenwert ist, spricht („JA“ in Schritt ST103). Wenn der Schwellenwert „0,8“ ist, wird im Beispiel von 15 bestimmt, dass der erste Mitfahrer 1 und der zweite Mitfahrer 2 sprechen. Andererseits bestimmt die Punktwertverwendung-Bestimmungseinheit 23C einen Mitfahrer, der einem Absichtsverständnisergebnis entspricht, das einen Absichtsverständnis-Punktwert kleiner als der Schwellenwert hat, als nicht sprechend („NEIN“ in Schritt ST103).
Wenn es ein einzelnes Absichtsverständnisergebnis gibt, das von der Absichtsverständniseinheit 30 innerhalb einer bestimmten Zeitspanne ausgegeben wird, oder wenn es eine Vielzahl von Absichtsverständnisergebnissen gibt, die von der Absichtsverständniseinheit 30 innerhalb einer bestimmten Zeitspanne ausgegeben werden, aber nicht die gleichen sind („NEIN“ in Schritt ST102), nimmt die Punktwertverwendung-Bestimmungseinheit 23C alle Absichtsverständnisergebnisse an, die von der Absichtsverständniseinheit 30 ausgegeben werden. In Schritt ST105 bezieht sich die Antwortbestimmungseinheit 25C auf den Dialogverwaltungs-DB 24C und bestimmt (eine) Funktion(en), die allen von der Absichtsverständniseinheit 30 ausgegebenen Absichtsverständnisergebnissen entspricht (entsprechen).
In Schritt ST104 bezieht sich die Antwortbestimmungseinheit 25C auf den Dialogverwaltungs-DB 24C und bestimmt, ob eine Funktion, die der Vielzahl von identischen Absichtsverständnisergebnissen entspricht, die einen Absichtsverständnis-Punktwert haben, der größer oder gleich dem Schwellenwert ist, der von der Punktwertverwendung-Bestimmungseinheit 23C angenommen wurde, von einem Sprecher abhängig ist oder nicht. Wenn die Funktion, die der Vielzahl von identischen Absichtsverständnisergebnissen mit einer Absichtsverständnispunktzahl größer oder gleich dem Schwellenwert entspricht, von einem Sprecher abhängig ist („JA“ in Schritt ST104), bestimmt die Antwortbestimmungseinheit 25C Funktionen, die der Vielzahl von gleichen jeweiligen Absichtsverständnisergebnissen entsprechen, in Schritt ST105. Andererseits, wenn die Funktion, die der Vielzahl von identischen Absichtsverständnisergebnissen entspricht, deren Absichtsverständnispunktzahl größer oder gleich dem Schwellenwert ist, nicht von einem Sprecher abhängig ist („NEIN“ in Schritt ST104), bestimmt die Antwortbestimmungseinheit 25C in Schritt ST106 eine Funktion, die dem Absichtsverständnisergebnis entspricht, das die beste Punktzahl unter der Vielzahl von identischen Absichtsverständnisergebnissen hat. Im Beispiel von 15 ist eine Funktion, die dem Absichtsverständnisergebnis „SteuerungKlimaanlage“ des ersten Mitfahrers 1 und des zweiten Mitfahrers 2 entspricht, der Betrieb der Klimaanlage und ist von einem Lautsprecher abhängig, und daher bestimmt die Antwortbestimmungseinheit 25C die Funktion der Erhöhung der Luftstrommenge der Klimaanlage um eine Stufe für den ersten Mitfahrer 1 und den zweiten Mitfahrer 2. Daher führt die Informationsvorrichtung 10 die Funktion der Erhöhung des Luftstromvolumens der Klimaanlage auf der Seite des ersten Mitfahrers 1 und der Seite des zweiten Mitfahrers 2 um eine Stufe aus.
Wie oben beschrieben, umfasst die Spracherkennungsvorrichtung 20 gemäß der dritten Ausführungsform die Sprachsignalverarbeitungseinheit 21, die Spracherkennungseinheit 22, die Absichtsverständniseinheit 30 und die Punktwertverwendung-Bestimmungseinheit 23C. Die Sprachsignalverarbeitungseinheit 21 trennt geäußerte Sprache einer Vielzahl von Mitfahrern, die auf einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen, in geäußerte Sprache jedes der Mitfahrer. Die Spracherkennungseinheit 22 führt eine Spracherkennung an der geäußerten Sprache jedes der von der Sprachsignalverarbeitungseinheit 21 getrennten Mitfahrer durch und berechnet einen Spracherkennungswert. Die Absichtsverständniseinheit 30 versteht die Absicht der Äußerung für jeden der Mitfahrer und berechnet Absichtsverständniswerte unter Verwendung des Spracherkennungsergebnisses jedes der Mitfahrer. Die Punktwertverwendung-Bestimmungseinheit 23C bestimmt, welchem Mitfahrer ein Absichtsverständnisergebnis entspricht, um aus den Absichtsverständnisergebnissen für die jeweiligen Mitfahrer unter Verwendung von mindestens einem von Spracherkennungspunktwerten oder Absichtsverständnispunktwerten der jeweiligen Mitfahrer zu übernehmen. Mit dieser Konfiguration ist es möglich, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, in der Spracherkennungsvorrichtung 20 zu unterdrücken, die von einer Vielzahl von Mitfahrern verwendet wird. Darüber hinaus enthält die Spracherkennungsvorrichtung 20 die Absichtsverständniseinheit 30 und kann somit die Absicht der Äußerung auch dann verstehen, wenn ein Mitfahrer frei spricht, ohne sich der Erkennungszielwörter bewusst zu sein.
Des Weiteren umfasst die Spracherkennungsvorrichtung 20 gemäß der dritten Ausführungsform den Dialogmanagement-DB 24C und die Antwortbestimmungseinheit 25C. Der Dialogmanagement-DB 24C ist eine Dialogmanagement-Datenbank, die die Korrespondenz zwischen Absichtsverständnisergebnissen und auszuführenden Funktionen definiert. Die Antwortbestimmungseinheit 25C bezieht sich auf die Antwortbestimmungseinheit 25C und bestimmt die Funktion, die dem Absichtsverständnisergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit 23C angenommen wurde. Mit dieser Konfiguration ist es in der Informationsvorrichtung 10, die von einer Vielzahl von Mitfahrern per Sprache bedient wird, möglich, eine fehlerhafte Ausführung einer Funktion für die von einem anderen Mitfahrer geäußerte Sprache zu unterdrücken. Da die Spracherkennungsvorrichtung 20 außerdem die Absichtsverständniseinheit 30 enthält, kann die Informationsvorrichtung 10 die vom Mitfahrer beabsichtigte Funktion auch dann ausführen, wenn der Mitfahrer frei spricht, ohne sich der Erkennungszielwörter bewusst zu sein.
Es ist zu beachten, dass, obwohl das Beispiel in der dritten Ausführungsform beschrieben wurde, in der die Spracherkennungsvorrichtung 20 den Dialogmanagement-DB 24C und die Antwortbestimmungseinheit 25C enthält, die Informationsvorrichtung 10 den Dialogmanagement-DB 24C und die Antwortbestimmungseinheit 25C enthalten kann. In diesem Fall gibt die Punkte verwendende Bestimmungseinheit 23C das angenommene Absichtsverständnisergebnis an die Antwortbestimmungseinheit 25C der Informationsvorrichtung 10 aus.
Vierte Ausführungsform
16 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Informationsvorrichtung 10 mit einer Spracherkennungsvorrichtung 20 gemäß einer vierten Ausführungsform zeigt. Die Informationsvorrichtung 10 gemäß der vierten Ausführungsform weist eine Konfiguration auf, in der eine Kamera 12 zu der Informationsvorrichtung 10 gemäß der in 13 dargestellten dritten Ausführungsform hinzugefügt ist. Des Weiteren weist die Spracherkennungsvorrichtung 20 gemäß der vierten Ausführungsform eine Konfiguration auf, in der die Bildanalyseeinheit 26 und die Bildverwendung-Bestimmungseinheit 27 der in 7 dargestellten zweiten Ausführungsform zu der Spracherkennungsvorrichtung 20 der in 13 dargestellten dritten Ausführungsform hinzugefügt werden. In 16 ist derselbe oder ein entsprechender Teil wie in 7 und 13 durch dasselbe Symbol gekennzeichnet, und die Beschreibung desselben wird weggelassen.
Eine Absichtsverständniseinheit 30 empfängt Äußerungsbestimmungsergebnisse der jeweiligen Mitfahrer unter Verwendung eines Bildes, die von der Bildverwendung-Bestimmungseinheit 27 ausgegeben werden, Spracherkennungsergebnisse und Spracherkennungspunktwerten der Spracherkennungsergebnisse. Die Absichtsverständniseinheit 30 führt den Absichtsverständnisprozess nur auf einem Spracherkennungsergebnis eines Mitfahrers aus, der von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurde, und führt den Absichtsverständnisprozess nicht auf einem Spracherkennungsergebnis eines Mitfahrers aus, der von der Bildverwendung-Bestimmungseinheit 27 als nicht sprechend bestimmt wurde. Dann gibt die Absichtsverständniseinheit 30 Absichtsverständnisergebnisse der jeweiligen Mitfahrer, für die der Absichtsverständnisprozess ausgeführt wurde, und Absichtsverständnispunktwerten an eine Punktwertverwendung-Bestimmungseinheit 23D aus.
Die Punktwertverwendung-Bestimmungseinheit 23D arbeitet ähnlich wie die Punktwertverwendung-Bestimmungseinheit 23C der dritten Ausführungsform. Jedoch bestimmt die Punktwertverwendung-Bestimmungseinheit 23D, welches Absichtsverständnisergebnis angenommen werden soll, unter Verwendung des Absichtsverständnisergebnisses, das dem Spracherkennungsergebnis des Mitfahrers entspricht, der von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurde, und des Absichtsverständnispunktwertes des Absichtsverständnisergebnisses.
Es ist zu beachten, dass, obwohl die die Punktwertverwendung-Bestimmungseinheit 23D bestimmt, ob ein Absichtsverständnisergebnis unter Verwendung einer Absichtsverständnispunktzahl, wie oben beschrieben, angenommen werden soll oder nicht, die die Punktwertverwendung-Bestimmungseinheit 23D bestimmen kann, ob ein Absichtsverständnisergebnis unter Verwendung einer Spracherkennungspunktzahl, die von der Spracherkennungseinheit 22 berechnet wird, angenommen werden soll oder nicht. In diesem Fall kann die die Punktwertverwendung-Bestimmungseinheit 23D die von der Spracherkennungseinheit 22 berechnete Spracherkennungspunktzahl von der Spracherkennungseinheit 22 oder über die Bildverwendung-Bestimmungseinheit 27 und die Absichtsverständniseinheit 30 erhalten. Dann bestimmt die Punktwertverwendung-Bestimmungseinheit 23D, dass beispielsweise ein Mitfahrer, der einem Absichtsverständnisergebnis entspricht, das einem Spracherkennungsergebnis mit einem Spracherkennungspunktwert größer oder gleich dem Schwellenwert entspricht, spricht, und übernimmt dieses Absichtsverständnisergebnis.
Weiter alternativ kann die die Punktwertverwendung-Bestimmungseinheit 23D bestimmen, ob ein Absichtsverständnisergebnis unter Berücksichtigung nicht nur der Absichtsverständnispunktzahl, sondern auch mindestens einer der Spracherkennungspunktzahl oder einer Bestimmungspunktzahl angenommen werden soll oder nicht. In diesem Fall kann die die Punktwertverwendung-Bestimmungseinheit 23D die von der das Bildverwendung-Bestimmungseinheit 27 berechneten Bestimmungspunktwert von der das Bildverwendung-Bestimmungseinheit 27 oder über die Absichtsverständniseinheit 30 erhalten. Dann verwendet die Punktwertverwendung-Bestimmungseinheit 23D beispielsweise einen Wert, der durch Addition oder Mittelwertbildung des Absichtsverständnis-Punktwerts, des SpracherkennungsPunktwerts und des Bestimmungs-Punktwerts anstelle des Absichtsverständnis-Punktwerts erhalten wird.
Als nächstes wird ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 beschrieben.
17 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Spracherkennungsvorrichtung 20 gemäß der vierten Ausführungsform zeigt. Die Spracherkennungsvorrichtung 20 wiederholt den im Flussdiagramm von 17 dargestellten Vorgang, während beispielsweise die Informationsvorrichtung 10 in Betrieb ist. Da die Schritte ST001 bis ST004 und die Schritte ST011 bis ST013 von 17 die gleichen Vorgänge sind wie die Schritte ST001 bis ST004 und die Schritte ST011 bis ST013 von 11 in der zweiten Ausführungsform, wird deren Beschreibung weggelassen.
18 ist eine Tabelle, die ein Verarbeitungsergebnis durch die Spracherkennungsvorrichtung 20 gemäß der vierten Ausführungsform zeigt. Die Beschreibung erfolgt hier beispielhaft anhand eines spezifischen Beispiels, das in 18 dargestellt ist. Ähnlich wie im Beispiel von 15 in der dritten Ausführungsform, spricht im Beispiel von 18 der erste Mitfahrer 1 „Luftstromvolumen der Klimaanlage erhöhen“ und der zweite Mitfahrer 2 „Windvolumen der Klimaanlage erhöhen“. Der dritte Mitfahrer 3 gähnt, während der erste Mitfahrer 1 und der zweite Mitfahrer 2 sprechen. Der vierte Mitfahrer 4 spricht nicht.
In Schritt ST111 führt die Absichtsverständniseinheit 30 den Absichtsverständnisprozess an Spracherkennungsergebnissen aus, die Mitfahrern entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, und gibt das Absichtsverständnisergebnis und die Absichtsverständnispunktwerte an die Punktwertverwendung-Bestimmungseinheit 23D aus. Im Beispiel von 18 haben der erste Mitfahrer 1, der zweite Mitfahrer 2 und der dritte Mitfahrer 3 alle gesprochen oder den Mund in einer Weise bewegt, die dem Sprechen ähnlich ist, und werden daher von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt und dem Absichtsverständnisprozess unterzogen.
Da die Schritte ST102 bis ST106 in 17 der gleiche Vorgang sind wie die Schritte ST102 bis ST106 in 14 in der dritten Ausführungsform, wird deren Beschreibung weggelassen.
Wie oben beschrieben, umfasst die Spracherkennungsvorrichtung 20 gemäß der vierten Ausführungsform die Bildanalyseeinheit 26 und die Bildverwendung-Bestimmungseinheit 27. Die Bildanalyseeinheit 26 berechnet den Gesichtsmerkmalbetrag für jeden Mitfahrer unter Verwendung eines Bildes, das eine Vielzahl von Mitfahrern erfasst. Die Bildverwendung-Bestimmungseinheit 27 bestimmt, ob jeder der Mitfahrer spricht oder nicht, indem sie den Gesichtsmerkmalbetrag von der Startzeit bis zur Endzeit der geäußerten Sprache jedes der Mitfahrer verwendet. In einem Fall, in dem es identische Absichtsverständnisergebnisse gibt, die zwei oder mehr Mitfahrern entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, bestimmt die Punktwertverwendung-Bestimmungseinheit 23D, ob die Absichtsverständnisergebnisse unter Verwendung von mindestens einem der Spracherkennungspunkte oder der Absichtsverständnispunkte der jeweiligen zwei oder mehr Mitfahrer übernommen werden sollen oder nicht. Mit dieser Konfiguration ist es in der Spracherkennungsvorrichtung 20, die von einer Vielzahl von Mitfahrern verwendet wird, möglich, eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, weiter zu unterdrücken.
Es ist zu beachten, dass in einem Fall, in dem es identische Absichtsverständnisergebnisse gibt, die zwei oder mehr Mitfahrern entsprechen, die von der Bildverwendung-Bestimmungseinheit 27 als sprechend bestimmt wurden, die Punktwertverwendung-Bestimmungseinheit 23D der vierten Ausführungsform bestimmen kann, ob die Absichtsverständnisergebnisse unter Verwendung von Bestimmungspunkten, die von der Bildverwendung-Bestimmungseinheit 27 berechnet werden, zusätzlich zu mindestens einem der Spracherkennungspunkte oder der Absichtsverständnispunkte der jeweiligen zwei oder mehr Mitfahrer übernommen werden sollen oder nicht. Mit dieser Konfiguration kann die Spracherkennungsvorrichtung 20 eine fehlerhafte Erkennung von Sprache, die von einem anderen Mitfahrer geäußert wird, weiter unterdrücken.
Darüber hinaus kann die Spracherkennungseinheit 22 der vierten Ausführungsform, ähnlich wie die in 12 der zweiten Ausführungsform dargestellte Spracherkennungseinheit 22, keine Spracherkennung an der geäußerten Sprache eines Mitfahrers durchführen, bei dem die Bildverwendung-Bestimmungseinheit 27 feststellt, dass er keine Äußerungsperiode hat. In diesem Fall ist die Absichtsverständniseinheit 30 an einer Position enthalten, die einer Position zwischen der Spracherkennungseinheit 22 und 23B in 12 entspricht. Dies führt auch dazu, dass die Absichtsverständniseinheit 30 die Absicht der Äußerung des Mitfahrers, für den von der Bildverwendung-Bestimmungseinheit 27 festgestellt wurde, dass er keine Äußerungsperiode hat, nicht versteht. Mit dieser Konfiguration kann die Verarbeitungslast der Spracherkennungsvorrichtung 20 reduziert werden, und die Leistung der Bestimmung einer Äußerungsperiode wird verbessert.
Schließlich wird die Hardwarekonfiguration der Spracherkennungsvorrichtungen 20 der Ausführungsformen beschrieben.
19A und 19B sind Diagramme, die jeweils eine beispielhafte Hardwarekonfiguration der Spracherkennungsvorrichtungen 20 der Ausführungsformen zeigen. Die Funktionen der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendungs-Bestimmungseinheiten 23, 23B, 23C und 23D, der Dialogmanagement-DBs 24 und 24D, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 in den Spracherkennungsvorrichtungen 20 werden durch eine Verarbeitungsschaltung implementiert. Das heißt, die Spracherkennungsvorrichtung 20 enthält eine Verarbeitungsschaltung zur Implementierung der obigen Funktionen. Die Verarbeitungsschaltung kann eine Verarbeitungsschaltung 100 als dedizierte Hardware sein oder ein Prozessor 101 zum Ausführen eines in einem Speicher 102 gespeicherten Programms sein.
Wie in 19A dargestellt, entspricht die Verarbeitungsschaltung 100 in einem Fall, in dem die Verarbeitungsschaltung dedizierte Hardware ist, beispielsweise einer einzelnen Schaltung, einer zusammengesetzten Schaltung, einem programmierten Prozessor, einem parallel programmierten Prozessor, einer anwendungsspezifischen integrierten Schaltung (ASIC), einem programmierbaren Logikbaustein (PLC), einem feldprogrammierbaren Gate-Array (FPGA), einem System-on-a-Chip (SoC), einer System-Großintegration (LSI) oder einer Kombination davon. Die Funktionen der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendung-Bestimmungseinheiten 23, 23B, 23C und 23D, der Dialogmanagement-DBs 24 und 24D, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 können durch eine Vielzahl von Verarbeitungsschaltungen 100 implementiert werden, oder die Funktionen der jeweiligen Einheiten können gemeinsam durch eine einzige Verarbeitungsschaltung 100 implementiert werden.
Wie in 19B dargestellt, werden in einem Fall, in dem die Verarbeitungsschaltung der Prozessor 101 ist, die Funktionen der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendung-Bestimmungseinheiten 23, 23B, 23C und 23D, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 durch Software, Firmware oder eine Kombination aus Software und Firmware implementiert. Die Software oder die Firmware wird als ein Programm beschrieben, das im Speicher 102 gespeichert ist. Der Prozessor 101 liest und führt das im Speicher 102 gespeicherte Programm aus und implementiert dadurch die Funktionen der obigen Einheiten. Das heißt, die Spracherkennungsvorrichtung 20 enthält den Speicher 102 zur Speicherung des Programms, dessen Ausführung durch den Prozessor 101 zur Ausführung der Schritte führt, die beispielsweise im Flussdiagramm von 6 dargestellt sind. Man kann auch sagen, dass dieses Programm einen Computer veranlasst, die Prozeduren oder Methoden der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendung-Bestimmungseinheiten 23, 23B, 23C und 23D, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 auszuführen.
Hier umfasst der Prozessor 101 beispielsweise eine zentrale Verarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Mikroprozessor, einen Mikrocontroller oder einen digitalen Signalprozessor (DSP).
Die Speicher 102 können ein nichtflüchtiger oder flüchtiger Halbleiterspeicher sein, wie beispielsweise ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbares programmierbares ROM (EPROM) oder ein Flash-Speicher, eine Magnetplatte, wie beispielsweise eine Festplatte oder eine flexible Platte, eine optische Platte, wie beispielsweise eine Compact Disc (CD) oder eine Digital Versatile Disc (DVD), oder eine magneto-optische Platte.
Die Dialogmanagement-DBs 24 und 24D werden durch den Speicher 102 implementiert.
Es ist zu beachten, dass einige der Funktionen der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendungs-Bestimmungseinheiten 23, 23B, 23C und 23D, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 durch dedizierte Hardware implementiert sein können, und einige können durch Software oder Firmware implementiert sein. Auf diese Weise kann die Verarbeitungsschaltung in der Spracherkennungsvorrichtung 20 die obigen Funktionen durch Hardware, Software, Firmware oder eine Kombination davon implementieren.
Im obigen Beispiel sind die Funktionen der Sprachsignalverarbeitungseinheiten 21, der Spracherkennungseinheiten 22, der Punktwertverwendung-Bestimmungseinheiten 23, 23B, 23C und 23D, der Dialogmanagement-DBs 24 und 24C, der Antwortbestimmungseinheiten 25 und 25C, der Bildanalyseeinheiten 26, der Bildverwendung-Bestimmungseinheiten 27 und der Absichtsverständniseinheiten 30 in einem Informationsgerät 10 integriert, das in einem Fahrzeug installiert ist oder in ein Fahrzeug gebracht wird; Die Funktionen können jedoch beispielsweise auf ein Servergerät in einem Netzwerk, ein mobiles Endgerät, wie beispielsweise ein Smartphone, und ein fahrzeuginternes Gerät verteilt sein. Ein Spracherkennungssystem besteht beispielsweise aus einem fahrzeuginternen Gerät, das die Sprachsignalverarbeitungseinheit 21 und die Bildanalyseeinheit 26 enthält, und einem Servergerät, das die Spracherkennungseinheit 22, die Punktwertverwendung-Bestimmungseinheit 23, 23B, 23C oder 23D, den Dialogmanagement-DB 24 oder 24C, die Antwortbestimmungseinheit 25 oder 25C, die Bildverwendung-Bestimmungseinheit 27 und die Absichtsverständniseinheit 30 enthält.
Die vorliegende Erfindung kann eine flexible Kombination der Ausführungsformen, eine Modifikation einer beliebigen Komponente der Ausführungsformen oder das Weglassen einer beliebigen Komponente in den Ausführungsformen im Rahmen der vorliegenden Erfindung umfassen.
INDUSTRIELLE ANWENDBARKEIT
Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung führt die Spracherkennung einer Vielzahl von Sprechern durch und eignet sich daher zur Verwendung in Spracherkennungsvorrichtungen für sich bewegende Körper einschließlich Fahrzeugen, Zügen, Schiffen oder Flugzeugen, in denen eine Vielzahl von Spracherkennungszielen vorhanden ist.
Bezugszeichenliste

1 bis 4:: erste bis vierte Mitfahrer,
10, 10A:: Informationsvorrichtung,
11:: Schallsammelvorrichtung,
11-1 bis 11-N:: Mikrofon,
12:: Kamera,
20, 20A:: Spracherkennungsvorrichtung,
21:: Sprachsignalverarbeitungseinheit,
21-1 bis 21-M:: erste bis M-te Verarbeitungseinheiten,
22:: Spracherkennungseinheit,
22-1 bis 22-M:: erste bis M-te Erkennungseinheiten,
23, 23B, 23C, 23D:: Punktwertverwendung-Bestimmungseinheit,
24, 24C:: Dialogmanagement-DB,
25, 25C:: Antwortbestimmungseinheit,
26:: Bildanalyseeinheit,
26-1 bis 26-M:: erste bis M-te Analyseeinheit,
27:: Bildverwendung-Bestimmungseinheit,
27-1 bis 27-M:: erste bis M-te Bestimmungseinheit,
30:: Absichtsverständniseinheit,
30-1 bis 30-M:: erste bis M-te Verständniseinheit,
100:: Verarbeitungsschaltung,
101:: Prozessor,
102:: Speicher

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2007199552 A [0004]

Claims

Eine Spracherkennungsvorrichtung umfassend eine Sprachsignalverarbeitungseinheit zum individuellen Trennen einer geäußerten Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen; eine Spracherkennungseinheit zum Durchführen von Spracherkennung an der durch die Sprachsignalverarbeitungseinheit getrennten, geäußerten Sprache eines jeden der Mitfahrer und zum Berechnen eines Spracherkennungspunktwertes; und eine Punktwertverwendung-Bestimmungseinheit zum Bestimmen eines Spracherkennungsergebnisses in Bezug darauf, welcher der Mitfahrer zu verwenden ist, aus den Spracherkennungsergebnissen für die Mitfahrer unter Verwendung des Spracherkennungspunktwertes jedes der Mitfahrer.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend eine Bildanalyseeinheit zum Berechnen eines Gesichtsmerkmalbetrags für jeden der Mitfahrer unter Verwendung eines Bildes, das die Vielzahl von Mitfahrern erfasst; und eine Bildverwendung-Bestimmungseinheit zum Bestimmen, ob es eine Äußerung für jeden der Mitfahrer gibt oder nicht, unter Verwendung des Gesichtsmerkmalbetrags von einer Startzeit bis zu einer Endzeit der geäußerten Sprache von jedem der Mitfahrer, wobei in einem Fall, in dem es identische Spracherkennungsergebnisse gibt, die zwei oder mehr Mitfahrern entsprechen, für die durch die Bildverwendung-Bestimmungseinheit bestimmt wurde, dass diese sprechen, die Punktwertverwendung-Bestimmungseinheit bestimmt, ob die Spracherkennungsergebnisse unter Verwendung eines Spracherkennungspunktwertes von jedem der zwei oder mehr Mitfahrer übernommen werden sollen oder nicht.
Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Bildverwendung-Bestimmungseinheit eine Äußerungsperiode für jeden der Mitfahrer unter Verwendung des Gesichtsmerkmalbetrags jedes der Mitfahrer bestimmt, und die Spracherkennungseinheit keine Spracherkennung an der geäußerten Sprache eines Mitfahrers durchführt, für den durch die Bildverwendung-Bestimmungseinheit festgestellt wurde, dass er keine Äußerungsperiode aufweist.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend eine Dialogverwaltungsdatenbank zum Definieren einer Korrespondenz zwischen Spracherkennungsergebnissen und auszuführenden Funktionen; und eine Antwortbestimmungseinheit zum Bestimmen einer Funktion, die einem Spracherkennungsergebnis entspricht, das von der Punktwertverwendung-Bestimmungseinheit unter Bezugnahme auf die Dialogverwaltungsdatenbank angenommen wurde.
Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Bildverwendung-Bestimmungseinheit einen Bestimmungspunktwert berechnet, der die Zuverlässigkeit einer Bestimmung in Bezug darauf anzeigt, ob es eine Äußerung für jeden der Mitfahrer gibt oder nicht, und falls es identische Spracherkennungsergebnisse gibt, die zu zwei oder mehr Mitfahrern gehören, für die die Bildverwendung-Bestimmungseinheit bestimmt hat, dass diese sprechen, die Punktwertverwendung-Bestimmungseinheit bestimmt, ob die Spracherkennungsergebnisse übernommen werden sollen oder nicht, unter Verwendung des Spracherkennungspunktwerts und/oder des Bestimmungspunktwerts von jedem der zwei oder mehr Mitfahrer.
Eine Spracherkennungsvorrichtung umfassend eine Sprachsignalverarbeitungseinheit zum individuellen Trennen der geäußerten Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen; eine Spracherkennungseinheit zum Durchführen von Spracherkennung an der durch die Sprachsignalverarbeitungseinheit getrennten, geäußerten Sprache jedes der Mitfahrer und zum Berechnen eines Spracherkennungspunktwerts; eine Absichtsverständniseinheit zum Verstehen der Absicht der Äußerung jedes der Mitfahrer und zum Berechnen eines Absichtsverständnisbewertung-Punktwerts unter Verwendung eines Spracherkennungsergebnisses von jedem der Mitfahrer; und eine Punktwertverwendung-Bestimmungseinheit zum Bestimmen eines Absichtsverständnisergebnisses in Bezug darauf, welcher der Mitfahrer zu verwenden ist, aus den Absichtsverständnisergebnissen für die jeweiligen Mitfahrer unter Verwendung des Spracherkennungspunktwerts und/oder des Absichtsverständnispunktwerts jedes der Mitfahrer.
Spracherkennungsvorrichtung gemäß Anspruch 6, weiter umfassend eine Bildanalyseeinheit zum Berechnen eines Gesichtsmerkmalbetrags für jeden der Mitfahrer unter Verwendung eines Bildes, das die Vielzahl von Mitfahrern erfasst; und eine Bildverwendung-Bestimmungseinheit zum Bestimmen, ob es eine Äußerung für jeden der Mitfahrer gibt oder nicht, unter Verwendung des Gesichtsmerkmalbetrags von einer Startzeit bis zu einer Endzeit der geäußerten Sprache von jedem der Mitfahrer, wobei in einem Fall, in dem es identische Absichtsverständnisergebnisse gibt, die zwei oder mehr Mitfahrern entsprechen, für die die Bildverwendung-Bestimmungseinheit bestimmt hat, dass diese sprechen, die Punktwertverwendung-Bestimmungseinheit bestimmt, ob die Absichtsverständnisergebnisse übernommen werden sollen oder nicht, unter Verwendung des Spracherkennungspunktwerts und/oder des Absichtsverständnispunktwerts jedes der zwei oder mehr Mitfahrer.
Spracherkennungsvorrichtung gemäß Anspruch 7, wobei die Bildverwendung-Bestimmungseinheit eine Äußerungsperiode für jeden der Mitfahrer unter Verwendung des Gesichtsmerkmalbetrags jedes der Mitfahrer bestimmt, die Spracherkennungseinheit keine Spracherkennung an der geäußerten Sprache eines Mitfahrers durchführt, für den von der Bildverwendung-Bestimmungseinheit festgestellt wurde, dass er keine Äußerungsperiode aufweist, und die Absichtsverständniseinheit nicht die Absicht der Äußerung des Mitfahrers erfasst, bei dem durch die Bildverwendung-Bestimmungseinheit festgestellt wurde, dass er keine Äußerungsperiode aufweist.
Spracherkennungsvorrichtung gemäß Anspruch 6, weiter umfassend eine Dialogverwaltungsdatenbank zum Definieren von Korrespondenz zwischen Absichtsverständnisergebnissen und auszuführenden Funktionen; und eine Antwortbestimmungseinheit zum Bestimmen einer Funktion, die einem von der Punktwertverwendung-Bestimmungseinheit angenommenen Absichtsverständnisergebnis entspricht, unter Bezugnahme auf die Dialogverwaltungsdatenbank.
Spracherkennungsvorrichtung gemäß Anspruch 7, wobei die Bildverwendung-Bestimmungseinheit einen Bestimmungspunktwert berechnet, der die Zuverlässigkeit der Bestimmung anzeigt, ob es eine Äußerung für jeden der Mitfahrer gibt oder nicht, und falls es identische Absichtsverständnisergebnisse gibt, die zu zwei oder mehr Mitfahrern gehören, für die die Bildverwendung-Bestimmungseinheit bestimmt hat, dass diese sprechen, die Punktwertverwendung-Bestimmungseinheit bestimmt, ob die Absichtsverständnisergebnisse unter Verwendung des Bestimmungspunktwerts zusätzlich zu dem Spracherkennungspunktwert und/oder dem Absichtsverständnispunktwert jedes der zwei oder mehr Mitfahrer übernommen werden sollen oder nicht.
Ein Spracherkennungssystem umfassend eine Sprachsignalverarbeitungseinheit zum individuellen Trennen der geäußerten Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Fahrzeug sitzen eine Spracherkennungseinheit zum Durchführen von Spracherkennung an der durch die Sprachsignalverarbeitungseinheit getrennten, geäußerten Sprache jedes der Mitfahrer und zum Berechnen eines Spracherkennungsbewertung-Punktwerts; und eine Punktwertverwendung-Bestimmungseinheit zum Bestimmen eines Spracherkennungsergebnisses in Bezug darauf, welcher der Mitfahrer aus den Spracherkennungsergebnissen für die Mitfahrer zu verwenden ist, unter Verwendung des Spracherkennungspunktwertes jedes der Mitfahrer.
Ein Spracherkennungsverfahren, umfassend: individuelles Trennen, durch eine Sprachsignalverarbeitungseinheit, von geäußerter Sprache einer Vielzahl von Mitfahrern, die jeweils auf einem von einer Vielzahl von Spracherkennungszielsitzen in einem Sprachsignalfahrzeug sitzen; Durchführen, durch eine Spracherkennungseinheit, einer Spracherkennung an der durch die Sprachsignalverarbeitungseinheit getrennten, geäußerten Sprache jedes der Mitfahrer und Berechnen eines Spracherkennungspunktewerts; und Bestimmen, durch eine Punktwertverwendung-Bestimmungseinheit, eines Spracherkennungsergebnisses, welcher der Mitfahrer aus den Spracherkennungsergebnissen für die Mitfahrer zu verwenden ist, unter Verwendung des Spracherkennungsergebnisses für jeden der Mitfahrer.