DE112017008305T5

DE112017008305T5 - Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren

Info

Publication number: DE112017008305T5
Application number: DE112017008305.2T
Authority: DE
Inventors: Naoya Baba; Takumi Takei
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-09-10
Also published as: US20200411012A1; JPWO2019130399A1; CN111556826A; WO2019130399A1

Abstract

Ein Spracherkennungsvorrichtung (100) umfassend: eine Spracherkennungseinheit (14) zum Ausführen einer Spracherkennung an einer gesprochenen Äußerung, die für eine Bedienungseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen in einem Fahrzeug (1) sitzen, gemacht wird; eine Sprechende-Person-Identifikationseinheit (15) zum Ausführen von mindestens einem von einer Personen-Identifikationsverarbeitung zum Identifizieren der sprechenden Person und einer Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und eine Antwortmodus-Einstelleinheit (17) zum Ausführen einer Antwortmodus-Einstellungsverarbeitung zur Einstellung eines Modus für eine Antwort an die sprechende Person in Übereinstimmung mit einem von der Sprechende-Person-Identifikationseinheit (15) identifizierten Ergebnis; wobei die Antwortmodus-Einstellungsverarbeitung eine Verarbeitung ist, bei der der Modus für die Antwort als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen erlaubt zu erkennen, ob die Antwort an die An-Bord-Person selbst gegeben wird oder nicht.

Description

TECHNISCHER BEREICH
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung, ein Spracherkennungssystem und ein Spracherkennungsverfahren.
STAND DER TECHNIK
Spracherkennungsvorrichtungen zur Bereitstellung von Betriebseingaben für Informationsapparate in Fahrzeugen sind bisher entwickelt worden. Im Folgenden wird ein Sitz, der im Fahrzeug einer Spracherkennung unterzogen wird, als „Spracherkennungs-Zielsitz“ bezeichnet. Ferner wird unter den An-Bord-Personen, die auf den Spracherkennungs-Zielsitzen sitzen, eine Person, die eine Äußerung zur Bereitstellung der Betriebseingaben gemacht hat, als „sprechende Person“ bezeichnet. Ferner wird die Äußerung, die von der sprechenden Person zur Bereitstellung der Bedienungseingabe gemacht wird, als „gesprochener Ton“ bezeichnet.
In der Patentliteratur 1 wird eine Technik offenbart, mit der außerhalb des Fahrersitzes und des Beifahrersitzes, die Spracherkennungs-Zielsitze sind, ein Sitz identifiziert werden kann, auf dem eine sprechende Person sitzt. Mit dieser Technik wird eine adäquate Bedienungseingabe in dem Fall erreicht, wenn mehrere Personen im Fahrzeug auf den Spracherkennungs-Zielsitzen sitzen.
ZITATLISTE
PATENTLITERATUR
Patentliteratur 1: japanische Patentanmeldung Offenlegungs-Nr. H11-65587
ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHE AUFGABE
Vor kurzem wurde eine Spracherkennungsvorrichtung entwickelt, die mit einer UI (Benutzerschnittstelle) des sogenannten „interaktiven Typs“ verbunden ist. Eine solche Benutzerschnittstelle wurde nämlich entwickelt, die zusätzlich zum Empfang der Bedienungseingabe durch Spracherkennung einer gesprochenen Äußerung bewirkt, dass ein Lautsprecher eine Sprache zur Verwendung als Antwort auf die gesprochene Äußerung ausgibt (im Folgenden als „Antwortsprache“ bezeichnet) und/oder dass eine Anzeige ein Bild zur Verwendung als Antwort auf die gesprochene Äußerung anzeigt (im Folgenden als „Antwortbild“ bezeichnet). Im Folgenden können die Antwortsprache, das Antwortbild und dergleichen entsprechend der interaktiven Typ UI einfach als „Antwort“ bezeichnet werden.
Gemäß der Spracherkennungsvorrichtung, die der interaktiven Typ UI zugeordnet ist, wird in dem Fall, dass mehrere An-Bord-Personen auf den Spracherkennungs-Zielsitzen sitzen, eine Antwort an die sprechende Person in den mehreren Personen im Fahrzeug ausgegeben. In diesem Fall besteht das Problem, dass es für jede der mehreren im Fahrzeug befindlichen Personen schwierig ist, zu erkennen, ob die Antwort an die im Fahrzeug befindliche Person selbst ausgegeben wird oder nicht. Insbesondere besteht das Problem, dass eine solche Erkennung schwieriger wird, wenn die Antworten an mehrere sprechende Personen fast gleichzeitig ausgegeben werden.
Diese Erfindung wurde gemacht, um die oben beschriebenen Probleme zu lösen, und ein Ziel dieser Erfindung ist es, jede der mehreren im Fahrzeug befindlichen Personen, die auf den Spracherkennungs-Zielsitzen sitzen, darüber zu informieren, ob eine Antwort gemäß des interaktiven Typ UI an die im Fahrzeug befindliche Person selbst gegeben wird oder nicht.
LÖSUNG DER AUFGABE
Eine Spracherkennungsvorrichtung der Erfindung ist dadurch gekennzeichnet, dass sie umfasst: eine Spracherkennungseinheit zum Ausführen einer Spracherkennung an einer gesprochenen Äußerung, die für eine Bedienungseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen in einem Fahrzeug sitzen, gemacht wird, eine Identifikationseinheit zur Ausführung von mindestens einer Personen-Identifikationsverarbeitung zur individuellen Identifizierung der sprechenden Person; und Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt, und einer Antwortmodus-Einstelleinheit zum Ausführen einer Antwortmodus-Einstellverarbeitung zum Einstellen eines Modus für eine Antwort an die sprechende Person in Übereinstimmung mit einem von der Identifikationseinheit für die sprechende Person identifizierten Ergebnis, und wobei die Antwortmodus-Einstellverarbeitung eine Verarbeitung ist, bei der der Modus für die Antwort als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen erlaubt zu erkennen, ob die Antwort für sie selbst gegeben wird.
VORTEILHAFTE EFFEKTE DER ERFINDUNG
Nach der Erfindung ist es aufgrund der oben beschriebenen Konfiguration möglich, jede der mehreren An-Bord-Personen, die auf den Spracherkennungs-Zielsitzen sitzen, darüber zu informieren, ob eine Antwort gemäß der interaktiven Art der Benutzeroberfläche an die An-Bord-Person selbst gegeben wird oder nicht.
Figurenliste

1 ist ein Blockdiagramm, das einen Zustand zeigt, in dem eine Spracherkennungsvorrichtung gemäß der Ausführungsform 1 der Erfindung in einem Informationsgerät in einem Fahrzeug vorgesehen ist.
2 ist ein Illustrationsdiagramm, das einen Zustand zeigt, in dem ein Antwortbild auf einer Anzeigevorrichtung angezeigt wird.
3 ist ein Illustrationsdiagramm, das einen Zustand zeigt, in dem ein anderes Antwortbild auf der Anzeigevorrichtung angezeigt wird.
4A ist ein Blockdiagramm, das eine Hardwarekonfiguration einer Informationsvorrichtung zeigt, in der die Spracherkennungsvorrichtung gemäß der Ausführungsform 1 der Erfindung vorgesehen ist. 4B ist ein Blockdiagramm, das eine andere Hardwarekonfiguration einer Informationsvorrichtung zeigt, in der die Spracherkennungsvorrichtung gemäß der Ausführungsform 1 der Erfindung vorgesehen ist.
5 ist ein Flussdiagramm, das den Betrieb eines Informationsapparates zeigt, in dem die Spracherkennungsvorrichtung gemäß der Ausführungsform 1 der Erfindung vorgesehen ist.
6 ist ein Flussdiagramm, das den detaillierten Betrieb einer Spracherkennungseinheit in der Spracherkennungsvorrichtung gemäß der Ausführungsform 1 der Erfindung zeigt.
7 ist ein Blockdiagramm, das einen Hauptteil eines Spracherkennungssystems gemäß der Ausführungsform 1 der Erfindung zeigt.
8 ist ein Blockdiagramm, das einen Zustand zeigt, in dem eine Spracherkennungsvorrichtung gemäß der Ausführungsform 2 der Erfindung in einem Informationsapparat in einem Fahrzeug vorgesehen ist.
9 ist ein Flussdiagramm, das den Betrieb einer An-Bord-Person-Identifikationseinheit in der Spracherkennungsvorrichtung gemäß der erfindungsgemäßen Ausführungsform 2 zeigt.
10 ist ein Flussdiagramm, das den detaillierten Betrieb der An-Bord-Person-Identifikationseinheit in der Spracherkennungsvorrichtung gemäß der Ausführungsform 2 der Erfindung zeigt.
11 ist ein Flussdiagramm, das den Betrieb von anderen Teilen als der An-Bord-Person-Identifikationseinheit in dem Informationsapparat zeigt, in dem die Spracherkennungseinrichtung gemäß der Ausführungsform 2 der Erfindung vorgesehen ist.
12 ist ein Flussdiagramm, das den detaillierten Betrieb einer Spracherkennungseinheit in der Spracherkennungsvorrichtung gemäß der Ausführungsform 2 der Erfindung zeigt.
13 ist ein Blockdiagramm, das einen Zustand zeigt, in dem eine weitere Spracherkennungseinrichtung gemäß der Ausführungsform 2 der Erfindung in einem Informationsapparat in einem Fahrzeug vorgesehen ist.
14 ist ein Blockdiagramm, das einen Zustand zeigt, in dem eine weitere Spracherkennungseinrichtung gemäß der Ausführungsform 2 der Erfindung in einem Informationsapparat in einem Fahrzeug vorgesehen ist.
15 ist ein Blockdiagramm, das einen Hauptteil eines Spracherkennungssystems gemäß der Ausführungsform 2 der Erfindung zeigt.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Im Folgenden werden zur näheren Veranschaulichung der Erfindung Ausführungsformen zur Ausführung der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
Ausführungsform 1
1 ist ein Blockdiagramm, das einen Zustand zeigt, in dem ein Spracherkennungsvorrichtung gemäß der Ausführungsform 1 in einem Informationsapparat in einem Fahrzeug vorhanden ist. Unter Bezugnahme auf 1 wird eine Beschreibung einer Spracherkennungsvorrichtung 100 der Ausführungsform 1 vorgenommen, wobei der Schwerpunkt auf einem Fall liegt, in dem es in einem Informationsapparat 2 in einem Fahrzeug 1 bereitgestellt wird.
In der Abbildung bezeichnet das Bezugszeichen 3 eine Tonaufnahmevorrichtung. Die Tonaufnahmevorrichtung 3 ist z.B. mit einer Anzahl von N Mikrofonen 3₁ bis 3_N (N bezeichnet eine ganze Zahl von 2 oder mehr) konfiguriert, die in einem Fahrzeuginnenraum in der Frontpartie des Fahrzeugs 1 vorgesehen sind. Genauer gesagt sind z.B. die Mikrofone 3₁ bis 3_N jeweils als nicht-direktionales Mikrofon konfiguriert, und die in konstanten Abständen angeordneten Mikrofone 3₁ bis 3_N bilden ein Array-Mikrofon. Die Tonaufnahmevorrichtung 3 dient zur Ausgabe von Signalen (im folgenden jeweils als „Tonsignal“ bezeichnet) S₁ bis S_N, die den jeweiligen von den Mikrofonen 3₁ bis 3_N gesammelten Tönen entsprechen. Die Tonsignale S₁ bis S_N entsprechen nämlich eins zu eins den Mikrofonen 3₁ bis 3_N .
Eine Tonsignalerfassungseinheit 11 dient zur Erfassung der Tonsignale S₁ bis S_N, die von der Tonaufnahmevorrichtung 3 ausgegeben werden. Die Tonsignalerfassungseinheit 11 dient zur Durchführung der Analog-Digital-Umwandlung (im Folgenden als „A/D-Umwandlung“ bezeichnet) der Tonsignale S₁ bis S_N unter Verwendung von z.B. PCM (Pulse Code Modulation). Die Tonsignalerfassungseinheit 11 dient dazu, die Tonsignale S₁' bis S_N' nach der A/D-Wandlung an eine Tonsignalverarbeitungseinheit 12 auszugeben.
Die Tonsignalverarbeitungseinheit 12 dient zur Abschätzung einer Einfallsrichtung der gesprochenen Äußerung in die Tonaufnahmevorrichtung 3 (im Folgenden als „Sprechrichtung“ bezeichnet). Konkret ist z.B. die Tonaufnahmevorrichtung 3 im vorderen Teil des Fahrzeuginnenraums des Fahrzeugs 1 und in einem Mittelteil in Bezug auf die horizontale Richtung des Fahrzeugs 1 angeordnet. Im Folgenden wird eine Achse, die durch die Anbringungsstelle der Tonaufnahmevorrichtung 3 verläuft und die parallel zur Längsrichtung des Fahrzeugs 1 verläuft, als „Mittelachse“ bezeichnet. Die Tonsignalverarbeitungseinheit 12 schätzt die Sprechrichtung, die durch einen horizontalen Richtungswinkel θ in Bezug auf die Mittelachse, die sich auf die Anbringungsposition der Tonaufnahmevorrichtung 3 bezieht, dargestellt wird, auf der Grundlage von: Werten der Differenzen in Leistung zwischen den Tonsignalen S₁' bis S_N'; Phasendifferenzen zwischen den Tonsignalen S₁' bis S_N'; oder ähnlichem.
Ferner dient die Tonsignalverarbeitungseinheit 12 dazu, jede Komponente in den Tonsignalen S₁' bis S_N' zu entfernen, die einem Ton entspricht, der der Tonaufnahmevorrichtung 3 aus einer Richtung eingegeben wird, die sich von der so geschätzten Sprechrichtung unterscheidet, und somit Komponenten zu entfernen, die Tönen entsprechen, die sich vom gesprochenen Äußerungen unterscheiden (im Folgenden jeweils als „Rauschkomponente“ bezeichnet). Die Tonsignalverarbeitungseinheit 12 dient dazu, Tonsignale S₁" bis S_M" nach Entfernung der Rauschkomponenten an eine Spracherkennungsverarbeitungseinheit 13 auszugeben. Es ist zu beachten, dass das Symbol M eine ganze Zahl von N oder weniger bezeichnet und z.B. eine Zahl ist, die der Sitznummer der Zielsitze der Spracherkennung entspricht.
Zu den Rauschkomponenten gehören z.B. eine Komponente, die einem durch die Fahrt des Fahrzeugs 1 verursachten Geräusch entspricht, eine Komponente, die einem Geräusch entspricht, das von einer anderen als der sprechenden Person unter den An-Bord-Personen des Fahrzeugs 1 gesprochen wird (d.h. eine Komponente, die einem Geräusch entspricht, das nicht für eine Bedienungseingabe bestimmt ist, sondern durch ein Gespräch zwischen An-Bord-Personen verursacht wird, oder ähnliches), und ähnliches. Um die Rauschkomponenten in der Tonsignalverarbeitungseinheit 12 zu entfernen, kann jedes der öffentlich bekannten verschiedenen Verfahren, wie z.B. ein Strahlformungsverfahren, ein binäres Maskierungsverfahren, ein Spektralsubtraktionsverfahren oder ähnliches, verwendet werden. Dementsprechend wird auf eine detaillierte Beschreibung, wie die Rauschkomponenten in der Tonsignalverarbeitungseinheit 12 entfernt werden, verzichtet.
Die Spracherkennungsverarbeitungseinheit 13 dient zur Erkennung eines der gesprochenen Äußerung entsprechenden Tonabschnitts (im Folgenden als „Sprechabschnitt“ bezeichnet) in den Tonsignalen S₁" bis S_M". Die Spracherkennungsverarbeitungseinheit 13 dient dazu, aus Teilen der Tonsignale S₁" bis S_M" im Sprechabschnitt einen Merkmalsbetrag für die Spracherkennungsverarbeitung (im Folgenden als „erster Merkmalsbetrag“ bezeichnet) zu extrahieren. Die Spracherkennungsverarbeitungseinheit 13 dient dazu, die Spracherkennungsverarbeitung unter Verwendung der ersten Merkmalsmenge auszuführen.
Für die Spracherkennungsverarbeitung in der Spracherkennungsverarbeitungseinheit 13 kann eines der öffentlich bekannten verschiedenen Verfahren, wie z.B. ein HMM (Hidden Markov Model) Verfahren oder ähnliches, verwendet werden. Dementsprechend wird auf eine detaillierte Beschreibung der Spracherkennungsverarbeitung in der Spracherkennungsverarbeitungseinheit 13 verzichtet.
Ferner dient die Spracherkennungsverarbeitungseinheit 13 dazu, aus Teilen der Tonsignale S₁" bis S_M" im Sprechabschnitt eine Merkmalsmenge (im Folgenden als „zweite Merkmalsmenge“ bezeichnet) für die Verarbeitung zur individuellen Identifizierung der sprechenden Person (im Folgenden als „Personen-Identifikationsverarbeitung“ bezeichnet) zu extrahieren.
Durch die Tonsignalerfassungseinheit 11, die Tonsignalverarbeitungseinheit 12 und die Spracherkennungsverarbeitungseinheit 13 wird eine Spracherkennungseinheit 14 gebildet. Die Spracherkennungseinheit 14 dient nämlich dazu, die Spracherkennung auf der gesprochenen Äußerung auszuführen.
Es wird darauf hingewiesen, dass die Spracherkennungseinheit 14 bei nur einer sprechenden Person die Spracherkennung auf der gesprochenen Äußerung ausführt, der von der einzigen sprechenden Person gemacht wird. Andererseits führt die Spracherkennungseinheit 14 bei mehreren sprechenden Personen die Spracherkennung an jedem der von den mehreren sprechenden Personen gesprochenen Äußerungen aus.
Eine Sprechende-Person-Identifikationseinheit 15 dient zur Ausführung der Personen-Identifikationsverarbeitung unter Verwendung der zweiten Merkmalsmenge, die von der Spracherkennungsverarbeitungseinheit 13 extrahiert wird.
Konkret wird z.B. in der Sprechende-Person-Identifikationseinheit 15 eine Datenbank vorgespeichert, in der Merkmalsmengen mehrerer Personen, die jeweils einer zweiten Merkmalsmenge entsprechen, enthalten sind. Durch Vergleich der zweiten Merkmalsmenge, die von der Spracherkennungsverarbeitungseinheit 13 extrahiert wurde, mit jeder der Merkmalsmengen mehrerer Personen, identifiziert die Sprechende-Person-Identifikationseinheit 15 die sprechende Person individuell.
Stattdessen dient die Sprechende-Personen-Identifikationseinheit 15 dazu, aus den Spracherkennungs-Zielsitzen einen Sitz zu identifizieren, auf dem die sprechende Person sitzt (nachfolgend als „Sitz-Identifikationsverarbeitung“ bezeichnet), und zwar auf der Grundlage der von der Tonsignalverarbeitungseinheit 12 geschätzten Sprechrichtung.
Insbesondere sind z.B. die Winkel Φ, die sich auf die Mittelachse beziehen, die sich auf die Platzierungsposition der Tonaufnahmevorrichtung 3 bezieht und die die Positionen der jeweiligen Spracherkennungs-Zielsitze (im Folgenden jeweils als „tatsächlicher Winkel“ bezeichnet) angeben, zuvor gemessen worden, und die tatsächlichen Winkel Φ der jeweiligen Spracherkennungs-Zielsitze sind in der Sprechende-Person-Identifikationseinheit 15 vorgespeichert. Durch Vergleich des Winkels 9, der durch die von der Tonsignalverarbeitungseinheit 12 geschätzte Sprechrichtung angezeigt wird, mit jedem der tatsächlichen Winkel Φ, die den Spracherkennungs-Zielsitzen entsprechen, identifiziert die Sprechende-Person-Identifikationseinheit 15 den Sitz, auf dem die sprechende Person sitzt.
Nimmt man zum Beispiel an, dass der Fahrersitz und der Beifahrersitz im Fahrzeug 1 Zielsitze der Spracherkennung sind und ein tatsächlicher Winkel Φ von +20°, der dem Fahrersitz entspricht, und ein tatsächlicher Winkel Φ von -20°, der dem Beifahrersitz entspricht, in der Sprechende-Person-Identifikationseinheit 15 vorgespeichert sind. Wenn in dieser Situation der Winkel 9, der durch die von der Tonsignalverarbeitungseinheit 12 geschätzte Sprechrichtung angezeigt wird, +18° beträgt, identifiziert die Sprechende-Person-Identifikationseinheit 15, dass der Sitz, auf dem die sprechende Person sitzt, der Fahrersitz ist.
Stattdessen dient die Sprechende-Person-Identifikationseinheit 15 dazu, sowohl die Personenidentifizierung als auch die Sitzidentifikation durchzuführen.
Es wird darauf hingewiesen, dass, wenn es nur eine sprechende Person gibt, die Personen-Identifikationsverarbeitung die Identifizierung der einzigen sprechenden Person durchführt; und die Sitz-Identifikationsverarbeitung die Identifizierung des Sitzes, auf dem die einzige sprechende Person sitzt. Andererseits, wenn es mehrere sprechende Personen gibt, wird bei der Personen-Identifikationsverarbeitung jede der mehreren sprechenden Personen identifiziert; und bei der Sitz-Identifikationsverarbeitung wird jeder der Sitze, auf denen die mehreren sprechenden Personen sitzen, identifiziert.
Des Weiteren, wenn es sich bei der Sprechende-Person-Identifikationseinheit 15 um diejenige handelt, die nur die Personen-Identifikationsverarbeitung durchführt, ist eine Verbindungslinie zwischen der Tonsignalverarbeitungseinheit 12 und der Identifikationseinheit 15 für die sprechende Person unnötig, wie in 1 dargestellt. Des Weiteren, wenn es sich bei der Sprechende-Person-Identifikationseinheit 15 um diejenige handelt, die nur die Sitz-Identifikationsverarbeitung durchführt, ist es nicht erforderlich, den zweiten Merkmalspunkt durch die Spracherkennungsverarbeitungseinheit 13 zu extrahieren, und eine Verbindungslinie zwischen der Spracherkennungsverarbeitungseinheit 13 und der Sprechende-Person-Identifikationseinheit 15, wie in 1 gezeigt, ist unnötig.
Eine Antwort-Inhalts-Einstelleinheit 16 dient zur Durchführung der Verarbeitung der Einstellung des Inhalts (im Folgenden als „Antwort-Inhalt“ bezeichnet) der Antwort auf die gesprochene Äußerung (im Folgenden als „Antwort-Inhalts-Einstellverarbeitung“ bezeichnet). Eine Antwortmodus-Einstelleinheit 17 dient zur Durchführung der Verarbeitung der Einstellung eines Modus (im Folgenden als „Antwortmodus“ bezeichnet) für die Antwort auf die gesprochene Äußerung (im Folgenden als „Antwortmodus-Einstellverarbeitung“ bezeichnet). Eine Antwortausgabesteuereinheit 18 dient zur Durchführung der Ausgabesteuerung der Antwort auf die gesprochene Äußerung (im Folgenden als „Antwortausgabesteuerung“ bezeichnet) auf der Grundlage des durch die Antwort-Inhalts-Einstelleinheit 16 eingestellten Antwortinhalts und des durch die Antwortmodus-Einstelleinheit 17 eingestellten Antwortmodus.
Konkret wird z.B. mit der Antwortmodus-Einstelleinheit 17 ein Ausgabemodus für die Antwortsprache eingestellt. Die Antwortausgabesteuereinheit 18 erzeugt unter Verwendung der sogenannten „Sprachsynthese“ die Antwortsprache auf der Grundlage des durch die Antwortmodus-Einstelleinheit 17 eingestellten Ausgabemodus. Die Antwortausgabesteuereinheit 18 führt die Steuerung aus, um eine Tonausgabevorrichtung 4 zu veranlassen, die so erzeugte Antwortsprache auszugeben. Die Tonausgabevorrichtung 4 ist z.B. mit mehreren Lautsprechern konfiguriert.
Für die Sprachsynthese in der Antwortausgabesteuereinheit 18 kann jede der öffentlich bekannten verschiedenen Verfahren verwendet werden. Dementsprechend wird auf eine detaillierte Beschreibung der Sprachsynthese in der Antwortausgabesteuereinheit 18 verzichtet.
Zum weiteren Beispiel stellt die Antwortmodus-Einstelleinheit 17 einen Anzeigemodus für das Antwortbild ein. Die Antwortausgabesteuereinheit 18 erzeugt das Antwortbild auf der Grundlage des durch die Antwortmodus-Einstelleinheit 17 eingestellten Anzeigemodus. Die Antwortausgabesteuereinheit 18 führt die Steuerung aus, um eine Anzeigevorrichtung 5 zu veranlassen, das so erzeugte Antwortbild anzuzeigen. Die Anzeigevorrichtung 5 ist mit einer Anzeige konfiguriert, z.B. einer Flüssigkristallanzeige, einer organischen EL (Elektrolumineszenz) Anzeige oder ähnlichem.
Es wird darauf hingewiesen, dass, wenn nur eine sprechende Person anwesend ist, die Antwort-Inhalts-Einstellverarbeitung die Einstellung des Inhalts der Antwort auf die einzige sprechende Person ist; die Antwortmodus-Einstellverarbeitung die Einstellung des Modus für die Antwort auf die einzige sprechende Person ist; und die Antwortausgabesteuerung die Ausgabesteuerung der Antwort auf die einzige sprechende Person ist. Andererseits, wenn es mehrere sprechende Personen gibt, ist die Antwort-Inhalts-Einstellverarbeitung die Verarbeitung der Einstellung des Inhalts der jeweiligen Antworten an die mehreren sprechenden Personen; die Antwortmodus-Einstellverarbeitung die Verarbeitung der Einstellung der Modi für die jeweiligen Antworten an die mehreren sprechenden Personen; und die Antwortausgabesteuerung die Ausgabesteuerung der jeweiligen Antworten an die mehreren sprechenden Personen.
Im Folgenden werden spezifische Beispiele für die Antwort-Inhalts-Einstellverarbeitung, die Antwortmodus-Einstellverarbeitung und die Antwortausgabesteuerung beschrieben.
<Spezifisches Beispiel für die Verarbeitung der Antwortinhaltseinstellung>
Die Antwort-Inhalts-Einstelleinheit 16 erfasst das Ergebnis der Spracherkennungsverarbeitung durch die Spracherkennungsverarbeitungseinheit 13. Die Antwort-Inhalts-Einstelleinheit 16 wählt aus vorgespeicherten mehreren Antwortsätzen einen Antwortsatz aus, der mit dem Ergebnis der Spracherkennungsverarbeitung übereinstimmt. Die Auswahl zu diesem Zeitpunkt kann auf einer vorgeschriebenen Regel beruhen, die sich auf Korrespondenzbeziehungen zwischen dem Ergebnis der Spracherkennungsverarbeitung und den vorgespeicherten mehreren Antwortsätzen bezieht, oder sie kann auf einem statistischen Modell beruhen, das auf den Ergebnissen des maschinellen Lernens unter Verwendung einer großen Anzahl von interaktiven Satzbeispielen beruht.
Es wird darauf hingewiesen, dass die Antwort-Inhalts-Einstelleinheit 16 diejenige sein kann, die Wetterinformationen, Fahrplaninformationen oder ähnliches aus der sogenannten „Cloud“ bezieht, um dadurch einen Antwortsatz zu generieren, der diese Informationen enthält.
<Erstes spezifisches Beispiel für die Antwortmodus-Einstellverarbeitung und Antwortausgabesteuerung>
Die Antwortmodus-Einstelleinheit 17 erfasst das Ergebnis der Personen-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Ferner erfasst die Antwortmodus-Einstelleinheit 17 den Antwortsatz (im Folgenden als „Ausgabe-Antwortsatz“ bezeichnet), der von der Antwort-Inhalts-Einstelleinheit 16 ausgewählt oder erzeugt wird. Auf der Grundlage des Namens o.ä. der sprechenden Person, der durch das Ergebnis der Personen-Identifikationsverarbeitung angezeigt wird, fügt die Antwortmodus-Einstelleinheit 17 dem Ausgabe-Antwortsatz eine nominale Bezeichnung für diese sprechende Person hinzu. Die Antwortausgabesteuereinheit 18 erzeugt eine Antwortsprache oder ein Antwortbild, die bzw. das dem Ausgabe-Antwortsatz mit der Sollbezeichnung entspricht.
Nimmt man zum Beispiel an, dass als Antwort auf die gesprochen Äußerung „Suche nach einem Umweg“, die von der auf dem Fahrersitz sitzenden sprechenden Person gemacht wird, das Ergebnis der Personen-Identifikationsverarbeitung einen Namen „A“ dieser sprechenden Person anzeigt und die Antwortausgabe-Einstelleinheit 16 den Ausgabe-Antwortsatz „Suche nach einer Umgehungsroute wurde durchgeführt. Ich werde Sie führen“ auswählt. In diesem Fall fügt die Antwortmodus-Einstelleinheit 17 dem Kopfteil des von der Antwort-Inhalts-Einstelleinheit 16 ausgewählten Ausgabe-Antwortsatzes die nominale Bezeichnung hinzu, um dadurch den Ausgabe-Antwortsatz „Lieber A, Suche nach einer Umgehungsroute wurde durchgeführt. Ich werde Sie führen.“ zu erzeugen. Die Antwortausgabesteuereinheit 18 erzeugt eine Antwortsprache oder ein Antwortbild, das dem von der Antwortmodus-Einstelleinheit 17 erzeugten Ausgabeantwortsatz entspricht. In 2 ist ein Beispiel für ein Antwortbild I entsprechend diesem Fall dargestellt.
Als weiteres Beispiel wird angenommen, dass als Antwort auf die gesprochene Äußerung „Sagen Sie mir meinen heutigen Zeitplan“, die von der auf dem Fahrersitz sitzenden sprechenden Person gemacht wird, das Ergebnis der Personen-Identifikationsverarbeitung einen Namen „A“ dieser sprechenden Person anzeigt und die Antwortausgabe-Einstelleinheit 16 unter Verwendung der Zeitplaninformationen den Ausgabeantwortsatz „Heute haben Sie um 14 Uhr einen Zahnarzttermin“ erzeugt. Nimmt man zusätzlich an, dass als Antwort auf die gesprochene Äußerung „Sagen Sie mir auch meinen Terminplan“, die von der sprechenden Person auf dem Beifahrersitz gemacht wurde, das Ergebnis der Personen-Identifikationsverarbeitung einen Namen „B“ dieser sprechenden Person anzeigt und die Antwort-Inhalts-Einstelleinheit 16 unter Verwendung der Terminplaninformationen den Ausgabe-Antwortsatz „Heute haben Sie um 17 Uhr eine Trinkparty mit Freunden“ erzeugt.
In diesem Fall fügt die Antwortmodus-Einstelleinheit 17 dem Kopfteil in jedem der von der Antwort-Inhalts-Einstelleinheit 16 erzeugten Ausgabe-Antwortsätze die Nominalbezeichnung hinzu, um dadurch einen Ausgabe-Antwortsatz „Lieber A, heute haben Sie um 14 Uhr einen Zahnarzttermin“ und einen Ausgabe-Antwortsatz „Lieber B, heute haben Sie um 17 Uhr eine Trinkparty mit Freunden“ zu erzeugen. Die Ausgabesteuereinheit 18 erzeugt zu diesen Ausgabe-Antwortsätzen entsprechende Antwortreden oder Antwortbilder.
Alternativ erfasst die Antwortmodus-Einstelleinheit 17 das Ergebnis der Sitz-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Ferner erfasst die Antwortmodus-Einstelleinheit 17 den von der Antwort-Inhalts-Einstelleinheit 16 ausgewählten oder erzeugten Ausgabe-Antwortsatz. Auf der Grundlage des Namens o.ä. des Sitzes, der durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird, fügt die Antwortmodus-Einstelleinheit 17 dem Ausgabe-Antwortsatz eine nominale Bezeichnung für die sprechende Person hinzu. Die Antwortausgabesteuereinheit 18 erzeugt eine Antwortsprache oder ein Antwortbild, das dem Ausgabe-Antwortsatz mit der Sollbezeichnung entspricht.
Nehmen wir zum Beispiel an, dass als Antwort auf die gesprochene Äußerung „Sagen Sie mir nahegelegene Parkplätze“, die von der auf dem Fahrersitz sitzenden sprechenden Person gemacht wird, das Ergebnis der Sitzidentifikationsverarbeitung den „Fahrersitz“ anzeigt, und die Antwortmodus-Einstelleinheit 16 erzeugt den Ausgabeantwortsatz „Drei nahegelegene Parkplätze wurden gefunden“. Nehmen wir zusätzlich an, dass als Antwort auf die gesprochene Äußerung „Ich möchte Musik hören“, die die sprechende Person auf dem Beifahrersitz macht, das Ergebnis der Sitz-Identifikationsverarbeitung den „Beifahrersitz“ anzeigt und die Antwort-Inhalts-Einstelleinheit 16 den Ausgabe-Antwortsatz „Welches Musikgenre möchten Sie suchen?“ auswählt.
In diesem Fall fügt die Antwortmodus-Einstelleinheit 17 dem Kopfteil in jedem der von der Antwort-Inhalts-Einstelleinheit 16 erzeugten oder ausgewählten Ausgabe-Antwortsätze eine nominale Bezeichnung hinzu, um dadurch einen Ausgabe-Antwortsatz „Lieber Fahrer, drei nahegelegene Parkplätze wurden gefunden“ und einen Ausgabe-Antwortsatz „Lieber Beifahrer, nach welches Musikgenre möchten Sie suchen?“ zu erzeugen und auszugeben. Die Antwortausgabesteuereinheit 18 erzeugt zu diesen Ausgabe-Antwortsätzen entsprechende Antwortreden oder Antwortbilder.
<Zweites spezifisches Beispiel für Antwortmodus-Einstellverarbeitung und Antwortausgabesteuerung>
Die Antwortmodus-Einstelleinheit 17 erfasst das Ergebnis der Personen-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Im Hinblick auf die Sprachsynthese in der Antwortausgabesteuereinheit 18 ist der Sprecher der Antwortsprache aus mehreren Sprechern auswählbar. Die Antwortmodus-Einstelleinheit 17 setzt einen bestimmten Sprecher der Antwortsprache auf einen anderen Sprecher zurück, je nach der sprechenden Person, die durch das Ergebnis der Personen-Identifikationsverarbeitung angezeigt wird.
Alternativ dazu erfasst die Antwortmodus-Einstelleinheit 17 das Ergebnis der Sitz-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Im Hinblick auf die Sprachsynthese in der Antwortausgabesteuereinheit 18 ist der Sprecher der Antwortsprache aus mehreren Sprechern auswählbar. Die Antwortmodus-Einstelleinheit 17 setzt einen bestimmten Sprecher der Antwortsprache auf einen anderen Sprecher zurück, je nach dem Sitz, der durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird.
<Drittes spezifisches Beispiel für Antwortmodus-Einstellverarbeitung und Antwortausgabesteuerung >
Die Antwortmodus-Einstelleinheit 17 erfasst das Ergebnis der Sitz-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Die Antwortmodus-Einstelleinheit 17 stellt von den mehreren Lautsprechern, die in der Tonausgabevorrichtung 4 enthalten sind, einen Lautsprecher als denjenigen ein, der für die Ausgabe der Antwortsprache entsprechend der durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigten Position des Sitzes zu verwenden ist. Die Antwortausgabesteuereinheit 18 steuert, dass die Antwortsprache von dem durch die Antwortmodus-Einstelleinheit 17 eingestellten Lautsprecher ausgegeben wird.
Nimmt man zum Beispiel an, dass die Tonausgabevorrichtung 4 mit einem Paar rechter und linker Frontlautsprecher konfiguriert ist und das Ergebnis der Sitz-Identifikationsverarbeitung den „Fahrersitz“ anzeigt. In diesem Fall stellt die Antwortmodus-Einstelleinheit 17 aus den Frontlautsprechern den Lautsprecher auf der Fahrersitzseite als den für die Ausgabe der Antwortsprache zu verwendenden Lautsprecher ein. Die Antwortausgabe-Einstelleinheit 18 steuert, dass die Antwortsprache vom Lautsprecher auf der Fahrersitzseite aus den Frontlautsprechern ausgegeben wird.
Nimmt man in gleicher Weise an, dass die Tonausgabevorrichtung 4 mit einem Paar rechter und linker Frontlautsprecher konfiguriert ist und das Ergebnis der Sitz-Identifikationsverarbeitung den „Beifahrersitz“ anzeigt. In diesem Fall stellt die Antwortmodus-Einstelleinheit 17 aus den Frontlautsprechern den Lautsprecher auf der Beifahrersitzseite als den für die Ausgabe der Antwortsprache zu verwendenden Lautsprecher ein. Die Ansprechmodus-Einstelleinheit 18 steuert, dass die Antwortsprache vom Lautsprecher auf der Beifahrersitzseite aus den Frontlautsprechern ausgegeben wird.
<Viertes spezifisches Beispiel für die Antwortmodus-Einstellverarbeitung und Antwortausgabesteuerung>
Die Antwortmodus-Einstelleinheit 17 erfasst das Ergebnis der Sitz-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Die Antwortausgabe-Einstelleinheit 18 hat die Funktion, ein Tonfeld im Innenraum des Fahrzeugs 1 zum Zeitpunkt der Ausgabe der Antwortsprache zu steuern. Die Antwortmodus-Einstelleinheit 17 stellt das Tonfeld zum Zeitpunkt der Ausgabe der Antwortsprache entsprechend der Position des Sitzes ein, die durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird. Die Antwortausgabesteuereinheit 18 veranlasst die Tonausgabevorrichtung 4, die Antwortsprache so auszugeben, dass das durch die Antwortmodus-Einstelleinheit 17 eingestellte Tonfeld im Innenraum des Fahrzeugs 1 aufgebaut wird.
Nimmt man zum Beispiel an, dass das Ergebnis der Sitz-Identifikationsverarbeitung den „Fahrersitz“ anzeigt. In diesem Fall stellt die Antwortmodus-Einstelleinheit 17 das Tonfeld so ein, dass das Tonvolumen der Antwortsprache am Fahrersitz größer ist als das Tonvolumen der Antwortsprache an jedem anderen Sitz. Die Ansprechmodus-Einstelleinheit 18 veranlasst die Tonausgabevorrichtung 4, die Ansprechsprache so auszugeben, dass sich ein solches Tonfeld im Fahrzeuginnenraum 1 einstellt.
Nimmt man in gleicher Weise an, dass das Ergebnis der Sitz-Identifikationsverarbeitung den „Beifahrersitz“ anzeigt. In diesem Fall stellt die Antwortmodus-Einstelleinheit 17 das Tonfeld so ein, dass das Tonvolumen der Antwortsprache am Beifahrersitz größer ist als das Tonvolumen der Antwortsprache an jedem anderen Sitz. Die Ansprechmodus-Einstelleinheit 18 veranlasst die Tonausgabevorrichtung 4, die Ansprechsprache so auszugeben, dass ein solches Tonfeld im Innenraum des Fahrzeugs 1 entsteht.
<Fünftes spezifisches Beispiel für die Antwortmodus-Einstellverarbeitung und die Antwortausgabesteuerung>
Die Antwortmodus-Einstelleinheit 17 erfasst das Ergebnis der Sitz-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15. Die Antwortmodus-Einstelleinheit 17 stellt einen Bereich ein, in dem das Antwortbild im Anzeigebereich der Anzeigevorrichtung 5 entsprechend der durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigten Position des Sitzes angezeigt werden soll. Die Antwortausgabesteuereinheit 18 bewirkt, dass das Antwortbild in dem durch die Antwortmodus-Einstelleinheit 17 eingestellten Bereich angezeigt wird.
Nimmt man zum Beispiel an, dass die Antwort-Inhalts-Einstelleinheit 16 als Antwort auf die gesprochene Äußerung „Sagen Sie mir meinen heutigen Zeitplan“, die von der auf dem Fahrersitz sitzenden sprechenden Person gemacht wird, unter Verwendung der Zeitplaninformationen den Antwortausgabesatz „Heute haben Sie um 14 Uhr einen Zahnarzttermin“ erzeugt. Nimmt man zusätzlich an, dass die Antwort-Inhalts-Einstelleinheit 16 als Antwort auf die gesprochene Äußerung „Sagen Sie mir auch meinen Terminplan“, die von der auf dem Beifahrersitz sitzenden sprechenden Person gesprochen wird, unter Verwendung der Terminplaninformationen den Ausgangs-Antwortsatz „Heute haben Sie um 17 Uhr eine Trinkgelage mit Freunden“ erzeugt.
In diesem Fall stellt die Antwortmodus-Einstelleinheit 17 das Antwortbild entsprechend dem Ausgabe-Antwortsatz für die auf dem Fahrersitz sitzende sprechende Person so ein, dass es in der näher zum Fahrersitz gelegenen Hälfte des Anzeigebereichs der Anzeigevorrichtung 5 angezeigt wird. Zusätzlich stellt die Antwortmodus-Einstelleinheit 17 das Antwortbild entsprechend dem Ausgabe-Antwortsatz für die sprechende Person auf dem Beifahrersitz so ein, dass es in der näher zum Beifahrersitz gelegenen Hälfte des Anzeigebereichs der Anzeigevorrichtung 5 angezeigt wird. In 3 ist ein Beispiel der Antwortbilder I1, I2 entsprechend diesem Fall dargestellt.
Die Antwortmodus-Einstelleinheit 17 führt die Antwortmodus-Einstellverarbeitung gemäß mindestens einem des ersten spezifischen Beispiels bis zum fünften spezifischen Beispiel aus. Dadurch ist es für jede der mehreren An-Bord-Personen, die auf den Spracherkennungs-Zielsitzen sitzen, möglich, leicht zu erkennen, ob die Antwort an diese Person selbst gegeben wird oder nicht. Insbesondere wenn die Antworten an mehrere sprechende Personen fast gleichzeitig ausgegeben werden, ist es für jede der mehreren sprechenden Personen leicht zu erkennen, ob diese Antworten jeweils dieser Person selbst gegeben werden oder nicht.
Es wird darauf hingewiesen, dass, wenn die Antwortmodus-Einstelleinheit 17 diejenige ist, die die Verarbeitung der Antwortmodus-Einstellung gemäß dem ersten spezifischen Beispiel durchführt, der Ausgabe-Antwortsatz, der die nominale Bezeichnung enthält, von der Antwortmodus-Einstelleinheit 17 an die Antwortausgabesteuereinheit 18 ausgegeben wird. Wenn andererseits die Antwortmodus-Einstelleinheit 17 diejenige ist, die die Antwortmodus-Einstellverarbeitung gemäß dem ersten spezifischen Beispiel nicht ausführt, wird der von der Antwortmodus-Einstelleinheit 16 ausgewählte oder erzeugte Ausgabe-Antwortsatz von der Antwortmodus-Einstelleinheit 16 an die Antwortausgabe-Steuereinheit 18 ausgegeben. Ferner wird in jedem der zweiten bis fünften spezifischen Beispiele der Ausgabe-Antwortsatz bei der Antwortmodus-Einstellungserarbeitung nicht verwendet.
Wenn also die Antwortmodus-Einstelleinheit 17 diejenige ist, die die Antwortmodus-Einstellverarbeitung gemäß dem ersten spezifischen Beispiel ausführt, ist eine in 1 gezeigte Verbindungsleitung zwischen der Antwortinhalt-Einstelleinheit 16 und der Antwortausgabesteuereinheit 18 überflüssig. Wenn andererseits die Antwortmodus-Einstelleinheit 17 diejenige ist, die die Antwortmodus-Einstellverarbeitung gemäß dem ersten spezifischen Beispiel nicht ausführt (d.h. wenn die Antwortmodus-Einstelleinheit 17 nur eine der Antwortmodus-Einstellverarbeitungen gemäß mindestens einem des zweiten bis fünften spezifischen Beispiels ausführt), ist eine in 1 gezeigte Verbindungsleitung zwischen der Antwortinhalts-Einstelleinheit 16 und der Antwortmodus-Einstelleinheit 17 unnötig.
Durch die Spracherkennungseinheit 14, die Sprechende-Person-Identifikationseinheit 15 und die Antwortmodus-Einstelleinheit 17 wird der Hauptteil der Spracherkennungsvorrichtung 100 gebildet. Durch die Spracherkennungsvorrichtung 100, die Antwortinhalt-Einstelleinheit 16 und die Antwortausgabesteuereinheit 18 wird der Hauptteil des Informationsapparats 2 gebildet.
Der Informationsapparat 2 ist mit einer fahrzeugeigenen Informationsvorrichtung konfiguriert, z.B. einer Autonavigationsvorrichtung, einer Auto-Audio-Vorrichtung, einer Anzeige-Audio-Vorrichtung oder ähnlichem, die im Fahrzeug 1 installiert ist. Der Informationsapparat 2 ist alternativ mit einem tragbaren Informationsterminal, z.B. einem Smartphone, einem Tablet-PC (Personal Computer), einem PND (Portable Navigation Device) o.ä., konfiguriert, das in das Fahrzeug 1 eingebracht wird.
Als nächstes wird unter Bezugnahme auf 4 eine Beschreibung der Hardware-Konfigurationen des Hauptteils des Informationsapparats 2 vorgenommen.
Wie in 4A dargestellt, ist der Informationsapparat 2 mit einem Computer konfiguriert und verfügt über einen Prozessor 21 und einen Speicher 22. Im Speicher 22 sind die jeweiligen Programme gespeichert, die bewirken, dass der Computer als Spracherkennungseinheit 14, als Sprechende-Person-Identifikationseinheit 15, als Antwort-Inhalts-Einstelleinheit 16, als Antwortmodus-Einstelleinheit 17 und als Antwortausgabesteuereinheit 18 arbeitet. Der Prozessor 21 liest die im Speicher 22 gespeicherten Programme aus und führt sie aus, um dadurch die Funktionen der Spracherkennungseinheit 14, der Sprechende-Person-Identifikationseinheit 15, der Antwort-Inhalts-Einstelleinheit 16, der Antwortmodus-Einstelleinheit 17 und der Antwortausgabe-Steuereinheit 18 zu implementieren.
Der Prozessor 21 verwendet z.B. eine CPU (Central Processing Unit), eine GPU (Graphics Processing Unit), einen Mikroprozessor, einen Mikrocontroller, einen DSP (Digital Signal Processor) oder ähnliches. Der Speicher 22 verwendet z.B. einen Halbleiterspeicher wie einen RAM (Random Access Memory), einen ROM (Read Only Memory), einen Flash-Speicher, einen EPROM (Erasable Programmable Read Only Memory), einen EEPROM (Electrically Erasable Programmable Read-Only Memory) o.ä.; eine Magnetplatte; eine optische Platte; eine magnetooptische Platte o.ä.
Stattdessen können, wie in 4B gezeigt, die Funktionen der Spracherkennungseinheit 14, der Sprechende-Person-Identifikationseinheit 15, der Antwort-Inhalts-Einstelleinheit 16, der Antwortmodus-Einstelleinheit 17 und der Antwortausgabe-Steuereinheit 18 durch eine dedizierte Verarbeitungsschaltung 23 implementiert werden. Die Verarbeitungsschaltung 23 verwendet z.B. eine ASIC (Application Specific Integrated Circuit), ein PLD (Programmable Logic Device), ein FPGA (Field-Programmable Gate Array), ein SoC (System-on-a-Chip), ein System LSI (Large-Scale Integration) oder ähnliches.
Stattdessen kann ein Teil der Funktionen der Spracherkennungseinheit 14, der Sprechende-Person-Identifikationseinheit 15, der Antwort-Inhalts-Einstelleinheit 16, der Antwortmodus-Einstelleinheit 17 und der Antwortausgabe-Steuereinheit 18 durch den Prozessor 21 und den Speicher 22 und die andere(n) Funktion(en) durch die Verarbeitungsschaltung 23 implementiert werden.
Als nächstes wird unter Bezugnahme auf die Flussdiagramme von 5 und 6 der Betrieb des Informationsapparats 2 beschrieben. Es ist zu beachten, dass die in 6 gezeigten Schritte ST11 bis ST17 den detaillierten Verarbeitungsinhalt des in 5 gezeigten Schritts ST1 darstellen.
In Schritt ST1 führt zunächst die Spracherkennungseinheit 14 die Spracherkennung auf der gesprochenen Äußerung aus.
In Schritt ST11 erfasst die Tonsignalerfassungseinheit 11 die Tonsignale S₁ bis S_N, die von der Tonaufnahmevorrichtung 3 ausgegeben werden. Die Tonsignalerfassungseinheit 11 führt die A/D-Wandlung der Tonsignale S₁ bis S_N durch. Die Tonsignalerfassungseinheit 11 gibt die Tonsignale S₁' bis S_N' nach der A/D-Wandlung an die Tonsignalverarbeitungseinheit 12 aus.
Dann, im Schritt ST12, schätzt die Tonsignalverarbeitungseinheit 12 eine Eingangsrichtung der gesprochenen Äußerung zur Tonaufnahmevorrichtung 3, nämlich eine Sprechrichtung, auf der Grundlage von: Werten der Unterschiede der Leistung zwischen den Tonsignalen S₁' bis S_N'; Phasenunterschieden zwischen den Tonsignalen S₁' bis S_N'; oder Ähnlichem.
Dann entfernt die Tonsignalverarbeitungseinheit 12 in Schritt ST13 Komponenten in den Tonsignalen S₁' bis S_N', die anderen Tönen als der gesprochenen Äußerung entsprechen, nämlich die Rauschkomponenten, auf der Grundlage der in Schritt ST12 geschätzten Sprechrichtung. Die Tonsignalverarbeitungseinheit 12 gibt die Tonsignale S₁' bis S_M' nach Entfernung der Rauschkomponenten an die Spracherkennungsverarbeitungseinheit 13 aus.
Dann, in Schritt ST14, erkennt die Spracherkennungsverarbeitungseinheit 13 einen Tonabschnitt, der der gesprochenen Äußerung in den Tonsignalen S₁" bis S_M" entspricht, nämlich den Sprechabschnitt.
Dann, in Schritt ST15, extrahiert die Spracherkennungsverarbeitungseinheit 13 aus Teilen der Tonsignale S₁" bis S_M" im Sprechabschnitt die erste Merkmalsmenge für die Spracherkennungsverarbeitung. Dann, in Schritt ST16, führt die Spracherkennungsverarbeitungseinheit 13 die Spracherkennungsverarbeitung unter Verwendung der ersten Merkmalsmenge aus.
Wenn die Sprechende-Person-Identifikationseinheit 15 diejenige ist, die die Personen-Identifikationsverarbeitung ausführt, extrahiert die Spracherkennungsverarbeitungseinheit 13 in Schritt ST17 im Anschluss an Schritt ST14 die zweite Merkmalsmenge für die Personen-Identifikationsverarbeitung aus Teilen der Tonsignale S₁" bis S_M" im Sprechabschnitt. Es ist zu beachten, dass die Verarbeitung in Schritt ST17 unnötig ist, wenn es sich bei der Sprechende-Person-Identifikationseinheit 15 um diejenige handelt, die die Personen-Identifikationsverarbeitung nicht ausführt (d.h. wenn es sich bei der Sprechende-Person-Identifikationseinheit 15 um diejenige handelt, die nur die Sitz-Identifikationsverarbeitung ausführt).
In Schritt ST2, der auf Schritt ST1 folgt, führt die Sprechende-Person-Identifikationseinheit 15 mindestens eine der Personen-Identifikationsverarbeitung und der Sitz-Identifikationsverarbeitung aus. Spezifische Beispiele für die Personen-Identifikationsverarbeitung und spezifische Beispiele für die Sitz-Identifikationsverarbeitung sind wie zuvor beschrieben, so dass wiederholte Beschreibungen davon wegfallen.
In Schritt ST3 führt dann die Antwort-Inhalts-Einstelleinheit 16 die Antwort-Inhalts-Einstellverarbeitung aus. Spezifische Beispiele für die Verarbeitung der Antwort-Inhaltseinstellung sind wie zuvor beschrieben, so dass die wiederholte Beschreibung davon ausgelassen wird.
In Schritt ST4 führt dann die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung aus. Spezifische Beispiele für die Antwortmodus-Einstellverarbeitung sind wie zuvor beschrieben, so dass die wiederholte Beschreibung davon ausgelassen wird.
In Schritt ST5 führt dann die Antwortausgabesteuereinheit 18 die Antwortausgabesteuerung aus. Spezifische Beispiele für die Antwortausgabesteuerung sind wie zuvor beschrieben, so dass die wiederholte Beschreibung davon ausgelassen wird.
Es wird darauf hingewiesen, dass die Tonaufnahmevorrichtung 3 nicht auf das Array-Mikrofon beschränkt ist, das aus den mehreren nicht-direktionalen Mikrofonen besteht. Es ist z.B. zulässig, dass mindestens ein Richtmikrofon an jedem Abschnitt vor jedem der Spracherkennungs-Zielsitze vorgesehen ist und die Tonaufnahmevorrichtung 3 durch diese Richtmikrofone gebildet wird. In diesem Fall erübrigt sich in der Tonsignalverarbeitungseinrichtung 12 die Verarbeitung zur Schätzung der Sprechrichtung und die Verarbeitung zur Entfernung der Rauschkomponenten auf der Grundlage der so geschätzten Sprechrichtung. Weiter ist z.B. die Sitz-Identifikationsverarbeitung die Verarbeitung der Feststellung, dass die sprechende Person auf dem Sitz sitzt, der dem Richtmikrofon entspricht, von dem das Tonsignal einschließlich der der gesprochenen Äußerung entsprechenden Komponenten ausgegeben wird.
Ferner muss die Antwortmodus-Einstellverarbeitung nur einen solchen Antwortmodus einstellen, der es jeder der mehreren An-Bord-Personen, die auf den Spracherkennungs-Zielsitzen sitzen, erlaubt zu erkennen, ob die Antwort an diese Person selbst gegeben wird oder nicht, und somit ist die Verarbeitung nicht durch das erste bis fünfte spezifische Beispiel begrenzt. Darüber hinaus ist die Antwortmodus-Einstellverarbeitung weder auf die Verarbeitung der Einstellung des Ausgabemodus für eine Antwortsprache noch auf die Verarbeitung der Einstellung des Anzeigemodus für ein Antwortbild beschränkt.
Es ist beispielsweise zulässig, dass ein lichtemittierendes Element, wie z.B. eine LED (Light Emitting Diode), an jedem Abschnitt vor jedem der Spracherkennungs-Zielsitze vorgesehen ist und dass die Antwortmodus-Einstelleinheit 17 auf der Grundlage des Ergebnisses der Sitz-Identifikationsverarbeitung aus diesen lichtemittierenden Elementen ein solches lichtemittierendes Element, das an dem Abschnitt vor dem Sitz, auf dem die sprechende Person sitzt, vorgesehen ist, als zu beleuchtendes lichtemittierendes Element einstellt. Die Antwortausgabesteuereinheit 18 kann diejenige sein, die die Steuerung für die Beleuchtung des lichtemittierenden Elements ausführt, das von der Antwortmodus-Einstelleinheit 17 beleuchtet werden soll.
Ferner ist es z.B. bei mehreren sprechenden Personen zulässig, dass die Antwortmodus-Einstelleinheit 17 den Antwortmodus (die Antwortmodi) nur für eine bestimmte sprechende Person (bestimmte sprechende Personen) unter den mehreren sprechenden Personen einstellt. Es ist auch zulässig, dass die Antwortausgabesteuereinheit 18 auf der Grundlage des Antwortmodus/der Antwortmodi, der/die von der Antwortmodus-Einstelleinheit 17 eingestellt wurde(n), eine oder mehrere Antworten für die bestimmte(n) sprechende(n) Person(en) unter den mehreren sprechenden Personen ausgibt und gleichzeitig die Steuerung der Ausgabe einer oder mehrerer Antworten für eine andere als die oben genannte(n) sprechende(n) Person(en) unter den mehreren sprechenden Personen auf der Grundlage eines Standardantwortmodus ausführt. Nämlich muss die Antwortmodus-Einstellverarbeitung nur einen Antwortmodus für mindestens eine sprechende Person unter den mehreren sprechenden Personen einstellen.
Ferner ist es zulässig, dass die Spracherkennungsverarbeitungseinheit 13 bei der Erkennung jedes der sprechenden Abschnitte den Startpunkt jeder der gesprochenen Äußerungen erkennt. Es ist auch zulässig, dass die Ansprechmodus-Einstelleinheit 17 die Ansprechmodus-Einstellverarbeitung nur dann ausführt, wenn nach der Erkennung des Anfangspunktes der gesprochenen Äußerung, die von einer ersten der sprechenden Personen (im folgenden als „erste sprechende Person“ bezeichnet) gemacht wurde, und bevor mit der Ausgabe der Antwort an die erste sprechende Person begonnen wird, der Anfangspunkt der anderen gesprochenen Äußerung, die von einer zweiten der sprechenden Personen (im folgenden als „zweite sprechende Person“ bezeichnet) gemacht wurde, erkannt wird. In einem anderen Fall ist es zulässig, dass die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung nicht ausführt, und die Antwortausgabesteuereinheit 18 führt die Steuerung für die Ausgabe der Antwort auf der Grundlage des Standard-Antwortmodus aus.
Wenn im erstgenannten Fall die Einstellung des Antwortmodus für die erste sprechende Person zu spät für den Beginn der Ausgabe der Antwort an die erste sprechende Person wäre (z.B. wenn der Anfangspunkt der von der zweiten sprechenden Person gesprochenen Äußerung unmittelbar vor Beginn der Ausgabe der Antwort an die erste sprechende Person erkannt wird), ist es ferner zulässig, dass die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung für die erste sprechende Person nicht ausführt und nur die Antwortmodus-Einstellverarbeitung für die zweite sprechende Person ausführt. Wenn dies der Fall ist, kann die Antwort an die erste sprechende Person gemäß einem Standard-Antwortmodus ausgegeben werden.
Statt dessen ist es auch zulässig, dass die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung nur dann ausführt, wenn nach der Erkennung des Anfangspunktes der von der ersten sprechenden Person gemachten gesprochenen Äußerung und vor Ablauf einer vorgeschriebenen Zeit (im Folgenden als „Standardzeit“ bezeichnet) davon der Anfangspunkt der von der zweiten sprechenden Person gemachten gesprochenen Äußerung erkannt wird. In einem anderen Fall ist es zulässig, dass die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung nicht ausführt und die Antwortausgabe-Steuereinheit 18 die Steuerung zur Ausgabe der Antwort auf der Grundlage eines Standard-Antwortmodus ausführt. Die Standardzeit hat z.B. einen Wert, der einem statistischen Wert (z.B. einem Durchschnittswert) entspricht, der aus tatsächlich gemessenen Werten der Sprechzeiten verschiedener gesprochener Äußerungen erhalten wird, und wird in der Ansprechmodus-Einstelleinheit 17 vorgespeichert.
Wenn nämlich nur die von einer sprechenden Person gesprochene Äußerung eingegeben wird, wird nur die Antwort an die eine sprechende Person ausgegeben. Wenn außerdem die von mehreren sprechenden Personen gesprochenen Äußerungen eingegeben werden, ohne sich zeitlich zu überlappen, werden auch die Antworten an die jeweiligen sprechenden Personen ausgegeben, ohne sich zeitlich zu überlappen. In diesen Fällen ist auch dann, wenn die Antwortmodus-Einstellverarbeitung nicht ausgeführt wird, klar, an welche Person die Antwort gegeben wird. Wenn in diesen Fällen die Antwortmodus-Einstellverarbeitung abgebrochen wird, ist es möglich, die Verarbeitungslast des Informationsapparates 2 zu reduzieren. Außerdem kann in diesen Fällen, wenn die Verarbeitung der Antwortmodus-Einstellverarbeitung, z.B. nach dem ersten konkreten Beispiel, abgebrochen wird, der sprechenden Person vor einem unangenehmen Gefühl der nominellen Bezeichnung, die in der Antwortsprache oder dem Antwortbild enthalten gewesen wäre, bewahrt werden.
Währenddessen ist es, wie in 7 gezeigt, zulässig, dass eine mit dem Informationsapparat 2 kommunizierbare Servervorrichtung 6 außerhalb des Fahrzeugs 1 und die Spracherkennungsverarbeitungseinheit 13 in der Server-Einrichtung 6 vorgesehen ist. Der Hauptteil eines Spracherkennungssystems 200 kann nämlich bestehen aus: der Tonsignalerfassungseinheit 11, der Tonsignalverarbeitungseinheit 12, der Sprechende-Person-Identifikationseinheit 15 und der Antwortmodus-Einstelleinheit 17, die im Informationsapparat 2 vorgesehen sind; und der Spracherkennungsverarbeitungseinheit 13, die in der Servervorrichtung 6 vorgesehen ist. Dadurch ist es möglich, die Genauigkeit der Spracherkennungsverarbeitung in der Spracherkennungsverarbeitungseinheit 13 zu verbessern.
Es wird darauf hingewiesen, dass die Systemkonfiguration des Spracherkennungssystems 200 nicht auf den in 7 gezeigten Fall beschränkt ist. Nämlich können die Tonsignalerfassungseinheit 11, die Tonsignalverarbeitungseinheit 12, die Spracherkennungsverarbeitungseinheit 13, die Sprechende-Person-Identifikationseinheit 15, die Antwort-Inhalts-Einstelleinheit 16, die Antwortmodus-Einstelleinheit 17 und die Antwortausgabesteuereinheit 18 jeweils in einem beliebigen von einer fahrzeugeigenen Informationsvorrichtung, die in das Fahrzeug 1 eingebaut werden kann, einen tragbaren Informationsterminal, das in das Fahrzeug 1 gebracht werden kann, und einer Servervorrichtung, die mit der fahrzeugeigenen Informationsvorrichtung oder dem tragbaren Informationsterminal kommunizieren kann, vorgesehen sein. Es reicht aus, dass das Spracherkennungssystem 200 von zwei oder mehr beliebigen der fahrzeugeigenen Informationsvorrichtung, dem tragbaren Informationsterminal und der Servervorrichtung in Zusammenarbeit implementiert wird.
Wie oben beschrieben, umfasst das Spracherkennungsvorrichtung 100 der Ausführungsform 1: die Spracherkennungseinheit 14 zum Ausführen der Spracherkennung an einer gesprochenen Äußerung, die zur Bereitstellung einer Bedienungseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen im Fahrzeug 1 sitzen, gemacht wird; die Sprechende-Person-Identifikationseinheit 15 zum Ausführen mindestens eines der folgenden Prozesse: Personen-Identifikationsverarbeitung zum individuellen Identifizieren der sprechenden Person und Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und die Antwortmodus-Einstelleinheit 17 zum Ausführen der Antwortmodus-Einstellverarbeitung des Einstellens eines Modus für eine Antwort (Antwortmodus) auf die sprechende Person gemäß einem Ergebnis, das von der Sprechende-Person-Identifikationseinheit 15 identifiziert wird; die Antwortmodus-Einstellverarbeitung ist eine Verarbeitung, bei der der Modus für die Antwort (Antwortmodus) als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen erlaubt zu erkennen, ob die Antwort an die An-Bord-Person selbst gegeben wird oder nicht. Dementsprechend ist es für jede der mehreren An-Bord-Personen, die auf den Spracherkennungs-Zielsitzen sitzen, möglich, leicht zu erkennen, ob die Antwort an diese Person selbst gegeben wird oder nicht. Insbesondere wenn die Antworten an mehrere sprechende Personen fast gleichzeitig ausgegeben werden, ist es für jede der mehreren sprechenden Personen möglich, leicht zu erkennen, ob diese Antworten jeweils an diese Person selbst gegeben werden oder nicht.
Ferner führt die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung in dem Fall durch, dass nach der Erkennung eines Anfangspunktes der gesprochenen Äußerung, die von einer ersten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, und vor Ablauf der Standardzeit ein Anfangspunkt der anderen gesprochenen Äußerung, die von einer zweiten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, erkannt wird. Auf diese Weise ist es möglich, den Verarbeitungsaufwand zu reduzieren und das störende Gefühl der sprechenden Person zu verringern.
Ferner führt die Ansprechmodus-Einstelleinheit 17 die Ansprechmodus-Einstellverarbeitung in dem Fall durch, wenn nach der Erkennung eines Anfangspunktes der gesprochenen Äußerung, die von einer ersten sprechenden Person unter den mehreren sprechenden Personen gemachten wurde, und vor Beginn der Ausgabe der Antwort an die erste sprechende Person ein Anfangspunkt der anderen gesprochenen Äußerung, die von einer zweiten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, erkannt wird. Dies ermöglicht es, die Verarbeitungslast zu verringern und das störende Gefühl, das der sprechenden Person vermittelt wird, zu reduzieren.
Darüber hinaus führt die Sprechende-Person-Identifikationseinheit 15 die Personen-Identifikationsverarbeitung unter Verwendung der von der Spracherkennungseinheit 14 extrahierten Merkmalsmenge (zweite Merkmalsmenge) durch. Dies macht es unnötig, eine Kamera, einen Sensor oder ähnliches für die Personen-Identifikationsverarbeitung zu verwenden.
Weiterhin ist die Antwortmodus-Einstellverarbeitung die Verarbeitung des Hinzufügens einer nominellen Bezeichnung zur Antwort, basierend auf dem Ergebnis, das von der Sprechenden-Person-Identifikationseinheit 15 identifiziert wurde. Nach dem ersten konkreten Beispiel ist es möglich, den Antwortmodus zu erreichen, der es jeder der mehreren sprechenden Personen ermöglicht, leicht zu erkennen, ob die Antwort an diese Person selbst gegeben wird oder nicht.
Weiterhin ist die Antwortmodus-Einstellverarbeitung die Verarbeitung des Wechsels eines Sprechers für eine Aussprache zur Verwendung als Antwort (Antwortsprache), entsprechend dem Ergebnis, das durch die Sprechende-Person-Identifikationseinheit 15 identifiziert wurde. Nach dem zweiten spezifischen Beispiel ist es möglich, einen Antwortmodus zu erreichen, der es jeder der mehreren sprechenden Personen ermöglicht, leicht zu erkennen, ob die Antwort an die Person selbst gegeben wird oder nicht.
Ferner ist die Antwortmodus-Einstellverarbeitung die Verarbeitung des Wechsels eines Sprechers, von dem eine Aussprache zur Verwendung als Antwort (Antwortsprache) ausgegeben wird, entsprechend der Position des Sitzes, die durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird; oder die Verarbeitung des Wechsels eines Tonfeldes zu dem Zeitpunkt, zu dem eine Aussprache zur Verwendung als Antwort (Antwortsprache) ausgegeben wird, entsprechend der Position des Sitzes, die durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird. Nach dem dritten spezifischen Beispiel oder dem vierten spezifischen Beispiel ist es möglich, den Antwortmodus zu erreichen, der es jeder der mehreren sprechenden Personen erlaubt, leicht zu erkennen, ob die Antwort an diese Person selbst gegeben wird oder nicht.
Weiterhin umfasst das Spracherkennungssystem 200 der Ausführungsform 1: die Spracherkennungseinheit 14 zum Ausführen der Spracherkennung an einer gesprochenen Äußerung, die zur Bereitstellung einer Bedienungseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen im Fahrzeug 1 sitzen, gemacht wird; die Sprechende-Person-Identifikationseinheit 15 zum Ausführen mindestens eines der folgenden Prozesse: Personen-Identifikationsverarbeitung zum individuellen Identifizieren der sprechenden Person und Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und die Antwortmodus-Einstelleinheit 17 zum Ausführen der Antwortmodus-Einstellverarbeitung des Einstellens eines Modus für eine Antwort (Antwortmodus) auf die sprechende Person gemäß einem Ergebnis, das von der Sprechende-Person-Identifikationseinheit 15 identifiziert wird; die Antwortmodus-Einstellverarbeitung ist eine Verarbeitung, bei der der Modus für die Antwort (Antwortmodus) als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen erlaubt zu erkennen, ob die Antwort an die An-Bord-Person selbst gegeben wird oder nicht. Dementsprechend ist es möglich, einen ähnlichen Effekt wie den oben beschriebenen Effekt nach der Spracherkennungsvorrichtung 100 zu erzielen.
Weiterhin umfasst das Spracherkennungsverfahren der Ausführungsform 1: Schritt ST1, in dem die Spracherkennungseinheit 14 die Spracherkennung an einer gesprochenen Äußerung ausführt, die zur Bereitstellung einer Bedienungseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen im Fahrzeug 1 sitzen, gemacht wird; Schritt ST2, in dem die Sprechende-Person-Identifikationseinheit 15 mindestens eine der folgenden Verarbeitungen ausführt: Personen-Identifikationsverarbeitung zur individuellen Identifizierung der sprechenden Person und Sitz-Identifikationsverarbeitung zur Identifizierung des Sitzes, auf dem die sprechende Person sitzt; und Schritt ST4, in dem die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung des Einstellens eines Modus für eine Antwort (Antwortmodus) auf die sprechende Person ausführt, entsprechend einem Ergebnis, das durch die Sprechende-Person-Identifikationseinheit 15 identifiziert wird; die Antwortmodus-Einstellverarbeitung ist eine Verarbeitung, in der der Modus für die Antwort (Antwortmodus) als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen erlaubt zu erkennen, ob die Antwort an die An-Bord-Person selbst gegeben wird oder nicht. Dementsprechend ist es möglich, einen ähnlichen Effekt wie den oben beschriebenen Effekt nach der Spracherkennungsvorrichtung 100 zu erzielen.
Ausführungsform 2
8 ist ein Blockdiagramm, das einen Zustand zeigt, in dem eine Spracherkennungsvorrichtung gemäß der Ausführungsform 2 in einem Informationsapparat in einem Fahrzeug vorhanden ist. Unter Bezugnahme auf 8 wird eine Spracherkennungsvorrichtung 100a der Ausführungsform 2 beschrieben, wobei der Schwerpunkt auf einem Fall liegt, in dem es in einem Informationsapparat 2 in einem Fahrzeug 1 bereitgestellt wird. Es ist zu beachten, dass in 8 für die Blöcke, die den in 1 dargestellten Blöcken ähnlich sind, dieselben Bezugszeichen angegeben sind, so dass deren Beschreibung weggelassen wird.
In der Abbildung bezeichnet das Bezugszeichen 7 eine Fahrzeug-Innenraumkamera. Die Kamera 7 ist z.B. mit einer Infrarotkamera oder einer Kamera für sichtbares Licht konfiguriert, die in einem Fahrzeug-Innenraum-Frontteil des Fahrzeugs 1 vorgesehen ist. Die Kamera 7 hat mindestens einen Blickwinkel, der es der Kamera ermöglicht, einen Bereich abzubilden, der die Gesichter der An-Bord-Personen einschließt, die auf den Spracherkennungs-Zielsitzen sitzen (z.B. auf dem Fahrersitz und dem Beifahrersitz).
Eine An-Board-Person-Identifikationseinheit 19 dient dazu, in einem konstanten Zeitraum (z.B. einem Zeitraum von 30 FPS (Frames Per Second)) Bilddaten zu erfassen, die das von der Kamera 7 aufgenommene Bild repräsentieren. Die An-Board-Person-Identifikationseinheit 19 dient zur Durchführung der Bilderkennungsverarbeitung auf den so erfassten Bilddaten, um dadurch die Anwesenheit/Abwesenheit der An-Board-Person auf jedem der Spracherkennungs-Zielsitze zu bestimmen und die Verarbeitung der individuellen Identifizierung jeder auf dem Spracherkennungs-Zielsitz sitzenden An-Board-Person durchzuführen (nachfolgend als „An-Board-Person-Identifikationsverarbeitung“ bezeichnet).
Konkret führt z.B. die An-Board-Person-Identifikationseinheit 19 die Bilderkennungsverarbeitung aus, um in dem erfassten Bild jeden Bereich (im Folgenden als „Gesichtsbereich“ bezeichnet), der dem Gesicht jeder auf dem Spracherkennungs-Zielsitz sitzenden An-Board-Person entspricht, zu erkennen und aus jedem Gesichtsbereich eine Merkmalsmenge für die An-Board-Person-Identifikationsverarbeitung (im Folgenden als „dritte Merkmalsmenge“ bezeichnet) zu extrahieren. Die An-Board-Person-Identifikationseinheit 19 bestimmt die Anwesenheit/Abwesenheit der An-Bord-Person auf jedem der Spracherkennungs-Zielsitze auf der Grundlage der Größe, der Position usw. jedes Gesichtsbereichs im aufgenommenen Bild. Darüber hinaus wird in der An-Board-Person-Identifikationseinheit 19 eine Datenbank vorgespeichert, in der Merkmalsmengen von mehreren Personen, die jeweils einer dritten Merkmalsmenge entsprechen, enthalten sind. Durch Vergleich der dritten Merkmalsmenge, die aus jedem Gesichtsbereich extrahiert wurde, mit jeder der Merkmalsmengen mehrerer Personen identifiziert die An-Board-Person-Identifikationseinheit 19 jede An-Board-Person, die auf dem Spracherkennungs-Zielsitz sitzt, individuell.
Die An-Board-Person-Identifikationseinheit 19 gibt das Ergebnis der Verarbeitung der An-Board-Person-Identifikation an eine Sprechende-Person-Identifikationseinheit 15a aus. Das Ergebnis der Verarbeitung der An-Board-Person-Identifikation umfasst z.B. Informationen, die den Namen o.ä. jeder auf dem Spracherkennungs-Zielsitz sitzenden An-Bord-Person angeben, sowie Informationen, die den Namen, die Position o.ä. des Sitzes angeben, auf dem jede An-Bord-Person sitzt. Es ist zu beachten, dass, wenn auf den Spracherkennungs-Zielsitzen keine an An-Bord-Person auf einem bestimmten Sitz oder bestimmten Sitzen sitzt, das Ergebnis der An-Board-Person-Identifikationsverarbeitung nur die oben genannten Informationen oder zusätzlich zu den oben genannten Informationen auch Informationen enthalten kann, die anzeigen, dass es sich bei dem bestimmten Sitz oder den bestimmten Sitzen um einen leeren Sitz oder leere Sitze handelt.
Die Sprechende-Person-Identifikationseinheit 15a dient zur Durchführung der Verarbeitung der individuellen Identifizierung der sprechenden Person, d.h. der Personen-Identifikationsverarbeitung, unter Verwendung der von der Tonsignalverarbeitungseinheit 12 geschätzten Sprechrichtung und des Ergebnisses der An-Board-Person-Identifikationsverarbeitung durch die An-Board-Person-Identifikationseinheit 19.
Konkret sind z.B. in der Sprechende-Person-Identifikationseinheit 15a die tatsächlichen Winkel Φ, die den tatsächlichen Winkeln Φ für die Sitz-Identifikationsverarbeitung in Ausführungsform 1 ähnlich sind, vorgespeichert. Durch Vergleich des Winkels 9, der durch die von der Tonsignalverarbeitungseinheit 12 geschätzte Sprechrichtung angezeigt wird, mit dem tatsächlichen Winkel Φ, der jedem der Spracherkennungs-Zielsitze entspricht, identifiziert die Sprechende-Person-Identifikationseinheit 15a den Sitz, auf dem die sprechende Person sitzt. Die Sprechende-Personen-Identifikationseinheit 15a identifiziert individuell die An-Bord-Person, die auf dem so identifizierten Sitz sitzt, d.h. die sprechende Person, indem sie das Ergebnis der An-Board-Person-Identifikationsverarbeitung durch die An-Board-Person-Identifikationseinheit 19 verwendet.
Im Gegensatz zur Sprechende-Person-Identifikationseinheit 15 in der Spracherkennungsvorrichtung 100 von Ausführungsform 1 verwendet die Sprechende-Person-Identifikationseinheit 15a nämlich nicht die zweite Merkmalsmenge für die Personen-Identifikationsverarbeitung. Daher ist in der Spracherkennungsvorrichtung 100a der Ausführungsform 2 die Spracherkennungsverarbeitungseinheit 13 nicht erforderlich, um die zweite Merkmalsmenge zu extrahieren.
Die Antwortmodus-Einstelleinheit 17 dient dazu, das Ergebnis der Personen-Identifikationsverarbeitung durch die Sprechende-Person-Identifikationseinheit 15a für die Antwortmodus-Einstellverarbeitung zu verwenden. Spezifische Beispiele für die Antwortmodus-Einstellverarbeitung sind in Ausführungsform 1 beschrieben, so dass eine wiederholte Beschreibung davon wegfällt.
Durch die Spracherkennungseinheit 14, die Sprechende-Person-Identifikationseinheit 15a, die Antwortmodus-Einstelleinheit 17 und die An-Board-Person-Identifikationseinheit 19 wird der Hauptteil der Spracherkennungsvorrichtung 100a gebildet. Durch die Spracherkennungseinrichtung 100a, die Antwortmodus-Einstelleinheit 16 und die Antwortausgabesteuereinheit 18 wird der Hauptteil des Informationsapparats 2 gebildet.
Die Hardware-Konfigurationen des Hauptteils des Informationsapparats 2 ähneln denen, die in der Ausführungsform 1 unter Bezugnahme auf 4 beschrieben sind, so dass eine wiederholte Beschreibung derselben wegfällt. Die Funktion der Sprechende-Person-Identifikationseinheit 15a kann nämlich durch einen Prozessor 21 und einen Speicher 22 oder durch eine Verarbeitungsschaltung 23 implementiert werden. Ebenso kann die Funktion der An-Board-Person-Identifikationseinheit 19 durch einen Prozessor 21 und einen Speicher 22 oder durch eine Verarbeitungsschaltung 23 implementiert werden.
Als nächstes werden unter Bezugnahme auf die Flussdiagramme in 9 und 10 die Funktionen der An-Board-Person-Identifikationseinheit 19 beschrieben. Es ist zu beachten, dass die in 10 gezeigten Schritte ST31 bis ST34 den detaillierten Verarbeitungsinhalt des in 9 gezeigten Schritts ST21 darstellen.
In einem Zustand, in dem die Zusatzstromversorgung des Fahrzeugs 1 eingeschaltet ist, erfasst die An-Board-Person-Identifikationseinheit 19 in einem konstanten Zeitraum Bilddaten, die das von der Kamera 7 aufgenommene Bild darstellen, um dadurch die An-Board-Person-Identifikationsverarbeitung unter Verwendung der so erfassten Bilddaten auszuführen (Schritt ST21).
In Schritt ST31 erfasst die An-Board-Person-Identifikationseinheit 19 nämlich die Bilddaten, die das von der Kamera 7 erfasste Bild repräsentieren.
Dann, in Schritt ST32, führt die An-Board-Person-Identifikationseinheit 19 die Bilderkennungsverarbeitung auf den in Schritt ST31 erfassten Bilddaten aus, um jeden Gesichtsbereich im erfassten Bild zu erkennen und aus jedem Gesichtsbereich die dritte Merkmalsmenge für die An-Board-Person-Identifikationsverarbeitung zu extrahieren.
In Schritt ST33 bestimmt dann die An-Board-Person-Identifikationseinheit 19 die Anwesenheit/Abwesenheit der An-Board-Person auf jedem der Spracherkennungs-Zielsitze auf der Grundlage der Größe, der Position usw. jedes in Schritt ST32 erfassten Gesichtsbereichs.
Dann, in Schritt ST34, identifiziert die An-Board-Person-Identifikationseinheit 19 jede An-Board-Person auf dem Spracherkennungs-Zielsitz, indem sie die dritte Merkmalsmenge verwendet, die in Schritt ST33 extrahiert wurde.
Die An-Board-Person-Identifikationseinheit 19 gibt das Ergebnis der An-Board-Person-Identifikationsverarbeitung an die Sprechende-Person-Identifikationseinheit 15a aus.
Als nächstes wird unter Bezugnahme auf die Flussdiagramme in 11 und 12 der Betrieb der anderen Teile des Informationsapparates 2 beschrieben, mit Ausnahme der An-Board-Person-Identifikationseinheit 19. Es ist zu beachten, dass die in 12 gezeigten Schritte ST51 bis ST56 den detaillierten Verarbeitungsinhalt des in 11 gezeigten Schritts ST41 darstellen.
In Schritt ST41 führt zunächst die Spracherkennungseinheit 14 die Spracherkennungsverarbeitung der gesprochenen Äußerung aus.
In Schritt ST51 erfasst nämlich die Tonsignalerfassungseinheit 11 die von der Tonaufnahmevorrichtung 3 ausgegebenen Tonsignale S₁ bis S_N. Die Tonsignalerfassungseinheit 11 führt die A/D-Wandlung der Tonsignale S₁ bis S_N durch. Die Tonsignalerfassungseinheit 11 gibt die Tonsignale S₁' bis S_N' nach der A/D-Wandlung an die Tonsignalverarbeitungseinheit 12 aus.
Dann, in Schritt ST52, schätzt die Tonsignalverarbeitungseinheit 12 eine Einfallsrichtung der gesprochenen Äußerung in die Tonaufnahmevorrichtung 3, nämlich die Sprechrichtung, auf der Grundlage von: Werten der Differenzen der Leistungzwischen den Tonsignalen S₁' bis S_N'; Phasenunterschieden zwischen den Tonsignalen S₁' bis S_N'; oder Ähnlichem.
Dann entfernt die Tonsignalverarbeitungseinheit 12 im Schritt ST53 Komponenten in den Tonsignalen S₁' bis S_N', die anderen Tönen als der gesprochenen Äußerung entsprechen, nämlich die Rauschkomponenten, auf der Grundlage der im Schritt ST52 geschätzten Sprechrichtung. Die Tonsignalverarbeitungseinheit 12 gibt die Tonsignale S₁' bis S_M' nach Entfernung der Rauschkomponenten an die Spracherkennungsverarbeitungseinheit 13 aus.
Dann, in Schritt ST54, erkennt die Spracherkennungs-Verarbeitungseinheit 13 einen Tonabschnitt, der der gesprochenen Äußerung in den Tonsignalen S₁" bis S_M" entspricht, nämlich den Sprechabschnitt.
Dann, in Schritt ST55, extrahiert die Spracherkennungsverarbeitungseinheit 13 aus Teilen der Tonsignale S₁" bis S_M" im Sprechabschnitt die erste Merkmalsmenge für die Spracherkennungsverarbeitung. Dann, in Schritt ST56, führt die Spracherkennungsverarbeitungseinheit 13 die Spracherkennungsverarbeitung unter Verwendung der ersten Merkmalsmenge aus.
In Schritt ST42, der auf Schritt ST41 folgt, führt die Sprechende-Person-Identifikationseinheit 15a die Personen-Identifikationsverarbeitung aus. Nämlich führt die Sprechende-Person-Identifikationseinheit 15a die Verarbeitung zur individuellen Identifizierung der sprechenden Person gemäß dem vorstehenden spezifischen Beispiel aus, indem sie die in Schritt ST52 von der Tonsignalverarbeitungseinheit 12 geschätzte Sprechrichtung und das in Schritt ST34 von der An-Board-Person-Identifikationseinheit 19 ausgegebene Ergebnis der An-Board-Person-Identifikationsverarbeitung verwendet.
Dann führt in Schritt ST43 die Antwort-Inhalts-Einstelleinheit 16 die Antwort-Inhalts-Einstellverarbeitung aus. Konkrete Beispiele für die Antwort-Inhalts-Einstellverarbeitung sind in Ausführungsform 1 beschrieben, so dass eine wiederholte Beschreibung davon wegfällt.
In Schritt ST44 führt dann die Antwortmodus-Einstelleinheit 17 die Antwortmodus-Einstellverarbeitung aus. Konkrete Beispiele für die Antwortmodus-Einstellverarbeitung sind in Ausführungsform 1 beschrieben, so dass die wiederholte Beschreibung davon wegfällt.
In Schritt ST45 führt dann die Antwortausgabesteuereinheit 18 die Antwortausgabesteuerung aus. Konkrete Beispiele für die Antwortausgabesteuerung sind in Ausführungsform 1 beschrieben, so dass die wiederholte Beschreibung davon wegfällt.
Auf diese Weise kann durch die Bereitstellung der An-Board-Person-Identifikationseinheit 19 die zweite Merkmalsmenge, die bei der Personen-Identifikationsverarbeitung aus den Tonsignalen S₁" bis S_M" zu extrahieren ist, überflüssig gemacht werden. Im Ergebnis kann die Rauschtoleranz für die Personen-Identifikationsverarbeitung erhöht werden, so dass die Genauigkeit der Personen-Identifikationsverarbeitung verbessert werden kann.
Es wird darauf hingewiesen, dass dreidimensionale Positionskoordinaten des Kopfes jeder An-Bord-Person, die auf dem Spracherkennungs-Zielsitz sitzt, vorzugsweise dreidimensionale Positionskoordinaten des Mundes dieser An-Bord-Person, entsprechend der Bilderkennungsverarbeitung in der An-Board-Person-Identifikationseinheit 19 erfasst werden können. Die Tonsignalverarbeitungseinheit 12 kann diejenige sein, die eine stärker direktionale Sprechrichtung schätzt (z.B. eine Sprechrichtung, die durch einen horizontalen Richtungswinkel 9 und einen vertikalen Richtungswinkel Ψ dargestellt wird, beide relativ zur Mittelachse, die sich auf die Platzierungsposition der Tonaufnahmevorrichtung 3 bezieht), indem sie die dreidimensionalen Positionskoordinaten verwendet, die von der An-Board-Person-Identifikationseinheit 19 erfasst werden. Dadurch kann die Schätzgenauigkeit der Sprechrichtung verbessert werden, so dass die Genauigkeit der Rauschkomponentenentfernung verbessert werden kann. In 8 wird eine in diesem Fall anzugebende Verbindungslinie zwischen der An-Board-Person-Identifikationseinheit 19 und der Tonsignalverarbeitungseinheit 12 in der Abbildung weggelassen.
Ferner kann die Sprechende-Person-Identifikationseinheit 15a diejenige sein, die von den auf den Spracherkennungs-Zielsitzen sitzenden An-Bord-Personen eine den Mund bewegende An-Bord-Person erkennt, indem sie Bilddaten erfasst, die das von der Kamera 7 aufgenommene Bild repräsentieren, und die Bilderkennungsverarbeitung auf den so erfassten Bilddaten ausführt. Die Sprechende-Person-Identifikationseinheit 15a kann diejenige sein, die die den Mund bewegende Person, d.h. die sprechende Person, individuell identifiziert, indem sie das Ergebnis der An-Board-Person-Identifikationsverarbeitung durch die An-Board-Person-Identifikationseinheit 19 verwendet. Da in beiden Fällen die von der Tonsignalverarbeitungseinheit 12 zu schätzende Sprechrichtung bei der Personen-Identifikationsverarbeitung unnötig ist, ist eine in 8 dargestellte Verbindungslinie zwischen der Tonsignalverarbeitungseinheit 12 und der Sprechende-Person-Identifikationseinheit 15a unnötig. Es ist zu beachten, dass in 8 eine in diesem Fall anzugebende Verbindungslinie zwischen der Kamera 7 und der Sprechende-Person-Identifikationseinheit 15a in der Abbildung weggelassen wird.
Ferner ist es, wie in 13 gezeigt, zulässig, dass Sitzsensoren 8 auf Sitzflächenabschnitten der jeweiligen Spracherkennungs-Zielsitze vorgesehen sind und dass die An-Board-Person-Identifikationseinheit 19 die An-Board-Person-Identifikationsverarbeitung unter Verwendung der von diesen Sitzsensoren 8 erfassten Werte durchführt. Jeder der Sitzsensoren 8 ist nämlich mit z.B. mehreren Drucksensoren konfiguriert. Die von den mehreren Drucksensoren erfasste Druckverteilung unterscheidet sich je nach Gewicht, Sitzhaltung, Hüftkontur oder ähnlichem der An-Bord-Person, die auf dem entsprechenden Sitz sitzt. Mit einer solchen Druckverteilung als Merkmalsmenge führt die An-Board-Person-Identifikationseinheit 19 die An-Board-Person-Identifikationsverarbeitung durch. Als Verfahren zur Identifizierung der Person unter Verwendung der Druckverteilung als Merkmalsbetrag kann eine beliebige der öffentlich bekannten verschiedenen Verfahren verwendet werden, so dass eine detaillierte Beschreibung derselben entfällt.
Darüber hinaus kann die An-Board-Person-Identifikationseinheit 19 diejenige sein, die sowohl die An-Board-Person-Identifikationsverarbeitung unter Verwendung eines von der Kamera 7 erfassten Bildes als auch die An-Board-Person-Identifikationsverarbeitung unter Verwendung der von den Sitzsensoren 8 erfassten Werte durchführt. Auf diese Weise lässt sich die Genauigkeit der An-Board-Person-Identifikationserarbeitung verbessern. Ein Blockdiagramm entsprechend diesem Fall ist in 14 dargestellt.
Wie in 15 gezeigt, kann der Hauptteil eines Spracherkennungssystems 200a aus folgenden Komponenten bestehen: der Tonsignalerfassungseinheit 11, der Tonsignalverarbeitungseinheit 12, der Sprechende-Person-Identifikationseinheit 15a, der Antwortmodus-Einstelleinheit 17 und der An-Board-Person-Identifikationseinheit 19, die im Informationsapparat 2 vorgesehen sind; und der Spracherkennungsverarbeitungseinheit 13, die in der Servervorrichtung 6 vorgesehen ist. Dadurch ist es möglich, die Genauigkeit der Spracherkennungsverarbeitung in der Spracherkennungsverarbeitungseinheit 13 zu verbessern.
Ferner kann im Spracherkennungssystem 200a die Sprechende-Person-Identifikationseinheit 15a diejenige sein, die die An-Board-Person-Identifikationsverarbeitung unter Verwendung der von den Sitzsensoren 8 erfassten Werte anstelle oder zusätzlich zu dem von der Kamera 7 erfassten Bild ausführt. Ein Blockdiagramm entsprechend diesem Fall ist in der Abbildung nicht dargestellt.
Abgesehen von der obigen Darstellung können verschiedene Modifikationsbeispiele, die den in Ausführungsform 1 beschriebenen ähnlich sind, d.h. verschiedene Modifikationsbeispiele, die denen für die in 1 gezeigte Spracherkennungsvorrichtung 100 ähnlich sind, auf die Spracherkennungsvorrichtung 100a angewendet werden. Ebenso können verschiedene Modifikationsbeispiele, die den in Ausführungsform 1 beschriebenen ähnlich sind, d.h. verschiedene Modifikationsbeispiele, die denen für das in 7 gezeigte Spracherkennungssystem 200 ähneln, auf das Spracherkennungssystem 200a angewendet werden.
Wie oben beschrieben, umfasst die Spracherkennungsvorrichtung 100a der Ausführungsform 2 die An-Board-Person-Identifikationseinheit 19 zur Ausführung der An-Board-Person-Identifikationsverarbeitung zur Identifizierung jeder der mehreren An-Board-Personen unter Verwendung von mindestens einer der Fahrzeug-Innenbildkamera 7 und der Sitzsensoren 8; die Sprechende-Person-Identifikationseinheit 15a führt die Personen-Identifikationsverarbeitung unter Verwendung des Ergebnisses der An-Board-Person-Identifikationsverarbeitung aus. Dadurch ist es möglich, die Rauschtoleranz für die Personen-Identifikationsverarbeitung zu erhöhen, so dass die Genauigkeit der Personen-Identifikationsverarbeitung verbessert werden kann.
Es ist zu beachten, dass in der vorliegenden Erfindung eine unbegrenzte Kombination der jeweiligen Ausführungsformen, die Änderung eines beliebigen Konfigurationselements in den Ausführungsformen und das Weglassen eines beliebigen Konfigurationselements in den Ausführungsformen vorgenommen werden kann, ohne dass vom Erfindungsumfang abgewichen werden muss.
INDUSTRIELLE ANWENDBARKEIT
Die Spracherkennungsvorrichtung der Erfindung kann verwendet werden, um eine Bedienungseingabe z.B. für einen Informationsapparat in einem Fahrzeug bereitzustellen.
Bezugszeichenliste

1:: Fahrzeug,
2:: Informationsapparat,
3:: Tonerfassungsvorrichtung,
31 bis 3N:: Mikrofone,
4:: Tonausgabevorrichtung,
5:: Anzeigevorrichtung,
6:: Servervorrichtung,
7:: Kamera,
8:: Sitzsensor,
11:: Tonsignalerfassungseinheit,
12:: Tonsignalverarbeitungseinheit,
13:: Spracherkennungsverarbeitungseinheit,
14:: Spracherkennungseinheit,
15, 15a:: Sprechende-Person- Identifikationseinheit,
16:: Antwort-Inhalts-Einstelleinheit,
17:: Antwortmodus-Einstelleinheit,
18:: Antwortausgabesteuereinheit,
19:: An-Board-Person- Identifikationseinheit,
21:: Prozessor,
22:: Speicher,
23:: Verarbeitungsschaltung,
100, 100a:: Spracherkennungsvorrichtung,
200, 200a:: Spracherkennungssystem.

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP H1165587 [0004]

Claims

Spracherkennungsvorrichtung, umfassend: eine Spracherkennungseinheit zum Ausführen einer Spracherkennung an einer gesprochenen Äußerung, die für eine Betriebseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen in einem Fahrzeug sitzen, gemacht wird; eine Sprechende-Person-Identifikationseinheit zum Ausführen einer Personen-Identifikationsverarbeitung zum individuellen Identifizieren der sprechenden Person und/oder einer Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und eine Antwortmodus-Einstelleinheit zur Ausführung der Antwortmodus-Einstellverarbeitung zur Einstellung eines Modus für eine Antwort an die sprechende Person in Übereinstimmung mit einem von der Sprechende-Person-Identifikationseinheit identifizierten Ergebnis; wobei die Antwortmodus-Einstellverarbeitung eine Verarbeitung ist, bei der der Modus für die Antwort als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen ermöglicht, zu erkennen, ob die Antwort für sie selbst gegeben ist.
Spracherkennungsvorrichtung nach Anspruch 1, wobei die Antwortmodus-Einstelleinheit die Antwortmodus-Einstellverarbeitung in einem Fall ausführt, in dem nach der Detektion eines Startpunktes einer gesprochenen Äußerung, die von einer ersten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, und vor Ablauf einer Standardzeit, ein Startpunkt einer anderen gesprochenen Äußerung, die von einer zweiten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, detektiert wird.
Spracherkennungsvorrichtung nach Anspruch 1, wobei die Antwortmodus-Einstelleinheit die Antwortmodus-Einstellverarbeitung in einem Fall ausführt, in dem nach der Detektion eines Startpunktes einer gesprochenen Äußerung, die von einer ersten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, und bevor mit der Ausgabe der Antwort an die erste sprechende Person begonnen wird, ein Startpunkt einer anderen gesprochenen Äußerung, die von einer zweiten sprechenden Person unter den mehreren sprechenden Personen gemacht wurde, detektiert wird.
Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Sprechende-Person-Identifikationseinheit die Personen-Identifikationsverarbeitung unter Verwendung einer Merkmalsmenge ausführt, die von der Spracherkennungseinheit extrahiert wurde.
Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, weiter umfassend eine An-Bord-Person-Identifikationseinheit zur Durchführung einer An-Bord-Person-Identifikationsverarbeitung, um jede der mehreren An-Bord-Personen individuell zu identifizieren, indem mindestens eine von einer fahrzeuginternen Bildkamera und einem Sitzsensor verwendet wird, wobei die Sprechende-Person-Identifikationseinheit die Personen-Identifikationsverarbeitung unter Verwendung eines Ergebnisses der An-Bord-Person-Identifikationsverarbeitung ausführt.
Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Antwortmodus-Einstellverarbeitung die Verarbeitung des Hinzufügens einer nominellen Bezeichnung für die sprechende Person zu der Antwort ist, basierend auf dem Ergebnis, das durch die Sprechende-Person-Identifikationseinheit identifiziert wird.
Spracherkennungsvorrichtung nach Anspruch 6, wobei die Antwortmodus-Einstellverarbeitung die Verarbeitung des Hinzufügens der nominellen Bezeichnung zur Sprache zur Verwendung als Antwort ist.
Spracherkennungsvorrichtung nach Anspruch 6, wobei die Antwortmodus-Einstellverarbeitung die Verarbeitung des Hinzufügens der nominellen Bezeichnung zu einem Bild zur Verwendung als die Antwort ist.
Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Antwortmodus-Einstellverarbeitung die Verarbeitung des Änderns eines Sprechers für Sprache zur Verwendung als Antwort in Übereinstimmung mit dem durch die Sprechende-Person-Identifikationseinheit identifizierten Ergebnis ist.
Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Antwortmodus-Einstellverarbeitung die Verarbeitung des Änderns eines Sprechers, von dem Sprache zur Verwendung als Antwort ausgegeben wird, gemäß einer Position des Sitzes, die durch ein Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird, oder die Verarbeitung des Änderns eines Tonfeldes zu einem Zeitpunkt, zu dem die Sprache zur Verwendung als Antwort ausgegeben wird, gemäß der Position des Sitzes, die durch das Ergebnis der Sitz-Identifikationsverarbeitung angezeigt wird, ist.
Spracherkennungssystem, umfassend: eine Spracherkennungseinheit zum Ausführen einer Spracherkennung an einer gesprochenen Äußerung, die für eine Betriebseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen in einem Fahrzeug sitzen, gemacht wird; eine Sprechende-Person-Identifikationseinheit zum Ausführen von mindestens einer Personen-Identifikationsverarbeitung zum individuellen Identifizieren der sprechenden Person und/oder einer Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und eine Antwortmodus-Einstelleinheit zur Ausführung der Antwortmodus-Einstellverarbeitung zur Einstellung eines Modus für eine Antwort an die sprechende Person in Übereinstimmung mit einem von der Sprechende-Person-Identifikationseinheit identifizierten Ergebnis; wobei die Antwortmodus-Einstellverarbeitung eine Verarbeitung ist, bei der der Modus für die Antwort als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen ermöglicht, zu erkennen, ob die Antwort für sie selbst gegeben ist.
Spracherkennungsverfahren, umfassend: Ausführen, durch eine Spracherkennungseinheit, einer Spracherkennung an einer gesprochenen Äußerung, die für eine Betriebseingabe durch eine sprechende Person unter mehreren An-Bord-Personen, die auf Spracherkennungs-Zielsitzen in einem Fahrzeug sitzen, gemacht wird; Ausführen, durch eine Sprechende-Person-Identifikationseinheit, von mindestens einer Personen-Identifikationsverarbeitung zum individuellen Identifizieren der sprechenden Person und/oder einer Sitz-Identifikationsverarbeitung zum Identifizieren des Sitzes, auf dem die sprechende Person sitzt; und Ausführen, durch eine Antwortmodus-Einstelleinheit, der Antwortmodus-Einstellverarbeitung zur Einstellung eines Modus für eine Antwort an die sprechende Person in Übereinstimmung mit einem von der Sprechende-Person-Identifikationseinheit identifizierten Ergebnis, wobei die Antwortmodus-Einstellverarbeitung eine Verarbeitung ist, bei der der Modus für die Antwort als ein Modus eingestellt wird, der es jeder der mehreren An-Bord-Personen ermöglicht, zu erkennen, ob die Antwort für sie selbst gegeben ist.