DE102022114392A1

DE102022114392A1 - Steuervorrichtung, steuerverfahren und steuerprogramm

Info

Publication number: DE102022114392A1
Application number: DE102022114392.9A
Authority: DE
Inventors: Hiroki Abe; Yuki Kamiya; Osamu KAWASE; Yasuhiro Ishiguro
Original assignee: Toyota Boshoku Corp
Current assignee: Toyota Boshoku Corp
Priority date: 2021-06-10
Filing date: 2022-06-08
Publication date: 2022-12-15
Also published as: US20220400343A1; JP2022189035A; US11930335B2

Abstract

Die Steuervorrichtung umfasst Folgendes: eine Erfassungseinheit, die eine vorab festgelegte Spracheingabe/Bewegung eines Benutzers erfasst, der sich in einem Ausgabezielraum eines Richtungslautsprechers befindet; eine Identifizierungseinheit, die passend zu der vorab festgelegten Spracheingabe/Bewegung eine interessierende Audioquelle unter den Audioquellen und einen Richtungslautsprecher als ein zu steuerndes Objekt identifiziert; und eine Ausgabesteuereinheit, die die identifizierten Richtungslautsprecher veranlasst, von der identifizierten Audioquelle bereitgestellte Audiosignale auszugeben.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Steuervorrichtung und dergleichen, die bewirken, dass Audioausgabevorrichtungen Audiosignale ausgeben, die von einer Audioquelle bereitgestellt werden.
Stand der Technik
Es gibt eine Technik, die es einer Vielzahl von Benutzern, die sich in einem vorab festgelegten Raum aufhalten, ermöglicht, verschiedene Audiostücke zu hören, indem sie eine Vielzahl von Audioausgabevorrichtungen, die in dem vorab festgelegten Raum vorgesehen sind, veranlasst, entsprechende Audiostücke auszugeben, die von verschiedenen Audioquellen bereitgestellt werden. Ein Beispiel für eine solche Technik ist das Bereitstellen von Richtungslautsprechern in den jeweiligen Sitzen eines Fahrzeugs, die es den Insassen, die auf den jeweiligen Sitzen Platz genommen haben, ermöglichen, von verschiedenen Audioquellen bereitgestellte Audiostücke zu hören.
Die Patentliteratur 1 offenbart ein Verfahren zur gemeinsamen Nutzung einer Audioquelle durch eine Vielzahl von Audioausgabevorrichtungen basierend auf einem solchen Verfahren. Insbesondere offenbart die Patentliteratur 1 ein Verfahren zur Auswahl einer Vielzahl von Sitzen in einem Fahrzeug durch Bedienung einer grafischen Benutzeroberfläche, die auf einem Berührungsfeld bzw. Touchpanel angezeigt wird, und zur gemeinsamen Nutzung einer Audioquelle durch Lautsprecher, die jeweils in der Vielzahl der Sitze vorgesehen sind.
Liste zitierter Schriften
[Patentliteratur]
[Patentschrift 1] Japanische Patentanmeldungsveröffentlichung Tokukai Nr. 2009-147814 , JP 2009-147 814 A
Kurze Erläuterung der Erfindung
Technisches Problem
Bei der Technik nach der Patentschrift 1 ist es notwendig, einen Eingabevorgang auf der grafischen Benutzeroberfläche auszuführen, um die Audioquelle zu teilen. Es ist jedoch für einen Benutzer, der es gewohnt ist, ein Video oder dergleichen zu teilen, indem er zum Beispiel den Bildschirm eines Smartphones näher an einen Begleiter heranbringt, lästig, die Eingabeoperation jedes Mal durchzuführen, wenn die Audioquelle geteilt wird.
Darüber hinaus ist es gemäß der Technik der Patentschrift 1 notwendig, einen Bildschirm zur Anzeige der grafischen Benutzeroberfläche bereitzustellen.
Ein Aspekt der vorliegenden Erfindung betrifft die gemeinsame Nutzung bzw. das Teilen von Audiosignalen durch eine Vielzahl von Benutzern, ohne dass ein Eingabevorgang durchgeführt werden muss.
Lösung des Problems
Um die Aufgabe zu lösen, ist eine Steuervorrichtung gemäß einem ersten Aspekt der vorliegenden Erfindung eine Steuervorrichtung, um eine Vielzahl von Audioausgabevorrichtungen dazu zu veranlassen, Audio bzw. Audiosignale auszugeben, das bzw. die von einer beliebigen von einer oder mehreren Audioquellen bereitgestellt werden, wobei jede der einen oder mehreren Audioquellen für jede der Vielzahl von Audioausgabevorrichtungen eingestellt ist, wobei die Steuervorrichtung Folgendes umfasst: eine Erfassungseinheit, die eine vorab festgelegte Spracheingabe/Bewegung durch einen Benutzer erfasst, der sich in einem Ausgabezielraum einer der mehreren Audioausgabevorrichtungen befindet; eine Identifizierungseinheit, die passend zu der vorab festgelegten Spracheingabe/Bewegung, die erfasst wurde, eine interessierende Audioquelle aus der einen oder den mehreren Audioquellen und der einen oder den mehreren Audioausgabevorrichtungen als ein zu steuerndes Objekt aus der Vielzahl von Audioausgabevorrichtungen identifiziert; und eine Ausgabesteuereinheit, die jede der einen oder mehreren Audioausgabevorrichtungen, die identifiziert wurden, dazu veranlasst, Audiosignale auszugeben, die von der identifizierten interessierenden Audioquelle bereitgestellt werden.
Gemäß dem Aufbau werden eine interessierende Audioquelle und eine zu steuernde Audioausgabevorrichtung passend zu der vorab festgelegten Spracheingabe/Bewegung des Benutzers identifiziert, und von der interessierenden Audioquelle bereitgestellte Audiosignale werden von der identifizierten Audioausgabevorrichtung ausgegeben. Das heißt, wenn der Benutzer die vorab festgelegte Spracheingabe/Bewegung ausgeführt hat, wird das von der interessierenden Audioquelle bereitgestellte Audiosignal von einer Audioausgabevorrichtung, für die die interessierende Audioquelle eingestellt ist, und von der zu steuernden Audioausgabevorrichtung ausgegeben. Dies ermöglicht es dem Benutzer, die von der Audioquelle bereitgestellten Audiosignale auf einfache Weise mit anderen zu teilen, indem der Benutzer nur die vorab festgelegte Spracheingabe/Bewegung vornimmt.
Bei der Steuervorrichtung gemäß einem zweiten Aspekt der vorliegenden Erfindung ist es beim ersten Aspekt möglich, dass die Erfassungseinheit aus einem von einer Bildgebungsvorrichtung erfassten Bild eine vorab festgelegte Handlung des Benutzers als die vorab festgelegte Spracheingabe/Bewegung erfasst.
Gemäß dem Aufbau wird eine vorab festgelegte Handlung des Benutzers abgebildet und diese vorab festgelegte Handlung als die vorab festgelegte Spracheingabe/Bewegung erfasst. Dies ermöglicht es dem Benutzer, Audiosignale, die von der Audioquelle breitgestellt werden, mit anderen zu teilen, indem er nur die vorab festgelegte Handlung ausführt. Zum Beispiel können von der Audioquelle bereitgestellte Audiosignale durch eine einfache Geste, die zuvor als vorab festgelegte Handlung bestimmt wird, mit anderen geteilt werden.
Bei der Steuervorrichtung nach einem dritten Aspekt der vorliegenden Erfindung ist es möglich, dass die Erfassungseinheit im zweiten Aspekt die vorab festgelegte Handlung basierend auf einer Bewegung eines im Bild enthaltenen Körperteils des Benutzers erfasst.
Gemäß dem Aufbau wird die vorab festgelegte Handlung anhand der Bewegung des abgebildeten Körperteils des Benutzers erkannt. Daher kann der Benutzer Audiosignale, die er gerade hört, mit anderen teilen, indem er einen vorab festgelegten Körperteil bewegt. In diesem Fall umfasst die Bewegung des Körperteils beispielsweise eine Augenbewegung (mit anderen Worten, die Änderung einer Blickrichtung) sowie die Bewegung eines Arms oder einer Hand.
In der Steuervorrichtung gemäß einem vierten Aspekt der vorliegenden Erfindung ist es im dritten Aspekt möglich, dass: die Bewegung des Körperteils eine Bewegung zum Verschieben einer Position eines Informationsterminals bzw. -endgeräts, das als eine Audioquelle dient, entlang eines vorab festgelegten Pfades umfasst; und die Identifizierungseinheit das Informationsterminal als interessierende Audioquelle identifiziert.
Gemäß dem Aufbau werden die von der Audioquelle bereitgestellten Audiosignale von mehreren Benutzern geteilt, indem die Position des Informationsterminals, das als Audioquelle arbeitet, entlang des vorab festgelegten Pfades bewegt wird. Der vorab festgelegte Pfad muss nicht komplex sein und kann typischerweise ein einfacher Pfad von einem auslösenden Benutzer zu einem Zielbenutzer sein, mit dem die Audiosignale zu teilen sind. Daher kann der Benutzer die von der Audioquelle bereitgestellten Audiosignale durch einen einfachen Vorgang mit anderen teilen.
Bei der Steuervorrichtung gemäß einem fünften Aspekt der vorliegenden Erfindung ist es im vierten Aspekt möglich, dass: der vorab festgelegte Pfad ein Pfad ist, entlang dessen das Informationsterminal von einer Seite eines Benutzers, der sich in einem Ausgabezielraum einer Audioausgabevorrichtung befindet, für die das Informationsterminal als Audioquelle eingestellt ist, zu einer Seite eines Benutzers bewegt wird, der sich in einem Ausgabezielraum einer Audioausgabevorrichtung befindet, für die das Informationsterminal nicht als Audioquelle eingestellt ist; und die Identifizierungseinheit die Audioausgabevorrichtung, für die das Informationsterminal nicht als Audioquelle eingestellt ist, als das zu steuernde Objekt identifiziert.
Gemäß dem Aufbau werden Audiosignale, die vom Informationsterminal bereitgestellt werden, das als Audioquelle arbeitet, von einer Audioausgabevorrichtung ausgegeben, die ein anderer Benutzer verwendet, um andere Audiosignale zu hören, indem das Informationsterminal näher zu diesem anderen Benutzer gebracht wird, und somit wird Audio-Sharing bzw. Teilen von Audiosignalen erzielt.
In der Steuervorrichtung gemäß einem sechsten Aspekt der vorliegenden Erfindung ist es im fünften Aspekt möglich, dass: die Erfassungseinheit eine Blickrichtung des Benutzers erfasst, auf den das Informationsterminal zu bewegt wurde; in einem Fall, in dem die Blickrichtung auf das Informationsterminal gerichtet ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt identifiziert; und in einem Fall, in dem die Blickrichtung nicht auf das Informationsterminal gerichtet ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht identifiziert.
Gemäß dem Aufbau werden von einer Audioquelle bereitgestellte Audiosignale von einer Audioausgabevorrichtung ausgegeben, die von einem anderen Benutzer verwendet wird, um andere Audiosignale zu hören, wenn dieser andere Benutzer auf das sich nähernde Informationsterminal blickt, und somit wird Audio-Sharing bzw. ein Teilen von Audiosignalen erreicht. So kann die gemeinsame Nutzung von Audiosignalen durch eine Reihe von Aktionen erreicht werden, die normalerweise durchgeführt werden, wenn die von einem Benutzer angebotene gemeinsame Nutzung von Audiosignalen von einem anderen Benutzer genehmigt wird. Daher können die Benutzer auf natürliche Weise eine gemeinsame Nutzung von Audiosignalen erreichen. Darüber hinaus wird die gemeinsame Nutzung von Audiosignalen nur dann durchgeführt, wenn ein anderer Benutzer das Informationsterminal anblickt, was ermöglicht, die gemeinsame Nutzung von Audiosignalen zu verhindern, die von diesem anderen Benutzer nicht gewünscht wird.
In der Steuervorrichtung gemäß einem siebten Aspekt der vorliegenden Erfindung ist es in jedem der ersten bis vierten Aspekte möglich, dass die Erfassungseinheit aus in eine Audioeingabevorrichtung eingegebenen Audiosignale eine vorab festgelegte Äußerung des Benutzers als die vorab festgelegte Spracheingabe/Bewegung erfasst.
Gemäß dem Aufbau wird eine vorab festgelegte Äußerung des Benutzers ermittelt, und diese vorab festgelegte Äußerung wird als die vorab festgelegte Spracheingabe/Bewegung detektiert. Dies ermöglicht es dem Benutzer, von der Audioquelle bereitgestellte Audiosignale mit anderen zu teilen, indem er nur die vorab festgelegte Äu-ßerung abgibt. Zum Beispiel können von der Audioquelle bereitgestellte Audiosignale mit anderen geteilt werden, wenn eine Äußerung getätigt wird, die einen einfachen Begriff enthält, der zuvor als die vorab festgelegte Äußerung bestimmt wird.
Bei der Steuervorrichtung gemäß einem achten Aspekt der vorliegenden Erfindung ist es im siebten Aspekt möglich, dass: die vorab festgelegte Äußerung eine Absicht umfasst, eine Audioquelle bereitzustellen; die Erfassungseinheit nach Abgabe der vorab festgelegten Äußerung eine Spracheingabe/Bewegung eines zweiten Benutzers erfasst, der sich von dem Benutzer unterscheidet, der die vorab festgelegte Äußerung abgegeben hat; in einem Fall, in dem die Spracheingabe/Bewegung zustimmend ausfällt, identifiziert die Identifizierungseinheit als die interessierende Audioquelle eine Audioquelle von Audiosignalen, die in einen Raum ausgegeben wird, in dem sich der Benutzer befindet, der die vorab festgelegte Äußerung abgegeben hat, und die Identifizierungseinheit identifiziert zumindest eine Audioausgabevorrichtung als das zu steuernde Objekt, die Audiosignale in einen Raum ausgibt, in dem sich der zweite Benutzer befindet; und in einem Fall, in dem die Spracheingabe/Bewegung negativ ist, identifiziert die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht.
Gemäß dem Aufbau wird in einem Fall, in dem sich der Benutzer äußert, um die Absicht anzuzeigen, eine Audioquelle bereitzustellen, um also Audio-Sharing anzubieten, und dann der zweite Benutzer eine zustimmende Spracheingabe/Bewegung macht, Audio-Sharing zwischen diesen beiden Benutzern erreicht. Auf diese Weise können zwei Benutzer die von einer Audioquelle bereitgestellten Audiosignale gemeinsam durch eine Interaktion nutzen, die ausgeführt wird, wenn sie Audiosignale teilen, die von einer einzigen Audioquelle stammen. Wenn der zweite Benutzer eine verneinende Spracheingabe/Bewegung macht, wird das Audio-Sharing nicht durchgeführt, was ermöglicht, das vom zweiten Benutzer unerwünschte Audio-Sharing zu verhindern.
Bei der Steuervorrichtung gemäß einem neunten Aspekt der vorliegenden Erfindung ist es im siebten oder achten Aspekt möglich, dass: die vorab festgelegte Äußerung eine Aufforderung zum Genießen einer Audioquelle umfasst; die Erfassungseinheit nach Abgabe der vorab festgelegten Äußerung eine Spracheingabe/Bewegung eines dritten Benutzers erfasst, der sich von dem Benutzer, der die vorab festgelegte Äußerung abgegeben hat, unterscheidet; in einem Fall, in dem die Spracheingabe/Bewegung zustimmend ist, identifiziert die Identifizierungseinheit eine Audioquelle von Audiosignalen als die interessierende Audioquelle, die in einen Raum ausgegeben werden, in dem sich der dritte Benutzer befindet, und die Identifizierungseinheit identifiziert zumindest eine Audioausgabevorrichtung als das zu steuernde Objekt, die Audiosignale in einen Raum abgibt, in dem sich der Benutzer befindet, der die vorab festgelegte Äußerung gemacht hat; und in einem Fall, in dem die Spracheingabe/Bewegung verneinend ist, identifiziert die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht.
Gemäß dem Aufbau wird in einem Fall, in dem sich der Benutzer äußert, um eine Aufforderung zum Genuss einer Audioquelle abzugeben, um also Audio-Sharing anzufordern, und dann der dritte Benutzer eine zustimmende Spracheingabe/Bewegung ausführt, Audio-Sharing zwischen diesen beiden Benutzern erzielt. Auf diese Weise können zwei Benutzer von einer Audioquelle bereitgestellte Audiosignale gemeinsam durch eine Interaktion nutzen, die ausgeführt wird, wenn sie Audiosignale teilen, die von einer einzigen Audioquelle stammen. Äußert sich der dritte Benutzer verneinend, wird das Audio-Sharing nicht durchgeführt, was es ermöglicht, das Audio-Sharing zu verhindern, das vom dritten Benutzer nicht gewünscht wird.
In der Steuervorrichtung gemäß einem zehnten Aspekt der vorliegenden Erfindung ist es in jedem der ersten bis neunten Aspekte möglich, dass: die Erfassungseinheit eine zweite vorab festgelegte Spracheingabe/Bewegung des Benutzers erfasst, wobei die zweite vorab festgelegte Spracheingabe/Bewegung sich von der vorab festgelegten Spracheingabe/Bewegung unterscheidet und ein Beenden anzeigt; und in einem Fall, in dem die zweite vorab festgelegte Spracheingabe/Bewegung erfasst wurde, die Ausgabesteuereinheit die eine oder mehrere Audioausgabevorrichtungen, die identifiziert wurden, dazu veranlasst, die Ausgabe von Audiosignalen zu beenden, die von der identifizierten interessierenden Audioquelle bereitgestellt wurden.
Gemäß dem Aufbau wird die Ausgabe von Audiosignale, die von der identifizierten Audioquelle bereitgestellt werden, von den identifizierten Audioausgabevorrichtungen als Antwort auf die zweite vorab festgelegte Spracheingabe/Bewegung des Benutzers beendet. Dadurch können Benutzer, die Audiosignale teilen, die gemeinsame Nutzung von Audiosignalen beenden, indem sie nur die zweite vorab festgelegte Spracheingabe/Bewegung ausführen. Daher kann die gemeinsame Nutzung von Audiosignalen ohne einen Eingabevorgang durch den Benutzer beendet werden.
In der Steuervorrichtung gemäß einem elften Aspekt der vorliegenden Erfindung ist es im zehnten Aspekt möglich, dass die Ausgabesteuereinheit passend zum bzw. nach dem Beenden eine Audioquelle, die unmittelbar vor der Einleitung der Steuerung durch die Ausgabesteuereinheit eingestellt war, für jede der einen oder mehreren identifizierten Audioausgabevorrichtungen zurücksetzt.
Gemäß dem Aufbau wird nach dem Beenden des Teilens der Audiosignale die Audioquelle, die unmittelbar vor dem Auslösen der Steuerung durch die Ausgabesteuereinheit eingestellt war, für eine Audioausgabevorrichtung zurückgesetzt, die ein zu steuerndes Objekt war. Auf diese Weise kann der Benutzer, der das Audio-Sharing durchgeführt hat, nach Beenden des Audio-Sharings die Audiosignale anhören, die er vor dem Teilen von Audio bzw. Audio-Sharing gehört hat.
In der Steuervorrichtung gemäß einem zwölften Aspekt der vorliegenden Erfindung ist es in jedem aus dem ersten bis elften Aspekt möglich, dass: jede der mehreren Audioausgabevorrichtungen eine Ausrichtung in einer Richtung hat, in der Audiosignale abgegeben werden; und die mehreren Audioausgabevorrichtungen so angeordnet sind, dass kein Schallfeld durch einander erreichende Elemente von Audiosignalen gebildet wird, die von den mehreren Audioausgabevorrichtungen ausgegeben werden, die sich voneinander unterscheiden.
Gemäß dem Aufbau wird kein Schallfeld durch eine Vielzahl von Audiostücken gebildet, die von verschiedenen Audioausgabevorrichtungen im Ausgabezielraum der Audioausgabevorrichtung ausgegeben und erzielt werden. Somit soll ein Benutzer in einem beliebigen der gebildeten Schallfelder Audiosignale hören, die von einer beliebigen der Audioausgabevorrichtungen ausgegeben wurden. Möchte ein Benutzer andere Audiosignale hören als die gerade gehörten, muss der Benutzer in einem der gebildeten Schallfelder möglicherweise in ein anderes Schallfeld wechseln. Gemäß dem vorstehend erläuterten Aufbau wird jedoch, wenn der Benutzer die vorab festgelegte Spracheingabe/Bewegung vorgenommen hat, der von der betreffenden Audioquelle bereitgestellte Schall von einer Audioausgabevorrichtung, für welche die Audioquelle eingestellt ist, und von einer zu steuernden Audioausgabevorrichtung ausgegeben. Dies ermöglicht es dem Benutzer, Audiosignale zu hören, die ein anderes Schallfeld erzeugt, indem er die vorab festgelegte Spracheingabe/Bewegung ausführt, ohne sich zu diesem anderen Schallfeld zu bewegen, das durch die zugeführten und von der interessierenden Audioquelle erzeugten Audiosignale gebildet wird.
Ein Verfahren zum Steuern der Audioausgabe gemäß einem dreizehnten Aspekt der vorliegenden Erfindung ist ein Verfahren zum Steuern der Audioausgabe durch eine Steuervorrichtung, die eine Vielzahl von Audioausgabevorrichtungen dazu veranlasst, Audiosignale auszugeben, die von einer beliebigen aus einer oder mehreren Audioquellen zugeführt werden, wobei jede der einen oder mehreren Audioquellen für jede aus der Vielzahl von Audioausgabevorrichtungen einstellbar ist, wobei das Verfahren die folgenden Schritte umfasst: Erfassen einer vorab festgelegten Spracheingabe/Bewegung eines Benutzers, der sich in einem Ausgabezielraum einer aus der Vielzahl von Audioausgabevorrichtungen befindet; Identifizieren einer interessierenden Audioquelle aus der einen oder den mehreren Audioquellen und der einen oder den mehreren Audioausgabevorrichtungen, passend zu der vorab festgelegten Spracheingabe/Bewegung, die erfasst worden ist, als ein zu steuerndes Objekt aus der Vielzahl von Audioausgabevorrichtungen; und Bewirken, dass jede aus der einen oder der Vielzahl von Audioausgabevorrichtungen, die identifiziert worden sind, Audiosignale ausgibt, welche die identifizierte interessierende Audioquelle bereitstellt.
Der vorstehend erläuterte Aufbau bewirkt einen ähnlichen Effekt wie die Steuervorrichtung gemäß dem ersten Aspekt.
Die Steuervorrichtung gemäß jedem der Aspekte der vorliegenden Erfindung kann durch einen Computer realisiert werden. In einem solchen Fall umfasst die vorliegende Erfindung (i) ein Steuerprogramm der Steuervorrichtung, das den Computer veranlasst, als die in der Steuervorrichtung enthaltenen Einheiten (Softwareelemente) zur Realisierung der Steuervorrichtung zu dienen, und (ii) ein computerlesbares Speichermedium, das das Steuerprogramm speichert.
Vorteilhafte Effekte der Erfindung
Gemäß einem Aspekt der vorliegenden Erfindung kann eine Vielzahl von Benutzern Audiosignale teilen, ohne eine Eingabeoperation durchzuführen.
Figurenliste

1 ist ein Schaubild zur Veranschaulichung eines Beispiels für einen Aufbau eines Hauptteils einer Steuervorrichtung, die in einem Audioausgabesystem gemäß der ersten Ausführungsform der vorliegenden Erfindung enthalten ist.
2 ist eine Draufsicht auf ein Fahrzeug, in dem das in 1 veranschaulichte Audioausgabesystem angebracht ist.
3 ist ein Schaubild zur Veranschaulichung eines spezifischen Beispiels einer Audioquelleneinstellung, die in der in 1 veranschaulichten Steuervorrichtung gespeichert ist.
4 ist ein Ablaufplan, der ein Beispiel für den Ablauf eines Teilungsvorgangs zeigt, der von der in 1 dargestellten Steuervorrichtung durchgeführt wird.
5 ist ein Schaubild, das ein spezifisches Beispiel für die Spracheingabe/Bewegung zum Auslösen des Teilens in einem Fahrgastraum darstellt.
6 ist ein Schaubild, das ein weiteres spezifisches Beispiel für eine Spracheingabe/Bewegung zum Auslösen des Teilens in einem Fahrgastraum darstellt.
7 ist ein Schaubild, das ein weiteres spezifisches Beispiel für eine Spracheingabe/Bewegung zum Auslösen des Teilens in einem Fahrgastraum darstellt.
8 ist ein Ablaufplan, das ein Beispiel für den Ablauf eines Vorgangs zum Beenden des Teilens zeigt, der von einer Steuervorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung durchgeführt wird.

Beschreibung von Ausführungsbeispielen
Erste Ausführungsform
In der nachstehenden Erläuterung wird eine Ausführungsform der vorliegenden Erfindung genauer erörtert.
(Kurze Darstellung eines Audioausgabesystems)
1 ist ein Schaubild, das ein Beispiel für einen Aufbau eines Hauptteils einer Steuervorrichtung 1 zeigt, die in einem Audioausgabesystem 100 gemäß der ersten Ausführungsform enthalten ist. Das Audioausgabesystem 100 ist ein System zur Ausgabe von Audiosignalen in einem vorab festgelegten Raum.
Wie in 1 dargestellt wird, umfasst das Audioausgabesystem 100 die Steuervorrichtung 1, Audioquellen 2A bis 2N, Richtungslautsprecher 3A bis 3N (Audioausgabevorrichtung), eine Kamera 4 (Bildgebungsvorrichtung) und ein Mikrofon 5 (Audioeingabevorrichtung).
Bei den Richtungslautsprechern 3A bis 3N handelt es sich um eine Vielzahl von Audioausgabevorrichtungen, die Audiosignale in einem vorab festgelegten Raum ausgeben. Die Schreibweise „3A bis 3N“ zeigt an, dass die Anzahl der Richtungslautsprecher zwei oder mehr beträgt, und diese Schreibweise ist nicht dazu gedacht, die Anzahl der im Audioausgabesystem 100 enthaltenen Richtungslautsprecher zu begrenzen. Wenn im Folgenden die Richtungslautsprecher 3A bis 3N nicht voneinander unterschieden werden, wird jeder der Richtungslautsprecher 3A bis 3N als „Richtungslautsprecher 3“ bezeichnet. Der Richtungslautsprecher 3 ist eine Audioausgabevorrichtung mit einer Richtwirkung in einer Richtung, in die der Ton bzw. das Audiosignal abgestrahlt wird. Die Richtungslautsprecher 3A bis 3N sind in einem vorab festgelegten Raum so angeordnet, dass kein Schallfeld durch Teile des ausgegebenen und erzielten Audiosignals gebildet wird. Das heißt, dass ein Benutzer, der sich in dem vorab festgelegten Raum befindet, Audiosignale hören soll, die von einem beliebigen der Richtungslautsprecher 3 ausgegeben werden.
In der ersten Ausführungsform wird eine Audioausgabevorrichtung, die eine Funktion aufweist, die es jedem Benutzer ermöglicht, Audiosignale zu hören, durch den Richtungslautsprecher 3 veranschaulicht. Anstelle des Richtungslautsprechers 3 kann jedoch auch eine andere Audioausgabevorrichtung mit einer derartigen Funktion verwendet werden.
Die Audioquellen 2A bis 2N sind eine Vielzahl von Audioausgabevorrichtungen, die Audiosignale liefern. Die Schreibweise „2A bis 2N“ zeigt an, dass die Anzahl der Audioquellen zwei oder mehr beträgt, und diese Schreibweise soll die Anzahl der im Audioausgabesystem 100 enthaltenen Audioquellen nicht begrenzen. Die Zahl der Audioquellen im Audioausgabesystem 100 kann eins sein. Wenn die Audioquellen 2A bis 2N nicht voneinander unterschieden werden, wird im Folgenden jede der Audioquellen 2A bis 2N als „Audioquelle 2“ bezeichnet. Jede der Audioquellen 2A bis 2N ist für einen der mehreren Richtungslautsprecher 3A bis 3N vorgesehen. Insbesondere ist jede der Audioquellen 2A bis 2N über die Steuervorrichtung 1 mit einem der mehreren Richtungslautsprecher 3A bis 3N verkabelt oder drahtlos verbunden. Somit wird das von der Audioquelle 2 bereitgestellte Audiosignal von einem Richtungslautsprecher 3 ausgegeben, der über die Steuervorrichtung 1 mit der Audioquelle 2 verbunden ist. In der ersten Ausführungsform wird davon ausgegangen, dass die Audioquelle 2 und die Steuervorrichtung 1 sowie die Steuervorrichtung 1 und der Richtungslautsprecher 3 beispielsweise drahtlos über Bluetooth (eingetragene Marke) verbunden sind. Die Verbindungseinrichtung ist nicht auf Bluetooth beschränkt und kann eine andere drahtlose Verbindung sein, wie z.B. WiFi (eingetragene Marke), oder kann eine kabelgebundene Verbindung sein.
Wie vorstehend erläutert wurde, sind die Richtungslautsprecher 3A bis 3N in einem vorab festgelegten Raum so angeordnet, dass kein Schallfeld durch Teile von ausgegebenen und angekommenen Audiosignale gebildet wird. Daher muss sich ein Benutzer, der von einer bestimmten Audioquelle 2 bereitgestellte Audiosignale hören möchte, normalerweise in einem Schallfeld befinden, das durch Audiosignale gebildet wird, die von einem Richtungslautsprecher 3 erzeugt werden, für den die bestimmte Audioquelle 2 vorgesehen ist.
Die Audioquelle 2 kann ein Informationsterminal sein, das in den zuvor festgelegten Raum gebracht werden kann, oder kann eine Audioquelle sein, die vorab in dem zuvor festgelegten Raum installiert wird. Spezifische Beispiele für das Informationsterminal umfassen zum Beispiel ein Smartphone, ein Tablet, ein Laptop, eine tragbare Spielekonsole, einen tragbaren Musikplayer, einen tragbaren DVD-Player und einen tragbaren Blu-ray Disc-Player. Im Beispiel von 1 ist zumindest die Audioquelle 2A als ein Informationsterminal dargestellt.
Die Kamera 4 ist eine bildgebende Vorrichtung, die Bilder in dem vorab festgelegten Raum aufnimmt. Die Kamera 4 überträgt die Daten eines aufgenommenen Bildes (typischerweise ein Video) an die Steuervorrichtung 1.
Das Mikrofon 5 ist eine Audioeingabevorrichtung, die in den vorab festgelegten Raum ausgestrahlte Audiosignale bzw. Töne aufnimmt. Das Mikrofon 5 wandelt die erhaltenen Töne in ein Audiosignal um und überträgt das Audiosignal an die Steuervorrichtung 1. Im Folgenden wird die Erfassung von Audiosignalen durch das Mikrofon 5 gelegentlich als „Schallerfassung“ bzw. „sound collection“ bezeichnet.
Die Steuervorrichtung 1 steuert die Audioausgabe im vorab festgelegten Raum. Insbesondere legt die Steuervorrichtung 1 für jede der Audioquellen 2A bis 2N einen der Richtungslautsprecher 3A bis 3N fest und bewirkt, dass Audiosignale, die von jeder der Audioquellen 2A bis 2N bereitgestellt werden, von dem eingestellten Richtungslautsprecher 3 ausgegeben werden. Beispielsweise empfängt die Steuervorrichtung 1 von einer Audioquelle 2 ein Signal zur Kopplung mit einem der Richtungslautsprecher 3A bis 3N und legt die Audioquelle 2, die das Signal übertragen hat, für einen durch das Signal angegebenen Richtungslautsprecher 3 fest. Die Steuervorrichtung 1 empfängt Audiosignale von der Audioquelle 2 und sendet die Audiosignale an den Richtungslautsprecher 3, für den die Audioquelle 2 festgelegt ist. Auf diese Weise bewirkt die Steuervorrichtung 1, dass die von der Audioquelle 2 bereitgestellten Audiosignale vom Richtungslautsprecher 3 ausgegeben werden, für den die Audioquelle 2 festgelegt ist.
Die Steuervorrichtung 1 erfasst eine vorab festgelegte Spracheingabe/Bewegung eines Benutzers, der sich in dem vorab festgelegten Raum befindet, erkennt eine relevante bzw. interessierende Audioquelle aus den Audioquellen 2A bis 2N und Richtungslautsprecher 3 aus den Richtungslautsprechern 3A bis 3N, die gemäß der vorab festgelegten Spracheingabe/Bewegung zu steuern sind, und bewirkt, dass von der identifizierten Audioquelle bereitgestellte Audiosignale von jedem der identifizierten Richtungslautsprecher 3 ausgegeben wird. Die Steuervorrichtung 1 veranlasst also, dass von der basierend auf der vorab festgelegten Spracheingabe/Bewegung des Benutzers identifizierten Audioquelle 2 bereitgestellte Audiosignale nicht nur von einem Richtungslautsprecher 3 ausgegeben werden, für den die Audioquelle 2 festgelegt ist, sondern auch von Richtungslautsprechern 3, die basierend auf der vorab festgelegten Spracheingabe/Bewegung identifiziert wurden. Anders gesagt kann die Steuervorrichtung 1 basierend auf der vorab festgelegten Spracheingabe/Bewegung des Benutzers ermöglichen, dass Audiosignale, die von der identifizierten Audioquelle 2 bereitgestellt werden, von mehreren Benutzern geteilt werden, die sich in verschiedenen Ausgabezielräumen befinden. Nachstehend wird eine solche vorab festgelegte Spracheingabe/Bewegung als „gemeinsame auslösende Spracheingabe/Bewegung“ bezeichnet.
Hier besteht die Spracheingabe/Bewegung zur Einleitung des Teilens aus mindestens einer vorab festgelegten Handlung, die vom Benutzer ausgeführt wird, und einer vorab festgelegten Äußerung des Benutzers. Typische Beispiele für die vorab festgelegte Handlung umfassen, sind aber nicht beschränkt auf Aktionen von Körperteilen wie einem Gesicht, einem Auge (Blickrichtung), einem Arm, einer Hand und dergleichen. In der ersten Ausführungsform wird davon ausgegangen, dass die Spracheingabe/Bewegung zum Auslösen des Teilens von mindestens zwei Benutzern getätigt/ausgelöst wird. Typischerweise ist die Spracheingabe/Bewegung zum Auslösen des Teilens gemäß der ersten Ausführungsform eine Spracheingabe/Bewegung, die als Reaktion auf eine Spracheingabe/Bewegung eines bestimmten Benutzers zum Auslösen des Teilens von Audiosignalen von einem weiteren Benutzer zur Annahme der gemeinsamen Nutzung von Audiosignalen ausgeführt wird. Im Folgenden wird der Benutzer, der die Spracheingabe/Bewegung zum Auslösen des Teilens von Audiosignalen ausgeführt hat, manchmal als „Benutzer, der eine Spracheingabe/Bewegung zum Auslösen des Teilens eingeleitet hat“, bezeichnet. Darüber hinaus wird der Benutzer, der die Spracheingabe/Bewegung zum Akzeptieren der gemeinsamen Nutzung von Audiosignalen ausgeführt hat, manchmal als „Benutzer, der die Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung bestätigt hat“, bezeichnet. Einzelheiten der Steuervorrichtung 1 werden später erläutert.
Mit dem vorstehend erläuterten Aufbau kann die Steuervorrichtung 1 einer Vielzahl von Benutzern ermöglichen, Audiosignale, die von einer Audioquelle 2 bereitgestellt werden, passend zu einer von den Benutzern durchgeführten Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung zu teilen. Ein Benutzer, der Audiosignale teilen möchte, die von einer Audioquelle 2 bereitgestellt werden, kann also die Audiosignale teilen, indem er die Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung ausführt, ohne einen Eingabevorgang auf einer Benutzerschnittstelle zum Audio-Sharing auszuführen (z.B. eine Tastenbetätigung an der Audioquelle 2 oder dem Richtungslautsprecher 3). Anders gesagt kann der Benutzer auf einfache Weise Audiosignale teilen, ohne die Unannehmlichkeiten eines Eingabevorgangs wahrzunehmen.
(Anwendungsbeispiel für ein Audioeingabesystem)
2 ist eine Draufsicht auf ein Fahrzeug 200, in dem das Audioausgabesystem 100 eingesetzt wird. Das heißt, in einem in 2 dargestellten Beispiel ist der vorab festgelegte Raum ein Fahrgastraum 210, der sich im Fahrzeug 200 befindet.
Wie in 2 dargestellt wird, weist der Fahrgastraum 210 vier Richtungslautsprecher 3A bis 3D auf. In dem in 2 dargestellten Beispiel sind die Richtungslautsprecher 3A bis 3D in den jeweiligen Kopfstützen der Sitze vorgesehen. Genauer gesagt ist der Richtungslautsprecher 3A in einer Kopfstütze eines Fahrersitzes 20A untergebracht. Der Richtungslautsprecher 3B befindet sich in einer Kopfstütze eines Beifahrersitzes 20B. Der Richtungslautsprecher 3C ist in einer Kopfstütze eines Rücksitzes 20C angebracht. Der Richtungslautsprecher 3D befindet sich in einer Kopfstütze eines Rücksitzes 20D.
Jeder der Richtungslautsprecher 3A bis 3D hat eine Richtwirkung in eine Richtung, in die das Audiosignal abgestrahlt wird, so dass nur ein Insasse, der auf einem Sitz sitzt, auf dem dieser Richtungslautsprecher 3 vorgesehen ist, das ausgegebene Audiosignal hören kann. Insbesondere ist die Intensität einer Schallwelle, die von jedem der Richtungslautsprecher 3A bis 3D ausgegeben wird, in einer Vorwärtsrichtung des Fahrzeugs 200 stärker und in den anderen Richtungen schwächer. Bei diesem Aufbau kann das vom Richtungslautsprecher 3A ausgegebene Audiosignal nur von einem Insassen (also einem Fahrer) gehört werden, der auf dem Fahrersitz 20A sitzt. Das vom Richtungslautsprecher 3B ausgegebene Audiosignal kann nur von einem Insassen auf dem Beifahrersitz 20B gehört werden. Das vom Richtungslautsprecher 3C ausgegebene Audiosignal kann nur von einem Insassen gehört werden, der auf dem Rücksitz 20C sitzt. Das vom Richtungslautsprecher 3D ausgegebene Audiosignal kann nur von einem Insassen gehört werden, der auf dem Rücksitz 20D sitzt. Durch die Anordnung der Richtungslautsprecher 3 auf diese Weise können die Insassen des Fahrzeugs 200 jeweilige Audiosignale hören, die jeder der Insassen hören möchte.
Man bemerke, dass die Zahl und Einbaupositionen der im Fahrgastraum 210 vorgesehenen Richtungslautsprecher 3 nicht auf das Beispiel der 2 beschränkt sind.
Wie in 2 dargestellt wird, ist der Fahrgastraum 210 mit zwei Kameras 4A und 4B und vier Mikrofonen 5A bis 5D ausgestattet. In dem in 2 dargestellten Beispiel befindet sich die Kamera 4A in der Nähe eines Handschuhfachs vor dem Beifahrersitz 20B und nimmt den Fahrersitz 20A und den Beifahrersitz 20B auf. Somit werden die auf dem Fahrersitz 20A und dem Beifahrersitz 20B sitzenden Insassen von der Kamera 4A aufgenommen. Die Kamera 4B ist an der Rückseite des Beifahrersitzes 20B angebracht und erfasst die Rücksitze 20C und 20D. Somit werden die Insassen, die auf den Rücksitzen 20C und 20D sitzen, von der Kamera 4B aufgenommen.
Die Kameras 4A und 4B übermitteln Videodaten an die Steuervorrichtung 1, anhand derer identifiziert werden kann, welche der Kameras 4A und 4B das Video aufgenommen hat. Beispielsweise ordnet jede der Kameras 4A und 4B den Videodaten eine Kamera-Identifikationsinformation zur Identifikation der Kamera selbst zu und überträgt die Videodaten an die Steuervorrichtung 1.
Man bemerke, dass die Anzahl und die Einbaupositionen der im Fahrgastraum 210 vorgesehenen Kameras 4 nicht auf das Beispiel von 2 beschränkt sind. Die Einbauposition der Kamera 4 kann eine Position sein, an der ein abzubildendes Körperteil (typischerweise ein Oberkörper) eines abzubildenden Insassen aufgenommen werden kann, und beispielsweise kann die Kamera 4A in der Nähe eines Abschnitts zwischen einem Lenkrad und dem Handschuhfach vorgesehen sein. In einem Fall, in dem eine Kamera mit einem kleinen Bildausschnitt verwendet wird, ist es möglich, vier Kameras 4 vor den jeweiligen Sitzen vorzusehen. Beispielsweise ist es in einem Fall unnötig, die Kamera 4B im Fahrzeug 200 vorzusehen, in dem die Kamera 4A, die in der Nähe eines Teils zwischen dem Lenkrad und dem Handschuhfach vorgesehen ist, aufzunehmende Teilbilder der Insassen aufnehmen kann, die auf den Rücksitzen 20C und 20D sitzen.
In dem in 2 gezeigten Beispiel sind die Mikrofone 5A bis 5D vor den jeweiligen Sitzen angeordnet, während ihre Schallerfassungseinheiten so ausgerichtet sind, dass sie zum jeweiligen Sitz orientiert sind. Insbesondere ist das Mikrofon 5A in der Nähe des Lenkrads vor dem Fahrersitz 20A angeordnet, während seine Schallsammeleinheit so ausgerichtet ist, dass sie zum Fahrersitz 20A orientiert ist. Das Mikrofon 5B befindet sich neben dem Handschuhfach vor dem Beifahrersitz 20B, wobei eine Schallsammeleinheit so ausgerichtet ist, dass sie zum Beifahrersitz 20B orientiert ist. Das Mikrofon 5C ist an der Rückseite des Fahrersitzes 20A vor dem Rücksitz 20C angebracht, wobei seine Schallsammeleinheit so orientiert ist, dass sie zum Rücksitz 20C zeigt. Das Mikrofon 5D ist an der Rückseite des Beifahrersitzes 20B vor dem Rücksitz 20D angeordnet, wobei seine Schallsammeleinheit so ausgerichtet ist, dass sie zum Rücksitz 20D zeigt.
Jedes der Mikrofone 5A bis 5D gemäß der ersten Ausführungsform hat eine Richtcharakteristik in seinem Schallsammelbereich, so dass nur Audiosignale erfasst werden, die von einem Insassen abgegeben werden, der auf einem Sitz sitzt, auf den die Schallsammeleinheit orientiert ist. Insbesondere hat jedes der Mikrofone 5A bis 5D eine hohe Schallsammelempfindlichkeit in einem Bereich von der Schallsammeleinheit bis zu dem Sitz, auf den die Schallsammeleinheit ausgerichtet ist (also dem vor der Schallsammeleinheit), und eine geringe Schallsammelempfindlichkeit in den anderen Bereichen. Somit erfasst das Mikrofon 5A nur die Audiosignale, die von dem Insassen auf dem Fahrersitz 20A aus den Insassen des Fahrzeugs 200 abgegeben werden. Das Mikrofon 5B erfasst von den Insassen des Fahrzeugs 200 nur die Audiosignale, die von dem auf dem Beifahrersitz 20B sitzenden Insassen abgegeben werden. Das Mikrofon 5C erfasst von den Insassen des Fahrzeugs 200 nur die Audiosignale, die von dem auf dem Rücksitz 20C sitzenden Insassen abgegeben werden. Das Mikrofon 5C erfasst von den Insassen des Fahrzeugs 200 nur die Audiosignale, die von dem Insassen auf dem Rücksitz 20D abgegeben werden.
Jedes der Mikrofone 5A bis 5D überträgt ein Audiosignal an die Steuervorrichtung 1, anhand dessen identifiziert werden kann, welches der Mikrofone 5A bis 5D das Audiosignal aufgenommen hat. Beispielsweise verknüpft jedes der Mikrofone 5A bis 5D Mikrofon-Identifikationsinformationen zur Identifizierung des Mikrofons selbst mit einem Audiosignal und überträgt das Audiosignal an die Steuervorrichtung 1.
Man bemerke, dass die Anzahl und die Einbaupositionen der im Fahrgastraum 210 vorgesehenen Mikrofone 5 nicht auf das Beispiel von 2 beschränkt sind. So ist es beispielsweise möglich, an einer geeigneten Position im Fahrzeug 200 (z.B. an der Position des Punktes O in 2) ein Mikrofon vorzusehen, das einen Schallsammelbereich aufweist, der den gesamten Fahrgastraum 210 abdeckt, solange eine Richtung erkannt werden kann, in die bzw. aus der der Ton abgestrahlt wird. Im Beispiel von 2 sind die Mikrofone 5 vor den jeweiligen Sitzen angeordnet, um die Zuordnung zwischen dem Mikrofon 5 und dem Sitz anzugeben. Das Mikrofon 5 ist jedoch vorzugsweise an einer Position vorgesehen, an der das Mikrofon 5 nicht die vom Richtungslautsprecher 3 ausgegebenen Audiosignale aufnimmt, sondern korrekterweise nur das Audiosignal einer Äußerung des Benutzers, der auf dem jeweiligen Sitz Platz genommen hat.
Die Audioquellen 2 im Beispiel von 2 umfassen ein Informationsterminal, das in den Fahrgastraum 210 gebracht werden kann, und eine fahrzeugeigene Audioquelle, die vorab im Fahrgastraum 210 installiert wird. Spezifische Beispiele für die fahrzeuginterne Audioquelle sind unter anderem ein fahrzeuginternes Radio, ein fahrzeuginterner Fernseher, ein fahrzeuginternes Multimediasystem und dergleichen.
In der ersten Ausführungsform wird davon ausgegangen, dass die Steuervorrichtung 1 im Fahrzeug 200 vorgesehen ist. Die Einbauposition der Steuervorrichtung 1 im Fahrzeug 200 ist nicht besonders eingeschränkt, solange die Steuervorrichtung 1 mit den Audioquellen 2, den Richtungslautsprechern 3, den Kameras 4 und den Mikrofonen 5 kommunikationsfähig verbindbar ist. Solange die Steuervorrichtung 1 mit den Audioquellen 2, den Richtungslautsprechern 3, den Kameras 4 und den Mikrofonen 5 kommunikationsfähig verbindbar ist, kann die Steuervorrichtung 1 an einer anderen Stelle als dem Fahrzeug 200 bereitgestellt werden. Zum Beispiel kann die Steuervorrichtung 1 in einer Servervorrichtung in einem Netzwerk bereitgestellt werden, das kommunikationsfähig mit dem Fahrzeug 200 verbunden ist.
(Einzelheiten der Steuervorrichtung 1)
Unter erneuter Bezugnahme auf 1 werden Einzelheiten der Steuervorrichtung 1 erläutert. Die Steuervorrichtung 1 umfasst eine Videoerkennungseinheit 11, eine Audioerkennungseinheit 12, eine Erfassungseinheit 13, eine Identifizierungseinheit 14, eine Ausgabesteuereinheit 15, eine Speichereinheit 16 und eine Kommunikationseinheit 17. Nachfolgend wird ein Beispiel beschrieben, bei dem das Audioausgabesystem 100 gemäß der ersten Ausführungsform in dem in 2 dargestellten Fahrzeug 200 eingesetzt wird. Das heißt, in der folgenden Beschreibung ist ein Benutzer des Audioausgabesystems 100 ein Insasse des Fahrzeugs 200.
Die Speichereinheit 16 speichert verschiedene Arten von Daten, die von der Steuervorrichtung 1 verwendet werden. Wie in 1 dargestellt wird, speichert die Speichereinheit 16 zumindest eine Audioquelleneinstellung 161. Die Speichereinheit 16 kann als eine externe Speichervorrichtung implementiert sein, auf die die Steuervorrichtung 1 zugreifen kann.
Die Kommunikationseinheit 17 empfängt Informationen von einem Informationsterminal, das als eine Audioquelle 2 wirkt. Ein Beispiel für die Informationen sind Informationen über die Ausrichtung des Informationsterminals (im Folgenden als „Orientierungsinformationen“ bezeichnet). Die Orientierungsinformationen werden später erläutert. Die Kommunikationseinheit 17 kann eine Funktion zur Übertragung von Informationen an das Informationsterminal aufweisen. Die Kommunikationseinheit 17 kann Informationen mit einer anderen Audioquelle 2 als dem Informationsterminal austauschen.
Die Videoerkennungseinheit 11 führt einen Vorgang zum Erkennen eines von der Kamera 4 aufgenommenen Videos durch. Die Videoerkennungseinheit 11 umfasst eine Bewegungserkennungseinheit 111, eine Blickrichtungserkennungseinheit 112 und eine Terminalerkennungseinheit 113. Die Videoerkennungseinheit 11 gibt an die Erfassungseinheit 13 ein Erkennungsergebnis des Videos zusammen mit Kameraidentifikationsinformationen aus, die mit den erhaltenen Videodaten verknüpft sind.
Die Bewegungserkennungseinheit 111 erkennt eine Bewegung eines Körperteils eines Insassen, die im Video erscheint. Die Bewegung des Körperteils kann mit Hilfe einer herkömmlichen Technik erkannt werden, weshalb hier auf eine genaue Beschreibung verzichtet wird. Beispielsweise erkennt die Bewegungserkennungseinheit 111 eine Bewegung eines Körperteils eines Insassen anhand eines Bewegungsableitungsmodells, um die Bewegung des Körperteils aus den Videodaten abzuleiten, die den Körperteil zeigen. Das Bewegungsinferenzmodell kann in der Speichereinheit 16 gespeichert sein.
Die Blickrichtungserkennungseinheit 112 erkennt eine in einem Video auftretende Blickrichtung eines Insassen, also eine Richtung, in die der Insasse blickt. Die Blickrichtung kann mit Hilfe einer herkömmlichen Technik erkannt werden, weshalb hier auf eine genaue Beschreibung verzichtet wird. Zum Beispiel erkennt die Blickrichtungserkennungseinheit 112 die Blickrichtung eines Insassen anhand eines Blickrichtungsableitungsmodells, um die Blickrichtung aus den Videodaten abzuleiten, die das Auge zeigen. Das Blickrichtungsinterferenzmodell kann in der Speichereinheit 16 oder in einer anderen Vorrichtung gespeichert sein, die kommunikationsfähig mit der Steuervorrichtung 1 verbunden ist.
Die Terminalerkennungseinheit 113 erkennt eine Bewegung und eine Orientierung eines Informationsterminals, das auf einem Video erscheint. Diese Erkennungen durch das Informationsterminal können mit Hilfe einer konventionellen Technik erreicht werden, weshalb hier auf eine genaue Erläuterung verzichtet wird. Beispielsweise erkennt die Terminalerkennungseinheit 113 die Bewegung und die Ausrichtung des Informationsterminals anhand eines Terminalinferenzmodells zum Ableiten einer Bewegung und einer Ausrichtung eines Informationsterminals aus Videodaten, auf denen das Informationsterminal erscheint. Das Terminalinferenzmodell kann in der Speichereinheit 16 oder in einer anderen Vorrichtung gespeichert sein, die kommunikativ mit der Steuervorrichtung 1 verbunden ist.
Die Terminalerkennungseinheit 113 kann eine Orientierung eines Informationsterminals basierend auf Orientierungsinformationen erkennen, die in Echtzeit vom Informationsterminal über die Kommunikationseinheit 17 empfangen werden. Bei der Orientierungsinformation handelt es sich um mindestens entweder Trägheitsinformationen oder Funkfeldintensitätsinformationen. Bei den Trägheitsinformationen handelt es sich beispielsweise um Informationen, die von einem im Informationsterminal vorhandenen Trägheitssensor gemessen werden. Beispiele für den Trägheitssensor sind unter anderem ein 3-Achsen-Beschleunigungssensor, ein 3-Achsen-Winkelgeschwindigkeitssensor, ein 3-Achsen-Orientierungssensor und ein 9-Achsen-Sensor mit einer Kombination von diesen. Die Funkfeldintensitätsinformationen sind Informationen, die die Signalstärke (Received Signal Strength Indicator (RSSI)) einer drahtlosen Verbindung wie z.B. einer Bluetooth-Verbindung anzeigen.
Die Kameras 4 weisen Funktionen auf, die für die Erkennung einer Bewegung eines Körperteils, die Erkennung einer Blickrichtung und die Erkennung einer Bewegung und einer Orientierung eines Informationsterminals erforderlich sind. In einem Fall, in dem beispielsweise ein Infrarotbild zur Erkennung einer Blickrichtung benötigt wird, arbeitet die Kamera 4 als Infrarotkamera.
Die Audioerkennungseinheit 12 führt einen Audioerkennungsprozess für Audiosignale durch, die vom Mikrofon 5 erfasst wurden. Genauer gesagt wandelt die Audioerkennungseinheit 12 ein vom Mikrofon 5 erhaltenes Audiosignal in Textdaten um und gibt die Textdaten an die Erfassungseinheit 13 aus. Der Audioerkennungsprozess kann mit einer herkömmlichen Technik durchgeführt werden, weshalb hier auf eine genaue Erläuterung verzichtet wird. Zum Beispiel führt die Audioerkennungseinheit 12 den Audioerkennungsprozess anhand eines Audioerkennungsmodells durch. Das Audioerkennungsmodell umfasst ein akustisches Modell, ein Aussprachewörterbuch und ein linguistisches Modell. Die Audioerkennungseinheit 12 gibt ein akustisch analysiertes Audiosignal in das Audioerkennungsmodell ein, um ein Erkennungsergebnis zu erhalten, also Textdaten, die aus dem Audiosignal umgewandelt werden. Das Audioerkennungsmodell kann durch eine herkömmliche Deep-Learning-Technik erzeugt werden. Das Audioerkennungsmodell kann in der Speichereinheit 16 oder in einer anderen Vorrichtung gespeichert werden, die kommunikationsfähig mit der Steuervorrichtung 1 verbunden ist.
Basierend auf den Textdaten, die sie als das Ergebnis der Audioerkennung erhalten hat, bestimmt die Audioerkennungseinheit 12, ob es sich bei den gesammelten Audiosignale um eine Äußerung handelt oder nicht. Wird festgestellt, dass es sich bei den Audiosignale um eine Äußerung handelt, gibt die Audioerkennungseinheit 12 die Textdaten zusammen mit Mikrofonidentifikationsinformationen, die dem erhaltenen Audiosignal zugeordnet sind, an die Erfassungseinheit 13 aus. In einem Fall, in dem es sich bei dem Audiosignal nicht um eine Äußerung handelt, beendet die Audioerkennungseinheit 12 den Ablauf, ohne die Textdaten an die Erfassungseinheit 13 auszugeben. Man bemerke, dass die Audioerkennungseinheit 12 ein Ergebnis der Bestimmung, ob es sich bei dem Audiosignal um eine Äußerung handelt oder nicht, sowohl aus dem Audioerkennungsmodell als auch aus dem Audioerkennungsergebnis erhalten kann. Anders gesagt kann die Bestimmung, ob ein Audiosignal eine Äußerung ist oder nicht, durch das Audioerkennungsmodell erfolgen. Beispiele für Audiosignale, bei denen es sich nicht um eine Äußerung handelt, sind unter anderem Geräusche, die im Fahrgastraum 210 erzeugt werden, und dergleichen.
Die vorstehend erläuterte „andere Vorrichtung, die kommunikationsfähig mit der Steuervorrichtung 1 verbunden ist,“ kann beispielsweise als Cloud-Server implementiert sein.
Die Erfassungseinheit 13 erfasst eine das Teilen auslösende Spracheingabe/Bewegung eines Insassen, der sich in einem Ausgabezielraum des Richtungslautsprechers 3 befindet. Der Ausgabezielraum ist ein Raum, in dem der Richtungslautsprecher 3 Audiosignale ausgibt. Das heißt, die Erfassungseinheit 13 gemäß der ersten Ausführungsform erfasst eine das Teilen einleitende Spracheingabe/Bewegung eines Insassen, der sich im Fahrgastraum 210 befindet.
Die Erfassungseinheit 13 erfasst eine vorab festgelegte Handlung eines Insassen als die das Teilen einleitende Spracheingabe/Bewegung von einem durch die Kamera 4 aufgenommenen Bild. Die vorab festgelegte Handlung ist zumindest ein Teil der Spracheingabe/Bewegung zum Einleiten des Teilens. Insbesondere bestimmt die Erfassungseinheit 13 basierend auf einem Erkennungsergebnis, das von einem von der Kamera 4 aufgenommenen Video stammt und von der Videoerkennungseinheit 11 erhalten wird, ob die vorab festgelegte Handlung des Insassen in dem Video ausgeführt wird oder nicht. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass die vorab festgelegte Handlung ausgeführt wird, gibt die Erfassungseinheit 13 das erhaltene Erfassungsergebnis und die Kameraidentifikationsinformation an die Identifizierungseinheit 14 aus. Wenn die Erfassungseinheit 13 dagegen festgestellt hat, dass die vorgegebene Aktion nicht ausgeführt wird, beendet die Erfassungseinheit 13 den Vorgang der Erkennung der Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung. Spezifische Beispiele für die vorab festgelegte Handlung, die von der Erfassungseinheit 13 erfasst wird, werden später erläutert.
Die Erfassungseinheit 13 erfasst eine vorab festgelegte Äußerung des Insassen als die das Teilen einleitende Spracheingabe/Bewegung aus den vom Mikrofon 5 aufgenommenen Audiosignalen. Die vorab festgelegte Äußerung ist zumindest ein Teil der Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung. Insbesondere bestimmt die Erfassungseinheit 13 basierend auf Textdaten, die von der Audioerkennungseinheit 12 erhalten wurden und ein Erkennungsergebnis der vom Mikrofon 5 aufgenommenen Audiosignale sind, ob es sich bei den Audiosignalen um die vorab festgelegte Äußerung handelt oder nicht. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass es sich bei den Audiosignalen um die vorab festgelegte Äußerung handelt, gibt die Erfassungseinheit 13 die erhaltenen Textdaten und Mikrofonidentifikationsinformationen an die Identifizierungseinheit 14 aus. Wenn die Erfassungseinheit 13 festgestellt hat, dass es sich bei den Audiosignalen nicht um die vorab festgelegte Äu-ßerung handelt, beendet die Erfassungseinheit 13 dagegen den Vorgang zum Erfassen der Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung. Spezifische Beispiele der vorab festgelegten Äußerung, die von der Erfassungseinheit 13 erfasst wird, werden später erläutert.
In der ersten Ausführungsform wird davon ausgegangen, dass die Spracheingabe/Bewegung zum Auslösen des Teilens durch eine Vielzahl von vorab festgelegten Aktionen (ausgenommen eine Äußerung) gebildet wird, die in einer vorab festgelegten Reihenfolge ausgeführt werden, oder durch eine Vielzahl von vorab festgelegten Äußerungen (ausgenommen eine Bewegung) gebildet wird, die in einer vorab festgelegten Reihenfolge erfolgen. Anders gesagt gibt die Erfassungseinheit 13 das Erkennungsergebnis der Video- und Kameraidentifikationsinformationen oder das Audioerkennungsergebnis (Textdaten) und Mikrofonidentifikationsinformationen an die Identifizierungseinheit 14 aus. Man beachte, dass die „vorab festgelegte Reihenfolge“ bedeutet, dass zuerst eine vorab festgelegte Handlung oder eine vorab festgelegte Äußerung zur Initiierung des Teilens von Audiosignalen ausgeführt wird und dann eine vorab festgelegte Handlung oder eine vorab festgelegte Äußerung zur Annahme des Teilens der Audiosignale ausgeführt wird.
Die Identifizierungseinheit 14 identifiziert eine interessierende Audioquelle unter den Audioquellen 2 und einen zu steuernden Richtungslautsprecher 3 passend zur erfassten Spracheingabe/Bewegung zum Auslösen des Teilens. Die Identifizierungseinheit 14 umfasst eine Audioquellenerkennungseinheit 141 und eine Lautsprechererkennungseinheit 142.
Die Audioquellenerkennungseinheit 141 identifiziert die interessierende Audioquelle passend zur erfassten Spracheingabe/Bewegung zum Auslösen des Teilens. Insbesondere erhält die Audioquellenerkennungseinheit 141 das Erkennungsergebnis der Video- und Kamera-Identifizierungsinformationen oder das Audio-Erkennungsergebnis (Textdaten) und Mikrofon-Identifizierungsinformationen von der Erfassungseinheit 13, und identifiziert die interessierende Audioquelle basierend auf den erhaltenen Daten und der in der Speichereinheit 16 gespeicherten Audioquelleneinstellung 161.
3 ist ein Schaubild, das ein spezielles Beispiel für die Audioquelleneinstellung 161 zeigt. Die Audioquelleneinstellung 161 ist eine Information, die eine Kombination aus einer Audioquelle 2 und einem Richtungslautsprecher 3 angibt, der von der Audioquelle 2 bereitgestellte Audiosignale ausgibt. In 3 ist die Audioquelleneinstellung 161 eine Datenbank in Form einer Tabelle. Ein Datenformat der Audioquelleneinstellung 161 ist jedoch nicht auf dieses Beispiel beschränkt.
3 veranschaulicht die Audioquelleneinstellungen 161A und 161B als Beispiele für die Audioquelleneinstellung 161. Die Audioquelleneinstellung 161A ist die Audioquelleneinstellung 161, bevor die Identifizierungseinheit 14 den Prozess durchführt. Die Audioquelleneinstellung 161B ist die Audioquelleneinstellung 161, nachdem die Identifizierungseinheit 14 den Prozess durchgeführt hat.
In einer Spalte „Lautsprecher“ werden Informationen über die im Fahrgastraum 210 eingebauten Richtungslautsprecher 3 gespeichert. In dem Beispiel von 3 werden Informationen, die die jeweiligen Richtungslautsprecher 3A bis 3D angeben, in entsprechenden Datensätzen gespeichert. Nachfolgend werden die in der Spalte „Lautsprecher“ gespeicherten Informationen manchmal als „Lautsprecherinformationen“ bezeichnet. In der Spalte „Audioquelle“ werden Informationen über die Audioquellen 2 gespeichert, die die von den Richtungslautsprechern 3 ausgegebenen Audiosignale bereitstellen. Nachfolgend werden die in der Spalte „Audioquelle“ gespeicherten Informationen manchmal als „Audioquelleninformationen“ bezeichnet.
Gemäß der Audioquelleneinstellung 161A gibt der Richtungslautsprecher 3A Audiosignale aus, die von der Audioquelle 2A bereitgestellt werden, die ein fahrzeuginternes Radio ist. Der Richtungslautsprecher 3B gibt das von der Audioquelle 2B, einer tragbaren Spielekonsole, bereitgestellte Audiosignal aus. Der Richtungslautsprecher 3C gibt das von der Audioquelle 2C, einem Smartphone, bereitgestellte Audiosignal aus. Der Richtungslautsprecher 3D gibt das von der Audioquelle 2D, einem Smartphone, bereitgestellte Audiosignal aus. Man bemerke, dass eine Spalte „Teilungssteuerung“ und eine Spalte „Audioquelle vor dem Teilen“ später erläutert werden.
Wiederum mit Bezug auf 1 wird die Audioquellenerkennungseinheit 141 erläutert. Zunächst wird ein Fall beschrieben, in dem ein Insasse durch eine vorab festgelegte Handlung eine Spracheingabe/Bewegung zum Auslösen des Teilens durchgeführt hat, so dass die Identifizierungseinheit 14 ein Erkennungsergebnis einer Video- und Kameraidentifikationsinformation erhält. Basierend auf den erhaltenen Kameraidentifikationsinformationen identifiziert die Audioquellenerkennungseinheit 141 eine Kamera 4, die das Video aufgenommen hat. Anschließend identifiziert die Audioquellenerkennungseinheit 141 basierend auf dem Identifizierungsergebnis der Kamera 4 und dem Erfassungsergebnis aus dem Video einen Raum, in dem sich der Insasse befindet, der das Teilen von Spracheingabe/Bewegung initiiert hat. Das heißt, dieser Raum ist ein Ausgabezielraum eines Richtungslautsprechers 3, der Audiosignale ausgibt, die der Insasse hört, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat. In der ersten Ausführungsform erkennt die Audioquellenerkennungseinheit 141 den Raum, indem sie einen Sitz identifiziert, auf dem der Insasse sitzt, der die Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung initiiert hat. Als Nächstes identifiziert die Audioquellenerkennungseinheit 141 basierend auf dem Identifizierungsergebnis des Sitzes einen Richtungslautsprecher 3, der im Sitz eingebaut ist. Anschließend identifiziert die Audioquellenerkennungseinheit 141 basierend auf dem Identifizierungsergebnis des Richtungslautsprechers 3 und der Audioquelleneinstellung 161 eine Audioquelle 2, die für den Richtungslautsprecher 3 eingestellt ist.
In einem Fall, in dem zum Beispiel ein auf dem Rücksitz 20D sitzender Insasse der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und ein Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens eingerichtet hat, erkennt die Audioquellenerkennungseinheit 141, dass die Kamera 4B das Video aufgenommen hat, und erkennt, dass der Insasse, welcher der Benutzer ist, der die Spracheingabe/Bewegung zum Einleiten des Teilens initiiert hat, auf dem Rücksitz 20D sitzt. Anschließend identifiziert die Audioquellenerkennungseinheit 141 den Richtungslautsprecher 3D, der im Rücksitz 20D vorgesehen ist, und erkennt basierend auf der Audioquelleneinstellung 161A die Audioquelle 2D, die für den Richtungslautsprecher 3D eingestellt ist.
Als Nächstes wird ein Fall beschrieben, in dem ein Insasse eine Spracheingabe/Bewegung zum Auslösen des Teilens durchgeführt hat, die durch eine vorab festgelegte Äußerung gebildet wird, und somit die Identifizierungseinheit 14 ein Audioerkennungsergebnis und Mikrofonidentifikationsinformationen erhält. Basierend auf den erhaltenen Mikrofonidentifikationsinformationen erkennt die Audioquellenerkennungseinheit 141 ein Mikrofon 5, das den Ton aufgenommen hat. Als Nächstes erkennt die Audioquellenerkennungseinheit 141 basierend auf dem Identifizierungsergebnis des Mikrofons 5 und dem Audioerkennungsergebnis einen Sitz, auf dem der Insasse sitzt, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und identifiziert somit einen Raum, in dem sich der Insasse befindet. Als Nächstes erkennt die Audioquellenerkennungseinheit 141 basierend auf dem Identifikationsergebnis des Sitzes einen Richtungslautsprecher 3, der im Sitz eingebaut ist. Anschließend identifiziert die Audioquellenerkennungseinheit 141 basierend auf dem Identifikationsergebnis des Richtungslautsprechers 3 und der Audioquelleneinstellung 161 eine Audioquelle 2, die für den Richtungslautsprecher 3 eingestellt ist.
In einem Fall, in dem zum Beispiel ein Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und ein Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Einleiten des Teilens eingerichtet hat, erkennt die Audioquellenerkennungseinheit 141, dass die Mikrofone 5C und 5D die Audiosignale erfasst haben, und erkennt, dass der Insasse, welcher der Benutzer ist, der die Spracheingabe/ Bewegung zum Einleiten des Teilens initiiert hat, auf dem Rücksitz 20D sitzt. Anschließend erkennt die Audioquellenerkennungseinheit 141 den Richtungslautsprecher 3D, der im Rücksitz 20D vorgesehen ist, und identifiziert basierend auf der Audioquelleneinstellung 161A die Audioquelle 2D, die für den Richtungslautsprecher 3D eingestellt ist.
Die Lautsprechererkennungseinheit 142 identifiziert einen zu steuernden Richtungslautsprecher 3 passend zu der detektierten Spracheingabe/Bewegung zum Auslösen des Teilens. Insbesondere erhält die Lautsprechererkennungseinheit 142 das Erkennungsergebnis der Video- und Kameraidentifikationsinformation oder das Audio-Erkennungsergebnis und die Mikrofonidentifikationsinformation von der Erfassungseinheit 13 und identifiziert einen zu steuernden Richtungslautsprecher 3 basierend auf den erhaltenen Daten.
Zunächst wird ein Fall beschrieben, in dem ein Insasse eine Spracheingabe/Bewegung zum Auslösen des Teilens vorgenommen hat, die durch eine vorab festgelegte Handlung gebildet wird, und somit die Identifizierungseinheit 14 ein Erkennungsergebnis einer Video- und Kameraidentifikationsinformation erhält. Basierend auf den erhaltenen Kameraidentifikationsinformationen identifiziert die Lautsprechererkennungseinheit 142 eine Kamera 4, die das Video aufgenommen hat. Anschließend identifiziert die Lautsprechererkennungseinheit 142 basierend auf dem Identifizierungsergebnis der Kamera 4 und dem Erkennungsergebnis des Videos einen Sitz, auf dem der Insasse sitzt, welcher der Benutzer ist, der die gemeinsame Nutzung der Spracheingabe/Bewegung eingerichtet hat. Die Lautsprechererkennungseinheit 142 identifiziert also unter den Insassen im Video einen Insassen, der eine vorab festgelegte Handlung zum Akzeptieren des Teilens durchgeführt hat, und identifiziert dann einen Sitz, auf dem der Insasse sitzt. Als Nächstes identifiziert die Lautsprechererkennungseinheit 142 basierend auf dem Identifizierungsergebnis für den Sitz einen Richtungslautsprecher 3, der im Sitz eingebaut ist, als ein zu steuerndes Objekt.
In einem beispielhaften Fall, in dem ein Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Einleiten des Teilens ausgelöst hat, und ein Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Einleiten des Teilens eingerichtet bzw. bestätigt hat, erkennt die Lautsprechererkennungseinheit 142, dass die Kamera 4B das Video aufgenommen hat, und erkennt, dass der Insasse, welcher der Benutzer ist, der die Spracheingabe/Bewegung zum Einleiten des Teilens eingerichtet hat, auf dem Rücksitz 20C sitzt. Als Nächstes identifiziert die Lautsprechererkennungseinheit 142 den Richtungslautsprecher 3C, der im Rücksitz 20C eingebaut ist, als ein zu steuerndes Objekt.
Als Nächstes wird ein Fall beschrieben, in dem ein Insasse eine Spracheingabe/Bewegung zum Auslösen des Teilens durchgeführt hat, die aus einer vorab festgelegten Äußerung besteht, und somit die Identifizierungseinheit 14 ein Audioerkennungsergebnis und Mikrofonidentifikationsinformationen erhält. Basierend auf den erhaltenen Mikrofonidentifikationsinformationen identifiziert die Lautsprechererkennungseinheit 142 ein Mikrofon 5, das das Geräusch aufgenommen hat. Anschließend identifiziert die Lautsprechererkennungseinheit 142 basierend auf dem Identifikationsergebnis des Mikrofons 5 und des Audioerkennungsergebnisses einen Sitz, auf dem der Benutzer sitzt, der das Teilen von Sprache und Bewegung eingerichtet hat. Die Lautsprechererkennungseinheit 142 identifiziert also einen Benutzer, der eine vorab festgelegte Äu-ßerung zum Annehmen des Teilens abgegeben hat, und identifiziert dann einen Sitz, auf dem der Benutzer sitzt. Als Nächstes identifiziert die Lautsprechererkennungseinheit 142 basierend auf dem Identifikationsergebnis für den Sitz einen Richtungslautsprecher 3, der in dem Sitz eingebaut ist, als ein zu steuerndes Objekt.
In einem beispielhaften Fall, in dem ein Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und ein Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens eingerichtet hat, erkennt die Lautsprecherkennungseinheit 142, dass das Mikrofon 5C und das Mikrofon 5D die Geräusche aufgenommen haben, und erkennt, dass der Insasse, welcher der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens eingerichtet hat, auf dem Rücksitz 20C sitzt. Als Nächstes erkennt die Lautsprechererkennungseinheit 142 den im Rücksitz 20C eingebauten Richtungslautsprecher 3C als ein zu steuerndes Objekt.
Die Identifizierungseinheit 14 aktualisiert die Spalte „Audioquelle“ der Audioquelleneinstellung 161 basierend auf der identifizierten Audioquelle 2 und dem Richtungslautsprecher 3. In einem Fall beispielsweise, in dem der Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und der Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Einrichten des Teilens ausgeführt hat, werden die Audioquelle 2D und der Richtungslautsprecher 3C wie vorstehend erläutert erkannt. Basierend auf dem Identifikationsergebnis wechselt die Identifizierungseinheit 14 die Audioquelle 2C, die dem Richtungslautsprecher 3C in der Audioquelleneinstellung 161A zugeordnet ist, zur Audioquelle 2D, wie in der Audioquelleneinstellung 161 B gezeigt. Die Identifizierungseinheit 14 benachrichtigt die Ausgabesteuereinheit 15 über die Aktualisierung der Audioquelleneinstellung 161.
Die Identifizierungseinheit 14 aktualisiert die Spalte „Teilungssteuerung“ und die Spalte „Audioquelle vor dem Teilen“ der Audioquelleneinstellung 161. In der Spalte „Teilungssteuerung“ wird ein Flag gespeichert, das anzeigt, ob der Richtungslautsprecher 3 als ein zu steuerndes Objekt identifiziert wird oder nicht. Im Beispiel von 3 ist „0“ ein Flag, das anzeigt, dass der Richtungslautsprecher 3 nicht als zu steuerndes Objekt identifiziert wird, und „1“ ist ein Flag, das anzeigt, dass der Richtungslautsprecher 3 als zu steuerndes Objekt identifiziert wird. Das Flag, das anzeigt, ob der Richtungslautsprecher 3 als zu steuerndes Objekt identifiziert wird oder nicht, ist jedoch nicht auf dieses Beispiel beschränkt. Im Folgenden wird das Flag manchmal als „Teilungssteuerflag“ bezeichnet.
In einem Fall beispielsweise, in dem der Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens initiiert hat, und der Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Spracheingabe/Bewegung zum Auslösen des Teilens eingerichtet hat, ändert die Identifizierungseinheit 14 das Teilungssteuerflag in dem Datensatz, der die Lautsprecherinformation des Richtungslautsprechers 3C enthält, von „0“ auf „1“.
In der Spalte „Audioquelle vor dem Teilen“ werden Informationen gespeichert, die eine Audioquelle 2 angeben, die unmittelbar vor dem Auslösen der Steuerung für den von der Identifizierungseinheit 14 als zu steuerndes Objekt identifizierten Richtungslautsprecher 3 eingestellt war. Wenn ein zu steuernder Richtungslautsprecher 3 von der Identifizierungseinheit 14 erkannt worden ist, werden also Audioquelleninformationen, die vor dieser Identifizierung in der Spalte „Audioquelle“ gespeichert wurden, in der Spalte „Audioquelle vor dem Teilen“ gespeichert. Nachfolgend werden die in der Spalte „Audioquelle vor dem Teilen“ gespeicherten Informationen manchmal als „Informationen über die Audioquelle vor dem Teilen“ bezeichnet.
In einem Fall beispielsweise, in dem der Insasse, der auf dem Rücksitz 20D sitzt, der Benutzer ist, der die Äußerung/Bewegung zum Auslösen des Teilens initiiert hat, und der Insasse, der auf dem Rücksitz 20C sitzt, der Benutzer ist, der die Äußerung/Bewegung zum Auslösen des Teilens eingerichtet hat, wird die Information über die Audioquelle vor dem Teilen, die die Audioquelle 2C angibt, in dem Datensatz gespeichert, der die Lautsprecherinformation des Richtungslautsprechers 3C enthält. Darüber hinaus wird die Information über die Audioquelle vor dem Teilen, die die Audioquelle 2D angibt, in dem Datensatz gespeichert, der die Lautsprecherinformationen des Richtungslautsprechers 3D enthält.
In einem Fall, in dem unmittelbar vor der Einleitung der Steuerung keine Audioquelle 2 für einen Richtungslautsprecher 3 festgelegt ist, der von der Identifizierungseinheit 14 als zu steuerndes Objekt identifiziert wurde, wird die Information über die Audioquelle vor dem Teilen nicht in einem Datensatz gespeichert, der die Lautsprecherinformation dieses Richtungslautsprechers 3 enthält.
Ferner wird in dem in 3 dargestellten Beispiel der Audioquelleneinstellung 161B der Richtungslautsprecher 3A nicht als ein zu steuerndes Objekt in dem Datensatz identifiziert, der Lautsprecherinformationen des Richtungslautsprechers 3A enthält, und der Richtungslautsprecher 3B wird nicht als ein zu steuerndes Objekt in dem Datensatz identifiziert, der Lautsprecherinformationen des Richtungslautsprechers 3B enthält. Daher aktualisiert die Identifizierungseinheit 14 die Information über die Audioquelle vor dem Teilen für diese Datensätze nicht.
Die Ausgabesteuereinheit 15 veranlasst basierend auf der Audioquelleneinstellung 161, dass von einer Audioquelle 2 bereitgestellte Audiosignale von einem der Richtungslautsprecher 3 ausgegeben werden. Das heißt, die Ausgabesteuereinheit 15 veranlasst, dass von einer Audioquelle 2, die von der Identifizierungseinheit 14 identifiziert wurde, abgegebene Audiosignale von jedem der von der Identifizierungseinheit 14 identifizierten Richtungslautsprecher 3 ausgegeben werden. In dem in 3 dargestellten Beispiel der Audioquelleneinstellung 161B bezieht sich die Ausgabesteuereinheit 15 bei Empfang einer Benachrichtigung von der Identifizierungseinheit 14 auf die Audioquelleneinstellung 161B und veranlasst, dass von der Audioquelle 2D bereitgestellte Audiosignale nicht nur vom Richtungslautsprecher 3D, sondern auch vom Richtungslautsprecher 3C ausgegeben wird. So werden die von der Audioquelle 2D bereitgestellten Audiosignale von den Insassen geteilt, die auf den jeweiligen Rücksitzen 20C und 20D sitzen.
Man bemerke, dass ein Verfahren, das bewirkt, dass von einer durch die Identifizierungseinheit 14 identifizierten Audioquelle 2 bereitgestellte Audiosignale von einem durch die Identifizierungseinheit 14 identifizierten Richtungslautsprecher 3 ausgegeben werden, nicht besonders eingeschränkt ist. So ist es beispielsweise möglich, dass die Ausgabesteuereinheit 15 die derzeitige Kopplung des Richtungslautsprechers 3 mit einer Audioquelle 2 aufhebt und die identifizierte Audioquelle 2 mit dem identifizierten Richtungslautsprecher 3 koppelt. Alternativ ist es beispielsweise möglich, dass die Ausgabesteuereinheit 15 bewirkt, dass von der identifizierten Audioquelle 2 bereitgestellte Audiosignale vom identifizierten Richtungslautsprecher 3 ausgegeben werden, indem Audiosignale von einem Richtungslautsprecher 3, mit dem die identifizierte Audioquelle 2 gekoppelt ist, an den identifizierten Richtungslautsprecher 3 übertragen werden.
(Ablauf des Teilungsvorgangs)
4 ist ein Ablaufplan, der ein Beispiel für den Ablauf eines Teilungsvorgangs zeigt, der von der Steuervorrichtung 1 durchgeführt wird. In einem Schritt S1 empfängt die Videoerkennungseinheit 11 Videosignale von der Kamera 4. In einem Schritt S2 erkennt die Videoerkennungseinheit 11 eine Bewegung eines Körperteils eines Insassen, der auf dem Video erscheint, sowie eine Bewegung und eine Ausrichtung eines Informationsterminals. Die Bewegung des Körperteils umfasst eine Änderung der Blickrichtung des Insassen. Die Videoerkennungseinheit 11 gibt an die Erfassungseinheit 13 ein Ergebnis dieses Erkennungsvorgangs und Kameraidentifikationsinformationen aus, die mit den erhaltenen Videodaten verknüpft sind.
In einem Schritt S3 erhält die Audioerkennungseinheit 12 ein Audiosignal vom Mikrofon 5. In einem Schritt S4 führt die Audioerkennungseinheit 12 eine Audioerkennung und ein Bestimmen einer Äußerung durch. In einem Fall, in dem die Audioerkennungseinheit 12 festgestellt hat, dass es sich bei dem durch das erhaltene Audiosignal angegebene Geräusch um eine Äußerung handelt, gibt die Audioerkennungseinheit 12 das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen, die dem erhaltenen Audiosignal zugeordnet sind, an die Erfassungseinheit 13 aus.
In einem Schritt S5 (Erfassungsschritt) erfasst die Erfassungseinheit 13 eine Spracheingabe/Bewegung zum Auslösen eines Teilens. Die Erfassungseinheit 13 bestimmt basierend auf dem erhaltenen Erkennungsergebnis des Videos und dem erhaltenen Audioerkennungsergebnis, ob die Spracheingabe/Bewegung zum Auslösen des Teilens vorgenommen wurde oder nicht. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass die Spracheingabe/Bewegung zum Auslösen des Teilens vorgenommen wurde (JA in Schritt S5), gibt die Erfassungseinheit 13 das erhaltene Erkennungsergebnis des Videos und die erhaltenen Kameraidentifikationsinformationen oder das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen an die Identifizierungseinheit 14 aus. Dann wird der Teilungsvorgang mit einem Schritt S6 fortgesetzt. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass die Spracheingabe/Bewegung zum Auslösen des Teilens nicht durchgeführt wurde (NEIN im Schritt S5), kehrt der Teilungsvorgang zu Schritt S1 zurück.
In Schritt S6 (Erkennungsschritt) erkennt die Audioquellenerkennungseinheit 141 eine zu teilende Audioquelle 2. Insbesondere identifiziert die Identifizierungseinheit 14 eine solche Audioquelle 2 basierend auf den von der Erfassungseinheit 13 erhaltenen Daten und der Audioquelleneinstellung 161.
In einem Schritt S7 (Identifizierungsschritt) identifiziert die Lautsprechererkennungseinheit 142 einen zu steuernden Richtungslautsprecher 3. Genauer gesagt identifiziert die Lautsprechererkennungseinheit 142 den Richtungslautsprecher 3 basierend auf den von der Erfassungseinheit 13 erhaltenen Daten. Die Identifizierungseinheit 14 aktualisiert die Audioquelleneinstellung 161 basierend auf der identifizierten Audioquelle 2 und dem identifizierten Richtungslautsprecher 3 und benachrichtigt die Ausgabesteuereinheit 15 über die Aktualisierung.
In einem Schritt S8 (Ausgabesteuerschritt) veranlasst die Ausgabesteuereinheit 15 den identifizierten Richtungslautsprecher 3 zur Ausgabe von Audiosignalen, die von der identifizierten Audioquelle 2 bereitgestellt werden. Genauer gesagt bezieht sich die Ausgabesteuereinheit 15 nach Erhalt der Nachricht von der Identifizierungseinheit 14 auf die Audioquelleneinstellung 161. In der Audioquelleneinstellung 161 wird die identifizierte Audioquelle 2 durch die Aktualisierung der Audioquelleneinstellung 161 dem identifizierten Richtungslautsprecher 3 zugeordnet. Daher kann die Ausgabesteuereinheit 15 den identifizierten Richtungslautsprecher 3 dazu veranlassen, von der identifizierten Audioquelle 2 bereitgestellte Audiosignale auszugeben. So wird der Teilungsvorgang abgeschlossen.
In einem Fall, in dem im Fahrgastraum 210 keine Audiosignale erzeugt werden, entfallen die Abläufe der Schritte S3 und S4. In einem Fall, in dem die Audioerkennungseinheit 12 in Schritt S4 festgestellt hat, dass es sich bei dem im Fahrgastraum 210 erzeugten Geräusch nicht um eine Äußerung handelt, überträgt die Audioerkennungseinheit 12 das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen nicht an die Erfassungseinheit 13.
(Spezifisches Beispiel 1 für die Spracheingabe/Bewegung zum Auslösen des Teilens)
5 ist ein Schaubild, das ein spezifisches Beispiel für eine Spracheingabe/Bewegung zum Auslösen des Teilens zeigt, die im Fahrgastraum 210 vorgenommen wird. Die in 5 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens wird durch eine vorab festgelegte Handlung gebildet und umfasst eine Bewegung eines Körperteils eines Insassen, die darin besteht, eine Position eines Informationsterminals, das als Audioquelle 2 arbeitet, auf einem vorab festgelegten Weg zu bewegen. Genauer gesagt wird die in 5 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens durch die nachstehend erläuterten vorab festgelegten Handlungen gebildet. Die in 5 dargestellte Audioquelle 2D ist ein Smartphone mit einer Anzeigeeinheit. (1) Ein Insasse 90D, der sich in einem Abgabezielraum des Richtungslautsprechers 3D befindet, der mit der Audioquelle 2D verknüpft ist, bringt die Audioquelle 2D näher zu einem Insassen 90C, der sich in einem Abgabezielraum des Richtungslautsprechers 3C befindet, der nicht mit der Audioquelle 2D verknüpft ist. (2) Der Insasse 90D schaut auf eine Anzeigeeinheit der Audioquelle 2D. (3) Der Insasse 90C schaut auf die Anzeigeeinheit der Audioquelle 2D.
Hier werden jeweils die Abgabezielräume der Richtungslautsprecher 3C und 3D in den Rücksitzen 20C und 20D gebildet. Die Reihenfolge der vorab festgelegten Handlungen (2) und (3) ist nicht besonders eingeschränkt, solange diese Handlungen nach der vorab festgelegten Handlung (1) ausgeführt werden.
Die Erfassungseinheit 13 erkennt eine Spracheingabe/Bewegung zum Auslösen des Teilens, indem sie die folgenden Elemente aus einem Erfassungsergebnis eines Videos erfasst. (A) Eine Bewegung der Hand des Insassen 90D, der die Audioquelle 2D hält, ist eine Bewegung der Annäherung an den Insassen 90C. (B) Die Anzeigeeinheit der Audioquelle 2D ist den Insassen 90C und 90D zugewandt. (C) Die Blickrichtungen der Insassen 90C und 90D sind auf die Audioquelle 2D gerichtet.
Die Erfassungseinheit 13 erfasst den vorstehend erwähnten Punkt (A) aus einem Erkennungsergebnis der Bewegungserkennungseinheit 111 und einem Erkennungsergebnis der Terminalerkennungseinheit 113 (also einem Ergebnis der Erkennung einer Bewegung des Informationsterminals). Die Erfassungseinheit 13 erfasst den vorstehend erwähnten Punkt (B) anhand eines Erkennungsergebnisses der Terminalerkennungseinheit 113 (d.h. eines Ergebnisses der Erkennung einer Ausrichtung des Informationsterminals). Die Erfassungseinheit 13 erfasst den vorstehend erwähnten Punkt (C) anhand eines Erkennungsergebnisses der Blickrichtungserkennungseinheit 112.
In einem Fall, in dem alle der vorstehend genannten Punkte (A) bis (C) erfasst wurden, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Auslösen des Teilens erkannt wurde, und gibt das Erkennungsergebnis der Video- und Kameraidentifikationsinformationen an die Identifizierungseinheit 14 aus. In einem Fall, in dem einer der Punkte (A) bis (C) nicht erfasst wurde, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Auslösen des Teilens nicht erkannt wurde, und gibt das Erkennungsergebnis der Video- und Kameraidentifikationsinformationen nicht an die Identifizierungseinheit 14 aus. Wenn beispielsweise die Blickrichtung des Insassen 90C nicht auf die Audioquelle 2D gerichtet ist, gibt die Erfassungseinheit 13 das Erkennungsergebnis der Video- und Kameraidentifikationsinformationen nicht an die Identifizierungseinheit 14 aus. In einem Fall, in dem alle Punkte (A) bis (C) erfasst wurden, identifiziert die Identifizierungseinheit 14 auf der Grundlage des Erkennungsergebnisses der Video- und Kameraidentifikationsinformationen eine interessierende Audioquelle 2 und einen zu steuernden Richtungslautsprecher 3. Währenddessen erkennt die Identifizierungseinheit 14 in einem Fall, in dem einer der Punkte (A) bis (C) nicht erkannt wurde, keine interessierende Audioquelle 2 und keinen zu steuernden Richtungslautsprecher 3. In einem Fall, in dem (i) der Insasse 90D die Audioquelle 2D näher an den Insassen 90C gebracht hat, während die Anzeigeeinheit der Audioquelle 2D zum Insassen 90D zeigt, und (ii) die Blickrichtung des Insassen 90C auf die Audioquelle 2D gerichtet ist, identifiziert die Identifizierungseinheit 14 also eine interessierende Audioquelle 2 und einen zu steuernden Richtungslautsprecher 3. Währenddessen identifiziert die Identifizierungseinheit 14 in einem Fall, in dem die Blickrichtung des Insassen 90C nicht auf die Audioquelle 2D gerichtet ist, keine interessierende Audioquelle 2 und keinen zu steuernden Richtungslautsprecher 3.
Die vorab festgelegten Handlungen, welche die das Teilen auslösende Spracheingabe/Bewegung bilden, sind nicht auf die vorstehend erläuterten vorab festgelegten Handlungen (1) bis (3) beschränkt. Beispielsweise kann die vorab festgelegte Aktion nur die vorstehend erläuterten Handlungen (1) und (3) umfassen. Das heißt, die vorab festgelegte Handlung muss nicht die Aktion umfassen, bei der der Insasse 90D auf die Anzeigeeinheit des Informationsterminals blickt. In diesem Fall erkennt die Erfassungseinheit 13 die folgenden Aktionen (B') und (C') anstelle der vorstehend erläuterten Aktionen (B) und (C). (B') Die Anzeigeeinheit der Audioquelle 2D zeigt zum Insassen 90D. (C') Es wird erkannt, dass die Blickrichtung des Insassen 90D auf die Audioquelle 2D gerichtet ist.
Alternativ kann die vorstehend erläuterte Handlung (2) in den vorab festgelegten Aktionen, welche die das Teilen auslösende Spracheingabe/Bewegung bilden, eine Handlung sein, auf etwas/jemanden anderes als das Informationsterminal zu blicken. Beispielsweise kann die Handlung (2) eine Aktion sein, bei der der Insasse 90D den Insassen 90C ansieht. In diesem Beispiel erfasst die Erfassungseinheit 13 die Handlungen (A) und (B') und erkennt, dass die Blickrichtung des Insassen 90D auf den Insassen 90C gerichtet ist.
Die in 5 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens ist eine Aktion der Insassen 90C und 90D, bei der der Insasse 90D, der den von der Audioquelle 2D über den Richtungslautsprecher 3D bereitgestellten Ton hört, dem Insassen 90C empfiehlt, den Ton zu hören, und der Insasse 90C die Empfehlung annimmt. Anders gesagt können die Insassen im Fahrzeug 200 Audiosignale teilen, indem sie mit allgemeinen Handlungen zur gemeinsamen Nutzung von Audiosignalen durch mehrere Personen veranlassen, dass von derselben Audioquelle 2 bereitgestellte Audiosignale von den Richtungslautsprechern 3 ausgegeben werden, die in den Sitzen vorgesehen sind, auf denen sich die jeweiligen Insassen befinden. Infolgedessen können die Insassen im Fahrzeug 200 Audio-Sharing ohne einen Eingabevorgang an einer Benutzerschnittstelle für das Teilen von Audiosignalen erzielen, und dies macht es möglich, Audio-Sharing zu erzielen, ohne die Unannehmlichkeiten des Eingabevorgangs zu spüren.
(Spezifisches Beispiel 2 für die Spracheingabe/Bewegung zum Auslösen des Teilens)
6 ist ein Schaubild, das ein weiteres spezifisches Beispiel für eine Spracheingabe/Bewegung zum Auslösen des Teilens im Fahrgastraum 210 zeigt. In dem in 6 dargestellten spezifischen Beispiel wurden Elemente, die mit denen des in 5 dargestellten spezifischen Beispiels identisch sind, bereits beschrieben, so dass diese Elemente hier nicht wiederholt werden.
Die in 6 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens ist eine vorab festgelegte Äußerung, und die vorab festgelegte Äußerung umfasst eine Äu-ßerung, die eine Absicht anzeigt, eine Audioquelle bereitzustellen, und eine Äußerung einer zustimmenden Antwort auf diese Äußerung. Insbesondere wird die in 6 dargestellte Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung durch die folgenden vorab festgelegten Äußerungen gebildet. (4) Der Insasse 90D äußert „Hör dir das an!“, um eine Audioquelle bereitzustellen. (5) Der Insasse 90C (zweite Benutzer) äußert sich (antwortet) bestätigend „OK“.
Die Erfassungseinheit 13 erkennt die Spracheingabe/Bewegung zum Auslösen der gemeinsamen Nutzung, indem sie aus dem Audioerkennungsergebnis eine Äußerung, die eine Absicht zur Bereitstellung einer Audioquelle anzeigt, und eine Äußerung einer zustimmenden Antwort auf diese Äußerung erkennt. Die Äußerung, die die Absicht anzeigt, eine Audioquelle bereitzustellen, und die Äußerung der zustimmenden Antwort auf diese Äußerung sind nicht auf das Beispiel in 6 beschränkt. Das heißt, die Erfassungseinheit 13 kann eine Vielzahl von Abwandlungen der Äußerung, die die Absicht anzeigt, eine Audioquelle bereitzustellen, und der Äußerung der bejahenden Antwort auf diese Äußerung erfassen. Die Erfassungseinheit 13 bezieht sich beispielsweise auf Texte, die die jeweiligen Variationen angeben, die in der Speichereinheit 16 gespeichert sind, und erfasst eine Äußerung, die die Absicht anzeigt, eine Audioquelle bereitzustellen, und eine Äußerung einer zustimmenden Antwort auf diese Äußerung.
In einem Fall, in dem die Erfassungseinheit 13 sowohl die Äußerung, die die Absicht anzeigt, eine Audioquelle bereitzustellen, als auch die Äußerung der bestätigenden Antwort auf die Äußerung erfasst hat, bestimmt die Erfassungseinheit 13, dass die Erfassungseinheit 13 eine Spracheingabe/Bewegung zum Auslösen des Teilens erfasst hat, und gibt das Audioerkennungsergebnis und die Mikrofonidentifikationsinformation an die Identifizierungseinheit 14 aus. In einem Fall, in dem eine dieser Äußerungen nicht erkannt wurde, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Auslösen des Teilens nicht erkannt wurde, und gibt das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen nicht an die Identifizierungseinheit 14 aus. Wenn zum Beispiel eine Äußerung des Insassen 90C eine negative Antwort auf die Äußerung „Hör dir das an“ des Insassen 90D ist, gibt die Erfassungseinheit 13 das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen nicht an die Identifizierungseinheit 14 aus. Beispiele für die Äußerung einer negativen Antwort wären unter anderem: „Lieber nicht“, „Tut mir leid“, „Ich will es nicht anhören“ und dergleichen.
(Spezifisches Beispiel 3 für eine vorab festgelegte Spracheingabe/Bewegung)
7 ist ein Schaubild, das ein weiteres spezifisches Beispiel für eine Spracheingabe/Bewegung zum Auslösen des Teilens zeigt, die im Fahrgastraum 210 durchgeführt wird. In dem in 7 dargestellten spezifischen Beispiel wurden Elemente, die mit denen in den in 5 und 6 dargestellten spezifischen Beispielen identisch sind, bereits erläutert, und daher werden solche Elemente hier nicht wiederholt.
Die in 7 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens ist eine vorab festgelegte Äußerung, und die vorab festgelegte Äußerung umfasst eine Äu-ßerung, die eine Anfrage für das Genießen einer Audioquelle anzeigt, und eine Äußerung einer zustimmenden Antwort darauf. Genauer gesagt wird die in 7 dargestellte Spracheingabe/Bewegung zum Auslösen des Teilens durch die nachstehend genannten vorab festgelegten Äußerungen gebildet. (6) Der Insasse 90C äußert „Hey D, lass mich xxx hören“ als eine Anfrage für das Genießen einer Audioquelle. (7) Der Insasse 90D (dritter Benutzer) äußert sich (antwortet) bejahend „OK“.
Die Erfassungseinheit 13 erfasst eine Spracheingabe/Bewegung zum Auslösen des Teilens, indem sie aus dem Audioerkennungsergebnis eine Äußerung, die eine Anfrage zum Genuss einer Audioquelle anzeigt, und eine Äußerung einer zustimmenden Antwort auf diese Äußerung erkennt. Die Äußerung, die die Anfrage zum Genuss einer Audioquelle anzeigt, und die Äußerung der zustimmenden Antwort auf diese Äußerung sind nicht auf das Beispiel in 7 beschränkt. Das heißt, die Erfassungseinheit 13 kann eine Vielzahl von Variationen der Äußerung, die den Wunsch nach dem Genuss einer Audioquelle anzeigt, und der Äußerung der zustimmenden Antwort auf diese Äu-ßerung erfassen. Die Erfassungseinheit 13 bezieht sich beispielsweise auf Texte, die die jeweiligen Variationen anzeigen, die in der Speichereinheit 16 gespeichert sind, und erfasst eine Äußerung, die eine Aufforderung zum Genuss einer Audioquelle anzeigt, und eine Äußerung einer bestätigenden Antwort auf diese Äußerung.
In einem Fall, in dem die Erfassungseinheit 13 sowohl die Äußerung, die die Aufforderung zum Genießen einer Audioquelle anzeigt, als auch die Äußerung der bestätigenden Antwort auf diese Äußerung erkannt hat, bestimmt die Erfassungseinheit 13, dass eine Spracheingabe/Bewegung zum Auslösen des Teilens erkannt wurde, und gibt das Audioerkennungsergebnis und die Mikrofonidentifikationsinformation an die Identifizierungseinheit 14 aus. In einem Fall, in dem eine dieser Äußerungen nicht erkannt wurde, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Auslösen des Teilens nicht erkannt wurde, und gibt das Audioerkennungsergebnis und die Mikrofonidentifizierungsinformationen nicht an die Identifizierungseinheit 14 aus. In einem Fall beispielsweise, in dem eine Äußerung des Insassen 90D eine Äußerung einer negativen Antwort auf die Äußerung „Hey D, lass mich xxx hören“ des Insassen 90C ist, gibt die Erfassungseinheit 13 das Audioerkennungsergebnis und die Mikrofonidentifikationsinformationen nicht an die Identifizierungseinheit 14 aus. Beispiele für die Äußerung einer negativen Antwort wären unter anderem: „Lieber nicht“, „Tut mir leid“ und dergleichen.
Wie in den spezifischen Beispielen 2 und 3 können die Insassen im Fahrzeug 200 Audiosignale gemeinsam nutzen, indem sie bei einer allgemeinen Unterhaltung, die bei der gemeinsamen Nutzung von Audiosignalen durch mehrere Personen durchgeführt wird, die in den Sitzen, auf denen sich die jeweiligen Insassen befinden, vorgesehenen Richtungslautsprecher 3 dazu veranlassen, Audiosignale auszugeben, die von derselben Audioquelle 2 bereitgestellt wird. Infolgedessen können die Insassen im Fahrzeug 200 das Teilen von Audiosignalen bzw. Audio-Sharing ohne einen Eingabevorgang an einer Benutzerschnittstelle erzielen, und dies macht es möglich, Audio-Sharing zu erreichen, ohne die Unannehmlichkeiten des Eingabevorgangs zu spüren.
(Variante)
In der vorstehend beschriebenen Ausführungsform werden die von der Audioquelle 2 bereitgestellten Audiosignale über die Steuervorrichtung 1 aus dem Richtungslautsprecher 3 ausgegeben. Der von der Audioquelle 2 bereitgestellte Ton kann jedoch auch ohne Beteiligung der Steuervorrichtung 1 direkt vom Richtungslautsprecher 3 ausgegeben werden. Beispielsweise kann der Richtungslautsprecher 3 über Bluetooth direkt mit einer der Audioquellen 2 verbunden werden und den von der Audioquelle 2 bereitgestellten Ton ausgeben. Diese Verbindung kann ohne Beteiligung der Steuervorrichtung 1 hergestellt werden. Es ist jedoch vorzuziehen, dass die Audioquelle 2 oder der Richtungslautsprecher 3 Informationen an die Steuervorrichtung 1 sendet, die diese Verbindung anzeigen, also Informationen, die die Kopplung der Audioquelle 2 mit dem Richtungslautsprecher 3 anzeigen.
Die Ausgabesteuereinheit 15 gibt in diesem Beispiel eine Anweisung an mindestens eine von einer durch die Identifizierungseinheit 14 identifizierten Audioquelle 2, einem vor der Identifizierung mit der Audioquelle 2 verbundenen Richtungslautsprecher 3 und einem durch die Identifizierungseinheit 14 identifizierten Richtungslautsprecher 3 so ab, dass von der Audioquelle 2 bereitgestellte Audiosignale auch von dem durch die Identifizierungseinheit 14 identifizierten Richtungslautsprecher 3 ausgegeben werden.
In der vorstehend erläuterten Ausführungsform besteht die Spracheingabe/Bewegung zum Auslösen des Teilens nur aus einer vorab festgelegten Handlung oder nur aus einer vorab festgelegten Äußerung. Die Spracheingabe/Bewegung zum Auslösen des Teilens kann jedoch auch aus einer vorab festgelegten Handlung und einer vorab festgelegten Äußerung bestehen. Beispielsweise kann die Spracheingabe/Bewegung zum Auslösen des Teilens durch eine Äußerung, die die Absicht anzeigt, eine Audioquelle bereitzustellen, oder durch eine Anfrage, eine Audioquelle genießen zu dürfen, und durch eine Handlung gebildet werden, die auf diese Äußerung positiv reagiert. In diesem Beispiel gibt die Erfassungseinheit 13 das Erfassungsergebnis der Video- und Kameraidentifikationsinformation, das Audio-Erfassungsergebnis und die Mikrofonidentifikationsinformation an die Identifizierungseinheit 14 aus.
Die Identifizierungseinheit 14 erkennt eine interessierende Audioquelle 2 z.B. aus einem Audioerkennungsergebnis und Mikrofonidentifikationsinformationen. Zudem erkennt die Identifizierungseinheit 14 einen zu steuernden Richtungslautsprecher 3 z. B. anhand eines Erfassungsergebnisses eines Videos und von Kameraidentifizierungsinformationen. Einzelheiten dieser Identifizierungen werden in der ersten Ausführungsform erläutert, und die Erläuterungen werden hier nicht wiederholt.
Die Spracheingabe/Bewegung zum Auslösen des Teilens kann eine Handlung oder eine Äußerung eines einzelnen Benutzers sein. Zum Beispiel kann die Erfassungseinheit 13 in einem Fall, in dem der Insasse 90D eine Handlung durchgeführt hat, um die Audioquelle 2D näher an den Insassen 90C zu bringen, diese Handlung allein als die Spracheingabe/Bewegung zum Auslösen des Teilens erkennen. Anders gesagt kann eine Spracheingabe/Bewegung zum Annehmen weggelassen werden.
Die Identifizierungseinheit 14 kann einen zu steuernden Richtungslautsprecher 3 anhand des Inhalts einer Äußerung des Benutzers identifizieren. In einem Fall, in dem beispielsweise das Wort „alle“ in einem Audioerkennungsergebnis enthalten ist, das eine Äußerung anzeigt, die eine Anfrage zum Genuss einer Audioquelle angibt, kann die Identifizierungseinheit 14 alle Richtungslautsprecher 3 bis auf einen auf die betreffende Audioquelle 2 eingestellten Richtungslautsprecher 3 als ein zu steuerndes Objekt identifizieren. In diesem Beispiel kann die Erfassungseinheit 13 z.B. eine Spracheingabe/Bewegung, die eine Äußerung „Hört euch das alle an“ umfasst, als eine Spracheingabe/Bewegung zum Auslösen des Teilens erkennen.
Alternativ kann die Erfassungseinheit 13 nur eine Äußerung „ Hört euch das alle an“ als eine Spracheingabe/Bewegung zum Auslösen des Teilens erkennen. In diesem Beispiel ist es möglich, dass die Erkennungseinheit 14 erkennt, ob Insassen auf den jeweiligen Sitzen des Fahrzeugs 200 sitzen oder nicht, und als zu steuerndes Objekt einen oder mehrere Richtungslautsprecher 3 identifiziert, die nicht ein Richtungslautsprecher 3 sind, der für eine interessierende Audioquelle 2 eingestellt ist, und die in den Sitzen vorgesehen sind, auf denen die Insassen sitzen. Die Erkennungseinheit 14 kann z.B. anhand von Messdaten eines Gewichtssensors, der an einer Sitzfläche des Sitzes vorgesehen ist, erkennen, ob ein Insasse sitzt oder nicht.
In einem Fall, in dem eine interessierende Audioquelle 2 ein Informationsterminal ist, kann die Ausgabesteuereinheit 15 in Echtzeit die Bluetooth-Funkfeldintensität messen, mit der die Audioquelle 2 mit einem Richtungslautsprecher 3 verbunden wird, der als ein zu steuerndes Objekt identifiziert wird, und eine Steuerung passend zu der Funkfeldintensität durchführen.
Beispielsweise kann die Ausgabesteuereinheit 15 die Lautstärke des von dem zu steuernden Richtungslautsprecher 3 ausgegebenen Tons als Antwort auf eine Abnahme der Funkfeldstärke verringern (ausblenden bzw. fade-out). Das heißt, die Ausgabesteuereinheit 15 senkt die Lautstärke des von dem zu steuernden Richtungslautsprecher 3 ausgegebenen Tons als Antwort auf eine Zunahme des Abstands zwischen dem Informationsterminal und dem Richtungslautsprecher 3. Wenn der Abstand zwischen dem Informationsterminal und dem Richtungslautsprecher 3 einen Abstand erreicht, bei dem eine Verbindung über Bluetooth nicht mehr möglich ist, wird die Verbindung über Bluetooth abgebrochen, und die vom Informationsterminal bereitgestellten Audiosignale können nicht mehr über den Richtungslautsprecher 3 ausgegeben werden. Dieser Aufbau ermöglicht der Steuervorrichtung 1, die Audioausgabe passend zur Unterbrechung der Verbindung zwischen dem Informationsterminal und dem Richtungslautsprecher 3 in sich natürlich anfühlender Weise zu beenden.
In einem Fall, in dem die Bluetooth-Verbindung zwischen der interessierenden Audioquelle 2 und dem als zu steuerndes Objekt erkannten Richtungslautsprecher 3 abgebrochen wird, veranlasst die Ausgabesteuereinheit 15 vorzugsweise die Speichereinheit 16 dazu, die Kombination aus der Audioquelle 2 und dem Richtungslautsprecher 3 zu speichern. In einem Fall, in dem die gemessene Funkfeldintensität gleich hoch wie oder höher als die vorab festgelegte Intensität wird, kann die Ausgabesteuereinheit 15 dann das Informationsterminal, das die getrennte Audioquelle 2 ist, wieder mit dem Richtungslautsprecher 3 verbinden, indem sie sich auf die gespeicherte Kombination bezieht. Auf diese Weise wird die gemeinsame Nutzung des vom Informationsterminal bereitgestellten Audiosignals wiederaufgenommen. Nachdem das Informationsterminal wieder mit dem Richtungslautsprecher 3 verbunden wurde, kann die Ausgabesteuereinheit 15 die Lautstärke des vom zu steuernden Richtungslautsprecher 3 ausgegebenen Tons als Antwort auf eine Zunahme der Funkfeldstärke erhöhen (einblenden). Dieser Aufbau ermöglicht der Steuervorrichtung 1, die Audioausgabe passend zur Wiederherstellung der Verbindung zwischen dem Informationsterminal und dem Richtungslautsprecher 3 in sich natürlich anfühlender Weise wiederaufzunehmen.
Das Audioausgabesystem 100 kann anstelle der Vielzahl von Richtungslautsprechern 3 zahlreiche Lautsprechern umfassen, die jeweils keine Richtwirkung haben.
Die Steuervorrichtung 1 kann durch eine Verarbeitung natürlicher Sprache die Vorgänge von der Erkennung einer vorab festgelegten Äußerung bis zur Erkennung einer interessierenden Audioquelle 2 und eines zu steuernden Richtungslautsprechers 3 durchführen. In diesem Beispiel kann die Steuervorrichtung 1 zur Implementierung der Verarbeitung natürlicher Sprache ein Inferenzmodell verwenden, das trainiert wurde, um auf eine interessierende Audioquelle 2 und einen zu steuernden Richtungslautsprecher 3 zu schließen, wenn ein bestimmtes Wort in einer Äußerung enthalten ist. Darüber hinaus entsprechen in diesem Beispiel Elemente zum Erhalten eines Audioerkennungsergebnisses, zum Eingeben des Ergebnisses in das Inferenzmodell und zum Identifizieren einer Audioquelle 2 und eines Richtungslautsprechers 3 basierend auf dem Inferenzergebnis der Erfassungseinheit 13 und der Identifizierungseinheit 14.
Man bemerke, dass die vorstehend erläuterte Abwandlung auf die nachfolgend beschriebenen Ausführungsformen anwendbar ist.
Zweite Ausführungsform
In der nachstehenden Erläuterung wird eine weitere Ausführungsform der vorliegenden Erfindung beschrieben. Man bemerke, dass zur Vereinfachung der Erklärung Elemente, deren Funktion identisch zu der in der ersten Ausführungsform beschriebenen ist, identische Bezugszeichen erhalten, und Beschreibungen dieser Elemente nicht wiederholt werden.
In einem Fall, in dem eine Steuervorrichtung 1 gemäß der zweiten Ausführungsform eine zweite vorab festgelegte Spracheingabe/Bewegung erkannt hat, die eine Beendigung durch einen Benutzer anzeigt, beendet die Steuervorrichtung 1 die Ausgabe von Audiosignalen, die von einer identifizierten Audioquelle bereitgestellt werden, aus jedem der Richtungslautsprecher 3, die sich die Audioquelle teilen. Im Folgenden wird die zweite vorab festgelegte Spracheingabe/Bewegung als „Spracheingabe/Bewegung zum Beenden des Teilens“ bezeichnet.
Insbesondere erkennt die Erfassungseinheit 13 die Spracheingabe/Bewegung zum Beenden des Teilens zusätzlich zu einer vorab festgelegten Spracheingabe/Bewegung, wie sie in der ersten Ausführungsform beschrieben wurde. Die Spracheingabe/Bewegung zum Beenden des Teilens kann beispielsweise eine vorab festgelegte Handlung (im Folgenden als „zweite vorab festgelegte Handlung“ bezeichnet) sein, bei der beide Arme gekreuzt werden, um ein „x“ zu bilden, oder eine (nachstehend als „zweite vorab festgelegte Äußerung“ bezeichnete) vorab festgelegte Äußerung, die ein Wort wie „Ende“ enthält.
Wenn die Erfassungseinheit 13 im ersten Beispiel eine zweite vorab festgelegte Handlung aus einem Erkennungsergebnis eines Videos erfasst hat, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Beenden des Teilens erkannt wurde, und gibt das Erkennungsergebnis der Video- und Kameraidentifikationsinformationen an die Identifizierungseinheit 14 aus. Wenn die Erfassungseinheit 13 im letzten Beispiel eine zweite vorab festgelegte Äußerung aus einem Audioerkennungsergebnis erfasst hat, bestimmt die Erfassungseinheit 13, dass die Spracheingabe/Bewegung zum Beenden des Teilens erkannt wurde, und gibt Mikrofonidentifikationsinformationen an die Identifizierungseinheit 14 aus.
Als Reaktion auf die erkannte Spracheingabe/Bewegung zum Beenden des Teilens veranlasst die Identifizierungseinheit 14 jeden der Richtungslautsprecher 3, die basierend auf der Spracheingabe/Bewegung zum Auslösen des Teilens identifiziert wurden, die Ausgabe von Audiosignalen zu beenden, die von einer basierend auf der Spracheingabe/Bewegung zum Auslösen des Teilens identifizierten Audioquelle bereitgestellt werden.
Zunächst wird ein Fall beschrieben, in dem ein Insasse eine Spracheingabe/Bewegung zum Beenden des Teilens vorgenommen hat, die durch eine zweite vorab festgelegte Handlung gebildet wird, und somit die Identifizierungseinheit 14 ein Erkennungsergebnis einer Video- und Kameraidentifikationsinformation erhält. Basierend auf den erhaltenen Kameraidentifikationsinformationen identifiziert die Identifizierungseinheit 14 eine Kamera 4, die das Video aufgenommen hat. Als Nächstes identifiziert die Identifizierungseinheit 14 basierend auf dem Identifizierungsergebnis der Kamera 4 und dem Erfassungsergebnis des Videos einen Sitz, auf dem der Insasse sitzt, der die Spracheingabe/Bewegung zum Beenden des Teilens vorgenommen hat, und identifiziert somit einen Raum, in dem sich der Insasse befindet, der die Spracheingabe/Bewegung zum Beenden des Teilens vorgenommen hat. Als Nächstes erkennt die Identifizierungseinheit 14 basierend auf dem Identifizierungsergebnis des Sitzes einen Richtungslautsprecher 3, der im Sitz vorgesehen ist. Anschließend erkennt die Identifizierungseinheit 14 basierend auf dem Identifizierungsergebnis des Richtungslautsprechers 3 und der Audioquelleneinstellung 161 eine Audioquelle 2, die den vom Richtungslautsprecher 3 abgegebenen Ton liefert. Als Nächstes bestimmt die Identifizierungseinheit 14 basierend auf dem Identifizierungsergebnis der Audioquelle 2 und der Audioquelleneinstellung 161, ob es einen weiteren Richtungslautsprecher 3 gibt oder nicht, der von der identifizierten Audioquelle 2 bereitgestellte Audiosignale ausgibt.
In einem Fall, in dem die Identifizierungseinheit 14 bestimmt hat, dass es den anderen Richtungslautsprecher 3 gibt, veranlasst die Identifizierungseinheit 14 jeden der basierend auf der Spracheingabe/Bewegung zum Auslösen des Teilens identifizierten Richtungslautsprecher 3 dazu, die Ausgabe von Audiosignalen zu beenden, die von einer basierend auf der Spracheingabe/Bewegung zum Auslösen des Teilens identifizierten Audioquelle 2 zugeführt werden. Diese Richtungslautsprecher 3 sind anders gesagt Richtungslautsprecher 3, für die jeweils das Teilungssteuerflag auf 1 gesetzt ist. Die Identifizierungseinheit 14 gibt an die Ausgabesteuereinheit 15 eine Beendigungsanweisung aus, um die Audioausgabe aus den Richtungslautsprechern 3 zu beenden, für die das Teilungssteuerflag in der Audioquelleneinstellung 161 jeweils auf 1 gesetzt ist. Die Beendigungsanweisung umfasst Lautsprecherinformationen über die Richtungslautsprecher 3 und Informationen über die Audioquelle vor dem Teilen in einem Datensatz, der die Lautsprecherinformationen umfasst.
Die Identifizierungseinheit 14 aktualisiert die Audioquelleneinstellung 161. Insbesondere aktualisiert die Identifizierungseinheit 14 die Audioquelleninformationen, ein Teilungssteuerflag und die Informationen über die Audioquelle vor dem Teilen für einen Datensatz, der die Lautsprecherinformationen in Bezug auf die Beendigungsanweisung umfasst. Genauer gesagt löscht die Identifizierungseinheit 14 die Information über die aktuelle Audioquelle und verschiebt die Informationen über die Audioquelle vor dem Teilen in eine (Speicher-)Zelle „Audioquelle“. Infolgedessen wird die Zelle „Audioquelle vor dem Teilen“ leer. Darüber hinaus ändert die Identifizierungseinheit 14 das Teilungssteuerflag auf „0“.
Die Ausgabesteuereinheit 15 beendet die derzeitige Ausgabe von Audiosignalen aus den Richtungslautsprechern 3, für die die Beendigungsanweisung gegeben wurde, und setzt für jeden der identifizierten Richtungslautsprecher 3 eine Audioquelle 2 auf die zurück, die unmittelbar vor dem Einleiten der Steuerung durch die Ausgabesteuereinheit 15 eingestellt war. Das heißt, dass die Ausgabesteuereinheit 15 die Audioausgabe aus der durch den Beendigungsbefehl angegebenen Audioquelle 2 einleitet. Infolgedessen können die Insassen des Fahrzeugs 200 nach Beenden der gemeinsamen Nutzung der von der betreffenden Audioquelle 2 bereitgestellten Audiosignale wieder die jeweiligen Audiosignale hören, die unmittelbar vor der gemeinsamen Nutzung gehört wurden.
Beispielsweise ist es möglich, dass die Ausgabesteuereinheit 15 eine Lautstärke der aktuellen Audioausgabe der durch den Beendigungsbefehl bestimmten Richtungslautsprecher 3 allmählich verringert und, wenn die Lautstärke gleich groß wie oder kleiner als eine vorab festgelegte Lautstärke wird, die Ausgabesteuereinheit 15 die Audioausgabe von der durch den Beendigungsbefehl benannten Audioquelle 2 auslöst und die Lautstärke allmählich erhöht, bis die Lautstärke gleich groß wie oder größer als eine zweite vorab festgelegte Lautstärke wird, die sich von der vorab festgelegten Lautstärke unterscheidet. Vorzugsweise ist die zweite vorgegebene Lautstärke größer als die vorgegebene Lautstärke. Dieser Aufbau ermöglicht den Insassen des Fahrzeugs 200, auf natürliche Weise wieder die jeweiligen Audiostücke zu hören, die sie unmittelbar vor dem Teilen der von der Audioquelle 2 bereitgestellten Audiosignale hörten.
Als Nächstes wird ein Fall beschrieben, in dem ein Insasse eine Spracheingabe/Bewegung zum Beenden des Teilens vorgenommen hat, die durch eine zweite vorab festgelegte Äußerung gebildet wird, und die Identifizierungseinheit 14 folglich Mikrofonidentifikationsinformationen erhält. Basierend auf den erhaltenen Mikrofonidentifikationsinformationen erkennt die Identifizierungseinheit 14 ein Mikrofon 5, das den Ton aufgenommen hat. Als Nächstes erkennt die Identifizierungseinheit 14 auf der Grundlage des Identifizierungsergebnisses für das Mikrofon 5 einen Sitz, auf dem der Insasse sitzt, der die Spracheingabe/Bewegung zum Beenden des Teilens durchgeführt hat, und identifiziert somit einen Raum, in dem sich der Insasse befindet, der die Spracheingabe/Bewegung zum Beenden des Teilens durchgeführt hat. Die Mikrofone 5 und die Sitzplätze entsprechen einander eins-zu-eins. Daher kann die Identifizierungseinheit 14 einen Insassen identifizieren, der die zweite vorab festgelegte Äußerung vorgenommen hat, indem sie ein Mikrofon 5 identifiziert, das den Ton der zweiten vorab festgelegten Äußerung aufgefangen hat. Die anschließenden Vorgänge sind identisch zu denen, die durchgeführt werden, wenn ein Erkennungsergebnis aus Video- und Kameraidentifikationsinformationen wie vorstehend erläutert erhalten wird, und daher werden deren Erläuterungen hier nicht wiederholt.
In einem Fall, in dem die Identifizierungseinheit 14 bestimmt hat, dass es keinen anderen Richtungslautsprecher 3 gibt, der Audiosignale aus der identifizierten Audioquelle 2 ausgibt, gibt die Identifizierungseinheit 14 keine Beendigungsanweisung an die Ausgabesteuereinheit 15 aus. Der Fall, in dem die Identifizierungseinheit 14 bestimmt hat, dass es keinen anderen Richtungslautsprecher 3 gibt, ist zum Beispiel ein Fall, in dem ein Insasse, der sich in einem Ausgabezielraum eines Richtungslautsprechers 3 befindet, der keine von der interessierenden Audioquelle 2 bereitgestelltes Audiosignale ausgibt, die Spracheingabe/Bewegung zum Beenden des Teilens vorgenommen hat.
(Ablauf des Vorgangs zum Beenden des Teilens)
8 ist ein Ablaufplan, der ein Beispiel für den Ablauf eines Vorgangs zum Beenden des Teilens zeigt, den die Steuervorrichtung 1 durchführt. In dem in 8 gezeigten Ablaufplan werden die Schritte zur Durchführung des Vorgangs, die zu denen des in der ersten Ausführungsform beschriebenen Vorgangs zum Teilen identisch sind, mit denselben Schrittnummern bezeichnet. Darüber hinaus wurden diese Schritte schon in der ersten Ausführungsform beschrieben und werden daher nicht erneut erläutert.
In einem Schritt S11 erkennt die Erfassungseinheit 13 eine Spracheingabe/Bewegung zum Beenden des Teilens. Die Erfassungseinheit 13 bestimmt basierend auf dem erhaltenen Erfassungsergebnis der erhaltenen Video- und Audiosignale, ob die Spracheingabe/Bewegung zum Beenden des Teilens durchgeführt wurde oder nicht. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass die Spracheingabe/Bewegung zum Beenden des Teilens durchgeführt wurde (JA in Schritt S11), gibt die Erfassungseinheit 13 das erhaltene Erfassungsergebnis für das Video und die erhaltenen Kameraidentifikationsinformationen oder Mikrofonidentifikationsinformationen an die Identifizierungseinheit 14 aus. Dann wird der Freigabevorgang mit Schritt S12 fortgesetzt. In einem Fall, in dem die Erfassungseinheit 13 festgestellt hat, dass die Spracheingabe/Bewegung zum Beenden des Teilens nicht durchgeführt wurde (NEIN in Schritt S11), kehrt der Ablauf des Vorgangs zum Teilens zu Schritt S1 zurück.
In einem Schritt S12 erkennt die Identifizierungseinheit 14 eine Audioquelle 2, an die ein Richtungslautsprecher 3, der die Audioquelle teilt, unmittelbar vor dem Teilen angeschlossen war. Die Identifizierungseinheit 14 gibt eine Beendigungsanweisung mit Informationen über die identifizierte Audioquelle 2 an die Ausgabesteuereinheit 15 aus.
In einem Schritt S13 veranlasst die Ausgabesteuereinheit 15 jeden Richtungslautsprecher 3, Audiosignale auszugeben, die von der identifizierten Audioquelle 2 bereitgestellt wurden. Das heißt, der von der Identifizierungseinheit 14 als zu steuerndes Objekt identifizierte Richtungslautsprecher 3 beendet die Ausgabe von Audiosignalen, die von der Audioquelle 2 bereitgestellt werden, die die Identifizierungseinheit 14 identifiziert hat, und löst die Ausgabe von Audiosignalen aus, die von einer anderen Audioquelle 2 bereitgestellt werden, die unmittelbar vor dem Teilen eingestellt war.
(Variante)
Der Vorgang, der von der Ausgabesteuereinheit 15 ausgeführt wird, wenn die Spracheingabe/Bewegung zum Beenden des Teilens durchgeführt wurde, ist nicht auf den Vorgang der Ausgabe von Audiosignalen beschränkt, die von einer Audioquelle 2 bereitgestellt werden, die durch Informationen über die Audioquelle vor dem Teilen angezeigt wird. Beispielsweise kann die Ausgabesteuereinheit 15 so aufgebaut sein, dass sie nur den Vorgang des Trennens der betreffenden Audioquelle 2 vom Richtungslautsprecher 3 durchführt, dass sie also verhindert, dass der Richtungslautsprecher 3 nach dem Beenden des Teilens Audiosignale ausgibt.
Dritte Ausführungsform
In der nachstehenden Erläuterung wird eine weitere Ausführungsform der vorliegenden Erfindung beschrieben. Der Einfachheit halber wird darauf hingewiesen, dass Elemente, die in ihrer Funktion mit den in den ersten und zweiten Ausführungsformen erläuterten identisch sind, mit gleichen Bezugszeichen versehen werden, und dass die Erläuterungen dieser Elemente nicht wiederholt werden.
Eine Steuervorrichtung 1 gemäß der dritten Ausführungsform steuert die Audioausgabe basierend auf einem Augenlidöffnungswert, der einen Öffnungsgrad eines Augenlids eines jeden Insassen angibt.
Beispielsweise erlaubt die Steuervorrichtung 1, dass von einer Audioquelle 2 bereitgestellte Audiosignale, die von der Identifizierungseinheit 14 identifiziert worden ist, nur mit einem Insassen geteilt werden, dessen Augenlidöffnungswert als gleich groß wie oder größer als ein vorab festgelegter Wert erkannt worden ist. Insbesondere erkennt die Identifizierungseinheit 14 einen Augenlidöffnungswert aus einem Erfassungsergebnis eines von der Kamera 4 aufgenommenen Videos und vergleicht den Augenlidöffnungswert mit dem vorab festgelegten Wert. Dann schließt die Identifizierungseinheit 14 einen Richtungslautsprecher 3 aus einem zum Hören von Audiosignalen zu steuernden Objekt aus, der für einen Insassen vorgesehen ist, dessen Augenlidöffnungswert kleiner als der vorab festgelegte Wert ist.
In einem Fall, in dem beispielsweise ein Wort „alle“ in einem Audioerkennungsergebnis einer Spracheingabe/Bewegung zum Auslösen des Teilens enthalten ist, erkennt die Identifizierungseinheit 14 Augenlidöffnungswerte von jeweiligen Insassen im Fahrzeug 200 aus Videoauswertungsergebnissen. In einem Fall, in dem es einen Insassen gibt, dessen Augenlidöffnungswert kleiner als der vorab festgelegte Wert ist, erkennt die Identifizierungseinheit 14 anhand von Kameraidentifikationsinformationen einen Sitz, auf dem der Insasse sitzt, und identifiziert einen Richtungslautsprecher 3, der in den Sitz eingebaut ist. Dann schließt die Identifizierungseinheit 14 diesen Richtungslautsprecher 3 aus einem zu steuernden Objekt aus.
Somit kann die Steuervorrichtung 1 einen Insassen, dessen Lidöffnungswert kleiner als der vorgegebene Wert ist, mit anderen Worten einen Insassen, der schläft oder zu schlafen versucht, aus den Insassen ausschließen, mit denen Audiosignale zu teilen sind, die von einer Audioquelle 2 bereitgestellt werden, die von der Identifizierungseinheit 14 identifiziert wurde. Daher ist es möglich, die Wahrscheinlichkeit zu verringern, dass von einer Audioquelle 2 bereitgestellte Audiosignale von einem Insassen gehört werden, der die Audiosignale nicht teilen möchte.
Die Steuerung über den Lidöffnungswert ist nicht auf dieses Beispiel beschränkt. So ist es beispielsweise möglich, dass die Steuervorrichtung 1 in Echtzeit einen Augenlidöffnungswert eines Insassen misst, der sich in einem Abgabezielraum eines Richtungslautsprechers 3 befindet, der als zu steuerndes Objekt erkannt wurde, und die Audioausgabe aus dem Richtungslautsprecher 3 steuert.
Zum Beispiel erhält die Identifizierungseinheit 14 kontinuierlich ein Erfassungsergebnis aus Videodaten eines Insassen im Fahrzeug 200, der sich in einem Abgabezielraum eines Richtungslautsprechers 3 befindet, der als zu steuerndes Objekt identifiziert wurde, bis der Richtungslautsprecher 3 kein zu steuerndes Objekt mehr ist. In einem Fall, in dem die Erkennungseinheit 14 anhand des Erfassungsergebnisses der Videodaten festgestellt hat, dass der Wert der Augenlidöffnung eines Insassen kleiner als ein vorab festgelegter Wert ist, senkt die Erkennungseinheit 14 die Lautstärke des Richtungslautsprechers 3, mit dem der Insasse Audiosignale hört, auf einen vorab festgelegten Wert. Auf diese Weise kann die Steuervorrichtung 1 vermeiden, den Schlaf des Insassen zu stören.
[Beispiel einer mittels Software erzielten Konfiguration]
Die Funktionen der Steuervorrichtung 1 (die nachstehend als „Vorrichtung“ bezeichnet wird) können durch ein Programm realisiert werden, das einen Computer veranlasst, als die Vorrichtung zu arbeiten, wobei das Programm den Computer veranlasst, als die Steuerblöcke der Vorrichtung zu arbeiten (insbesondere als die Videoerkennungseinheit 11, die Audioerkennungseinheit 12, die Erfassungseinheit 13, die Identifizierungseinheit 14, die Ausgabesteuereinheit 15 und die Kommunikationseinheit 17).
In diesem Fall umfasst die Vorrichtung einen Computer, der als Hardware zur Ausführung des Programms mindestens eine Steuervorrichtung (z.B. einen Prozessor) und mindestens eine Speichereinrichtung (z.B. einen Speicher) umfasst. Die Ausführung des Programms mit der Steuervorrichtung und der Speichervorrichtung realisiert die in den vorstehend erläuterten Ausführungsformen beschriebenen Funktionen.
Das Programm kann in einem oder mehreren nichtflüchtigen computerlesbaren Speichermedien gespeichert sein. Das Speichermedium kann in der Vorrichtung vorgesehen sein, oder das Speichermedium kann nicht in der Vorrichtung vorgesehen sein. In letzterem Fall kann das Programm der Vorrichtung über ein beliebiges drahtgebundenes oder drahtloses Übertragungsmedium zugeführt werden.
Eine oder einige oder alle Funktionen der Steuerblöcke können durch eine Logikschaltung realisiert werden. Zum Beispiel ist eine integrierte Schaltung, in der eine Logikschaltung gebildet wird, die als die Steuerblöcke arbeitet, auch vom Anwendungsbereich der vorliegenden Erfindung umfasst. Darüber hinaus ist es beispielsweise möglich, die Funktionen der Steuerblöcke durch einen Quantencomputer zu realisieren.
Die vorliegende Erfindung ist nicht auf die Ausführungsformen beschränkt, sondern kann von Fachleuten im Umfang der Ansprüche angepasst werden. Die vorliegende Erfindung umfasst in ihrem technischen Anwendungsbereich auch jede Ausführungsform, die sich aus der Kombination technischer Mittel ergibt, die in verschiedenen Ausführungsformen offenbart sind.
Bezugszeichenliste

1: Steuervorrichtung
2, 2A bis 2N: Audioquelle
3, 3A bis 3N: Richtungslautsprecher (Audioausgabevorrichtung)
4, 4A, 4B: Kamera (Bildaufnahmevorrichtung)
5, 5A bis 5D: Mikrofon (Audioeingabevorrichtung)
13: Erkennungseinheit
14: Identifizierungseinheit
15: Ausgabesteuereinheit
S5: Erfassungsschritt
S6: Identifizierungsschritt
S7: Identifizierungsschritt
S8: Ausgabesteuerschritt

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2009147814 [0004]
JP 2009147814 A [0004]

Claims

Steuervorrichtung, die bewirkt, dass eine Vielzahl von Audioausgabevorrichtungen Audiosignale ausgeben, die von einer beliebigen von einer oder mehreren Audioquellen bereitgestellt werden, wobei jede der einen oder mehreren Audioquellen für jede der Vielzahl von Audioausgabevorrichtungen eingestellt ist, und die Steuervorrichtung Folgendes umfasst: eine Erfassungseinheit, die eine vorab festgelegte Spracheingabe/Bewegung eines Benutzers erfasst, der sich in einem Ausgabezielraum einer der Vielzahl von Audioausgabevorrichtungen befindet; eine Identifizierungseinheit, die passend zu der vorab festgelegten Spracheingabe/Bewegung, die erfasst wurde, eine interessierende Audioquelle aus der einen oder den mehreren Audioquellen und der einen oder den mehreren Audioausgabevorrichtungen als ein zu steuerndes Objekt aus der Vielzahl von Audioausgabevorrichtungen identifiziert; und eine Ausgabesteuereinheit, die jede der einen oder mehreren Audioausgabevorrichtungen, die identifiziert wurden, dazu veranlasst, Audiosignale auszugeben, die von der identifizierten interessierenden Audioquelle bereitgestellt werden.
Steuervorrichtung nach Anspruch 1, wobei die Erfassungseinheit aus einem von einer Bildgebungsvorrichtung erfassten Bild eine vorab festgelegte Handlung des Benutzers als die vorab festgelegte Spracheingabe/Bewegung erfasst.
Steuervorrichtung nach Anspruch 2, wobei die Erfassungseinheit die vorab festgelegte Handlung basierend auf einer Bewegung eines im Bild enthaltenen Körperteils des Benutzers erfasst.
Steuervorrichtung nach Anspruch 3, wobei: die Bewegung des Körperteils eine Bewegung zum Verschieben einer Position eines Informationsterminals, das als eine Audioquelle dient, entlang eines vorab festgelegten Pfades umfasst; und die Identifizierungseinheit das Informationsterminal als die interessierende Audioquelle identifiziert.
Steuervorrichtung nach Anspruch 4, wobei: der vorab festgelegte Pfad ein Pfad ist, entlang dessen das Informationsterminal von einer Seite eines Benutzers, der sich in einem Ausgabezielraum einer Audioausgabevorrichtung befindet, für die das Informationsterminal als Audioquelle eingestellt ist, zu einer Seite eines Benutzers bewegt wird, der sich in einem Ausgabezielraum einer Audioausgabevorrichtung befindet, für die das Informationsterminal nicht als Audioquelle eingestellt ist; und die Identifizierungseinheit die Audioausgabevorrichtung, für die das Informationsterminal nicht als eine Audioquelle eingestellt ist, als das zu steuernde Objekt identifiziert.
Steuervorrichtung nach Anspruch 5, wobei: die Erfassungseinheit eine Blickrichtung des Benutzers erfasst, zu dem das Informationsterminal hin bewegt wurde; in einem Fall, in dem die Blickrichtung auf das Informationsterminal gerichtet ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt identifiziert; und in einem Fall, in dem die Blickrichtung nicht auf das Informationsterminal gerichtet ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht identifiziert.
Steuervorrichtung nach einem der Ansprüche 1 bis 6, wobei die Erfassungseinheit aus in eine Audioeingabevorrichtung eingegebenen Audiosignale eine vorab festgelegte Äußerung erkennt, die vom Benutzer als vorab festgelegte Spracheingabe/Bewegung gegeben wird.
Steuervorrichtung nach Anspruch 7, wobei: die vorab festgelegte Äußerung eine Absicht umfasst, eine Audioquelle bereitzustellen; die Erfassungseinheit nach dem Abgeben der vorab festgelegten Äußerung eine Spracheingabe/Bewegung eines zweiten Benutzers erfasst, der sich von dem Benutzer unterscheidet, der die vorab festgelegte Äußerung abgegeben hat; in einem Fall, in dem die Spracheingabe/Bewegung zustimmend ausfällt, die Identifizierungseinheit als die interessierende Audioquelle eine Audioquelle von Audiosignalen identifiziert, die in einen Raum ausgegeben werden, in dem sich der Benutzer befindet, der die vorab festgelegte Äußerung abgegeben hat, und die Identifizierungseinheit zumindest eine Audioausgabevorrichtung als das zu steuernde Objekt identifiziert, die Audiosignale an einen Raum ausgibt, in dem sich der zweite Benutzer befindet; und in einem Fall, in dem die Spracheingabe/Bewegung negativ ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht identifiziert.
Steuervorrichtung nach Anspruch 7 oder 8, wobei: die vorab festgelegte Äußerung eine Aufforderung zum Genießen einer Audioquelle umfasst; die Erfassungseinheit nach Abgabe der vorab festgelegten Äußerung eine Spracheingabe/Bewegung eines dritten Benutzers erfasst, der sich von dem Benutzer, der die vorab festgelegte Äußerung abgegeben hat, unterscheidet; in einem Fall, in dem die Spracheingabe/Bewegung zustimmend ist, die Identifizierungseinheit als die interessierende Audioquelle eine Audioquelle von Audiosignalen identifiziert, die in einen Raum ausgegeben werden, in dem sich der dritte Benutzer befindet, und die Identifizierungseinheit zumindest eine Audioausgabevorrichtung als das zu steuernde Objekt identifiziert, die Audiosignale in einen Raum ausgibt, in dem sich der Benutzer befindet, der die vorab festgelegte Äußerung gemacht hat; und in einem Fall, in dem die Spracheingabe/Bewegung verneinend ist, die Identifizierungseinheit die interessierende Audioquelle und das zu steuernde Objekt nicht identifiziert.
Steuervorrichtung nach einem der Ansprüche 1 bis 9, wobei: die Erfassungseinheit eine zweite vorab festgelegte Spracheingabe/Bewegung des Benutzers erfasst, wobei sich die zweite vorab festgelegte Spracheingabe/Bewegung von der vorab festgelegten Spracheingabe/Bewegung unterscheidet und ein Beenden anzeigt; und in einem Fall, in dem die zweite vorab festgelegte Spracheingabe/Bewegung erfasst wurde, die Ausgabesteuereinheit die eine oder mehrere Audioausgabevorrichtungen, die identifiziert wurden, dazu veranlasst, die Ausgabe von Audiosignalen zu beenden, die von der interessierenden Audioquelle bereitgestellt wurden, die identifiziert wurde.
Steuervorrichtung nach Anspruch 10, wobei die Ausgabesteuereinheit passend zum Beenden eine Audioquelle, die unmittelbar vor der Einleitung der Steuerung durch die Ausgabesteuereinheit eingestellt war, für jede der einen oder mehreren identifizierten Audioausgabevorrichtungen zurücksetzt.
Steuervorrichtung nach einem der Ansprüche 1 bis 11, wobei: jede der Vielzahl von Audioausgabevorrichtungen eine Richtwirkung in einer Richtung aufweist, in der Audiosignale ausgesendet werden; und die Vielzahl von Audioausgabevorrichtungen so angeordnet ist, dass kein Schallfeld durch einander erreichende Elemente von Audiosignalen gebildet wird, die von der die Vielzahl von Audioausgabevorrichtungen ausgegeben werden, die sich voneinander unterscheiden.
Verfahren zum Steuern der Audioausgabe durch eine Steuervorrichtung, die mehrere Audioausgabevorrichtungen dazu veranlasst, Audiosignale auszugeben, die von einer beliebigen aus einer oder mehreren Audioquellen zugeführt werden, wobei jede der einen oder mehreren Audioquellen für jede aus der Vielzahl von Audioausgabevorrichtungen einstellbar ist, wobei das Verfahren die folgenden Schritte umfasst: Erfassen einer vorab festgelegten Spracheingabe/Bewegung eines Benutzers, der sich in einem Ausgabezielraum einer der Vielzahl von Audioausgabevorrichtungen befindet; Identifizieren einer interessierenden Audioquelle unter der einen oder den mehreren Audioquellen und der einen oder den mehreren Audioausgabevorrichtungen, passend zu der vorab festgelegten Spracheingabe/Bewegung, die erfasst wurde, als ein zu steuerndes Objekt aus der Vielzahl von Audioausgabevorrichtungen; und Bewirken, dass jede der einen oder mehreren Audioausgabevorrichtungen, die identifiziert wurden, Audiosignale ausgibt, welche die identifizierte interessierende Audioquelle bereitstellt.
Steuerprogramm, das bewirkt, dass ein Computer als eine in Anspruch 1 genannte Steuervorrichtung funktioniert, wobei das Steuerprogramm bewirkt, dass der Computer als die Erfassungseinheit, die Identifizierungseinheit und die Ausgabesteuereinheit arbeitet.