JP2022189035A

JP2022189035A - 制御装置、制御方法および制御プログラム

Info

Publication number: JP2022189035A
Application number: JP2021097370A
Authority: JP
Inventors: 宏樹阿部; Hiroki Abe; 祐樹神谷; Yuki Kamiya; 修川瀬; Osamu Kawase; 康裕石黒; Yasuhiro Ishiguro
Original assignee: Toyota Boshoku Corp
Current assignee: Toyota Boshoku Corp
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-22
Also published as: US11930335B2; US20220400343A1; DE102022114392A1

Abstract

【課題】入力操作を伴わずに複数ユーザ間で音声を共有する制御装置、制御方法及び制御プログラムを提供する。【解決手段】音声出力システム１００において、制御装置１は、指向性スピーカ３の出力先空間に存在するユーザの所定言動を検出する検出部１３と、当該所定言動に応じて、音源２のうち注目する音源と制御対象とする指向性スピーカとを特定する特定部１４と、特定された音源が発する音声を、特定された指向性スピーカの各々から出力させる出力制御部１５と、を備える。【選択図】図１

Description

本発明は、音源が発する音声を音声出力装置から出力させる制御装置等に関する。

所定空間に設けられた複数の音声出力装置の各々から、異なる音源が発する音声を出力させることにより、当該所定空間に存在する複数のユーザの各々に異なる音声を聴取させる技術がある。当該技術の一例としては、車両内において各座席に指向性スピーカを設け、各座席に座る乗員の各々に異なる音源が発する音声を聴取させる技術が挙げられる。

特許文献１には、このような技術を前提として、１つの音源を複数の音声出力装置で共有する技術が開示されている。具体的には、特許文献１には、タッチパネルに表示されたグラフィカルユーザインターフェースに対する操作で車両内の複数の座席を選択し、当該複数の座席の各々に設けられたスピーカで１つの音源を共有する技術が開示されている。

特開２００９－１４７８１４号公報

特許文献１の技術では、音源を共有するにあたりグラフィカルユーザインターフェースに対する入力操作が必要であるところ、例えばスマートフォンの画面を相手に近づけることによって映像等を共有するというやり方に慣れているユーザにとって、上記入力操作を都度行うことは煩わしい。

また、特許文献１の技術では、上記グラフィカルユーザインターフェースを表示するための画面を設けなければならない。

本発明の一態様は、入力操作を伴わずに複数ユーザ間で音声を共有することを目的とする。

上記の課題を解決するために、本発明の態様１に係る制御装置は、音源が発する音声を複数の音声出力装置から出力させる制御装置であって、前記音源は前記音声出力装置毎に設定可能であり、前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出部と、前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定部と、前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御部と、を備える。

上記の構成によれば、ユーザが行った所定言動に応じて注目する音源と制御対象の音声出力装置を特定し、当該音源が発する音声を、当該音声出力装置から出力させる。つまり、ユーザが所定言動を行うことにより、注目する音源から発せられる音声が、当該音源が設定された音声出力装置と、制御対象の音声出力装置とから出力される。これにより、ユーザは、所定言動を行うだけという簡便な方法により、音源から発せられる音声を他者と共有することができる。

本発明の態様２に係る制御装置は、上記態様１において、前記検出部は、撮像装置により撮像された画像から、前記所定言動として前記ユーザの所定動作を検出してもよい。

上記の構成によれば、ユーザの所定動作を撮像し、当該所定動作を所定言動として検出する。これにより、ユーザは、所定動作を行うだけで音源から発せられる音声を他者と共有することができる。例えば、所定動作として予め定められた簡便な身振り手振りにより、音源が発する音声を他者と共有することができる。

本発明の態様３に係る制御装置は、上記態様２において、前記検出部は、前記画像に含まれる前記ユーザの身体部位の動きに基づいて前記所定動作を検出してもよい。

上記の構成によれば、撮像されたユーザの身体部位の動きから所定動作を検出するので、ユーザは自身の所定部位を動かすことで、自身が聴取している音声を他者と共有することができる。ここで、身体部位の動きとは、例えば腕や手などの動きの他、眼の動き（換言すれば、視線の動き）も含む。

本発明の態様４に係る制御装置は、上記態様３において、前記身体部位の動きは、音源として動作する情報端末の位置を所定経路で移動させる動きを含み、前記特定部は、前記情報端末を、前記注目する音源として特定してもよい。

上記の構成によれば、音源として動作する情報端末の位置を所定経路で移動させるという動作で、音源が発する音声を複数ユーザ間で共有する。所定経路は複雑なものである必要はなく、典型的には、共有元ユーザから共有先ユーザへ向かう単純な経路でよい。したがって、ユーザは、簡便な動作により音源が発する音声を他者と共有することができる。

本発明の態様５に係る制御装置は、上記態様４において、前記所定経路は、前記情報端末が音源として設定されている音声出力装置の出力先空間に存在するユーザの側から、前記情報端末が音源として設定されていない音声出力装置の出力先空間に存在するユーザの側へ近づける経路であり、前記特定部は、前記情報端末が音源として設定されていない音声出力装置を前記制御対象として特定してもよい。

上記の構成によれば、音源として動作する情報端末を他者に近づける動きで、当該他者に音声を聴取させている音声出力装置から、当該音源が発する音声を出力させて音声共有を実現する。

本発明の態様６に係る制御装置は、上記態様５において、前記検出部は、さらに、前記情報端末が近づけられたユーザの視線を検出し、前記特定部は、当該視線が前記情報端末に向いている場合、前記注目する音源および前記制御対象の特定を行い、当該視線が前記情報端末に向いていない場合、前記注目する音源および前記制御対象の特定を行わなくてもよい。

上記の構成によれば、近づいた情報端末を他者が見ることで、当該他者に音声を聴取させている音声出力装置から、当該音源が発する音声を出力させて音声共有を実現する。これにより、ユーザが申し出た音声共有に対し他者が了承する際に通常行われる一連の動作で、音声共有を実現することができるので、ユーザは自然に音声共有を実現することができる。また、他者が情報端末を見なければ音声共有は行われないので、他者が望まない音声共有を防止することができる。

本発明の態様７に係る制御装置は、上記態様１から４のいずれかにおいて、前記検出部は、音声入力装置に入力された音声から、前記所定言動として前記ユーザが発した所定発話を検出してもよい。

上記の構成によれば、ユーザの所定発話を取得し、当該所定発話を所定言動として検出する。これにより、ユーザは、所定発話を行うだけで音源から発せられる音声を他者と共有することができる。例えば、所定発話として予め定められた簡便な用語を含む発話がなされることにより、音源が発する音声を他者と共有することができる。

本発明の態様８に係る制御装置は、上記態様７において、前記所定発話は、音源を提供する旨を含むものであり、前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第２ユーザによる言動を検出し、前記特定部は、当該言動が肯定的である場合、前記所定発話を発したユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記第２ユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、としてもよい。

上記の構成によれば、ユーザが音源を提供する旨、すなわち、音声共有を申し出る旨の発話を行い、第２ユーザが肯定的な言動を行えば、この２人での音声共有が実現される。これにより、２人のユーザが、１つの音源から発せられる音声の共有を行う際に行われるやり取りで、音源が発する音声を共有することができる。また、第２ユーザが否定的な言動を行えば音声共有は行われないので、第２ユーザが望まない音声共有を防止することができる。

本発明の態様９に係る制御装置は、上記態様７または８において、前記所定発話は、音源の享受を希望する旨を含むものであり、前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第３ユーザによる言動を検出し、前記特定部は、当該言動が肯定的である場合、前記第３ユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記所定発話を発したユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、としてもよい。

上記の構成によれば、ユーザが音源の享受を希望する旨、すなわち、音声共有を希望する旨の発話を行い、第３ユーザが肯定的な言動を行えば、この２人での音声共有が実現される。これにより、２人のユーザが、１つの音源から発せられる音声の共有を行う際に行われるやり取りで、音源が発する音声を共有することができる。また、第３ユーザが否定的な言動を行えば音声共有は行われないので、第３ユーザが望まない音声共有を防止することができる。

本発明の態様１０に係る制御装置は、上記態様１から９のいずれかにおいて、前記検出部は、さらに、前記ユーザの、前記所定言動と異なる、終了を示す第２所定言動を検出し、前記出力制御部は、前記第２所定言動が検出された場合、前記特定された前記音声出力装置の各々からの、前記特定された音源が発する音声の出力を終了させてもよい。

上記の構成によれば、ユーザが行った第２所定言動に応じて、特定された音声出力装置の各々からの、特定された音源が発する音声の出力を終了させる。これにより、音声共有を行っているユーザは、第２所定言動を行うだけで音声共有を終了させることができる。よって、音声共有を、ユーザに入力操作を行わせることなく終了させることができる。

本発明の態様１１に係る制御装置は、上記態様１０において、前記出力制御部は、前記終了に伴い、前記特定された前記音声出力装置の各々について、前記出力制御部による制御開始直前に設定されていた音源を再設定してもよい。

上記の構成によれば、音声共有の終了に伴い、出力制御部による制御開始直前に設定されていた音源が、制御対象であった音声出力装置に再設定される。これにより、音声共有をしていたユーザは、当該音声共有の終了に伴い、音声共有の前に聴取していた音声を再聴取することができる。

本発明の態様１２に係る制御装置は、上記態様１から１１のいずれかにおいて、前記音声出力装置の各々は、音声を発する方向に指向性を有するものであり、異なる前記音声出力装置から出力された複数の音声が到達する音場が形成されないように設けられていてもよい。

上記の構成によれば、音声出力装置の出力先空間には、異なる音声出力装置から出力された複数の音声が到達する音場が形成されないので、形成された音場のいずれかにいるユーザは、いずれかの音声出力装置から出力された音声を聴くこととなる。つまり、形成された音場のいずれかにいるユーザは、自身が聴取している音声とは異なる音声を聴取したい場合、別の音場へ移動する必要がある。ここで、上記の構成によれば、ユーザが所定言動を行うことにより、注目する音源から発せられる音声が、当該音源が設定された音声出力装置と、制御対象の音声出力装置とから出力される。これにより、ユーザは、所定言動を行うことにより、注目する音源から発せられる音声が到達する別の音場へ移動することなく、当該別の音場に到達している音声を聴取することができる。

本発明の態様１３に係る音声出力の制御方法は、音源が発する音声を複数の音声出力装置から出力させる制御装置による音声出力の制御方法であって、前記音源は前記音声出力装置毎に設定可能であり、前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出ステップと、前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定ステップと、前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御ステップと、を含む。

上記の構成によれば、態様１に係る制御装置と同様の作用効果を奏する。

本発明の各態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記制御装置が備える各部（ソフトウェア要素）として動作させることにより前記制御装置をコンピュータにて実現させる制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明の一態様によれば、入力操作を伴わずに複数ユーザ間で音声を共有することができる。

本発明の実施形態１に係る音声出力システムに含まれる制御装置の要部構成の一例を示す図である。図１に示す音声出力システムを適用した車両を上方から見た図である。図１に示す制御装置に記憶されている音源設定の一具体例を示す図である。図１に示す制御装置が実行する共有処理の流れの一例を示すフローチャートである。車内空間で行われる共有開始言動の一具体例を示す図である。車内空間で行われる共有開始言動の別の具体例を示す図である。車内空間で行われる共有開始言動のさらなる別の具体例を示す図である。本発明の実施形態２に係る制御装置が実行する共有終了処理の流れの一例を示すフローチャートである。

〔実施形態１〕
以下、本発明の一実施形態について、詳細に説明する。

（音声出力システムの概要）
図１は、本実施形態に係る音声出力システム１００に含まれる制御装置１の要部構成の一例を示す図である。音声出力システム１００は、所定空間に音声を出力させるシステムである。

図１に示すとおり、音声出力システム１００は、制御装置１、音源２Ａ～２Ｎ、指向性スピーカ３Ａ～３Ｎ（音声出力装置）、カメラ４（撮像装置）およびマイク５（音声入力装置）を含む。

指向性スピーカ３Ａ～３Ｎは、所定空間に音声を出力する複数の音声出力装置である。なお、「３Ａ～３Ｎ」の表記は、指向性スピーカが複数であることを示す表記であり、この表記により、音声出力システム１００に含まれる指向性スピーカの数を限定する意図はない。また、以降、指向性スピーカ３Ａ～３Ｎの各々を区別しない場合、指向性スピーカ３と表記する。指向性スピーカ３は、音声を発する方向に指向性を有する音声出力装置である。また、指向性スピーカ３Ａ～３Ｎの各々は、出力された複数の音声が到達する音場が形成されないように、所定空間に設けられている。つまり、所定空間に存在するユーザは、いずれか１つの指向性スピーカ３から出力された音声を聴取することとなる。

なお、本実施形態では、ユーザ毎に音声を聴取できる機能を有する音声出力装置の一例として指向性スピーカ３を挙げて説明するが、指向性スピーカ３に代えて当該機能を有する他の音声出力装置を適用してもよい。

音源２Ａ～２Ｎは、音声を発する複数の音声出力装置である。なお、「２Ａ～２Ｎ」の表記は、音源が複数であることを示す表記であり、この表記により、音声出力システム１００に含まれる音源の数を限定する意図はない。なお、音声出力システム１００に含まれる音源は１つであってもよい。また、以降、音源２Ａ～２Ｎの各々を区別しない場合、音源２と表記する。音源２Ａ～２Ｎの各々は、複数の指向性スピーカ３Ａ～３Ｎの何れかに設定される。具体的には、音源２Ａ～２Ｎの各々は、制御装置１を介して、複数の指向性スピーカ３Ａ～３Ｎの何れかと有線接続または無線接続される。これにより、制御装置１を介して音源２と接続された指向性スピーカ３から、音源２が発する音声が出力される。なお、本実施形態では、音源２および制御装置１、並びに、制御装置１および指向性スピーカ３は、一例として、Bluetooth（登録商標）を用いて無線接続されるものとする。なお、接続手段はBluetoothに限られるものではなく、WiFi（登録商標）などの他の無線接続であってもよいし、有線接続であってもよい。

上述のとおり、指向性スピーカ３Ａ～３Ｎの各々は、出力された複数の音声が到達する音場が形成されないように、所定空間に設けられている。このため、或る音源２が発している音声を聴取したいユーザは、通常、当該音源２が設定された指向性スピーカ３から出力される音声が到達する音場に存在している必要がある。

なお、音源２は、所定空間に持ち込むことが可能な情報端末であってもよいし、所定空間に予め設置されている音源であってもよい。情報端末の具体例としては、スマートフォン、タブレット端末、ラップトップパソコン、携帯型のゲーム機、携帯型の音楽プレーヤ、並びに、携帯型のＤＶＤプレーヤおよびブルーレイディスクプレーヤなどが挙げられるが、これに限定されない。図１の例では、少なくとも音源２Ａは情報端末であるものとして図示した。

カメラ４は、所定空間内を撮像する撮像装置である。カメラ４は、撮像した画像（典型例は映像）のデータを制御装置１へ送信する。

マイク５は、所定空間内で発せられた音声を取得する音声入力装置である。マイク５は、取得した音声を音声信号に変換し、当該音声信号を制御装置１へ送信する。なお以降、マイク５による音声の取得を「集音」と表記する場合がある。

制御装置１は、所定空間における音声出力を制御する。具体的には、制御装置１は、音源２Ａ～２Ｎの各々に、指向性スピーカ３Ａ～３Ｎのいずれかを設定し、音源２Ａ～２Ｎの各々が発する音声を、設定した指向性スピーカ３から出力させる。一例として、制御装置１は、音源２から受信した、指向性スピーカ３Ａ～３Ｎのいずれかとペアリングするための信号に基づき、当該信号を送信した音源２を、当該信号が示す指向性スピーカ３に設定する。そして、制御装置１は、音源２から音声データを受信し、当該音源２が設定された指向性スピーカ３に、当該音声データを送信する。これにより、制御装置１は、音源２が発した音声を、当該音源２が設定された指向性スピーカ３に出力させる。

また、制御装置１は、所定空間内に存在するユーザの所定言動を検出し、当該所定言動に応じて、音源２Ａ～２Ｎのうちの注目すべき音源と、指向性スピーカ３Ａ～３Ｎのうちの制御対象とする指向性スピーカ３とを特定し、特定された音源が発する音声を、特定された指向性スピーカ３の各々から出力させる。つまり、制御装置１は、ユーザの所定言動に基づき特定した音源２が発する音声を、当該音源２が設定された指向性スピーカ３に加え、当該所定言動に基づき特定した指向性スピーカ３からも出力させる。換言すれば、制御装置１は、ユーザの所定言動に基づき、特定した音源２が発する音声を、異なる出力先空間に存在する複数のユーザに共有させることができる。なお以降、当該所定言動を「共有開始言動」と表記する。

ここで、共有開始言動は、ユーザが行う所定動作およびユーザが発する所定発話の少なくとも一方からなる。所定動作の典型例は、顔、眼（視線）、腕、手などの身体部位の動作であるが、これに限定されない。なお、本実施形態では、共有開始言動は、少なくとも二人のユーザが行う言動であるものとする。典型的には、本実施形態に係る共有開始言動は、或るユーザが行った、音声の共有を開始するための言動に対し、別のユーザが、音声の共有を承諾するための言動を行うことである。また、以降、音声の共有を開始するための言動を行ったユーザを、「共有開始言動を開始したユーザ」と表記する場合がある。また、音声の共有を承諾するための言動を行ったユーザを「共有開始言動を成立させたユーザ」と表記する場合がある。また、制御装置１の詳細については後述する。

以上の構成により、制御装置１は、ユーザが行った共有開始言動に応じて、１つの音源２が発する音声を複数のユーザに共有させることができる。つまり、１つの音源２が発する音声を共有したいユーザは、共有開始言動を行うことにより、音声共有のためのユーザインターフェースに対する入力操作（例えば、音源２や指向性スピーカ３に対するボタン操作等）を行わずとも、当該音声を共有することができる。換言すれば、当該ユーザは、上記入力操作の煩わしさを感じることなく、簡便な方法で音声共有を行うことができる。

（音声入力システムの適用例）
図２は、音声出力システム１００を適用した車両２００を上方から見た図である。すなわち、図２に示す例では、上記所定空間は車両２００が形成する車内空間２１０である。

図２に示すとおり、車内空間２１０には、４つの指向性スピーカ３Ａ～３Ｄが設けられている。図２に示す例では、指向性スピーカ３Ａ～３Ｄは、各座席のヘッドレストに設けられている。具体的には、指向性スピーカ３Ａは、運転席２０Ａのヘッドレストに設けられている。指向性スピーカ３Ｂは、助手席２０Ｂのヘッドレストに設けられている。指向性スピーカ３Ｃは、後部座席２０Ｃのヘッドレストに設けられている。指向性スピーカ３Ｄは、後部座席２０Ｄのヘッドレストに設けられている。

指向性スピーカ３Ａ～３Ｄは、各々が設けられた座席に座る乗員のみが、出力された音声を聴取することができるように、音声を発する方向に指向性を有している。具体的には、指向性スピーカ３Ａ～３Ｄの各々から出力される音波の強度は、車両２００の前方方向が強く、その他の方向は弱くなっている。これにより、指向性スピーカ３Ａから出力された音声は、運転席２０Ａに座る乗員（運転手）のみが聴取可能である。指向性スピーカ３Ｂから出力された音声は、助手席２０Ｂに座る乗員のみが聴取可能である。指向性スピーカ３Ｃから出力された音声は、後部座席２０Ｃに座る乗員のみが聴取可能である。指向性スピーカ３Ｄから出力された音声は、後部座席２０Ｄに座る乗員のみが聴取可能である。このように指向性スピーカ３を配置することにより、車両２００の乗員は、各々が聴取したい音声を聴取することができる。

なお、車内空間２１０に設けられる指向性スピーカ３の数および設置位置は図２の例に限定されない。

また、図２に示すとおり、車内空間２１０には、２つのカメラ４Ａおよび４Ｂと、４つのマイク５Ａ～５Ｄが設けられている。図２に示す例では、カメラ４Ａは、助手席２０Ｂの前方、グローブボックス付近に設けられており、運転席２０Ａおよび助手席２０Ｂを撮像する。これにより、運転席２０Ａおよび助手席２０Ｂに座る乗員は、カメラ４Ａによって撮像される。また、カメラ４Ｂは、助手席２０Ｂの背面に設けられており、後部座席２０Ｃおよび２０Ｄを撮像する。これにより、後部座席２０Ｃおよび２０Ｄに座る乗員は、カメラ４Ｂによって撮像される。

カメラ４Ａおよび４Ｂは、映像を撮像したカメラ４が、カメラ４Ａおよび４Ｂのいずれであるかを特定可能な映像データを、制御装置１へ送信する。一例として、カメラ４Ａおよび４Ｂは、自機を識別するカメラ識別情報を映像データに対応付けて制御装置１へ送信する。

なお、車内空間２１０に設けられるカメラ４の数および設置位置は図２の例に限定されない。カメラ４の設置位置は、撮像すべき乗員の撮像すべき身体部位（典型的には、上半身）を撮像可能な位置であればよく、例えば、カメラ４Ａをハンドルとグローブボックスの間付近に設けてもよい。また、撮像範囲の狭いカメラを用いる場合、４つのカメラ４の各々を、各座席の前方に設置してもよい。また、例えば、ハンドルとグローブボックスの間付近に設けたカメラ４Ａで、後部座席２０Ｃおよび２０Ｄに座る乗員の撮像すべき部位を撮像可能であれば、車両２００にカメラ４Ｂを設けなくてもよい。

また、図２に示す例では、マイク５Ａ～５Ｄは、各座席の前方に、集音部を各座席側に向けて設けられている。具体的には、マイク５Ａは、運転席２０Ａの前方のハンドル付近に、集音部を運転席２０Ａ側に向けて設けられている。マイク５Ｂは、助手席２０Ｂの前方のグローブボックス付近に、集音部を助手席２０Ｂ側に向けて設けられている。指向性スピーカ３Ｃは、後部座席２０Ｃの前方の運転席２０Ａの背面に、集音部を後部座席２０Ｃ側に向けて設けられている。指向性スピーカ３Ｄは、後部座席２０Ｄの前方の助手席２０Ｂの背面に、集音部を後部座席２０Ｄ側に向けて設けられている。

本実施形態に係るマイク５Ａ～５Ｄは、集音部が向けられた座席に座る乗員が発した音声のみを集音することができるように、その集音範囲に指向性を有している。具体的には、マイク５Ａ～５Ｄは、集音部から当該集音部が向けられた座席までの範囲（すなわち、集音部の前方）の集音感度が高く、その他の範囲の集音感度が低くなっている。これにより、マイク５Ａは、車両２００の乗員のうち、運転席２０Ａに座る乗員の発した音声のみを集音する。マイク５Ｂは、車両２００の乗員のうち、助手席２０Ｂに座る乗員の発した音声のみを集音する。マイク５Ｃは、車両２００の乗員のうち、後部座席２０Ｃに座る乗員の発した音声のみを集音する。マイク５Ｃは、車両２００の乗員のうち、後部座席２０Ｄに座る乗員の発した音声のみを集音する。

マイク５Ａ～５Ｄは、集音したマイク５が、マイク５Ａ～５Ｄのいずれであるかを特定可能な音声信号を、制御装置１へ送信する。一例として、マイク５Ａ～５Ｄは、自機を識別するマイク識別情報を音声信号に対応付けて制御装置１へ送信する。

なお、車内空間２１０に設けられるマイク５の数および設置位置は図２の例に限定されない。例えば、音声が発せられた方向を特定可能であれば、車内空間２１０全体を集音範囲とするマイク１つを、車両２００の適切な位置（例えば、図２の点Ｏの位置）に設けてもよい。また、図２では、マイク５と座席との対応を示すために、各座席の前方にマイク５が設けられている例としたが、マイク５は、指向性スピーカ３の出力する音声を集音せず、各座席に座る乗員の発話音声のみを集音する位置に設けられることが望ましい。

また、図２の例における音源２は、車内空間２１０に持ち込むことが可能な情報端末と、車内空間２１０に予め設置されている車載音源とを含む。車載音源の具体例としては、車載ラジオ、車載テレビ、カーオーディオなどが挙げられるが、これに限定されない。

また、本実施形態では、制御装置１は車両２００に設けられているものとして説明する。車両２００における制御装置１の設置位置は、音源２、指向性スピーカ３、カメラ４およびマイク５と通信可能に接続できる位置であれば、特に限定されない。なお、制御装置１は、音源２、指向性スピーカ３、カメラ４およびマイク５と通信可能に接続できるのであれば、車両２００とは異なる位置に設けられてもよい。例えば、車両２００と通信可能に接続されたネットワーク上のサーバ装置に設けられてもよい。

（制御装置１の詳細）
再び図１を参照し、制御装置１の詳細について説明する。制御装置１は、映像認識部１１、音声認識部１２、検出部１３、特定部１４、出力制御部１５、記憶部１６および通信部１７を備えている。なお以降、本実施形態に係る音声出力システム１００が、図２に示す車両２００に適用されている例を説明する。すなわち、以降の説明において、音声出力システム１００のユーザは、車両２００の乗員である。

記憶部１６は、制御装置１によって用いられる各種データを記憶するものである。記憶部１６は、図１に示すように、音源設定１６１を少なくとも記憶している。なお、記憶部１６は、制御装置１がアクセス可能な外部の記憶装置として実現されてもよい。

通信部１７は、音源２として動作する情報端末から情報を受信する。当該情報の一例は、情報端末の向きに関する情報（以下では「向き情報」と表記する）である。向き情報については後述する。なお、通信部１７は、情報端末へ情報を送信する機能を備えていてもよい。また、通信部１７は、情報端末以外の音源２と情報の送受信を行ってもよい。

映像認識部１１は、カメラ４が撮像した映像の認識処理を行う。映像認識部１１は、動き認識部１１１、視線認識部１１２および端末認識部１１３を含む。映像認識部１１は、映像の認識結果を、取得した映像データに対応付けられたカメラ識別情報とともに検出部１３へ出力する。

動き認識部１１１は、映像に映る乗員の身体部位の動きを認識する。なお、身体部位の動きの認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、動き認識部１１１は、身体部位が映る映像データから身体部位の動きを推定するための動き推定モデルを用いて、乗員の身体部位の動きを認識する。当該動き推定モデルは、記憶部１６に記憶されていてもよい。

視線認識部１１２は、映像に映る乗員の視線、すなわち、乗員が見ている方向を認識する。なお、視線の認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、視線認識部１１２は、眼が映る映像データから視線を推定するための視線推定モデルを用いて、乗員の視線を認識する。当該視線推定モデルは、記憶部１６に記憶されていてもよいし、制御装置１と通信可能に接続されている他の装置に記憶されていてもよい。

端末認識部１１３は、映像中に映る情報端末の動きおよび向きを認識する。なお、情報端末におけるこれらの認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、端末認識部１１３は、情報端末が映る映像データから情報端末の動きおよび向きを推定するための端末推定モデルを用いて、情報端末の動きおよび向きを認識する。当該端末推定モデルは、記憶部１６に記憶されていてもよいし、制御装置１と通信可能に接続されている他の装置に記憶されていてもよい。

また、端末認識部１１３は、通信部１７を介して情報端末からリアルタイムに受信する向き情報に基づき、情報端末の向きを認識してもよい。向き情報は、慣性情報および電波強度情報の少なくともいずれかである。慣性情報は、例えば情報端末が備える慣性センサが測定する情報である。慣性センサは、例えば、３軸加速度センサ、３軸角速度センサ、３軸方位センサ、またはこれらの組合せからなる９軸センサであるが、これらに限定されない。電波強度情報は、Bluetooth等の無線接続の信号強度（ＲＳＳＩ：Received Signal Strength Indicator）を示す情報である。

なお、カメラ４は、身体部位の動きの認識、視線の認識、並びに、情報端末の動きおよび向きの認識に必要な機能を備えている。例えば、視線の認識に赤外線画像が必要である場合、カメラ４は赤外線カメラとしての機能を備えている。

音声認識部１２は、マイク５が集音した音声について、音声認識処理を行う。具体的には、音声認識部１２は、マイク５から取得した音声信号をテキストデータに変換し、当該テキストデータを検出部１３に出力する。なお、音声認識処理は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、音声認識部１２は、音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデル、発音辞書および言語モデルを含み、音声認識部１２は、音響分析を行った音声信号を当該音声認識モデルに入力することにより、認識結果、すなわち音声信号から変換されたテキストデータを得る。音声認識モデルは、既存のディープラーニング技術により生成されてもよい。当該音声認識モデルは、記憶部１６に記憶されていてもよいし、制御装置１と通信可能に接続されている他の装置に記憶されていてもよい。

音声認識部１２は、音声認識結果として得られたテキストデータに基づき、集音された音声が発話であるか否かを判定する。発話であると判定した場合、音声認識部１２は、当該テキストデータを、取得した音声信号に対応付けられたマイク識別情報とともに検出部１３へ出力する。発話でないと判定した場合、音声認識部１２は、テキストデータを検出部１３へ出力することなく、処理を終了する。なお、音声認識部１２は、発話であるか否かの判定結果を、音声認識結果とともに音声認識モデルから取得してもよい。換言すれば、発話であるか否かの判定は、音声認識モデルにより行われてもよい。また、発話でない音声とは、例えば、車内空間２１０内で発生した雑音等であるが、これに限定されない。

なお、上述の「制御装置１と通信可能に接続されている他の装置」は、例えば、クラウドサーバとして実現されていてもよい。

検出部１３は、指向性スピーカ３の出力先空間に存在する乗員の共有開始言動を検出する。出力先空間とは、指向性スピーカ３が音声を出力する空間である。すなわち、本実施形態に係る検出部１３は、車内空間２１０に存在する乗員の共有開始言動を検出する。

検出部１３は、カメラ４により撮像された画像から、共有開始言動として乗員の所定動作を検出する。所定動作は、共有開始言動の少なくとも一部である。具体的には、検出部１３は、映像認識部１１から取得した、カメラ４により撮像された映像の認識結果に基づき、当該映像において、乗員の所定動作が行われているか否かを判定する。検出部１３は、所定動作が行われていると判定した場合、取得した認識結果およびカメラ識別情報を、特定部１４へ出力する。一方、検出部１３は、所定動作が行われていないと判定した場合、共有開始言動の検出処理を終了する。なお、検出部１３が検出する所定動作の具体例については後述する。

また、検出部１３は、マイク５に入力された音声から、共有開始言動として乗員が発した所定発話を検出する。所定発話は、共有開始言動の少なくとも一部である。具体的には、検出部１３は、音声認識部１２から取得した、マイク５に入力された音声の認識結果であるテキストデータに基づき、当該音声が、所定発話であるか否かを判定する。検出部１３は、所定発話であると判定した場合、取得したテキストデータおよびマイク識別情報を、特定部１４へ出力する。一方、検出部１３は、所定発話でないと判定した場合、共有開始言動の検出処理を終了する。なお、検出部１３が検出する所定発話の具体例については後述する。

なお、本実施形態では、共有開始言動は、所定の順序で行われた複数の所定動作からなる（発話を含まない）、または、所定の順序で発せられた複数の所定発話からなる（動作を含まない）とする。つまり、検出部１３は、映像の認識結果およびカメラ識別情報、または、音声認識結果（テキストデータ）およびマイク識別情報、を特定部１４へ出力する。なお、所定の順序とは、音声の共有を開始するための所定動作または所定発話の次に、音声の共有を承諾するための所定動作または所定発話が行われることを指す。

特定部１４は、検出された共有開始言動に応じて、音源２のうち注目する音源、および、制御対象とする指向性スピーカ３を特定する。特定部１４は、音源特定部１４１およびスピーカ特定部１４２を含む。

音源特定部１４１は、検出された共有開始言動に応じて、上記注目する音源を特定する。具体的には、音源特定部１４１は、映像の認識結果およびカメラ識別情報、または、音声認識結果（テキストデータ）およびマイク識別情報を検出部１３から取得し、当該取得したデータと、記憶部１６に記憶されている音源設定１６１とに基づき、注目する音源を特定する。

図３は、音源設定１６１の一具体例を示す図である。音源設定１６１は、音源２と、当該音源２が発する音声を出力している指向性スピーカ３との組み合わせを示す情報である。図３では、音源設定１６１がテーブル形式のデータベースである例を示しているが、音源設定１６１のデータ形式はこの例に限定されない。

図３は、音源設定１６１の例として、音源設定１６１Ａおよび１６１Ｂを示している。音源設定１６１Ａは、特定部１４による処理の実行前における音源設定１６１であり、音源設定１６１Ｂは、当該処理の実行後における音源設定１６１である。

「スピーカ」カラムには、車内空間２１０に設けられている指向性スピーカ３を示す情報が格納されている。図３の例では、指向性スピーカ３Ａ～３Ｄの各々を示す情報が、各レコードに格納されている。なお以降、「スピーカ」カラムに格納された情報をスピーカ情報と表記する場合がある。「音源」カラムには、各指向性スピーカ３に音声を出力させている音源２を示す情報が格納されている。なお以降、「音源」カラムに格納された情報を音源情報と表記する場合がある。

音源設定１６１Ａによれば、指向性スピーカ３Ａは、車載ラジオである音源２Ａが発する音声を出力している。指向性スピーカ３Ｂは、携帯ゲーム機である音源２Ｂが発する音声を出力している。指向性スピーカ３Ｃは、スマートフォンである音源２Ｃが発する音声を出力している。指向性スピーカ３Ｄは、スマートフォンである音源２Ｄが発する音声を出力している。なお、「共有制御」カラムおよび「共有前音源」カラムについては後述する。

再び図１を参照し、音源特定部１４１を説明する。まず、乗員が所定動作からなる共有開始言動を行った結果、特定部１４が映像の認識結果およびカメラ識別情報を取得した場合について説明する。音源特定部１４１は、取得したカメラ識別情報に基づき、映像を撮影したカメラ４を特定する。続いて、音源特定部１４１は、カメラ４の特定結果および映像の認識結果に基づき、共有開始言動を開始した乗員が存在する空間を特定する。当該空間は、すなわち、共有開始言動を開始した乗員が聴取している音声を出力している指向性スピーカ３の出力先空間である。本実施形態では、音源特定部１４１は、共有開始言動を開始した乗員が座っている座席を特定することにより、当該空間を特定する。続いて、音源特定部１４１は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ３を特定する。続いて、音源特定部１４１は、指向性スピーカ３の特定結果と、音源設定１６１とに基づき、指向性スピーカ３に設定されている音源２を特定する。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、音源特定部１４１は、映像を撮影したカメラ４がカメラ４Ｂであると特定し、共有開始言動を開始したユーザである乗員が座っている座席を後部座席２０Ｄであると特定する。続いて、音源特定部１４１は、後部座席２０Ｄに設けられている指向性スピーカ３Ｄを特定し、音源設定１６１Ａに基づき、指向性スピーカ３Ｄに設定されている音源２Ｄを特定する。

続いて、乗員が所定発話からなる共有開始言動を行った結果、特定部１４が音声認識結果およびマイク識別情報を取得した場合について説明する。音源特定部１４１は、取得したマイク識別情報に基づき、集音したマイク５を特定する。続いて、音源特定部１４１は、マイク５の特定結果および音声認識結果に基づき、共有開始言動を開始した乗員が座っている座席を特定することにより、当該乗員が存在する空間を特定する。続いて、音源特定部１４１は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ３を特定する。続いて、音源特定部１４１は、指向性スピーカ３の特定結果と、音源設定１６１とに基づき、指向性スピーカ３に設定されている音源２を特定する。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、音源特定部１４１は、集音したマイク５がマイク５Ｃおよびマイク５Ｄであると特定し、共有開始言動を開始したユーザである乗員が座っている座席を後部座席２０Ｄであると特定する。続いて、音源特定部１４１は、後部座席２０Ｄに設けられている指向性スピーカ３Ｄを特定し、音源設定１６１Ａに基づき、指向性スピーカ３Ｄに設定されている音源２Ｄを特定する。

スピーカ特定部１４２は、検出された共有開始言動に応じて、制御対象とする指向性スピーカ３を特定する。具体的には、スピーカ特定部１４２は、映像の認識結果およびカメラ識別情報、または、音声認識結果およびマイク識別情報を検出部１３から取得し、当該取得したデータに基づき、制御対象とする指向性スピーカ３を特定する。

まず、乗員が所定動作からなる共有開始言動を行った結果、特定部１４が映像の認識結果およびカメラ識別情報を取得した場合について説明する。スピーカ特定部１４２は、取得したカメラ識別情報に基づき、映像を撮影したカメラ４を特定する。続いて、スピーカ特定部１４２は、カメラ４の特定結果および映像の認識結果に基づき、共有開始言動を成立させたユーザである乗員が座っている座席を特定する。すなわち、スピーカ特定部１４２は、映像中の乗員のうち、共有を承諾するための所定動作を行った乗員を特定し、当該乗員が座っている座席を特定する。続いて、スピーカ特定部１４２は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ３を、制御対象として特定する。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、スピーカ特定部１４２は、映像を撮影したカメラ４がカメラ４Ｂであると特定し、共有開始言動を成立させたユーザである乗員が座っている座席を後部座席２０Ｃであると特定する。続いて、スピーカ特定部１４２は、後部座席２０Ｃに設けられている指向性スピーカ３Ｃを制御対象として特定する。

続いて、乗員が所定発話からなる共有開始言動を行った結果、特定部１４が音声認識結果およびマイク識別情報を取得した場合について説明する。スピーカ特定部１４２は、取得したマイク識別情報に基づき、集音したマイク５を特定する。続いて、スピーカ特定部１４２は、マイク５の特定結果および音声認識結果に基づき、共有開始言動を成立させたユーザである乗員が座っている座席を特定する。すなわち、スピーカ特定部１４２は、共有を承諾するための所定発話を行った乗員を特定し、当該乗員が座っている座席を特定する。続いて、スピーカ特定部１４２は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ３を、制御対象として特定する。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、スピーカ特定部１４２は、集音したマイク５がマイク５Ｃおよびマイク５Ｄであると特定し、共有開始言動を成立させたユーザである乗員が座っている座席を後部座席２０Ｃであると特定する。続いて、スピーカ特定部１４２は、後部座席２０Ｃに設けられている指向性スピーカ３Ｃを制御対象として特定する。

特定部１４は、特定した音源２および指向性スピーカ３に基づき、音源設定１６１の「音源」カラムを更新する。例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、上述したとおり、音源２Ｄおよび指向性スピーカ３Ｃが特定される。特定部１４は、この特定結果に基づき、音源設定１６１Ａにおいて指向性スピーカ３Ｃに対応付けられていた音源２Ｃを、音源設定１６１Ｂに示すように、音源２Ｄに変更する。特定部１４は、音源設定１６１の更新を出力制御部１５へ通知する。

また、特定部１４は、音源設定１６１の「共有制御」および「共有前音源」カラムを更新する。「共有制御」カラムには、制御対象として特定された指向性スピーカ３であるか否かを示すフラグが格納される。なお、図３の例では、「０」が制御対象として特定された指向性スピーカ３でないことを示し、「１」が制御対象として特定された指向性スピーカ３であることを示すフラグであるが、制御対象として特定された指向性スピーカ３であるか否かを示すフラグはこれに限定されない。また以降、当該フラグを共有制御フラグと表記する場合がある。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、特定部１４は、指向性スピーカ３Ｃのスピーカ情報を含むレコードにおいて、共有制御フラグを「０」から「１」に変更する。

「共有前音源」カラムには、特定部１４が制御対象として特定した指向性スピーカ３について、制御開始直前に設定されていた音源２を示す情報が格納される。つまり、「共有前音源」カラムには、特定部１４による制御対象の指向性スピーカ３の特定をトリガとして、この特定前に「音源」カラムに格納されていた音源情報が格納される。なお以降、「共有前音源」カラムに格納される情報を共有前音源情報と表記する場合がある。

例えば、後部座席２０Ｄに座る乗員が共有開始言動を開始したユーザであり、後部座席２０Ｃに座る乗員が共有開始言動を成立させたユーザである場合、指向性スピーカ３Ｃのスピーカ情報を含むレコードにおいて、音源２Ｃを示す共有前音源情報が格納される。また、指向性スピーカ３Ｄのスピーカ情報を含むレコードにおいて、音源２Ｄを示す共有前音源情報が格納される。

なお、特定部１４が制御対象として特定した指向性スピーカ３について、制御開始直前に音源２が設定されていない場合、当該指向性スピーカ３のスピーカ情報を含むレコードにおいて共有前音源情報は格納されない。

また、図３に示す音源設定１６１Ｂの例において、指向性スピーカ３Ａのスピーカ情報を含むレコードと、指向性スピーカ３Ｂのスピーカ情報を含むレコードとは、これら指向性スピーカ３が制御対象として特定されていないため、特定部１４はこれらのレコードについて共有前音源情報の更新を行わない。

出力制御部１５は、音源設定１６１に基づき、音源２が発する音声を指向性スピーカ３のいずれかから出力させる。つまり、出力制御部１５は、特定部１４により特定された音源２が発する音声を、特定部１４により特定された指向性スピーカ３の各々から出力させる。図３に示す音源設定１６１Ｂの例の場合、出力制御部１５は、特定部１４からの通知を受けると、音源設定１６１Ｂを参照し、音源２Ｄが発する音声を、指向性スピーカ３Ｄに加え、指向性スピーカ３Ｄからも出力させる。これにより、後部座席２０Ｃおよび２０Ｄに座っている乗員間で、音源２Ｄが発する音声が共有される。

なお、特定部１４により特定された指向性スピーカ３から、特定部１４により特定された音源２が発する音声を出力させる方法は、特に限定されない。出力制御部１５は例えば、当該指向性スピーカ３と音源２との現在のペアリングを解除し、特定された音源２を、特定された指向性スピーカ３とペアリングしてもよい。また、出力制御部１５は例えば、特定された音源２がペアリングされている指向性スピーカ３から、特定された指向性スピーカ３へ音声データを送信することにより、特定された音源２が発する音声を、特定された指向性スピーカ３から出力させてもよい。

（共有処理の流れ）
図４は、制御装置１が実行する共有処理の流れの一例を示すフローチャートである。ステップＳ１において、映像認識部１１は、カメラ４から映像データを取得する。ステップＳ２において、映像認識部１１は、映像に映る乗員の身体部位の動きと、情報端末の動きおよび向きとを認識する。当該身体部位の動きは、乗員の視線の動きを含む。映像認識部１１は、この認識処理の結果と、取得した映像データに対応付けられたカメラ識別情報とを、検出部１３へ出力する。

ステップＳ３において、音声認識部１２は、マイク５から音声信号を取得する。ステップＳ４において、音声認識部１２は、音声認識および発話判定を行い、取得した音声信号が示す音声が発話であると判定した場合、音声認識結果と、取得した音声信号に対応付けられたマイク識別情報とを、検出部１３へ出力する。

ステップＳ５（検出ステップ）において、検出部１３は、共有開始言動を検出する。検出部１３は、取得した映像の認識結果および音声認識結果に基づき、共有開始言動が行われたか否かを判定する。共有開始言動が行われたと判定した場合（ステップＳ５でＹＥＳ）、検出部１３は、取得した映像の認識結果およびカメラ識別情報、または、音声認識結果およびマイク識別情報を特定部１４へ出力し、共有処理はステップＳ６へ進む。共有開始言動が行われなかったと判定した場合（ステップＳ５でＮＯ）、共有処理はステップＳ１へ戻る。

ステップＳ６（特定ステップ）において、音源特定部１４１は、共有する音源２を特定する。具体的には、特定部１４は、検出部１３から取得したデータと、音源設定１６１とに基づき、当該音源２を特定する。

ステップＳ７（特定ステップ）において、スピーカ特定部１４２は、制御対象とする指向性スピーカ３を特定する。具体的には、スピーカ特定部１４２は、検出部１３から取得したデータに基づき、当該指向性スピーカ３を特定する。特定部１４は、特定した音源２および指向性スピーカ３に基づき、音源設定１６１を更新し、その旨を出力制御部１５へ通知する。

ステップＳ８（出力制御ステップ）において、出力制御部１５は、特定された指向性スピーカ３から、特定された音源２が発する音声を出力させる。具体的には、出力制御部１５は、特定部１４からの通知を受けると、音源設定１６１を参照する。当該音源設定１６１において、特定された音源２は、音源設定１６１の更新により、特定された指向性スピーカ３に対応付けられているので、出力制御部１５は、特定された指向性スピーカ３から、特定された音源２が発する音声を出力させることができる。以上で、共有処理は終了する。

なお、車内空間２１０で音声が発生していない場合、ステップＳ３およびＳ４の処理は省略される。また、車内空間２１０で発生した音声について、ステップＳ４にて音声認識部１２が当該音声を発話でないと判定した場合、音声認識部１２は、音声認識結果およびマイク識別情報を検出部１３へ送信しない。

（共有開始言動の具体例１）
図５は、車内空間２１０で行われる共有開始言動の一具体例を示す図である。図５に示す共有開始言動は所定動作からなり、音源２として動作する情報端末の位置を所定経路で移動させる、乗員の身体部位の動きを含む。具体的には、図５に示す共有開始言動は、以下の所定動作からなる。なお、図５に示す音源２Ｄは、表示部を備えるスマートフォンである。（１）音源２Ｄが設定されている指向性スピーカ３Ｄの出力先空間に存在する乗員９０Ｄが、音源２Ｄが設定されていない指向性スピーカ３Ｃの出力先空間に存在する乗員９０Ｃへ音源２Ｄを近づける。（２）乗員９０Ｄが、音源２Ｄの表示部を見る。（３）乗員９０Ｃが、音源２Ｄの表示部を見る。

ここで、指向性スピーカ３Ｃおよび３Ｄの出力先空間は、それぞれ、後部座席２０Ｃおよび２０Ｄに形成される。また、（２）および（３）の所定動作は、（１）の所定動作の後であれば、その順序は特に限定されない。

検出部１３は、映像の認識結果から、以下の点を検出することにより、共有開始言動を検出する。（Ａ）乗員９０Ｄの音源２Ｄを把持する手の動きが、乗員９０Ｃへ近づく動きである。（Ｂ）音源２Ｄの表示部が、乗員９０Ｃおよび９０Ｄの側に向いている。（Ｃ）乗員９０Ｃおよび９０Ｄの視線が音源２Ｄに向いている。

検出部１３は、上記（Ａ）の検出を、動き認識部１１１の認識結果と、端末認識部１１３の認識結果（情報端末の動きの認識結果）とから行う。検出部１３は、上記（Ｂ）の検出を、端末認識部１１３の認識結果（情報端末の向きの認識結果）から行う。検出部１３は、上記（Ｃ）の検出を、視線認識部１１２の認識結果から行う。

検出部１３は、上記（Ａ）～（Ｃ）をすべて検出した場合、共有開始言動を検出したとして、映像の認識結果およびカメラ識別情報を特定部１４へ出力する。一方、検出部１３は、上記（Ａ）～（Ｃ）の何れかを検出しなかった場合、共有開始言動を検出していないとして、映像の検出結果およびカメラ識別情報を特定部１４へ出力しない。例えば、乗員９０Ｃの視線が音源２Ｄに向いていない場合、映像の認識結果およびカメラ識別情報を特定部１４へ出力しない。これにより、特定部１４は、上記（Ａ）～（Ｃ）のすべてが検出された場合、映像の認識結果およびカメラ識別情報に基づき、注目する音源２および制御対象の指向性スピーカ３の特定を行う。一方、特定部１４は、上記（Ａ）～（Ｃ）の何れかが検出されなかった場合、注目する音源２および制御対象の指向性スピーカ３の特定を行わない。すなわち、乗員９０Ｄが音源２Ｄの表示部を自身の側に向けて乗員９０Ｃへ近づけた場合、乗員９０Ｃの視線が音源２Ｄに向いていれば、特定部１４は注目する音源２および制御対象の指向性スピーカ３の特定を行う。一方、乗員９０Ｃの視線が音源２Ｄに向いていない場合、特定部１４は注目する音源２および制御対象の指向性スピーカ３の特定を行わない。

なお、共有開始言動を構成する所定動作は、上記（１）～（３）の所定動作に限定されない。例えば、当該所定動作は、上記（１）および（３）の動作のみである、すなわち、乗員９０Ｄが、情報端末の表示部を見る動作を含んでいなくてもよい。この例の場合、検出部１３は、上記（Ｂ）および（Ｃ）に代えて、以下の（Ｂ’）および（Ｃ’）を検出する。（Ｂ’）音源２Ｄの表示部が、乗員９０Ｄの側に向いている。（Ｃ’）乗員９０Ｄの視線が音源２Ｄに向いていることを検出する。

あるいは、共有開始言動を構成する所定動作における上記（２）の動作は、情報端末以外を見る動作であってもよい。例えば、上記（２）の動作は、上記９０Ｄが乗員９０Ｃを見る動作であってもよい。この例の場合、検出部１３は、上記（Ａ）および（Ｂ’）、並びに、乗員９０Ｄの視線が乗員９０Ｃに向いていることを検出する。

図５に示す共有開始言動は、すなわち、音源２Ｄが発する音声を指向性スピーカ３Ｃを介して聴取している乗員９０Ｄが、当該音声の聴取を乗員９０Ｃに勧め、乗員９０Ｃが承諾するときの、乗員９０Ｃおよび９０Ｄの動作である。つまり、車両２００の乗員は、複数人で音声を共有する場合に行う一般的な動作により、各乗員が存在する座席に設けられた指向性スピーカ３から、同一の音源２が発する音声を出力し、乗員間での音声共有を実現することができる。結果として、車両２００の乗員は、音声共有のためのユーザインターフェースに対する入力操作を行うことなく音声の共有を実現することができるので、上記入力操作の煩わしさを感じることなく音声の共有を実現することができる。

（共有開始言動の具体例２）
図６は、車内空間２１０で行われる共有開始言動の別の具体例を示す図である。なお、図６に示す具体例について、図５に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。

図６に示す共有開始言動は所定発話からなり、当該所定発話は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを含む。具体的には、図６に示す共有開始言動は、以下の所定発話からなる。（４）乗員９０Ｄが、「これ聴いて」との、音源を提供する内容の発話を行う。（５）乗員９０Ｃ（第２ユーザ）が、「ＯＫ」との肯定的に応答する発話を行う。

検出部１３は、音声認識結果から、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを検出することにより、共有開始言動を検出する。なお、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とは、図６の例に限定されない。つまり、検出部１３は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とについて、複数のバリエーションを検出可能である。検出部１３は例えば、記憶部１６に記憶されている当該複数のバリエーションの各々を示すテキストを参照し、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを検出する。

検出部１３は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話との両方を検出した場合、共有開始言動を検出したとして、音声認識結果およびマイク識別情報を特定部１４へ出力する。一方、検出部１３は、これら発話の何れかを検出しなかった場合、共有開始言動を検出していないとして、音声認識結果およびマイク識別情報を特定部１４へ出力しない。例えば、乗員９０Ｃによる発話が、乗員９０Ｄによる「これ聴いて」との発話に否定的に応答する発話である場合、検出部１３は、音声認識結果およびマイク識別情報を特定部１４へ出力しない。なお、否定的に応答する発話とは、例えば、「嫌」、「ごめん」、「聴かない」などであるが、これに限定されない。

（所定言動の具体例３）
図７は、車内空間２１０で行われる共有開始言動のさらなる別の具体例を示す図である。なお、図７に示す具体例について、図５および図６に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。

図７に示す共有開始言動は所定発話からなり、当該所定発話は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを含む。具体的には、図６に示す共有開始言動は、以下の所定発話からなる。（６）乗員９０Ｃが、「Ｄさん、○○聴かせて」との、音源の享受を希望する内容の発話を行う。（７）乗員９０Ｄ（第３ユーザ）が、「ＯＫ」との肯定的に応答する発話を行う。

検出部１３は、音声認識結果から、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを検出することにより、共有開始言動を検出する。なお、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とは、図７の例に限定されない。つまり、検出部１３は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とについて、複数のバリエーションを検出可能である。検出部１３は例えば、記憶部１６に記憶されている当該複数のバリエーションの各々を示すテキストを参照し、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを検出する。

検出部１３は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話との両方を検出した場合、共有開始言動を検出したとして、音声認識結果およびマイク識別情報を特定部１４へ出力する。一方、検出部１３は、これら発話の何れかを検出しなかった場合、共有開始言動を検出していないとして、音声認識結果およびマイク識別情報を特定部１４へ出力しない。例えば、乗員９０Ｄによる発話が、乗員９０Ｃによる「Ｄさん、○○聴かせて」との発話に否定的に応答する発話である場合、検出部１３は、音声認識結果およびマイク識別情報を特定部１４へ出力しない。なお、否定的に応答する発話とは、例えば、「嫌」、「ごめん」などであるが、これに限定されない。

具体例２および３に記載のとおり、車両２００の乗員は、複数人で音声を共有する場合に行う一般的な会話を行うことにより、各乗員が存在する座席に設けられた指向性スピーカ３から、同一の音源２が発する音声を出力し、乗員間での音声共有を実現することができる。結果として、車両２００の乗員は、ユーザインターフェースに対する入力操作を行うことなく音声の共有を実現することができるので、上記入力操作の煩わしさを感じることなく音声の共有を実現することができる。

（変形例）
上述した実施形態では、音源２の発した音声が制御装置１を介して指向性スピーカ３から出力される例を説明したが、音源２の発した音声は制御装置１を介さずに直接指向性スピーカ３から出力されてもよい。例えば、指向性スピーカ３は、Bluetoothにより音源２のいずれかと直接接続され、音源２が発する音声を出力してもよい。この接続は、制御装置１を介さずに行われてもよいが、音源２および指向性スピーカ３のいずれか一方が、この接続を示す情報、すなわちペアリングされた音源２と指向性スピーカ３とを示す情報を制御装置１へ送信することが望ましい。

この例に係る出力制御部１５は、特定部１４により特定された音源２が発する音声が、特定部１４により特定された指向性スピーカ３からも出力されるように、当該音源２、特定前から当該音源２と接続されていた指向性スピーカ３、および、特定部１４により特定された指向性スピーカ３の少なくともいずれかに指示する。

また、上述した実施形態では、共有開始言動が所定動作のみ、または、所定発話のみからなる例を説明したが、共有開始言動は、所定動作および所定発話からなるものであってもよい。例えば、共有開始言動は、音源を提供する旨または音源の享受を希望する旨の発話と、当該発話に肯定的に応答する動作であってもよい。この例の場合、検出部１３は、映像の認識結果およびカメラ識別情報と、音声認識結果およびマイク識別情報とを特定部１４へ出力する。

特定部１４は、例えば、音声認識結果およびマイク識別情報から、注目する音源２を特定する。また、特定部１４は、例えば、映像の認識結果およびカメラ識別情報とから、制御対象となる指向性スピーカ３を特定する。これらの特定の詳細は、実施形態１で説明しているため、ここでは説明を繰り返さない。

また、共有開始言動は、１人のユーザによる動作または発話であってもよい。一例として、検出部１３は、乗員９０Ｄが乗員９０Ｃへ音源２Ｄを近づける動作を行った場合、当該動作のみを共有開始言動として検出してもよい。つまり、承諾するための言動は省略されてもよい。

また、特定部１４は、ユーザの発話の内容に基づき、制御対象となる指向性スピーカ３を特定してもよい。例えば、特定部１４は、音源の享受を希望する旨の発話を示す音声認識結果に、「みんな」が含まれている場合、注目する音源２に設定されている指向性スピーカ３以外の、すべての指向性スピーカ３を、制御対象として特定してもよい。この例において、検出部１３は、例えば、「みんな、これ聴いて」との発話を含む言動を共有開始言動として検出してもよい。

また、検出部１３は、「みんな、これ聴いて」との発話のみを共有開始言動として検出してもよい。また、特定部１４は、この例において、車両２００の各座席に乗員が座っているか否かを特定し、注目する音源２に設定されている指向性スピーカ３以外の、すべての指向性スピーカ３のうち、乗員が座っている座席に設けられている指向性スピーカ３を、制御対象として特定してもよい。特定部１４は、乗員が座っているか否かの特定を、例えば、座席の座面に設けられた重量センサの測定データに基づき行ってもよい。

また、出力制御部１５は、注目する音源２が情報端末である場合、当該音源２と、制御対象として特定された指向性スピーカ３とを接続するBluetoothの電波強度をリアルタイムで測定し、当該電波強度に応じた制御を行ってもよい。

例えば、出力制御部１５は、電波強度の低下に応じて、制御対象となっている指向性スピーカ３から出力される音声の音量を低下（フェードアウト）させてもよい。つまり、出力制御部１５は、情報端末と指向性スピーカ３との距離の増大に応じて、制御対象となっている指向性スピーカ３から出力される音声の音量を低下させる。そして、情報端末と指向性スピーカ３との距離がBluetoothによる接続ができない距離となると、Bluetoothによる接続が解除され、当該情報端末が発する音声を当該指向性スピーカ３から出力することができなくなる。よって、制御装置１は、この構成により、情報端末と指向性スピーカ３との接続解除に伴う音声出力の終了を自然なものとすることができる。

また、出力制御部１５は、注目する音源２と、制御対象として特定された指向性スピーカ３とのBluetoothによる接続が解除された場合、当該音源２と指向性スピーカ３との組み合わせを記憶部１６に記憶しておくことが好ましい。そして、出力制御部１５は、接続が解除された音源２である情報端末について、測定している電波強度が所定の強度以上となった場合、上記組み合わせを参照し、当該情報端末と、指向性スピーカ３とを再接続してもよい。これにより、当該情報端末から発する音声の共有が再開される。また、出力制御部１５は、情報端末と、指向性スピーカ３とを再接続した後、電波強度の増大に応じて、制御対象となっている指向性スピーカ３から出力される音声の音量を増大（フェードイン）させてもよい。この構成により、制御装置１は、情報端末と指向性スピーカ３との再接続に伴う音声出力の再開を自然なものとすることができる。

また、音声出力システム１００は、複数の指向性スピーカ３に代えて、指向性を有さない複数のスピーカを含むものであってもよい。

また、制御装置１は、所定発話の検出から、注目する音源２および制御対象の指向性スピーカ３の特定までを、自然言語処理により行ってもよい。この例において、制御装置１は、当該自然言語処理を実現するために、発話に特定の単語が含まれる場合に、注目する音源２および制御対象の指向性スピーカ３を推定するよう学習された推定モデルを用いてもよい。また、この例の場合、音声認識結果を取得して当該推定モデルに入力し、推定結果に基づき音源２および指向性スピーカ３を特定する部材が、検出部１３および特定部１４に相当する。

なお、以上の変形例は、後述の実施形態にも適用可能である。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

本実施形態に係る制御装置１は、ユーザによる、終了を示す第２所定言動を検出した場合、音源を共有している指向性スピーカ３の各々からの、特定された音源が発する音声の出力を終了させる。なお以降、第２所定言動を共有終了言動と表記する。

具体的には、検出部１３は、実施形態１にて説明した所定言動に加え、上記共有終了言動を検出する。共有終了言動は、例えば、両腕を交差させ「×」を作るなどの所定動作（以下、第２所定動作と表記）であってもよいし、「おしまい」などの文言を含む所定発話（以下、第２所定発話と表記）であってもよい。

前者の例の場合、検出部１３は、映像の認識結果から第２所定動作を検出した場合、共有終了言動を検出したとして、映像の認識結果およびカメラ識別情報を特定部１４へ出力する。また後者の例の場合、検出部１３は、音声認識結果から第２所定発話を検出した場合、共有終了言動を検出したとして、マイク識別情報を特定部１４へ出力する。

特定部１４は、検出された共有終了言動に応じて、共有開始言動に基づき特定された指向性スピーカ３の各々からの、共有開始言動に基づき特定された音源が発する音声の出力を終了させる。

まず、乗員が第２所定動作からなる共有終了言動を行った結果、特定部１４が、映像の認識結果およびカメラ識別情報を取得した場合について説明する。特定部１４は、取得したカメラ識別情報に基づき、映像を撮影したカメラ４を特定する。続いて、特定部１４は、カメラ４の特定結果および映像の認識結果に基づき、共有終了言動を行った乗員が座っている座席を特定することにより、共有終了言動を行った乗員が存在する空間を特定する。続いて、特定部１４は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ３を特定する。続いて、特定部１４は、指向性スピーカ３の特定結果と、音源設定１６１とに基づき、指向性スピーカ３が出力している音声を発している音源２を特定する。続いて、特定部１４は、音源２の特定結果と、音源設定１６１とに基づき、特定した音源２が発している音声を出力している別の指向性スピーカ３があるか否かを判定する。

当該別の指向性スピーカ３があると判定した場合、特定部１４は、共有開始言動に基づき特定された指向性スピーカ３の各々からの、共有開始言動に基づき特定された音源２が発する音声の出力を終了させる。当該指向性スピーカ３は、すなわち、共有制御フラグが１である指向性スピーカ３である。特定部１４は、音源設定１６１において共有制御フラグが１である指向性スピーカ３について、音声出力を終了させる旨の終了指示を、出力制御部１５へ出力する。当該終了指示は、当該指向性スピーカ３のスピーカ情報と、当該スピーカ情報を含むレコードにおける共有前音源情報とを含む。

また、特定部１４は、音源設定１６１を更新する。具体的には、特定部１４は、終了指示のスピーカ情報を含むレコードについて、音源情報、共有制御フラグおよび共有前音源情報を更新する。より具体的には、特定部１４は、現在の音源情報を削除し、共有前音源情報を「音源」セルに移動させる。これにより「共有前音源」のセルは空欄となる。また、特定部１４は、共有制御フラグを「０」に変更する。

出力制御部１５は、終了指示が示す指向性スピーカ３について、現在の音声出力を終了させ、特定された指向性スピーカ３の各々について、出力制御部１５による制御開始直前に設定されていた音源２を再設定する。つまり、出力制御部１５は、終了指示が示す音源２からの音声出力を開始させる。これにより、車両２００の乗員は、注目する音源２が発する音声の共有終了後に、当該共有の直前に聴取していた音声を再聴取することができる。

一例として、出力制御部１５は、終了指示が示す指向性スピーカ３の現在の音声出力について、音量を徐々に下げ、音量が所定の音量以下となったときに、終了指示が示す音源２からの音声出力を開始させ、上記所定の音量と異なる所定の第２音量以上となるまで音量を徐々に上げてもよい。なお、第２音量は所定の音量より大きい値であることが好ましい。このように構成することにより、車両２００の乗員に対し、音源２が発する音声の共有直前に聴取していた音声を、自然な形で再聴取させることができる。

続いて、乗員が第２所定発話からなる共有終了言動を行った結果、特定部１４がマイク識別情報を取得した場合について説明する。特定部１４は、取得したマイク識別情報に基づき、集音したマイク５を特定する。続いて、特定部１４は、マイク５の特定結果に基づき、共有終了言動を行った乗員が座っている座席を特定することにより、共有終了言動を行った乗員が存在する空間を特定する。マイク５の各々と座席の各々とは１対１で対応づいているので、特定部１４は、第２所定発話を集音したマイク５を特定すれば、第２所定発話を発した乗員を特定することができる。以降の処理は、上述した映像の認識結果およびカメラ識別情報を取得した場合と同じであるため、ここでは説明を繰り返さない。

なお、特定した音源２が発している音声を出力している別の指向性スピーカ３が無いと判定した場合、特定部１４は終了指示を出力制御部１５へ出力しない。なお、当該別の指向性スピーカ３が無いと判定した場合とは、例えば、注目する音源２が発する音声を出力していない指向性スピーカ３の出力先空間に存在する乗員が、共有終了言動を行ってしまった場合である。

（共有終了処理の流れ）
図８は、制御装置１が実行する共有終了処理の流れの一例を示すフローチャートである。なお、図８に示すフローチャートにおいて、実施形態１で説明した共有処理と同じ処理を実行するステップには、同じステップ番号を付している。また、当該ステップについては、実施形態１ですでに説明しているため、ここでは説明を省略する。

ステップＳ１１において、検出部１３は、共有終了言動を検出する。検出部１３は、取得した映像の認識結果および音声認識結果に基づき、共有終了言動が行われたか否かを判定する。共有終了言動が行われたと判定した場合（ステップＳ１１でＹＥＳ）、検出部１３は、取得した映像の認識結果およびカメラ識別情報、または、マイク識別情報を特定部１４へ出力し、共有処理はステップＳ１２へ進む。共有終了言動が行われなかったと判定した場合（ステップＳ１１でＮＯ）、共有処理はステップＳ１へ戻る。

ステップＳ１２において、特定部１４は、音源共有中の指向性スピーカ３が、共有直前に接続していた音源２を特定する。特定部１４は、特定した音源２を示す情報を含む終了指示を、出力制御部１５へ出力する。

ステップＳ１３において、出力制御部１５は、各指向性スピーカ３から、特定した音源２が発する音声を出力する。つまり、特定部１４により制御対象として特定された指向性スピーカ３は、特定部１４により特定された音源２が発する音声出力を終了し、共有直前に設定されていた別の音源２が発する音声の出力を開始する。

（変形例）
共有終了言動が行われた場合の出力制御部１５の処理は、共有前音源情報が示す音源２が発する音声を出力する処理に限定されない。例えば、出力制御部１５は、注目する音源２と指向性スピーカ３との接続を解除する処理のみを行う、すなわち、共有の終了後に指向性スピーカ３に音声を出力させない構成であってもよい。

〔実施形態３〕
本発明のさらなる別の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

本実施形態に係る制御装置１は、各乗員の瞼がどれくらい開いているかを示す開瞼値に基づき、音声出力に関する制御を行う。

一例として、制御装置１は、所定値以上の開瞼値を検出した乗員に限り、特定部１４が特定した音源２が発する音声を共有する。具体的には、特定部１４は、カメラ４により撮像された映像の認識結果から開瞼値を特定し、当該開瞼値を所定値と比較する。そして、特定部１４は、開瞼値が所定値未満である乗員に音声を聴取させる指向性スピーカ３を、制御対象から除外する。

例えば、特定部１４は、共有開始言動の音声認識結果に「みんな」が含まれている場合に、映像の認識結果から、車両２００の各乗員の開瞼値を特定する。開瞼値が所定値未満の乗員が存在する場合、特定部１４は、カメラ識別情報から当該乗員が座る座席を特定し、当該座席に設けられた指向性スピーカ３を特定する。そして、特定部１４は、当該指向性スピーカ３を制御対象から除外する。

これにより、制御装置１は、開瞼値が所定値未満の乗員、換言すれば、睡眠をとっているまたは睡眠をとろうとしている乗員を、特定部１４が特定した音源２が発する音声の共有対象から外すことができる。よって、当該音声の共有対象となることを希望しない乗員に、音源２から発せられる音声を聴取させてしまう可能性を低減させることができる。

なお、開瞼値を用いた制御は、この例に限定されない。例えば、制御装置１は、制御対象として特定した指向性スピーカ３の出力先空間に存在する乗員の開瞼値をリアルタイムで測定し、当該指向性スピーカ３からの音声出力を制御してもよい。

例えば、特定部１４は、制御対象として特定した指向性スピーカ３の出力先空間に存在する、車両２００の乗員を撮影した映像の認識結果を、当該指向性スピーカ３が制御対象でなくなるまで、継続して取得する。特定部１４は、映像の認識結果から、乗員の開瞼値が所定値未満となったことを特定した場合、当該乗員に音声を聴取させる指向性スピーカ３の音量を、所定値まで低下させる。これにより、制御装置１は、乗員の睡眠を妨害しないようにすることができる。

〔ソフトウェアによる実現例〕
制御装置１（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に、映像認識部１１、音声認識部１２、検出部１３、特定部１４、出力制御部１５、および通信部１７）としてコンピュータを機能させるためのプログラムにより実現することができる。

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１制御装置
２、２Ａ～２Ｎ音源
３、３Ａ～３Ｎ指向性スピーカ（音声出力装置）
４、４Ａ、４Ｂカメラ（撮像装置）
５、５Ａ～５Ｄマイク（音声入力装置）
１３検出部
１４特定部
１５出力制御部
Ｓ５検出ステップ
Ｓ６特定ステップ
Ｓ７特定ステップ
Ｓ８出力制御ステップ

Claims

音源が発する音声を複数の音声出力装置から出力させる制御装置であって、
前記音源は前記音声出力装置毎に設定可能であり、
前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出部と、
前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定部と、
前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御部と、を備える制御装置。
前記検出部は、撮像装置により撮像された画像から、前記所定言動として前記ユーザの所定動作を検出する、請求項１に記載の制御装置。
前記検出部は、前記画像に含まれる前記ユーザの身体部位の動きに基づいて前記所定動作を検出する、請求項２に記載の制御装置。
前記身体部位の動きは、音源として動作する情報端末の位置を所定経路で移動させる動きを含み、
前記特定部は、前記情報端末を、前記注目する音源として特定する、請求項３に記載の制御装置。
前記所定経路は、前記情報端末が音源として設定されている音声出力装置の出力先空間に存在するユーザの側から、前記情報端末が音源として設定されていない音声出力装置の出力先空間に存在するユーザの側へ近づける経路であり、
前記特定部は、前記情報端末が音源として設定されていない音声出力装置を前記制御対象として特定する、請求項４に記載の制御装置。
前記検出部は、さらに、前記情報端末が近づけられたユーザの視線を検出し、
前記特定部は、
当該視線が前記情報端末に向いている場合、前記注目する音源および前記制御対象の特定を行い、
当該視線が前記情報端末に向いていない場合、前記注目する音源および前記制御対象の特定を行わない、請求項５に記載の制御装置。
前記検出部は、音声入力装置に入力された音声から、前記所定言動として前記ユーザが発した所定発話を検出する、請求項１から６のいずれか１項に記載の制御装置。
前記所定発話は、音源を提供する旨を含むものであり、
前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第２ユーザによる言動を検出し、
前記特定部は、
当該言動が肯定的である場合、前記所定発話を発したユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記第２ユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、
当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、請求項７に記載の制御装置。
前記所定発話は、音源の享受を希望する旨を含むものであり、
前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第３ユーザによる言動を検出し、
前記特定部は、
当該言動が肯定的である場合、前記第３ユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記所定発話を発したユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、
当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、請求項７または８に記載の制御装置。
前記検出部は、さらに、前記ユーザの、前記所定言動と異なる、終了を示す第２所定言動を検出し、
前記出力制御部は、前記第２所定言動が検出された場合、前記特定された前記音声出力装置の各々からの、前記特定された音源が発する音声の出力を終了させる、請求項１から９のいずれか１項に記載の制御装置。
前記出力制御部は、前記終了に伴い、前記特定された前記音声出力装置の各々について、前記出力制御部による制御開始直前に設定されていた音源を再設定する、請求項１０に記載の制御装置。
前記音声出力装置の各々は、
音声を発する方向に指向性を有するものであり、
異なる前記音声出力装置から出力された複数の音声が到達する音場が形成されないように設けられている、請求項１から１１のいずれか１項に記載の制御装置。
音源が発する音声を複数の音声出力装置から出力させる制御装置による音声出力の制御方法であって、
前記音源は前記音声出力装置毎に設定可能であり、
前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出ステップと、
前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定ステップと、
前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御ステップと、を含む制御方法。
請求項１に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、上記検出部、上記特定部および上記出力制御部としてコンピュータを機能させるための制御プログラム。