JP6760394B2

JP6760394B2 - コンテンツ再生機器、収音機器、及びコンテンツ再生システム

Info

Publication number: JP6760394B2
Application number: JP2018554275A
Authority: JP
Inventors: 須山　明彦; 明彦須山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-12-02
Filing date: 2017-12-01
Publication date: 2020-09-23
Anticipated expiration: 2037-12-01
Also published as: JPWO2018101459A1; US11289114B2; US20190279658A1; WO2018101459A1

Description

本発明は、コンテンツ再生機器、収音機器、及びコンテンツ再生システムに関する。

下記特許文献１には、マイクから入力された音声を認識する音声認識モジュールを備え、この音声認識モジュールが認識した音声を適用して予め設定された動作の遂行をアシストする技術が開示されている。

特開２０１４−７８００７号公報

従来のコンテンツ再生機器では、ユーザからのマイクに対する音声入力方向は様々であるにもかかわらず、コンテンツ再生機器に含まれるスピーカは、当該音声入力方向とは無関係に、例えばその正面方向に放音を行っていた。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、コンテンツ再生機器において、ユーザからの音声入力方向に応じて、コンテンツの出力に指向性を持たせる構成を実現することである。

本開示に係るコンテンツ再生機器は、音声を収音する収音部と、前記音声に関する音声入力方向情報を取得し、前記音声入力方向情報に基づき、コンテンツ出力方向を決定する制御部と、を含む。あるいは、本開示に係るコンテンツ再生機器は、音声入力方向情報を取得する通信部と、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、を含む。

本開示に係る収音機器は、音声を収音する収音部と、前記音声に基づき音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、前記コンテンツ出力方向に関する情報を送信する通信部と、を含む。

本開示に係るコンテンツ再生システムは、音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む。

本開示に係るコンテンツ再生システムは、音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定し、前記コンテンツ出力方向に関する情報を送信する収音機器と、前記コンテンツ出力方向に関する情報を受信し、前記コンテンツ出力方向に関する情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む。

本開示に係るコンテンツ再生機器の制御方法は、音声に関する音声入力方向情報を取得するステップと、前記音声入力方向情報に基づき、コンテンツ出力方向を決定するステップと、を含む。

図１は第１の実施形態に係るコンテンツ再生システムの概要図である。図２は第１の実施形態に係るコンテンツ再生機器のブロック図である。図３は第１の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。図４は第２の実施形態に係るコンテンツ再生システムの概要図である。図５は第２の実施形態に係るコンテンツ再生機器のブロック図である。図６は第２の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。図７は第２の実施形態に係る原点調整ステップを示す概念図である。図８は第２の実施形態に係る軸調整ステップを示す概念図である。図９は第２の実施形態に係る収音機器のブロック図である。

［第１の実施形態］
第１の実施形態について、図面を用いて以下に説明する。

［コンテンツ再生システム３００］
図１は、本実施形態に係るコンテンツ再生システム３００の概念図である。本実施形態において、コンテンツ再生システム３００は、サーバー２００と、コンテンツ再生機器１００とを有している。コンテンツ再生機器１００は、ネットワーク１を介してサーバー２００に接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。

［ネットワーク１］
ネットワーク１は、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、赤外線、電波、Bluetooth（登録商標）などを含み、コンテンツ再生機器１００とサーバー２００との間の信号伝達経路として利用される。

［サーバー２００］
サーバー２００は、ネットワーク１を介して、後述するコンテンツ再生機器１００からの音声情報を受信する。サーバー２００は、受信した音声情報に基づきコマンド信号を作成し、ネットワーク１を介して、コマンド信号をコンテンツ再生機器１００に送信する。なお、本実施形態において、サーバー２００は、インターネットのネットワークでの利用を前提とした、クラウドサーバーを含む。

［コンテンツ再生機器１００］
図２は、本実施形態に係るコンテンツ再生機器１００のブロック図である。本実施形態において、コンテンツ再生機器１００は、音楽や映像などのコンテンツを再生する機器であり、特定の方向に当該コンテンツを出力することが可能な、サウンドプロジェクター等である。コンテンツ再生機器１００は、収音部３０、記憶部４０、制御部５０、通信部６０、コンテンツ出力部８０等を有している。コンテンツ再生機器１００は、記憶部４０に保存されたプログラム４２に基づいて、後述する音声入力方向情報取得ステップＳ１、送信ステップＳ２、コマンド信号生成ステップＳ３、コマンド信号送信ステップＳ４、コマンド信号受信ステップＳ５、コンテンツ出力方向決定ステップＳ６などを実行するコンピュータである。当該プログラム４２は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

［収音部３０］
収音部３０は、例えばコンテンツ再生機器１００に内蔵された複数のマイクである。収音部３０は、ユーザが発した音声を収音するとともに、当該音声に関する情報を制御部５０に送信する。

［記憶部４０］
記憶部４０は、例えばＨＤＤ(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部４０としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部４０には、制御部５０が使用するプログラム４２が保存されている。

［制御部５０］
制御部５０はＣＰＵとメモリを含む。制御部５０は、記憶部４０に保存されたプログラム４２を用いて、収音部３０、記憶部４０、通信部６０、コンテンツ出力部８０の動作を制御する。

制御部５０は、収音部３０から受信したユーザの音声情報に基づき、音声入力方向情報を取得する。音声入力方向情報とは、収音部３０に対してユーザから発せられた音声の入力方向に関する情報である。音声入力方向情報の取得方法としては、例えば、複数のマイクに到達する音声の時間差を検出して取得する方法や、鋭い指向性を持つビームを走査して取得する方法等があるが、本実施形態においては、収音部３０が、横方向に並べて配置された複数のマイクを含み、この複数のマイクに到達する音声の時間差を制御部５０が検出して、音声入力方向情報を取得する方法を採用する。なお、収音部３０、記憶部４０、通信部６０、コンテンツ出力部８０の動作を制御する制御部と、音声入力方向情報を取得するための制御部とを、一体とする構成としてもよく、別体とする構成としてもよい。別体構成とする場合、音声入力方向情報を取得するための制御部が、収音部３０から受信したユーザの音声情報に基づき音声入力方向情報を取得し、当該音声入力方向情報を動作制御用の制御部に送信する構成とすればよい。

制御部５０は、収音部３０から取得したユーザの音声を、ネットワーク１を経由してサーバー２００に送信する。制御部５０がユーザの音声を、音声状態のままでサーバー２００に送信することにより、サーバー２００として、既存の音声認識を行うインターネットサーバーを流用することができる。なお、制御部５０が、ユーザの音声のみならず、音声入力方向情報も合成音声に変換してサーバー２００に送信する構成としても構わない。

また、制御部５０は、通信部６０を介して、サーバー２００により作成され、送信されたコマンド信号を受信する。制御部５０は、受信したコマンド信号に基づき、コンテンツを再生する、ボリュームをコントロールする、などの動作遂行内容の決定を行う。コンテンツを再生する際、制御部５０は、上述した音声入力方向情報に基づき、コンテンツ出力方向の決定を行う。

［通信部６０］
通信部６０は、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応しており、ネットワーク１を介して、サーバー２００との信号伝達を行う。

［コンテンツ出力部８０］
コンテンツ出力部８０は、複数のスピーカやディスプレイ装置等を含み、制御部５０の指示に応じて、音声、映像などのコンテンツを出力する。

本実施形態においては、コンテンツ出力部８０が、横方向に並べた複数の小口径のスピーカを含み、それらの出力タイミング揃える、あるいはずらす等、精密に制御することで、特定方向に音声を出力することを可能としている。出力タイミングの制御は、制御部５０で行ってもよく、あるいはコンテンツ出力部８０が出力タイミング制御用の制御部を備えていてもよい。

［コンテンツ再生システム３００の動作例］
次に、図３を用いて、本実施形態のコンテンツ再生システム３００の動作例について説明する。図３は、本実施形態におけるコンテンツ再生システム３００の動作例を示すフローチャートである。

［音声入力方向情報取得ステップＳ１］
コンテンツ再生機器１００の収音部３０、制御部５０は、ユーザが発した音声から音声入力方向情報を取得する音声入力方向情報取得ステップＳ１を実施する。

本実施形態においては、収音部３０の正面方向に対して４５度傾いた位置から、ユーザが「コンテンツＡを再生」という音声を発した場合について説明する。

収音部３０は、ユーザが発した音声である「コンテンツＡを再生」を収音するとともに、当該音声を制御部５０に送信する。音声を受信した制御部５０は、上述した複数のマイクに到達する音声の時間差検出により、当該ユーザが音声を発した位置が、収音部３０の正面方向に対して４５度傾いた位置であることを認識する。即ち、制御部５０は、「ユーザは収音部３０の正面方向に対して４５度傾いた位置から音声を発している」との音声入力方向情報を取得する。

[送信ステップＳ２]
コンテンツ再生機器１００の制御部５０は、ネットワーク１を介して、ユーザが発した音声を、サーバー２００に送信する。

本実施形態においては、制御部５０は、ユーザが発した音声である「コンテンツＡを再生」をサーバー２００に送信する。

[コマンド信号生成ステップＳ３]
サーバー２００は、制御部５０からネットワーク１を介して受信した、ユーザが発した音声からコマンド信号を生成する。

本実施形態においては、サーバー２００は、コンテンツＡの再生を要求するコマンド信号を生成する。

[コマンド信号送信ステップＳ４]
サーバー２００は、コマンド信号生成ステップＳ３にて生成したコマンド信号を、コンテンツ再生機器１００に送信する。

本実施形態においては、サーバー２００は、コンテンツＡの再生を要求するコマンド信号をコンテンツ再生機器１００に送信する。

[コマンド信号受信ステップＳ５]
コンテンツ再生機器１００の制御部５０は、ネットワーク１を介して、サーバー２００から送信されたコマンド信号を受信する。

本実施形態においては、制御部５０は、コンテンツＡの再生を要求するコマンド信号を受信する。

[コンテンツ出力方向決定ステップＳ６]
コンテンツ再生機器１００の制御部５０は、音声入力方向情報取得ステップＳ１において取得した音声入力方向情報に基づき、コンテンツの出力方向を決定する。

本実施形態においては、制御部５０は、「角度は右方向に４５度」という音声入力方向情報に基づき、コンテンツの出力方向を決定する。そして、制御部５０は、サーバー２００から受信した、コンテンツＡの再生を要求するコマンド信号に基づきコンテンツＡを再生するとともに、決定した出力方向に対して、当該コンテンツＡを出力する指示をコンテンツ出力部８０に対して行う。なお、上述した送信ステップＳ２において、制御部５０が、ユーザが発した音声のみならず、音声入力方向情報も合成音声に変換してサーバー２００に送信し、サーバー２００から、当該音声入力方向情報を含めたコマンド信号を受信し、コンテンツの出力方向を決定する構成としてもよい。

なお、本実施形態においては、コンテンツ再生システム３００がサーバー２００を有し、コンテンツ再生機器１００とサーバー２００とが、ユーザの音声、コマンド信号等の送受信を行って、コンテンツを再生する実施例を説明したが、コンテンツ再生システム３００がサーバー２００を有しない構成としても構わない。即ち、コンテンツ再生機器１００が、認識した音声からコマンド信号を生成することができる場合、コンテンツ再生機器１００の収音部３０が、ユーザが発した音声を収音し、制御部５０が当該音声を認識してコマンド信号を生成し、当該コマンド信号に基づいてコンテンツを再生する構成としても構わない。

なお、音声入力方向情報取得ステップＳ１において、制御部５０がユーザの音声について話者認識を行い、特定ユーザの音声のみに反応して音声入力方向情報を取得する構成としても構わない。このような構成にすれば、複数のユーザの音声が収音部３０に入力されたとしても、コンテンツ再生機器１００が、特定ユーザの音声入力方向情報に基づきコンテンツ出力方向を決定する構成とすることができる。

なお、本実施形態においては、コンテンツ再生機器１００が、音声入力方向情報に基づき、当該音声入力方向、即ちユーザがいる方向に向けてコンテンツを出力する構成を例に挙げて説明したが、コンテンツ再生機器１００が、音声入力方向と反対方向にコンテンツを出力する、あるいは、音声入力方向に対して所定の角度をなす方向にコンテンツを出力する構成としてもよい。

［第２の実施形態］
第２の実施形態について、図面を用いて以下に説明する。なお、第１の実施形態と共通する構成要素については、同一の符号を付して、その説明を省略することがある。

［コンテンツ再生システム３００Ｂ］
図４は、本実施形態に係るコンテンツ再生システム３００Ｂの概念図である。本実施形態において、コンテンツ再生システム３００Ｂは、サーバー２００と、収音機器１３０と、コンテンツ再生機器１００Ｂとを有している。コンテンツ再生機器１００Ｂ、収音機器１３０、サーバー２００は、それぞれネットワーク１を介して接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。

なお、ネットワーク１、サーバー２００の構成は、第１の実施形態と共通の構成であるため、その説明を省略する。

［収音機器１３０］
図９は、本実施形態に係る収音機器１３０のブロック図である。収音機器１３０は、通信部１３２、記憶部１３４、制御部１３６、収音部１３８等を有し、記憶部１３４に保存されたプログラム１３４Ｂに基づいて、後述する情報取得ステップＳ２０１、第１の合成音声への変換ステップＳ２０２、送信ステップＳ２０３などを実行するコンピュータである。当該プログラム１３４Ｂは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。収音機器１３０の通信部１３２は、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応しており、ネットワーク１を介して、サーバー２００、コンテンツ再生機器１００Ｂとの信号伝達を行う。

また、収音機器１３０に含まれる収音部１３８は、複数のマイクを含み、ユーザが発した音声を収音するとともに、当該音声を制御部１３６に送信する。ユーザの音声を受信した制御部１３６は、上述した複数のマイクに到達する音声の時間差検出により、当該音声から音声入力方向情報を取得する。この音声入力方向情報とは、収音機器１３０に対してユーザから発せられた音声の入力方向に関する情報である。

更に、本実施形態においては、収音機器１３０の制御部１３６は、当該音声からユーザとの距離情報を取得する。ユーザとの距離情報とは、収音機器１３０とユーザとの距離に関する情報である。

そして、収音機器１３０の制御部１３６は、音声入力方向情報を第１の合成音声に変換する。第１の合成音声とは、ユーザから発せられた音声の入力方向に関する合成音声であり、例えば、ユーザが収音機器１３０に対して４５度の角度から音声を入力した場合には、収音機器１３０は音声入力方向情報を「角度は４５度」という第１の合成音声に変換する。

更に、本実施形態においては、収音機器１３０が、ユーザとの距離情報も第１の合成音声に含ませる。例えば、ユーザが収音機器１３０から３ｍ離れた位置から音声を発した場合には、収音機器１３０は、音声入力方向情報とユーザとの距離情報とを「角度は４５度、距離は３ｍ」という第１の合成音声に変換する。このユーザとの距離情報は、例えば、事前にユーザの音声を所定の距離から収音しておき、事前に収音した音声スペクトルと今回収音した音声スペクトルとを比較することにより推定することが可能である。距離に伴う減衰率の低い低周波数の音波の割合が増加していれば、事前収音時の距離よりも離れた位置にユーザがいることを推定でき、逆に高周波数の音波の割合が増加していれば、事前収音時の距離よりも近い位置にユーザがいることを推定できる。

そして、収音機器１３０の通信部１３２は、ネットワーク１を経由して、サーバー２００に対し、ユーザからの音声を送信する。その際、収音機器１３０は、当該ユーザの音声に上述した第１の合成音声を付加して、一つの音声データとして送信する。

［コンテンツ再生機器１００Ｂ］
図５は、本実施形態に係るコンテンツ再生機器１００Ｂのブロック図である。本実施形態において、コンテンツ再生機器１００Ｂは、音楽や映像などのコンテンツを再生する機器であり、特定の方向に当該コンテンツを出力することが可能な、サウンドプロジェクター等である。コンテンツ再生機器１００Ｂは、記憶部４０Ｂ、制御部５０Ｂ、通信部６０、コンテンツ出力部８０等を有している。コンテンツ再生機器１００Ｂは、記憶部４０Ｂに保存されたプログラム４２Ｂに基づいて、後述する情報取得ステップＳ２０１、第１の合成音声への変換ステップＳ２０２、送信ステップＳ２０３、コマンド信号生成ステップＳ２０４、コマンド信号送信ステップＳ２０５、コマンド信号受信ステップＳ２０６、コンテンツ出力方向決定ステップＳ２０７、原点調整ステップＳ２０８、軸調整ステップＳ２０９などを実行するコンピュータである。当該プログラム４２Ｂは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

なお、通信部６０、コンテンツ出力部８０の構成は、第１の実施形態と共通の構成であるため、その説明を省略する。ただし、本実施形態においては、通信部６０が、ネットワーク１を介して、収音機器１３０から音声入力方向情報を取得する点が、第１の実施形態と異なる。

［記憶部４０Ｂ］
記憶部４０Ｂは、後述する制御部５０Ｂが使用するプログラム４２Ｂを記憶している点を除いては、上述した第１の実施形態における記憶部４０と同様の構成であるため、その説明を省略する。

［制御部５０Ｂ］
制御部５０ＢはＣＰＵとメモリを含む。制御部５０Ｂは、記憶部４０Ｂに保存されたプログラム４２Ｂを用いて、記憶部４０Ｂ、通信部６０の動作を制御する。

制御部５０Ｂは、通信部６０を介して、サーバー２００から送信されたコマンド信号を受信する。コマンド信号は、サーバー２００がユーザからの音声に基づき認識したコマンド情報と、サーバー２００が第１の合成音声に基づき認識した音声入力方向情報、及びユーザとの距離情報とを含む。制御部５０Ｂは、受信したコマンド信号に含まれるコマンド情報に基づき、コンテンツを再生する、ボリュームをコントロールする、などの動作遂行内容の決定を行う。また、制御部５０Ｂは、受信したコマンド信号に含まれる音声入力方向情報に基づき、コンテンツ出力方向の決定を行う。

［コンテンツ再生システム３００Ｂの動作例］
次に、図６を用いて、本実施形態のコンテンツ再生システム３００Ｂの動作例について説明する。図６は、本実施形態におけるコンテンツ再生システム３００Ｂの動作例を示すフローチャートである。

［情報取得ステップＳ２０１］
収音機器１３０は、ユーザが発した音声から音声入力方向情報、ユーザとの距離情報を取得する情報取得ステップＳ２０１を実施する。

本実施形態においては、収音機器１３０の正面方向に対して４５度傾いた、３ｍ離れた位置から、ユーザが「コンテンツＡを再生」という音声を発した場合について説明する。

収音機器１３０は、ユーザが発した音声である「コンテンツＡを再生」を収音するとともに、当該ユーザが音声を発した位置が、収音機器１３０の正面方向に対して４５度傾いた位置であることを認識する。即ち、収音機器１３０は、「ユーザは収音機器１３０の正面方向に対して４５度傾いた位置から音声を発している」との音声入力方向情報を取得する。

更に、本実施形態においては、収音機器１３０は、ユーザが音声を発した位置が、収音機器１３０から３ｍ離れた位置であることを認識する。即ち、収音機器１３０は、「ユーザは収音機器１３０に対して３ｍ離れた位置から音声を発している」とのユーザとの距離情報を取得する。

［第１の合成音声への変換ステップＳ２０２］
収音機器１３０は、取得した音声入力方向情報、及びユーザとの距離情報を第１の合成音声に変換する。この第１の合成音声は、音声入力方向情報、及びユーザとの距離情報を含んでおり、サーバー２００が認識可能な音声信号として生成される。

本実施形態においては、収音機器１３０は、上記情報取得ステップＳ２０１において取得された音声入力方向情報、及びユーザとの距離情報を「角度は右方向に４５度、距離は３ｍ」という第１の合成音声に変換する。収音機器１３０が音声入力方向情報、及びユーザとの距離情報を、音声データとしてサーバー２００に送信することにより、サーバー２００として、既存の音声認識を行うインターネットサーバーを流用することができる。

[送信ステップＳ２０３]
収音機器１３０は、ネットワーク１を介して、ユーザが発した音声と、第１の合成音声とを、サーバー２００に送信する。

本実施形態においては、収音機器１３０は、ユーザが発した音声である「コンテンツＡを再生」と、第１の合成音声である「角度は右方向に４５度、距離は３ｍ」とを、一つの音声データとしてサーバー２００に送信する。その際、例えばユーザが発した音声「コンテンツＡを再生」の後に数秒間の無音状態があったとしたら、当該無音状態を音声データの先頭に持ってくることにより、ユーザが発した音声と第１の合成音声との間に数秒間の無音状態が含まれることを回避し、ユーザが発した音声と第１の合成音声とをひとつの音声データとして送信することができる。

[コマンド信号生成ステップＳ２０４]
サーバー２００は、収音機器１３０からネットワーク１を介して受信した、ユーザが発した音声と、第１の合成音声からコマンド信号を生成する。

本実施形態においては、サーバー２００は、コンテンツＡに関するコンテンツソースを取得し、当該コンテンツソースに基づいてコンテンツＡを再生することを指示する動作指示情報と、第１の合成音声に含まれる音声入力方向情報、及びユーザとの距離情報と、を含むコマンド信号を生成する。

[コマンド信号送信ステップＳ２０５]
サーバー２００は、コマンド信号生成ステップＳ４にて生成したコマンド信号を、コンテンツ再生機器１００に送信する。

本実施形態においては、サーバー２００は、コンテンツＡに関するコンテンツソースをコンテンツ再生機器１００Ｂに送信するとともに、当該コンテンツＡを再生することを指示する動作指示情報と、「角度は右方向に４５度」を意味する音声入力方向情報と、「距離は３ｍ」を意味するユーザとの距離情報と、を含むコマンド信号をコンテンツ再生機器１００Ｂに送信する。

[コマンド信号受信ステップＳ２０６]
コンテンツ再生機器１００Ｂの制御部５０Ｂは、ネットワーク１を介して、サーバー２００から送信されたコマンド信号を受信する。

本実施形態においては、制御部５０Ｂは、コンテンツＡのコンテンツソースを受信するとともに、コンテンツＡの再生を指示する動作指示情報と、音声入力方向情報、及びユーザとの距離情報と、を含むコマンド信号を受信する。

[コンテンツ出力方向決定ステップＳ２０７]
コンテンツ再生機器１００Ｂの制御部５０Ｂは、受信したコマンド信号に含まれる音声入力方向情報、及びユーザとの距離情報に基づき、コンテンツの出力方向を決定する。

また、本実施形態においては、収音機器１３０とコンテンツ再生機器１００Ｂとが別体であるため、コンテンツ出力方向決定ステップＳ２０７が、収音機器１３０の原点位置とコンテンツ再生機器１００Ｂの原点位置とのずれを調整する原点調整ステップＳ２０８と、収音機器１３０の軸方向とコンテンツ再生機器１００Ｂの軸方向とのずれを調整する軸調整ステップＳ２０９と、を含む。

なお、収音機器１３０とコンテンツ再生機器１００Ｂが略同一の位置に配置され、軸方向のずれも無いような場合は、後述する原点調整ステップＳ２０８と軸調整ステップＳ２０９とを経ることなく、収音機器１３０がコンテンツ出力方向を決定してもよい。またこの場合は、制御部５０Ｂがユーザとの距離情報を受信しない構成としても良い。

[原点調整ステップＳ２０８]
収音機器１３０の原点位置とコンテンツ再生機器１００Ｂの原点位置とにずれがある場合、この原点位置のずれを調整する原点調整ステップＳ２０８を行う。この原点調整ステップＳ２０８は、コンテンツ再生機器１００Ｂによって行われてもよく、収音機器１３０によって行われてもよい。本実施形態においては、コンテンツ再生機器１００Ｂによって原点調整ステップＳ２０８を行う例を用いて説明する。

図７は、収音機器１３０の原点位置とコンテンツ再生機器１００Ｂの原点位置がずれた状態で配置されたコンテンツ再生システム３００Ｂの概念図である。図７に示すように、Ｘ軸方向において、コンテンツ再生機器１００Ｂは、収音機器１３０と比較して、ユーザから距離ｘ１だけ離れた位置に配置されている。また、図７に示すように、Ｙ軸方向において、コンテンツ再生機器１００Ｂは、収音機器１３０と比較して、ユーザから距離ｙ１だけ近い位置に配置されている。コンテンツ再生機器１００Ｂの記憶部４０Ｂは、この原点位置ずれ情報を記憶している。

コンテンツ再生機器１００Ｂの制御部５０Ｂは、受信したコマンド信号に含まれる音声入力方向情報とユーザとの距離情報から、Ｘ軸方向におけるユーザと収音機器１３０との距離ｘ２と、Ｙ軸方向におけるユーザと収音機器１３０との距離ｙ２を算出する。音声入力方向をθ１、ユーザと収音機器１３０との距離をｄとした場合、距離ｘ２と距離ｙ２は、以下の数式であらわされる。
[式１]ｘ２＝ｄ×ｓｉｎ（θ１）
[式２] ｙ２＝ｄ×ｃｏｓ（θ１）

コンテンツ再生機器１００Ｂの制御部５０Ｂは、記憶部４０Ｂに保存されたコンテンツ再生機器１００Ｂと収音機器１３０の原点位置ずれ情報と、下記の式を用いて、コンテンツの出力方向を決定する。
[式３] θ２＝ａｒｃｔａｎ（（ｙ２−ｙ１）／（ｘ２＋ｘ１））

そして、コンテンツ再生機器１００Ｂは、受信したコンテンツソースに基づきコンテンツを再生するとともに、決定した出力方向θ２に従って、コンテンツ出力部８０からコンテンツを出力する。

なお、Ｘ軸方向において、コンテンツ再生機器１００Ｂが、収音機器１３０と比較してユーザに近い位置に配置されている場合、上記ｘ１にマイナスの値を代入すればよい。また、Ｙ軸方向において、コンテンツ再生機器１００Ｂが、収音機器１３０と比較してユーザから離れた位置に配置されている場合、上記ｙ１にマイナスの値を代入すればよい。

なお、本実施形態においては、収音機器１３０が音声入力方向情報とユーザとの距離情報とを送信し、これらを受信したコンテンツ再生機器１００Ｂが、あらかじめ記憶した原点位置ずれ情報を用いて、コンテンツ出力方向θ２を算出する実施例を示した。しかし、収音機器１３０が、原点位置ずれ情報を記憶し、これをコンテンツ再生機器１００Ｂに送信し、コンテンツ再生機器１００Ｂが、原点位置ずれ情報を用いてコンテンツ出力方向θ２を算出する構成としてもよい。または、収音機器１３０が原点位置ずれ情報を記憶し、且つ音声入力方向情報とユーザとの距離情報とを用いてコンテンツ出力方向θ２を算出した上で、このコンテンツ出力方向θ２を直接的又は間接的にコンテンツ再生機器１００Ｂに送信する構成としても構わない。収音機器１３０がサーバー２００を介してコンテンツ出力方向θ２を送信する場合は、音声入力方向情報、及びユーザとの距離情報を第１の合成音声に変換する代わりに、当該コンテンツ出力方向θ２を第１の合成音声に変換して送信すればよい。例えば、収音機器１３０が、原点位置ずれ情報と、音声入力方向情報とユーザとの距離情報とを用いて、コンテンツ出力方向θ２が右方向に４５度であると算出した場合、このコンテンツ出力方向θ２を「角度は右方向に４５度」という第１の合成音声に変換する。そして、ユーザが発した音声「コンテンツＡを再生」の後に続けて第１の合成音声である「角度は右方向に４５度」をサーバー２００に送信する。収音機器１３０が直接コンテンツ再生機器１００Ｂにコンテンツ出力方向θ２を送信する場合は、第１の合成音声に変換することなく、直接、コンテンツ出力方向θ２を送信すればよい。

[軸調整ステップＳ２０９]
収音機器１３０の軸方向とコンテンツ再生機器１００Ｂの軸方向とにずれがある場合、この軸方向のずれを調整する軸調整ステップＳ２０９を行う。この軸調整ステップＳ２０９は、コンテンツ再生機器１００Ｂによって行われてもよく、収音機器１３０によって行われてもよい。本実施形態においては、コンテンツ再生機器１００Ｂによって軸調整ステップＳ２０９を行う例を用いて説明する。

図８は、収音機器１３０の軸方向とコンテンツ再生機器１００Ｂの軸方向がずれた状態で配置されたコンテンツ再生システム３００Ｂの概念図である。図８に示すように、コンテンツ再生機器１００Ｂの正面方向は、収音機器１３０の正面方向と比較して、ユーザから角度θ３だけ離れた方向を向いている。コンテンツ再生機器１００Ｂの記憶部４０Ｂは、この軸ずれ情報を記憶している。

コンテンツ再生機器１００Ｂの制御部５０Ｂは、受信したコマンド信号に含まれる音声入力方向情報θ１と以下の数式から、コンテンツ出力方向θ４を算出する。
[式４]θ４＝θ１＋θ３

そして、コンテンツ再生機器１００Ｂは、受信したコンテンツソースに基づきコンテンツを再生するとともに、決定した出力方向θ４に従って、コンテンツ出力部８０からコンテンツを出力する。

なお、コンテンツ再生機器１００Ｂの正面方向が、収音機器１３０の正面方向と比較して、ユーザに近い方向を向いている場合には、上記θ３にマイナスの値を代入すればよい。

なお、収音機器１３０の原点位置とコンテンツ再生機器１００Ｂの原点位置がずれており、且つ収音機器１３０の軸方向とコンテンツ再生機器１００Ｂの軸方向がずれている場合は、上述した原点調整ステップＳ２０８と軸調整ステップＳ２０９の双方を実施する。例えば、原点位置を調整したコンテンツ出力方向θ２を算出した上で、このθ２に軸方向のずれを示す角度θ３を加算することにより、最終的なコンテンツ出力方向θ４を算出すればよい。

なお、本実施形態においては、収音機器１３０が音声入力方向情報を送信し、これを受信したコンテンツ再生機器１００Ｂが、あらかじめ記憶した軸ずれ情報（及び原点位置ずれ情報）を用いて、コンテンツ出力方向θ４を算出する実施例を示した。しかし、収音機器１３０が、軸ずれ情報（及び原点位置ずれ情報）を記憶し、これらをコンテンツ再生機器１００Ｂに送信し、コンテンツ再生機器１００Ｂがこれらを用いてコンテンツ出力方向θ４を算出する構成としてもよい。または、収音機器１３０が軸ずれ情報（及び原点位置ずれ情報）を記憶し、且つ音声入力方向情報（及びユーザとの距離情報）を用いてコンテンツ出力方向θ４を算出した上で、このコンテンツ出力方向θ４に関する情報を直接的又は間接的にコンテンツ再生機器１００Ｂに送信する構成としても構わない。収音機器１３０がサーバー２００を介してコンテンツ出力方向θ４に関する情報を送信する場合は、音声入力方向情報（及びユーザとの距離情報）を第１の合成音声に変換する代わりに、当該コンテンツ出力方向θ４に関する情報を第１の合成音声に変換して送信すればよい。例えば、収音機器１３０が、コンテンツ出力方向θ４が右方向に４５度であると算出した場合、このコンテンツ出力方向θ４を「角度は右方向に４５度」という第１の合成音声に変換する。そして、ユーザが発した音声「コンテンツＡを再生」の後に続けて第１の合成音声である「角度は右方向に４５度」をサーバー２００に送信する。収音機器１３０が直接コンテンツ再生機器１００Ｂにコンテンツ出力方向θ４に関する情報を送信する場合は、第１の合成音声に変換することなく、直接、コンテンツ出力方向θ４に関する情報を送信すればよい。収音機器１３０がコンテンツ出力方向θ４に関する情報を音声データとしてサーバー２００に送信することにより、サーバー２００として、既存の音声認識を行うインターネットサーバーを流用することができる。

なお、本実施形態においては、収音機器１３０が、音声入力方向情報から変換した第１の合成音声と、ユーザからの音声の双方をサーバー２００に送信し、サーバー２００が第１の合成音声とユーザからの音声とに基づきコマンド信号を作成し、コンテンツ再生機器１００Ｂに送信する実施例を示した。しかし、収音機器１３０が、第１の合成音声を生成することなく、音声入力方向情報を直接コンテンツ再生機器１００Ｂに送信し、ユーザからの音声をサーバー２００経由でコンテンツ再生機器１００Ｂに送信する構成としてもよい。この場合、ユーザからの音声と、音声入力方向情報の双方に信号識別情報を付加しておくことで、コンテンツ再生機器１００Ｂが、当該信号識別情報に基づき、サーバー２００から送信されたコマンド信号と、収音機器１３０から送信された音声入力方向情報とを対応させることができる。このような構成により、ユーザから複数の音声入力があった場合においても、コンテンツ再生機器１００Ｂが、各コマンド信号と各音声入力方向情報とを対応付けることができる。なお、収音機器１３０が、ユーザが発した音声に信号識別情報を付加する際には、信号識別情報を第２の合成音声に変換し、第２の合成音声を前記ユーザが発した音声に付加してサーバー２００に送信する構成としてもよい。収音機器１３０が信号識別情報を音声データとしてサーバー２００に送信することにより、サーバー２００として、既存の音声認識を行うインターネットサーバーを流用することができる。

また、収音機器１３０が、軸ずれ情報、及び原点位置ずれ情報を記憶し、音声入力方向情報、及びユーザとの距離情報等に基づきコンテンツ出力方向を決定する場合、収音機器１３０がコンテンツ出力方向に関する情報を直接コンテンツ再生機器１００Ｂに送信し、ユーザからの音声をサーバー２００経由でコンテンツ再生機器１００Ｂに送信する構成としてもよい。この場合、ユーザからの音声と、コンテンツ出力方向に関する情報の双方に信号識別情報を付加しておくことで、コンテンツ再生機器１００Ｂが、当該信号識別情報に基づき、サーバー２００から送信されたコマンド信号と、収音機器１３０から送信されたコンテンツ出力方向に関する情報とを対応させることができる。このような構成により、ユーザから複数の音声入力があった場合においても、コンテンツ再生機器１００Ｂが、各コマンド信号と各コンテンツ出力方向に関する情報とを対応付けることができる。なお、収音機器１３０が、ユーザが発した音声に信号識別情報を付加する際には、信号識別情報を第２の合成音声に変換し、第２の合成音声を前記ユーザが発した音声に付加してサーバー２００に送信する構成としてもよい。収音機器１３０が信号識別情報を音声データとしてサーバー２００に送信することにより、サーバー２００として、既存の音声認識を行うインターネットサーバーを流用することができる。

なお、第１の実施形態及び第２の実施形態において、コンテンツ出力部８０がコンテンツ再生機器１００、及びコンテンツ再生機器１００Ｂに含まれる構成を用いて説明したが、コンテンツ出力部８０がコンテンツ再生機器１００、コンテンツ再生機器１００Ｂに含まれない構成としてもよい。その場合、上述した原点調整ステップＳ２０８、軸調整ステップＳ２０９を適用して、コンテンツ再生機器１００Ｂに対するコンテンツ出力部８０の原点ずれ、軸ずれを調整すればよい。

なお、情報取得ステップＳ２０１において、収音機器１３０がユーザの音声について話者認識を行い、特定ユーザの音声のみに反応して音声入力方向情報を取得する構成としても構わない。このような構成にすれば、複数のユーザの音声が収音機器１３０に入力されたとしても、コンテンツ再生機器１００Ｂが、特定ユーザの音声入力方向情報に基づきコンテンツ出力方向を決定する構成とすることができる。

なお、本実施形態においては、コンテンツ再生機器１００Ｂが、音声入力方向情報に基づき、当該音声入力方向、即ちユーザがいる方向に向けてコンテンツを出力する構成を例に挙げて説明したが、コンテンツ再生機器１００Ｂが、音声入力方向と反対方向にコンテンツを出力する、あるいは、音声入力方向に対して所定の角度をなす方向にコンテンツを出力する構成としてもよい。

Claims

音声を収音する収音部と、
前記音声に関する音声入力方向情報を取得し、前記音声入力方向情報に基づき、コンテンツ出力方向を決定する制御部と、
を含み、
前記制御部が、前記音声入力方向情報を合成音声に変換し、前記収音部が収音した音声と前記合成音声とをサーバーに送信し、前記サーバーからのコマンド信号を受信し、前記コマンド信号に基づきコンテンツを再生する、
コンテンツ再生機器。
音声を収音する収音部と、
前記音声に基づき音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、
前記コンテンツ出力方向に関する情報を送信する通信部と、
を含む、収音機器。
前記制御部が、前記コンテンツ出力方向に関する情報を第１の合成音声に変換し、前記通信部が、前記音声と前記第１の合成音声とをサーバーに送信する、
請求項２に記載の収音機器。
音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、
前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含み、
前記収音機器が、前記音声入力方向情報を第１の合成音声に変換し、前記収音機器により収音される音声と前記第１の合成音声とを送信し、
前記収音機器が送信した音声と前記第１の合成音声に基づきコマンド信号を生成するサーバーを更に含み、
前記コンテンツ再生機器が、前記サーバーからのコマンド信号を受信し、前記コマンド信号に含まれる前記音声入力方向情報に基づきコンテンツ出力方向を決定する、
コンテンツ再生システム。
音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、
前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含み、
前記収音機器が、該収音機器により収音される音声に信号識別情報を付加して送信し、前記音声から取得した前記音声入力方向情報に前記信号識別情報を付加して送信し、
前記信号識別情報が付加された前記音声に基づきコマンド信号を生成するサーバーを更に含み、
前記コンテンツ再生機器が、前記収音機器からの前記信号識別情報が付加された前記音声入力方向情報と、前記サーバーからの前記信号識別情報を含む前記コマンド信号と、を受信し、前記信号識別情報に基づき前記音声入力方向情報と前記コマンド信号とを対応させる、
コンテンツ再生システム。
前記収音機器が、ユーザが発した音声に前記信号識別情報を付加する際には、前記信号識別情報を第２の合成音声に変換し、前記第２の合成音声を前記ユーザが発した音声に付加して前記サーバーに送信する、
請求項５に記載のコンテンツ再生システム。
前記コンテンツ再生機器が、前記収音機器との原点ずれ情報と軸ずれ情報の内の少なくとも一方を記憶し、
前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方と、前記音声入力方向情報とに基づきコンテンツ出力方向を決定する、請求項４乃至６のいずれか一つに記載のコンテンツ再生システム。
前記収音機器が、前記コンテンツ再生機器との原点ずれ情報と軸ずれ情報の内の少なくとも一方を送信し、
前記コンテンツ再生機器が、前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方を受信し、受信した前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方と、前記音声入力方向情報とに基づきコンテンツ出力方向を決定する、請求項４乃至６のいずれか一つに記載のコンテンツ再生システム。
音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定し、前記コンテンツ出力方向に関する情報を送信する収音機器と、
前記コンテンツ出力方向に関する情報を受信し、前記コンテンツ出力方向に関する情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む、コンテンツ再生システム。
音声に関する音声入力方向情報を取得するステップと、
前記音声入力方向情報に基づき、コンテンツ出力方向を決定するステップと、
前記音声入力方向情報を合成音声に変換するステップと、
前記音声と前記合成音声とをサーバーに送信するステップと、
前記サーバーからのコマンド信号を受信するステップと、
前記コマンド信号に基づきコンテンツを再生するステップと、
を含む、コンテンツ再生機器の制御方法。