JP6607220B2

JP6607220B2 - スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法

Info

Publication number: JP6607220B2
Application number: JP2017053248A
Authority: JP
Inventors: 英昭嶋田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2019-11-20
Anticipated expiration: 2037-03-17
Also published as: US10321255B2; EP3376781B1; JP2018157401A; EP3376781A1; US20180270599A1

Description

本発明はスピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法に関する。

５．１ｃｈホームシアターシステムなど、多数のスピーカを配置するシステムが広く使われている。例えば、リスナーの位置にマイクを配置してスピーカからの音声を取得し、その取得された音声に応じてスピーカに出力されるチャネル等のパラメータを決定している（特許文献１）。

国際公開第２００８／１２６１６１号

多数のスピーカを配置するシステムを調整する際に、ユーザは、音楽を聴く位置にマイクを置く必要があり、また調整中はノイズとなる音を出さないなどの注意が強いられる。例えば、可搬型のスピーカを用いる場合は設定作業を行う回数が増えやすく、調整の際のユーザの負担が無視できない。

本発明は上記課題に鑑みてなされたものであって、その目的は、スピーカが出力する音声を調整する際のユーザの負担を低減することが可能なスピーカ位置特定システム、スピーカ位置特定装置、スピーカ位置特定方法、及びプログラムを提供することにある。

上記課題を解決するために、本発明にかかるスピーカ位置特定システムは、撮影画像を取得するカメラと、前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。

また、本発明にかかるスピーカ位置特定方法は、カメラから撮影画像を取得するステップと、前記取得された撮影画像に含まれるスピーカの画像を認識するステップと、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定するステップと、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するステップと、を含む。

また、本発明にかかるスピーカ位置特定装置は、カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。

本発明によれば、スピーカが出力する音声を調整する際のユーザの負担を低減することが可能になる。

本発明の実施形態にかかるサラウンドシステムの一例を説明する平面図である。フロントユニットのハードウェア構成を概略的に示すブロック図である。フロントユニットの外観を示す斜視図である。スピーカユニットのハードウェア構成を概略的に示すブロック図である。サラウンドシステムの機能的な構成を示すブロック図である。フロントユニットの処理の一例を示すフロー図である。カメラにより撮影される撮影画像の一例を示す図である。スピーカユニットとフロントユニットとの位置関係を説明する図である。リスナーとフロントユニットとの位置関係を説明する図である。スピーカユニットと撮影画像から特定された位置とを対応付ける処理の一例を示すフロー図である。スピーカユニットの指示応答部の処理の一例を示すフロー図である。スピーカユニットと撮影画像から特定された位置とを対応付ける処理の他の一例を示すフロー図である。

以下、本発明の実施形態の例を図面に基づいて説明する。

図１は、本発明の実施形態にかかるサラウンドシステムの一例を示す平面図である。サラウンドシステムは、フロントユニット１と、複数のスピーカユニット２とを含む。フロントユニット１は、テレビ４の前に配置され、少なくとも２チャンネルの音声を出力する。スピーカユニット２は、フロントユニット１と連携して音を出力する。サラウンドシステムは、例えばテレビ４などから出力される多チャンネルの音声を出力し、リスナー３に臨場感ある音楽を楽しませる。図１の例では、スピーカユニット２ａは家具３５の上に配置されている。図１には、複数のスピーカユニット２として２台のスピーカユニット２ａ，２ｂが配置されているが、より多くの数のスピーカユニット２が配置されてもよいし、一つだけのスピーカユニット２が配置されてもよい。

フロントユニット１は、一般的にサウンドバーと呼ばれる機器である。図２は、フロントユニット１のハードウェア構成を概略的に示すブロック図であり、図３は、フロントユニット１の外観を示す斜視図である。フロントユニット１は、プロセッサ１１と、記憶部１２と、通信部１３と、出力部１４と、入力部１５と、カメラ１６と、スピーカ２１とを含む。スピーカ２１は、スピーカアレイ２１ａを含む。また、入力部１５は、テレビ４や他のオーディオ機器などの音源２３に接続されている。

フロントユニット１は水平方向に長い形状を有し、一般的にテレビ４の画面の横方向に平行になるように配置されている。また、横方向に並ぶ多数のスピーカ２１からなるアレイスピーカ２１ａが配置されている。多数のスピーカ２１のそれぞれから出力される音の位相を調整することにより、任意の方向へ向かう指向性の大きい音が出力される。なお、アレイスピーカ２１ａの代わりに、互いに離間する２つのスピーカ２１が配置されてもよい。

プロセッサ１１は、記憶部１２に格納されているプログラムに従って動作し、通信部１３やカメラ１６、出力部１４、入力部１５を制御する。上記プログラムは、フラッシュメモリ等のコンピュータで読み取り可能な記憶媒体に格納されてもよいし、ネットワークを介して提供されてもよい。

記憶部１２は、ＤＲＡＭやフラッシュメモリ等のメモリ素子によって構成されている。記憶部１２は、上記プログラムを格納する。また、記憶部１２は、プロセッサ１１や通信部１３等から入力される情報や演算結果を格納する。

通信部１３は有線ＬＡＮや無線ＬＡＮ、またＢｌｕｅｔｏｏｔｈ（登録商標）送受信機を構成する集積回路やコネクタ、アンテナなどにより構成されている。通信部１３は、ネットワークを介して他の装置と通信する。通信部１３は、プロセッサ１１の制御により、他の装置から受信した情報をプロセッサ１１や記憶部１２に入力し、他の装置に情報を送信する。

出力部１４は例えばＤＡ変換器やヘッドホン端子を含み、スピーカ２１などに接続されている。入力部１５はライン入力端子やＡＤ変換器、デジタル音声入力インターフェース、ＨＤＭＩ（登録商標）入力インターフェースを含む。

カメラ１６は、フロントユニット１の前面に配置され、フロントユニット１の前方を撮影する。カメラ１６は、例えば、フロントユニット１の前方にあるリスナー３やスピーカユニット２ａ，２ｂを含む画像を撮影する。

ここで、フロントユニット１は必ずしもスピーカ２１を内蔵しなくてもよく、サウンドバーでなくてもよい。例えば、フロントユニット１はカメラ１６が搭載されたＡＶアンプであってもよい。この場合、そのＡＶアンプにＬｃｈおよびＲｃｈのスピーカが接続されてよい。

図４は、スピーカユニット２のハードウェア構成を概略的に示すブロック図である。図４は、一般的にワイヤレススピーカと呼ばれているスピーカユニット２の例を示す。スピーカユニット２は、プロセッサ１１と、記憶部１２と、通信部１３と、出力部１４と、入力部１５と、スピーカ２１と、マイク２２とを含む。プロセッサ１１、記憶部１２、通信部１３の詳細はフロントユニット１に含まれるものと同様であるので説明を省略する。出力部１４は例えばＤＡ変換器を含み、スピーカ２１に接続されている。入力部１５はＡＤ変換器を含み、マイク２２に接続されている。

スピーカユニット２はフロントユニット１等の機器から無線を介して音声データを受信し、音声データが示す音を内蔵するスピーカ２１から出力する。音声データの受信は、通信部１３を介して行う。なお、スピーカユニット２は、配線によりフロントユニット１やアンプと接続されてもよい。

図５は、サラウンドシステムの機能的な構成を示すブロック図である。サラウンドシステムは、機能的に、撮影データ取得部５１、画像認識部５２、スピーカ位置特定部５３、音声パラメータ設定部５４、音声信号出力部５５、形状データ格納部６１、指示応答部７１を含む。撮影データ取得部５１、画像認識部５２、スピーカ位置特定部５３、音声パラメータ設定部５４、音声信号出力部５５は、フロントユニット１に含まれるプロセッサ１１が、記憶部１２に格納されたプログラムを実行し、通信部１３やカメラ１６を制御することによって実現される。形状データ格納部６１は、例えばフロントユニット１の記憶部１２内の一部の記憶領域である。指示応答部７１は、スピーカユニット２に含まれるプロセッサ１１が記憶部１２に格納されたプログラムを実行し、通信部１３や入力部１５を制御することにより実現される。

ここで、画像認識部５２、スピーカ位置特定部５３、音声パラメータ設定部５４などは、スマートフォンなど、プロセッサ１１、記憶部１２、通信部１３を有する他の機器により実現されてもよい。また形状データ格納部６１はスマートフォンなどの記憶部１２の一部であってもよい。

撮影データ取得部５１は、カメラ１６により撮影された撮影画像のデータを取得する。撮影データ取得部５１は、カメラ１６から直接データを取得してもよいし、他の機器に設置されたカメラ１６が撮影した撮影画像のデータを通信部１３経由で取得してもよい。

画像認識部５２は、撮影画像に含まれるスピーカユニット２の画像を認識する。また、画像認識部５２は、撮影画像に含まれるリモコン３１またはリスナー３の画像を認識する。形状データ格納部６１は、予め定められた１または複数の種類のスピーカユニット２の画像を示すデータを格納する。画像認識部５２は、形状データ格納部６１に格納されるデータが示すスピーカユニット２の形状と、撮影画像とを照合することで、撮影画像に含まれるスピーカユニット２の画像を認識する。

スピーカ位置特定部５３は、認識されたスピーカユニット２の撮影画像内の位置や大きさに基づいて、スピーカユニット２の空間的な位置を特定する。スピーカ位置特定部５３において行われる処理の詳細については後述する。

音声パラメータ設定部５４は、特定されたスピーカユニット２の空間的な位置に基づいて、そのスピーカユニット２に向けて出力される音声信号のパラメータを決定する。より具体的には、音声パラメータ設定部５４はスピーカユニット２の空間的な位置に基づいて、そのスピーカユニット２に割り当てられる音声信号のチャネルを決定する。なお、音声パラメータ設定部５４は音声の出力の遅延量や周波数特性の補正などの、音声信号の補正に関するパラメータを決定してもよい。

音声信号出力部５５は、決定されたパラメータと音源２３から供給される音声の信号とに基づいて、フロントユニット１に含まれるスピーカ２１や、スピーカユニット２に向けて音声信号を出力する。音声信号は電気信号であってもよいし、データであってもよい。出力された音声信号によりフロントユニット１やスピーカユニット２に含まれるスピーカ２１から音声が出力される。

指示応答部７１は、スピーカ位置特定部５３の処理により出力された指示に応じた処理を実行し、通信部１３を介した通信や他の出力などにより応答する。指示応答部７１の処理の詳細については後述する。

以下ではフロントユニット１がスピーカユニット２の位置を特定し音声信号のパラメータを決定する処理の詳細について説明する。図６はフロントユニット１の処理の一例を示すフロー図である。なお、以下の処理は特に説明のない限りスマートフォンなどの他の装置で行われてもよい。図６に示される処理は、ユーザがスピーカユニット２の出力を調整する指示としてボタンの押下等をすることにより開始される。

はじめに、撮影データ取得部５１は、カメラ１６により撮影された撮影画像のデータを取得する（ステップＳ１０１）。図７は、カメラ１６により撮影される撮影画像の一例を示す図である。図７の例は図１に示されるスピーカユニット２の配置に対応する画像であり、リスナー３の位置にはイス３６が設置され、イス３６の上にリモコン３１が配置されている。リスナー３の位置に人物がいてもよい。

次に、画像認識部５２は、撮影画像のデータが示す撮影画像に含まれるオブジェクトの画像のうち、形状データ格納部６１に形状が格納されたスピーカユニット２の画像を認識する（ステップＳ１０２）。形状データ格納部６１には、様々な型番のスピーカユニット２のそれぞれについて、様々な方向からみたスピーカユニット２の画像の特徴を示すデータが格納されている。画像認識部５２は、例えば、撮影画像からオブジェクトの画像を切出し、オブジェクトの画像の大きさを正規化する。そして画像認識部５２は正規化された画像と形状データ格納部６１に格納されたスピーカユニット２の画像の特徴と照合する。そこでオブジェクトの画像がスピーカユニット２の特徴に合致した場合には、画像認識部５２はそのオブジェクトの画像をスピーカユニット２の画像として認識する。また、画像認識部５２は、形状データ格納部６１から特徴が合致したスピーカユニット２の型番や実際のサイズを取得する。

スピーカユニット２の画像が認識されると、スピーカ位置特定部５３は、撮影画像における認識されたスピーカユニット２の画像の位置及び大きさと、そのスピーカユニット２の実際のサイズを示す値とに基づいて、スピーカユニット２の実際の位置を特定する（ステップＳ１０３）。

図８は、スピーカユニット２とフロントユニット１との位置関係を説明する図である。スピーカ位置特定部５３は、撮影画像におけるスピーカユニット２の中心の位置から、フロントユニット１からみたスピーカユニット２の角度θ１を算出する。また、スピーカ位置特定部５３は、撮影画像におけるスピーカユニット２の画像の大きさと実際のサイズを示す値との比に基づいて、距離Ｌ１を求める。ここで、撮影画像の位置から角度θ１や距離Ｌ１を求める手法の詳細については公知であるため説明を省略する。スピーカ位置特定部５３は角度θ１や距離Ｌ１の代わりに、他の公知の手法により、フロントユニット１の前方をｚ軸とし、上下方向をｙ軸、左右方向をｘ軸とするようなスピーカユニット２の３次元座標を求めてもよい。またスピーカ位置特定部５３はステレオカメラによる距離認識など、他の手法で距離Ｌ１や３次元座標を求めてもよい。なお、スピーカユニット２の実際の位置として、角度θ１のみが算出されてもよい。

スピーカユニット２の実際の位置が特定されると、スピーカ位置特定部５３は、撮影画像に含まれるリモコン３１または人物の画像を認識する（ステップＳ１０４）。スピーカ位置特定部５３は、公知の顔認識技術により、撮影画像に含まれる人物の顔を画像を認識する。また、スピーカ位置特定部５３は、撮影画像に含まれるリモコン３１の画像を認識する。形状データ格納部６１には、様々な方向からみたリモコン３１の画像の特徴を示すデータが格納されている。画像認識部５２は、正規化されたオブジェクトの画像と形状データ格納部６１に格納されたリモコン３１の画像の特徴と照合する。そこでオブジェクトの画像がリモコン３１の特徴に合致した場合には、画像認識部５２はそのオブジェクトの画像をリモコン３１の画像として認識する。

スピーカ位置特定部５３は、認識されたリモコン３１または人物の画像に基づいて、リスナー３の実際の位置を特定する（ステップＳ１０５）。より具体的には、スピーカ位置特定部５３は、撮影画像における、認識された人物の顔の画像の位置および大きさや、認識されたリモコン３１の画像の位置および大きさおよびリモコン３１の実際のサイズを示す値に基づいて、リスナー３の位置を特定する。なお、ステップＳ１０４、ステップＳ１０５の処理は、ステップＳ１０２，Ｓ１０３処理の前に行われてもよいし、それらの処理が並列的に処理されてもよい。

図９は、リスナー３とフロントユニット１との位置関係を説明する図である。スピーカ位置特定部５３は、フロントユニット１からのリスナー３の角度θ２を、撮影画像におけるリスナー３の位置から算出する。また、スピーカ位置特定部５３は、撮影画像におけるリモコン３１の画像の大きさと実際のサイズを示す値との比に基づいて、距離Ｌ２を求める。スピーカ位置特定部５３は、撮影画像における、顔の画像が認識された人物の足元の位置や、認識された顔の画像の大きさと推定される実際の顔の大きさとから距離Ｌ２を求めてもよい。スピーカ位置特定部５３は角度θ２や距離Ｌ２の代わりに、他の公知の手法により、リスナー３の３次元座標を求めてもよい。またスピーカ位置特定部５３はステレオカメラによる距離認識など、他の手法で距離Ｌ２や３次元座標を求めてもよい。

スピーカユニット２およびリスナーの位置が特定されると、スピーカ位置特定部５３は、フロントユニット１と通信可能なスピーカユニット２を探索する（ステップＳ１０６）。具体的には、スピーカ位置特定部５３は、フロントユニット１とスピーカユニット２とが無線ＬＡＮを介して接続される場合は、例えばフロントユニット１と同じセグメントに属するスピーカユニット２を通信可能なスピーカユニット２として検出する。スピーカ位置特定部５３はフロントユニット１と有線接続されたスピーカユニット２を通信可能なスピーカユニット２として検出してもよい。

次に、スピーカ位置特定部５３は、通信可能なスピーカユニット２のそれぞれと、撮影画像から特定された位置とを対応付ける（ステップＳ１０７）。撮影画像から認識されるスピーカユニット２は、形状と位置しか特定されておらず、必ずしもスピーカユニット２のそれぞれを一意に識別できない。例えば同じ型番の複数のスピーカユニット２が配置されている場合、機器ＩＤなどで特定されるスピーカユニット２の個体と撮影画像におけるスピーカユニット２との関係は不明確になる。ステップＳ１０７により、音声信号のあて先となるスピーカユニット２のそれぞれの個体の実際の位置が明確になる。

図１０は、スピーカユニット２と撮影画像から特定された実際の位置とを対応付ける処理の一例を示すフロー図である。図１０はステップＳ１０７の処理の詳細を示す。

ステップＳ１０７の処理では、はじめに、スピーカ位置特定部５３は無線通信の電波強度に基づいて、フロントユニット１と同室にあるスピーカユニット２を特定する（ステップＳ２０１）。例えば、スピーカ位置特定部５３は、フロントユニット１とスピーカユニット２との間でのＢｌｕｅｔｏｏｔｈ（登録商標）通信における受信電波強度が閾値より大きいか否かに基づいてフロントユニット１と同室にあるスピーカユニット２を特定してもよいし、無線ＬＡＮにおけるアドホック接続の際の電波強度に基づいてその同室にあるスピーカユニット２を特定してもよい。

次に、スピーカ位置特定部５３は同室にあるスピーカユニット２について、同形状の複数のスピーカユニット２が存在するか判定する（ステップＳ２０２）。より具体的には、スピーカ位置特定部５３はスピーカユニット２のそれぞれからスピーカユニット２の型番の情報を取得し、その型番が同じスピーカユニット２が他に存在するか否かによって同形状の複数のスピーカユニット２が存在するか判定する。

同形状の複数のスピーカユニット２が存在しない場合には（ステップＳ２０２のＮ）、スピーカユニット２の形状に基づいて、撮影画像において認識されたスピーカユニット２と実際のスピーカユニット２の個体とを対応付ける（ステップＳ２０６）。

一方、同形状の複数のスピーカユニット２が存在する場合には（ステップＳ２０２のＹ）、スピーカ位置特定部５３はステップＳ２０３からＳ２０５の処理を実行する。ステップＳ２０３では、スピーカ位置特定部５３はスピーカユニット２のそれぞれに、高指向性の音を出力することを示す信号を送信する。そしてスピーカ位置特定部５３は撮影画像から位置が特定されたスピーカユニット２に向けて、フロントユニット１のスピーカ２１から高指向性の音を出力する（ステップＳ２０３）。

図１１は、スピーカユニット２の指示応答部７１の処理の一例を示すフロー図である。図１１に示される処理は、スピーカユニット２に含まれるプロセッサ１１が記憶部１２に格納されたプログラムを実行することで実現される。また、図１１に示される処理は、フロントユニット１が図１０のステップＳ２０３からステップＳ２０４のデータ送受信の相手方の処理である。

はじめに、指示応答部７１は、フロントユニット１から送信され、高指向性の音が出力されたことを示す信号を受信する（ステップＳ３０１）。そして、指示応答部７１は、マイク２２に入力された音のデータを取得し、その音のデータをフロントユニット１に向けて送信する（ステップＳ３０２）。ここで、指示応答部７１は、音のデータの代わりに高指向性の音を検出した時刻を送信してもよい。

次に、スピーカ位置特定部５３はスピーカユニット２のそれぞれから、マイク２２に音が入力されたか否かを示す信号を受信する（ステップＳ２０４）。この信号は、マイク２２に入力された音のデータであってもよいし、マイク２２が音を検出した時刻であってもよい。スピーカ位置特定部５３は受信された信号に基づいて、高指向性の音が入力されたスピーカユニット２を特定し、音が入力された実際のスピーカユニット２の個体と、撮影画像中のスピーカユニット２とを対応付ける（ステップＳ２０５）。

ここで、撮影画像に写っていないスピーカユニット２が存在するために、実際のスピーカユニット２のうち一部が撮影画像中で認識されていない場合がある。そのため、ステップＳ２０７の処理において以下の処理を行う。スピーカ位置特定部５３はカメラ１６と同じ部屋にありかつ撮影画像中のスピーカユニット２に対応付けられていない１または複数のスピーカユニット２が存在するか判定する。そして、対応付けられていない１または複数のスピーカユニット２が存在すると判定された場合には、スピーカ位置特定部５３はフロントユニット１に関連付けられたスマートフォンなどの機器に、対応付けられないスピーカユニット２があることを知らせかつ位置の入力を促すメッセージを出力させる。またユーザがスマートフォンなどの機器に入力したスピーカユニット２の位置を取得する。ユーザに位置を入力させる方法としては、スピーカ位置特定部５３が典型的なスピーカユニット２の配置をスマートフォンの画面に表示させるよう制御し、その画面から選択されたスピーカユニット２の位置を取得してもよい。また、スピーカ位置特定部５３がスマートフォンにカメラ１６の撮影画像を表示するよう制御し、ユーザがスピーカユニット２が隠れている位置をタッチすると、スピーカ位置特定部５３がそのタッチ位置から推定されるスピーカユニット２の位置を取得してもよい。

実際のスピーカユニット２の個体と撮影画像中のスピーカユニット２とが対応付けられると、スピーカ位置特定部５３は、実際のスピーカユニット２のそれぞれの位置として、その実際のスピーカユニット２に対応する撮影画像中のスピーカユニット２について求められた位置を設定する（ステップＳ２０８）。これにより、通信可能なスピーカユニット２のそれぞれと、撮影画像から特定された位置とが対応付けられる。

ステップＳ１０７の処理により、通信可能なスピーカユニット２のそれぞれと、撮影画像から特定された実際の位置とが対応づけられると、ステップＳ１０８の処理が実行される。ステップＳ１０８では、音声パラメータ設定部５４はスピーカユニット２のそれぞれの位置に基づいて、スピーカユニット２のそれぞれに音声のチャネルを割り当てる。ここで、音声パラメータ設定部５４は、スピーカユニット２がリスナー３より前にあるか後ろにあるか、またリスナー３の右側にあるか左側にあるかを判定し、その判定結果に応じて割り当てられる音声のチャネルを決定してもよい。また、音声パラメータ設定部５４は、チャネルだけでなく各スピーカユニット２に向けて出力される音声信号の遅延の量や周波数特性などのパラメータを決定してもよい。

ステップＳ１０８の処理が実行されると、音声信号出力部５５は、各スピーカユニット２に、割り当てられた音声のチャネル等に応じた音声信号を出力する。

これまでに説明した処理により、ユーザは、スピーカユニット２が出力する音声信号のチャネルなどのパラメータを設定する手間が軽減される。カメラ１６の撮影画像からスピーカユニット２の位置を特定することができる。また図１２に示される処理によって、同じ形状の複数のスピーカが存在しても適切に音声信号に関するパラメータを設定することができる。また撮影画像からリスナー３の位置を特定することにより、スピーカユニット２とリスナー３との相対位置を検出することができる。例えばリスナー３とスピーカユニット２とのどちらが前かがわかることにより、スピーカユニット２に割り当てるチャネルを適切に設定することができる。

図１２は、スピーカユニット２と撮影画像から特定された位置とを対応付ける処理の他の一例を示すフロー図である。図１２の例では、ステップＳ２５１，Ｓ２５２，Ｓ２５６〜Ｓ２５８の処理は、図１０におけるステップＳ２０１，Ｓ２０２，Ｓ２０６〜Ｓ２０８の処理と同じであるので説明を省略する。

図１２の処理において、同室に複数の同形状のスピーカユニット２が存在する場合には（ステップＳ２５２のＹ）、スピーカ位置特定部５３はスピーカユニット２のいずれかに、そのスピーカユニット２に含まれるインジケータを点灯させる信号を送信する（ステップＳ２５３）。この場合、スピーカユニット２に含まれる指示応答部７１は、そのインジケータを点灯させる信号を受信すると、スピーカユニット２のインジケータを点灯させる。

そして、スピーカ位置特定部５３はカメラ１６から新たに撮影された画像のデータを取得し、インジケータが点灯したスピーカユニット２を検出する（ステップＳ２５４）。そして、スピーカ位置特定部５３は信号の送信先である実際のスピーカユニット２の個体と、撮影された画像中でインジケータの点灯した箇所にあるスピーカユニット２とを対応付ける。

図１２の例では図１１の例と異なり、信号を受信したスピーカユニット２に光などを出力させることで、信号の送信先であるスピーカユニット２と画像内のスピーカユニット２とが対応付けられ、これにより、実際のスピーカユニット２の個体の位置が一意に求められる。図１２の例ではフロントユニット１にアレイスピーカ２１ａが内蔵されていなくても実際のスピーカユニット２の個体の位置が一意に求められる。なお、スピーカユニット２に光の代わりに音を出力させ、フロントユニット１側でその音の方向を特定することでスピーカユニット２と画像内のスピーカユニット２とを対応付けてもよい。

［付記］以上に説明した実施形態についての記載から把握されるように、本明細書では以下に記載の発明を含む多様な技術的思想が開示されている。

本発明にかかるスピーカ位置特定システムは、撮影画像を取得するカメラと、前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置に基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。

また、本発明に係るプログラムは、カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段、及び、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段、としてコンピュータを機能させるためのプログラムである。また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。

上記発明の一形態では、前記位置特定手段は、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定してもよい。

上記発明の一形態では、前記画像認識手段は、スピーカの形状を示すデータが格納される記憶手段に格納された前記データに基づいて、前記撮影画像に含まれるスピーカの画像を認識してもよい。

上記発明の一形態では、前記パラメータ決定手段は、前記特定されたスピーカの位置に基づいて、前記スピーカに割り当てられる音声信号のチャネルを決定してもよい。

上記発明の一形態では、前記画像認識手段は、前記撮影画像に含まれる前記スピーカの画像と、前記撮影画像に含まれるリモコンまたは人物の画像とを認識し、前記位置特定手段は、前記撮影画像に含まれるリモコンまたは人物の画像に基づいて、さらにリスナーの位置を特定し、前記パラメータ決定手段は、前記特定されたスピーカの位置と、前記特定されたリスナーの位置とに基づいて、前記スピーカに割り当てられる音声信号のパラメータを決定してもよい。

上記発明の一形態では、前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定してもよい。

上記発明の一形態では、前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカのうち１つに向けて高指向性の音を出力し、前記複数のスピーカのいずれかに取り付けられたマイクが検出した前記音に基づいて前記複数のスピーカの位置を特定してもよい。

上記発明の一形態では、前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカに音または光を出力させる信号を送信し、前記複数のスピーカにより出力された音または光にさらに基づいて、前記複数のスピーカの位置を特定してもよい。

上記発明の一形態では、前記位置特定手段は、前記カメラと同じ部屋にある１または複数のスピーカを検出し、前記検出された１またはスピーカのうち、撮影画像で認識されていないスピーカがあるか否か判定してもよい。

１フロントユニット、２，２ａ，２ｂスピーカユニット、３リスナー、４テレビ、１１プロセッサ、１２記憶部、１３通信部、１４出力部、１５入力部、１６カメラ、２１スピーカ、２１ａアレイスピーカ、２２マイク、２３音源、
３１リモコン、３５家具、３６イス、５１撮影データ取得部、５２画像認識部、５３スピーカ位置特定部、５４音声パラメータ設定部、５５音声信号出力部、６１形状データ格納部、７１指示応答部。

Claims

撮影画像を取得するカメラと、
前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、
前記認識されたスピーカの前記撮影画像内の位置に基づいて、前記スピーカの位置を特定する位置特定手段と、
前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を有し、
前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、
前記形状が同じ複数のスピーカが存在すると判定された場合に、前記位置特定手段は、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
スピーカ位置特定システム。
請求項１に記載のスピーカ位置特定システムにおいて、
前記位置特定手段は、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する、
スピーカ位置特定システム。
請求項１または２に記載のスピーカ位置特定システムにおいて、
前記画像認識手段は、スピーカの形状を示すデータが格納される記憶手段に格納された前記データに基づいて、前記撮影画像に含まれるスピーカの画像を認識する、
スピーカ位置特定システム。
請求項１から３のいずれかに記載のスピーカ位置特定システムにおいて、
前記パラメータ決定手段は、前記特定されたスピーカの位置に基づいて、前記スピーカに割り当てられる音声信号のチャネルを決定する、
スピーカ位置特定システム。
請求項１から４のいずれかに記載のスピーカ位置特定システムにおいて、
前記画像認識手段は、前記撮影画像に含まれる前記スピーカの画像と、前記撮影画像に含まれるリモコンまたは人物の画像とを認識し、
前記位置特定手段は、前記撮影画像に含まれるリモコンまたは人物の画像に基づいて、さらにリスナーの位置を特定し、
前記パラメータ決定手段は、前記特定されたスピーカの位置と、前記特定されたリスナーの位置とに基づいて、前記スピーカに割り当てられる音声信号のパラメータを決定する、
スピーカ位置特定システム。
請求項１に記載のスピーカ位置特定システムにおいて、
前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカのうち１つに向けて高指向性の音を出力し、前記複数のスピーカのいずれかに取り付けられたマイクが検出した前記音に基づいて前記複数のスピーカの位置を特定する、
スピーカ位置特定システム。
請求項１に記載のスピーカ位置特定システムにおいて、
前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカに音または光を出力させる信号を送信し、前記複数のスピーカにより出力された音または光にさらに基づいて、前記複数のスピーカの位置を特定する、
スピーカ位置特定システム。
請求項１から７のいずれかに記載のスピーカ位置特定システムにおいて、
前記位置特定手段は、前記カメラと同じ部屋にある１または複数のスピーカを検出し、前記検出された１またはスピーカのうち、撮影画像で認識されていないスピーカがあるか否か判定する、
スピーカ位置特定システム。
カメラから撮影画像を取得するステップと、
前記取得された撮影画像に含まれるスピーカの画像を認識するステップと、
前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定するステップと、
前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するステップと、を含み、
前記スピーカの位置を特定するステップでは、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、前記形状が同じ複数のスピーカが存在すると判定された場合に、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
スピーカ位置特定方法。
カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段と、
前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、
前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含み、
前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、
前記形状が同じ複数のスピーカが存在すると判定された場合に、前記位置特定手段は、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
スピーカ位置特定装置。