JP2019103011A

JP2019103011A - 変換装置、変換方法、およびプログラム

Info

Publication number: JP2019103011A
Application number: JP2017233062A
Authority: JP
Inventors: 弘章伊藤; Hiroaki Ito; 豪入江; Takeshi Irie; 京介西田; Kyosuke Nishida; 歩相名神山; Hosona Kamiyama
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2019-06-24
Anticipated expiration: 2037-12-05
Also published as: JP6881267B2

Abstract

【課題】音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、対話に無関係な情報を排除し、誤動作を防止することができる話者方向決定装置を提供する。【解決手段】話者方向決定装置１において、測定座標補正部１２は、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する。測定座標補正部１２は、マイクロホン方向を変換規則によりカメラ座標に変換する。変換規則は、少なくとも３個のスピーカからなる放音部から発せられ、少なくとも３個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも３個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られる。【選択図】図２

Description

この発明は、話者の方向を推定する技術に関する。

音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、ロボットに到来した音が対話に関係あるか否か、を判別することは、円滑な対話を実現する上で重要である。

例えば特許文献１や特許文献２に記載された従来技術では、複数のマイクロホンで集音された信号に基づきある複数の方向毎に分離した信号を生成し、分離後の信号のパワーを算出し、ある時点で最大のパワーとなる方向を対話に関係のある方向とし、その方向の音を強調して集音するように指向性集音を実施する。

従来の話者方向決定装置の機能構成を図１に示す。図１の話者方向決定装置９は、方向別前処理部９１と方向別パワー算出部９２と到来方向選択部９３とを備える。方向別前処理部９１は、複数のマイクロホンで集音された音信号に基づきある複数の方向毎に分離した信号を生成する。方向別パワー算出部９２は、分離後の音信号から方向毎のパワーを算出する。到来方向選択部９３は、方向毎のパワーからある時点で最大のパワーとなる方向を対話に関係のある方向として選択する。指向性集音部８は、複数のマイクロホンで集音された音信号のうち到来方向選択部９２が選択した到来方向の音を強調して集音する。

特開２００５−６４９６８号公報特開２００１−３０９４８３号公報

しかしながら、従来の技術では音のパワーのみを手掛かりとしているため、目的とする音源と、対話に無関係な音源とが存在する場合には、どちらが目的とする音源か見分けることができず、無関係な音源側を強調してしまうといった誤動作を起こす可能性がある。例えば、複数人に囲まれたロボットが対話を行うシーンを想定すると、周囲の会話のように対話と無関係な話者に反応してしまうといった誤動作を起こしてしまい、対話が成立しないことがある。

この発明の目的は、上記のような点に鑑みて、対話に無関係な音源が存在する場合に、その対話に無関係な情報を排除することで、誤動作を防止することができる話者方向決定技術を実現することである。

上記の課題を解決するために、この発明の変換装置は、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、マイクロホン方向を変換規則によりカメラ座標に変換する変換部を含み、変換規則は、少なくとも３個のスピーカからなる放音部から発せられ、少なくとも３個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも３個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。

この発明の話者方向決定技術では、音の到来方向推定に加えて、画像認識を利用した話者方向推定を行うことで、対話に無関係な情報を排除することができる。これにより、この発明の話者方向決定技術によれば、対話に無関係な音源が存在する場合であっても、誤動作を防止することができる。

図１は、従来の話者方向決定装置の機能構成を例示する図である。図２は、第一実施形態の話者方向決定装置の機能構成を例示する図である。図３は、第一実施形態の話者方向決定方法の処理手続きを例示する図である。図４は、話者方向推定結果とカメラ画像の校正を説明するための図である。図５は、画像認識結果を利用したスコアの算出を説明するための図である。図６は、変形例の変換装置の機能構成を例示する図である。図７は、変形例の変換方法の処理手続きを例示する図である。図８は、第二実施形態の話者方向決定装置の機能構成を例示する図である。図９は、第二実施形態の話者方向決定方法の処理手続きを例示する図である。図１０は、音声認識結果と画像認識結果を利用したスコアの算出を説明するための図である。図１１は、第三実施形態の最適配置取得装置の機能構成を例示する図である。図１２は、スピーカの最適配置の取得方法を説明するための図である。図１３は、スピーカの最適配置の表示方法を説明するための図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の話者方向決定装置は、対話ロボットなどが話者の方向を推定して指向性集音を実施する際に、雑音源などで方向推定を誤動作させないために、到来方向推定結果に基づき画像認識を実施することで、目的話者方向を決定する装置である。

第一実施形態の話者方向決定装置１は、図２に示すように、M（≧2）個のマイクロホンが集音したM個の音声信号と少なくともK（≧1）個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部８へ出力する。K個のカメラとM個のマイクロホンとは異なる位置に設置されることを想定しているが、例えば、カメラの筐体にマイクロホンを設置するなど同一とみなせる位置に設置されていてもよい。K個のカメラは、全天球カメラのように、カメラを中心として全周囲を撮影可能なカメラを用いてもよい。話者方向決定装置１は、到来方向推定部１１と測定座標補正部１２と画像認識部１３と話者方向推定部１４とを備える。この話者方向決定装置１が、図３に例示する各ステップの処理を行うことにより第一実施形態の話者方向決定方法が実現される。

話者方向決定装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向決定装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向決定装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向決定装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

以下、図３を参照して、第一実施形態の話者方向決定装置１が実行する話者方向決定方法について説明する。

ステップＳ１１において、到来方向推定部１１は、まず、M個のマイクロホンからM個の音声信号を受信し、ビームフォーミング等の信号処理によりL（≧2）個の方向別音声信号に変換することで、各方向別音声信号から方向別のパワーを算出する。次に、到来方向推定部１１は、算出した方向別パワーを所定の閾値と比較し、その閾値を超えた方向を到来方向として推定する。そして、到来方向推定部１１は、到来方向の推定結果を測定座標補正部１２へ出力する。

ステップＳ１２において、測定座標補正部１２は、到来方向推定部１１から到来方向推定結果（角度情報）を受信し、K個のカメラで撮影された画像上の座標系に合致するように予め算出しておいた変換行列を用い、到来方向推定結果をカメラと同一の座標系へと校正する。測定座標補正部１２は、校正した到来方向推定結果を画像認識部１３へ出力する。

図４を参照して、到来方向推定結果（角度情報）とカメラ画像の校正方法について説明する。校正するためには、マイクで観測された音声信号から算出される到来方向推定結果の二次元角度スペクトル上の点(θ, φ)（θは水平角、φは仰角を表す）と、カメラで撮影された画像上の画素(x, y)との変換行列を求めればよい。ここではカメラ画像の画素から二次元角度スペクトル上の点への変換方法を示す。二次元角度スペクトル上の点からカメラ画像の画素へ変換する場合は逆の計算を行えばよい。

図４に示すように、３箇所以上の相異なる位置に校正用スピーカを設置する。各スピーカには、撮影された画像からそれぞれの校正用スピーカが区別可能なマーカー（例えば、「●」「■」「★」等の記号等）を貼り付けておく。また、各校正用スピーカから相異なる周波数帯域の音を発することで、画像上の画素と二次元角度スペクトルとの対応が取れるようにする。この校正用スピーカを用いて、マイク及びカメラにて同時に収音及び撮影することで得られる二次元角度スペクトル(θ_i, φ_i)とカメラ画像の画素(x_i, y_i)（iはスピーカのインデックスを表す）について、下記の式で表される変換行列を求める。ここで、a, b, c, d, e, fは到来方向推定結果の二次元角度スペクトルと画像上の画素の組から対応関係を求めた変換パラメータである。この変換パラメータが設定された3×3の行列が図４中の変換行列Kに該当する。

座標変換における自由度は、回転（１自由度）、平行移動（２自由度）、拡大縮小（１自由度）、せん断（１自由度）の合計６自由度とし、対応する角度スペクトルと画素の組を３つ以上得ることで、変換行列を一意に決定することができる。

ステップＳ１３において、画像認識部１３は、K個のカメラから画像信号を受信し、測定座標補正部１２から座標軸が校正された到来方向推定結果を受信する。画像認識部１３は、カメラから受信した画像から到来方向毎の画像を取得し、取得した画像に顔認識を実施することで、画像中の顔向きを検出し、画面全体における顔部分の占有率を算出する。画像認識部１３は、顔部分の画面占有率と顔向き検出結果とを話者方向推定部１９へ出力する。なお、顔向きの検出方法および画面占有率の算出方法については、下記参考文献１のような方法が利用可能である。
〔参考文献１〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年

ステップＳ１４において、話者方向推定部１４は、画像認識部１３から受信した到来方向毎の画面占有率および顔向き検出結果から、指向性集音の目的とする話者方向を推定する。話者方向の推定方法は決定論的でも確率的でも構わない。例えば、図５に示すように、画面占有率と顔向き検出結果からスコアを算出し、そのスコアが最も高い画像の方向を話者方向として決定する。例えば、図５の例では、正面を向いており画面占有率が高い図５（Ａ）が最もスコアが高く、正面以外を向いており画面占有率が低い図５（Ｄ）が最もスコアが低くなっていることがわかる。話者方向推定部１４は、決定した話者方向を指向性集音部８へ出力する。

ステップＳ８において、指向性集音部８は、M個のマイクロホンが集音したM個の音声信号から、話者方向推定部１４から受け取った話者方向の音を強調して集音する。指向性集音部８は、例えば下記参考文献２に記載された指向性集音を行う。指向性集音部８は、話者方向の音が強調された強調音声を出力する。
〔参考文献２〕特開２００９−４４５８８号公報

［変形例］
第一実施形態の話者方向決定装置１から測定座標補正部１２の処理のみを取り出した独立の変換装置を構成してもよい。変形例の変換装置１００は、図６に示すように、変換部１０を備える。この変換装置１００が、図７に例示する各ステップの処理を行うことにより変形例の変換方法が実現される。

変換装置１００は、マイクロホン方向を入力とし、そのマイクロホン方向をカメラで撮影した画像上の座標系へ変換したカメラ座標を出力する。マイクロホン方向とは、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向である。カメラ座標とは、カメラにより撮影された画像における座標である。

ステップＳ１０において、変換部１０は、第一実施形態と同様の変換行列を用いて、入力されたマイクロホン方向（角度情報）をカメラで撮影された画像の座標系へ校正し、そのカメラ座標を変換装置１００の出力として出力する。変換行列は、第一実施形態と同様のものであるため、少なくとも３個のスピーカからなる放音部から発せられ、少なくとも３個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも３個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。

変形例の変換装置１００は、例えば、話者方向決定装置１の到来方向推定部１１が出力する到来方向推定結果を受け取って、その到来方向推定結果をカメラで撮影した画像上の座標に校正し、話者方向決定装置１の画像認識部１３へ返却する外部の装置として機能させることが可能である。また、マイクロホンで集音した音声の到来方向をカメラで撮影した画像上の座標に変換するような他の音声処理装置に応用することが可能である。

［第二実施形態］
第二実施形態の話者方向決定装置２は、図８に示すように、第一実施形態と同様に到来方向推定部１１と測定座標補正部１２と画像認識部１３と話者方向推定部１４とを備え、さらに音声認識部２１を備える。この話者方向決定装置２が、図９に例示する各ステップの処理を行うことにより第二実施形態の話者方向決定方法が実現される。

以下、図９を参照して、第二実施形態の話者方向決定装置２が実行する話者方向決定方法について説明する。

ステップＳ１１において、到来方向推定部１１は、第一実施形態と同様に、到来方向を推定し、測定座標補正部１２へ出力する。また同時に、M個のマイクロホンから受信したM個の音声信号を、到来方向毎に分離して音声認識部２１へ出力する。

ステップＳ１２において、測定座標補正部１２は、第一実施形態と同様に、到来方向推定部１１から受信した到来方向推定結果をカメラと同一の座標系へと校正し、画像認識部１３へ出力する。校正するために用いる変換行列については第一実施形態と同様の方法で求めることができる。

ステップＳ１３において、画像認識部１３は、第一実施形態と同様に、測定座標補正部１２から受信した到来方向毎に顔向きの検出と画面占有率の算出を行い、その顔向き検出結果と画面占有率とを話者方向推定部１９へ出力する。顔向きの検出方法および画面占有率の算出方法は、第一実施形態と同様に上記参考文献１のような方法が利用可能である。

ステップＳ２１において、音声認識部２１は、到来方向推定部１１から受信した到来方向毎に分離した音声信号に対して音声認識を実施し、到来方向毎の音声認識結果を得る。音声認識部２１は、得た音声認識結果を話者方向推定部１４へ出力する。

ステップＳ１４において、話者方向推定部１４は、音声認識部２１から受信した到来方向毎の音声認識結果と、画像認識部１３から受信した到来方向毎の顔向き検出結果および画面占有率とに基づいて、指向性集音の目的とする話者方向を推定する。例えば、図１０（Ａ）に示すように、画面占有率が高く、顔向きが正面であり、特定の単語を発話している到来方向のスコアが高くなり、図１０（Ｂ）に示すように、それらの条件に合致しない到来方向のスコアが低くなるように設計することが考えられる。このとき、特定の単語は、対話のシナリオや音声認識のタスクから話者が発話することが想定される単語であり、音声認識結果にこれらの単語が含まれるほど高いスコアが与えられるように設計するとよい。話者方向推定部１４は、決定した話者方向を指向性集音部８へ出力する。

この発明のポイントは、主に、１．音情報を利用した到来方向推定結果を基準に、画像情報及び言語情報を利用して話者方向を決定すること、２．画像情報では顔認識による画面占有率及び顔向き検出結果を利用し、言語情報では特定単語の発話検知結果を利用すること、の二点である。上記の点により、音のみでは捉えきれない目的とする話者方向を、音による到来方向推定の後段に画像情報や言語情報を用いた話者方向推定を行うことで、従来の方向推定で誤検知となっていた状況を回避でき、話者方向推定結果の頑健性が向上する。音声認識を利用した対話ロボットを利用する際に、周囲の話者などの雑音源が存在する環境でも、対話対象となる話者の発話のみを検出することができるため、利用シーンの拡大及びユーザ利便性が向上する。

［第三実施形態］
上記の実施形態では、予め用意された変換行列Kを用いて、音の到来方向をカメラの座標に変換していた。第三実施形態では変換行列Kを取得するために最適な校正用スピーカの配置を求める最適配置取得装置を説明する。校正用スピーカの配置を最適化することにより、カメラ側にとっては一般的にレンズ歪みや収差、交差ずれなどの影響を軽減することができるという効果がある。マイクロホン側にとっては各マイクロホンの感度誤差などの影響を軽減するために可能な範囲で多様な位置と角度に設置することが望ましいため、そうなるような配置を最適配置として求める。

第三実施形態の最適配置取得装置３は、図１１に示すように、M（≧2）個のマイクロホンが集音したM個の音声信号と少なくともK（≧1）個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから計算した校正用スピーカの最適配置を画面に表示する。最適配置取得装置３は、第一角度差取得部３１と第二角度差取得部３２と距離取得部３３と最適配置計算部３４と最適配置表示部３５とを備える。この最適配置取得装置３が、後述の各ステップの処理を行うことにより第三実施形態の最適配置取得方法が実現される。

第一角度差取得部３１は、M個のマイクロホンが集音したM個の音声信号に基づいて、M個のマイクロホンからなるマイクロホンアレイから各校正用スピーカを見たときの角度差を求める。第一角度差取得部３１は、求めた校正用スピーカの角度差を最適配置計算部３４へ出力する。マイクロホンアレイから各校正用スピーカを見たときの角度差が既知であれば、第一角度差取得部３１を備える必要はなく、最適配置取得装置３に既知の角度差が入力されるように構成すればよい。

第二角度差取得部３２は、K個のカメラが撮像したK個の画像信号に基づいて、カメラから各校正用スピーカを見たときの角度差を求める。第二角度差取得部３２は、求めた校正用スピーカの角度差を最適配置計算部３４へ出力する。カメラから各校正用スピーカを見たときの角度差が既知であれば、第二角度差取得部３２を備える必要はなく、最適配置取得装置３に既知の角度差が入力されるように構成すればよい。

距離取得部３３は、K個のカメラが撮像したK個の画像信号に基づいて、校正用スピーカ間の距離を求める。距離取得部３３は、求めた校正用スピーカ間の距離を最適配置計算部３４へ出力する。校正用スピーカ間の距離が既知であれば、距離取得部３３を備える必要はなく、最適配置取得装置３に既知の距離が入力されるように構成すればよい。

最適配置計算部３４は、マイクロホンアレイから各校正用スピーカを見たときの角度差、カメラから各校正用スピーカを見たときの角度差、および校正用スピーカ間の距離に基づいて、校正用スピーカの最適配置を計算する。最適配置計算部３４は、計算した校正用スピーカの最適配置を最適配置表示部３５へ出力する。

図１２を参照して、最適配置計算部３４が校正用スピーカの最適配置を計算する方法を説明する。図１２の例では、３個の校正用スピーカが存在しており、３個のマイクロホンからなるマイクロホンアレイと１個のカメラとを基準として校正用スピーカの最適配置を計算している。図中、校正用スピーカ間の距離はＡ−１〜Ａ−３で示している。カメラから各校正用スピーカを見たときの角度差はＢ−１〜Ｂ−３で示している。マイクロホンアレイから各校正用スピーカを見たときの角度差はＣ−１〜Ｃ−３で示している。このとき、各校正用スピーカ間の距離Ａ−１〜Ａ−３とカメラから校正用スピーカの角度差Ｂ−１〜Ｂ−３とマイクロホンアレイから校正用スピーカの角度差Ｃ−１〜Ｃ−３とを最大化することで、校正用スピーカの最適配置を求めることができる。なお、角度差は、例えばＢ−１とＢ−２との角度差をＢ−１、Ｂ−２がベクトルで定義されるものとすれば、arg(B-1)-arg(B-2)である。

最適配置表示部３５は、最適配置計算部３４から受け取った校正用スピーカの最適配置を画面等の出力部（図示せず）に出力する。図１３は、最適配置表示部３５が各校正用スピーカの最適配置を画面上に表示する一例である。図１３はカメラから校正用スピーカが設置されている空間を撮像した画像上に、現実に設置されている校正用スピーカの位置（実線の円）と、最適配置計算部３４により計算された各校正用スピーカの最適な位置（点線の網掛けされた円）とを表示した画面例である。現実の校正用スピーカの位置や各校正用スピーカの最適な位置は、画面上において、例えば、左右をx軸、上下をy軸、奥行きをz軸として三次元空間に各位置をプロットすることで表示する。ここでは直交座標系とした場合の例を示したが、例えば円筒座標系や球座標系など校正用スピーカを配置する空間に対して適切な座標系を用いて表示すればよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、２、９話者方向決定装置
３最適配置取得装置
８指向性集音部
１１到来方向推定部
１２測定座標補正部
１３画像認識部
１４話者方向推定部
２１音声認識部
３１第一角度差取得部
３２第二角度差取得部
３３距離取得部
３４最適配置計算部
３５最適配置表示部
９１方向別前処理部
９２方向別パワー算出部
９３到来方向選択部

Claims

複数のマイクロホンにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、
前記マイクロホン方向を変換規則により前記カメラ座標に変換する変換部を含み、
前記変換規則は、
少なくとも３個のスピーカからなる放音部から発せられ、前記少なくとも３個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも３個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
変換装置。
請求項１に記載の変換装置であって、
前記変換規則は、前記スピーカが発した音響信号から推定された到来方向の二次元角度スペクトルと、前記カメラにより撮影された前記スピーカの画像上の座標とを関連付けることで得られたものである、
変換装置。
請求項１または２に記載の変換装置であって、
iは前記スピーカの番号であり、(θ_i, φ_i)はi番目のスピーカが発した音響信号から推定した到来方向の二次元角度スペクトル上の点であり、(x_i, y_i)は前記カメラにより撮影されたi番目のスピーカの画像上の座標であり、a, b, c, d, e, fは自由度を６として前記二次元角度スペクトル上の点と前記座標との組から得た変換パラメータとし、
前記変換部は、次式を計算することにより前記マイクロホン方向を前記カメラ座標に変換するものである、

変換装置。
請求項１に記載の変換装置であって、
前記スピーカ間の距離、前記カメラから見た各スピーカの角度差、および前記マイクロホンアレイから見た各スピーカの角度差を最大化する各スピーカの位置を最適配置として求める最適配置計算部をさらに含む、
変換装置。
請求項４に記載の変換装置であって、
前記カメラにより撮影された画像に各スピーカの現実の配置および各スピーカの前記最適配置を重ね合わせて表示する最適配置表示部をさらに含む、
変換装置。
複数のマイクロホンにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置が実行する変換方法であって、
変換部が、前記マイクロホン方向を変換規則により前記カメラ座標に変換し、
前記変換規則は、
少なくとも３個のスピーカからなる放音部から発せられ、前記少なくとも３個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも３個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
変換方法。
請求項１から５のいずれかに記載の変換装置としてコンピュータを機能させるためのプログラム。