JP2019103011A - 変換装置、変換方法、およびプログラム - Google Patents

変換装置、変換方法、およびプログラム Download PDF

Info

Publication number
JP2019103011A
JP2019103011A JP2017233062A JP2017233062A JP2019103011A JP 2019103011 A JP2019103011 A JP 2019103011A JP 2017233062 A JP2017233062 A JP 2017233062A JP 2017233062 A JP2017233062 A JP 2017233062A JP 2019103011 A JP2019103011 A JP 2019103011A
Authority
JP
Japan
Prior art keywords
speaker
speakers
camera
unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017233062A
Other languages
English (en)
Other versions
JP6881267B2 (ja
Inventor
弘章 伊藤
Hiroaki Ito
弘章 伊藤
豪 入江
Takeshi Irie
豪 入江
京介 西田
Kyosuke Nishida
京介 西田
歩相名 神山
Hosona Kamiyama
歩相名 神山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017233062A priority Critical patent/JP6881267B2/ja
Publication of JP2019103011A publication Critical patent/JP2019103011A/ja
Application granted granted Critical
Publication of JP6881267B2 publication Critical patent/JP6881267B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、対話に無関係な情報を排除し、誤動作を防止することができる話者方向決定装置を提供する。【解決手段】話者方向決定装置1において、測定座標補正部12は、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する。測定座標補正部12は、マイクロホン方向を変換規則によりカメラ座標に変換する。変換規則は、少なくとも3個のスピーカからなる放音部から発せられ、少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも3個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られる。【選択図】図2

Description

この発明は、話者の方向を推定する技術に関する。
音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、ロボットに到来した音が対話に関係あるか否か、を判別することは、円滑な対話を実現する上で重要である。
例えば特許文献1や特許文献2に記載された従来技術では、複数のマイクロホンで集音された信号に基づきある複数の方向毎に分離した信号を生成し、分離後の信号のパワーを算出し、ある時点で最大のパワーとなる方向を対話に関係のある方向とし、その方向の音を強調して集音するように指向性集音を実施する。
従来の話者方向決定装置の機能構成を図1に示す。図1の話者方向決定装置9は、方向別前処理部91と方向別パワー算出部92と到来方向選択部93とを備える。方向別前処理部91は、複数のマイクロホンで集音された音信号に基づきある複数の方向毎に分離した信号を生成する。方向別パワー算出部92は、分離後の音信号から方向毎のパワーを算出する。到来方向選択部93は、方向毎のパワーからある時点で最大のパワーとなる方向を対話に関係のある方向として選択する。指向性集音部8は、複数のマイクロホンで集音された音信号のうち到来方向選択部92が選択した到来方向の音を強調して集音する。
特開2005−64968号公報 特開2001−309483号公報
しかしながら、従来の技術では音のパワーのみを手掛かりとしているため、目的とする音源と、対話に無関係な音源とが存在する場合には、どちらが目的とする音源か見分けることができず、無関係な音源側を強調してしまうといった誤動作を起こす可能性がある。例えば、複数人に囲まれたロボットが対話を行うシーンを想定すると、周囲の会話のように対話と無関係な話者に反応してしまうといった誤動作を起こしてしまい、対話が成立しないことがある。
この発明の目的は、上記のような点に鑑みて、対話に無関係な音源が存在する場合に、その対話に無関係な情報を排除することで、誤動作を防止することができる話者方向決定技術を実現することである。
上記の課題を解決するために、この発明の変換装置は、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、マイクロホン方向を変換規則によりカメラ座標に変換する変換部を含み、変換規則は、少なくとも3個のスピーカからなる放音部から発せられ、少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも3個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。
この発明の話者方向決定技術では、音の到来方向推定に加えて、画像認識を利用した話者方向推定を行うことで、対話に無関係な情報を排除することができる。これにより、この発明の話者方向決定技術によれば、対話に無関係な音源が存在する場合であっても、誤動作を防止することができる。
図1は、従来の話者方向決定装置の機能構成を例示する図である。 図2は、第一実施形態の話者方向決定装置の機能構成を例示する図である。 図3は、第一実施形態の話者方向決定方法の処理手続きを例示する図である。 図4は、話者方向推定結果とカメラ画像の校正を説明するための図である。 図5は、画像認識結果を利用したスコアの算出を説明するための図である。 図6は、変形例の変換装置の機能構成を例示する図である。 図7は、変形例の変換方法の処理手続きを例示する図である。 図8は、第二実施形態の話者方向決定装置の機能構成を例示する図である。 図9は、第二実施形態の話者方向決定方法の処理手続きを例示する図である。 図10は、音声認識結果と画像認識結果を利用したスコアの算出を説明するための図である。 図11は、第三実施形態の最適配置取得装置の機能構成を例示する図である。 図12は、スピーカの最適配置の取得方法を説明するための図である。 図13は、スピーカの最適配置の表示方法を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の話者方向決定装置は、対話ロボットなどが話者の方向を推定して指向性集音を実施する際に、雑音源などで方向推定を誤動作させないために、到来方向推定結果に基づき画像認識を実施することで、目的話者方向を決定する装置である。
第一実施形態の話者方向決定装置1は、図2に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部8へ出力する。K個のカメラとM個のマイクロホンとは異なる位置に設置されることを想定しているが、例えば、カメラの筐体にマイクロホンを設置するなど同一とみなせる位置に設置されていてもよい。K個のカメラは、全天球カメラのように、カメラを中心として全周囲を撮影可能なカメラを用いてもよい。話者方向決定装置1は、到来方向推定部11と測定座標補正部12と画像認識部13と話者方向推定部14とを備える。この話者方向決定装置1が、図3に例示する各ステップの処理を行うことにより第一実施形態の話者方向決定方法が実現される。
話者方向決定装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向決定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向決定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向決定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
以下、図3を参照して、第一実施形態の話者方向決定装置1が実行する話者方向決定方法について説明する。
ステップS11において、到来方向推定部11は、まず、M個のマイクロホンからM個の音声信号を受信し、ビームフォーミング等の信号処理によりL(≧2)個の方向別音声信号に変換することで、各方向別音声信号から方向別のパワーを算出する。次に、到来方向推定部11は、算出した方向別パワーを所定の閾値と比較し、その閾値を超えた方向を到来方向として推定する。そして、到来方向推定部11は、到来方向の推定結果を測定座標補正部12へ出力する。
ステップS12において、測定座標補正部12は、到来方向推定部11から到来方向推定結果(角度情報)を受信し、K個のカメラで撮影された画像上の座標系に合致するように予め算出しておいた変換行列を用い、到来方向推定結果をカメラと同一の座標系へと校正する。測定座標補正部12は、校正した到来方向推定結果を画像認識部13へ出力する。
図4を参照して、到来方向推定結果(角度情報)とカメラ画像の校正方法について説明する。校正するためには、マイクで観測された音声信号から算出される到来方向推定結果の二次元角度スペクトル上の点(θ, φ)(θは水平角、φは仰角を表す)と、カメラで撮影された画像上の画素(x, y)との変換行列を求めればよい。ここではカメラ画像の画素から二次元角度スペクトル上の点への変換方法を示す。二次元角度スペクトル上の点からカメラ画像の画素へ変換する場合は逆の計算を行えばよい。
図4に示すように、3箇所以上の相異なる位置に校正用スピーカを設置する。各スピーカには、撮影された画像からそれぞれの校正用スピーカが区別可能なマーカー(例えば、「●」「■」「★」等の記号等)を貼り付けておく。また、各校正用スピーカから相異なる周波数帯域の音を発することで、画像上の画素と二次元角度スペクトルとの対応が取れるようにする。この校正用スピーカを用いて、マイク及びカメラにて同時に収音及び撮影することで得られる二次元角度スペクトル(θi, φi)とカメラ画像の画素(xi, yi)(iはスピーカのインデックスを表す)について、下記の式で表される変換行列を求める。ここで、a, b, c, d, e, fは到来方向推定結果の二次元角度スペクトルと画像上の画素の組から対応関係を求めた変換パラメータである。この変換パラメータが設定された3×3の行列が図4中の変換行列Kに該当する。
Figure 2019103011
座標変換における自由度は、回転(1自由度)、平行移動(2自由度)、拡大縮小(1自由度)、せん断(1自由度)の合計6自由度とし、対応する角度スペクトルと画素の組を3つ以上得ることで、変換行列を一意に決定することができる。
ステップS13において、画像認識部13は、K個のカメラから画像信号を受信し、測定座標補正部12から座標軸が校正された到来方向推定結果を受信する。画像認識部13は、カメラから受信した画像から到来方向毎の画像を取得し、取得した画像に顔認識を実施することで、画像中の顔向きを検出し、画面全体における顔部分の占有率を算出する。画像認識部13は、顔部分の画面占有率と顔向き検出結果とを話者方向推定部19へ出力する。なお、顔向きの検出方法および画面占有率の算出方法については、下記参考文献1のような方法が利用可能である。
〔参考文献1〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
ステップS14において、話者方向推定部14は、画像認識部13から受信した到来方向毎の画面占有率および顔向き検出結果から、指向性集音の目的とする話者方向を推定する。話者方向の推定方法は決定論的でも確率的でも構わない。例えば、図5に示すように、画面占有率と顔向き検出結果からスコアを算出し、そのスコアが最も高い画像の方向を話者方向として決定する。例えば、図5の例では、正面を向いており画面占有率が高い図5(A)が最もスコアが高く、正面以外を向いており画面占有率が低い図5(D)が最もスコアが低くなっていることがわかる。話者方向推定部14は、決定した話者方向を指向性集音部8へ出力する。
ステップS8において、指向性集音部8は、M個のマイクロホンが集音したM個の音声信号から、話者方向推定部14から受け取った話者方向の音を強調して集音する。指向性集音部8は、例えば下記参考文献2に記載された指向性集音を行う。指向性集音部8は、話者方向の音が強調された強調音声を出力する。
〔参考文献2〕特開2009−44588号公報
[変形例]
第一実施形態の話者方向決定装置1から測定座標補正部12の処理のみを取り出した独立の変換装置を構成してもよい。変形例の変換装置100は、図6に示すように、変換部10を備える。この変換装置100が、図7に例示する各ステップの処理を行うことにより変形例の変換方法が実現される。
変換装置100は、マイクロホン方向を入力とし、そのマイクロホン方向をカメラで撮影した画像上の座標系へ変換したカメラ座標を出力する。マイクロホン方向とは、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向である。カメラ座標とは、カメラにより撮影された画像における座標である。
ステップS10において、変換部10は、第一実施形態と同様の変換行列を用いて、入力されたマイクロホン方向(角度情報)をカメラで撮影された画像の座標系へ校正し、そのカメラ座標を変換装置100の出力として出力する。変換行列は、第一実施形態と同様のものであるため、少なくとも3個のスピーカからなる放音部から発せられ、少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも3個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。
変形例の変換装置100は、例えば、話者方向決定装置1の到来方向推定部11が出力する到来方向推定結果を受け取って、その到来方向推定結果をカメラで撮影した画像上の座標に校正し、話者方向決定装置1の画像認識部13へ返却する外部の装置として機能させることが可能である。また、マイクロホンで集音した音声の到来方向をカメラで撮影した画像上の座標に変換するような他の音声処理装置に応用することが可能である。
[第二実施形態]
第二実施形態の話者方向決定装置2は、図8に示すように、第一実施形態と同様に到来方向推定部11と測定座標補正部12と画像認識部13と話者方向推定部14とを備え、さらに音声認識部21を備える。この話者方向決定装置2が、図9に例示する各ステップの処理を行うことにより第二実施形態の話者方向決定方法が実現される。
以下、図9を参照して、第二実施形態の話者方向決定装置2が実行する話者方向決定方法について説明する。
ステップS11において、到来方向推定部11は、第一実施形態と同様に、到来方向を推定し、測定座標補正部12へ出力する。また同時に、M個のマイクロホンから受信したM個の音声信号を、到来方向毎に分離して音声認識部21へ出力する。
ステップS12において、測定座標補正部12は、第一実施形態と同様に、到来方向推定部11から受信した到来方向推定結果をカメラと同一の座標系へと校正し、画像認識部13へ出力する。校正するために用いる変換行列については第一実施形態と同様の方法で求めることができる。
ステップS13において、画像認識部13は、第一実施形態と同様に、測定座標補正部12から受信した到来方向毎に顔向きの検出と画面占有率の算出を行い、その顔向き検出結果と画面占有率とを話者方向推定部19へ出力する。顔向きの検出方法および画面占有率の算出方法は、第一実施形態と同様に上記参考文献1のような方法が利用可能である。
ステップS21において、音声認識部21は、到来方向推定部11から受信した到来方向毎に分離した音声信号に対して音声認識を実施し、到来方向毎の音声認識結果を得る。音声認識部21は、得た音声認識結果を話者方向推定部14へ出力する。
ステップS14において、話者方向推定部14は、音声認識部21から受信した到来方向毎の音声認識結果と、画像認識部13から受信した到来方向毎の顔向き検出結果および画面占有率とに基づいて、指向性集音の目的とする話者方向を推定する。例えば、図10(A)に示すように、画面占有率が高く、顔向きが正面であり、特定の単語を発話している到来方向のスコアが高くなり、図10(B)に示すように、それらの条件に合致しない到来方向のスコアが低くなるように設計することが考えられる。このとき、特定の単語は、対話のシナリオや音声認識のタスクから話者が発話することが想定される単語であり、音声認識結果にこれらの単語が含まれるほど高いスコアが与えられるように設計するとよい。話者方向推定部14は、決定した話者方向を指向性集音部8へ出力する。
この発明のポイントは、主に、1.音情報を利用した到来方向推定結果を基準に、画像情報及び言語情報を利用して話者方向を決定すること、2.画像情報では顔認識による画面占有率及び顔向き検出結果を利用し、言語情報では特定単語の発話検知結果を利用すること、の二点である。上記の点により、音のみでは捉えきれない目的とする話者方向を、音による到来方向推定の後段に画像情報や言語情報を用いた話者方向推定を行うことで、従来の方向推定で誤検知となっていた状況を回避でき、話者方向推定結果の頑健性が向上する。音声認識を利用した対話ロボットを利用する際に、周囲の話者などの雑音源が存在する環境でも、対話対象となる話者の発話のみを検出することができるため、利用シーンの拡大及びユーザ利便性が向上する。
[第三実施形態]
上記の実施形態では、予め用意された変換行列Kを用いて、音の到来方向をカメラの座標に変換していた。第三実施形態では変換行列Kを取得するために最適な校正用スピーカの配置を求める最適配置取得装置を説明する。校正用スピーカの配置を最適化することにより、カメラ側にとっては一般的にレンズ歪みや収差、交差ずれなどの影響を軽減することができるという効果がある。マイクロホン側にとっては各マイクロホンの感度誤差などの影響を軽減するために可能な範囲で多様な位置と角度に設置することが望ましいため、そうなるような配置を最適配置として求める。
第三実施形態の最適配置取得装置3は、図11に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから計算した校正用スピーカの最適配置を画面に表示する。最適配置取得装置3は、第一角度差取得部31と第二角度差取得部32と距離取得部33と最適配置計算部34と最適配置表示部35とを備える。この最適配置取得装置3が、後述の各ステップの処理を行うことにより第三実施形態の最適配置取得方法が実現される。
第一角度差取得部31は、M個のマイクロホンが集音したM個の音声信号に基づいて、M個のマイクロホンからなるマイクロホンアレイから各校正用スピーカを見たときの角度差を求める。第一角度差取得部31は、求めた校正用スピーカの角度差を最適配置計算部34へ出力する。マイクロホンアレイから各校正用スピーカを見たときの角度差が既知であれば、第一角度差取得部31を備える必要はなく、最適配置取得装置3に既知の角度差が入力されるように構成すればよい。
第二角度差取得部32は、K個のカメラが撮像したK個の画像信号に基づいて、カメラから各校正用スピーカを見たときの角度差を求める。第二角度差取得部32は、求めた校正用スピーカの角度差を最適配置計算部34へ出力する。カメラから各校正用スピーカを見たときの角度差が既知であれば、第二角度差取得部32を備える必要はなく、最適配置取得装置3に既知の角度差が入力されるように構成すればよい。
距離取得部33は、K個のカメラが撮像したK個の画像信号に基づいて、校正用スピーカ間の距離を求める。距離取得部33は、求めた校正用スピーカ間の距離を最適配置計算部34へ出力する。校正用スピーカ間の距離が既知であれば、距離取得部33を備える必要はなく、最適配置取得装置3に既知の距離が入力されるように構成すればよい。
最適配置計算部34は、マイクロホンアレイから各校正用スピーカを見たときの角度差、カメラから各校正用スピーカを見たときの角度差、および校正用スピーカ間の距離に基づいて、校正用スピーカの最適配置を計算する。最適配置計算部34は、計算した校正用スピーカの最適配置を最適配置表示部35へ出力する。
図12を参照して、最適配置計算部34が校正用スピーカの最適配置を計算する方法を説明する。図12の例では、3個の校正用スピーカが存在しており、3個のマイクロホンからなるマイクロホンアレイと1個のカメラとを基準として校正用スピーカの最適配置を計算している。図中、校正用スピーカ間の距離はA−1〜A−3で示している。カメラから各校正用スピーカを見たときの角度差はB−1〜B−3で示している。マイクロホンアレイから各校正用スピーカを見たときの角度差はC−1〜C−3で示している。このとき、各校正用スピーカ間の距離A−1〜A−3とカメラから校正用スピーカの角度差B−1〜B−3とマイクロホンアレイから校正用スピーカの角度差C−1〜C−3とを最大化することで、校正用スピーカの最適配置を求めることができる。なお、角度差は、例えばB−1とB−2との角度差をB−1、B−2がベクトルで定義されるものとすれば、arg(B-1)-arg(B-2)である。
最適配置表示部35は、最適配置計算部34から受け取った校正用スピーカの最適配置を画面等の出力部(図示せず)に出力する。図13は、最適配置表示部35が各校正用スピーカの最適配置を画面上に表示する一例である。図13はカメラから校正用スピーカが設置されている空間を撮像した画像上に、現実に設置されている校正用スピーカの位置(実線の円)と、最適配置計算部34により計算された各校正用スピーカの最適な位置(点線の網掛けされた円)とを表示した画面例である。現実の校正用スピーカの位置や各校正用スピーカの最適な位置は、画面上において、例えば、左右をx軸、上下をy軸、奥行きをz軸として三次元空間に各位置をプロットすることで表示する。ここでは直交座標系とした場合の例を示したが、例えば円筒座標系や球座標系など校正用スピーカを配置する空間に対して適切な座標系を用いて表示すればよい。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、2、9 話者方向決定装置
3 最適配置取得装置
8 指向性集音部
11 到来方向推定部
12 測定座標補正部
13 画像認識部
14 話者方向推定部
21 音声認識部
31 第一角度差取得部
32 第二角度差取得部
33 距離取得部
34 最適配置計算部
35 最適配置表示部
91 方向別前処理部
92 方向別パワー算出部
93 到来方向選択部

Claims (7)

  1. 複数のマイクロホンにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、
    前記マイクロホン方向を変換規則により前記カメラ座標に変換する変換部を含み、
    前記変換規則は、
    少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
    前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
    を関連付けることで得られたものである、
    変換装置。
  2. 請求項1に記載の変換装置であって、
    前記変換規則は、前記スピーカが発した音響信号から推定された到来方向の二次元角度スペクトルと、前記カメラにより撮影された前記スピーカの画像上の座標とを関連付けることで得られたものである、
    変換装置。
  3. 請求項1または2に記載の変換装置であって、
    iは前記スピーカの番号であり、(θi, φi)はi番目のスピーカが発した音響信号から推定した到来方向の二次元角度スペクトル上の点であり、(xi, yi)は前記カメラにより撮影されたi番目のスピーカの画像上の座標であり、a, b, c, d, e, fは自由度を6として前記二次元角度スペクトル上の点と前記座標との組から得た変換パラメータとし、
    前記変換部は、次式を計算することにより前記マイクロホン方向を前記カメラ座標に変換するものである、
    Figure 2019103011

    変換装置。
  4. 請求項1に記載の変換装置であって、
    前記スピーカ間の距離、前記カメラから見た各スピーカの角度差、および前記マイクロホンアレイから見た各スピーカの角度差を最大化する各スピーカの位置を最適配置として求める最適配置計算部をさらに含む、
    変換装置。
  5. 請求項4に記載の変換装置であって、
    前記カメラにより撮影された画像に各スピーカの現実の配置および各スピーカの前記最適配置を重ね合わせて表示する最適配置表示部をさらに含む、
    変換装置。
  6. 複数のマイクロホンにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置が実行する変換方法であって、
    変換部が、前記マイクロホン方向を変換規則により前記カメラ座標に変換し、
    前記変換規則は、
    少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
    前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
    を関連付けることで得られたものである、
    変換方法。
  7. 請求項1から5のいずれかに記載の変換装置としてコンピュータを機能させるためのプログラム。
JP2017233062A 2017-12-05 2017-12-05 制御装置、変換装置、制御方法、変換方法、およびプログラム Active JP6881267B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017233062A JP6881267B2 (ja) 2017-12-05 2017-12-05 制御装置、変換装置、制御方法、変換方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017233062A JP6881267B2 (ja) 2017-12-05 2017-12-05 制御装置、変換装置、制御方法、変換方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019103011A true JP2019103011A (ja) 2019-06-24
JP6881267B2 JP6881267B2 (ja) 2021-06-02

Family

ID=66974311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017233062A Active JP6881267B2 (ja) 2017-12-05 2017-12-05 制御装置、変換装置、制御方法、変換方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6881267B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021029294A1 (ja) * 2019-08-15 2021-02-18 富士フイルム株式会社 データ作成方法及びデータ作成プログラム
CN116736227A (zh) * 2023-08-15 2023-09-12 无锡聚诚智能科技有限公司 一种麦克风阵列和摄像头联合标定声源位置的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239348A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
WO2014125835A1 (ja) * 2013-02-15 2014-08-21 パナソニック株式会社 指向性制御システム、キャリブレーション方法、水平偏差角算出方法及び指向性制御方法
JP2015161659A (ja) * 2014-02-28 2015-09-07 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像の表示装置
JP2019095699A (ja) * 2017-11-27 2019-06-20 日本電信電話株式会社 話者方向推定装置、話者方向推定方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239348A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
WO2014125835A1 (ja) * 2013-02-15 2014-08-21 パナソニック株式会社 指向性制御システム、キャリブレーション方法、水平偏差角算出方法及び指向性制御方法
JP2015161659A (ja) * 2014-02-28 2015-09-07 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像の表示装置
JP2019095699A (ja) * 2017-11-27 2019-06-20 日本電信電話株式会社 話者方向推定装置、話者方向推定方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021029294A1 (ja) * 2019-08-15 2021-02-18 富士フイルム株式会社 データ作成方法及びデータ作成プログラム
CN114467293A (zh) * 2019-08-15 2022-05-10 富士胶片株式会社 数据创建方法及数据创建程序
JP7397084B2 (ja) 2019-08-15 2023-12-12 富士フイルム株式会社 データ作成方法及びデータ作成プログラム
CN116736227A (zh) * 2023-08-15 2023-09-12 无锡聚诚智能科技有限公司 一种麦克风阵列和摄像头联合标定声源位置的方法
CN116736227B (zh) * 2023-08-15 2023-10-27 无锡聚诚智能科技有限公司 一种麦克风阵列和摄像头联合标定声源位置的方法

Also Published As

Publication number Publication date
JP6881267B2 (ja) 2021-06-02

Similar Documents

Publication Publication Date Title
CN107534725B (zh) 一种语音信号处理方法及装置
CN106679651B (zh) 声源定位方法、装置和电子设备
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
KR20170066258A (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
JP7194897B2 (ja) 信号処理装置及び信号処理方法
US10235010B2 (en) Information processing apparatus configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
JP2005274707A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2007235334A (ja) オーディオ装置及び指向音生成方法
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
WO2011108377A1 (ja) 連携動作機器、連携動作方法、連携動作制御プログラム及び機器連携システム
KR20190016683A (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP2010191544A (ja) 映像音声処理装置、映像音声処理方法、映像音声処理プログラム
JP2018019295A (ja) 情報処理システム及びその制御方法、コンピュータプログラム
WO2023056905A1 (zh) 声源定位方法、装置及设备
CN116405774A (zh) 视频处理方法与电子设备
Goseki et al. Combination of microphone array processing and camera image processing for visualizing sound pressure distribution
CN114422743A (zh) 视频流显示方法、装置、计算机设备和存储介质
JP2017108240A (ja) 情報処理装置、及び情報処理方法
CN113824916A (zh) 图像显示方法、装置、设备及存储介质
JP2019033497A (ja) 情報処理システム及びその制御方法、コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210419

R150 Certificate of patent or registration of utility model

Ref document number: 6881267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150