JP6881267B2 - Controls, converters, control methods, conversion methods, and programs - Google Patents

Controls, converters, control methods, conversion methods, and programs Download PDF

Info

Publication number
JP6881267B2
JP6881267B2 JP2017233062A JP2017233062A JP6881267B2 JP 6881267 B2 JP6881267 B2 JP 6881267B2 JP 2017233062 A JP2017233062 A JP 2017233062A JP 2017233062 A JP2017233062 A JP 2017233062A JP 6881267 B2 JP6881267 B2 JP 6881267B2
Authority
JP
Japan
Prior art keywords
speaker
camera
image
conversion
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017233062A
Other languages
Japanese (ja)
Other versions
JP2019103011A (en
Inventor
弘章 伊藤
弘章 伊藤
豪 入江
豪 入江
京介 西田
京介 西田
歩相名 神山
歩相名 神山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017233062A priority Critical patent/JP6881267B2/en
Publication of JP2019103011A publication Critical patent/JP2019103011A/en
Application granted granted Critical
Publication of JP6881267B2 publication Critical patent/JP6881267B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Description

この発明は、話者の方向を推定する技術に関する。 The present invention relates to a technique for estimating the direction of a speaker.

音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、ロボットに到来した音が対話に関係あるか否か、を判別することは、円滑な対話を実現する上で重要である。 In applications such as voice dialogue agents and robot dialogues that use voice recognition, it is important to determine whether or not the sound that arrives at the robot is related to the dialogue in order to realize a smooth dialogue.

例えば特許文献1や特許文献2に記載された従来技術では、複数のマイクロホンで集音された信号に基づきある複数の方向毎に分離した信号を生成し、分離後の信号のパワーを算出し、ある時点で最大のパワーとなる方向を対話に関係のある方向とし、その方向の音を強調して集音するように指向性集音を実施する。 For example, in the prior art described in Patent Document 1 and Patent Document 2, a signal separated for each of a plurality of directions is generated based on a signal collected by a plurality of microphones, and the power of the separated signal is calculated. The direction of maximum power at a certain point is set as the direction related to the dialogue, and directional sound collection is performed so as to emphasize and collect the sound in that direction.

従来の話者方向決定装置の機能構成を図1に示す。図1の話者方向決定装置9は、方向別前処理部91と方向別パワー算出部92と到来方向選択部93とを備える。方向別前処理部91は、複数のマイクロホンで集音された音信号に基づきある複数の方向毎に分離した信号を生成する。方向別パワー算出部92は、分離後の音信号から方向毎のパワーを算出する。到来方向選択部93は、方向毎のパワーからある時点で最大のパワーとなる方向を対話に関係のある方向として選択する。指向性集音部8は、複数のマイクロホンで集音された音信号のうち到来方向選択部92が選択した到来方向の音を強調して集音する。 FIG. 1 shows the functional configuration of the conventional speaker direction determination device. The speaker direction determination device 9 of FIG. 1 includes a direction-specific preprocessing unit 91, a direction-specific power calculation unit 92, and an arrival direction selection unit 93. The direction-specific preprocessing unit 91 generates signals separated for each of a plurality of directions based on sound signals collected by a plurality of microphones. The direction-specific power calculation unit 92 calculates the power for each direction from the sound signal after separation. The arrival direction selection unit 93 selects the direction that becomes the maximum power at a certain time from the power for each direction as the direction related to the dialogue. The directional sound collecting unit 8 emphasizes and collects the sound in the arrival direction selected by the arrival direction selection unit 92 among the sound signals collected by the plurality of microphones.

特開2005−64968号公報Japanese Unexamined Patent Publication No. 2005-64968 特開2001−309483号公報Japanese Unexamined Patent Publication No. 2001-309483

しかしながら、従来の技術では音のパワーのみを手掛かりとしているため、目的とする音源と、対話に無関係な音源とが存在する場合には、どちらが目的とする音源か見分けることができず、無関係な音源側を強調してしまうといった誤動作を起こす可能性がある。例えば、複数人に囲まれたロボットが対話を行うシーンを想定すると、周囲の会話のように対話と無関係な話者に反応してしまうといった誤動作を起こしてしまい、対話が成立しないことがある。 However, since the conventional technology uses only the power of sound as a clue, when there is a target sound source and a sound source unrelated to dialogue, it is not possible to distinguish which is the target sound source, and the unrelated sound source. There is a possibility of malfunction such as emphasizing the side. For example, assuming a scene in which a robot surrounded by a plurality of people has a dialogue, a malfunction such as reacting to a speaker unrelated to the dialogue like a surrounding conversation may occur, and the dialogue may not be established.

この発明の目的は、上記のような点に鑑みて、対話に無関係な音源が存在する場合に、その対話に無関係な情報を排除することで、誤動作を防止することができる話者方向決定技術を実現することである。 In view of the above points, an object of the present invention is a speaker direction determination technique capable of preventing a malfunction by eliminating information irrelevant to the dialogue when a sound source irrelevant to the dialogue exists. Is to realize.

上記の課題を解決するために、この発明の変換装置は、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、マイクロホン方向を変換規則によりカメラ座標に変換する変換部を含み、変換規則は、少なくとも3個のスピーカからなる放音部から発せられ、少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも3個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。 In order to solve the above problems, the converter of the present invention uses a camera to capture the direction of the desired sound source based on the microphone array estimated from the acoustic signals picked up by the plurality of microphones. It is a conversion device that converts the microphone coordinates into camera coordinates, which are the coordinates in the image, and includes a conversion unit that converts the microphone direction into camera coordinates according to the conversion rule. The conversion rule is emitted from a sound emitting unit consisting of at least three speakers. An acoustic signal set so that it can be identified from which of at least three speakers is emitted, and an image in which the sound emitting part is taken so that the individual positions of at least three speakers can be detected. It was obtained by associating.

この発明の話者方向決定技術では、音の到来方向推定に加えて、画像認識を利用した話者方向推定を行うことで、対話に無関係な情報を排除することができる。これにより、この発明の話者方向決定技術によれば、対話に無関係な音源が存在する場合であっても、誤動作を防止することができる。 In the speaker direction determination technique of the present invention, information irrelevant to dialogue can be eliminated by estimating the speaker direction using image recognition in addition to estimating the arrival direction of sound. Thereby, according to the speaker direction determination technique of the present invention, it is possible to prevent a malfunction even when a sound source unrelated to the dialogue exists.

図1は、従来の話者方向決定装置の機能構成を例示する図である。FIG. 1 is a diagram illustrating a functional configuration of a conventional speaker direction determining device. 図2は、第一実施形態の話者方向決定装置の機能構成を例示する図である。FIG. 2 is a diagram illustrating a functional configuration of the speaker direction determining device of the first embodiment. 図3は、第一実施形態の話者方向決定方法の処理手続きを例示する図である。FIG. 3 is a diagram illustrating a processing procedure of the speaker direction determination method of the first embodiment. 図4は、話者方向推定結果とカメラ画像の校正を説明するための図である。FIG. 4 is a diagram for explaining the speaker direction estimation result and the calibration of the camera image. 図5は、画像認識結果を利用したスコアの算出を説明するための図である。FIG. 5 is a diagram for explaining the calculation of the score using the image recognition result. 図6は、変形例の変換装置の機能構成を例示する図である。FIG. 6 is a diagram illustrating the functional configuration of the conversion device of the modified example. 図7は、変形例の変換方法の処理手続きを例示する図である。FIG. 7 is a diagram illustrating a processing procedure of a conversion method of a modified example. 図8は、第二実施形態の話者方向決定装置の機能構成を例示する図である。FIG. 8 is a diagram illustrating the functional configuration of the speaker direction determining device of the second embodiment. 図9は、第二実施形態の話者方向決定方法の処理手続きを例示する図である。FIG. 9 is a diagram illustrating a processing procedure of the speaker direction determination method of the second embodiment. 図10は、音声認識結果と画像認識結果を利用したスコアの算出を説明するための図である。FIG. 10 is a diagram for explaining the calculation of the score using the voice recognition result and the image recognition result. 図11は、第三実施形態の最適配置取得装置の機能構成を例示する図である。FIG. 11 is a diagram illustrating a functional configuration of the optimum arrangement acquisition device of the third embodiment. 図12は、スピーカの最適配置の取得方法を説明するための図である。FIG. 12 is a diagram for explaining a method of acquiring the optimum arrangement of the speakers. 図13は、スピーカの最適配置の表示方法を説明するための図である。FIG. 13 is a diagram for explaining a display method of the optimum arrangement of the speakers.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In the drawings, the components having the same function are given the same number, and duplicate description will be omitted.

[第一実施形態]
第一実施形態の話者方向決定装置は、対話ロボットなどが話者の方向を推定して指向性集音を実施する際に、雑音源などで方向推定を誤動作させないために、到来方向推定結果に基づき画像認識を実施することで、目的話者方向を決定する装置である。
[First Embodiment]
The speaker direction determination device of the first embodiment is an arrival direction estimation result in order to prevent the direction estimation from malfunctioning due to a noise source or the like when the dialogue robot or the like estimates the speaker direction and performs directional sound collection. It is a device that determines the target speaker direction by performing image recognition based on the above.

第一実施形態の話者方向決定装置1は、図2に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部8へ出力する。K個のカメラとM個のマイクロホンとは異なる位置に設置されることを想定しているが、例えば、カメラの筐体にマイクロホンを設置するなど同一とみなせる位置に設置されていてもよい。K個のカメラは、全天球カメラのように、カメラを中心として全周囲を撮影可能なカメラを用いてもよい。話者方向決定装置1は、到来方向推定部11と測定座標補正部12と画像認識部13と話者方向推定部14とを備える。この話者方向決定装置1が、図3に例示する各ステップの処理を行うことにより第一実施形態の話者方向決定方法が実現される。 As shown in FIG. 2, the speaker direction determination device 1 of the first embodiment is captured by M audio signals collected by M (≧ 2) microphones and at least K (≧ 1) cameras. K image signals are input, and the speaker direction estimated from the audio signal and the image signal is output to the directional sound collecting unit 8. It is assumed that the K cameras and the M microphones are installed at different positions, but they may be installed at positions that can be regarded as the same, for example, by installing the microphones in the housing of the camera. As the K cameras, a camera capable of photographing the entire circumference around the camera, such as an omnidirectional camera, may be used. The speaker direction determination device 1 includes an arrival direction estimation unit 11, a measurement coordinate correction unit 12, an image recognition unit 13, and a speaker direction estimation unit 14. The speaker direction determination method of the first embodiment is realized by the speaker direction determination device 1 performing the processing of each step illustrated in FIG.

話者方向決定装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向決定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向決定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向決定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。 The speaker direction determination device 1 is configured by loading a special program into a known or dedicated computer having, for example, a central processing unit (CPU), a main storage device (RAM: Random Access Memory), or the like. It is a special device. The speaker direction determination device 1 executes each process under the control of the central processing unit, for example. The data input to the speaker direction determination device 1 and the data obtained by each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out to the central processing unit as needed. It is used for other processing. At least a part of each processing unit of the speaker direction determining device 1 may be configured by hardware such as an integrated circuit.

以下、図3を参照して、第一実施形態の話者方向決定装置1が実行する話者方向決定方法について説明する。 Hereinafter, the speaker direction determination method executed by the speaker direction determination device 1 of the first embodiment will be described with reference to FIG.

ステップS11において、到来方向推定部11は、まず、M個のマイクロホンからM個の音声信号を受信し、ビームフォーミング等の信号処理によりL(≧2)個の方向別音声信号に変換することで、各方向別音声信号から方向別のパワーを算出する。次に、到来方向推定部11は、算出した方向別パワーを所定の閾値と比較し、その閾値を超えた方向を到来方向として推定する。そして、到来方向推定部11は、到来方向の推定結果を測定座標補正部12へ出力する。 In step S11, the arrival direction estimation unit 11 first receives M audio signals from M microphones and converts them into L (≧ 2) direction-specific audio signals by signal processing such as beamforming. , Calculate the power for each direction from the audio signal for each direction. Next, the arrival direction estimation unit 11 compares the calculated power for each direction with a predetermined threshold value, and estimates the direction exceeding the threshold value as the arrival direction. Then, the arrival direction estimation unit 11 outputs the estimation result of the arrival direction to the measurement coordinate correction unit 12.

ステップS12において、測定座標補正部12は、到来方向推定部11から到来方向推定結果(角度情報)を受信し、K個のカメラで撮影された画像上の座標系に合致するように予め算出しておいた変換行列を用い、到来方向推定結果をカメラと同一の座標系へと校正する。測定座標補正部12は、校正した到来方向推定結果を画像認識部13へ出力する。 In step S12, the measurement coordinate correction unit 12 receives the arrival direction estimation result (angle information) from the arrival direction estimation unit 11 and calculates in advance so as to match the coordinate system on the images taken by the K cameras. Using the transformation matrix that has been set up, the arrival direction estimation result is calibrated to the same coordinate system as the camera. The measurement coordinate correction unit 12 outputs the calibrated arrival direction estimation result to the image recognition unit 13.

図4を参照して、到来方向推定結果(角度情報)とカメラ画像の校正方法について説明する。校正するためには、マイクで観測された音声信号から算出される到来方向推定結果の二次元角度スペクトル上の点(θ, φ)(θは水平角、φは仰角を表す)と、カメラで撮影された画像上の画素(x, y)との変換行列を求めればよい。ここではカメラ画像の画素から二次元角度スペクトル上の点への変換方法を示す。二次元角度スペクトル上の点からカメラ画像の画素へ変換する場合は逆の計算を行えばよい。 With reference to FIG. 4, the arrival direction estimation result (angle information) and the calibration method of the camera image will be described. In order to calibrate, the points (θ, φ) on the two-dimensional angle spectrum of the arrival direction estimation result calculated from the voice signal observed by the microphone (θ represents the horizontal angle and φ represents the elevation angle) and the camera. The conversion matrix with the pixels (x, y) on the captured image may be obtained. Here, a conversion method from a pixel of a camera image to a point on a two-dimensional angular spectrum is shown. When converting from a point on the two-dimensional angle spectrum to a pixel of a camera image, the reverse calculation may be performed.

図4に示すように、3箇所以上の相異なる位置に校正用スピーカを設置する。各スピーカには、撮影された画像からそれぞれの校正用スピーカが区別可能なマーカー(例えば、「●」「■」「★」等の記号等)を貼り付けておく。また、各校正用スピーカから相異なる周波数帯域の音を発することで、画像上の画素と二次元角度スペクトルとの対応が取れるようにする。この校正用スピーカを用いて、マイク及びカメラにて同時に収音及び撮影することで得られる二次元角度スペクトル(θi, φi)とカメラ画像の画素(xi, yi)(iはスピーカのインデックスを表す)について、下記の式で表される変換行列を求める。ここで、a, b, c, d, e, fは到来方向推定結果の二次元角度スペクトルと画像上の画素の組から対応関係を求めた変換パラメータである。この変換パラメータが設定された3×3の行列が図4中の変換行列Kに該当する。 As shown in FIG. 4, the calibration speakers are installed at three or more different positions. A marker (for example, a symbol such as “●”, “■”, “★”, etc.) that can distinguish each calibration speaker from the captured image is attached to each speaker. In addition, by emitting sounds in different frequency bands from each calibration speaker, it is possible to make a correspondence between the pixels on the image and the two-dimensional angle spectrum. Two-dimensional angle spectrum (θ i , φ i ) and camera image pixels (x i , y i ) (i are speakers) obtained by simultaneously collecting and photographing sound with a microphone and a camera using this calibration speaker. For (representing the index of), the transformation matrix represented by the following equation is obtained. Here, a, b, c, d, e, and f are conversion parameters obtained from the pair of pixels on the image and the two-dimensional angle spectrum of the arrival direction estimation result. The 3 × 3 matrix in which this transformation parameter is set corresponds to the transformation matrix K in FIG.

Figure 0006881267
Figure 0006881267

座標変換における自由度は、回転(1自由度)、平行移動(2自由度)、拡大縮小(1自由度)、せん断(1自由度)の合計6自由度とし、対応する角度スペクトルと画素の組を3つ以上得ることで、変換行列を一意に決定することができる。 The degrees of freedom in coordinate conversion are a total of 6 degrees of freedom: rotation (1 degree of freedom), translation (2 degrees of freedom), scaling (1 degree of freedom), and shear (1 degree of freedom). By obtaining three or more pairs, the conversion matrix can be uniquely determined.

ステップS13において、画像認識部13は、K個のカメラから画像信号を受信し、測定座標補正部12から座標軸が校正された到来方向推定結果を受信する。画像認識部13は、カメラから受信した画像から到来方向毎の画像を取得し、取得した画像に顔認識を実施することで、画像中の顔向きを検出し、画面全体における顔部分の占有率を算出する。画像認識部13は、顔部分の画面占有率と顔向き検出結果とを話者方向推定部19へ出力する。なお、顔向きの検出方法および画面占有率の算出方法については、下記参考文献1のような方法が利用可能である。
〔参考文献1〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
In step S13, the image recognition unit 13 receives the image signals from the K cameras, and receives the arrival direction estimation result whose coordinate axes are calibrated from the measurement coordinate correction unit 12. The image recognition unit 13 acquires an image for each arrival direction from the image received from the camera, performs face recognition on the acquired image, detects the face orientation in the image, and occupies the face portion in the entire screen. Is calculated. The image recognition unit 13 outputs the screen occupancy rate of the face portion and the face orientation detection result to the speaker direction estimation unit 19. As a method for detecting the face orientation and a method for calculating the screen occupancy rate, a method as in Reference 1 below can be used.
[Reference 1] Hiroyuki Arai, Naoki Ito, Kaori Kataoka, Yukinobu Taniguchi, "Advertising Effect Measurement Technology by Image Processing-Application of Number Measurement Technology / Face Image Technology", NTT Technology Journal 2013.1, vol. 25, pp. 61 -64, 2013

ステップS14において、話者方向推定部14は、画像認識部13から受信した到来方向毎の画面占有率および顔向き検出結果から、指向性集音の目的とする話者方向を推定する。話者方向の推定方法は決定論的でも確率的でも構わない。例えば、図5に示すように、画面占有率と顔向き検出結果からスコアを算出し、そのスコアが最も高い画像の方向を話者方向として決定する。例えば、図5の例では、正面を向いており画面占有率が高い図5(A)が最もスコアが高く、正面以外を向いており画面占有率が低い図5(D)が最もスコアが低くなっていることがわかる。話者方向推定部14は、決定した話者方向を指向性集音部8へ出力する。 In step S14, the speaker direction estimation unit 14 estimates the speaker direction, which is the target of the directional sound collection, from the screen occupancy rate and the face orientation detection result for each arrival direction received from the image recognition unit 13. The speaker direction estimation method may be deterministic or probabilistic. For example, as shown in FIG. 5, a score is calculated from the screen occupancy rate and the face orientation detection result, and the direction of the image having the highest score is determined as the speaker direction. For example, in the example of FIG. 5, FIG. 5 (A), which faces the front and has a high screen occupancy rate, has the highest score, and FIG. 5 (D), which faces other than the front and has a low screen occupancy rate, has the lowest score. You can see that it is. The speaker direction estimation unit 14 outputs the determined speaker direction to the directional sound collecting unit 8.

ステップS8において、指向性集音部8は、M個のマイクロホンが集音したM個の音声信号から、話者方向推定部14から受け取った話者方向の音を強調して集音する。指向性集音部8は、例えば下記参考文献2に記載された指向性集音を行う。指向性集音部8は、話者方向の音が強調された強調音声を出力する。
〔参考文献2〕特開2009−44588号公報
In step S8, the directional sound collecting unit 8 emphasizes the sound in the speaker direction received from the speaker direction estimating unit 14 from the M audio signals collected by the M microphones and collects the sound. The directional sound collecting unit 8 collects the directional sound described in Reference 2 below, for example. The directional sound collecting unit 8 outputs the emphasized voice in which the sound in the speaker direction is emphasized.
[Reference 2] Japanese Unexamined Patent Publication No. 2009-445888

[変形例]
第一実施形態の話者方向決定装置1から測定座標補正部12の処理のみを取り出した独立の変換装置を構成してもよい。変形例の変換装置100は、図6に示すように、変換部10を備える。この変換装置100が、図7に例示する各ステップの処理を行うことにより変形例の変換方法が実現される。
[Modification example]
An independent conversion device may be configured in which only the processing of the measurement coordinate correction unit 12 is extracted from the speaker direction determination device 1 of the first embodiment. As shown in FIG. 6, the conversion device 100 of the modified example includes a conversion unit 10. The conversion device 100 realizes the conversion method of the modified example by performing the processing of each step illustrated in FIG. 7.

変換装置100は、マイクロホン方向を入力とし、そのマイクロホン方向をカメラで撮影した画像上の座標系へ変換したカメラ座標を出力する。マイクロホン方向とは、複数のマイクロホンにより収音された音響信号から推定されたマイクロホンアレイを基準とした所望の音源の方向である。カメラ座標とは、カメラにより撮影された画像における座標である。 The conversion device 100 takes the microphone direction as an input, and outputs the camera coordinates obtained by converting the microphone direction into the coordinate system on the image taken by the camera. The microphone direction is a direction of a desired sound source with reference to a microphone array estimated from acoustic signals picked up by a plurality of microphones. The camera coordinates are the coordinates in the image taken by the camera.

ステップS10において、変換部10は、第一実施形態と同様の変換行列を用いて、入力されたマイクロホン方向(角度情報)をカメラで撮影された画像の座標系へ校正し、そのカメラ座標を変換装置100の出力として出力する。変換行列は、第一実施形態と同様のものであるため、少なくとも3個のスピーカからなる放音部から発せられ、少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、少なくとも3個のスピーカの個々の位置を検知できるよう放音部が撮影された画像と、を関連付けることで得られたものである。 In step S10, the conversion unit 10 calibrates the input microphone direction (angle information) to the coordinate system of the image captured by the camera using the same conversion matrix as in the first embodiment, and converts the camera coordinates. It is output as the output of the device 100. Since the transformation matrix is the same as that of the first embodiment, it is set so that it can be identified from which of the at least three speakers the sound emitting unit is emitted from the sound emitting unit consisting of at least three speakers. It was obtained by associating the acoustic signal with an image in which the sound emitting portion was taken so that the individual positions of at least three speakers could be detected.

変形例の変換装置100は、例えば、話者方向決定装置1の到来方向推定部11が出力する到来方向推定結果を受け取って、その到来方向推定結果をカメラで撮影した画像上の座標に校正し、話者方向決定装置1の画像認識部13へ返却する外部の装置として機能させることが可能である。また、マイクロホンで集音した音声の到来方向をカメラで撮影した画像上の座標に変換するような他の音声処理装置に応用することが可能である。 The conversion device 100 of the modified example receives, for example, the arrival direction estimation result output by the arrival direction estimation unit 11 of the speaker direction determination device 1, and calibrates the arrival direction estimation result to the coordinates on the image taken by the camera. , It is possible to function as an external device to be returned to the image recognition unit 13 of the speaker direction determination device 1. Further, it can be applied to other voice processing devices that convert the arrival direction of the sound collected by the microphone into the coordinates on the image taken by the camera.

[第二実施形態]
第二実施形態の話者方向決定装置2は、図8に示すように、第一実施形態と同様に到来方向推定部11と測定座標補正部12と画像認識部13と話者方向推定部14とを備え、さらに音声認識部21を備える。この話者方向決定装置2が、図9に例示する各ステップの処理を行うことにより第二実施形態の話者方向決定方法が実現される。
[Second Embodiment]
As shown in FIG. 8, the speaker direction determination device 2 of the second embodiment has an arrival direction estimation unit 11, a measurement coordinate correction unit 12, an image recognition unit 13, and a speaker direction estimation unit 14, as in the first embodiment. And further, a voice recognition unit 21 is provided. The speaker direction determination method of the second embodiment is realized by the speaker direction determination device 2 performing the processing of each step illustrated in FIG. 9.

以下、図9を参照して、第二実施形態の話者方向決定装置2が実行する話者方向決定方法について説明する。 Hereinafter, the speaker direction determination method executed by the speaker direction determination device 2 of the second embodiment will be described with reference to FIG. 9.

ステップS11において、到来方向推定部11は、第一実施形態と同様に、到来方向を推定し、測定座標補正部12へ出力する。また同時に、M個のマイクロホンから受信したM個の音声信号を、到来方向毎に分離して音声認識部21へ出力する。 In step S11, the arrival direction estimation unit 11 estimates the arrival direction and outputs the measurement coordinate correction unit 12 as in the first embodiment. At the same time, the M voice signals received from the M microphones are separated for each direction of arrival and output to the voice recognition unit 21.

ステップS12において、測定座標補正部12は、第一実施形態と同様に、到来方向推定部11から受信した到来方向推定結果をカメラと同一の座標系へと校正し、画像認識部13へ出力する。校正するために用いる変換行列については第一実施形態と同様の方法で求めることができる。 In step S12, the measurement coordinate correction unit 12 calibrates the arrival direction estimation result received from the arrival direction estimation unit 11 into the same coordinate system as the camera, and outputs the result to the image recognition unit 13, as in the first embodiment. .. The transformation matrix used for calibration can be obtained by the same method as in the first embodiment.

ステップS13において、画像認識部13は、第一実施形態と同様に、測定座標補正部12から受信した到来方向毎に顔向きの検出と画面占有率の算出を行い、その顔向き検出結果と画面占有率とを話者方向推定部19へ出力する。顔向きの検出方法および画面占有率の算出方法は、第一実施形態と同様に上記参考文献1のような方法が利用可能である。 In step S13, the image recognition unit 13 detects the face orientation and calculates the screen occupancy for each arrival direction received from the measurement coordinate correction unit 12 as in the first embodiment, and the face orientation detection result and the screen. The occupancy rate is output to the speaker direction estimation unit 19. As a face orientation detection method and a screen occupancy calculation method, the same method as in Reference 1 can be used as in the first embodiment.

ステップS21において、音声認識部21は、到来方向推定部11から受信した到来方向毎に分離した音声信号に対して音声認識を実施し、到来方向毎の音声認識結果を得る。音声認識部21は、得た音声認識結果を話者方向推定部14へ出力する。 In step S21, the voice recognition unit 21 performs voice recognition on the voice signals separated for each arrival direction received from the arrival direction estimation unit 11, and obtains the voice recognition result for each arrival direction. The voice recognition unit 21 outputs the obtained voice recognition result to the speaker direction estimation unit 14.

ステップS14において、話者方向推定部14は、音声認識部21から受信した到来方向毎の音声認識結果と、画像認識部13から受信した到来方向毎の顔向き検出結果および画面占有率とに基づいて、指向性集音の目的とする話者方向を推定する。例えば、図10(A)に示すように、画面占有率が高く、顔向きが正面であり、特定の単語を発話している到来方向のスコアが高くなり、図10(B)に示すように、それらの条件に合致しない到来方向のスコアが低くなるように設計することが考えられる。このとき、特定の単語は、対話のシナリオや音声認識のタスクから話者が発話することが想定される単語であり、音声認識結果にこれらの単語が含まれるほど高いスコアが与えられるように設計するとよい。話者方向推定部14は、決定した話者方向を指向性集音部8へ出力する。 In step S14, the speaker direction estimation unit 14 is based on the voice recognition result for each arrival direction received from the voice recognition unit 21, the face orientation detection result for each arrival direction received from the image recognition unit 13, and the screen occupancy rate. To estimate the speaker direction, which is the target of directional sound collection. For example, as shown in FIG. 10 (A), the screen occupancy rate is high, the face is facing the front, and the score in the arrival direction in which a specific word is spoken is high, as shown in FIG. 10 (B). , It is conceivable to design so that the score in the direction of arrival that does not meet those conditions is low. At this time, the specific word is a word that is expected to be uttered by the speaker from a dialogue scenario or a speech recognition task, and is designed so that the speech recognition result is given a high score so that these words are included. It is good to do it. The speaker direction estimation unit 14 outputs the determined speaker direction to the directional sound collecting unit 8.

この発明のポイントは、主に、1.音情報を利用した到来方向推定結果を基準に、画像情報及び言語情報を利用して話者方向を決定すること、2.画像情報では顔認識による画面占有率及び顔向き検出結果を利用し、言語情報では特定単語の発話検知結果を利用すること、の二点である。上記の点により、音のみでは捉えきれない目的とする話者方向を、音による到来方向推定の後段に画像情報や言語情報を用いた話者方向推定を行うことで、従来の方向推定で誤検知となっていた状況を回避でき、話者方向推定結果の頑健性が向上する。音声認識を利用した対話ロボットを利用する際に、周囲の話者などの雑音源が存在する環境でも、対話対象となる話者の発話のみを検出することができるため、利用シーンの拡大及びユーザ利便性が向上する。 The main points of the present invention are 1. 2. Determine the speaker direction using image information and linguistic information based on the arrival direction estimation result using sound information. The image information uses the screen occupancy rate and the face orientation detection result by face recognition, and the language information uses the utterance detection result of a specific word. Based on the above points, the target speaker direction, which cannot be captured by sound alone, is erroneously estimated by the conventional direction estimation by performing speaker direction estimation using image information and linguistic information after the arrival direction estimation by sound. The situation that was detected can be avoided, and the robustness of the speaker direction estimation result is improved. When using a dialogue robot that uses voice recognition, even in an environment where there are noise sources such as surrounding speakers, only the utterances of the speaker to be spoken can be detected, so the usage scene can be expanded and the user can use it. Convenience is improved.

[第三実施形態]
上記の実施形態では、予め用意された変換行列Kを用いて、音の到来方向をカメラの座標に変換していた。第三実施形態では変換行列Kを取得するために最適な校正用スピーカの配置を求める最適配置取得装置を説明する。校正用スピーカの配置を最適化することにより、カメラ側にとっては一般的にレンズ歪みや収差、交差ずれなどの影響を軽減することができるという効果がある。マイクロホン側にとっては各マイクロホンの感度誤差などの影響を軽減するために可能な範囲で多様な位置と角度に設置することが望ましいため、そうなるような配置を最適配置として求める。
[Third Embodiment]
In the above embodiment, the arrival direction of the sound is converted into the coordinates of the camera by using the transformation matrix K prepared in advance. In the third embodiment, an optimum arrangement acquisition device for obtaining the optimum arrangement of the calibration speaker for acquiring the transformation matrix K will be described. By optimizing the arrangement of the calibration speaker, there is an effect that the influence of lens distortion, aberration, crossing deviation, etc. can be generally reduced on the camera side. For the microphone side, it is desirable to install the microphones at various positions and angles as much as possible in order to reduce the influence of the sensitivity error of each microphone. Therefore, such an arrangement is required as the optimum arrangement.

第三実施形態の最適配置取得装置3は、図11に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから計算した校正用スピーカの最適配置を画面に表示する。最適配置取得装置3は、第一角度差取得部31と第二角度差取得部32と距離取得部33と最適配置計算部34と最適配置表示部35とを備える。この最適配置取得装置3が、後述の各ステップの処理を行うことにより第三実施形態の最適配置取得方法が実現される。 As shown in FIG. 11, the optimum arrangement acquisition device 3 of the third embodiment includes M audio signals collected by M (≧ 2) microphones and K captured by at least K (≧ 1) cameras. The optimum arrangement of the calibration speaker calculated from the audio signal and the image signal is displayed on the screen by inputting the individual image signals. The optimum arrangement acquisition device 3 includes a first angle difference acquisition unit 31, a second angle difference acquisition unit 32, a distance acquisition unit 33, an optimum arrangement calculation unit 34, and an optimum arrangement display unit 35. The optimum arrangement acquisition device 3 of the third embodiment is realized by performing the processing of each step described later by the optimum arrangement acquisition device 3.

第一角度差取得部31は、M個のマイクロホンが集音したM個の音声信号に基づいて、M個のマイクロホンからなるマイクロホンアレイから各校正用スピーカを見たときの角度差を求める。第一角度差取得部31は、求めた校正用スピーカの角度差を最適配置計算部34へ出力する。マイクロホンアレイから各校正用スピーカを見たときの角度差が既知であれば、第一角度差取得部31を備える必要はなく、最適配置取得装置3に既知の角度差が入力されるように構成すればよい。 The first angle difference acquisition unit 31 obtains an angle difference when each calibration speaker is viewed from a microphone array composed of M microphones, based on M audio signals collected by M microphones. The first angle difference acquisition unit 31 outputs the obtained angle difference of the calibration speaker to the optimum arrangement calculation unit 34. If the angle difference when each calibration speaker is viewed from the microphone array is known, it is not necessary to include the first angle difference acquisition unit 31, and the optimum arrangement acquisition device 3 is configured to input the known angle difference. do it.

第二角度差取得部32は、K個のカメラが撮像したK個の画像信号に基づいて、カメラから各校正用スピーカを見たときの角度差を求める。第二角度差取得部32は、求めた校正用スピーカの角度差を最適配置計算部34へ出力する。カメラから各校正用スピーカを見たときの角度差が既知であれば、第二角度差取得部32を備える必要はなく、最適配置取得装置3に既知の角度差が入力されるように構成すればよい。 The second angle difference acquisition unit 32 obtains the angle difference when each calibration speaker is viewed from the cameras based on the K image signals captured by the K cameras. The second angle difference acquisition unit 32 outputs the obtained angle difference of the calibration speaker to the optimum arrangement calculation unit 34. If the angle difference when each calibration speaker is viewed from the camera is known, it is not necessary to provide the second angle difference acquisition unit 32, and the optimum arrangement acquisition device 3 is configured to input the known angle difference. Just do it.

距離取得部33は、K個のカメラが撮像したK個の画像信号に基づいて、校正用スピーカ間の距離を求める。距離取得部33は、求めた校正用スピーカ間の距離を最適配置計算部34へ出力する。校正用スピーカ間の距離が既知であれば、距離取得部33を備える必要はなく、最適配置取得装置3に既知の距離が入力されるように構成すればよい。 The distance acquisition unit 33 obtains the distance between the calibration speakers based on the K image signals captured by the K cameras. The distance acquisition unit 33 outputs the obtained distance between the calibration speakers to the optimum placement calculation unit 34. If the distance between the calibration speakers is known, it is not necessary to include the distance acquisition unit 33, and the optimum placement acquisition device 3 may be configured to input the known distance.

最適配置計算部34は、マイクロホンアレイから各校正用スピーカを見たときの角度差、カメラから各校正用スピーカを見たときの角度差、および校正用スピーカ間の距離に基づいて、校正用スピーカの最適配置を計算する。最適配置計算部34は、計算した校正用スピーカの最適配置を最適配置表示部35へ出力する。 The optimum placement calculation unit 34 is based on the angle difference when each calibration speaker is viewed from the microphone array, the angle difference when each calibration speaker is viewed from the camera, and the distance between the calibration speakers. Calculate the optimal placement of. The optimum placement calculation unit 34 outputs the calculated optimum placement of the calibration speaker to the optimum placement display unit 35.

図12を参照して、最適配置計算部34が校正用スピーカの最適配置を計算する方法を説明する。図12の例では、3個の校正用スピーカが存在しており、3個のマイクロホンからなるマイクロホンアレイと1個のカメラとを基準として校正用スピーカの最適配置を計算している。図中、校正用スピーカ間の距離はA−1〜A−3で示している。カメラから各校正用スピーカを見たときの角度差はB−1〜B−3で示している。マイクロホンアレイから各校正用スピーカを見たときの角度差はC−1〜C−3で示している。このとき、各校正用スピーカ間の距離A−1〜A−3とカメラから校正用スピーカの角度差B−1〜B−3とマイクロホンアレイから校正用スピーカの角度差C−1〜C−3とを最大化することで、校正用スピーカの最適配置を求めることができる。なお、角度差は、例えばB−1とB−2との角度差をB−1、B−2がベクトルで定義されるものとすれば、arg(B-1)-arg(B-2)である。 A method of calculating the optimum arrangement of the calibration speaker by the optimum arrangement calculation unit 34 will be described with reference to FIG. In the example of FIG. 12, there are three calibration speakers, and the optimum arrangement of the calibration speakers is calculated with reference to a microphone array composed of three microphones and one camera. In the figure, the distances between the calibration speakers are indicated by A-1 to A-3. The angle difference when each calibration speaker is viewed from the camera is shown by B-1 to B-3. The angle difference when each calibration speaker is viewed from the microphone array is shown by C-1 to C-3. At this time, the distances A-1 to A-3 between the calibration speakers, the angle difference B-1 to B-3 between the camera and the calibration speaker, and the angle difference C-1 to C-3 between the microphone array and the calibration speaker. By maximizing and, the optimum arrangement of the calibration speaker can be obtained. The angle difference is arg (B-1) -arg (B-2), for example, assuming that the angle difference between B-1 and B-2 is defined by B-1 and B-2 as vectors. Is.

最適配置表示部35は、最適配置計算部34から受け取った校正用スピーカの最適配置を画面等の出力部(図示せず)に出力する。図13は、最適配置表示部35が各校正用スピーカの最適配置を画面上に表示する一例である。図13はカメラから校正用スピーカが設置されている空間を撮像した画像上に、現実に設置されている校正用スピーカの位置(実線の円)と、最適配置計算部34により計算された各校正用スピーカの最適な位置(点線の網掛けされた円)とを表示した画面例である。現実の校正用スピーカの位置や各校正用スピーカの最適な位置は、画面上において、例えば、左右をx軸、上下をy軸、奥行きをz軸として三次元空間に各位置をプロットすることで表示する。ここでは直交座標系とした場合の例を示したが、例えば円筒座標系や球座標系など校正用スピーカを配置する空間に対して適切な座標系を用いて表示すればよい。 The optimum arrangement display unit 35 outputs the optimum arrangement of the calibration speaker received from the optimum arrangement calculation unit 34 to an output unit (not shown) such as a screen. FIG. 13 is an example in which the optimum arrangement display unit 35 displays the optimum arrangement of each calibration speaker on the screen. FIG. 13 shows the positions of the calibration speakers actually installed (solid circles) on the image of the space in which the calibration speakers are installed from the camera, and each calibration calculated by the optimum placement calculation unit 34. This is an example of a screen displaying the optimum position of the speaker (dotted shaded circle). The actual position of the proofreading speaker and the optimum position of each proofreading speaker can be determined by plotting each position on the screen, for example, with the left and right as the x-axis, the top and bottom as the y-axis, and the depth as the z-axis. indicate. Here, an example in the case of using a Cartesian coordinate system is shown, but it may be displayed using an appropriate coordinate system for the space in which the calibration speaker is arranged, such as a cylindrical coordinate system or a spherical coordinate system.

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 Although the embodiments of the present invention have been described above, the specific configuration is not limited to these embodiments, and even if the design is appropriately changed without departing from the spirit of the present invention, the specific configuration is not limited to these embodiments. Needless to say, it is included in the present invention. The various processes described in the embodiments are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes.

[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on the computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing content can be recorded on a computer-readable recording medium. The computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 In addition, the distribution of this program is carried out, for example, by selling, transferring, renting, or the like a portable recording medium such as a DVD or CD-ROM on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be. The program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

1、2、9 話者方向決定装置
3 最適配置取得装置
8 指向性集音部
11 到来方向推定部
12 測定座標補正部
13 画像認識部
14 話者方向推定部
21 音声認識部
31 第一角度差取得部
32 第二角度差取得部
33 距離取得部
34 最適配置計算部
35 最適配置表示部
91 方向別前処理部
92 方向別パワー算出部
93 到来方向選択部
1, 2, 9 Speaker direction determination device 3 Optimal placement acquisition device 8 Directional sound collection unit 11 Arrival direction estimation unit 12 Measurement coordinate correction unit 13 Image recognition unit 14 Speaker direction estimation unit 21 Voice recognition unit 31 First angle difference Acquisition unit 32 Second angle difference acquisition unit 33 Distance acquisition unit 34 Optimal placement calculation unit 35 Optimal placement display unit 91 Direction-specific preprocessing unit 92 Direction-specific power calculation unit 93 Arrival direction selection unit

Claims (10)

複数人に囲まれたロボットが、前記ロボットと対話しようとしている話者にのみ反応させるよう制御する制御装置であって、
複数のマイクロホンからなるマイクロホンアレイにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、変換規則により、カメラにより撮影された画像における座標であるカメラ座標に変換する変換部と、
前記画像を認識することにより、画面占有率と顔の向きに基づき得られたスコアが最も高い画像の方向を強調して収音する指向性集音部と、
を有し、
前記変換規則は、
少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
制御装置。
A control device that controls a robot surrounded by a plurality of people to react only to a speaker who is trying to interact with the robot.
The microphone direction, which is the direction of a desired sound source with reference to the microphone array estimated from the acoustic signal picked up by the microphone array composed of a plurality of microphones, is the coordinates in the image taken by the camera according to the conversion rule. A conversion unit that converts to camera coordinates,
By recognizing the image, a directional sound collecting unit that emphasizes the direction of the image having the highest score obtained based on the screen occupancy and the orientation of the face and collects the sound.
Have,
The conversion rule is
An acoustic signal that is emitted from a sound emitting unit consisting of at least three speakers and is set so as to be able to identify which of the at least three speakers is emitted.
An image in which the sound emitting portion is taken so that the individual positions of the at least three speakers can be detected, and
It was obtained by associating
Control device.
請求項1に記載の制御装置であって、
前記少なくとも3個のスピーカは、前記マイクロホン方向をカメラ座標に変換するために用いられる、
制御装置。
The control device according to claim 1.
The at least three speakers are used to convert the microphone direction to camera coordinates.
Control device.
請求項1または2に記載の制御装置であって、
前記変換規則は、前記スピーカが発した音響信号から推定された到来方向の二次元角度スペクトルと、前記カメラにより撮影された前記スピーカの画像上の座標とを関連付けることで得られたものである、
制御装置。
The control device according to claim 1 or 2.
The conversion rule is obtained by associating the two-dimensional angle spectrum of the arrival direction estimated from the acoustic signal emitted by the speaker with the coordinates on the image of the speaker taken by the camera.
Control device.
請求項1から3のいずれかに記載の制御装置であって、
iは前記スピーカの番号であり、(θi, φi)はi番目のスピーカが発した音響信号から推定した到来方向の二次元角度スペクトル上の点であり、(xi, yi)は前記カメラにより撮影されたi番目のスピーカの画像上の座標であり、a, b, c, d, e, fは自由度を6として前記二次元角度スペクトル上の点と前記座標との組から得た変換パラメータとし、
前記変換部は、次式を計算することにより前記マイクロホン方向を前記カメラ座標に変換するものである、
Figure 0006881267


制御装置。
The control device according to any one of claims 1 to 3.
i is the number of the speaker, (θ i , φ i ) is a point on the two-dimensional angle spectrum of the arrival direction estimated from the acoustic signal emitted by the i-th speaker, and (x i , y i ) is. The coordinates on the image of the i-th speaker taken by the camera, and a, b, c, d, e, and f are from the set of the point on the two-dimensional angle spectrum and the coordinates with 6 degrees of freedom. Use the obtained conversion parameters as
The conversion unit converts the direction of the microphone into the coordinates of the camera by calculating the following equation.
Figure 0006881267


Control device.
複数のマイクロホンからなるマイクロホンアレイにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置であって、
前記マイクロホン方向を変換規則により前記カメラ座標に変換する変換部と、
少なくとも3個のスピーカ間の距離、前記カメラから見た各スピーカの角度差、および前記マイクロホンアレイから見た各スピーカの角度差を最大化する各スピーカの位置を最適配置として求める最適配置計算部と、
を含み、
前記変換規則は、
前記少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
変換装置。
Converts the microphone direction, which is the direction of the desired sound source based on the microphone array estimated from the acoustic signal picked up by the microphone array consisting of a plurality of microphones, into the camera coordinates, which are the coordinates in the image taken by the camera. It is a conversion device that
A conversion unit that converts the microphone direction to the camera coordinates according to the conversion rule,
With the optimum placement calculation unit that obtains the distance between at least three speakers, the angle difference of each speaker as seen from the camera, and the position of each speaker that maximizes the angle difference of each speaker as seen from the microphone array as the optimum placement. ,
Including
The conversion rule is
The emitted consisting sound emitting portion from at least three loudspeakers, the acoustic signal is set to be able to identify or emitted from any speaker of the at least three loudspeakers,
An image in which the sound emitting portion is taken so that the individual positions of the at least three speakers can be detected, and
It was obtained by associating
Conversion device.
請求項5に記載の変換装置であって、
前記カメラにより撮影された画像に各スピーカの現実の配置および各スピーカの前記最適配置を重ね合わせて表示する最適配置表示部をさらに含む、
変換装置。
The conversion device according to claim 5.
It further includes an optimum arrangement display unit that superimposes and displays the actual arrangement of each speaker and the optimum arrangement of each speaker on the image taken by the camera.
Conversion device.
複数人に囲まれたロボットが、前記ロボットと対話しようとしている話者にのみ反応させるよう制御する制御装置が実行する制御方法であって、
変換部が、複数のマイクロホンからなるマイクロホンアレイにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、変換規則により、カメラにより撮影された画像における座標であるカメラ座標に変換し、
指向性集音部が、前記画像を認識することにより、画面占有率と顔の向きに基づき得られたスコアが最も高い画像の方向を強調して収音し、
前記変換規則は、
少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
制御方法。
A control method executed by a control device that controls a robot surrounded by a plurality of people to react only to a speaker who is trying to interact with the robot.
An image taken by a camera according to a conversion rule, in which a conversion unit determines the direction of a desired sound source based on the microphone array estimated from an acoustic signal picked up by a microphone array composed of a plurality of microphones. Converted to camera coordinates, which are the coordinates in
By recognizing the image, the directional sound collecting unit emphasizes the direction of the image having the highest score obtained based on the screen occupancy and the orientation of the face, and collects the sound.
The conversion rule is
An acoustic signal that is emitted from a sound emitting unit consisting of at least three speakers and is set so as to be able to identify which of the at least three speakers is emitted.
An image in which the sound emitting portion is taken so that the individual positions of the at least three speakers can be detected, and
It was obtained by associating
Control method.
複数のマイクロホンからなるマイクロホンアレイにより収音された音響信号から推定された前記マイクロホンアレイを基準とした所望の音源の方向であるマイクロホン方向を、カメラにより撮影された画像における座標であるカメラ座標に変換する変換装置が実行する変換方法であって、
変換部が、前記マイクロホン方向を変換規則により前記カメラ座標に変換し、
最適配置計算部が、少なくとも3個のスピーカ間の距離、前記カメラから見た各スピーカの角度差、および前記マイクロホンアレイから見た各スピーカの角度差を最大化する各スピーカの位置を最適配置として求め、
前記変換規則は、
前記少なくとも3個のスピーカからなる放音部から発せられ、前記少なくとも3個のスピーカのうちいずれのスピーカから発せられたか識別できるよう設定された音響信号と、
前記少なくとも3個のスピーカの個々の位置を検知できるよう前記放音部が撮影された画像と、
を関連付けることで得られたものである、
変換方法。
Converts the microphone direction, which is the direction of the desired sound source based on the microphone array estimated from the acoustic signal picked up by the microphone array consisting of a plurality of microphones, into the camera coordinates, which are the coordinates in the image taken by the camera. This is the conversion method performed by the conversion device.
The conversion unit converts the microphone direction into the camera coordinates according to the conversion rule.
The optimum placement calculation unit sets the distance between at least three speakers, the angle difference of each speaker as seen from the camera, and the position of each speaker that maximizes the angle difference of each speaker as seen from the microphone array as the optimum placement. Ask,
The conversion rule is
The emitted consisting sound emitting portion from at least three loudspeakers, the acoustic signal is set to be able to identify or emitted from any speaker of the at least three loudspeakers,
An image in which the sound emitting portion is taken so that the individual positions of the at least three speakers can be detected, and
It was obtained by associating
Conversion method.
請求項1から4のいずれかに記載の制御装置としてコンピュータを機能させるためのプログラム。 A program for operating a computer as the control device according to any one of claims 1 to 4. 請求項5または6に記載の変換装置としてコンピュータを機能させるためのプログラム。 A program for operating a computer as the conversion device according to claim 5 or 6.
JP2017233062A 2017-12-05 2017-12-05 Controls, converters, control methods, conversion methods, and programs Active JP6881267B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017233062A JP6881267B2 (en) 2017-12-05 2017-12-05 Controls, converters, control methods, conversion methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017233062A JP6881267B2 (en) 2017-12-05 2017-12-05 Controls, converters, control methods, conversion methods, and programs

Publications (2)

Publication Number Publication Date
JP2019103011A JP2019103011A (en) 2019-06-24
JP6881267B2 true JP6881267B2 (en) 2021-06-02

Family

ID=66974311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017233062A Active JP6881267B2 (en) 2017-12-05 2017-12-05 Controls, converters, control methods, conversion methods, and programs

Country Status (1)

Country Link
JP (1) JP6881267B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7397084B2 (en) 2019-08-15 2023-12-12 富士フイルム株式会社 Data creation method and data creation program
CN116736227B (en) * 2023-08-15 2023-10-27 无锡聚诚智能科技有限公司 Method for jointly calibrating sound source position by microphone array and camera

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239348A (en) * 2008-03-25 2009-10-15 Yamaha Corp Imager
JP2013106298A (en) * 2011-11-16 2013-05-30 Sony Corp Imaging controller, imaging control method, program for imaging control method, and imaging apparatus
JP6253031B2 (en) * 2013-02-15 2017-12-27 パナソニックIpマネジメント株式会社 Calibration method
JP2015161659A (en) * 2014-02-28 2015-09-07 株式会社熊谷組 Sound source direction estimation device and display device of image for sound source estimation
JP6853163B2 (en) * 2017-11-27 2021-03-31 日本電信電話株式会社 Speaker orientation estimator, speaker orientation estimation method, and program

Also Published As

Publication number Publication date
JP2019103011A (en) 2019-06-24

Similar Documents

Publication Publication Date Title
CN107534725B (en) Voice signal processing method and device
CN106653041B (en) Audio signal processing apparatus, method and electronic apparatus
CN106679651B (en) Sound localization method, device and electronic equipment
JP6464449B2 (en) Sound source separation apparatus and sound source separation method
JP6467736B2 (en) Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program
JP5456832B2 (en) Apparatus and method for determining relevance of an input utterance
US9076450B1 (en) Directed audio for speech recognition
WO2020103703A1 (en) Audio data processing method and apparatus, device and storage medium
CN112088315A (en) Multi-mode speech positioning
CN110875060A (en) Voice signal processing method, device, system, equipment and storage medium
JP5564873B2 (en) Sound collection processing device, sound collection processing method, and program
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
JP4595364B2 (en) Information processing apparatus and method, program, and recording medium
US10582117B1 (en) Automatic camera control in a video conference system
KR20170066258A (en) Information processing apparatus, information processing method, and recording medium
CN108877787A (en) Audio recognition method, device, server and storage medium
CN111034222A (en) Sound collecting device, sound collecting method, and program
JP7194897B2 (en) Signal processing device and signal processing method
CN113676592B (en) Recording method, recording device, electronic equipment and computer readable medium
JP6881267B2 (en) Controls, converters, control methods, conversion methods, and programs
JP5383056B2 (en) Sound data recording / reproducing apparatus and sound data recording / reproducing method
CN112859000B (en) Sound source positioning method and device
KR20190016683A (en) Apparatus for automatic conference notetaking using mems microphone array
JP2017108240A (en) Information processing apparatus and information processing method
CN114422743A (en) Video stream display method, device, computer equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210419

R150 Certificate of patent or registration of utility model

Ref document number: 6881267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150