JP5724125B2 - Sound source localization device - Google Patents

Sound source localization device Download PDF

Info

Publication number
JP5724125B2
JP5724125B2 JP2011076230A JP2011076230A JP5724125B2 JP 5724125 B2 JP5724125 B2 JP 5724125B2 JP 2011076230 A JP2011076230 A JP 2011076230A JP 2011076230 A JP2011076230 A JP 2011076230A JP 5724125 B2 JP5724125 B2 JP 5724125B2
Authority
JP
Japan
Prior art keywords
sound source
candidate
list
person
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011076230A
Other languages
Japanese (ja)
Other versions
JP2012211768A (en
Inventor
イシイ・カルロス・トシノリ
昌裕 塩見
昌裕 塩見
パニコス・イラクレオス
ヤニ・エヴァン
敬宏 宮下
敬宏 宮下
智史 小泉
智史 小泉
萩田 紀博
紀博 萩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2011076230A priority Critical patent/JP5724125B2/en
Publication of JP2012211768A publication Critical patent/JP2012211768A/en
Application granted granted Critical
Publication of JP5724125B2 publication Critical patent/JP5724125B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音源定位技術に関し、特に、人間と雑音とが混在している環境において、人間の発する音声を高精度でトラッキングするための音源定位技術に関する。   The present invention relates to a sound source localization technique, and more particularly, to a sound source localization technique for tracking a voice uttered by a human with high accuracy in an environment where humans and noise are mixed.

人とロボットとの音声コミュニケーションにおいて、ロボットに取付けたマイクロホンは通常離れた位置(1m以上)にある。したがって例えば電話音声のようにマイクと口との距離が数センチの場合と比べて、信号と雑音の比(SNR)は低くなる。このため、傍にいる他人の声や環境の雑音が妨害音となり、ロボットによる目的音声の認識が難しくなる。従って、ロボットへの応用として、音源定位や音源分離は重要である。   In voice communication between a person and a robot, the microphone attached to the robot is usually located at a distance (1 m or more). Therefore, for example, the signal-to-noise ratio (SNR) is lower than when the distance between the microphone and the mouth is several centimeters as in telephone speech. For this reason, the voices of others nearby and the noise of the environment become interference sounds, making it difficult for the robot to recognize the target speech. Therefore, sound source localization and sound source separation are important for robot applications.

音源定位に関しては過去にさまざまな研究がされている。しかし、その大半ではシミュレーション・データ又はラボ・データのみが使用され、ロボットが動作する実環境のデータを評価するものは少ない。3次元の音源定位を評価する研究も少ない。発話相手の位置を把握しながら話したり聞いたりすることも人間とロボットとの対話インタラクションを改善するための重要なビヘービアであり、そのためには移動する音源の定位も重要となる。   Various studies have been conducted on sound source localization in the past. However, most of them use only simulation data or lab data, and few evaluate real-world data in which the robot operates. There are few studies to evaluate 3D sound source localization. Talking and listening while grasping the position of the utterance partner is also an important behavior for improving the interaction between humans and robots, and for that purpose the localization of the moving sound source is also important.

実環境を想定した従来技術として特許文献1に記載のものがある。特許文献1に記載の技術は、分解能が高いMUSIC法と呼ばれる公知の音源定位の手法を用いている。   There exists a thing of patent document 1 as a prior art which assumed the real environment. The technique described in Patent Document 1 uses a known sound source localization technique called the MUSIC method with high resolution.

特許文献1に記載の発明では、マイクロホンアレイを用い、マイクロホンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを求める。さらに、マイクロホンアレイのうち、1つのマイクロホンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、MUSIC法により音源の方向を推定する。   In the invention described in Patent Document 1, a microphone array is used, and a current correlation matrix is calculated based on a received signal vector obtained by Fourier transform of a signal from the microphone array and a past correlation matrix. The correlation matrix obtained in this way is subjected to eigenvalue decomposition to obtain a maximum eigenvalue and a noise space that is an eigenvector corresponding to an eigenvalue other than the maximum eigenvalue. Furthermore, the direction of the sound source is estimated by the MUSIC method based on the phase difference of the output of each microphone, the noise space, and the maximum eigenvalue with one microphone as a reference in the microphone array.

特開2008-175733号公報JP 2008-175733 A

しかし、特許文献1に記載された方法にはさらに改善の余地があると思われる。例えば、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と雑音とを精度高く分離する必要がある。そうした音源分離の精度が高くならなければ、例えば音声認識又は話者の同定などの処理の精度を高くすることもできない。特に、人間のように動く音源が存在する場合、又は音源定位をロボットなどのように移動可能なものに設ける場合などにこうしたことが問題となる。さらに、音声認識及び話者同定などに先立ち、音の種類が判定できれば、後続する処理の負担を軽減でき、さらに好ましい。   However, the method described in Patent Document 1 seems to have room for further improvement. For example, when humans and other noise sources are mixed, it is necessary to accurately separate speech and noise generated by humans. If the accuracy of such sound source separation does not increase, the accuracy of processing such as speech recognition or speaker identification cannot be increased. This is particularly a problem when there is a sound source that moves like a human being, or when a sound source localization is provided on a movable source such as a robot. Furthermore, if the type of sound can be determined prior to speech recognition and speaker identification, it is more preferable because the burden of subsequent processing can be reduced.

それゆえに本発明の目的は、音源定位とそれら音源の属性の判定とを行なうことができる音源定位装置を提供することである。   Therefore, an object of the present invention is to provide a sound source localization apparatus that can perform sound source localization and determination of attributes of those sound sources.

本発明の第1の局面にかかる音源定位装置は、レーザレンジファインダにより人の位置を検出する人位置検出手段と、マイクロホンアレイの出力から得られる複数チャンネルの音源信号の各々と、マイクロホンアレイに含まれる各マイクロホンの間の位置関係と、人位置検出手段の出力とに基づいて、マイクロホンアレイの位置に関連して定められる点を中心とする空間内で定義された複数の方向の各々について、所定時間ごとにMUSICパワーを算出し、当該MUSICパワーのピークを音源位置として所定時間ごとに検出するための音源定位手段と、マイクロホンアレイの出力信号から、音源定位手段により検出された音源位置からの音声信号を分離する音源分離手段と、音源分離手段により分離された音声信号の属性を判定する音源属性判定手段とを含む。   A sound source localization apparatus according to a first aspect of the present invention includes a human position detection unit that detects a human position with a laser range finder, each of a plurality of sound source signals obtained from an output of a microphone array, and a microphone array. Predetermined directions for each of a plurality of directions defined in a space centered on a point determined in relation to the position of the microphone array based on the positional relationship between the microphones and the output of the human position detecting means. Sound source localization means for calculating MUSIC power every time and detecting the peak of the MUSIC power as a sound source position every predetermined time, and sound from the sound source position detected by the sound source localization means from the output signal of the microphone array Sound source separation means for separating signals, and sound source for determining attributes of the audio signal separated by the sound source separation means And a sex determination means.

レーザレンジファインダにより検出される人位置が、音源定位のための情報に用いられる。音声信号のみを用いる場合と比較して、音源定位精度を高くできる。音源定位の精度を高くすることができると、分離した音源からの属性を安定して精度高く推定できる。その結果、音源定位とそれら音源の属性の判定とを行なうことができる音源定位及び音属性推定装置を提供することができる。   The human position detected by the laser range finder is used as information for sound source localization. The sound source localization accuracy can be increased as compared with the case where only the audio signal is used. If the accuracy of sound source localization can be increased, the attributes from the separated sound sources can be estimated stably and with high accuracy. As a result, it is possible to provide a sound source localization and sound attribute estimation device that can perform sound source localization and determination of attributes of these sound sources.

好ましくは、音源属性判定手段は、複数の個人の音声の音響的特徴量の統計的モデルである複数の個人別音響モデルと、人間以外の音源であって、属性が既知の雑音源からの音響的特徴量の統計的モデルである複数の雑音音響モデルと、人位置検出手段の出力と、音源定位手段の出力とを受け、音源方向に人が存在するときには複数の個人別音響モデル及び複数の雑音音響モデルとを選択し、音源方向に人が存在しないときには複数の雑音音響モデルを選択する、音響モデル選択手段と、音響モデル選択手段により選択された音響モデルを用い、音源分離手段により分離された音声信号の属性を確率的手法により推定する統計的推定手段とを含む。   Preferably, the sound source attribute determination means includes a plurality of individual acoustic models that are statistical models of acoustic features of a plurality of individual sounds, and sound from a noise source that is a sound source other than a human and has a known attribute. Receiving a plurality of noise acoustic models, which are statistical models of the characteristic features, the output of the human position detection means, and the output of the sound source localization means, and when there is a person in the sound source direction, a plurality of individual acoustic models and a plurality of A noise acoustic model is selected, and when there is no person in the sound source direction, a plurality of noise acoustic models are selected, and the acoustic model selected by the acoustic model selection means is separated by the sound source separation means. And statistical estimation means for estimating the attributes of the voice signal by a probabilistic method.

音声信号の属性を推定するときに、レーザレンジファインダにより検出される人位置に応じ、その音声信号の音源が人である可能性があれば個人別音響モデルと雑音音響モデルとを用いる。レーザレンジファインダにより人位置が検出されない場合には、雑音音響モデルのみが用いられる。そのため、音源の属性を推定する際の計算量を削減し、処理速度を高めることができるとともに、属性判定の精度を高くすることができる。   When estimating the attribute of the audio signal, depending on the position of the person detected by the laser range finder, if there is a possibility that the sound source of the audio signal is a person, an individual acoustic model and a noise acoustic model are used. When the human position is not detected by the laser range finder, only the noise acoustic model is used. Therefore, it is possible to reduce the amount of calculation when estimating the attribute of the sound source, increase the processing speed, and increase the accuracy of attribute determination.

さらに好ましくは、音源定位手段は、マイクロホンアレイの出力から得られる複数チャンネルの音源信号の各々と、マイクロホンアレイに含まれる各マイクロホンの間の位置関係とに基づき、複数の方向の各々について、所定時間ごとにMUSICパワーを算出し、当該MUSICパワーがしきい値を超えるピークが存在する位置及び方向を音源の概略の位置として推定する概略位置推定手段と、概略位置推定手段により推定された位置及び方向のうち、人位置検出手段により人が検出された位置及び方向を中心としてより詳細にMUSICパワーのピークを検出することにより、音源位置を検出するための詳細検出手段とを含む。   More preferably, the sound source localization means is configured to perform a predetermined time for each of the plurality of directions based on each of the sound source signals of a plurality of channels obtained from the output of the microphone array and the positional relationship between the microphones included in the microphone array. MUSIC power is calculated for each, and the approximate position estimation means for estimating the position and direction where the peak at which the MUSIC power exceeds the threshold exists as the approximate position of the sound source, and the position and direction estimated by the approximate position estimation means Among them, detailed detection means for detecting the sound source position by detecting the peak of the MUSIC power in more detail around the position and direction where the person is detected by the human position detection means.

音声信号から得られた音源の情報により、大まかな音源定位をした後に、人が検出された位置を中心により細かく音源定位を行なうことができる。人位置を中心とした音源定位の精度を高めることができ、そのための計算量の増加も抑えることができる。   After performing a rough sound source localization based on the sound source information obtained from the audio signal, the sound source localization can be performed more finely around the position where the person is detected. The accuracy of sound source localization centering on the human position can be increased, and an increase in the amount of calculation for this can be suppressed.

本発明の1実施の形態に係る音源分離及び音種類判定装置の処理の原理的構成を示す模式図である。It is a schematic diagram which shows the fundamental structure of the process of the sound source separation and sound kind determination apparatus which concerns on one embodiment of this invention. 図1に示す音源分離及び音種類判定装置の概略の機能的構成を示すブロック図である。FIG. 2 is a block diagram showing a schematic functional configuration of a sound source separation and sound type determination device shown in FIG. 1. 図2に示す音源定位処理部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sound source localization process part shown in FIG. 図3に示す音源定位部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sound source localization part shown in FIG. 図2に示す音源分離処理部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sound source separation process part shown in FIG. 図2に示す音源種類同定処理部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sound source kind identification process part shown in FIG. 図6に示す音源属性判定部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sound source attribute determination part shown in FIG. 図7に示す音源属性判定部の出力する属性候補リスト及び1世代前の属性候補リストの概略構成を示す模式図である。It is a schematic diagram which shows schematic structure of the attribute candidate list | wrist output from the sound source attribute determination part shown in FIG. 音源属性判定の処理を行なうコンピュータプログラムの制御構造の概略を示すフローチャートである。It is a flowchart which shows the outline of the control structure of the computer program which performs a process of sound source attribute determination. 図9に示すプログラムにおいて再帰的に呼出されるID交換チェックルーチンの制御構造を示すフローチャートである。10 is a flowchart showing a control structure of an ID exchange check routine that is recursively called in the program shown in FIG. 9. 本発明の実施の形態に係る音源分離及び音種類判定装置を実現するためのコンピュータシステムの外観を示す図である。It is a figure which shows the external appearance of the computer system for implement | achieving the sound source separation and sound kind determination apparatus which concerns on embodiment of this invention. 図11に示すコンピュータシステムのハードウェア構成のブロック図である。It is a block diagram of the hardware constitutions of the computer system shown in FIG.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.

以下の実施の形態では、レーザ・レンジ・ファインダ(LRF)と呼ばれる、対象物との距離を測定し、人物が測定範囲内に存在するか否かを判定し、さらに測定された人物のトラッキングをする技術を用いる。そうした技術は、周囲の環境を測定しながら移動する必要のある移動ロボットの分野では広く普及している。また、LRFの出力を用い、検出された物体と、予め登録された物体とのマッチングをとることにより、物体の同定を行なう技術も開発されている。そのような技術については、例えば以下の参考文献1に記載されている。さらに、人の位置だけでなくその向きまで推定する技術も開発されている(参考文献2)。なお、人の位置を検出するための装置がLRFに限定されるわけではない。カメラ等により撮影された画像に対し画像処理技術を用いても良い。   In the following embodiments, the distance to an object, called a laser range finder (LRF), is measured to determine whether or not a person is within the measurement range, and the measured person is tracked. Use technology. Such a technique is widely used in the field of mobile robots that need to move while measuring the surrounding environment. A technique for identifying an object by matching the detected object with a previously registered object using the output of the LRF has been developed. Such a technique is described in Reference Document 1 below, for example. Furthermore, the technique which estimates not only a person's position but the direction is also developed (reference document 2). Note that the device for detecting the position of a person is not limited to the LRF. You may use an image processing technique with respect to the image image | photographed with the camera etc.

[参考文献1]
坂場 俊介、冨澤 哲雄、大場 光太郎、和田 和義、「分散配置された物体形状の知識とLRFを併用したパスプラニングに関する研究」(第8回計測自動制御学会システムインテグレーション部門講演会(S12007)資料、2007年12月7日、計測自動制御学会。
[Reference 1]
Shunsuke Sakaba, Tetsuo Serizawa, Kotaro Ohba, Kazuyoshi Wada, "Study on path planning using knowledge of distributed object shape and LRF" (8th Society of Instrument and Control Engineers System Integration Division Lecture Meeting (S12007), 2007 December 7, 2012, Society of Instrument and Control Engineers.

[参考文献2]
宮下敬宏、Glas Dylan、石黒浩、萩田紀博、「レーザ距離計による適応型人形状モデルを利用した人追跡手法」、
第25回日本ロボット学会学術講演会、1I13、2007。
[Reference 2]
Norihiro Miyashita, Glas Dylan, Hiroshi Ishiguro, Norihiro Hamada, “Human Tracking Method Using Adaptive Human Shape Model with Laser Distance Meter”,
The 25th Annual Conference of the Robotics Society of Japan, 1I13, 2007.

このようにLRFを用いた物体の位置、向き、及び既知の物体とのマッチングなどについては開発が進んでいる。しかし、LRFを音源定位と組合わせることについては従来は全く考慮されていなかった。本実施の形態では、LRFを用いた人間の追跡及び人間同定の技術を音源の追跡及び音源種類の同定に適用することにより、音源分離、音源追跡、及び音源種類の判定の精度を高める。   In this way, the development of the position and orientation of an object using LRF, matching with a known object, and the like are in progress. However, conventionally, no consideration has been given to combining LRF with sound source localization. In the present embodiment, the accuracy of sound source separation, sound source tracking, and sound source type determination is improved by applying human tracking and human identification technology using LRF to sound source tracking and sound source type identification.

[構成]
図1に、本発明の1実施の形態の構成の原理を概念的に示す。本発明に係る音源定位装置の1例である音源分離及び音種類判定装置は、図1には図示していないLRFと、LRFの出力から周囲の人間の位置とその種類(人間の識別子)とを判定する人位置計測装置と、音源定位のための、特許文献1で開示されている技術とを組合わせることにより、音源種類の判定と音源定位とを行なう。なお、図1がフローチャート形式で示されていることからも分かるように、本実施の形態は、CPU(中央演算処理装置)を含むコンピュータハードウェアと、コンピュータハードウェアにより実行されることにより、音源種類の判定と音源定位とを行なうコンピュータプログラムとにより実現される。もちろん、そのような組合せでの実現に本発明が限定されるわけではない。例えばプログラムと同様のアルゴリズムをハードウェアにより実現する装置、プログラムをハードワイア化した装置によっても同様の効果を得られることはいうまでもない。
[Constitution]
FIG. 1 conceptually shows the principle of the configuration of one embodiment of the present invention. A sound source separation and sound type determination device, which is an example of a sound source localization device according to the present invention, includes an LRF not shown in FIG. The combination of the human position measuring device for determining the sound source and the technique disclosed in Patent Document 1 for sound source localization performs sound source type determination and sound source localization. As can be seen from the fact that FIG. 1 is shown in the form of a flowchart, the present embodiment is implemented by computer hardware including a CPU (central processing unit) and computer hardware, thereby generating a sound source. This is realized by a computer program that performs type determination and sound source localization. Of course, the present invention is not limited to such a combination. For example, it goes without saying that the same effect can be obtained by a device that implements the same algorithm as that of the program by hardware, or a device that implements the program in hardware.

図1を参照して、この実施の形態に係る音源定位装置の動作を制御するプログラムは、環境内に人が存在するか否かを、LRF、図示しない赤外線センサ、又は図示しない熱センサなどにより感知し、人が存在しないと判定されたときにはこの装置の動作を終了させるステップ30と、ステップ30の判定が肯定のとき(人がいると判定されたとき)、装置の動作を終了させるための処理(終了処理)がユーザにより行なわれたか否かを判定し、行なわれていれば装置の動作を停止させるステップ32と、ステップ32の判定が否定のときに、図示しない複数のマイクロホンアレイ、及び図示しない人位置判定装置の出力に基づいて、音源定位を行なうステップ34と、ステップ34での処理の結果を用い、各音源の音種類の同定を行ない、人の音声と人以外の音声とを分離するステップ36と、ステップ36で分離された人の音声をトラッキングし、適切なラベルを付して蓄積することにより対話音声データベースを順次構築するステップ38とを含む。ステップ38の処理が終了すると制御はステップ32に戻り、以後ステップ32〜ステップ38の処理が、ユーザにより終了指示が行われるまで繰返し実行される。   Referring to FIG. 1, a program for controlling the operation of the sound source localization apparatus according to this embodiment uses an LRF, an infrared sensor (not shown), or a thermal sensor (not shown) to determine whether or not a person is present in the environment. Detecting and ending the operation of the device when it is determined that there is no person, and when the determination of step 30 is affirmative (when it is determined that there is a person) It is determined whether or not the process (end process) has been performed by the user, and if so, step 32 for stopping the operation of the apparatus, and when the determination of step 32 is negative, Based on the output of the human position determination device (not shown), sound source localization is performed, and the result of the process in step 34 is used to identify the sound type of each sound source. Separating voices of non-human and non-human voices, and step 38 of sequentially building a dialogue voice database by tracking the voices of the people separated in step 36 and storing them with appropriate labels. Including. When the process of step 38 is completed, the control returns to step 32, and thereafter the processes of steps 32 to 38 are repeatedly executed until an end instruction is given by the user.

図2を参照して、この装置を含む音源定位システムは、複数のマイクロホンアレイを含むマイクロホンアレイ群52と、複数のLRFを含むLRF群56と、予め周囲にいる可能性のある人間に関する特徴とその識別子とを記憶し、LRF群56の出力を用いて、どの位置にどの人間が存在するかを示す情報(位置情報及び人間の識別子。以後これらをまとめて人位置情報と呼ぶ。)を出力する人位置計測装置58と、システムを構成する各部の同期を制御するための同期用タイムサーバ54と、マイクロホンアレイ群52の出力、同期用タイムサーバ54から出力される同期用制御信号、及び人位置計測装置58から出力される人位置情報を受けるように接続され、マイクロホンアレイ群52から出力される音声信号に基づいて音源定位を行なって音源を分離し、さらに各音源についてその種類を同定して出力する音源定位装置50とを含む。   Referring to FIG. 2, a sound source localization system including this device includes a microphone array group 52 including a plurality of microphone arrays, an LRF group 56 including a plurality of LRFs, and features related to humans who may be in the surroundings in advance. The identifier is stored, and information indicating which person is present at which position (position information and human identifier. These are collectively referred to as human position information hereinafter) is output using the output of the LRF group 56. The person position measuring device 58, the synchronization time server 54 for controlling the synchronization of each part of the system, the output of the microphone array group 52, the synchronization control signal output from the synchronization time server 54, and the person It is connected so as to receive the human position information output from the position measuring device 58, and the sound source localization is performed based on the audio signal output from the microphone array group 52. It includes a sound source localization apparatus 50 for separating the sound source, and outputs the identified that type more for each sound source.

音源定位装置50は、マイクロホンアレイ群52から各マイクロホンアレイの出力する音声信号を受け、人位置計測装置58から人位置情報を受け取り、音源定位処理を行なって、音源から得られたと考えられる音の方向(多くの場合、これは音源の数に対応する複数である。)を示す情報を出力する音源定位処理部60と、音源定位処理部60から得られる複数音の方向を示す情報と、マイクロホンアレイ群52から得られる音声信号とを受け、音源定位処理部60から得られた方向の音源からの音声信号74を他の音声信号から分離して出力する音源分離処理部70と、音源分離処理部70の出力する音声信号74、人位置計測装置58の出力する人位置情報、及び音源定位処理部60の出力する複数の音信号の方向及び位置に関する情報を用い、各音源からの音種類を同定し、出力する音源種類同定処理部72とを含む。   The sound source localization device 50 receives audio signals output from each microphone array from the microphone array group 52, receives human position information from the human position measurement device 58, performs sound source localization processing, and generates sound that is considered to have been obtained from the sound source. A sound source localization processing unit 60 that outputs information indicating a direction (in many cases, this is a plurality corresponding to the number of sound sources), information indicating the directions of a plurality of sounds obtained from the sound source localization processing unit 60, and a microphone A sound source separation processing unit 70 that receives the sound signal obtained from the array group 52 and separates and outputs the sound signal 74 from the sound source in the direction obtained from the sound source localization processing unit 60 from other sound signals; Information about the direction and position of a plurality of sound signals output from the sound signal localization processing unit 60, and the audio signal 74 output from the unit 70, the human position information output from the human position measuring device 58 Used to identify the sound types from the sound sources, and a sound source localization processing unit 72 for outputting.

図3を参照して、図2に示す音源定位処理部60は、音源定位を行なうために探索すべき複数の方向を特定する位置ベクトルを記憶する位置ベクトルDB(データベース)80と、マイクロホンアレイ群52に含まれる各マイクロホンアレイの位置を示す位置ベクトルを記憶するアレイ位置DB82と、マイクロホンアレイ群52内の各マイクロホンアレイに対応して設けられ、それぞれ位置ベクトルDB80から探索方向の位置ベクトルを、アレイ位置DB82から対応のマイクロホンアレイの位置ベクトルを、図1に示す人位置計測装置58から人位置情報を、それぞれ受け取り、公知のMUSIC法による音源定位の方式に加え、さらに人位置情報を用いた音源定位により音源方向を高精度に決定し、それぞれ出力するための、複数の音源定位部84,…,86,…,88と、アレイ位置DB82から得られる、各マイクロホンアレイの位置情報と、位置ベクトルDB80に記憶された、各方位の位置ベクトルとを用い、各マイクロホンアレイに対する各方位の相対位置ベクトルを生成し出力する相対位置ベクトル生成部108と、複数の音源定位部84,…,86,…,88がそれぞれ出力する音源方位情報と、相対位置ベクトル生成部108から出力される相対位置ベクトルと、人位置計測装置58から与えられる人位置情報とを用い、MUSICスペクトルのピークが存在する可能性の高い位置を詳細に探索し、ピーク位置を示す信号を出力する詳細探索部110とを含む。   Referring to FIG. 3, a sound source localization processing unit 60 shown in FIG. 2 includes a position vector DB (database) 80 that stores position vectors for specifying a plurality of directions to be searched for sound source localization, and a microphone array group. 52 is provided corresponding to each microphone array in the microphone array group 52 and stores a position vector in the search direction from the position vector DB 80. The position vector of the corresponding microphone array is received from the position DB 82, and the person position information is received from the person position measuring device 58 shown in FIG. 1, and the sound source using the person position information is added to the sound source localization method by the known MUSIC method. To determine the sound source direction with high accuracy by localization and output each .., 88, and the position information of each microphone array obtained from the array position DB 82 and the position vector of each direction stored in the position vector DB 80. A relative position vector generation unit 108 that generates and outputs a relative position vector of each direction, sound source direction information output by each of the plurality of sound source localization units 84,..., 86, and 88, and output from the relative position vector generation unit 108 Detailed search that uses the relative position vector and the human position information given from the human position measuring device 58 to search in detail the position where the peak of the MUSIC spectrum is likely to exist and to output a signal indicating the peak position Part 110.

複数の音源定位部84,…,86,…,88はいずれも同じ構造を持つ。したがって、以下では代表として音源定位部84についてその構造を説明する。
図4を参照して、音源定位部84は、対応するマイクロホンアレイからアレイに含まれるマイクロホンの数(例えば14個)のアナログ音源信号を受け、アナログ/デジタル(A/D)変換を行なって同数のデジタル音源信号を出力するA/D変換器100と、A/D変換器100から出力される複数のデジタル音声信号を受け、音声信号を所定時間毎にフレーム化し、各フレームについてMUSIC応答の算出のために必要なマイクロホン出力に関する相関行列と、その最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを算出し出力する固有ベクトル算出部102と、固有ベクトル算出部102から所定時間ごとに出力される情報を使用し、位置ベクトルDB80から得られる位置ベクトルにより定まる各方向についてMUSIC法により算出されるMUSIC応答を出力するMUSIC処理部104と、MUSIC処理部104の出力するMUSIC応答をしきい値と比較することにより、MUSIC音源が存在する可能性の高い方位を、すなわちピークの方位を推定し音源の方向を示す情報を出力するピーク検出部106とを含む。
The plurality of sound source localization parts 84, ..., 86, ..., 88 all have the same structure. Therefore, the structure of the sound source localization unit 84 will be described below as a representative.
Referring to FIG. 4, sound source localization unit 84 receives analog sound source signals corresponding to the number of microphones (for example, 14) included in the array from the corresponding microphone array, performs analog / digital (A / D) conversion, and the same number. An A / D converter 100 that outputs a digital sound source signal and a plurality of digital audio signals output from the A / D converter 100, frames the audio signal at predetermined time intervals, and calculates a MUSIC response for each frame The eigenvector calculation unit 102 that calculates and outputs a correlation matrix related to the microphone output necessary for the output, its maximum eigenvalue, and a noise space that is an eigenvector corresponding to an eigenvalue other than the maximum eigenvalue, and from the eigenvector calculation unit 102 every predetermined time Each of which is determined by the position vector obtained from the position vector DB 80 By comparing the MUSIC processing unit 104 that outputs the MUSIC response calculated by the MUSIC method with respect to the direction and the MUSIC response output by the MUSIC processing unit 104 with a threshold value, it is possible to determine the direction in which the MUSIC sound source is likely to exist. That is, it includes a peak detection unit 106 that estimates the peak direction and outputs information indicating the direction of the sound source.

本実施の形態では、A/D変換器100は、一般的な16kHz/16ビットで各マイクロホンの出力であるアナログ信号をデジタル信号に変換する。   In the present embodiment, A / D converter 100 converts an analog signal, which is an output of each microphone, into a digital signal at a general 16 kHz / 16 bit.

固有ベクトル算出部102は、A/D変換器100の出力する複数個のデジタル音源信号を所定のフレーム長及び所定のシフト長でフレーム化するためのフレーム化処理部120と、フレーム化処理部120の出力する複数チャンネルのフレーム化された音源信号に対してそれぞれFFT(Fast Fourier Transformation)を施し、所定個数の周波数領域(以下、各周波数領域を「ビン」と呼び、周波数領域の数を「ビン数」と呼ぶ。)に変換して出力するFFT処理部122と、FFT処理部122からフレーム化処理部120におけるシフト長に応じた時間間隔で出力される各チャネルの各ビンの値の間の相関を要素とする相関行列を所定時間ごとに算出し出力する相関行列算出部124と、相関行列算出部124から出力される相関行列を固有値分解し、最大固有地及び雑音空間からなる出力112をMUSIC処理部104に出力する固有値分解部126とを含む。なお本実施の形態では、音源信号の周波数成分のうち、空間的分解能が低い1kHz以下の帯域と、空間的エイリアシングが起こり得る6kHz以上の帯域を除外する。   The eigenvector calculation unit 102 includes a framing processing unit 120 for framing a plurality of digital sound source signals output from the A / D converter 100 with a predetermined frame length and a predetermined shift length, and the framing processing unit 120 FFT (Fast Fourier Transform) is applied to each framed sound source signal to be output, and a predetermined number of frequency regions (hereinafter, each frequency region is referred to as a “bin”, and the number of frequency regions is defined as “the number of bins”. The correlation between the FFT processing unit 122 that converts and outputs the bin value of each channel that is output from the FFT processing unit 122 at a time interval according to the shift length in the framing processing unit 120. A correlation matrix calculation unit 124 that calculates and outputs a correlation matrix having elements as elements at predetermined time intervals, and a correlation matrix calculation unit 1 The eigenvalue decomposition unit 126 outputs eigenvalue decomposition of the correlation matrix output from 24 and outputs an output 112 composed of the maximum eigenlocation and noise space to the MUSIC processing unit 104. In the present embodiment, the frequency component of the sound source signal excludes a band of 1 kHz or less with a low spatial resolution and a band of 6 kHz or more where spatial aliasing may occur.

MUSIC処理部104は、対応するマイクロホンアレイに含まれる各マイクロホンの位置を表す位置ベクトルを位置ベクトルDB80から受け、固有値分解部126から出力される固有ベクトル及び雑音空間を用い、音源数が固定されているものとしてMUSIC法によりMUSIC空間スペクトルを算出し出力するMUSIC空間スペクトル算出部140と、MUSIC空間スペクトル算出部140により算出されたMUSIC空間スペクトルに基づいて、MUSIC法にしたがいMUSIC応答と呼ばれる値を位置ベクトルに応じた各方位について算出し出力するためのMUSIC応答算出部142とを含む。   The MUSIC processing unit 104 receives a position vector representing the position of each microphone included in the corresponding microphone array from the position vector DB 80, and uses the eigenvector and noise space output from the eigenvalue decomposition unit 126 to fix the number of sound sources. A MUSIC spatial spectrum calculation unit 140 that calculates and outputs a MUSIC spatial spectrum by the MUSIC method, and a value called a MUSIC response according to the MUSIC method based on the MUSIC spatial spectrum calculated by the MUSIC spatial spectrum calculation unit 140 is a position vector. And a MUSIC response calculation unit 142 for calculating and outputting each azimuth corresponding to the.

ここでいう「方位」とは、音源位置を探索するために3次元空間に定義されたメッシュの各枠のことをいう。このメッシュは、以下の実施の形態では、仰角5度の範囲で空間を輪状に区切り、仰角の大きさにより異なる数の探索点を設けた。ここでいう「探索点」とは、上記したメッシュの中央の点のことをいう。   The “azimuth” here refers to each frame of the mesh defined in the three-dimensional space in order to search for the sound source position. In this embodiment, the mesh is divided into a ring shape in a range of an elevation angle of 5 degrees, and different numbers of search points are provided depending on the size of the elevation angle. The “search point” here refers to the center point of the mesh described above.

探索点の数は、仰角が0度の輪においては隣接する探索点への方向角が5度となるように選ばれている。探索点の数は仰角が0度の輪で最大であり、仰角が大きくなるにつれて少なくなる。この際、一つの輪内の探索点の間の距離(角度と考えてもよい。)は互いに等しく、その距離(角度)は仰角が0度の輪における隣接する探索点同士の距離(角度)とできるだけ近くなるように選ばれている。   The number of search points is selected so that the direction angle to an adjacent search point is 5 degrees in a ring with an elevation angle of 0 degrees. The number of search points is the maximum for a wheel with an elevation angle of 0 degrees, and decreases as the elevation angle increases. At this time, the distances (which may be considered as angles) between search points in one ring are equal to each other, and the distances (angles) are the distances (angles) between adjacent search points in a ring having an elevation angle of 0 degrees. And is chosen to be as close as possible.

図5を参照して、音源分離処理部70は、マイクロホンアレイに対応して設けられ、音源定位処理部60から出力される1つの音源の方向及び位置を示す情報に基づき、その音源方向に近いマイクロホンアレイからの出力に対し、目的方向からの信号を強調し、他の方向からの妨害音を抑圧することにより、音源の音声信号を分離し出力するための、複数の適応ビームフォーマ160,…,162,…,164を含む。複数の適応ビームフォーマ160,…,162,…,164の出力は、分離された音源からの音声信号74として音源種類同定処理部72に与えられる。   Referring to FIG. 5, sound source separation processing unit 70 is provided corresponding to the microphone array, and is close to the sound source direction based on information indicating the direction and position of one sound source output from sound source localization processing unit 60. A plurality of adaptive beamformers 160 for separating and outputting the sound signal of the sound source by enhancing the signal from the target direction and suppressing the interference sound from the other direction with respect to the output from the microphone array. , 162,..., 164. The outputs of the plurality of adaptive beamformers 160, ..., 162, ..., 164 are provided to the sound source type identification processing unit 72 as audio signals 74 from the separated sound sources.

図6を参照して、音源種類同定処理部72は、各々が個人別の音響モデルである、複数の個人別GMM180と、各々が特定の種類の雑音に対応する音響モデルである、複数の雑音GMM182と、各々が、音源定位処理部60から受ける音源の方向及び位置に基づいて、その音源が人間か否かを判定し、判定結果に応じて複数の個人別GMM180又は複数の雑音GMM182のいずれかを選択して音源の属性を判定する、複数の音源属性判定部190,…,192,…,194とを含む。音源属性判定部190,…,192,…,194はいずれも同様の構成を有する。したがって、以下ではこれらを代表して音源属性判定部190の構成について説明する。   Referring to FIG. 6, the sound source type identification processing unit 72 includes a plurality of individual GMMs 180 each of which is an individual acoustic model, and a plurality of noises each of which is an acoustic model corresponding to a specific type of noise. Based on the GMM 182 and the direction and position of the sound source received from the sound source localization processing unit 60, it is determined whether or not the sound source is a human. Depending on the determination result, either the plurality of individual GMMs 180 or the plurality of noise GMMs 182 A plurality of sound source attribute determining units 190,..., 192,. The sound source attribute determination units 190, ..., 192, ..., 194 all have the same configuration. Therefore, the configuration of the sound source attribute determination unit 190 will be described below as a representative of these.

図7を参照して、音源属性判定部190は、人位置計測装置58から与えられる人の位置に関する情報と、音源定位処理部60から与えられる音源の方向及び位置に関する情報とを比較し、両者が一致するか否かに基づいて音源が人によるものか否かを示す信号を出力する比較部210と、複数の個人別GMM180に接続された入力と、複数の雑音GMM182に接続された入力とを持ち、比較部210の出力に基づき、音源の方向に人がいるときには両者を選択し、人がいないときには雑音GMM182のみを選択して出力する選択部212とを含む。   Referring to FIG. 7, sound source attribute determination unit 190 compares information on the position of the person given from person position measurement device 58 with information on the direction and position of the sound source given from sound source localization processing unit 60, A comparison unit 210 that outputs a signal indicating whether the sound source is from a person based on whether the sound sources match, an input connected to a plurality of individual GMMs 180, and an input connected to a plurality of noise GMMs 182 And a selection unit 212 that selects both when there is a person in the direction of the sound source based on the output of the comparison unit 210, and selects and outputs only the noise GMM 182 when there is no person.

音源属性判定部190はさらに、分離された音源であって比較部210への入力に対する音源の音声信号から、フレームごとにMFCCなどの音響特徴量を抽出し、特徴ベクトルの系列として出力する特徴抽出部214と、特徴抽出部214により抽出された特徴ベクトルの系列に対し、選択部212により選択されたGMM群(複数の雑音GMM182、又は、複数の個人別GMM180及び複数の雑音GMM182)を用い、音声の属性を推定し、推定結果を出力する音源属性推定部216とを含む。音源属性推定部216の出力は、音源が人間であれば、候補の人間の識別子とその尤度とからなる候補リストであり、音源が人間以外であれば候補の雑音の特定情報とその尤度とからなる候補リストである。 Source attribute determination unit 190 further from the sound source of the audio signal that corresponds to the input to the comparison unit 210 a separate sound sources, and extracted acoustic features, such as MFCC for each frame, the output as a sequence of feature vectors And a GMM group selected by the selection unit 212 (a plurality of noise GMMs 182 or a plurality of individual GMMs 180 and a plurality of noise GMMs 182) for the feature vector sequence extracted by the feature extraction unit 214 and the feature extraction unit 214 And a sound source attribute estimation unit 216 that estimates audio attributes and outputs estimation results. The output of the sound source attribute estimation unit 216 is a candidate list including a candidate human identifier and its likelihood if the sound source is a human, and if the sound source is other than a human, the candidate noise specifying information and its likelihood. A candidate list consisting of

このように、音源方向に人がいる場合には複数の個人別GMM180と雑音GMM182とを用いて音源の属性を推定し、人がいないと考えられる場合には雑音GMM182のみを属性推定に用いる。人がいない場合には雑音GMM182のみにモデルが絞られるため、処理量が削減され、処理時間が短縮化される上、推定の精度も高くなる。   Thus, when there is a person in the direction of the sound source, the attribute of the sound source is estimated using a plurality of individual GMM 180 and noise GMM 182, and when it is considered that there is no person, only the noise GMM 182 is used for attribute estimation. When there is no person, the model is narrowed down to the noise GMM 182 only, so that the processing amount is reduced, the processing time is shortened, and the estimation accuracy is also increased.

音源属性推定部216から出力される検出ID・尤度リスト230は尤度を伴う。したがって途中で音源の属性が入れ替わる場合もあり得る。そのため、図1に示すステップ38により行なわれるトラッキングでは、検出ID・尤度リスト230上で候補の順序に変化が生じたか否かを常に監視する必要がある。   The detection ID / likelihood list 230 output from the sound source attribute estimation unit 216 includes likelihood. Therefore, the attribute of the sound source may be changed during the process. Therefore, in the tracking performed in step 38 shown in FIG. 1, it is necessary to always monitor whether or not the order of candidates has changed on the detection ID / likelihood list 230.

図8(A)を参照して、図7に示す検出ID・尤度リスト230は、複数の属性の推定結果の候補であって、それぞれの尤度にしたがって配列された複数の候補のエントリを含む。検出ID・尤度リスト230の各候補のエントリは、候補の識別子CIDn(nは検出ID・尤度リスト230上における順番を示す。)と、音声がその候補により発生されたものである確率を示す尤度CProb(nはCIDnのnと同様。)とを含む。検出ID・尤度リスト230には、こうした候補が複数個配列されている。 Referring to FIG. 8A, detection ID / likelihood list 230 shown in FIG. 7 is a candidate of estimation results of a plurality of attributes, and a plurality of candidate entries arranged according to the respective likelihoods. Including. Each candidate entry in the detection ID / likelihood list 230 includes a candidate identifier CIDn (n indicates an order on the detection ID / likelihood list 230) and a probability that a voice is generated by the candidate. Likelihood CPProb n (where n is the same as n of CIDn). A plurality of such candidates are arranged in the detection ID / likelihood list 230.

なお、図1に示すステップ38の処理のため、この装置は、検出ID・尤度リスト230の時系列を音源属性のトラッキングの履歴として保存する。フレームの各音声とこれら履歴とを互いに関連付けてあるため、結果として各発話に対し、その発話者のラベル及び発話位置を付した対話データベースが維持できる。   Note that, for the processing of step 38 shown in FIG. 1, this apparatus stores the time series of the detection ID / likelihood list 230 as a tracking history of the sound source attribute. Since each voice of the frame and these histories are associated with each other, as a result, it is possible to maintain a dialogue database with each speaker's label and speaker position.

図8(B)を参照して、図に示すステップ38の処理のため、この装置は、上記した検出ID・尤度リスト230をコピーした作業用の候補リスト240と、上記した履歴の先頭の候補リストをコピーした、作業用の履歴リスト242とを用いる。履歴リスト242の各候補は候補リスト240内の各候補と同じ構成を持っている。ここでは、直前候補は識別子HIDn(nは履歴リスト242における順位)により表し、その尤度をHProb(nはHIDnのnと同様)により表す。候補リスト240及び履歴リスト242を使用して、図1のステップ38で属性交換のチェックが行なわれる。その方法について図9及び図10を参照して説明する。 With reference to FIG. 8B, for the processing of step 38 shown in the figure, this apparatus includes a candidate list 240 for work obtained by copying the above-described detection ID / likelihood list 230 and the top of the above history. A working history list 242 that is a copy of the candidate list is used. Each candidate in the history list 242 has the same configuration as each candidate in the candidate list 240. Here, the immediately preceding candidate is represented by the identifier HIDn (n is the rank in the history list 242), and the likelihood is represented by HProbe n (n is the same as n of HIDn). Using the candidate list 240 and the history list 242, the attribute exchange is checked in step 38 of FIG. The method will be described with reference to FIG. 9 and FIG.

図9に、図1のステップ38を実現するためのプログラムの制御構造の概略をフローチャート形式で示す。なお図9では、図を分かりやすくするために各ステップを単一の音源に対して行なった場合を示してあるが、実際にはこれら処理は音源の全てに対して行なわれる。   FIG. 9 shows an outline of a control structure of a program for realizing step 38 in FIG. 1 in a flowchart format. FIG. 9 shows a case where each step is performed on a single sound source for the sake of clarity, but in actuality, these processes are performed on all of the sound sources.

図9を参照して、このプログラムは、履歴の末尾の候補リスト(直前サイクルで図7の音源属性推定部216から出力された検出ID・尤度リスト230と同じ)を履歴リスト242にコピーするステップ250と、現在のサイクルで音源属性推定部216から出力された検出ID・尤度リスト230を候補リスト240にコピーするステップ252と、候補リスト240と履歴リスト242とを引数にして図10に制御構造を示すID交換チェックルーチンを呼出すステップ254とを含む。後述するように、ID交換チェックルーチンは再帰的に自己を呼出すプログラムであり、最終的にステップ254に制御が戻ってきた段階ではIDの交換がもしあれば交換がされた後のリストが履歴リスト242に、もしなければ引数で渡した履歴リスト242がそのまま、戻り値として返される。このルーチンの内容については図10を参照して後述する。   Referring to FIG. 9, this program copies the candidate list at the end of the history (same as detection ID / likelihood list 230 output from sound source attribute estimation unit 216 in FIG. 7 in the previous cycle) to history list 242. The step 250, the step 252 for copying the detection ID / likelihood list 230 output from the sound source attribute estimation unit 216 in the current cycle to the candidate list 240, the candidate list 240 and the history list 242 as arguments are shown in FIG. And a step 254 of calling an ID exchange check routine indicating the control structure. As will be described later, the ID exchange check routine is a program that recursively calls itself, and when the control finally returns to step 254, the list after the exchange if there is an ID exchange is a history list. If not, the history list 242 passed as an argument is returned as it is as a return value. The contents of this routine will be described later with reference to FIG.

このプログラムはさらに、ステップ254においてID交換チェックルーチンからの戻り値である履歴リスト242にもし空白部があれば、検出ID・尤度リスト230の、対応する要素(候補の識別子及び尤度)をコピーするステップ256と、こうして最終的に得られた履歴リスト242を履歴の末尾に追加するステップ258と、対話データベースに、各音声データをその発話者のID及び位置情報とともに追加し、処理を終了するステップ260とを含む。   If there is a blank part in the history list 242 which is a return value from the ID exchange check routine in step 254, this program further displays the corresponding element (candidate identifier and likelihood) of the detected ID / likelihood list 230. Step 256 for copying, step 258 for adding the history list 242 thus finally obtained to the end of the history, and adding each voice data to the dialogue database together with the ID and position information of the speaker, and the process is terminated. Step 260.

図10を参照して、図9のステップ254で呼出されるID交換チェックルーチンは、以下の制御構造を持つ。すなわち、このプログラムは、候補リスト240の要素数が1か否かを判定し、判定結果により制御の流れを分岐させるステップ280と、ステップ280の判定が否定のときに、さらに候補リスト240の先頭の候補の識別子CID1と、履歴リスト242の先頭の候補の識別子HID1とが一致するか否かを判定し、判定結果により制御の流れを分岐させるステップ282と、ステップ280又はステップ282の判定が肯定のときに実行され、候補リスト240を履歴リスト242にコピーしてこのルーチンの実行を終了して呼出元ルーチンに制御を戻すステップ306とを含む。なお、このルーチンが呼出元ルーチンに制御を戻すときには、戻り値として履歴リスト242が戻されるものとする。   Referring to FIG. 10, the ID exchange check routine called in step 254 of FIG. 9 has the following control structure. That is, this program determines whether or not the number of elements in the candidate list 240 is 1, and when the determination result is step 280 for branching the control flow, and when the determination in step 280 is negative, the program further starts the candidate list 240. It is determined whether or not the candidate identifier CID1 and the identifier HID1 of the first candidate in the history list 242 match, and the determination in step 282 and step 280 or step 282 is affirmed according to the determination result. And a step 306 which copies the candidate list 240 to the history list 242 and terminates execution of this routine and returns control to the calling routine. When this routine returns control to the caller routine, the history list 242 is returned as a return value.

このプログラムはさらに、ステップ282の判定が否定のときに、候補リスト240の1番目及び2番目の候補の識別子CID1及びCID2の尤度CProb1及びCProb2に基づき以下の式によりそれぞれ新たな尤度NProb1及びNprob2を再計算するステップ284を含む。   The program further provides new likelihoods NProb1 and NProb1 according to the following equations based on the likelihoods CProb1 and CProbe2 of the identifiers CID1 and CID2 of the first and second candidates in the candidate list 240 when the determination in step 282 is negative: Step 284 is included to recalculate Nprob2.

Figure 0005724125
ただしwは0<w<1を満たす任意の値である。
Figure 0005724125
However, w is an arbitrary value satisfying 0 <w <1.

このプログラムはさらに、ステップ284に続き、新たに計算された尤度NProb1が尤度NProb2より大きいか否かを判定し、判定結果に従って制御の流れを分岐させるステップ286と、ステップ286の判定が肯定のときに実行され、候補リスト240の1番目の候補の識別子CID1を履歴リスト242の1番目の候補の識別子HID1に代入し、候補リスト240の1番目の候補について再計算された尤度NProb1を履歴リスト242の1番目の候補の尤度HProb1に代入するステップ288と、ステップ288に続き、候補リスト240の2番目の候補の識別子CID2を履歴リスト242の2番目の候補の識別子HID2に代入し、候補リスト240の2番目の候補について再計算された尤度NProb2を履歴リスト242の2番目の候補の尤度HProb2に代入して呼出元ルーチンに制御を戻すステップ290とを含む。   In step 284, the program further determines whether the newly calculated likelihood NProb1 is greater than the likelihood NProb2 and branches the control flow according to the determination result, and the determination in step 286 is positive. Is executed, and the identifier CID1 of the first candidate in the candidate list 240 is substituted for the identifier HID1 of the first candidate in the history list 242 and the likelihood NProb1 recalculated for the first candidate in the candidate list 240 is Subsequent to step 288 for substituting the likelihood HProbe1 for the first candidate in the history list 242 and step 288, the identifier CID2 for the second candidate in the candidate list 240 is substituted for the identifier HID2 for the second candidate in the history list 242. The likelihood NProb2 recalculated for the second candidate in the candidate list 240 is used. Substituted in the second candidate likelihood HProb2 list 242 and a step 290 which returns control to the calling routine.

このプログラムはさらに、ステップ286の判定が否定のときに、新たに計算された尤度NProb2が尤度HProb2より大きいか否かを判定し、判定が否定のときには制御の流れをステップ288に分岐させるステップ292と、ステップ292の判定が肯定のときに実行され、候補リスト240の2番目の候補の識別子CID2を履歴リスト242の1番目の候補の識別子HID1に代入し、候補リスト240の2番目の候補について再計算された尤度NProb2を履歴リスト242の1番目の候補の尤度HProb1に代入するステップ294と、ステップ294に続き、候補リスト240の1番目の候補の識別子CID1を履歴リスト242の2番目の候補の識別子HID2に代入し、候補リスト240の1番目の候補について再計算された尤度NProb1を履歴リスト242の2番目の候補の尤度HProb2に代入するステップ296とを含む。   The program further determines whether or not the newly calculated likelihood NProb2 is greater than the likelihood HProbe2 when the determination at step 286 is negative, and branches the control flow to step 288 when the determination is negative. This is executed when the determinations in step 292 and step 292 are affirmative, and the identifier CID2 of the second candidate in the candidate list 240 is substituted for the identifier HID1 of the first candidate in the history list 242, and the second candidate in the candidate list 240 Subsequent to step 294, substituting the likelihood NProbe2 recalculated for the candidate into the likelihood HProbe1 of the first candidate in the history list 242, the identifier CID1 of the first candidate in the candidate list 240 is assigned to the history list 242. Substituting the identifier HID2 of the second candidate for the first candidate in the candidate list 240 And a step 296 that assigns a likelihood NProb1 recalculated to the second candidate likelihood HProb2 history list 242.

このプログラムはさらに、ステップ296に続き、履歴リスト242のうち、先頭の候補HID1のエントリを除いたリストを新たな引数(履歴リスト242)として自分自身を再帰的に呼出すステップ298と、ステップ298の処理による戻り値の履歴リスト242の先頭に、先頭の候補HID1のエントリを追加して、履歴リスト242を戻り値として呼出元ルーチンに制御を戻すステップ300とを含む。   In step 296, the program further recursively calls itself as a new argument (history list 242) from the history list 242 excluding the entry of the first candidate HID1. And a step 300 of adding an entry of the first candidate HID1 to the head of the return value history list 242 by processing and returning the control to the calling source routine using the history list 242 as a return value.

[動作]
上に説明した音源分離及び音種類判定装置は以下のように動作する。この動作に先立ち、図2に示す人位置計測装置58には、測定対象となる人物をLRF群56の出力に基づいて識別するために必要な情報と、各人物の識別子とが記憶されているものとする。また図3に示す位置ベクトルDB80には音源分離及び音種類判定装置がMUSIC応答を算出するための空間グリッドの各点(方位)を特定する位置ベクトルが予め記憶されている。アレイ位置DB82には、マイクロホンアレイ群52を構成する各マイクロホンアレイの位置が記憶される。複数の個人別GMM180としては、測定対象となる人物についてそれぞれ予め作成された音響モデルが準備される。雑音GMM182としては、予め収集された、属性が予め分かっている雑音に関する音響モデルが準備される。
[Operation]
The sound source separation and sound type determination apparatus described above operates as follows. Prior to this operation, the person position measuring device 58 shown in FIG. 2 stores information necessary for identifying the person to be measured based on the output of the LRF group 56 and the identifier of each person. Shall. Further, the position vector DB 80 shown in FIG. 3 stores in advance position vectors that specify each point (orientation) of the spatial grid for the sound source separation and sound type determination device to calculate the MUSIC response. The array position DB 82 stores the positions of the microphone arrays constituting the microphone array group 52. As the individual GMMs 180, acoustic models created in advance for each person to be measured are prepared. As the noise GMM 182, an acoustic model relating to noise that is collected in advance and whose attributes are known in advance is prepared.

音源分離及び音種類判定装置が動作を開始すると、図1及び図2を参照して、LRF群56が周囲に存在する人物に関する情報を出力し、人位置計測装置58に与える。人位置計測装置58は、LRF群56からの出力に基づき、周囲に存在している人物の位置と、それら各人物の識別子とを音源定位処理部60及び音源種類同定処理部72に出力する。人物が何ら検知されないときには(図1のステップ30にてNO)音源分離及び音種類判定装置は動作を終了する。人物が検知され、かつこの装置に対して動作の終了を指示する操作がされなければ(ステップ32においてNO)、音源定位処理がステップ34で実行される。   When the sound source separation and sound type determination device starts operating, the LRF group 56 outputs information about a person existing in the vicinity with reference to FIG. 1 and FIG. Based on the output from the LRF group 56, the human position measuring device 58 outputs the positions of the persons existing around and the identifiers of these persons to the sound source localization processing unit 60 and the sound source type identification processing unit 72. When no person is detected (NO in step 30 in FIG. 1), the sound source separation and sound type determination device ends the operation. If a person is detected and no operation for instructing the apparatus to end the operation is performed (NO in step 32), a sound source localization process is executed in step 34.

音源定位処理は以下のように行なわれる。図2を参照して、マイクロホンアレイ群52の各マイクロホンアレイは、各位置で、複数のマイクロホンにより音声をアナログ電気信号である電気信号に変換し、音源定位処理部60に与える。   The sound source localization process is performed as follows. Referring to FIG. 2, each microphone array of microphone array group 52 converts sound into an electrical signal that is an analog electrical signal at each position by a plurality of microphones, and provides it to sound source localization processing unit 60.

図3及び図4を参照して、音源定位処理部60の音源定位部84の各々において、以下の処理が実行される。特に図4を参照して、A/D変換器100が、対応のマイクロホンアレイから与えられる複数の音声信号を複数チャネルのデジタル音声信号に変換し、固有ベクトル算出部102のフレーム化処理部120に与える。フレーム化処理部120は、所定フレーム長及び所定シフト長でこれら複数チャネルのデジタル音声をフレーム化し、FFT処理部122に与える。FFT処理部122は、与えられる複数チャネルのデジタル音声信号の各々について、フレームごとにFFTを施し、周波数領域に変換して相関行列算出部124に与える。相関行列算出部124は、FFT処理部122の出力する各ビンの値の間の相関を要素とする相関行列を所定時間ごとに算出し固有値分解部126に与える。固有値分解部126は、この相関行列の最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを求め、出力112としてMUSIC空間スペクトル算出部140に与える。   With reference to FIGS. 3 and 4, the following processing is executed in each of sound source localization units 84 of sound source localization processing unit 60. Referring to FIG. 4 in particular, A / D converter 100 converts a plurality of audio signals provided from a corresponding microphone array into a digital audio signal of a plurality of channels, and provides it to framing processing unit 120 of eigenvector calculation unit 102. . The framing processor 120 framing the digital audio of the plurality of channels with a predetermined frame length and a predetermined shift length, and provides the frame to the FFT processor 122. The FFT processing unit 122 performs FFT on each of the given digital audio signals of a plurality of channels for each frame, converts it to the frequency domain, and provides it to the correlation matrix calculation unit 124. Correlation matrix calculation section 124 calculates a correlation matrix having the correlation between the bin values output from FFT processing section 122 as elements, and provides the correlation matrix to eigenvalue decomposition section 126. The eigenvalue decomposition unit 126 obtains the maximum eigenvalue of the correlation matrix and a noise space that is an eigenvector corresponding to an eigenvalue other than the maximum eigenvalue, and gives the output 112 to the MUSIC space spectrum calculation unit 140.

MUSIC空間スペクトル算出部140は、この音源定位部84に対応するマイクロホンアレイ内のマイクロホンの位置を表す位置ベクトルを位置ベクトルDB80から受け、固有値分解部126から受けた固有ベクトル及び雑音空間を用い、MUSIC法によりMUSIC空間スペクトルを算出し出力する。このとき、MUSIC空間スペクトル算出部140は、音源数を固定したものとしてMUSIC空間スペクトルの算出を行なう。算出されたMUSIC空間スペクトルはMUSIC応答算出部142に与えられる。   The MUSIC space spectrum calculation unit 140 receives a position vector representing the position of the microphone in the microphone array corresponding to the sound source localization unit 84 from the position vector DB 80, uses the eigenvector and noise space received from the eigenvalue decomposition unit 126, and uses the MUSIC method To calculate and output the MUSIC spatial spectrum. At this time, the MUSIC spatial spectrum calculation unit 140 calculates the MUSIC spatial spectrum assuming that the number of sound sources is fixed. The calculated MUSIC spatial spectrum is given to the MUSIC response calculation unit 142.

MUSIC応答算出部142は、与えられたMUSIC空間スペクトルに基づいて、MUSIC法にしたがいMUSIC応答を位置ベクトルに応じた各方位について算出しピーク検出部106に出力する。   The MUSIC response calculation unit 142 calculates the MUSIC response for each direction according to the position vector according to the MUSIC method based on the given MUSIC spatial spectrum, and outputs the MUSIC response to the peak detection unit 106.

ピーク検出部106は、MUSIC応答算出部142から出力される各方位についてのMUSIC応答の値としきい値とを比較し、MUSIC応答のピーク位置の候補を音源位置として定め、その方向を示す情報を詳細探索部110(図3)に与える。   The peak detection unit 106 compares the value of the MUSIC response for each azimuth output from the MUSIC response calculation unit 142 with a threshold value, determines a peak position candidate of the MUSIC response as a sound source position, and indicates information indicating the direction. It gives to the detailed search part 110 (FIG. 3).

図3を参照して、相対位置ベクトル生成部108は、位置ベクトルDB80に記憶された各位置ベクトルと、アレイ位置DB82に記憶されたマイクロホンアレイ群52内のマイクロホンアレイの位置とに基づき、各マイクロホンアレイに対する相対位置ベクトルを算出し、詳細探索部110に与える。詳細探索部110は、人位置計測装置58(図2)から与えられる人位置及びIDと、相対位置ベクトル生成部108から与えられる各相対位置ベクトルとを用い、音源定位部84からそれぞれ出力される音源方位情報に基づき、マイクロホンアレイの位置を起点とし、音源位置を通る半直線の交点位置を中心とした所定の範囲内においてさらに詳細にMUSIC応答の値が高い位置を探索し、その位置を示す信号を音源分離処理部70に対して出力する。以上が、図1のステップ34の処理に相当する。   Referring to FIG. 3, relative position vector generation unit 108 sets each microphone based on each position vector stored in position vector DB 80 and the position of the microphone array in microphone array group 52 stored in array position DB 82. A relative position vector with respect to the array is calculated and provided to the detailed search unit 110. The detailed search unit 110 uses the person position and ID given from the person position measuring device 58 (FIG. 2) and each relative position vector given from the relative position vector generation unit 108, and outputs them from the sound source localization unit 84. Based on the sound source azimuth information, the position where the value of the MUSIC response is high in a predetermined range centering on the intersection of the half line passing through the sound source position and starting from the position of the microphone array is searched for and the position is indicated. The signal is output to the sound source separation processing unit 70. The above corresponds to the processing of step 34 in FIG.

図5を参照して、音源分離処理部70の複数の適応ビームフォーマ160,…,162,…,164はそれぞれ、対応する詳細探索部110から出力される音源の方向及び位置の情報を用い、マイクロホンアレイの出力する音声信号からその音源の音声信号を分離し、音源種類同定処理部72に与える。   Referring to FIG. 5, the plurality of adaptive beamformers 160,..., 162,... 164 of the sound source separation processing unit 70 each use information on the direction and position of the sound source output from the corresponding detailed search unit 110. The sound signal of the sound source is separated from the sound signal output from the microphone array and provided to the sound source type identification processing unit 72.

図6を参照して、音源種類同定処理部72の音源属性判定部190,…,192,…,194はそれぞれ、人位置計測装置58から与えられる人の位置及びIDを示す情報と、と、音源定位処理部60から与えられる音源の方向及び位置を示す情報とに基づき、音源の属性を以下のように判定してその結果を出力する。   Referring to FIG. 6, the sound source attribute determination units 190,..., 192,..., 194 of the sound source type identification processing unit 72 are respectively information indicating a person's position and ID given from the human position measuring device 58, and Based on the information indicating the direction and position of the sound source given from the sound source localization processing unit 60, the attribute of the sound source is determined as follows and the result is output.

図7を参照して、例えば音源属性判定部190の比較部210は、人の位置と音源の方向及び位置とを比較し、両者が一致していれば複数の個人別GMM180と複数の雑音GMM182を、さもなければ複数の雑音GMM182のみを、それぞれ選択して音源属性推定部216に与える。一方、特徴抽出部214は、処理対象となる音源からの音声信号から所定の特徴量を抽出し、フレームごとの特徴量ベクトルの系列を音源属性推定部216に与える。   Referring to FIG. 7, for example, the comparison unit 210 of the sound source attribute determination unit 190 compares the position of the person with the direction and position of the sound source, and if they match, a plurality of individual GMMs 180 and a plurality of noise GMMs 182 are compared. Otherwise, only the plurality of noise GMMs 182 are selected and supplied to the sound source attribute estimation unit 216, respectively. On the other hand, the feature extraction unit 214 extracts a predetermined feature amount from an audio signal from a sound source to be processed, and gives a sequence of feature amount vectors for each frame to the sound source attribute estimation unit 216.

音源属性推定部216は、選択部212により選択された、複数の雑音GMM182のみ、又は複数の個人別GMM180及び雑音GMM182を用い、特徴抽出部214からの特徴量ベクトルの系列が各個人又は各雑音源によるものから生じた尤度を算出し、上位の所定個数からなる候補リストである候補リスト240を作成して出力する。検出ID・尤度リスト230は図8(A)に示す候補リスト240と同様の構成を持ち、その音源を発生した個人又は雑音源の候補を尤度順に並べたもので、各エントリは個人又は雑音源の識別子(CID)とその尤度とを含む。音源属性推定部216は、フレームシフト時間に対応した間隔でこの検出ID・尤度リスト230を出力する。以上が、図1のステップ36の処理に相当する。   The sound source attribute estimation unit 216 uses only the plurality of noise GMMs 182 selected by the selection unit 212 or a plurality of individual GMMs 180 and noise GMMs 182, and the feature vector sequence from the feature extraction unit 214 is each individual or each noise. The likelihood generated from the source is calculated, and a candidate list 240, which is a candidate list consisting of a predetermined number of higher ranks, is created and output. The detection ID / likelihood list 230 has the same configuration as that of the candidate list 240 shown in FIG. 8A, in which the individual who generated the sound source or the noise source candidates are arranged in order of likelihood. It includes the noise source identifier (CID) and its likelihood. The sound source attribute estimation unit 216 outputs the detection ID / likelihood list 230 at intervals corresponding to the frame shift time. The above corresponds to the processing of step 36 in FIG.

図1を参照して、ステップ38のトラッキング処理は以下のように行なわれる。ここでは、既に音源属性推定部216により出力された各音源の尤度リストの履歴が保存されており、対話データベースにもそれに対応した音声データが蓄積されているものとする。   Referring to FIG. 1, the tracking process in step 38 is performed as follows. Here, it is assumed that the history of the likelihood list of each sound source output by the sound source attribute estimation unit 216 is already stored, and the corresponding speech data is also stored in the dialogue database.

図9を参照して、この音源分離及び音種類判定装置は、音源属性推定部216から検出ID・尤度リスト230が出力されると、ステップ250において、既に記憶されていた履歴の末尾のリストを履歴リスト242にコピーする。続くステップ252において、音源属性推定部216が出力した検出ID・尤度リスト230を候補リスト240にコピーする。   Referring to FIG. 9, when the detection ID / likelihood list 230 is output from the sound source attribute estimation unit 216, the sound source separation and sound type determination device, at step 250, the list at the end of the history already stored. Is copied to the history list 242. In subsequent step 252, the detection ID / likelihood list 230 output by the sound source attribute estimation unit 216 is copied to the candidate list 240.

続くステップ254では、図10に制御構造を示すID交換チェックルーチンを呼出す。   In the following step 254, an ID exchange check routine whose control structure is shown in FIG. 10 is called.

図10を参照して、ID交換チェックルーチンは以下のように実行される。ここでは、2つの場合について順に説明する。説明を分かりやすくするため、音源属性推定部216が出力する検出ID・尤度リスト230の要素数は3であるものとする。最初に、検出ID・尤度リスト230の先頭の候補の識別子が、履歴の末尾のリストの先頭の候補の識別子と同一である場合を説明する。次に、検出ID・尤度リスト230の1番目と2番目の候補の識別子が、履歴の末尾のリストの1番目と2番目の候補の識別子を入替えたものである場合を説明する。   Referring to FIG. 10, the ID exchange check routine is executed as follows. Here, two cases will be described in order. In order to make the explanation easy to understand, it is assumed that the number of elements of the detection ID / likelihood list 230 output by the sound source attribute estimation unit 216 is three. First, the case where the identifier of the top candidate in the detection ID / likelihood list 230 is the same as the identifier of the top candidate in the list at the end of the history will be described. Next, a case will be described in which the identifiers of the first and second candidates in the detection ID / likelihood list 230 are obtained by replacing the identifiers of the first and second candidates in the list at the end of the history.

〈新旧の第1及び第2の候補が同一の場合〉
最初にステップ280で候補リスト240の要素数(候補のエントリ数)が1か否かが判定される。判定結果が肯定であれば制御はステップ306に進み、候補リスト240が履歴リスト242にコピーされ、呼出元ルーチンに復帰する。ここでは、検出ID・尤度リスト230の要素数が3である場合を想定しているのでステップ280の判定は否定となり、ステップ282に制御が進む。
<When the new and old first and second candidates are the same>
First, in step 280, it is determined whether or not the number of elements in the candidate list 240 (number of candidate entries) is one. If the determination result is affirmative, control proceeds to step 306 where the candidate list 240 is copied to the history list 242 and returns to the caller routine. Here, since it is assumed that the number of elements in the detection ID / likelihood list 230 is 3, the determination in step 280 is negative and control proceeds to step 282.

ステップ282では、候補リスト240の1番目の候補の識別子CID1が履歴リスト242の1番目の候補の識別子HID1と等しいか否かが判定される。判定結果が否定であれば制御はステップ284に進む。ここでは、仮定から判定結果が肯定となるので、制御はステップ306に進み、候補リスト240が履歴リスト242にコピーされ、制御は呼出元ルーチンに復帰する。   In step 282, it is determined whether the identifier CID1 of the first candidate in the candidate list 240 is equal to the identifier HID1 of the first candidate in the history list 242. If the determination result is negative, control proceeds to step 284. Here, since the determination result is affirmative from the assumption, control proceeds to step 306, the candidate list 240 is copied to the history list 242, and control returns to the caller routine.

図9を参照して、ステップ256で、履歴リスト242の空白部に、候補リスト240の対応要素がコピーされる。ここでは、既に候補リスト240が履歴リスト242にコピーされているのでステップ256では何も処理されない。   Referring to FIG. 9, in step 256, the corresponding element of candidate list 240 is copied to the blank portion of history list 242. Here, since candidate list 240 has already been copied to history list 242, nothing is processed in step 256.

続くステップ258では、ステップ254及びステップ256の結果得られた履歴リスト242が、履歴の末尾に追加される。ステップ260では、対話データベースに、このときの音声データを履歴リスト242の先頭の識別子とともに記録し、次の処理(図1のステップ32)に制御が戻る。   In the subsequent step 258, the history list 242 obtained as a result of the steps 254 and 256 is added to the end of the history. In step 260, the voice data at this time is recorded in the dialogue database together with the identifier at the head of the history list 242, and the control returns to the next process (step 32 in FIG. 1).

〈新旧の第1及び第2の候補が入れ替わった場合〉
図10を参照して、ステップ280の判定結果はNOとなる。続くステップ282の判定結果もNOとなる。制御はステップ284に進み、CID1とCID2との尤度を前述の式にしたがって再計算し、その結果、NProb1とNProb2とが得られる。
<When the first and second candidates of the old and new are replaced>
Referring to FIG. 10, the determination result in step 280 is NO. The determination result in subsequent step 282 is also NO. Control proceeds to step 284 where the likelihoods of CID1 and CID2 are recalculated according to the above equation, resulting in NProbe1 and NProbe2.

ステップ286ではNProb1がNProb2より大きいか否かが判定される。判定が肯定の場合には制御はステップ288に進み、さもなければ制御はステップ292に進む。ステップ292ではさらにNProb2が履歴リスト242の2番目の尤度HProb2より大きいか否かが判定され、その結果にしたがって制御の流れが分岐する。   In step 286, it is determined whether NProb1 is greater than NProb2. If the determination is affirmative, control proceeds to step 288, otherwise control proceeds to step 292. In step 292, it is further determined whether NProbe2 is greater than the second likelihood HProbe2 in the history list 242, and the flow of control branches according to the result.

以下、3つの場合に分けて動作を説明する。   The operation will be described below in three cases.

(1)ステップ286の判定が肯定
この場合、ステップ288の処理により、新たな候補リスト240の1番目の候補の識別子CID1が履歴リスト242の1番目の候補の識別子HID1に代入され、候補リスト240の1番目の候補の尤度NProb1が履歴リスト242の1番目の候補の尤度HProb1に代入される。さらに、ステップ292の処理により、新たな候補リスト240の2番目の候補の識別子CID2が履歴リスト242の2番目の候補の識別子HID2に代入され、候補リスト240の2番目の候補の尤度NProb2が履歴リスト242の2番目の候補の尤度HProb2に代入される。すなわち、履歴リスト242の1、2番目の候補に代えて、候補リスト240の1番目及び2番目の候補が履歴リスト242の1番目及び2番目にそれぞれ代入される。この後、図9のステップ256に制御が戻る。
(1) Affirmation of Step 286 In this case, the processing of Step 288 substitutes the identifier CID1 of the first candidate in the new candidate list 240 into the identifier HID1 of the first candidate in the history list 242, and the candidate list 240 The first candidate likelihood NProb1 is substituted into the first candidate likelihood HProbe1 of the history list 242. Further, the second candidate identifier CID2 of the new candidate list 240 is substituted into the second candidate identifier HID2 of the history list 242 by the processing of step 292, and the likelihood NProbe2 of the second candidate of the candidate list 240 is Substituted into the likelihood HPProb2 of the second candidate in the history list 242. That is, instead of the first and second candidates in the history list 242, the first and second candidates in the candidate list 240 are substituted into the first and second candidates in the history list 242, respectively. Thereafter, control returns to step 256 in FIG.

ここでは履歴リスト242の3番目には前回の3番目の候補の情報が入っている。したがってステップ256では何も処理されない。続くステップ258で、履歴リスト242が履歴の末尾に追加され、ステップ260で対話データベースにデータが追加される。要するにこの(1)の場合、1番目と2番目の候補は前回と同様であり、入れ替わらない。   Here, the third information in the history list 242 contains information on the previous third candidate. Therefore, nothing is processed in step 256. In subsequent step 258, the history list 242 is added to the end of the history, and in step 260 data is added to the interaction database. In short, in the case of (1), the first and second candidates are the same as in the previous time, and are not interchanged.

(2)ステップ286の判定が肯定、ステップ292の判定が肯定
この場合には、ステップ294で、新たな候補リスト240の2番目の候補の識別子CID2が履歴リスト242の1番目の候補の識別子HID1に代入され、候補リスト240の2番目の候補の尤度NProb2が履歴リスト242の1番目の候補の尤度HProb1に代入される。さらに、ステップ296で、新たな候補リスト240の1番目の候補の識別子CID1が履歴リスト242の2番目の候補の識別子HID2に代入され、候補リスト240の1番目の候補の尤度NProb1が履歴リスト242の2番目の候補の尤度HProb2に代入される。要するに、直前の1番目及び2番目の候補が入れ替わることになる。
(2) The determination in step 286 is affirmative and the determination in step 292 is affirmative. In this case, in step 294, the identifier CID2 of the second candidate in the new candidate list 240 is the identifier HID1 of the first candidate in the history list 242. And the likelihood NProbe2 of the second candidate in the candidate list 240 is assigned to the likelihood HProbe1 of the first candidate in the history list 242. Further, in step 296, the identifier CID1 of the first candidate of the new candidate list 240 is substituted for the identifier HID2 of the second candidate of the history list 242, and the likelihood NProb1 of the first candidate of the candidate list 240 is the history list. 242 is substituted into the likelihood HPProb2 of the second candidate. In short, the immediately preceding first and second candidates are interchanged.

ステップ298では、さらに、候補リスト240及び履歴リスト242からそれぞれ先頭の要素を除いたものを引数にして自分自身を呼出す。この処理については後述する。ここでは、ステップ298の処理の結果、新たな引数となった候補リスト240及び履歴リスト242を用い、尤度の再計算の結果、1番目の候補と2番目の候補を入替える必要があった場合にはそのように変更された履歴リスト242が戻り値として戻され、そのような入れ替えが必要でないときには、候補の入替がない形の履歴リスト242が戻り値として戻されることを指摘しておく。ただし、尤度についてはステップ284の結果により修正されている可能性がある。   In step 298, the caller itself is further called with the argument obtained by removing the first element from the candidate list 240 and the history list 242. This process will be described later. Here, as a result of the process of step 298, the candidate list 240 and the history list 242 that have become new arguments are used, and as a result of likelihood recalculation, the first candidate and the second candidate have to be switched. In this case, it is pointed out that the history list 242 so changed is returned as a return value, and when such replacement is not necessary, the history list 242 without candidate replacement is returned as a return value. . However, the likelihood may be corrected by the result of step 284.

ステップ298の処理後、ステップ300において、ステップ298で戻り値として得られた履歴リスト242の先頭に、ステップ298において取り除いておいた先頭の候補のエントリを付加し手新たな履歴リスト242を生成する。この履歴リスト242を戻り値としてこのルーチンの実行を終了し、呼出元ルーチン(図9のステップ256)に戻る。   After the processing in step 298, in step 300, a new history list 242 is generated by adding the top candidate entry removed in step 298 to the top of the history list 242 obtained as a return value in step 298. . Using this history list 242 as a return value, the execution of this routine is terminated, and the routine returns to the caller routine (step 256 in FIG. 9).

以下の処理は上記(1)の場合と同様である。   The following processing is the same as in the case of (1) above.

(3)ステップ286の判定が肯定、ステップ292の判定が否定
この場合には上記(1)と同じ処理が実行される。
(3) The determination in step 286 is affirmative and the determination in step 292 is negative. In this case, the same processing as in (1) above is executed.

〈再帰的処理〉
図10のステップ298で、再帰的な呼出がおこなわれた場合のこのプログラムによる処理について説明する。説明を分かりやすくするため、図9のルーチンを「主ルーチン」、主ルーチンから呼出された図10のルーチンを「子ルーチン」、子ルーチンから呼出された図10のルーチンを「孫ルーチン」、孫ルーチンから呼出された図10のルーチンを「ひ孫ルーチン」と呼ぶことにする。上記説明にしたがえば、孫ルーチンでは、新たな候補リスト240及び履歴リスト242の要素数は、いずれも2となっている。説明を分かりやすくするため、引数として渡される候補リスト240及び履歴リスト242の各エントリの識別子及び尤度については、親ルーチンのときと同じ呼び方で示すものとする。
<Recursive processing>
The processing by this program when a recursive call is made at step 298 in FIG. 10 will be described. For easy understanding, the routine of FIG. 9 is “main routine”, the routine of FIG. 10 called from the main routine is “child routine”, the routine of FIG. 10 called from the child routine is “grandchild routine”, and the grandchild The routine of FIG. 10 called from the routine will be referred to as a “great-grandchild routine”. According to the above description, in the grandchild routine, the number of elements in the new candidate list 240 and history list 242 are both 2. For ease of explanation, the identifier and likelihood of each entry in the candidate list 240 and history list 242 passed as arguments are indicated in the same way as in the parent routine.

この例では、ステップ280の判定結果は否定となる。以後は子ルーチンの実行時と同様の処理が、引数として渡された、要素数2の候補リスト240及び履歴リスト242に対して実行され、処理により得られた新たな履歴リスト242(要素数は2)を戻り値としてこのルーチンの実行を終了し制御は子ルーチンに戻る。ただし、図10のステップ298での処理が問題となる。すなわちこのステップの処理が行なわれる場合、孫ルーチンで再度、このルーチンの呼出しが行なわれる。ただし、孫ルーチンにおいて引数としてこのルーチンに渡される候補リスト240及び履歴リスト242は、いずれも先頭の要素を除いたリストとなるので、それらの要素数はいずれも1となる。   In this example, the determination result in step 280 is negative. Thereafter, the same processing as the execution of the child routine is performed on the candidate list 240 and the history list 242 with two elements passed as arguments, and a new history list 242 (the number of elements is obtained by the processing) is obtained. The execution of this routine is terminated with 2) as a return value, and control returns to the child routine. However, the processing in step 298 in FIG. 10 becomes a problem. That is, when the process of this step is performed, the grandchild routine calls this routine again. However, since the candidate list 240 and the history list 242 passed to this routine as arguments in the grandchild routine are both lists excluding the top element, the number of those elements is all one.

したがって、ひ孫ルーチンでは、ステップ280の判定結果が肯定となり、その要素のみを持つ履歴リスト242が戻り値として孫ルーチンに戻される。   Therefore, in the great-grandchild routine, the determination result in step 280 is affirmative, and the history list 242 having only that element is returned to the grandchild routine as a return value.

したがって、孫ルーチンのステップ298の戻り値は、引数として孫ルーチンがひ孫ルーチンに渡した履歴リスト242そのものとなる。ステップ300ではこのリストの先頭に、ステップ298で取り除いた候補のエントリを付加して子ルーチンに戻り値として戻す。その結果、子ルーチンのステップ298では、要素数が2の履歴リスト242が戻り値として得られ、子ルーチンのステップ298で取り除いておいた要素が、履歴リスト242の先頭に付加され、3個のエントリを持つ履歴リスト242が主ルーチンに戻り値として返される。   Therefore, the return value of step 298 of the grandchild routine is the history list 242 itself that the grandchild routine passes to the great-grandchild routine as an argument. In step 300, the candidate entry removed in step 298 is added to the top of this list and returned to the child routine as a return value. As a result, in step 298 of the child routine, the history list 242 having the number of elements of 2 is obtained as a return value, and the elements removed in step 298 of the child routine are added to the head of the history list 242 and added to the three items. A history list 242 having entries is returned as a return value to the main routine.

以上の処理により、図9のステップ254の結果、候補の交代の可能性を、各候補の尤度を再計算した結果に基づいて調整した履歴リスト242が得られることになる。   Through the above processing, as a result of step 254 in FIG. 9, a history list 242 in which the possibility of alternation of candidates is adjusted based on the result of recalculating the likelihood of each candidate is obtained.

なお、ここでは説明を分かりやすくするためにもとの履歴リスト242のエントリ数が3であることを前提に説明した。しかし、エントリ数が4以上である場合にも、再帰的な処理により同様の結果が得られる。   Note that the description here is based on the assumption that the number of entries in the original history list 242 is 3 for easy understanding. However, when the number of entries is 4 or more, a similar result can be obtained by recursive processing.

[コンピュータによる実現]
この実施の形態に係る音源分離及び音種類判定装置は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図11はこのコンピュータシステム530の外観を示し、図12はコンピュータシステム530の内部構成を示す。
[Realization by computer]
The sound source separation and sound type determination device according to this embodiment is realized by computer hardware, a program executed by the computer hardware, and data stored in the computer hardware. FIG. 11 shows the external appearance of the computer system 530, and FIG. 12 shows the internal configuration of the computer system 530.

図11を参照して、このコンピュータシステム530は、メモリポート552及びDVD(Digital Versatile Disc)ドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542とを含む。   Referring to FIG. 11, the computer system 530 includes a computer 540 having a memory port 552 and a DVD (Digital Versatile Disc) drive 550, a keyboard 546, a mouse 548, and a monitor 542.

図12を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)560とを含む。コンピュータ540はさらに、ローカルエリアネットワーク(LAN)への接続をコンピュータ540に提供するネットワークインタフェイスカード(NIC)574と、マイクロホンアレイからの入力を受けてデジタル音声信号に変換する、A/D変換機能を持つサウンドボード568とを含む。図2に示す同期用タイムサーバ54及び人位置計測装置58との通信については、CPU556は、バス566及びNIC574を用いたネットワーク通信により行なう。   Referring to FIG. 12, in addition to the memory port 552 and the DVD drive 550, the computer 540 boots up a CPU (Central Processing Unit) 556, a bus 566 connected to the CPU 556, the memory port 552, and the DVD drive 550, and A read only memory (ROM) 558 that stores programs and the like, and a random access memory (RAM) 560 that is connected to the bus 566 and stores program instructions, system programs, work data, and the like. The computer 540 further includes a network interface card (NIC) 574 that provides a connection to the local area network (LAN) to the computer 540 and an A / D conversion function that receives input from the microphone array and converts it into a digital audio signal. And a sound board 568. The CPU 556 performs communication with the synchronization time server 54 and the human position measuring device 58 illustrated in FIG. 2 by network communication using the bus 566 and the NIC 574.

コンピュータシステム530に音源分離及び音種類判定装置としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に挿入されるDVD562又は半導体メモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、半導体メモリ564から、又はネットワークを介して、直接にRAM560にプログラムをロードしてもよい。   A computer program for causing the computer system 530 to operate as a sound source separation and sound type determination device is stored in the DVD 562 or the semiconductor memory 564 inserted into the DVD drive 550 or the memory port 552 and further transferred to the hard disk 554. . Alternatively, the program may be transmitted to the computer 540 through a network (not shown) and stored in the hard disk 554. The program is loaded into the RAM 560 when executed. The program may be loaded into the RAM 560 directly from the DVD 562, from the semiconductor memory 564, or via a network.

このプログラムは、コンピュータ540にこの実施の形態の音源分離及び音種類判定装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ540にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した音源分離及び音種類判定装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム530の動作は周知であるので、ここでは繰返さない。   This program includes a plurality of instructions that cause the computer 540 to operate as the sound source separation and sound type determination device of this embodiment. Some of the basic functions required to perform this operation are provided by operating system (OS) or third party programs running on the computer 540 or various toolkit modules installed on the computer 540. Therefore, this program does not necessarily include all functions necessary to realize the system and method of this embodiment. This program includes only instructions for executing the above-described operation as the sound source separation and sound type determination device by calling an appropriate function or “tool” in a controlled manner so as to obtain a desired result. Should be included. The operation of computer system 530 is well known and will not be repeated here.

以上のように本実施の形態によれば、マイクロホンアレイからの音声だけではなく、LRFにより検出された人位置に関する情報も、音源定位及び音源の属性推定に使用する。音声だけの場合と比較して、音源定位の精度を高くすることができ、そのときの処理量の増加を抑えることもできる。音源の属性推定の場合にも、人がいる可能性のある場合のみ、個人別GMMを用いるため、計算量の増加を抑制しながら音源の属性を精度よく行なうことができる。   As described above, according to the present embodiment, not only the sound from the microphone array but also information related to the human position detected by the LRF is used for sound source localization and sound source attribute estimation. Compared to the case of only sound, the accuracy of sound source localization can be increased, and an increase in processing amount at that time can also be suppressed. Also in the case of sound source attribute estimation, since the individual-specific GMM is used only when there is a possibility that there is a person, the sound source attributes can be accurately performed while suppressing an increase in the amount of calculation.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

50 音源定位装置
52 マイクロホンアレイ群
54 同期用タイムサーバ
56 LRF群
58 人位置計測装置
60 音源定位処理部
70 音源分離処理部
72 音源種類同定処理部
80 位置ベクトルDB
82 アレイ位置DB
84,86,88 音源定位部
102 固有ベクトル算出部
104 MUSIC処理部
106 ピーク検出部
108 相対位置ベクトル生成部
110 詳細探索部
160,162,164 適応ビームフォーマ
180 個人別GMM
182 雑音GMM
190,192,194 音源属性判定部
210 比較部
212 選択部
214 特徴抽出部
216 音源属性推定部
230 検出ID・尤度リスト
240 候補リスト
242 履歴リスト
50 sound source localization device 52 microphone array group 54 synchronization time server 56 LRF group 58 human position measurement device 60 sound source localization processing unit 70 sound source separation processing unit 72 sound source type identification processing unit 80 position vector DB
82 Array position DB
84, 86, 88 Sound source localization unit 102 Eigenvector calculation unit 104 MUSIC processing unit 106 Peak detection unit 108 Relative position vector generation unit 110 Detailed search unit 160, 162, 164 Adaptive beamformer 180 Individual GMM
182 Noise GMM
190, 192, 194 Sound source attribute determination unit 210 Comparison unit 212 Selection unit 214 Feature extraction unit 216 Sound source attribute estimation unit 230 Detection ID / likelihood list 240 Candidate list 242 History list

Claims (2)

の位置を検出する人位置検出手段と、
マイクロホンアレイの出力信号から得られる複数チャンネルの音源信号の各々を受け、前記マイクロホンアレイに含まれる各マイクロホンの間の位置関係と、前記マイクロホンアレイの位置に関連して定められる点を中心とする空間内で定義された複数の方向の各々について、前記複数チャネルの音源信号から所定時間ごとにMUSICパワーを算出し、当該MUSICパワーのしきい値以上のピークを与える所定個数の方向を音源位置として前記所定時間ごとに検出するための音源定位手段と、
前記マイクロホンアレイの出力信号から、前記音源定位手段により検出された音源位置からの音声信号を分離する音源分離手段と、
前記音源分離手段により分離された音声信号の音源種類を判定する音源種類判定手段とを含み、
前記音源種類判定手段は、
複数の個人の音声の、少なくともMFCCを含む音響特徴量の統計的モデルである複数の個人別音響モデルと、
人間以外の音源であって、音源種類が既知の雑音源からの前記音響特徴量の統計的モデルである複数の雑音音響モデルと、
前記人位置検出手段の出力と、前記音源定位手段の出力とを受け、音源方向に人が存在するときには前記複数の個人別音響モデル及び前記複数の雑音音響モデルを選択し、音源方向に人が存在しないときには前記複数の雑音音響モデルを選択する、音響モデル選択手段と、
前記音響モデル選択手段により選択された音響モデルを用い、前記音源分離手段により分離された音声信号の前記音響特徴量の系列を与える尤度を算出し、当該尤度が最も高い音響モデルに対応する音源種類を前記音声信号の音源種類として推定する推定手段とを含む、音源定位装置。
And the human position detection means for detecting the position of a person,
Receiving each of the sound source signals of a plurality of channels obtained from the output signal of the microphone array, and the positional relationship between each microphone included in the microphone array, a center point defined with respect to the position before Symbol microphone array MUSIC power is calculated for each of a plurality of directions defined in the space to be determined from the sound source signals of the plurality of channels every predetermined time, and a predetermined number of directions giving a peak equal to or greater than the threshold value of the MUSIC power Sound source localization means for detecting at predetermined time intervals as
Sound source separation means for separating an audio signal from a sound source position detected by the sound source localization means from an output signal of the microphone array;
Look including a sound source type determination means for determining a source type of the separated audio signal by the sound source separation means,
The sound source type determination means includes
A plurality of individual acoustic models that are statistical models of acoustic features of at least MFCC of a plurality of individual voices;
A plurality of noise acoustic models that are non-human sound sources and are statistical models of the acoustic features from noise sources of known sound source types;
In response to the output of the person position detecting means and the output of the sound source localization means, when there is a person in the sound source direction, the plurality of individual acoustic models and the plurality of noise acoustic models are selected, and the person in the sound source direction is selected. Acoustic model selection means for selecting the plurality of noise acoustic models when not present;
Using the acoustic model selected by the acoustic model selection unit, the likelihood that gives the sequence of the acoustic feature amount of the audio signal separated by the sound source separation unit is calculated, and corresponds to the acoustic model having the highest likelihood A sound source localization apparatus including an estimation unit that estimates a sound source type as a sound source type of the audio signal .
さらに、前記音源定位手段により推定された方向のうち、前記人位置検出手段により人が検出された方の各々について、当該方向を中心として、前記音源定位手段による音源位置の探索時より詳細に方向を変化させて各方向でのMUSICパワーを算出しMUSICパワーのピークを検出することにより、より詳細な音源位置を検出するための詳細検出手段とを含む、請求項に記載の音源定位装置。 Further, the sound source localization of people direction estimated by means, for each of the direction towards a person is detected by the person position detection means, about the direction, details from the time search of the sound source position by the sound source localization means The sound source localization according to claim 1 , further comprising: detailed detection means for detecting a more detailed sound source position by calculating the MUSIC power in each direction by changing the direction and detecting a peak of the MUSIC power. apparatus.
JP2011076230A 2011-03-30 2011-03-30 Sound source localization device Active JP5724125B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011076230A JP5724125B2 (en) 2011-03-30 2011-03-30 Sound source localization device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011076230A JP5724125B2 (en) 2011-03-30 2011-03-30 Sound source localization device

Publications (2)

Publication Number Publication Date
JP2012211768A JP2012211768A (en) 2012-11-01
JP5724125B2 true JP5724125B2 (en) 2015-05-27

Family

ID=47265860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011076230A Active JP5724125B2 (en) 2011-03-30 2011-03-30 Sound source localization device

Country Status (1)

Country Link
JP (1) JP5724125B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170440A (en) * 2017-05-31 2017-09-15 宇龙计算机通信科技(深圳)有限公司 Orient transaudient method, device, mobile terminal and computer-readable recording medium
CN110073678A (en) * 2016-12-19 2019-07-30 三星电子株式会社 For controlling the electronic equipment and its operating method of loudspeaker
WO2022010320A1 (en) * 2020-07-10 2022-01-13 주식회사 아모센스 Device for processing voice and operation method thereof

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5318258B1 (en) * 2012-07-03 2013-10-16 株式会社東芝 Sound collector
JP2014098568A (en) * 2012-11-13 2014-05-29 Advanced Telecommunication Research Institute International Sound source position estimation device, sound source position estimation method, and sound source position estimation program
CN103811020B (en) * 2014-03-05 2016-06-22 东北大学 A kind of intelligent sound processing method
JP6467736B2 (en) * 2014-09-01 2019-02-13 株式会社国際電気通信基礎技術研究所 Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program
JP6587047B2 (en) * 2014-11-19 2019-10-09 株式会社国際電気通信基礎技術研究所 Realistic transmission system and realistic reproduction device
JP6613503B2 (en) * 2015-01-15 2019-12-04 本田技研工業株式会社 Sound source localization apparatus, sound processing system, and control method for sound source localization apparatus
JP6665379B2 (en) * 2015-11-11 2020-03-13 株式会社国際電気通信基礎技術研究所 Hearing support system and hearing support device
JP6723120B2 (en) * 2016-09-05 2020-07-15 本田技研工業株式会社 Acoustic processing device and acoustic processing method
JP6472823B2 (en) * 2017-03-21 2019-02-20 株式会社東芝 Signal processing apparatus, signal processing method, and attribute assignment apparatus
CN106898360B (en) * 2017-04-06 2023-08-08 北京地平线信息技术有限公司 Audio signal processing method and device and electronic equipment
WO2018188287A1 (en) * 2017-04-11 2018-10-18 广东美的制冷设备有限公司 A voice control method and apparatus, and household appliance device
CN107123421A (en) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 Sound control method, device and home appliance
EP3539128A1 (en) * 2017-09-25 2019-09-18 Bose Corporation Processing speech from distributed microphones
CN111527461B (en) * 2018-01-09 2024-03-22 索尼公司 Information processing device, information processing method, and program
JP7177631B2 (en) * 2018-08-24 2022-11-24 本田技研工業株式会社 Acoustic scene reconstruction device, acoustic scene reconstruction method, and program
CN109309607A (en) * 2018-10-15 2019-02-05 珠海格力电器股份有限公司 Household appliance operation executes method, apparatus, household appliance and readable storage medium storing program for executing
CN109254266A (en) * 2018-11-07 2019-01-22 苏州科达科技股份有限公司 Sound localization method, device and storage medium based on microphone array
WO2020218075A1 (en) * 2019-04-26 2020-10-29 ソニー株式会社 Information processing device and method, and program
CN110827849B (en) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 Human voice separation method and device for database building, terminal and readable storage medium
CN111383629B (en) * 2020-03-20 2022-03-29 深圳市未艾智能有限公司 Voice processing method and device, electronic equipment and storage medium

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (en) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech recognition device
JP2002135642A (en) * 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech translation system
JP2005181088A (en) * 2003-12-19 2005-07-07 Advanced Telecommunication Research Institute International Motion-capturing system and motion-capturing method
KR100754385B1 (en) * 2004-09-30 2007-08-31 삼성전자주식회사 Apparatus and method for object localization, tracking, and separation using audio and video sensors
JP2008158868A (en) * 2006-12-25 2008-07-10 Toyota Motor Corp Mobile body and control method
JP2008175733A (en) * 2007-01-19 2008-07-31 Fujitsu Ltd Beam-forming system for estimating voice arrival direction, moving device, and beam forming method for estimating voice arrival direction
JP5114217B2 (en) * 2008-01-09 2013-01-09 株式会社ホンダエレシス Electronic scanning radar apparatus, received wave direction estimation method, and received wave direction estimation program
JP2010121975A (en) * 2008-11-17 2010-06-03 Advanced Telecommunication Research Institute International Sound-source localizing device
JP5318623B2 (en) * 2009-03-26 2013-10-16 株式会社国際電気通信基礎技術研究所 Remote control device and remote control program
JP5660362B2 (en) * 2010-04-05 2015-01-28 株式会社国際電気通信基礎技術研究所 Sound source localization apparatus and computer program
JP5702685B2 (en) * 2010-08-17 2015-04-15 本田技研工業株式会社 Sound source direction estimating apparatus and sound source direction estimating method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073678A (en) * 2016-12-19 2019-07-30 三星电子株式会社 For controlling the electronic equipment and its operating method of loudspeaker
US10917734B2 (en) 2016-12-19 2021-02-09 Samsung Electronics Co., Ltd. Electronic device for controlling speaker and operating method thereof
CN110073678B (en) * 2016-12-19 2021-12-28 三星电子株式会社 Electronic device for controlling speaker and method of operating the same
CN107170440A (en) * 2017-05-31 2017-09-15 宇龙计算机通信科技(深圳)有限公司 Orient transaudient method, device, mobile terminal and computer-readable recording medium
WO2022010320A1 (en) * 2020-07-10 2022-01-13 주식회사 아모센스 Device for processing voice and operation method thereof

Also Published As

Publication number Publication date
JP2012211768A (en) 2012-11-01

Similar Documents

Publication Publication Date Title
JP5724125B2 (en) Sound source localization device
US10847171B2 (en) Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
US10847162B2 (en) Multi-modal speech localization
US11064294B1 (en) Multiple-source tracking and voice activity detections for planar microphone arrays
JP4937622B2 (en) Computer-implemented method for building location model
CN110875060A (en) Voice signal processing method, device, system, equipment and storage medium
US20060204019A1 (en) Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program
US20160180852A1 (en) Speaker identification using spatial information
Dorfan et al. Tree-based recursive expectation-maximization algorithm for localization of acoustic sources
JP5328744B2 (en) Speech recognition apparatus and speech recognition method
JP6467736B2 (en) Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program
JP2008079256A (en) Acoustic signal processing apparatus, acoustic signal processing method, and program
US10535361B2 (en) Speech enhancement using clustering of cues
JP2010054733A (en) Device and method for estimating multiple signal section, its program, and recording medium
WO2019217101A1 (en) Multi-modal speech attribution among n speakers
JP2018169473A (en) Voice processing device, voice processing method and program
JP2022533300A (en) Speech enhancement using cue clustering
Cho et al. Sound source localization for robot auditory systems
JP6606784B2 (en) Audio processing apparatus and audio processing method
Kojima et al. Bird song scene analysis using a spatial-cue-based probabilistic model
JP2005196020A (en) Speech processing apparatus, method, and program
JP2021184282A (en) Voice operation device and method for controlling the same
US20200333423A1 (en) Sound source direction estimation device and method, and program
CN115910047B (en) Data processing method, model training method, keyword detection method and equipment
US11961534B2 (en) Identifying user of voice operation based on voice information, voice quality model, and auxiliary information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5724125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250