JP2016050872A - 音源位置推定装置、音源位置推定方法および音源位置推定プログラム - Google Patents

音源位置推定装置、音源位置推定方法および音源位置推定プログラム Download PDF

Info

Publication number
JP2016050872A
JP2016050872A JP2014176949A JP2014176949A JP2016050872A JP 2016050872 A JP2016050872 A JP 2016050872A JP 2014176949 A JP2014176949 A JP 2014176949A JP 2014176949 A JP2014176949 A JP 2014176949A JP 2016050872 A JP2016050872 A JP 2016050872A
Authority
JP
Japan
Prior art keywords
sound source
sound
person
sensor arrays
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014176949A
Other languages
English (en)
Other versions
JP6467736B2 (ja
Inventor
イシイ・カルロス・トシノリ
Carlos Toshinori Ishii
ヤニ・エヴァン
Yani Evan
萩田紀博
Norihiro Hagita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2014176949A priority Critical patent/JP6467736B2/ja
Publication of JP2016050872A publication Critical patent/JP2016050872A/ja
Application granted granted Critical
Publication of JP6467736B2 publication Critical patent/JP6467736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】所定の空間内において、誰が、いつ、どこでしゃべっているのかを推定し、記録することが可能な音源位置推定装置を提供する。
【解決手段】音源位置推定装置2000において、音源方向推定部は、複数のマイクロホンアレイ1052.1〜4からの複数チャンネルの信号の各々とマイクロホンアレイに含まれる各マイクの間の位置関係とに基づいて、複数のマイクロホンアレイに音の到来する方向を特定する。音声区間推定部は、複数のマイクロホンアレイ1052.1〜4のうち、異なるマイクロホンアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定する。
【選択図】図1

Description

この発明は実環境における音源定位技術に関し、特に、実環境において複数のセンサアレイによる音声の方向性を用いた音源位置の推定技術に関する。
従来、音源方向の検出を行うことで、少数の撮像手段により明瞭な画像を効率的に取得可能な撮像装置などについての提案がある(たとえば、特許文献1)。
この特許文献1には、以下のような技術が開示されている。すなわち、システムには、2個の音源方向検出部が設けられており、音源方向検出部は、それぞれ複数のマイクロホンを備え、各マイクロホンの音声信号の音圧レベルにより音源方向の検出を行う。音源位置推定部は、音源方向検出部で検出された音源方向に基づいて、撮像対象部屋の中の音源位置を幾何学的に推定する。撮像部は、推定された音源位置を指向して撮影するように制御される。撮影された映像データは、画像認識部により画像認識処理される。画像認識部は、被写体(音源)が大きく表示されるように、撮像部のズーム機能を制御する。
このような構成により、音源である人間を含む物体(被写体)の位置を把握することができるため、比較的少ない数の撮像手段により、被写体を明瞭に撮影することが可能となるとともに、撮像装置全体としてのシステムコストが抑制できる。
ただし、このようなシステムは、発話に合せて画像を撮影することに主眼が置かれており、誰が、いつ、どこでしゃべっているのかを推定し、記録することを目的としたものではない。
このような目的に対して、小学校の理科室に複数のマイクロホンアレイと複数のキネクトセンサを設置し、理科の授業が実際に行われたデータを収集した例も報告されている(たとえば、非特許文献1)。
一方で、複数のアレイを用いて音と空間の情報のみから反射音も利用して音源位置を推定する手法などについても提案がある(特許文献2を参照)。
特開2005−151042号公報明細書 特開2014−98568号公報明細書
Ishi, C., Even, J., Hagita, N. (2013). "Using multiple microphone arrays and reflections for 3D localization of sound sources," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2013), pp. 3937-3942, Nov., 2013.
しかしながら、非特許文献1や特許文献2に開示の技術では、発話区間と人との対応付けまでは行っていない。
誰が、いつ、どこでしゃべっているのかを推定する対話行動認識プラットフォームが実現すれば、教室内や会議などのように、複数の人が時に席を移りながら会話や協調作業をする際のデータの観察が容易になることが期待できると期待される。
本発明は、上記のような問題点を解決するためになされたものであって、その目的は、所定の空間内において、誰が、いつ、どこでしゃべっているのかを推定し、記録することが可能な音源位置推定装置を提供することである。
また、本発明の目的は、所定の空間内において、しゃべっている人の顔の向きの推定も可能とする音源位置推定装置を提供することである。
本発明では、複数のマイクロホンアレイを用いて音源方向を推定し、併せて、人位置の推定の情報を用いて人の位置を推定し、これらの情報を統合して音源定位(3次元空間の位置推定)を行う。
この発明の1つの局面に従うと、音源位置推定装置であって、複数の音センサアレイと、 所定空間内の人の位置を推定するための人位置推定手段と、音センサアレイ中の各音センサの配置の情報および人の位置情報を格納するための記憶装置と、複数の音センサアレイからの複数チャンネルの信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するための処理を実行する音源定位手段と、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するための音声区間推定手段とを備える。
好ましくは、音声区間推定手段は、音の到来する方向の組ごとに、到来方向の延長線間の最短距離が第1のしきい値以下であることに応じて、最短距離に対応する直線上に音源の候補位置が存在すると推定する。
好ましくは、音声区間推定手段は、音源の候補位置のうち、音の到来方向を特定するのに使用した音センサアレイまでの距離の総和が最小の音源の候補位置を音源位置と推定する。
好ましくは、音声区間推定手段は、推定された音源位置と人の位置とが第2のしきい値以下であることに応じて、発話中の人を推定する。
好ましくは、音声区間推定手段は、発話中の人であると推定された人の位置と対応する音源位置とに応じて、発話中の人の顔の向きを推定する。
好ましくは、音声区間推定手段により推定された発話中の人についての音声を分離して、発話内容と発話者とを関連づけて記録するための音源分離手段をさらに備える。
この発明の他の局面に従うと、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定方法であって、位置センサからの測定データにより所定空間内の人の位置を推定するステップと、複数の音センサアレイからの複数チャンネルの音源信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するステップと、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するステップとを備える。
この発明のさらに他の局面に従うと、演算装置と記憶装置とを有するコンピュータに、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定プログラムであって、音源位置推定プログラムは、演算装置が、位置センサからの測定データにより所定空間内の人の位置を推定するステップと、演算装置が、複数の音センサアレイからの複数チャンネルの音源信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するステップと、演算装置が、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するステップとを、コンピュータに実行させる。
この発明によれば、複数のアレイによる音源位置推定と人位置情報を組み合わせて、音声アクティビティを検出するシステムの精度を改善することが可能である。
また、この発明によれば、発話している際の話者の顔の向きも推定することが可能となり、空間内のどのような文脈で発話されたかの手がかりとなり、より高度な対話行動認識が可能となる。
本実施の形態の音源位置推定装置を含む対話行動認識システム1000の構成を説明するための概念図である。 実験を実施した際の環境を示す図である。 図1に示した音源位置推定装置2000の構成の概要を示すブロック図である。 音源位置推定装置2000をコンピュータにより実現した場合の処理のフローを説明するためのフローチャートである。 音源方向推定部1040の構成を示すブロック図である。 最短距離を求める手続きを示す概念図である。 コンピュータプログラムを実行するためのコンピュータシステム2000のハードウェア構成をブロック図形式で示す図である。 マイクロホンアレイにおけるマイクの配置を示す図である。 マイクロホンアレイの位置と、評価した人の位置情報を示す図である。 2名の話者が単独で発話した場合の発話区間検出率の結果を示す図である。 顔の向きの推定に関する分析結果を記す図である。 顔の向きの推定に関する分析結果を記す図である。 顔の向きの推定結果の統計値を示す図である。 2名が同時に発声した場合の顔の向きの推定結果を示す図である。
以下、本発明の実施の形態の音源位置推定装置の構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。
なお、以下の説明では、音センサとしては、いわゆるマイクロホン、より特定的にはエレクトレットコンデンサマイクロホンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。
実環境では、異なった場所で発生する複数の音が混合して観測されるため、本実施の形態の音源位置推定装置では、以下に説明するように、複数の音源を定位・分離するため、複数のマイクロホンアレイを連携させる。
ここでの「音源定位」とは、音源の方位を継続的に特定することをいい、「音源の位置推定」とは、所定の空間内で、音源定位により特定された音源の方位に基づいて、3次元的な音源の位置を推定することをいう。
[システムの構成]
図1は、本実施の形態の音源位置推定装置を含む対話行動認識システム1000の構成を説明するための概念図である。
図1を参照して、対話行動認識システム1000では、所定の空間、たとえば、会議室において、その天井にマイクロホンアレイ1052.1および1052.2が設置され、会議室内のより床面に近い位置、たとえば、テーブルの上に、マイクロホンアレイ1052.3および1052.4が設置される。特に、限定されないが、たとえば、マイクロホンアレイ1052.1と1052.2とを結ぶ方向と、マイクロホンアレイ1052.3と1052.4とを結ぶ方向とは、直交するように配置されている。
なお、マイクロホンアレイの個数については、このように4個に限定されるものではなく、一般には、複数個であれば、特に制限はない。
会議室内には、たとえば、立った状態で発話している発話者10.1と、座位で発話している発話者10.2および10.3とがいるものとする。
さらに、会議室内には、その3つの隅にそれぞれ、人の位置を検知するためのレーザレンジファインダ(LRF:Laser Range Finder)1010.1,1010.2および1010.3(以下、総称するときは、LRF1010と呼ぶ)が配置されている。なお、レーザレンジファインダは、会議室内の人の位置を推定するための検知装置の一例であって、会議室内の人の位置を検知できるものであれば、他のセンサであってもよく、個数についても、3個に限定されるものではない。
音源位置推定装置2000は、LRF1010からのデータを基に人位置の推定を推定するとともに、マイクロホンアレイ1052(マイクロホンアレイ1052.1〜1052.4のように複数のマイクロホンアレイを総称する際には、マイクロホンアレイ1052と呼ぶ)により取得された音源の位置とを、経時的に収集し、各音声発話区間を同定して、音声発話期間ごとの発話者を特定する。
[システムの設置環境]
図2は、後に説明するような実験を実施した際の環境を示す図である。
図2に示すように、実験では、複数のマイクロホンアレイを設置した研究室内のミーティングスペースを使用した。マイクロホンアレイは机の上に16チャンネルのものを2個と、天井に8チャンネルのものを2個設置した。
[音源位置推定のための構成]
図3は、図1に示した音源位置推定装置2000の構成の概要を示すブロック図である。
図4は、後に説明するように、音源位置推定装置2000をコンピュータにより実現した場合の処理のフローを説明するためのフローチャートである。
図3および図4を参照して、まず、複数のマイクロホンアレイ1052.1〜1052.4からの信号に基づいて、それぞれ3次元空間音源方向推定部1040.1〜1040.4(総称する場合は、音源方向推定部1040と呼ぶ)が、それぞれ3次元空間の音源方向推定(方位角および仰角の推定)を行う(S102)。多くの音源定位の研究では、方位角のみが推定されるが、会議室や教室のように人の数が多い場合、同じ方向に複数の音源が存在する確率が高くなり、仰角の推定も重要となる。
音源方向推定部1040は、実時間処理で3次元空間での音源方向を5度の空間的分解能および100msの時間分解能で推定するMUSIC法に基づくシステムである。
音源方向検出には、より高い分解能が望ましいが、3次元空間での探索には処理時間が多くなってしまい、一般のCPUでは実時間処理が難しくなる。そこで、本実施の形態では、上述のとおり、まず、5度の分解能で検出された方向に対し、階層的に、i)3度(探索範囲:-6〜6度)、ii)2度(探索範囲:-4〜4度)、iii)1度(探索範囲:-3〜3度)というように、順次分解能を上げつつ、最終的な音源方位の推定を行う。
100msごとに探索する方向の数は、同時に検出された方向の数に比例するが、クロック周波数2.6GHzのCPU(Central Processing Unit)でも十分に実時間処理で動作可能である。
人位置推定部1070には、上述のとおり、2次元のLRF1010を3台用いて2次元の人位置推定を用いている(S104)。
なお、LRFを用いた人位置推定の方法については、たとえば、以下の文献に開示がある。
公知文献1:D.F. Glas et al., ”Laser tracking of human body motion using adaptive shape modeling,” Proceedings of 2007 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 602-608, 2007.
音声区間推定部1080では、音源方向と人位置情報を基に、後に説明するように、その人が発話しているか否かを判断する(S106)。不揮発性記憶装置2080中に記憶された部屋の空間情報とアレイの位置情報を基に、それぞれのマイクロホンアレイから得られた音源方向と、人位置推定部から得られる人の位置情報を重ね合わせる。「部屋の空間情報」とは、たとえば、会議室のような所定の空間内でのマイクロホンアレイの設置位置の情報を含む。なお、特許文献2に記載のように、反射音も利用する場合は、「部屋の空間情報」は、所定の空間の壁、天井の位置に関する情報を含んでいてもよい。
マイクロホンアレイ1050に対し、人の方向と空調やエアコンなどの雑音源の方向が重なる場合はまれではなく、誤検出を減らす必要がある。そのため、複数の方向が重なった場合のみを音源候補とし、音源方向の重なりの位置が人の位置と重なれば、その人が発話している確率が高いとみなす。
最後に、音源分離部1090は、検出されたそれぞれの音源区間に対し、音源に最も近いマイクロホンアレイを用いて、検出された方向にビームを向けて、音源分離を行い、その音源からの音声を、その発話者からの音声として、不揮発性記憶装置2080に記録する(S108)。
続いて、処理の終了が指示されていると判断されば、処理を終結し、処理の終了が指示されていなければ、処理をステップS102に復帰させて、次の時間ブロックでの処理を行う。
[MUSIC法による音源方向の推定処理]
図5は、音源方向推定部1040の構成を示すブロック図である。音源方向推定部1040.1〜1040.4の構成は基本的に同様である。
一例として、音源の位置の推定のために、音源の方位を推定するための手法の具体例として、MUSIC(Multiple Signal Classification)法を例にとって説明する。ただし、音源の方位を推定できる方法であれば、他の手法を用いてもよい。
MUSIC法の概略について説明すると、まず、高速フーリエ変換により多チャンネルのスペクトルX(k,t)をフレーム毎に求め、スペクトル領域でチャンネル間の空間的相関行列Rkをブロック毎に求め、相関行列の固有値分解により指向性の成分と無指向性の成分のサブ空間を分解し、無指向性のサブ空間に対応する固有ベクトルEk nと、対象の検索空間に応じて予め用意した方向ベクトルak を用いて(狭帯域の)MUSIC空間スペクトルP(k)を周波数ビンごとに求め、特定の周波数帯域内の周波数ビン毎のMUSIC空間スペクトルを統合して広帯域MUSIC空間スペクトルが求まる。
以下では、広帯域MUSIC空間スペクトルを単に「MUSIC空間スペクトル」と呼び、MUSIC空間スペクトルの時系列を「MUSICスペクトログラム」を呼ぶ。
音源定位においては、MUSIC空間スペクトルのピークを探索することにより、音源の方向が求まる。
なお、以下では、マイクロホンアレイが1つである場合を例にとって説明するが、マイクロホンアレイの個数はより多くてもよい。
図5を参照して、音源パワースペクトル取得部1050は、マイクロホン1052.1〜1052.p(p:自然数)を含むマイクロホンアレイMC1から、それぞれp個のアナログ音源信号を受け、アナログ/デジタル変換を行なってp個のデジタル音源信号をそれぞれ出力するA/D変換器1054と、A/D変換器1054からそれぞれ出力されるp個のデジタル音源信号を受け、MUSIC法で必要とされる相関行列とその固有値および固有ベクトルを、所定の時間、たとえば、100ミリ秒を1ブロックとしてブロックごとに出力するための固有ベクトル算出部61と、固有ベクトル算出部61からブロックごとに出力される固有ベクトルを使用し、MUSIC法によりMUSIC空間スペクトルを出力するMUSIC処理部62とを含む。音源方向推定部1060は、MUSIC処理部62が出力するMUSIC空間スペクトルに基づいて、音源の方向(本実施の形態では、3次元極座標の内の2つの偏角φおよびθとする)を推定する。なお、本明細書では、「MUSIC応答」とは、MUSICアルゴリズムにより得られるMUSIC空間スペクトルを所定の式で平均化したものである。
特に限定されないが、本実施の形態では、A/D変換器1054は、一般的な16kHz/16ビットで各マイクロホンの出力をA/D変換する。
また、固有ベクトル算出部61は、マイクロホンアレイMC1からの信号に基づきA/D変換器1054の出力するp個のデジタル音源信号を、たとえば、4ミリ秒のフレーム長でフレーム化するためのフレーム化処理部80と、フレーム化処理部80の出力するpチャンネルのフレーム化された音源信号に対してそれぞれFFT(Fast Fourier Transformation)を施し、所定個数の周波数領域(以下、各周波数領域を「ビン」と呼び、周波数領域の数を「ビン数」と呼ぶ。)に変換して出力するFFT処理部82と、FFT処理部82から4ミリ秒ごとに出力される各チャネルの各ビンの値を、100ミリ秒ごとにブロック化するためのブロック化処理部84と、ブロック化処理部84から出力される各ビンの値の間の相関を要素とする相関行列を所定時間ごと(100ミリ秒ごと)に算出し出力する相関行列算出部86と、相関行列算出部86から出力される相関行列を固有値分解し、固有ベクトル92をMUSIC処理部62に出力する固有値分解部88とを含む。
通常、FFTでは512〜1024点を使用する(16kHzのサンプリングレートで32〜64ミリ秒に相当)が、ここでは1フレームを4ミリ秒(FFTでは64〜128点に相当)とした。このようにフレーム長を短くすることにより、FFTの計算量が少なくてすむだけでなく、後の相関行列の算出、固有値分解、およびMUSIC応答の算出における計算量も少なくて済む。その結果、性能を落とすことなく、比較的非力なコンピュータを用いても十分にリアルタイムで 音源定位を行なうことができる。
MUSIC処理部62は、マイクロホンアレイMC1に含まれる各マイクロホンの位置を所定の座標系を用いて表す位置ベクトルを記憶するためのマイク配置記憶部100と、マイク配置記憶部100に記憶されているマイクロホンの位置ベクトル、および固有値分解部88から出力される固有ベクトルを用いて、音源数が固定されているものとしてMUSIC法によりMUSIC空間スペクトルを算出し出力するMUSIC空間スペクトル算出部104とを含む。
ブロックごとに得られる相関行列の固有値が音源数に関連することは、例えば、以下の文献にも記載されており、既に知られている事項である。
公知文献2:F.アサノら、「リアルタイム音源定位及び生成システムと自動音声認識におけるその応用」、 Eurospeech,2001、アールボルグ、デンマーク、2001、1013−1016頁(F. Asano, M. Goto, K. Itou, and H. Asoh, ”Real-time sound source localization and separation system and its application on automatic speech recognition,” in Eurospeech 2001, Aalborg, Denmark, 2001, pp. 1013-1016)
なお、本実施の形態では、各音源の2次元的な方位角だけでなく、仰角も推定する。そのために、MUSICアルゴリズムとしては、3次元での計算が可能なものを実装する。方位角と仰角とのセットを、これ以降、音源方位(DOA)と呼ぶ。MUSIC処理部62で実行されるアルゴリズムでは、音源までの距離は推定しない。音源方位のみを推定するようにすることで、処理時間を大幅に減少させることができる。
MUSIC処理部62はさらに、MUSIC空間スペクトル算出部104により算出されたMUSIC空間スペクトルに基づいて、MUSIC法にしたがいMUSIC応答と呼ばれる値を各方位について算出し出力するためのMUSIC応答算出部106を含む。
音源方向推定部1060は、MUSIC応答算出部106により算出されたMUSIC応答のピークを、一時的に時系列に所定数だけFIFO形式でそれぞれ蓄積するためのバッファ108を含む。さらに、音源方向推定処理部110は、バッファ108に蓄積された各ブロックの各探索点のMUSIC応答について、音源の方向(上述した2つの偏角φおよびθ)を推定する。
ここで、MUSIC法では、狭帯域MUSIC空間スペクトルの推定において、その時刻に発している指向性を持つ音源数(NOS)を与える必要があるが、以下の説明では、固定数を与え、MUSIC空間スペクトル上で、特定の閾値を超えたピークのみを指向性のある音源とみなすものとして説明する。
(MUSIC法)
以下、上述した3次元での方位を算出するMUSIC法について、簡単にまとめる。
たとえば、M個のマイク入力のフーリエ変換Xm(k、t)は、式(M1)のようにモデル化される。
ただし、ベクトルs(k、t)はN個の音源のスペクトルSn(k、t)から成る(n=1,…,N)。
すなわち、s(k、t)=[S1(k、t)、…、SN(k、t)]Tである。ここで、kとtはそれぞれ周波数と時間フレームのインデックスを示す。ベクトルn(k、t)は背景雑音を示す。行列Aは変換関数行列であり、その(m、n)要素はn番目の音源から、m番目のマイクロホンへの直接パスの変換関数である。Aのn列目のベクトルをn番目の音源の位置ベクトル(Steering Vector)と呼ぶ。
まず、式(M2)で定義される空間相関行列Rを求め、式(M3)に示すRkの固有値分解により、固有値の対角行列Λおよび固有ベクトルから成るEが求められる。
固有ベクトルはE=[Eks|Ekn]のように分割出来る。EksとEknとはそれぞれ支配的なN個の固有値に対応する固有ベクトルと、それ以外の固有ベクトルとを示す。
MUSIC空間スペクトルは式(M4)と(M5)とで求める。rは距離、θとφとはそれぞれ方位角と仰角とを示す。式(M5)は、スキャンされる点(r、θ、φ)における正規化した位置ベクトルである。
MUSIC応答(パワーに相当)は、MUSIC空間スペクトルを式(M6)のように平均化したものである。
式(M6)においてkLおよびkHは、それぞれ周波数帯域の下位と上位の境界のインデックスであり、K=kH−kL+1である。マイクロホンアレイに到来する音の方位は、MUSIC応答のピークを探索することにより求められる。
なお、上述したとおり、音の到来方向の推定アルゴリズムとしては、MUSIC法を用いることも、一方で、他の方法、たとえば、ステアード応答パワー法を用いることも可能である。
たとえば、ステアード応答パワー法については、以下の文献に開示がある。
公知文献3:M. Brandstein and H. Silverman, ”A robust method for speech signal time-delay estimation in reverberant rooms,” in IEEE Conference on Acoustics, Speech, and Signal Processing, ICASSP 1997, 1997, pp. 375-378.
公知文献4:A. Badali, J.-M. Valin, F. Michaud, and P. Aarabi, ”Evaluating realtime audio localization algorithms for artificial audition on mobile robots,” in Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2009, 2009, pp. 2033-2038.
[音声区間推定部1080の処理]
次に、音声区間推定部1080において、マイクロホンアレイから得られた音源方向により、音源候補の位置を推定する処理について、以下、説明する。
複数のマイクロホンアレイから検出された複数の方向をペア毎に評価する。2つの方向(dir、 dir)が3次元空間で交差しているかを判断するため、まず次式により、最短距離(distdir)を計算する。
ここで、v、 v は各方向に平行したベクトル、p、 p は各アレイの位置を示す。
図6は、このような最短距離を求める手続きを示す概念図である。
図6に示すように、点p1を通りベクトルvと平行な直線l1をパラメータtによるパラメータ表示により、x=p1+tv1で表し、点p2を通りベクトルv2と平行な直線l2をパラメータuによるパラメータ表示により、x=p2+uv2で表すものとする。
直線l2と平行で、直線l1を含む平面α:(n・x)+d=0を考える。
平面αの法線は、2直線l1およびl2に垂直となるので、法線ベクトルnは、2直線の方向ベクトルの外積としてn=(v×v2)/|v×v2|となる。
また、平面αは、直線l1上の点p1を含むので、d=−(n・p1)となる。
したがって、平面αは、以下の式で表される。
さて、直線l2と平面αとの距離をhとすれば、直線l1上の点Pと直線l2上の点Qとの距離PQは、常に、距離h以上の大きさとなる。言い換えれば、PQの最小値、すなわち、distdirは、点p2と平面αとの距離として、上述した式(1)で表されることになる。
すなわち、h=distdir(dir、 dir)が成り立つ。
ここで、音声区間推定部1080は、この最短距離distdirが、以下に示すように、所定の閾値(distdir-th)よりも小さい場合、2つの方向は交差しているとみなす。
特に限定されないが、後に説明する実験では、distdir-th を20cmとする。
方向が交差していると判断された方向ペアに対し、音声区間推定部1080は、音源の位置(possource)を以下の式により推定する。
ここで、posn は、最短距離に対する直線が各アレイからの音源方向を描いた直線と交わる座標点を示す。
次に、音声区間推定部1080は、上述の処理により、すべての方向ペアを評価して得られた音源位置の候補に対し、人位置との重なりを評価する。
音源方向の重なりによる音源位置と人位置の重なりにおいては、人位置検出が2次元であるため、2次元での距離(図1でのxy平面内での距離)を評価する。すなわち、音声区間推定部1080は、検出された各人位置と各音源位置候補の2次元距離を計算し、以下の数式(4)のように、2次元距離が閾値よりも小さい場合、その人が発話しているとみなす。
ここでも、特に限定されないが、後に説明する実験では、位置誤差の評価には、閾値(distpos-th)を30cmと設定するものとする。
人位置推定は、2次元で身長の情報は得られないが、音源位置推定は3次元で求められるため、人の口元の位置を考慮した制限が可能となる。口元の位置は、人が座っている場合と立っている場合を想定し、音源位置の高さが、所定の範囲、たとえば、z=80〜170cmの範囲内である場合のみ、音声区間推定部1080は、その人が発話している確率が高いとみなす。
人位置は33〜66msごとに推定され、音源方向は100msごとに推定されるため、音声区間推定部1080は、100msの時間分解能で音声区間を検出する。
さらに、音声区間推定部1080は、300ms(3ブロック)以下の区間で、音声アクティビティが有りと判定されたブロックに挟まれた場合は、その区間のマージングを行う。また、音声区間推定部1080は、このようなマージング後の音声区間の前後200msに対してプリロール(pre-roll)期間とアフターロール(after-roll)期間を追加したものを検出された発話区間とする。
さらに、音声区間推定部1080は、人の口元は人体の正中矢状面と正中冠状面の交点よりも前寄りに位置していることを考慮し、本実施の形態では、後に説明するように、顔の向きの推定も行う。
音源位置と人位置の距離が閾値(distpos-th)より小さい音源位置候補のうち、音源方向が推定された複数のマイクロホンアレイとの総距離が最も小さいものを音源位置のベスト候補とする。すなわち、2つのマイクロホンアレイからの音源方向推定により音源位置候補が特定されている場合、音源位置候補と各マイクロホンアレイとの「距離の和」を求める。同一の人位置について複数の音源候補位置がある場合は、このような「距離の和」のうち、もっとも小さな距離の和に対応する音源候補位置(すなわち、その人位置からより近いマイクロホンアレイにより推定された音源候補位置)をベスト候補として選択して、その人位置とベスト音源位置を結ぶベクトルの方向を、その人のその発話区間での「顔の向き」とする。
最後に、音源分離部1090は、検出されたそれぞれの発話区間に対し、音源に最も近いマイクロホンアレイを用いて、検出された方向にビームを向けて、音源分離を行い、その音源からの音声を、その発話者からの音声として、たとえば、当該発話区間と関連づけて、不揮発性記憶装置2080に記録する。
[コンピュータによる実現]
音源位置推定装置2000の音源方向推定部1040、音声区間推定部1080および音源分離部1090の処理は、実際にはコンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより、 ハードウェアとソフトウェアとの協働により実現される。以下、これらの機能を実現するためのコンピュータプログラムの動作について簡単に説明する。
図7は、このようなコンピュータプログラムを実行するためのコンピュータシステム2000のハードウェア構成をブロック図形式で示す図である。
図7に示されるように、このコンピュータシステム2000を構成するコンピュータ本体2010は、ディスクドライブ2030およびメモリドライブ2020に加えて、それぞれバス2050に接続されたCPU(Central Processing Unit )2040と、ROM(Read Only Memory)2060およびRAM(Random Access Memory)2070を含むメモリと、不揮発性の書換え可能な記憶装置、たとえば、ハードディスク2080と、ネットワークを介しての通信を行うための通信インタフェース2090と、マイクロホンアレイMC1およびMC2と信号の授受を行うための音声入力インタフェース2092とを含んでいる。ディスクライブ2030には、CD−ROM2200などの光ディスクが装着される。メモリドライブ2020にはメモリカード2210が装着される。
音源位置推定装置2000の音源方向推定部1040、音声区間推定部1080および音源分離部1090の処理のプログラムが動作するにあたっては、その動作の基礎となる情報を格納するデータベースは、ハードディスク2080に格納されるものとして説明を行う。
なお、図7では、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体として、CD−ROM2200を想定しているが、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)などでもよく、あるいは、メモリカードやUSBメモリなどでもよい。その場合は、コンピュータ本体2200には、これらの媒体を読取ることが可能なドライブ装置が設けられる。
音源位置推定装置2000の主要部は、コンピュータハードウェアと、CPU2040により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアは CD−ROM2200等の記憶媒体に格納されて流通し、ディスクドライブ2030等により記憶媒体から読取られて ハードディスク2080に一旦格納される。または、当該装置がネットワーク310に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク2080にコピーされる。そうしてさらにハードディスク2080からメモリ中のRAM2070に読出されてCPU2040により実行される。なお、ネットワーク接続されている場合には、ハードディスク2080に格納することなくRAMに直接ロードして実行するようにしてもよい。
音源位置推定装置2000として機能するためのプログラムは、コンピュータ本体2010に、情報処理装置等の機能を実行させるオペレーティングシステム(OS)は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム20がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
さらに、CPU2040も、1つのプロセッサであっても、あるいは複数のプロセッサであってもよい。すなわち、シングルコアのプロセッサであっても、マルチコアのプロセッサであってもよい。
なお、音源位置推定装置2000のプログラムの動作の基礎となる情報を格納するデータベースは、インタフェース2090を介して接続される外部の記憶装置内に格納されていてもよい。たとえば、ネットワークを介して外部サーバに接続している場合は、動作の基礎となる情報を格納するデータベースは、外部サーバ内のハードディスク(図示せず)等の記憶装置に格納されていてもよい。この場合は、コンピュータ2000はクライエント機として動作し、このようなデータベースのデータをネットワークを介して外部サーバとやり取りする。
[実験結果]
(1)データ収集
上述のとおり、実験は、図2に示したような、複数のマイクロホンアレイを設置した研究室内のミーティングスペースで実施した。
マイクロホンアレイは机の上に16チャンネルのものを2個と、天井に8チャンネルのものを2個設置した。
図8は、マイクロホンアレイにおけるマイクの配置を示す図である。
図8(a)の平面図および図8(b)の側面図に示すように、16チャンネルのアレイの形状は直径30cmの半球面上に配置するようにアレイフレームを作成した。8チャンネルのアレイは15cmの円形上に均等にマイクを配置した形状である。
図9は、マイクロホンアレイの位置と、評価した人の位置情報を示す図である。
図9において、中央の長方形はテーブルを示す。
テーブル上のアレイの高さはz=730mm、天井のアレイはz=2690mmである。テーブルの周り10か所(P1〜P10)において、座った条件と立った条件で発声したデータを収集した。
話者2名(男女各1名)が、各位置で4方向(前:F、左:L、後ろ:B、右:R)を向いて、「顔の向きを検出する実験を行っています」という文を発声した。
(評価結果:単独で発話した場合)
まず、図10は、2名の話者(女性F1 および 男性M1)が単独で発話した場合の発話区間検出率(precision およびrecall)の結果を示す図である。
ここで、“precision”とは、正誤を含めて発話区間であると判定された中(実際には発話区間であり、かつ、発話区間と判例された区間、および、実際には非発話区間であり、かつ、発話区間と判例された区間)に、どれだけ、正しい発話区間が含まれているかを示し、“recall”とは、正しく発話区間の判定がされた中(実際には発話区間であり、かつ、発話区間と判例された区間、および、実際には非発話区間であり、かつ、非発話区間と判例された区間)において、どれだけの区間が正しい発話区間であるかを示す。
発話区間検出において、各位置において、方向がすべてのアレイに背いている向き(例えば位置P1の後ろ向きB、位置P2の右向きRなど)は、音源方向推定の精度が低いことが予想されるため、これらの条件を除外した場合の結果も記載する。
図10では、すべてのデータを用いた結果を”all data”に示し、テーブルに背く方向を除外した結果を”excluding outside direction”として示す。
まず、すべてのデータに対する結果(”all data”)は、話者F1(女性)の場合96%の検出率で話者M1(男性)の場合は83%であった。この結果に対し、テーブルに背く場合を除外した結果(”excluding outside direction”)では、いずれの話者も97%以上という高い検出率が得られた。
また、precisionとrecallの値にほとんど差がみられず、挿入誤りが少ないことが示された。これは複数の音源が重なった位置にのみ音源が存在する候補として扱っていることが効いていると考えられる。
次に、図11および図12は、顔の向きの推定に関する分析結果を記す図である。
図11および図12では、白丸はマイクロホンアレイの位置を示し、図9に示した位置P2で4方向((a)〜(d)の順に、F,L,B,R)に発声した際の音源方向推定結果と検出された向き(黒い矢印)を示す。
人がいない方向を差している線は、天井の空調やエアコンなどの雑音源に対応する。
図11および図12の例より、顔の向きによって、複数のアレイで検出された音源方向が交差する位置が人位置の中心点より顔を向いた方向にずれていることが分かる。
また、この人位置の中心点から音源方向の交差する位置へ向かう方向として推定される顔の向きについても、少なくとも、4方向の区別は可能であることがわかる。
図13は、顔の向きの推定結果の統計値を示す図である。
図13に示される結果より、顔の向きの推定誤差の平均値は、いずれの条件でも0度に近く、正しい向きの周辺で推定がばらついていることとなる。ばらつきについては、全データ(”all data”)の場合、標準偏差が30度前後であり、アレイに背いている条件を除外する場合(”excluding outside direction”)は20度前後となっている。この結果より、発話中に少なくとも、前後左右の識別は可能であることが確認できる。
(評価結果:複数人が同時に発話した場合)
次に、2名が同時に発声した場合の結果について説明する。
2名が同時に同じ文を発声した際の位置は、(P10;P1)、 (P10; P2)、 (P9;P2)、 (P1;P3)、 (P2;P4)、 (P4、P5) の6つの組み合わせで評価した。顔の向きは指定せず、ミーティングの場を想定してお互いに向けて発話するような自然な向きで発声するよう指示した。
発話区間検出においては、条件の数は少ないが、98%の検出率が得られ、2名同時発話でも精度よく発話区間検出が可能であることが示された。
図14は、2名が同時に発声した場合の顔の向きの推定結果を示す図である。
図14に示されるように、顔の向きにおいては、図14(a)の例では、話者間が1 メートル程度で横並びに座っている状態であるが、お互いに向けた発話でも面向かって発話しないことが導ける。一方、図14(b)は、テーブルの隣接する2辺に話者がいる状態であり、お互いの方向を向いて発話しているのがわかる。
また、4名がミーティングテーブルの周りで同時に発話した場合も、問題なく発話区間検出が可能であることを確認した。また、テーブルの周りを歩きながら発話するデータも収集し、移動中の場合も、発話区間および顔の向きも正しく動作することを確認した。
以上説明したように、本実施の形態の対話行動認識システム1000によれば、複数のアレイによる音源位置推定と人位置情報を組み合わせて、音声アクティビティを検出するシステムの精度を改善することが可能である。
また、対話行動認識システム1000によれば、発話している際の話者の顔の向きも推定することが可能となり、空間内のどのような文脈で発話されたかの手がかりとなり、より高度な対話行動認識が可能となる。
なお、以上の説明では、対話行動認識システム1000は、教室内や会議などのように、複数の人が時に席を移りながら会話や協調作業をする際のデータの観察を行うためのシステムとして説明した。ただし、たとえば、会議の場面を想定すると、会議中に発話した人およびその人の発話の内容を特定することが可能となる。この場合、発話の内容を音声認識技術によりテキスト文に変換すれば、自動的に議事録を作成するシステムに応用することも可能である。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
61 固有ベクトル算出部、62 MUSIC処理部、86 相関行列算出部、88 固有値分解部、106 MUSIC応答算出部、110 音源方向推定処理部、1040 音源方向推定部、1050 音源パワースペクトル取得部、1060 音源方向推定部、1080 音声区間推定部、1070 人位置推定部、1090 音源分離部、MC1,MC2 マイクロホンアレイ。

Claims (8)

  1. 複数の音センサアレイと、
    所定空間内の人の位置を推定するための人位置推定手段と、
    前記音センサアレイ中の各音センサの配置の情報および人の位置情報を格納するための記憶装置と、
    前記複数の音センサアレイからの複数チャンネルの信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するための処理を実行する音源定位手段と、
    前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するための音声区間推定手段とを備える、音源位置推定装置。
  2. 前記音声区間推定手段は、前記音の到来する方向の組ごとに、到来方向の延長線間の最短距離が第1のしきい値以下であることに応じて、前記最短距離に対応する直線上に前記音源の候補位置が存在すると推定する、請求項1記載の音源位置推定装置。
  3. 前記音声区間推定手段は、前記音源の候補位置のうち、前記音の到来方向を特定するのに使用した前記音センサアレイまでの距離の総和が最小の音源の候補位置を音源位置と推定する、請求項2記載の音源位置推定装置。
  4. 前記音声区間推定手段は、推定された前記音源位置と前記人の位置とが第2のしきい値以下であることに応じて、発話中の人を推定する、請求項3記載の音源位置推定装置。
  5. 前記音声区間推定手段は、発話中の人であると推定された前記人の位置と対応する前記音源位置とに応じて、発話中の人の顔の向きを推定する、請求項4記載の音源位置推定装置。
  6. 前記音声区間推定手段により推定された発話中の人についての音声を分離して、発話内容と発話者とを関連づけて記録するための音源分離手段をさらに備える、請求項1〜5のいずれか1項に記載の音源位置推定装置。
  7. 複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定方法であって、
    位置センサからの測定データにより前記所定空間内の人の位置を推定するステップと、
    前記複数の音センサアレイからの複数チャンネルの音源信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するステップと、
    前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するステップとを備える、音源位置推定方法。
  8. 演算装置と記憶装置とを有するコンピュータに、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定プログラムであって、前記音源位置推定プログラムは、
    前記演算装置が、位置センサからの測定データにより前記所定空間内の人の位置を推定するステップと、
    前記演算装置が、前記複数の音センサアレイからの複数チャンネルの音源信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するステップと、
    前記演算装置が、前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するステップとを、コンピュータに実行させる、音源位置推定プログラム。
JP2014176949A 2014-09-01 2014-09-01 音源位置推定装置、音源位置推定方法および音源位置推定プログラム Active JP6467736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014176949A JP6467736B2 (ja) 2014-09-01 2014-09-01 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014176949A JP6467736B2 (ja) 2014-09-01 2014-09-01 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Publications (2)

Publication Number Publication Date
JP2016050872A true JP2016050872A (ja) 2016-04-11
JP6467736B2 JP6467736B2 (ja) 2019-02-13

Family

ID=55658471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014176949A Active JP6467736B2 (ja) 2014-09-01 2014-09-01 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Country Status (1)

Country Link
JP (1) JP6467736B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399719A (zh) * 2018-02-02 2018-08-14 北京大学深圳医院 噪音报警提醒装置及系统
JP2019049414A (ja) * 2017-09-07 2019-03-28 本田技研工業株式会社 音響処理装置、音響処理方法及びプログラム
JP2020030376A (ja) * 2018-08-24 2020-02-27 本田技研工業株式会社 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
JP2020038123A (ja) * 2018-09-04 2020-03-12 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
US11062727B2 (en) 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
CN113376576A (zh) * 2020-07-23 2021-09-10 郑州大学 基于小孔径麦克风阵列的声源定位传感器的定位方法
CN113539288A (zh) * 2021-07-22 2021-10-22 南京华捷艾米软件科技有限公司 一种语音信号去噪方法及装置
KR102335765B1 (ko) * 2021-10-06 2021-12-06 주식회사 휴라 전파 측정에 기반하여 무인 항공기를 탐지하기 위한 방법 및 장치
CN114502926A (zh) * 2020-06-09 2022-05-13 东芝三菱电机产业系统株式会社 金属材料加工设备的异响观测系统
JP7184798B2 (ja) 2017-04-14 2022-12-06 シグニファイ ホールディング ビー ヴィ 対象物の位置を決定するための位置決めシステム
US11665391B2 (en) 2021-01-13 2023-05-30 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2005323381A (ja) * 2004-05-07 2005-11-17 Fuji Xerox Co Ltd マイクロホンの位置確認のためのシステム、方法、及びプログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2005323381A (ja) * 2004-05-07 2005-11-17 Fuji Xerox Co Ltd マイクロホンの位置確認のためのシステム、方法、及びプログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石井カルロス寿憲, JANI EVEN, 塩見昌裕, 小泉智史, 萩田紀博: "「複数のマイクロホンアレイによる音源アクティビティ:小学校理科室におけるデータ分析」", 第31回日本ロボット学会学術講演会予稿集DVD-ROM, JPN6018024866, 4 September 2013 (2013-09-04), pages 2 - 01, ISSN: 0003827714 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7184798B2 (ja) 2017-04-14 2022-12-06 シグニファイ ホールディング ビー ヴィ 対象物の位置を決定するための位置決めシステム
JP2019049414A (ja) * 2017-09-07 2019-03-28 本田技研工業株式会社 音響処理装置、音響処理方法及びプログラム
CN108399719B (zh) * 2018-02-02 2024-01-05 北京大学深圳医院 噪音报警提醒装置及系统
CN108399719A (zh) * 2018-02-02 2018-08-14 北京大学深圳医院 噪音报警提醒装置及系统
US11062727B2 (en) 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
US11373355B2 (en) 2018-08-24 2022-06-28 Honda Motor Co., Ltd. Acoustic scene reconstruction device, acoustic scene reconstruction method, and program
JP2020030376A (ja) * 2018-08-24 2020-02-27 本田技研工業株式会社 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
JP7177631B2 (ja) 2018-08-24 2022-11-24 本田技研工業株式会社 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
JP2020038123A (ja) * 2018-09-04 2020-03-12 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
JP7001566B2 (ja) 2018-09-04 2022-02-04 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
CN114502926A (zh) * 2020-06-09 2022-05-13 东芝三菱电机产业系统株式会社 金属材料加工设备的异响观测系统
CN113376576A (zh) * 2020-07-23 2021-09-10 郑州大学 基于小孔径麦克风阵列的声源定位传感器的定位方法
US11665391B2 (en) 2021-01-13 2023-05-30 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing system
CN113539288A (zh) * 2021-07-22 2021-10-22 南京华捷艾米软件科技有限公司 一种语音信号去噪方法及装置
KR102335765B1 (ko) * 2021-10-06 2021-12-06 주식회사 휴라 전파 측정에 기반하여 무인 항공기를 탐지하기 위한 방법 및 장치

Also Published As

Publication number Publication date
JP6467736B2 (ja) 2019-02-13

Similar Documents

Publication Publication Date Title
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Evers et al. The LOCATA challenge: Acoustic source localization and tracking
Brandstein et al. A practical methodology for speech source localization with microphone arrays
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
CN112088315A (zh) 多模式语音定位
JP6240995B2 (ja) 移動体、音響源マップ作成システムおよび音響源マップ作成方法
KR102230667B1 (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
KR20130116299A (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
CN106872945B (zh) 声源定位方法、装置和电子设备
TW201234873A (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP7564117B2 (ja) キューのクラスター化を使用した音声強化
Ishi et al. Using multiple microphone arrays and reflections for 3D localization of sound sources
Marti et al. Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments
Ishi et al. Speech activity detection and face orientation estimation using multiple microphone arrays and human position information
Nakadai et al. Sound source tracking with directivity pattern estimation using a 64 ch microphone array
JP2023550434A (ja) 改良型音響源測位法
Pertilä et al. Multichannel source activity detection, localization, and tracking
Cho et al. Sound source localization for robot auditory systems
Macho et al. Automatic speech activity detection, source localization, and speech recognition on the CHIL seminar corpus
Shivappa et al. Role of head pose estimation in speech acquisition from distant microphones
Blauth et al. Voice activity detection and speaker localization using audiovisual cues
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181227

R150 Certificate of patent or registration of utility model

Ref document number: 6467736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250