JP2016050872A

JP2016050872A - 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Info

Publication number: JP2016050872A
Application number: JP2014176949A
Authority: JP
Inventors: イシイ・カルロス・トシノリ; Carlos Toshinori Ishii; ヤニ・エヴァン; Yani Evan; 萩田紀博; Norihiro Hagita
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2016-04-11
Anticipated expiration: 2034-09-01
Also published as: JP6467736B2

Abstract

【課題】所定の空間内において、誰が、いつ、どこでしゃべっているのかを推定し、記録することが可能な音源位置推定装置を提供する。
【解決手段】音源位置推定装置２０００において、音源方向推定部は、複数のマイクロホンアレイ１０５２.１〜４からの複数チャンネルの信号の各々とマイクロホンアレイに含まれる各マイクの間の位置関係とに基づいて、複数のマイクロホンアレイに音の到来する方向を特定する。音声区間推定部は、複数のマイクロホンアレイ１０５２.１〜４のうち、異なるマイクロホンアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定する。
【選択図】図１

Description

この発明は実環境における音源定位技術に関し、特に、実環境において複数のセンサアレイによる音声の方向性を用いた音源位置の推定技術に関する。

従来、音源方向の検出を行うことで、少数の撮像手段により明瞭な画像を効率的に取得可能な撮像装置などについての提案がある（たとえば、特許文献１）。

この特許文献１には、以下のような技術が開示されている。すなわち、システムには、２個の音源方向検出部が設けられており、音源方向検出部は、それぞれ複数のマイクロホンを備え、各マイクロホンの音声信号の音圧レベルにより音源方向の検出を行う。音源位置推定部は、音源方向検出部で検出された音源方向に基づいて、撮像対象部屋の中の音源位置を幾何学的に推定する。撮像部は、推定された音源位置を指向して撮影するように制御される。撮影された映像データは、画像認識部により画像認識処理される。画像認識部は、被写体（音源）が大きく表示されるように、撮像部のズーム機能を制御する。

このような構成により、音源である人間を含む物体（被写体）の位置を把握することができるため、比較的少ない数の撮像手段により、被写体を明瞭に撮影することが可能となるとともに、撮像装置全体としてのシステムコストが抑制できる。

ただし、このようなシステムは、発話に合せて画像を撮影することに主眼が置かれており、誰が、いつ、どこでしゃべっているのかを推定し、記録することを目的としたものではない。

このような目的に対して、小学校の理科室に複数のマイクロホンアレイと複数のキネクトセンサを設置し、理科の授業が実際に行われたデータを収集した例も報告されている（たとえば、非特許文献１）。

一方で、複数のアレイを用いて音と空間の情報のみから反射音も利用して音源位置を推定する手法などについても提案がある（特許文献２を参照）。

特開２００５−１５１０４２号公報明細書特開２０１４−９８５６８号公報明細書

Ishi， C.， Even， J.， Hagita， N. (2013). "Using multiple microphone arrays and reflections for 3D localization of sound sources，" IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2013)， pp. 3937-3942， Nov.， 2013.

しかしながら、非特許文献１や特許文献２に開示の技術では、発話区間と人との対応付けまでは行っていない。

誰が、いつ、どこでしゃべっているのかを推定する対話行動認識プラットフォームが実現すれば、教室内や会議などのように、複数の人が時に席を移りながら会話や協調作業をする際のデータの観察が容易になることが期待できると期待される。

本発明は、上記のような問題点を解決するためになされたものであって、その目的は、所定の空間内において、誰が、いつ、どこでしゃべっているのかを推定し、記録することが可能な音源位置推定装置を提供することである。

また、本発明の目的は、所定の空間内において、しゃべっている人の顔の向きの推定も可能とする音源位置推定装置を提供することである。

本発明では、複数のマイクロホンアレイを用いて音源方向を推定し、併せて、人位置の推定の情報を用いて人の位置を推定し、これらの情報を統合して音源定位（３次元空間の位置推定）を行う。

この発明の１つの局面に従うと、音源位置推定装置であって、複数の音センサアレイと、所定空間内の人の位置を推定するための人位置推定手段と、音センサアレイ中の各音センサの配置の情報および人の位置情報を格納するための記憶装置と、複数の音センサアレイからの複数チャンネルの信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するための処理を実行する音源定位手段と、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するための音声区間推定手段とを備える。

好ましくは、音声区間推定手段は、音の到来する方向の組ごとに、到来方向の延長線間の最短距離が第１のしきい値以下であることに応じて、最短距離に対応する直線上に音源の候補位置が存在すると推定する。

好ましくは、音声区間推定手段は、音源の候補位置のうち、音の到来方向を特定するのに使用した音センサアレイまでの距離の総和が最小の音源の候補位置を音源位置と推定する。

好ましくは、音声区間推定手段は、推定された音源位置と人の位置とが第２のしきい値以下であることに応じて、発話中の人を推定する。

好ましくは、音声区間推定手段は、発話中の人であると推定された人の位置と対応する音源位置とに応じて、発話中の人の顔の向きを推定する。

好ましくは、音声区間推定手段により推定された発話中の人についての音声を分離して、発話内容と発話者とを関連づけて記録するための音源分離手段をさらに備える。

この発明の他の局面に従うと、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定方法であって、位置センサからの測定データにより所定空間内の人の位置を推定するステップと、複数の音センサアレイからの複数チャンネルの音源信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するステップと、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するステップとを備える。

この発明のさらに他の局面に従うと、演算装置と記憶装置とを有するコンピュータに、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定プログラムであって、音源位置推定プログラムは、演算装置が、位置センサからの測定データにより所定空間内の人の位置を推定するステップと、演算装置が、複数の音センサアレイからの複数チャンネルの音源信号の各々と音センサアレイに含まれる各音センサの間の位置関係とに基づいて、複数の音センサアレイに音の到来する方向を特定するステップと、演算装置が、複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された音の到来する方向の組と人の位置情報とに基づいて、発話中の人を推定するステップとを、コンピュータに実行させる。

この発明によれば、複数のアレイによる音源位置推定と人位置情報を組み合わせて、音声アクティビティを検出するシステムの精度を改善することが可能である。

また、この発明によれば、発話している際の話者の顔の向きも推定することが可能となり、空間内のどのような文脈で発話されたかの手がかりとなり、より高度な対話行動認識が可能となる。

本実施の形態の音源位置推定装置を含む対話行動認識システム１０００の構成を説明するための概念図である。実験を実施した際の環境を示す図である。図１に示した音源位置推定装置２０００の構成の概要を示すブロック図である。音源位置推定装置２０００をコンピュータにより実現した場合の処理のフローを説明するためのフローチャートである。音源方向推定部１０４０の構成を示すブロック図である。最短距離を求める手続きを示す概念図である。コンピュータプログラムを実行するためのコンピュータシステム２０００のハードウェア構成をブロック図形式で示す図である。マイクロホンアレイにおけるマイクの配置を示す図である。マイクロホンアレイの位置と、評価した人の位置情報を示す図である。２名の話者が単独で発話した場合の発話区間検出率の結果を示す図である。顔の向きの推定に関する分析結果を記す図である。顔の向きの推定に関する分析結果を記す図である。顔の向きの推定結果の統計値を示す図である。２名が同時に発声した場合の顔の向きの推定結果を示す図である。

以下、本発明の実施の形態の音源位置推定装置の構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

なお、以下の説明では、音センサとしては、いわゆるマイクロホン、より特定的にはエレクトレットコンデンサマイクロホンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。

実環境では、異なった場所で発生する複数の音が混合して観測されるため、本実施の形態の音源位置推定装置では、以下に説明するように、複数の音源を定位・分離するため、複数のマイクロホンアレイを連携させる。

ここでの「音源定位」とは、音源の方位を継続的に特定することをいい、「音源の位置推定」とは、所定の空間内で、音源定位により特定された音源の方位に基づいて、３次元的な音源の位置を推定することをいう。
［システムの構成］
図１は、本実施の形態の音源位置推定装置を含む対話行動認識システム１０００の構成を説明するための概念図である。

図１を参照して、対話行動認識システム１０００では、所定の空間、たとえば、会議室において、その天井にマイクロホンアレイ１０５２．１および１０５２．２が設置され、会議室内のより床面に近い位置、たとえば、テーブルの上に、マイクロホンアレイ１０５２．３および１０５２．４が設置される。特に、限定されないが、たとえば、マイクロホンアレイ１０５２．１と１０５２．２とを結ぶ方向と、マイクロホンアレイ１０５２．３と１０５２．４とを結ぶ方向とは、直交するように配置されている。

なお、マイクロホンアレイの個数については、このように４個に限定されるものではなく、一般には、複数個であれば、特に制限はない。

会議室内には、たとえば、立った状態で発話している発話者１０．１と、座位で発話している発話者１０．２および１０．３とがいるものとする。

さらに、会議室内には、その３つの隅にそれぞれ、人の位置を検知するためのレーザレンジファインダ（ＬＲＦ：Laser Range Finder）１０１０．１，１０１０．２および１０１０．３（以下、総称するときは、ＬＲＦ１０１０と呼ぶ）が配置されている。なお、レーザレンジファインダは、会議室内の人の位置を推定するための検知装置の一例であって、会議室内の人の位置を検知できるものであれば、他のセンサであってもよく、個数についても、３個に限定されるものではない。

音源位置推定装置２０００は、ＬＲＦ１０１０からのデータを基に人位置の推定を推定するとともに、マイクロホンアレイ１０５２（マイクロホンアレイ１０５２．１〜１０５２．４のように複数のマイクロホンアレイを総称する際には、マイクロホンアレイ１０５２と呼ぶ）により取得された音源の位置とを、経時的に収集し、各音声発話区間を同定して、音声発話期間ごとの発話者を特定する。
［システムの設置環境］
図２は、後に説明するような実験を実施した際の環境を示す図である。

図２に示すように、実験では、複数のマイクロホンアレイを設置した研究室内のミーティングスペースを使用した。マイクロホンアレイは机の上に１６チャンネルのものを２個と、天井に８チャンネルのものを２個設置した。
[音源位置推定のための構成]
図３は、図１に示した音源位置推定装置２０００の構成の概要を示すブロック図である。

図４は、後に説明するように、音源位置推定装置２０００をコンピュータにより実現した場合の処理のフローを説明するためのフローチャートである。

図３および図４を参照して、まず、複数のマイクロホンアレイ１０５２．１〜１０５２．４からの信号に基づいて、それぞれ３次元空間音源方向推定部１０４０．１〜１０４０．４（総称する場合は、音源方向推定部１０４０と呼ぶ）が、それぞれ３次元空間の音源方向推定（方位角および仰角の推定）を行う（Ｓ１０２）。多くの音源定位の研究では、方位角のみが推定されるが、会議室や教室のように人の数が多い場合、同じ方向に複数の音源が存在する確率が高くなり、仰角の推定も重要となる。

音源方向推定部１０４０は、実時間処理で３次元空間での音源方向を５度の空間的分解能および１００msの時間分解能で推定するＭＵＳＩＣ法に基づくシステムである。

音源方向検出には、より高い分解能が望ましいが、３次元空間での探索には処理時間が多くなってしまい、一般のＣＰＵでは実時間処理が難しくなる。そこで、本実施の形態では、上述のとおり、まず、５度の分解能で検出された方向に対し、階層的に、ｉ）３度（探索範囲：-６〜６度）、ｉｉ）２度（探索範囲：-４〜４度）、ｉｉｉ）１度（探索範囲：-３〜３度）というように、順次分解能を上げつつ、最終的な音源方位の推定を行う。

１００msごとに探索する方向の数は、同時に検出された方向の数に比例するが、クロック周波数２．６ＧＨｚのＣＰＵ（Central Processing Unit）でも十分に実時間処理で動作可能である。

人位置推定部１０７０には、上述のとおり、２次元のＬＲＦ１０１０を３台用いて２次元の人位置推定を用いている（Ｓ１０４）。

なお、ＬＲＦを用いた人位置推定の方法については、たとえば、以下の文献に開示がある。

公知文献１：D.F. Glas et al.， ”Laser tracking of human body motion using adaptive shape modeling，” Proceedings of 2007 IEEE/RSJ International Conference on Intelligent Robots and Systems， pp. 602-608， 2007.
音声区間推定部１０８０では、音源方向と人位置情報を基に、後に説明するように、その人が発話しているか否かを判断する（Ｓ１０６）。不揮発性記憶装置２０８０中に記憶された部屋の空間情報とアレイの位置情報を基に、それぞれのマイクロホンアレイから得られた音源方向と、人位置推定部から得られる人の位置情報を重ね合わせる。「部屋の空間情報」とは、たとえば、会議室のような所定の空間内でのマイクロホンアレイの設置位置の情報を含む。なお、特許文献２に記載のように、反射音も利用する場合は、「部屋の空間情報」は、所定の空間の壁、天井の位置に関する情報を含んでいてもよい。

マイクロホンアレイ１０５０に対し、人の方向と空調やエアコンなどの雑音源の方向が重なる場合はまれではなく、誤検出を減らす必要がある。そのため、複数の方向が重なった場合のみを音源候補とし、音源方向の重なりの位置が人の位置と重なれば、その人が発話している確率が高いとみなす。

最後に、音源分離部１０９０は、検出されたそれぞれの音源区間に対し、音源に最も近いマイクロホンアレイを用いて、検出された方向にビームを向けて、音源分離を行い、その音源からの音声を、その発話者からの音声として、不揮発性記憶装置２０８０に記録する（Ｓ１０８）。

続いて、処理の終了が指示されていると判断されば、処理を終結し、処理の終了が指示されていなければ、処理をステップＳ１０２に復帰させて、次の時間ブロックでの処理を行う。
[ＭＵＳＩＣ法による音源方向の推定処理]
図５は、音源方向推定部１０４０の構成を示すブロック図である。音源方向推定部１０４０．１〜１０４０．４の構成は基本的に同様である。

一例として、音源の位置の推定のために、音源の方位を推定するための手法の具体例として、ＭＵＳＩＣ（Multiple Signal Classification）法を例にとって説明する。ただし、音源の方位を推定できる方法であれば、他の手法を用いてもよい。

ＭＵＳＩＣ法の概略について説明すると、まず、高速フーリエ変換により多チャンネルのスペクトルＸ（ｋ，ｔ）をフレーム毎に求め、スペクトル領域でチャンネル間の空間的相関行列Ｒ_kをブロック毎に求め、相関行列の固有値分解により指向性の成分と無指向性の成分のサブ空間を分解し、無指向性のサブ空間に対応する固有ベクトルＥ_k ⁿと、対象の検索空間に応じて予め用意した方向ベクトルａ_k を用いて（狭帯域の）ＭＵＳＩＣ空間スペクトルＰ（ｋ）を周波数ビンごとに求め、特定の周波数帯域内の周波数ビン毎のＭＵＳＩＣ空間スペクトルを統合して広帯域ＭＵＳＩＣ空間スペクトルが求まる。

以下では、広帯域ＭＵＳＩＣ空間スペクトルを単に「ＭＵＳＩＣ空間スペクトル」と呼び、ＭＵＳＩＣ空間スペクトルの時系列を「ＭＵＳＩＣスペクトログラム」を呼ぶ。

音源定位においては、ＭＵＳＩＣ空間スペクトルのピークを探索することにより、音源の方向が求まる。

なお、以下では、マイクロホンアレイが１つである場合を例にとって説明するが、マイクロホンアレイの個数はより多くてもよい。

図５を参照して、音源パワースペクトル取得部１０５０は、マイクロホン１０５２．１〜１０５２．ｐ（ｐ：自然数）を含むマイクロホンアレイＭＣ１から、それぞれｐ個のアナログ音源信号を受け、アナログ／デジタル変換を行なってｐ個のデジタル音源信号をそれぞれ出力するＡ／Ｄ変換器１０５４と、Ａ／Ｄ変換器１０５４からそれぞれ出力されるｐ個のデジタル音源信号を受け、ＭＵＳＩＣ法で必要とされる相関行列とその固有値および固有ベクトルを、所定の時間、たとえば、１００ミリ秒を１ブロックとしてブロックごとに出力するための固有ベクトル算出部６１と、固有ベクトル算出部６１からブロックごとに出力される固有ベクトルを使用し、ＭＵＳＩＣ法によりＭＵＳＩＣ空間スペクトルを出力するＭＵＳＩＣ処理部６２とを含む。音源方向推定部１０６０は、ＭＵＳＩＣ処理部６２が出力するＭＵＳＩＣ空間スペクトルに基づいて、音源の方向（本実施の形態では、３次元極座標の内の２つの偏角φおよびθとする）を推定する。なお、本明細書では、「ＭＵＳＩＣ応答」とは、ＭＵＳＩＣアルゴリズムにより得られるＭＵＳＩＣ空間スペクトルを所定の式で平均化したものである。

特に限定されないが、本実施の形態では、Ａ／Ｄ変換器１０５４は、一般的な１６ｋＨｚ／１６ビットで各マイクロホンの出力をＡ／Ｄ変換する。

また、固有ベクトル算出部６１は、マイクロホンアレイＭＣ１からの信号に基づきＡ／Ｄ変換器１０５４の出力するｐ個のデジタル音源信号を、たとえば、４ミリ秒のフレーム長でフレーム化するためのフレーム化処理部８０と、フレーム化処理部８０の出力するｐチャンネルのフレーム化された音源信号に対してそれぞれＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）を施し、所定個数の周波数領域（以下、各周波数領域を「ビン」と呼び、周波数領域の数を「ビン数」と呼ぶ。）に変換して出力するＦＦＴ処理部８２と、ＦＦＴ処理部８２から４ミリ秒ごとに出力される各チャネルの各ビンの値を、１００ミリ秒ごとにブロック化するためのブロック化処理部８４と、ブロック化処理部８４から出力される各ビンの値の間の相関を要素とする相関行列を所定時間ごと（１００ミリ秒ごと）に算出し出力する相関行列算出部８６と、相関行列算出部８６から出力される相関行列を固有値分解し、固有ベクトル９２をＭＵＳＩＣ処理部６２に出力する固有値分解部８８とを含む。

通常、ＦＦＴでは５１２〜１０２４点を使用する（１６ｋＨｚのサンプリングレートで３２〜６４ミリ秒に相当）が、ここでは１フレームを４ミリ秒（ＦＦＴでは６４〜１２８点に相当）とした。このようにフレーム長を短くすることにより、ＦＦＴの計算量が少なくてすむだけでなく、後の相関行列の算出、固有値分解、およびＭＵＳＩＣ応答の算出における計算量も少なくて済む。その結果、性能を落とすことなく、比較的非力なコンピュータを用いても十分にリアルタイムで音源定位を行なうことができる。

ＭＵＳＩＣ処理部６２は、マイクロホンアレイＭＣ１に含まれる各マイクロホンの位置を所定の座標系を用いて表す位置ベクトルを記憶するためのマイク配置記憶部１００と、マイク配置記憶部１００に記憶されているマイクロホンの位置ベクトル、および固有値分解部８８から出力される固有ベクトルを用いて、音源数が固定されているものとしてＭＵＳＩＣ法によりＭＵＳＩＣ空間スペクトルを算出し出力するＭＵＳＩＣ空間スペクトル算出部１０４とを含む。

ブロックごとに得られる相関行列の固有値が音源数に関連することは、例えば、以下の文献にも記載されており、既に知られている事項である。

公知文献２：Ｆ．アサノら、「リアルタイム音源定位及び生成システムと自動音声認識におけるその応用」、Ｅｕｒｏｓｐｅｅｃｈ，２００１、アールボルグ、デンマーク、２００１、１０１３−１０１６頁（F. Asano， M. Goto， K. Itou， and H. Asoh， ”Real-time sound source localization and separation system and its application on automatic speech recognition，” in Eurospeech 2001， Aalborg， Denmark， 2001， pp. 1013-1016）
なお、本実施の形態では、各音源の２次元的な方位角だけでなく、仰角も推定する。そのために、ＭＵＳＩＣアルゴリズムとしては、３次元での計算が可能なものを実装する。方位角と仰角とのセットを、これ以降、音源方位（ＤＯＡ）と呼ぶ。ＭＵＳＩＣ処理部６２で実行されるアルゴリズムでは、音源までの距離は推定しない。音源方位のみを推定するようにすることで、処理時間を大幅に減少させることができる。

ＭＵＳＩＣ処理部６２はさらに、ＭＵＳＩＣ空間スペクトル算出部１０４により算出されたＭＵＳＩＣ空間スペクトルに基づいて、ＭＵＳＩＣ法にしたがいＭＵＳＩＣ応答と呼ばれる値を各方位について算出し出力するためのＭＵＳＩＣ応答算出部１０６を含む。

音源方向推定部１０６０は、ＭＵＳＩＣ応答算出部１０６により算出されたＭＵＳＩＣ応答のピークを、一時的に時系列に所定数だけＦＩＦＯ形式でそれぞれ蓄積するためのバッファ１０８を含む。さらに、音源方向推定処理部１１０は、バッファ１０８に蓄積された各ブロックの各探索点のＭＵＳＩＣ応答について、音源の方向（上述した２つの偏角φおよびθ）を推定する。

ここで、ＭＵＳＩＣ法では、狭帯域ＭＵＳＩＣ空間スペクトルの推定において、その時刻に発している指向性を持つ音源数（ＮＯＳ）を与える必要があるが、以下の説明では、固定数を与え、ＭＵＳＩＣ空間スペクトル上で、特定の閾値を超えたピークのみを指向性のある音源とみなすものとして説明する。
（ＭＵＳＩＣ法）
以下、上述した３次元での方位を算出するＭＵＳＩＣ法について、簡単にまとめる。

たとえば、Ｍ個のマイク入力のフーリエ変換Ｘｍ（ｋ、ｔ）は、式（Ｍ１）のようにモデル化される。

ただし、ベクトルｓ（ｋ、ｔ）はＮ個の音源のスペクトルＳ_n（ｋ、ｔ）から成る（ｎ＝１，…，Ｎ）。

すなわち、ｓ（ｋ、ｔ）＝［Ｓ₁（ｋ、ｔ）、…、Ｓ_N（ｋ、ｔ）］^Tである。ここで、ｋとｔはそれぞれ周波数と時間フレームのインデックスを示す。ベクトルｎ（ｋ、ｔ）は背景雑音を示す。行列Ａ_ｋは変換関数行列であり、その（ｍ、ｎ）要素はｎ番目の音源から、ｍ番目のマイクロホンへの直接パスの変換関数である。Ａ_ｋのｎ列目のベクトルをｎ番目の音源の位置ベクトル（ＳｔｅｅｒｉｎｇＶｅｃｔｏｒ）と呼ぶ。

まず、式（Ｍ２）で定義される空間相関行列Ｒ_ｋを求め、式（Ｍ３）に示すＲｋの固有値分解により、固有値の対角行列Λ_ｋおよび固有ベクトルから成るＥ_ｋが求められる。

固有ベクトルはＥ_ｋ＝［Ｅ_ｋｓ｜Ｅ_ｋｎ］のように分割出来る。Ｅ_ｋｓとＥ_ｋｎとはそれぞれ支配的なＮ個の固有値に対応する固有ベクトルと、それ以外の固有ベクトルとを示す。

ＭＵＳＩＣ空間スペクトルは式（Ｍ４）と（Ｍ５）とで求める。ｒは距離、θとφとはそれぞれ方位角と仰角とを示す。式（Ｍ５）は、スキャンされる点（ｒ、θ、φ）における正規化した位置ベクトルである。

ＭＵＳＩＣ応答（パワーに相当）は、ＭＵＳＩＣ空間スペクトルを式（Ｍ６）のように平均化したものである。

式（Ｍ６）においてｋ_Lおよびｋ_Hは、それぞれ周波数帯域の下位と上位の境界のインデックスであり、Ｋ＝ｋ_H−ｋ_L＋１である。マイクロホンアレイに到来する音の方位は、ＭＵＳＩＣ応答のピークを探索することにより求められる。

なお、上述したとおり、音の到来方向の推定アルゴリズムとしては、ＭＵＳＩＣ法を用いることも、一方で、他の方法、たとえば、ステアード応答パワー法を用いることも可能である。

たとえば、ステアード応答パワー法については、以下の文献に開示がある。

公知文献３：M. Brandstein and H. Silverman， ”A robust method for speech signal time-delay estimation in reverberant rooms，” in IEEE Conference on Acoustics， Speech， and Signal Processing， ICASSP 1997， 1997， pp. 375-378.
公知文献４：A. Badali， J.-M. Valin， F. Michaud， and P. Aarabi， ”Evaluating realtime audio localization algorithms for artificial audition on mobile robots，” in Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems， IROS 2009， 2009， pp. 2033-2038.
［音声区間推定部１０８０の処理］
次に、音声区間推定部１０８０において、マイクロホンアレイから得られた音源方向により、音源候補の位置を推定する処理について、以下、説明する。

複数のマイクロホンアレイから検出された複数の方向をペア毎に評価する。２つの方向（dir_１、 dir_２）が３次元空間で交差しているかを判断するため、まず次式により、最短距離（dist_dir）を計算する。

ここで、v_１、 v_２は各方向に平行したベクトル、p_１、 p_２は各アレイの位置を示す。

図６は、このような最短距離を求める手続きを示す概念図である。

図６に示すように、点p₁を通りベクトルv_１と平行な直線ｌ₁をパラメータｔによるパラメータ表示により、ｘ＝ｐ₁＋tｖ₁で表し、点ｐ₂を通りベクトルv₂と平行な直線ｌ₂をパラメータuによるパラメータ表示により、ｘ＝ｐ₂＋uｖ₂で表すものとする。

直線ｌ₂と平行で、直線ｌ₁を含む平面α：（ｎ・ｘ）＋ｄ＝０を考える。

平面αの法線は、２直線ｌ₁およびｌ₂に垂直となるので、法線ベクトルｎは、２直線の方向ベクトルの外積としてｎ＝（v_１×v₂）／｜v_１×v₂｜となる。

また、平面αは、直線ｌ₁上の点p₁を含むので、ｄ＝−（ｎ・ｐ₁）となる。

したがって、平面αは、以下の式で表される。

さて、直線ｌ₂と平面αとの距離をｈとすれば、直線ｌ₁上の点Ｐと直線ｌ₂上の点Ｑとの距離ＰＱは、常に、距離ｈ以上の大きさとなる。言い換えれば、ＰＱの最小値、すなわち、dist_dirは、点ｐ₂と平面αとの距離として、上述した式（１）で表されることになる。

すなわち、ｈ＝dist_dir（dir_１、 dir_２）が成り立つ。

ここで、音声区間推定部１０８０は、この最短距離dist_dirが、以下に示すように、所定の閾値（dist_dir-th）よりも小さい場合、２つの方向は交差しているとみなす。

特に限定されないが、後に説明する実験では、dist_dir-th を２０cmとする。

方向が交差していると判断された方向ペアに対し、音声区間推定部１０８０は、音源の位置（pos_source）を以下の式により推定する。

ここで、pos_n は、最短距離に対する直線が各アレイからの音源方向を描いた直線と交わる座標点を示す。

次に、音声区間推定部１０８０は、上述の処理により、すべての方向ペアを評価して得られた音源位置の候補に対し、人位置との重なりを評価する。

音源方向の重なりによる音源位置と人位置の重なりにおいては、人位置検出が２次元であるため、２次元での距離（図１でのｘｙ平面内での距離）を評価する。すなわち、音声区間推定部１０８０は、検出された各人位置と各音源位置候補の２次元距離を計算し、以下の数式（４）のように、２次元距離が閾値よりも小さい場合、その人が発話しているとみなす。

ここでも、特に限定されないが、後に説明する実験では、位置誤差の評価には、閾値（dist_pos-th）を３０cmと設定するものとする。

人位置推定は、２次元で身長の情報は得られないが、音源位置推定は３次元で求められるため、人の口元の位置を考慮した制限が可能となる。口元の位置は、人が座っている場合と立っている場合を想定し、音源位置の高さが、所定の範囲、たとえば、ｚ＝８０〜１７０cmの範囲内である場合のみ、音声区間推定部１０８０は、その人が発話している確率が高いとみなす。

人位置は３３〜６６msごとに推定され、音源方向は１００msごとに推定されるため、音声区間推定部１０８０は、１００msの時間分解能で音声区間を検出する。

さらに、音声区間推定部１０８０は、３００ms（３ブロック）以下の区間で、音声アクティビティが有りと判定されたブロックに挟まれた場合は、その区間のマージングを行う。また、音声区間推定部１０８０は、このようなマージング後の音声区間の前後２００msに対してプリロール（pre-roll）期間とアフターロール（after-roll）期間を追加したものを検出された発話区間とする。

さらに、音声区間推定部１０８０は、人の口元は人体の正中矢状面と正中冠状面の交点よりも前寄りに位置していることを考慮し、本実施の形態では、後に説明するように、顔の向きの推定も行う。

音源位置と人位置の距離が閾値（distpos-th）より小さい音源位置候補のうち、音源方向が推定された複数のマイクロホンアレイとの総距離が最も小さいものを音源位置のベスト候補とする。すなわち、２つのマイクロホンアレイからの音源方向推定により音源位置候補が特定されている場合、音源位置候補と各マイクロホンアレイとの「距離の和」を求める。同一の人位置について複数の音源候補位置がある場合は、このような「距離の和」のうち、もっとも小さな距離の和に対応する音源候補位置（すなわち、その人位置からより近いマイクロホンアレイにより推定された音源候補位置）をベスト候補として選択して、その人位置とベスト音源位置を結ぶベクトルの方向を、その人のその発話区間での「顔の向き」とする。

最後に、音源分離部１０９０は、検出されたそれぞれの発話区間に対し、音源に最も近いマイクロホンアレイを用いて、検出された方向にビームを向けて、音源分離を行い、その音源からの音声を、その発話者からの音声として、たとえば、当該発話区間と関連づけて、不揮発性記憶装置２０８０に記録する。
［コンピュータによる実現］
音源位置推定装置２０００の音源方向推定部１０４０、音声区間推定部１０８０および音源分離部１０９０の処理は、実際にはコンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより、ハードウェアとソフトウェアとの協働により実現される。以下、これらの機能を実現するためのコンピュータプログラムの動作について簡単に説明する。

図７は、このようなコンピュータプログラムを実行するためのコンピュータシステム２０００のハードウェア構成をブロック図形式で示す図である。

図７に示されるように、このコンピュータシステム２０００を構成するコンピュータ本体２０１０は、ディスクドライブ２０３０およびメモリドライブ２０２０に加えて、それぞれバス２０５０に接続されたＣＰＵ（Central Processing Unit ）２０４０と、ＲＯＭ（Read Only Memory)２０６０およびＲＡＭ（Random Access Memory）２０７０を含むメモリと、不揮発性の書換え可能な記憶装置、たとえば、ハードディスク２０８０と、ネットワークを介しての通信を行うための通信インタフェース２０９０と、マイクロホンアレイＭＣ１およびＭＣ２と信号の授受を行うための音声入力インタフェース２０９２とを含んでいる。ディスクライブ２０３０には、ＣＤ−ＲＯＭ２２００などの光ディスクが装着される。メモリドライブ２０２０にはメモリカード２２１０が装着される。

音源位置推定装置２０００の音源方向推定部１０４０、音声区間推定部１０８０および音源分離部１０９０の処理のプログラムが動作するにあたっては、その動作の基礎となる情報を格納するデータベースは、ハードディスク２０８０に格納されるものとして説明を行う。

なお、図７では、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体として、ＣＤ−ＲＯＭ２２００を想定しているが、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（Digital Versatile Disc）などでもよく、あるいは、メモリカードやＵＳＢメモリなどでもよい。その場合は、コンピュータ本体２２００には、これらの媒体を読取ることが可能なドライブ装置が設けられる。

音源位置推定装置２０００の主要部は、コンピュータハードウェアと、ＣＰＵ２０４０により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ２２００等の記憶媒体に格納されて流通し、ディスクドライブ２０３０等により記憶媒体から読取られてハードディスク２０８０に一旦格納される。または、当該装置がネットワーク３１０に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク２０８０にコピーされる。そうしてさらにハードディスク２０８０からメモリ中のＲＡＭ２０７０に読出されてＣＰＵ２０４０により実行される。なお、ネットワーク接続されている場合には、ハードディスク２０８０に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

音源位置推定装置２０００として機能するためのプログラムは、コンピュータ本体２０１０に、情報処理装置等の機能を実行させるオペレーティングシステム（ＯＳ）は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム２０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

さらに、ＣＰＵ２０４０も、１つのプロセッサであっても、あるいは複数のプロセッサであってもよい。すなわち、シングルコアのプロセッサであっても、マルチコアのプロセッサであってもよい。

なお、音源位置推定装置２０００のプログラムの動作の基礎となる情報を格納するデータベースは、インタフェース２０９０を介して接続される外部の記憶装置内に格納されていてもよい。たとえば、ネットワークを介して外部サーバに接続している場合は、動作の基礎となる情報を格納するデータベースは、外部サーバ内のハードディスク（図示せず）等の記憶装置に格納されていてもよい。この場合は、コンピュータ２０００はクライエント機として動作し、このようなデータベースのデータをネットワークを介して外部サーバとやり取りする。
[実験結果]
（１）データ収集
上述のとおり、実験は、図２に示したような、複数のマイクロホンアレイを設置した研究室内のミーティングスペースで実施した。

マイクロホンアレイは机の上に１６チャンネルのものを２個と、天井に８チャンネルのものを２個設置した。

図８は、マイクロホンアレイにおけるマイクの配置を示す図である。

図８（ａ）の平面図および図８（ｂ）の側面図に示すように、１６チャンネルのアレイの形状は直径３０cmの半球面上に配置するようにアレイフレームを作成した。８チャンネルのアレイは１５cmの円形上に均等にマイクを配置した形状である。

図９は、マイクロホンアレイの位置と、評価した人の位置情報を示す図である。

図９において、中央の長方形はテーブルを示す。

テーブル上のアレイの高さはz=７３０mm、天井のアレイはz=２６９０mmである。テーブルの周り１０か所（P１〜P１０）において、座った条件と立った条件で発声したデータを収集した。

話者２名（男女各１名）が、各位置で４方向（前：F、左：L、後ろ：B、右：R）を向いて、「顔の向きを検出する実験を行っています」という文を発声した。
（評価結果：単独で発話した場合）
まず、図１０は、２名の話者（女性F１および男性M１）が単独で発話した場合の発話区間検出率（precision およびrecall）の結果を示す図である。

ここで、“precision”とは、正誤を含めて発話区間であると判定された中（実際には発話区間であり、かつ、発話区間と判例された区間、および、実際には非発話区間であり、かつ、発話区間と判例された区間）に、どれだけ、正しい発話区間が含まれているかを示し、“recall”とは、正しく発話区間の判定がされた中（実際には発話区間であり、かつ、発話区間と判例された区間、および、実際には非発話区間であり、かつ、非発話区間と判例された区間）において、どれだけの区間が正しい発話区間であるかを示す。

発話区間検出において、各位置において、方向がすべてのアレイに背いている向き（例えば位置P１の後ろ向きB、位置P２の右向きRなど）は、音源方向推定の精度が低いことが予想されるため、これらの条件を除外した場合の結果も記載する。

図１０では、すべてのデータを用いた結果を”all data”に示し、テーブルに背く方向を除外した結果を”excluding outside direction”として示す。

まず、すべてのデータに対する結果（”all data”）は、話者F１（女性）の場合９６%の検出率で話者M１（男性）の場合は８３%であった。この結果に対し、テーブルに背く場合を除外した結果（”excluding outside direction”）では、いずれの話者も９７%以上という高い検出率が得られた。

また、precisionとrecallの値にほとんど差がみられず、挿入誤りが少ないことが示された。これは複数の音源が重なった位置にのみ音源が存在する候補として扱っていることが効いていると考えられる。

次に、図１１および図１２は、顔の向きの推定に関する分析結果を記す図である。

図１１および図１２では、白丸はマイクロホンアレイの位置を示し、図９に示した位置Ｐ２で４方向（（ａ）〜（ｄ）の順に、Ｆ，Ｌ，Ｂ，Ｒ）に発声した際の音源方向推定結果と検出された向き（黒い矢印）を示す。

人がいない方向を差している線は、天井の空調やエアコンなどの雑音源に対応する。

図１１および図１２の例より、顔の向きによって、複数のアレイで検出された音源方向が交差する位置が人位置の中心点より顔を向いた方向にずれていることが分かる。

また、この人位置の中心点から音源方向の交差する位置へ向かう方向として推定される顔の向きについても、少なくとも、４方向の区別は可能であることがわかる。

図１３は、顔の向きの推定結果の統計値を示す図である。

図１３に示される結果より、顔の向きの推定誤差の平均値は、いずれの条件でも０度に近く、正しい向きの周辺で推定がばらついていることとなる。ばらつきについては、全データ（”all data”）の場合、標準偏差が３０度前後であり、アレイに背いている条件を除外する場合（”excluding outside direction”）は２０度前後となっている。この結果より、発話中に少なくとも、前後左右の識別は可能であることが確認できる。
（評価結果：複数人が同時に発話した場合）
次に、２名が同時に発声した場合の結果について説明する。

２名が同時に同じ文を発声した際の位置は、(P１０;P１)、 (P１０; P２)、 (P９;P２)、 (P１;P３)、 (P２;P４)、 (P４、P５) の６つの組み合わせで評価した。顔の向きは指定せず、ミーティングの場を想定してお互いに向けて発話するような自然な向きで発声するよう指示した。

発話区間検出においては、条件の数は少ないが、９８%の検出率が得られ、２名同時発話でも精度よく発話区間検出が可能であることが示された。

図１４は、２名が同時に発声した場合の顔の向きの推定結果を示す図である。

図１４に示されるように、顔の向きにおいては、図１４（ａ）の例では、話者間が１メートル程度で横並びに座っている状態であるが、お互いに向けた発話でも面向かって発話しないことが導ける。一方、図１４（ｂ）は、テーブルの隣接する２辺に話者がいる状態であり、お互いの方向を向いて発話しているのがわかる。

また、４名がミーティングテーブルの周りで同時に発話した場合も、問題なく発話区間検出が可能であることを確認した。また、テーブルの周りを歩きながら発話するデータも収集し、移動中の場合も、発話区間および顔の向きも正しく動作することを確認した。

以上説明したように、本実施の形態の対話行動認識システム１０００によれば、複数のアレイによる音源位置推定と人位置情報を組み合わせて、音声アクティビティを検出するシステムの精度を改善することが可能である。

また、対話行動認識システム１０００によれば、発話している際の話者の顔の向きも推定することが可能となり、空間内のどのような文脈で発話されたかの手がかりとなり、より高度な対話行動認識が可能となる。

なお、以上の説明では、対話行動認識システム１０００は、教室内や会議などのように、複数の人が時に席を移りながら会話や協調作業をする際のデータの観察を行うためのシステムとして説明した。ただし、たとえば、会議の場面を想定すると、会議中に発話した人およびその人の発話の内容を特定することが可能となる。この場合、発話の内容を音声認識技術によりテキスト文に変換すれば、自動的に議事録を作成するシステムに応用することも可能である。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

６１固有ベクトル算出部、６２ＭＵＳＩＣ処理部、８６相関行列算出部、８８固有値分解部、１０６ＭＵＳＩＣ応答算出部、１１０音源方向推定処理部、１０４０音源方向推定部、１０５０音源パワースペクトル取得部、１０６０音源方向推定部、１０８０音声区間推定部、１０７０人位置推定部、１０９０音源分離部、ＭＣ１，ＭＣ２マイクロホンアレイ。

Claims

複数の音センサアレイと、
所定空間内の人の位置を推定するための人位置推定手段と、
前記音センサアレイ中の各音センサの配置の情報および人の位置情報を格納するための記憶装置と、
前記複数の音センサアレイからの複数チャンネルの信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するための処理を実行する音源定位手段と、
前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するための音声区間推定手段とを備える、音源位置推定装置。
前記音声区間推定手段は、前記音の到来する方向の組ごとに、到来方向の延長線間の最短距離が第１のしきい値以下であることに応じて、前記最短距離に対応する直線上に前記音源の候補位置が存在すると推定する、請求項１記載の音源位置推定装置。
前記音声区間推定手段は、前記音源の候補位置のうち、前記音の到来方向を特定するのに使用した前記音センサアレイまでの距離の総和が最小の音源の候補位置を音源位置と推定する、請求項２記載の音源位置推定装置。
前記音声区間推定手段は、推定された前記音源位置と前記人の位置とが第２のしきい値以下であることに応じて、発話中の人を推定する、請求項３記載の音源位置推定装置。
前記音声区間推定手段は、発話中の人であると推定された前記人の位置と対応する前記音源位置とに応じて、発話中の人の顔の向きを推定する、請求項４記載の音源位置推定装置。
前記音声区間推定手段により推定された発話中の人についての音声を分離して、発話内容と発話者とを関連づけて記録するための音源分離手段をさらに備える、請求項１〜５のいずれか１項に記載の音源位置推定装置。
複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定方法であって、
位置センサからの測定データにより前記所定空間内の人の位置を推定するステップと、
前記複数の音センサアレイからの複数チャンネルの音源信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するステップと、
前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するステップとを備える、音源位置推定方法。
演算装置と記憶装置とを有するコンピュータに、複数の音センサアレイからの信号と推定された人位置とに基づいて、所定の空間内での発話者を推定する音源位置推定プログラムであって、前記音源位置推定プログラムは、
前記演算装置が、位置センサからの測定データにより前記所定空間内の人の位置を推定するステップと、
前記演算装置が、前記複数の音センサアレイからの複数チャンネルの音源信号の各々と前記音センサアレイに含まれる各音センサの間の位置関係とに基づいて、前記複数の音センサアレイに音の到来する方向を特定するステップと、
前記演算装置が、前記複数の音センサアレイのうち、異なる音センサアレイでそれぞれ特定された前記音の到来する方向の組と前記人の位置情報とに基づいて、発話中の人を推定するステップとを、コンピュータに実行させる、音源位置推定プログラム。