JP2015050610A

JP2015050610A - 音響処理装置、音響処理方法、及び音響処理プログラム

Info

Publication number: JP2015050610A
Application number: JP2013180672A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 圭佑中村; Keisuke Nakamura; ラナシナパヤ; Sinapayen Lana; 今井　倫太; Michita Imai; 倫太今井
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2015-03-16
Anticipated expiration: 2033-08-30
Also published as: US20150063069A1; US9664772B2; JP6030032B2

Abstract

【課題】小型化した音響処理装置で３次元の音源方向推定が行える音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。
【解決手段】音響処理装置は、音響信号を収録する収音部と、自装置の傾きに関する傾き情報を取得する傾き情報取得部と、収音部が収録した少なくとも２つの時刻における音響信号に基づいて、収音部が配置されている面内の音源の方位角を推定する方位角推定部と、傾き情報取得部が取得した傾き情報と、方位角推定部が推定した少なくとも２つのフレームにおける方位角とに基づいて、収音部が配置されている面を基準とした音源の仰角を推定する仰角推定部と、を備える。
【選択図】図２

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。

音源の方向や位置を定位し、定位した音源情報を利用者に報知するシステムが提案されている（例えば、特許文献１参照）。特許文献１に記載の技術では、８個のマイクロホンで採取し、採取した音データについてマイクロホンのペア間での相互相関に基づいて音源の定位を行っている。また、特許文献１に記載の技術では、７個の通常のマイクロホンと１個のサラウンド用マイクロホンを備え、７個のマイクロホンが、球状の形をした台に取り付けられている。

また、音の到着時間差を用いて、２次元の音源位置推定を行う場合は、例えば３本以上のマイクロホンが必要になる。このような３本のマイクロホンは、同一平面上に配置される。そして、音の到着時間差を用いて、３次元の音源位置推定を行う場合は、例えば４本以上のマイクロホンが必要になる。このような４本のマイクロホンは、同一平面上に存在しないように配置される。

特開２００８−１９７６５０号公報

しかしながら、上述した技術では、複数のマイクロホンが３次元的に配置されているため、音データ取得部または音源定位装置が大型化してしまうという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、小型化した音響処理装置で３次元の音源方向推定が行える音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る音響処理装置は、音響信号を収録する収音部と、自装置の傾きに関する傾き情報を取得する傾き情報取得部と、前記収音部が収録した少なくとも２つの時刻における前記音響信号に基づいて、前記収音部が配置されている面内の音源の方位角を推定する方位角推定部と、前記傾き情報取得部が取得した前記傾き情報と、前記方位角推定部が推定した少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定部と、を備えることを特徴としている。

（２）本発明に係るその他の様態は、前記仰角推定部が、前記傾き情報取得部によって取得された前記傾き情報に基づいて世界座標系から自装置における座標系への回転行列を算出し、算出した前記回転行列と、前記方位角推定部が推定した少なくとも２つの時刻における前記方位角とに基づいて、前記音源の仰角を推定することを特徴とする（１）の音声処理装置である。

（３）本発明に係るその他の様態は、前記仰角推定部が、複数の時刻に渡って推定した仰角を平滑化して、平滑化した値を音源の仰角として決定することを特徴とする（１）または（２）の音声処理装置である。

（４）本発明に係るその他の様態は、画像を表示する表示部と、前記仰角推定部が推定した前記仰角を示す画像を生成して、生成した前記画像を前記表示部に表示する画像処理部と、を備えることを特徴とする（１）から（３）のいずれか１つの音声処理装置である。

（５）本発明に係るその他の様態は、前記画像処理部が、前記方位角推定部が推定した方位角を示す画像を生成して、生成した前記画像を前記表示部に表示する
ことを特徴とする（４）の音声処理装置である。

（６）本発明に係るその他の様態は、画像を撮影する撮像部を備え、前記画像処理部は、少なくとも前記仰角を示す画像を前記撮像部が撮像した前記画像に合成して前記表示部に表示させることを特徴とする（４）または（５）の音声処理装置である。

（７）本発明に係るその他の様態は、前記画像処理部が、前記方位角推定部が推定した方位角または前記仰角推定部が推定した前記仰角に基づいた速さで変化する画像を生成することを特徴とする（６）の音声処理装置である。

（８）本発明に係るその他の様態は、音響信号を再生する音響再生部と、音源毎の音響信号のうち、利用者によって選択された音源を示す選択情報を取得する操作情報取得部と、を備え、前記方位角推定部は、前記収音部が収録した音響信号を前記音源毎の音響信号に分離し、分離した音源毎の音響信号に基づいて、音源の前記方位角を推定し、分離した前記音響信号のうち、前記操作情報取得部が取得した前記選択情報に対応する音響信号を前記音響再生部から再生することを特徴とする（１）から（７）のいずれか１つの音声処理装置である。

（９）上記目的を達成するため、本発明の一態様に係る音響処理方法は、収音部が、音響信号を収録する収音手順と、傾き情報取得部が、自装置の傾きに関する傾き情報を取得する傾き情報取得手順と、方位角推定部が、前記収音手順によって収録された少なくとも２つの時刻における前記音響信号に基づいて、前記収音部が配置されている面内の音源の方位角を各々推定する方位角推定手順と、仰角推定部が、前記傾き情報取得手順によって取得された前記傾き情報と、前記方位角推定手順によって推定された少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定手順と、を含むことを特徴としている。

（１０）上記目的を達成するため、本発明の一態様に係る音響処理プログラムは、音響処理装置のコンピュータに、音響信号を収録する収音手順と、自装置の傾きに関する傾き情報を取得する傾き情報取得手順と、前記収音手順によって収録された少なくとも２つの時刻における前記音響信号に基づいて、収音部が配置されている面内の音源の方位角を各々推定する方位角推定手順と、前記傾き情報取得手順によって取得された前記傾き情報と、前記方位角推定手順によって推定された少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定手順と、を実行させることを特徴としている。

上述した（１）、（９）又は（１０）の構成によれば、小型化した音響処理装置で３次元の音源方向推定することができる。
本発明の態様（２）によれば、小型化した音響処理装置で、音源の仰角を推定することができる。
本発明の態様（３）によれば、２つの時刻において取得された音響信号と姿勢情報を用いる方法に比べて、外乱に頑健に方位角と仰角を推定することができる。
本発明の態様（４）または（５）によれば、方位角音源定位部が推定した方位角と、仰角推定部が推定した仰角とを、直感的に認知しやすい画像として表示することができる。
本発明の態様（６）によれば、撮像部が撮像した画像に音源の方向を合成して表示部に表示させるため、利用者は、直感的に音源の方向を認知しやすくなる。
本発明の態様（７）によれば、表示部上に表示される画像により、利用者は、音響処理装置に対して音源がある方向を直感的に知ることができる。そして、利用者は、この表示に応じて音響処理装置を移動させることで、音源の方向を知ることができる。
本発明の態様（８）によれば、利用者によって選択された所望の音源の音響信号を再生することができる。

第１実施形態に係る音響処理システムの配置例を示す図である。第１実施形態に係る音声処理装置の構成を示すブロック図である。第１実施形態に係る世界座標系を説明する図である。第１実施形態に係る第ｆフレームにおけるデバイス座標系を説明する図である。第１実施形態に係る第ｆ＋１フレームにおけるデバイス座標系を説明する図である。第１実施形態における音響処理装置の処理手順のフローチャートである。第１実施形態に係るマイクロホンの他の配置例を説明する図である。第２実施形態に係る音響処理装置の構成を示すブロック図である。第２実施形態に係る最適化処理を説明する図である。第２実施形態における音響処理装置の処理手順のフローチャートである。第３実施形態に係る音響処理装置の構成を示すブロック図である。第３実施形態に係る表示部に表示される画像の例を説明する図である。第３実施形態に係る撮像部が撮影した画像に音源の方向を示す情報に基づく画像を合成して表示部に表示する画像を説明する図である。第３実施形態に係る複数の音源が検出された場合の表示例を説明する図である。第４実施形態に係る音響処理装置１０の構成を示すブロック図である。第４実施形態に係る音源が選択されたときの表示部に表示される画像の一例を説明する図である。第５実施形態に係る音響処理装置の構成を示すブロック図である。第５実施形態に係るリング画像の表示例を説明する図である。第５実施形態に係るリング画像の表示例を説明する図である。実験結果における距離とエラーの関係を説明する図である。

まず、本発明の概要を説明する。
本発明の音響処理装置は、例えば、２次元に配置されているマイクロホンによって音響信号を収録する。また、音響処理装置は、例えば地磁気センサと加速度センサを備え、当該地磁気センサと加速度センサが検出した自装置の回転角を取得する。そして、音響処理装置は、収録した音響信号に基づいて、フレーム毎に音源の方向（方位角、仰角）を推定する。なお、フレームとは、予め定められた時間またはサンプルの長さ（フレーム長）の時間間隔、またはその時間間隔に含まれる信号である。フレーム長は、例えば、１０［ｍｓｅｃ］である。音響処理装置は、例えば、携帯電話、タブレット端末、携帯ゲーム機等の携帯端末である。

［第１実施形態］
以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る音響処理システム１の配置例を示す図である。図１に示すように、音響処理システム１は、音響処理装置１０及び８個のマイクロホン２０１を備えている。図１に示すように、８個のマイクロホン２０１は、音響処理装置１０の略周辺部に取り付けられている。なお、図１に示したマイクロホン２０１の個数及び配置は一例であり、マイクロホン２０１の個数及び配置はこれに限られない。

この配置例では、音響処理装置１０の短手方向をｘ軸方向、長手方向をｙ軸方向、厚方向をｚ軸方向とする。また、図１のように、ｙ軸方向の紙面において右側を音響処理装置１０の前方向とする。なお、図１に示した例は一例であり、音響処理装置１０の前方向は、ｙ軸方向の紙面において上方向であってもよい。マイクロホン２０１は、図１のように、音響処理装置１０の表面であるｘｙ平面内に配置されている。
ｘｙ平面における角度θ_ａは、音響処理装置１０の前方向に対する音源Ｓｐの方位角（ａｚｉｍｕｔｈ）である。また、ｘｙｚ空間におけるｘｙ平面からの角度θ_ｅは、音響処理装置１０の前方向に対する音源Ｓｐの仰角（ｅｌｅｖａｔｉｏｎａｎｇｌｅ）である。なお、音源Ｓｐは、発話者、音響信号を発するスピーカ等である。なお、音源の方位角は、例えば、８個のマイクロホン２０１の位置の重心点から、当該８個のマイクロホン２０１のうち予め定めた１個のマイクロホン２０１への方向を基準とした、水平面（ｘｙ平面）内の方向である。また、音源の仰角は、マイクロホン２０１が配置されているｘｙ平面を基準としたｘｙｚ空間における方向である。

次に、本実施形態に係る音響処理装置１０の構成について説明する。
図２は、本実施形態に係る音響処理装置１０の構成を示すブロック図である。図２に示すように、音響処理装置１０は、取得部１０１、音響信号取得部１０２、方位角音源定位部（方位角推定部）１０３、記憶部１０４、仰角推定部１０５、画像処理部１０６、及び表示部１０７を備えている。また、音響処理装置１０には、収音部２０及びセンサ３０が接続されている。

収音部２０は、Ｎ個（Ｎは１よりも大きい整数、例えば８個）のチャネルの音響信号を収録し、収録したＮチャネルの音響信号を音響処理装置１０に送信する。収音部２０は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の成分を有する音波を受信するＮ個のマイクロホン２０１を備えている。Ｎ個のマイクロホン２０１が、例えば図１に示した位置に配置されている。収音部２０は、収録したＮチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｎが１よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。

センサ３０は、音響処理装置１０のｘ軸（図１参照）回りのピッチ（ｐｉｔｃｈ）、ｙ軸回りのロール（ｒｏｌｌ）、ｚ軸回りのヨー（ｙａｗ）を検出し、検出したピッチとロールとヨーとを回転角情報として音響処理装置１０に出力する。センサ３０は、例えば地磁気センサと加速度センサである。または、センサ３０は、音響処理装置１０の角速度を検出し、検出した角速度を音響処理装置１０に出力する。角速度を検出するセンサ３０は、例えば３軸のジャイロセンサである。なお、センサ３０が検出するピッチとロールとヨーは、図１に示した装置における座標系（以下、デバイス座標系という）ではなく、世界座標系における値である。また、本発明において傾き情報とは、回転角情報または角速度情報である。
取得部（傾き情報取得部）１０１は、センサ３０が検出した回転角情報、または角速度を取得し、取得した回転角情報、または角速度を仰角推定部１０５に出力する。

音響信号取得部１０２は、収音部２０のＮ個のマイクロホン２０１によって収録されたＮ個の音響信号を取得する。音響信号取得部１０２は、取得したＮ個の音響信号に対して
時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。音響信号取得部１０２は、フーリエ変換したＮ個の音響信号を方位角音源定位部１０３に出力する。

方位角音源定位部１０３は、音響信号取得部１０２から入力された入力信号に基づいて、音源Ｓｐの方位角を推定し、推定した方位角を示す方位角情報を仰角推定部１０５と画像処理部１０６に出力する。方位角音源定位部１０３が推定する方位角は、例えば、収音部２０が備えるＮ個のマイクロホンの位置の重心点から、当該Ｎ個のマイクロホンのうち予め定めた１個のマイクロホンへの方向を基準とした、水平面内の方向である。例えば、方位角音源定位部１０３は、ＧＳＶＤ−ＭＵＳＩＣ（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ−ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；一般化特異値展開を用いたＭＵＳＩＣ）法を用いて方位角を推定する。
なお、方位角の推定には、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法、ＭＵＳＩＣ法等の他の音源方向推定方式を用いてもよい。

記憶部１０４には、仰角を推定する式が記憶されている。なお、仰角を推定する式については、後述する。

仰角推定部１０５は、取得部１０１から入力された第ｆフレームのときの回転角情報を用いて、各軸の回転行列Ｒｘ、Ｒｙ、及びＲｚを算出し、算出した各軸の回転行列Ｒｘ、Ｒｙ、及びＲｚの積によって第ｆフレームのときのデバイス座標系から世界座標系に角度を変換する回転行列Ｒ（ｆ）を算出する。また、仰角推定部１０５は、取得部１０１から入力された第ｆフレームのときの回転角情報を用いて、第ｆ＋１フレームのときの世界座標系からデバイス座標系に角度を変換する回転行列Ｒ^Ｔ（ｆ＋１）を算出する。
または、仰角推定部１０５は、取得部１０１から入力された角速度と、例えばロドリゲスの回転公式とを用いて、第ｆフレームのときの座標変換の係数である回転行列Ｒ（ｆ）と、第ｆ＋１フレームのときの回転行列Ｒ^Ｔ（ｆ＋１）を算出する。

仰角推定部１０５は、算出した回転行列Ｒ（ｆ）と回転行列Ｒ^Ｔ（ｆ＋１）とを用いて行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）の各要素を算出する。
仰角推定部１０５は、方位角音源定位部１０３から入力された第ｆフレームのときの方位角のθ_Ｄ（ｆ）及び第ｆ＋１フレームのときの方位角のθ_Ｄ（ｆ＋１）を、記憶部１０４に記憶されている仰角を推定する式、算出した行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）の各要素を用いて、仰角を推定する。仰角推定部１０５は、推定した仰角を示す仰角情報を画像処理部１０６に出力する。

画像処理部１０６は、方位角音源定位部１０３から入力された方位角情報と、仰角推定部１０５から入力された仰角情報とを表示部１０７に表示させる。
表示部１０７は、画像処理部１０６によって方位角情報と仰角情報を表示する。表示部１０７は、例えば液晶表示パネル、有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）表示パネル等である。

次に、世界座標系及びデバイス座標系について説明する。図３は、本実施形態に係る世界座標系を説明する図である。
世界座標系は、３次元の世界全体を定義する座標系であり、図３のようにｘ_ｗ、ｙ_ｗ、及びｚ_ｗによって表される。また、符号Ｐ_Ｗ（ｆ）が示すベクトルは、世界座標系における音源の位置ベクトル（以下、音源位置ベクトルという）である。添え字Ｗは、世界座標系を表している。また、ｆは、フレームを表している。図３において音響処理装置１０（ｆ）は、第ｆフレームにおける音響処理装置１０を表し、音響処理装置１０（ｆ＋１）は、第ｆ＋１フレームにおける音響処理装置１０を表している。
図３に示すように、原点に音響処理装置１０の重心があるとき、音響処理装置１０をｘ_Ｗ軸方向、ｙ_Ｗ軸方向、ｚ_Ｗ軸方向のいずれかに傾けても、世界座標系における音源Ｓｐの位置、方位角、及び仰角は変化しない。例えば、利用者が音響処理装置１０を傾けたり移動させたりすることで、図３に示した第ｆフレームと第ｆ＋１フレームにおける装置の傾き状態が発生させられる。

図４は、本実施形態に係る第ｆフレームにおけるデバイス座標系を説明する図である。図５は、本実施形態に係る第ｆ＋１フレームにおけるデバイス座標系を説明する図である。なお、デバイス座標系とは、音響処理装置１０から見た座標系であり、例えば音響処理装置１０の重心を原点とし、音響処理装置１０の上面をｘｙ平面、音響処理装置１０の厚み方向とする座標系である。

図４及び図５のように、デバイス座標系は、ｘ_Ｄ、ｙ_Ｄ、及びｚ_Ｄによって表される。添え字Ｄは、デバイス座標系を表している。なお、図４及び図５における音源Ｓｐの世界座標系における位置は同じ位置である。
図４のように、第ｆフレームにおいて、音源Ｓｐの音源位置ベクトルＰ_Ｄ（ｆ）は、ｘ_Ｄ（ｆ）軸に対して方位角θ_Ｄ（ｆ）、ｘ_Ｄ（ｆ）ｙ_Ｄ（ｆ）平面に対して仰角ψ_Ｄ（ｆ）である。また、図５のように、第ｆ＋１フレームにおいて、音源Ｓｐの音源位置ベクトルＰ_Ｄ（ｆ＋１）は、ｘ_Ｄ（ｆ＋１）軸に対して方位角θ_Ｄ（ｆ＋１）、ｘ_{Ｄ（ｆ＋１）}ｙ_{Ｄ（ｆ＋１）}平面に対して仰角ψ_Ｄ（ｆ＋１）である。
このように、音響処理装置１０をｘ_Ｗ軸方向、ｙ_Ｗ軸方向、ｚ_Ｗ軸方向のいずれかに傾けたり移動させたりした場合、デバイス座標系から見た音源Ｓｐの位置、方位角、及び仰角が、図４及び図５のように変化する。

次に、音響処理装置１０の処理手順を説明する。図６は、本実施形態における音響処理装置１０の処理手順のフローチャートである。なお、以下の例では、取得部１０１が、回転角情報を取得する例について説明する。
（ステップＳ１）取得部１０１は、第ｆフレームのときセンサ３０が検出した回転角情報を取得し、取得した回転角情報を仰角推定部１０５に出力する。ステップＳ１終了後、取得部１０１は、処理をステップＳ２に進める。
（ステップＳ２）音響信号取得部１０２は、第ｆフレームのとき収音部２０が収録したＮチャネルの音響信号を取得する。ステップＳ２終了後、音響信号取得部１０２は、処理をステップＳ３に進める。

（ステップＳ３）方位角音源定位部１０３は、音響信号取得部１０２が出力した入力信号に基づいて、第ｆフレームのときの方位角のθ_Ｄ（ｆ）を推定し、推定した方位角のθ_Ｄ（ｆ）を仰角推定部１０５に出力する。ステップＳ３終了後、方位角音源定位部１０３は、処理をステップＳ４に進める。
（ステップＳ４）取得部１０１は、第ｆ＋１フレームのときセンサ３０が検出した回転角情報を取得し、取得した回転角情報を仰角推定部１０５に出力する。ステップＳ４終了後、取得部１０１は、処理をステップＳ５に進める。

（ステップＳ５）音響信号取得部１０２は、第ｆ＋１フレームのとき収音部２０が収録したＮチャネルの音響信号を取得する。ステップＳ５終了後、音響信号取得部１０２は、処理をステップＳ６に進める。
（ステップＳ６）方位角音源定位部１０３は、音響信号取得部１０２が出力した入力信号に基づいて、第ｆ＋１フレームのときの方位角のθ_Ｄ（ｆ＋１）を推定し、推定した方位角のθ_Ｄ（ｆ＋１）を仰角推定部１０５に出力する。ステップＳ６終了後、方位角音源定位部１０３は、処理をステップＳ７に進める。

（ステップＳ７）仰角推定部１０５は、第ｆフレームの回転角情報を用いて、第ｆフレームのときの回転行列Ｒ（ｆ）を算出する。次に、仰角推定部１０５は、第ｆ＋１フレームの回転角情報を用いて、第ｆ＋１フレームのときの回転行列Ｒ^Ｔ（ｆ＋１）を算出する。次に、仰角推定部１０５は、算出した回転行列Ｒ^Ｔ（ｆ＋１）と回転行列Ｒ（ｆ）の積である行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）を算出する。ステップＳ７終了後、仰角推定部１０５は、処理をステップＳ８に進める。

（ステップＳ８）仰角推定部１０５は、第ｆフレームの方位角のθ_Ｄ（ｆ）及び第ｆ＋１フレームの方位角のθ_Ｄ（ｆ＋１）、算出した行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）、及び記憶部１０４に記憶されている仰角の推定式を用いて、第ｆフレームのときの仰角ψ_Ｄ（ｆ）を推定する。
次に、画像処理部１０６は、方位角音源定位部１０３から入力された方位角情報と、仰角推定部１０５から入力された仰角情報とを表示部１０７に表示させる。
以上で、仰角の推定処理を終了する。

次に、仰角ψ_Ｄ（ｆ）の推定について説明する。
図４のように、第ｆフレームのときのデバイス座標系における音源位置ベクトルＰ_Ｄ（ｆ）は、次式（１）のように表される。

式（１）において、方位角のθ_Ｄ（ｆ）は、方位角音源定位部１０３によって推定される値である。また、仰角のψ_Ｄ（ｆ）は、仰角推定部１０５によって推定される値である。
世界座標系からデバイス座標系への回転行列をＲ（ｆ）とすると、図３における世界座標系における音源位置ベクトルＰ_Ｗ（ｆ）は、次式（２）のように表される。

取得部１０１が回転角情報（ｘ軸回りの回転角θ_Ｐ、ｙ軸回りのθ_Ｒ、ｚ軸回りのθ_Ａ）によって、ｘ軸、ｙ軸、及びｚ軸の回転行列は、例えば、おのおの次式（３）〜（５）のように表される。また、回転行列Ｒ（ｆ）は、次式（３）〜（５）の積によって求められる。

音源Ｓｐの位置が、第ｆフレームと第ｆ＋１フレームとでほぼ同じであるとき、第ｆ＋１フレームのデバイス座標系における音源位置ベクトルＰ_Ｄ（ｆ＋１）は、式（２）より次式（６）のように表される。

また、式（６）において、Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）の各要素を次式（７）のようにｒ_１１〜ｒ_３３で表す。

なお、式（７）は、取得部１０１から入力された第ｆフレームの回転角情報を用いて算出した回転行列Ｒ（ｆ）、第ｆ＋１フレームの回転角情報を用いて算出した回転行列Ｒ（ｆ＋１）を用いて仰角推定部１０５が算出する。
第ｆ＋１フレームのデバイス座標系におけるｘ_{Ｄ（ｆ＋１）}軸の音源位置ベクトルＰ_Ｄｘ（ｆ＋１）は、式（１）及び式（７）を用いて次式（８）のように表される。

同様に第ｆ＋１フレームのデバイス座標系におけるｙ_{Ｄ（ｆ＋１）}軸の音源位置ベクトルＰ_Ｄｙ（ｆ＋１）は、式（１）及び式（７）を用いて次式（９）のように表される。

式（８）及び式（９）より、θ_Ｄ（ｆ＋１）の正接は、次式（１０）により求まる。

次に、式（１０）をｓｉｎ（ψ_Ｄ（ｆ））の式に変形し、変形した式をｃｏｓ（ψ_Ｄ（ｆ））で除算すると、ψ_Ｄ（ｆ）の正接は、次式（１１）により求まる。

仰角推定部１０５は、方位角音源定位部１０３から入力された第ｆフレームの方位角のθ_Ｄ（ｆ）、第ｆ＋１フレームの方位角のθ_Ｄ（ｆ＋１）を式（１１）に代入して、仰角のψ_Ｄ（ｆ）を算出することで推定する。

以上のように、本実施形態の音響処理装置１０は、音響信号を収録する収音部２０と、自装置の傾きに関する傾き情報（回転角、角速度）を取得する傾き情報取得部（取得部１０１）と、収音部が収録した少なくとも２つの時刻（フレーム）における音響信号に基づいて、収音部が配置されている面内の音源の方位角を推定する方位角推定部（方位角音源定位部１０３）と、傾き情報取得部が取得した傾き情報と、方位角推定部が推定した少なくとも２つの時刻における方位角とに基づいて、収音部が配置されている面を基準とした音源の仰角を推定する仰角推定部１０５と、を備える。

この構成によって、本実施形態の音響処理装置１０は、例えば、利用者が音響処理装置１０を傾けたり移動させたりすることで、２つのフレームにおけるマイクロホン２０１が収録した音響信号と、センサ３０が検出した回転角情報、または角速度とに基づいて、音源Ｓｐの方位角と仰角とを推定することができる。この結果、本実施形態の音響処理装置１０によれば、携帯端末のようにマイクロホン２０１を３次元配列することが困難である端末に適用した場合であっても、２次元に配置されたマイクロホン２０１によって、音源Ｓｐの方位角と仰角を推定することができる。

なお、本実施形態では、図１に示したように音響処理装置１０の上面にマイクロホン２０１が２次元配列されている例を説明したが、これに限られない。
図７は、本実施形態に係るマイクロホン２０１の他の配置例を説明する図である。図７に示すように、音響処理装置１０の上面に８個のマイクロホン２０１−１が２次元配列され、さらに音響処理装置１０の底面に８個のマイクロホン２０１−２が２次元配列されている。
音響処理装置１０は、第ｆフレームのときマイクロホン２０１−１が収録した音響信号を取得し、第ｆ＋１フレームのときマイクロホン２０１−２が収録した音響信号を取得するようにしてもよい。このような構成であっても、音響処理装置１０は、２つのフレームにおけるマイクロホン２０１が収録した音響信号と、センサ３０が検出した角速度とに基づいて、音源Ｓｐの方位角と仰角とを推定することができる。

また、図７において、マイクロホン２０１が８個であり、音響処理装置１０は、第ｆフレームのとき８個のマイクロホン２０１をマイクロホン２０１−１の位置に移動させ、第ｆ＋１フレームのとき８個のマイクロホン２０１をマイクロホン２０１−２の位置に移動させるようにしてもよい。このような構成であっても、音響処理装置１０は、２つのフレームにおけるマイクロホン２０１が収録した音響信号と、センサ３０が検出した角速度とに基づいて、音源Ｓｐの方向である方位角と仰角とを推定することができる。また、音源Ｓｐに対する音響処理装置１０の方向も知ることができる。

［第２実施形態］
第１実施形態では、２つのフレームのときに取得された音響信号と装置の姿勢情報である回転角情報とに基づいて、音源の方位角と仰角を推定する例を説明した。
本実施形態では、二次近似による境界最適（ＢｏｕｎｄＯｐｔｉｍｉｚａｔｉｏｎＢｙＱｕａｄｒａｔｉｃＡｐｐｒｏｘｉｍａｔｉｏｎ；ＢＯＢＹＱＡ）法（例えば、非特許文献１参照）を用いて、複数のフレームにおける推定された音源位置を平滑化することで最適化して、音源位置を推定する。

非特許文献１；Ｍ．Ｊ．Ｄ．Ｐｏｗｅｌｌ， “ＴｈｅＢＯＢＹＱＡａｌｇｏｒｉｔｈｍｆｏｒｂｏｕｎｄｃｏｎｓｔｒａｉｎｅｄｏｐｔｉｍｉｚａｔｉｏｎｗｉｔｈｏｕｔｄｅｒｉｖａｔｉｖｅｓ” ，ＲｅｐｏｒｔＤＡＭＴＰ２００９／ＮＡ０６，２００９

図８は、本実施形態に係る音響処理装置１０Ａの構成を示すブロック図である。図８に示すように、音響処理装置１０Ａは、取得部（傾き情報取得部）１０１、音響信号取得部１０２、方位角音源定位部（方位角推定部）１０３Ａ、記憶部１０４、仰角推定部１０５、画像処理部１０６Ｂ、表示部１０７、及び最適化部１１１を備えている。また、音響処理装置１０Ａには、収音部２０及びセンサ３０が接続されている。なお、音響処理装置１０（図２参照）と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

取得部１０１は、センサ３０が検出した回転角情報、または角速度を取得し、取得した回転角情報、または角速度を仰角推定部１０５と最適化部１１１に出力する。
方位角音源定位部１０３Ａは、音響信号取得部１０２から入力された入力信号に基づいて、第ｆフレーム〜第ｆ＋Ｋ（Ｋは、２以上の整数）フレームのときの音源Ｓｐの方位角θ_Ｄ（ｆ＋０）〜θ_Ｄ（ｆ＋Ｋ）を順次推定し、推定した方位角θ_Ｄ（ｆ＋０）〜θ_Ｄ（ｆ＋Ｋ）を示す情報を仰角推定部１０５及び最適化部１１１に出力する。

仰角推定部１０５は、第ｆフレームの回転角情報、または角速度を用いて、第ｆフレームのときの回転行列Ｒ（ｆ）を算出する。次に、仰角推定部１０５は、第ｆ＋１フレームの回転角情報、または角速度を用いて、第ｆ＋１フレームのときの回転行列Ｒ^Ｔ（ｆ＋１）を算出する。次に、仰角推定部１０５は、算出した回転行列Ｒ^Ｔ（ｆ＋１）と回転行列Ｒ（ｆ）の積である行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）を算出する。仰角推定部１０５は、方位角音源定位部１０３から入力された第ｆフレームのときの方位角のθ_Ｄ（ｆ）及び第ｆ＋１フレームのときの方位角のθ_Ｄ（ｆ＋１）を、記憶部１０４に記憶されている仰角を推定する式（１１）、算出した行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）の各要素を用いて、第ｆフレームのときの仰角ψ_Ｄ（ｆ）を推定する。

仰角推定部１０５は、ｎ＝１からｎ＝Ｋまで、第ｆ＋Ｋフレームの回転角情報、または角速度を用いて、第ｆ＋Ｋフレームのときの回転行列Ｒ（ｆ＋Ｋ）を算出する。また、仰角推定部１０５は、第ｆ＋Ｋ＋１フレームの回転角情報、または角速度を用いて、第ｆ＋Ｋ＋１フレームのときの回転行列Ｒ^Ｔ（ｆ＋Ｋ＋１）を算出する。仰角推定部１０５は、算出した回転行列Ｒ^Ｔ（ｆ＋Ｋ＋１）と回転行列Ｒ（ｆ＋Ｋ）の積である行列Ｒ^Ｔ（ｆ＋Ｋ＋１）Ｒ（ｆ＋Ｋ）を算出する。仰角推定部１０５は、方位角音源定位部１０３から入力された第ｆ＋Ｋ−１フレームのときの方位角のθ_Ｄ（ｆ＋Ｋ−１）及び第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ＋Ｋ）を、記憶部１０４に記憶されている仰角を推定する式（１１）、算出した行列Ｒ^Ｔ（ｆ＋Ｋ＋１）Ｒ（ｆ＋Ｋ）の各要素を用いて、第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ＋Ｋ）を推定する。
仰角推定部１０５は、推定した第ｆフレーム〜第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ＋０）〜ψ_Ｄ（ｆ＋Ｋ）を示す情報を最適化部１１１に出力する。

最適化部１１１には、方位角音源定位部１０３から第ｆフレーム〜第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ＋０）〜θ_Ｄ（ｆ＋Ｋ）、仰角推定部１０５から第ｆフレーム〜第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ＋０）〜ψ_Ｄ（ｆ＋Ｋ）が入力される。ここで、方位角音源定位部１０３によって推定された第ｆフレームのときの方位角のθ_Ｄ（ｆ）と、仰角推定部１０５によって推定された第ｆフレームのときの仰角ψ_Ｄ（ｆ）との組み合わせを、第ｆフレームのときの音源位置Ｐ_Ｗ（ｆ）とする。また、方位角音源定位部１０３によって推定された第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ＋Ｋ）と、仰角推定部１０５によって推定された第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ＋Ｋ）との組み合わせを、第ｆ＋Ｋフレームのときの音源位置Ｐ_Ｗ（ｆ＋Ｋ）とする。
最適化部１１１は、第ｆフレームから第ｆ＋Ｋフレームまでの音源位置Ｐ_Ｗ（ｆ＋０）〜Ｐ_Ｗ（ｆ＋Ｋ）に対して、例えば、ＢＯＢＹＱＡ法を用いて二乗誤差が最小となる音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）を算出する。最適化部１１１は、算出した音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）を画像処理部１０６に出力する。なお、本実施形態では、ＢＯＢＹＱＡ法を用いる例を説明したが他の手法を用いてもよい。
画像処理部１０６は、最適化部１１１から入力された音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）を示す画像を表示部１０７に表示させる。

次に、最適化部１１１が行うＢＯＢＹＱＡ法を用いた二乗誤差が最小となる音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）の算出方法について説明する。
図９は、本実施形態に係る最適化処理を説明する図である。なお、図９では、Ｋが６の例を示している。図９において、符号３０１〜３０６が示す画像は、第ｆ＋０フレーム〜第ｆ＋６フレームにおける音源位置Ｐ_Ｗ（ｆ＋０）〜Ｐ_Ｗ（ｆ＋Ｋ）である。また、符号３１１が示す画像は、音源位置Ｐ_Ｗ（ｆ＋０）〜Ｐ_Ｗ（ｆ＋Ｋ）の二乗誤差が最小となる音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）である。また、横軸は方位角、縦軸は仰角である。
図９に示すように、方位角の拘束条件は、−１８０度〜＋１８０度である。また仰角の拘束条件は、−９０度〜＋９０度である。
最適化部１１１は、第ｆ＋０フレーム〜第ｆ＋６フレームにおける音源位置Ｐ_Ｗ（ｆ＋０）〜Ｐ_Ｗ（ｆ＋６）に対して、上述した拘束条件における二乗誤差が最小となる音源位置Ｐ_Ｗ＾（ｆ＋６）を、ＢＯＢＹＱＡ法によって最適化して算出する。このように算出された音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）は、２つのフレーム間において推定したＰ_Ｗ（ｆ＋Ｋ）より外乱ノイズ等の影響を受けにくい（ロバストである）。

図１０は、本実施形態における音響処理装置１０Ａの処理手順のフローチャートである。なお、以下の例では、取得部１０１が、回転角情報を取得する例について説明する。
（ステップＳ１０１）取得部１０１は、第ｆフレーム〜第ｆ＋Ｋ＋１フレームのときセンサ３０が検出した回転角情報を取得し、取得した第ｆフレーム〜第ｆ＋Ｋ＋１フレームのときの回転角情報を仰角推定部１０５に出力する。ステップＳ１０１終了後、取得部１０１は、処理をステップＳ１０２に進める。
（ステップＳ１０２）音響信号取得部１０２は、第ｆフレーム〜第ｆ＋Ｋ＋１フレームのとき収音部２０が収録したＮチャネルの音響信号を取得する。ステップＳ１０２終了後、音響信号取得部１０２は、処理をステップＳ１０３に進める。

（ステップＳ１０３）方位角音源定位部１０３Ａは、音響信号取得部１０２が出力した入力信号に基づいて、第ｆフレーム〜第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ）〜θ_Ｄ（ｆ＋Ｋ）を推定し、推定した第ｆフレーム〜第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ）〜θ_Ｄ（ｆ＋Ｋ）を仰角推定部１０５及び最適化部１１１に出力する。ステップＳ１０３終了後、方位角音源定位部１０３Ａは、処理をステップＳ１０４に進める。

（ステップＳ１０４）仰角推定部１０５は、第ｆフレーム〜第ｆ＋Ｋフレームの回転角情報を用いて、第ｆフレーム〜第ｆ＋Ｋフレームのときの回転行列Ｒ（ｆ）〜Ｒ（ｆ＋Ｋ）を算出する。次に、仰角推定部１０５は、第ｆ＋１フレーム〜第ｆ＋Ｋ＋１フレームの回転角情報を用いて、第ｆ＋１フレーム〜第ｆ＋Ｋ＋１フレームのときの回転行列Ｒ^Ｔ（ｆ＋Ｋ＋１）を算出する。次に、仰角推定部１０５は、算出した回転行列Ｒ^Ｔ（ｆ＋１）〜Ｒ^Ｔ（ｆ＋Ｋ＋１）と回転行列Ｒ（ｆ）〜Ｒ（ｆ＋Ｋ）の積である行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）〜Ｒ^Ｔ（ｆ＋Ｋ＋１）Ｒ（ｆ＋Ｋ）を算出する。ステップＳ１０４終了後、仰角推定部１０５は、処理をステップＳ１０５に進める。

（ステップＳ１０５）仰角推定部１０５は、方位角音源定位部１０３から入力された第ｆフレーム〜第ｆ＋Ｋフレームのときの方位角のθ_Ｄ（ｆ）〜θ_Ｄ（ｆ＋Ｋ）を、記憶部１０４に記憶されている仰角を推定する式（１１）、算出した行列Ｒ^Ｔ（ｆ＋１）Ｒ（ｆ）〜Ｒ^Ｔ（ｆ＋Ｋ＋１）Ｒ（ｆ＋Ｋ）の各要素を用いて、第ｆフレーム〜第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ）〜ψ_Ｄ（ｆ＋Ｋ）を推定する。次に、仰角推定部１０５は、推定した第ｆフレーム〜第ｆ＋Ｋフレームのときの仰角ψ_Ｄ（ｆ）〜ψ_Ｄ（ｆ＋Ｋ）を示す情報を最適化部１１１に出力する。ステップＳ１０５終了後、仰角推定部１０５は、処理をステップＳ１０６に進める。

（ステップＳ１０６）最適化部１１１は、第ｆフレーム〜第ｆ＋Ｋフレームにおける音源位置Ｐ_Ｗ（ｆ）〜Ｐ_Ｗ（ｆ＋Ｋ）に対して、上述した拘束条件における二乗誤差が最小となる音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）を、ＢＯＢＹＱＡ法によって最適化して算出する。
次に、画像処理部１０６は、最適化部１１１から入力された音源位置Ｐ_Ｗ＾（ｆ＋Ｋ）を示す画像を表示部１０７に表示させる。
以上で、仰角の推定処理を終了する。

以上のように、本実施形態の音響処理装置１０Ａであって、仰角推定部１０５は、複数の時刻（フレーム）に渡って推定した仰角を平滑化して、平滑化した値を音源の仰角として決定する。

この構成により、本実施形態の音響処理装置１０Ａは、２つのフレームにおいて取得された音響信号と姿勢情報を用いる方法に比べて、外乱に頑健に方位角と仰角を推定することができる。

［第３実施形態］
第１実施形態及び第２実施形態では、推定された方位角と仰角とを表示部１０７に表示する例を説明したが、本実施形態では、推定された方位角と仰角とに基づいて、音源Ｓｐの方向を表示部１０７上に表示する例を説明する。

図１１は、本実施形態に係る音響処理装置１０Ｂの構成を示すブロック図である。図１１に示すように、音響処理装置１０Ｂは、取得部（傾き情報取得部）１０１、音響信号取得部１０２、方位角音源定位部（方位角推定部）１０３、記憶部１０４、仰角推定部１０５、画像処理部１０６Ｂ、表示部１０７、及び画像取得部１２１を備えている。また、音響処理装置１０Ｂには、収音部２０、センサ３０、及び撮像部４０が接続されている。なお、音響処理装置１０（図２参照）と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

撮像部４０は、被写体を表す画像を撮影し、撮影した画像を表す画像信号を生成する。撮像部４０は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ、又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）カメラである。撮像部４０は、例えば、音響処理装置１０Ｂの正面に配置されている。撮像部４０は、生成した画像信号を音響処理装置１０Ｂに出力する。

画像取得部１２１は、撮像部４０が出力した画像信号を取得し、取得した画像信号をデジタル信号に変換する。画像取得部１２１は、デジタル信号に変換した画像信号を画像処理部１０６Ｂに出力する。なお、画像取得部１２１が画像信号を取得するタイミングは、音響信号取得部１０２が音響信号を取得するタイミングと同期が行われていることが好ましい。

画像処理部１０６Ｂは、方位角音源定位部１０３から入力された方位角情報と、仰角推定部１０５から入力された仰角情報とに基づいて、音源Ｓｐの方向を示す情報を生成する。そして、画像処理部１０６Ｂは、画像取得部１２１から画像信号が入力されているか否かを判別する。画像処理部１０６Ｂは、画像信号が入力されている場合、画像信号に生成した音源Ｓｐの方向を示す情報に基づく画像を合成し、合成した画像信号を表示部１０７に表示させる。画像処理部１０６Ｂは、画像信号が入力されていない場合、生成した音源Ｓｐの方向を示す情報に基づく画像を表示部１０７に表示させる。

次に、表示部１０７に表示される画像の例を説明する。
図１２は、本実施形態に係る表示部１０７に表示される画像の例を説明する図である。図１２に示す例では、利用者が音響処理装置１０Ｂを手にもって、音源Ｓｐの方向を探索している例である。利用者は、音響処理装置１０Ｂの正面を利用者から見て前方に向けて、音響処理装置１０Ｂを左右、上下に移動させる。表示部１０７には、利用者によってフレーム毎に音響処理装置１０Ｂの位置が異なる音響信号と回転角情報（または角速度）に基づいて第１実施形態で説明した方法または第２実施形態で説明した方法によって推定された音源位置を示す画像が表示される。利用者は、音響処理装置１０Ｂの表示部１０７に表示される画像４０１によって、音源Ｓｐの方向を知ることができる。

図１３は、本実施形態に係る撮像部４０が撮影した画像に音源Ｓｐの方向を示す情報に基づく画像を合成して表示部１０７に表示する画像を説明する図である。
図１３において、符号４０２が示す画像は、形状が球状の画像である。符号４０３が示す画像は、形状が例えばリング状であり、符号４０２が示す球状の画像の中心を通る断面の輪郭周辺に表示される画像である。符号４０３が示す画像は、世界座標系において水平な面を表している。また、符号４０２と４０３が示す画像は、音源Ｓｐの方向を直感的に認識しやすくするための補助画像である。符号４０４が示す画像は、形状が矢印状であり、音源Ｓｐの方向を示す情報に基づく画像である。符号４０５が示す画像は、球画面４０２の重心を示す画像である。なお、以下の説明では、符号４０２が示す画像を球画像４０２、符号４０３が示す画像をリング状画像４０３、符号４０４が示す画像を矢印４０４という。

図１３のように、表示部１０７には、撮像部４０によって撮影された画像に、球画像４０２とリング状画像４０３と矢印４０４とが合成されて表示される。このため、矢印４０４は、音響処理装置１０Ｂの移動に伴って、矢印４０４の矢尻（アローヘッド）の向きと矢印４０４の長さとが、音源Ｓｐがある方向を示すように変化する。これにより、矢印４０４が、３次元空間のどの方向を指しているのかを利用者が直感的に認識しやすくなる。

すなわち、球画像４０２とリング状画像４０３との画像は、球を地球に見立てた場合に赤道にあたる輪郭周辺のリング状画像４０３が常に水平面に表示されるように、球画像４０２が安定する仮想的なジャイロスコープ（ｇｙｒｏｓｃｏｐｅ）の画像である。
なお、図１３に示した例では、音源Ｓｐが１つの例を示しているが、音源が複数の場合、複数の矢印４０４が画像４０１に含まれていてもよい。

次に、音源が複数の場合の表示例について説明する。
図１４は、本実施形態に係る複数の音源が検出された場合の表示例を説明する図である。図１４に示す例では、３つの音源Ｓｐ−１〜Ｓｐ−３が検出されたときの表示例である。なお、図１４に示す例では、音響処理装置１０Ｂの長手方向の一方側を正面として使用した場合の例である。また、図１４では、撮像部４０によって撮像された画像と合成せず、推定された音源の位置を示す画像を表示する例の画像である。なお、図１３と同じ画像は、同じ符号を用いて説明を省略する。

図１４において、符号４０６が示す画像は、音響処理装置１０Ｂに取り付けられているマイクロホン２０１に対応する画像である。なお、符号４０６が示す画像は、表示部１０７に表示されなくてもよい。
符号４６１−１〜４６１−３が示す画像は、音源Ｓｐ−１〜Ｓｐ−３に対応する画像である。なお、例えば方位角音源定位部１０３によって分離された音源別の音響信号を、音響処理装置１０Ｂが備える音声認識部（不図示）が音響の種別を判別する場合、符号４６１−１〜４６１−３が示す画像は、音源の種別に応じた画像であってもよい。ここで、音源の種別とは、例えば、人間による発話、動物の鳴き声、機械が発する音等である。また、音源の種別に応じた画像とは、例えば、人間のイラスト、動物のイラスト、電話機のイラスト等である。
符号４０４−１〜４０４−３が示す画像は、推定された音源Ｓｐ−１〜Ｓｐ−３の方向（方位角、仰角）を示す画像である。

符号４５１−１〜４５１−３が示す画像は、音源に割り振られた番号である。図１４のように、符号４５１−１〜４５１−３が示す画像は、矢印４０４−１〜４０４−３と共に、音源の方位角及び仰角を表している。この番号は、画像処理部１０６Ｃが割り振るようにしてもよい。
符号４５１−１が示す画像は、色が薄い灰色であり、形状が重心の画像４０５から音源Ｓｐ−１方向が短径である楕円形である。符号４５１−１が示す画像は、音源Ｓｐ−１の方位角が音響処理装置１０Ｂの略正面方向であり、仰角が水平面に対して、例えば−１０度程度、下側であることを表している。

符号４５１−２が示す画像は、色が白色であり、形状が円形である。符号４５１−２が示す画像は、音源Ｓｐ−２の方位角が音響処理装置１０Ｂの略左方向であり、仰角が水平面に対して、例えば＋４５度程度、上側であることを表している。
符号４５１−４が示す画像の色は、符号４５１−４が示す画像より濃い灰色であり、形状が重心の画像４０５から音源Ｓｐ−１方向が短径である楕円形である。符号４５１−３が示す画像は、音源Ｓｐ−３の方位角が音響処理装置１０Ｂの略右方向であり、仰角が水平面に対して、例えば−３０度程度、下側であることを表している。

このように、符号４５１−１〜４５１−３が示す画像は、形状と色によって、マイクロホン２０１が配置されている面を基準とした音源の仰角も視覚的に表している。
すなわち、符号４５１−１〜４５１−３が示す画像と重心の画像４０５が近くに表示される場合は、仰角が大きいことを表している。符号４５１−１〜４５１−３が示す画像と重心の画像４０５が遠くに表示される場合は、仰角が小さいことを表している。
また、符号４５１−１〜４５１−３が示す画像が白色の場合は、水平面に対して音源の仰角が上側であることを表している。符号４５１−１〜４５１−３が示す画像が灰色の場合は、水平面に対して音源の仰角が下側であることを表している。
なお、符号４５１−１〜４５１−３が示す画像は、分離された音源別信号の大きさに基づく大きさの画像であってもよい。

以上のように、本実施形態の音響処理装置１０Bは、画像を表示する表示部１０７と、仰角推定部１０５が推定した仰角を示す画像を生成して、生成した画像を表示部に表示する画像処理部１０６Bと、を備える。
また、本実施形態の音響処理装置１０Bであって、画像処理部１０６Bは、方位角推定部（方位角音源定位部１０３）が推定した方位角を示す画像を生成して、生成した画像を表示部１０７に表示する。
また、本実施形態の音響処理装置１０Bは、画像を撮影する撮像部４０を備え、画像処理部１０６Ｂは、少なくとも仰角を示す画像を撮像部が撮像した画像に合成して表示部１０７に表示させる。

この構成によれば、本実施形態の音響処理装置１０Bは、方位角音源定位部１０３が推定した方位角と、仰角推定部１０５が推定した仰角とを、直感的に認知しやすい画像として表示部１０７に表示することができる。
また、本実施形態の音響処理装置１０Bは、撮像部４０が撮像した画像に音源の方向を合成して表示させるため、利用者は、直感的に音源の方向を認知しやすくなる。

なお、第１実施形態〜第３実施形態において、音響処理装置１０（１０Ａ、１０Ｂ）は、デバイス座標系における音源Ｓｐの方向（方位角と仰角）を推定し、推定した方向を示す情報を表示部１０７に表示する例を説明したが、これに限られない。音響処理装置１０（１０Ａ、１０Ｂ）は、推定した方向を装置からの相対的な方向に変換し、変換した装置からの相対的な方向を示す情報を表示部１０７に表示するようにしてもよい。

［第４実施形態］
第１〜第５実施形態では、音源の方向を推定し、推定した音源の方向を表示部１０７上に表示する例を説明した。本実施形態では、音響処理装置を音源の方向に向けるように促す例を説明する。

図１５は、本実施形態に係る音響処理装置１０Ｃの構成を示すブロック図である。図１５に示すように、音響処理装置１０Ｃは、取得部（傾き情報取得部）１０１、音響信号取得部１０２、方位角音源定位部（方位角推定部）１０３Ｃ、記憶部１０４、仰角推定部１０５、画像処理部１０６Ｃ、表示部１０７、画像取得部１２１、操作情報取得部１３１、及び音響再生部１３２を備えている。また、音響処理装置１０Ｃには、収音部２０、センサ３０、撮像部４０、及び操作部５０が接続されている。なお、音響処理装置１０Ｂ（図１１参照）と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

操作部５０は、利用者が操作した操作結果を検出し、検出した操作結果を示す操作情報を音響処理装置１０Ｃに出力する。操作部５０は、例えば表示部１０７の上に取り付けられているタッチパネルである。なお、操作情報には、利用者によって選択された音源を示す情報、選択された音源を再生する情報等が含まれている。
操作情報取得部１３１は、操作部５０から入力された操作情報を取得し、取得した操作情報を方位角音源定位部１０３Ｃ及び画像処理部１０６Ｃに出力する。

方位角音源定位部１０３Ｃは、収音部２０から入力されたＮチャネルの音響信号に基づいて各音源の方位角を推定する。また、方位角音源定位部１０３Ｃは、Ｎチャネルの音響信号から各音源が寄与する成分を示す音響信号に分離する。方位角音源定位部１０３Ｃは、音源別信号を分離する際、例えば、特開２０１２−４２９５３号公報に記載の音源分離方法等、既知の音源分離方法を用いる。以下では、音源毎に分離された音響信号、つまり各音源が寄与する成分を示す音響信号を、音源別信号と呼ぶ。
方位角音源定位部１０３Ｃは、各音源の方位角を示す方位角情報を生成し、生成した方位角情報を仰角推定部１０５及び画像処理部１０６Ｃに出力する。
方位角音源定位部１０３Ｃは、操作情報取得部１３１から入力された操作情報に応じて分離した音源別信号を音響再生部１３２に出力する。
音響再生部１３２は、方位角音源定位部１０３Ｃから入力された音源別信号を再生する。音響再生部１３２は、例えばスピーカである。

画像処理部１０６Ｃは、方位角音源定位部１０３Ｃから入力された方位角情報と、仰角推定部１０５から入力された仰角情報とに基づいて、音源Ｓｐの方向を示す情報を生成する。そして、画像処理部１０６Ｂは、画像取得部１２１から画像信号が入力されているか否かを判別する。画像処理部１０６Ｂは、画像信号が入力されている場合、画像信号に生成した音源Ｓｐの方向を示す情報に基づく画像を合成し、合成した画像信号を表示部１０７に表示させる。画像処理部１０６Ｂは、画像信号が入力されていない場合、生成した音源Ｓｐの方向を示す情報に基づく画像を表示部１０７に表示させる。
また、画像処理部１０６Ｃは、操作情報取得部１３１から入力された操作情報に応じて、選択された音源を示す画像を明るく表示し、選択されなかった音源を示す画像を暗く表示する。なお、画像処理部１０６Ｃは、操作情報取得部１３１から入力された操作情報に応じて、選択された音源を示す画像を暗く表示し、選択されなかった音源を示す画像を明るく表示するようにしてもよい。

次に、選択された音源の音響信号を再生する例について説明する。
図１６は、本実施形態に係る音源が選択されたときの表示部１０７に表示される画像の一例を説明する図である。図１６に示す例では、音源Ｓｐ−１が利用者によって選択されたときの例である。このため、音源Ｓｐ−１に対応する符号４５１−１が明るく（例えば、白色）で表示され、選択されていない音源Ｓｐ−２とＳｐ−３に対応する符号４５１−２と４５１−２が暗く（例えば、半透明）表示される。また、図１６のように、選択されていない音源Ｓｐ−２とＳｐ−３の方向を示す矢印の画像が表示部１０７上に表示されないようにしてもよい。一方、選択された音源Ｓｐ−１に対応する矢印４０４−１は、音源の種別に応じた画像４６１−３まで延長されて表示されるようにしてもよい。

方位角音源定位部１０３Ｃは、図１６のように選択された音源Ｓｐ−１に対応する音源別信号を音響再生部１３２に出力する。なお、方位角音源定位部１０３Ｃは、分離した音源別信号を記憶部１０４に記憶させ、利用者によって再生する音源が選択されたとき、記憶部１０４に記憶させた音源別信号を読み出して音響再生部１３２に出力するようにしてもよい。

以上のように、本実施形態の音響処理装置１０Ｃは、音響信号を再生する音響再生部１３２と、音源毎の音響信号のうち、利用者によって選択された音源を示す選択情報を取得する操作情報取得部１３１と、を備え、方位角推定部（方位角音源定位部１０３Ｃ）は、収音部２０が収録した音響信号を音源毎の音響信号に分離し、分離した音源毎の音響信号に基づいて、音源の方位角を推定し、分離した音響信号のうち、操作情報取得部が取得した選択情報に対応する音響信号を音響再生部から再生する。

この構成により、本実施形態の音響処理装置１０Ｃは、利用者によって選択された音源の方向（方位角、仰角）を表示部１０７上に表示しつつ、選択された音源の音響信号を再生することができる。

［第５実施形態］
第３実施形態及び第４実施形態では、球画像４０２、リング状画像４０３、及び矢印４０４を用いて、音源の方位角と仰角を表示部１０７上に表示する例を説明した。本実施形態では、音響処理装置に対して音源が、どの方向にあるかを視覚的に表示する例を説明する。

図１７は、本実施形態に係る音響処理装置１０Ｄの構成を示すブロック図である。図１７に示すように、音響処理装置１０Ｄは、取得部（傾き情報取得部）１０１、音響信号取得部１０２、方位角音源定位部（方位角推定部）１０３、記憶部１０４、仰角推定部１０５、画像処理部１０６Ｄ、及び表示部１０７を備えている。なお、音響処理装置１０（図２参照）と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

画像処理部１０６Ｄは、方位角音源定位部１０３が推定した方位角の大きさに応じて、リング状画像４０３（図１４等参照）の描写を変化させて、音源Ｓｐの方向を表す画像を生成し、生成した画像を表示部１０７に表示させる。
画像処理部１０６Ｄは、方位角音源定位部１０３が推定した方位角の大きさを、予め定められている角度と比較し、比較した結果に応じて、表示部１０７上に表示させるリング状画像４０３を音源の方向を示す方向に回転させる画像を生成する。または、画像処理部１０６Ｄは、仰角推定部１０５が推定した仰角の大きさを、予め定められている角度と比較し、比較した結果に応じて、表示部１０７上に表示させるリング状画像４０３を音源の方向を示す方向に回転させる画像を生成する。

図１８及び図１９は、本実施形態に係るリング状画像４０３の描写例を説明する図である。
図１８に示すように、音響処理装置１０Ｄに対して音源Ｓｐが右側にある場合、リング状画像４０３は、表示部１０７の短手方向の各々の中心を結ぶ線分４１１を中心にして、矢印４２１が示すように回転しているように表示部１０７上に表示される。そして、音響処理装置１０Ｂが音源Ｓｐの正面に配置されたとき、リング状画像４０３の回転が止まっているように表示部１０７上に表示される。リング状画像４０３は、例えば、音源の方位角が４５度以上異なっているとき、最も速く回転しているように表示され、音源の方位角が小さくなるに従って回転速度が遅くなるように表示されるようにしてもよい。
この表示により、利用者は、音響処理装置１０Ｄに対して音源Ｓｐがある方向を視覚的に知ることができる。そして、利用者は、この表示に応じて音響処理装置１０Ｄを移動させることで、音源の方向を知ることができる。

音響処理装置１０Ｄの正面方向に音源Ｓｐがある方位角または仰角に達したとき、画像処理部１０６Ｄは、音源Ｓｐの方位角または仰角に音響処理装置１０Ｄが達したことを利用者に知らせるために、図１９に示すようにリング状画像４０３を、矢印４２２のように反時計回りに回転するように表示部１０７上に表示させるようにしてもよい。
この表示により、利用者は、音響処理装置１０Ｄの正面方向に音源Ｓｐがあることを視覚的に知ることができる。

以上のように、本実施形態の音響処理装置１０Ｄであって、画像処理部１０６Ｄは、方位角推定部（方位角音源定位部１０３Ｄ）が推定した方位角または仰角推定部１０５が推定した仰角に基づいた速さで変化する画像を生成する。

この構成により、本実施形態の音響処理装置１０Ｄは、表示部１０７上に表示される画像を見ながら利用者が音響処理装置１０Ｄを移動させることで、音源の方向（方位角、仰角）を探索することができる。

また、本実施形態では、図１８及び図１９のように、上述のように利用者に対してリング状画像４０３を用いて音源Ｓｐの方向を示す例を説明したが、これに限られない。音源Ｓｐの方向を示す画像の形状は、リング状画像でなくてもよく、例えば多角形であってもよい。また、文字や音声で音源の方向を報知するようにしてもよい。

なお、本実施形態では、図１８及び図１９のように、リング状画像４０３を用いて、音源Ｓｐの方向を示す例を説明したが、これに限られない。
例えば、図１３及び図１４に示した画像４０１において、リング状画像４０３を、例えば、方位角に応じて、回転させて表示さるようにしてもよい。例えば、音源Ｓｐが、音響処理装置１０Ｂに対して左側にある場合、音響処理装置１０Ｂは、音響処理装置１０Ｂを右側に移動させるように、反時計回りにリング状画像４０３を回転させるように表示させてもよい。または、音源Ｓｐが、音響処理装置１０Ｂに対して右側にある場合、音響処理装置１０Ｂは、音響処理装置１０Ｂを左側に移動させるように、時計回りにリング状画像４０３を回転させるように表示させてもよい。
また、リング状画像４０３を回転させる速さは、音響処理装置１０Ｂに対する方位角の大きさに応じて変化させるようにしてもよい。例えば、方位角が４５度以上異なっているとき、音響処理装置１０Ｂは、リング状画像４０３を最も速く回転させて表示させるようにしてもよい。そして、方位角が４５度から０度に近くに従って、音響処理装置１０Ｂは、リング状画像４０３の回転が遅くなるように表示させるようにしてもよい。

［実験結果］
ここで、第２実施形態の音響処理装置１０Ａを用いて、表示部１０７に表示される画像のパフォーマンスを評価した実験結果を説明する。センサ３０には、地磁気センサと加速度センサを用いた。また、実験は、音響処理装置１０Ａをタブレット端末に適用して行った。８個のマイクロホン２０１は、タブレット端末の裏面に図１のような配置に取り付けた。実験には、音声データを用いた。

図２０は、実験結果における距離とエラーの関係を説明する図である。
半径が５０［ｃｍ］の半円の異なる位置に配置した音源を用いて実験した結果、一次元の音源定位の正確さは、図２０の点５０１のようにエラーの平均値が５．８度であった。また、半径が７０、１００、１３０、１５０、及び２００［ｃｍ］の半円の異なる位置に配置した音源を用いて実験した結果、一次元の音源定位の正確さは、図２０の点５０２〜５０６のようにエラーの平均値が各々、約３．２、４．３、５．２、４．６、及び４．３％であった。
図２０において、距離が５０［ｃｍ］のときエラーが他の距離より大きい理由は、音源Ｓｐが音響処理装置１０Ａから近いため、音源を点音源として見なしにくいためと考えられる。

なお、第１〜第５実施形態では、マイクロホン２０１が８個の例を説明したが、これに限られない。上述したように、本発明では、異なるフレームにおける音響信号と装置の傾きを取得して方位角と仰角を推定している。このため、本発明では、マイクロホン２０１は１本以上であればよい。
例えば、マイクロホン２０１が１個の場合、方位角音源定位部１０３（１０３Ａ、１０３Ｃ）は、第ｆフレーム及び第ｆ＋１フレームの音響信号に基づいて第ｆフレームまたは第ｆ＋１フレームのときの方位角を推定し、第ｆ＋２フレーム及び第ｆ＋３フレームの音響信号に基づいて第ｆ＋２または第ｆ＋３フレームのときの方位角を推定する。また、仰角指定部１０６（１０６Ｂ、１０６Ｃ、１０６Ｄ）は、推定された第ｆまたは第ｆ＋１フレームのときの方位角、第ｆ＋２または第ｆ＋３フレームのときの方位角、第ｆまたは第ｆ＋１フレームのときの姿勢情報、及び第ｆ＋２または第ｆ＋３フレームのときの姿勢情報に基づいて、式（１１）を用いて、仰角を推定するようにしてもよい。この場合、音源Ｓｐが発している音響信号は、音が変化せず連続している音響信号であることが望ましい。

また、第１〜第５実施形態では、音源Ｓｐの世界座標系における位置が変化しない例を説明したが、これに限られない。音源Ｓｐの世界座標系における位置は変化していてもよい。この場合であっても、隣接するフレーム間においては、音源Ｓｐの世界座標系における位置は、ほぼ同じ位置にあると見なせるため、音響処理装置１０（１０Ａ、１０Ｂ、１０Ｃ、及び１０Ｄ）は、式（１１）を用いて仰角を推定することができる。

また、第１〜第２実施形態では、推定した方位角及び仰角の値を表示部１０７上に表示する例を説明し、第３〜第５実施形態では、矢印４０４、球画像４０２、リング状画像４０３、音源に割り振った番号の画像４５１を用いて視覚的に音源の方向を表示部１０７上に表示する例を説明したが、これに限られない。説明に用いた画像の形状等は一例であり、他の形状であってもよい。また、第３〜第５実施形態において、推定した方位角及び仰角の値も表示部１０７上に表示するようにしてもよい。

音響処理装置１０（１０Ａ、１０Ｂ、１０Ｃ、及び１０Ｄ）を組み込む機器は、例えば、ロボット、車両、携帯端末、ＩＣレコーダ等であってもよい。また、この場合、ロボット、車両、携帯端末、ＩＣレコーダは、収音部２０、センサ３０、撮像部４０、及び操作部５０を備えていてもよい。

なお、本発明における音響処理装置１０（１０Ａ、１０Ｂ、１０Ｃ、及び１０Ｄ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ…音響処理システム、１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ…音響処理装置、２０…収音部、３０…センサ、４０…撮像部、５０…操作部、１０１…取得部（傾き情報取得部）、１０２…音響信号取得部、１０３、１０３Ａ、１０３Ｃ…方位角音源定位部（方位角推定部）、１０４…記憶部、１０５…仰角推定部、１０６、１０６Ｂ、１０６Ｃ、１０６Ｄ…画像処理部、１０７…表示部、１１１…最適化部、１２１…画像取得部、１３１…操作情報取得部、２０１…マイクロホン、Ｓｐ…音源

Claims

音響信号を収録する収音部と、
自装置の傾きに関する傾き情報を取得する傾き情報取得部と、
前記収音部が収録した少なくとも２つの時刻における前記音響信号に基づいて、前記収音部が配置されている面内の音源の方位角を推定する方位角推定部と、
前記傾き情報取得部が取得した前記傾き情報と、前記方位角推定部が推定した少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定部と、
を備えることを特徴とする音響処理装置。
前記仰角推定部は、
前記傾き情報取得部によって取得された前記傾き情報に基づいて世界座標系から自装置における座標系への回転行列を算出し、算出した前記回転行列と、前記方位角推定部が推定した少なくとも２つの時刻における前記方位角とに基づいて、前記音源の仰角を推定する
ことを特徴とする請求項１に記載の音響処理装置。
前記仰角推定部は、
複数の時刻に渡って推定した仰角を平滑化して、平滑化した値を音源の仰角として決定する
ことを特徴とする請求項１または請求項２に記載の音響処理装置。
画像を表示する表示部と、
前記仰角推定部が推定した前記仰角を示す画像を生成して、生成した前記画像を前記表示部に表示する画像処理部と、
を備えることを特徴とする請求項１から請求項３のいずれか１項に記載の音響処理装置。
前記画像処理部は、
前記方位角推定部が推定した方位角を示す画像を生成して、生成した前記画像を前記表示部に表示する
ことを特徴とする請求項４に記載の音響処理装置。
画像を撮影する撮像部を備え、
前記画像処理部は、
少なくとも前記仰角を示す画像を前記撮像部が撮像した前記画像に合成して前記表示部に表示させる
ことを特徴とする請求項４または請求項５に記載の音響処理装置。
前記画像処理部は、
前記方位角推定部が推定した方位角または前記仰角推定部が推定した前記仰角に基づいた速さで変化する画像を生成する
ことを特徴とする請求項６に記載の音響処理装置。
音響信号を再生する音響再生部と、
音源毎の音響信号のうち、利用者によって選択された音源を示す選択情報を取得する操作情報取得部と、
を備え、
前記方位角推定部は、
前記収音部が収録した音響信号を前記音源毎の音響信号に分離し、分離した音源毎の音響信号に基づいて、音源の前記方位角を推定し、
分離した前記音響信号のうち、前記操作情報取得部が取得した前記選択情報に対応する音響信号を前記音響再生部から再生する
ことを特徴とする請求項１から請求項７のいずれか１項に記載の音響処理装置。
収音部が、音響信号を収録する収音手順と、
傾き情報取得部が、自装置の傾きに関する傾き情報を取得する傾き情報取得手順と、
方位角推定部が、前記収音手順によって収録された少なくとも２つの時刻における前記音響信号に基づいて、前記収音部が配置されている面内の音源の方位角を各々推定する方位角推定手順と、
仰角推定部が、前記傾き情報取得手順によって取得された前記傾き情報と、前記方位角推定手順によって推定された少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定手順と、
を含むことを特徴とする音響処理方法。
音響処理装置のコンピュータに、
音響信号を収録する収音手順と、
自装置の傾きに関する傾き情報を取得する傾き情報取得手順と、
前記収音手順によって収録された少なくとも２つの時刻における前記音響信号に基づいて、収音部が配置されている面内の音源の方位角を各々推定する方位角推定手順と、
前記傾き情報取得手順によって取得された前記傾き情報と、前記方位角推定手順によって推定された少なくとも２つの時刻における前記方位角とに基づいて、前記収音部が配置されている面を基準とした前記音源の仰角を推定する仰角推定手順と、
を実行させる音響処理プログラム。