JP6078461B2

JP6078461B2 - 音響処理装置、音響処理方法、及び音響処理プログラム

Info

Publication number: JP6078461B2
Application number: JP2013261544A
Authority: JP
Inventors: 圭佑中村; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2017-02-08
Anticipated expiration: 2033-12-18
Also published as: JP2015119343A; US20150172842A1; US9549274B2

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。

室内に放送する音響信号に対して、音質音量を調整する音響システムが提案されている。このような音響システムでは、室内に設置されたスピーカーから予め定められた複数の帯域ノイズ信号を出力し、スピーカーの音場に設けられたマイクロホンによって検出されたノイズ信号を分析することで伝達関数を測定している（例えば、特許文献１参照）。

また、このようにスピーカーから発した音響信号をマイクロホンで収音し、収音した音響信号から求めた伝達関数は、雑音抑圧、音源の方向や位置の推定に用いられている。

特開２００２−３２８６８２号公報

しかしながら、上述した技術では、話者が発生した音声信号に対する処理を行う場合、スピーカーでの計測点と話者の発話位置が少しでもズレると精度が劣化する。また、上述した技術では、実際の発話者の音量と、伝達関数を測定するための事前計測の音量を一致させることは困難である。この結果、上述した技術では、音量の違いから反響特性などが変化するため、精度が十分に出ないという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、音場における伝達関数を精度良く推定することができる音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部と、前記第１収音部よりも発話者に近い位置に移動可能に配置され、前記音響信号を収録する第２収音部と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第２収音部及び前記第１収音部によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴とする。

（２）上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部と、前記第１収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音部によって収録された音響信号と推定した前記発話者位置を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴としている。

（３）上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホンを用いて収録する第１収音部と、前記第１収音部によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延部と、前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択部と、予め測定された音場の伝達関数を用いずに、前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延部によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴とする。

（４）本発明に係るその他の様態は、前記第２収音部は、発話者の直接音が収録できる位置に配置されることを特徴とする（１）の音響処理装置である。

（５）本発明に係るその他の様態は、前記伝達関数推定部が推定した伝達関数を記憶する記憶部と、発話者を特定する発話者特定部と、を備え、前記伝達関数推定部は、前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されている場合、前記記憶部に記憶されている発話者に対応する前記伝達関数を選択することを特徴とする（１）から（４）のいずれかの音響処理装置である。

（６）本発明に係るその他の様態は、前記伝達関数推定部は、前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されていない場合、発話者に発話を促す報知を行うことを特徴とする（５）の音響処理装置である。

（７）本発明に係るその他の様態は、前記第１収音部は、発話者が発話したときの音響信号を収録し、前記伝達関数推定部は、前記第１収音部が収録した音響信号に基づいて、前記伝達関数を逐次更新することを特徴とする（１）から（６）のいずれかの音響処理装置である。

（８）本発明に係るその他の様態は、予め所定の伝達関数が記憶されている記憶部を備え、前記伝達関数推定部は、前記記憶部に予め記憶されている伝達関数を、前記第１収音部及び前記第２収音部によって収録された音響信号に基づいて推定された伝達関数を用いて補間することを特徴とする（１）に記載の音響処理装置である。

（９）本発明のその他の態様は、音場に取り付けられた第１収音部が、発話者の発話である音響信号を収録する第１収音手順と、前記第１収音部よりも発話者に近い位置に移動可能に配置される第２収音部が、前記音響信号を収録する第２収音手順と、伝達関数推定部が、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音手順及び前記第２収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、音響信号処理部が、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を含むことを特徴とする音響処理方法である。

（１０）本発明のその他の態様は、音場に取り付けられた第１収音部が、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、遅延部が、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、選択部が、前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、伝達関数推定が、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、音響信号処理部が、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を含むことを特徴としている。

（１１）本発明のその他の態様は、音場に取り付けられた第１収音部と前記第１収音部よりも発話者に近い位置に移動可能に配置される第２収音部とを有する音響処理装置のコンピュータに、音響信号を収録する第１収音手順と、発話者の発話である音響信号を収録する第２収音手順と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音手順及び前記第２収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を実行させる音響処理プログラムである。

（１２）本発明のその他の態様は、音場に取り付けられた第１収音部を有する音響処理装置のコンピュータに、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を実行させる音響処理プログラムである。

上述した（１）、（９）又は（１１）の構成によれば、音場における伝達関数を精度良く推定することができる。
本発明の態様（２）によれば、第２収音部が不要であるため、装置を小型化でき、また、発話者が発話したときに伝達関数を推定することができる。
本発明の態様（３）、（１０）、（１２）によれば、第１収音部のみによって、遅延された音響信号と選択された代表信号に基づいて、伝達関数を精度良く推定することができる。
本発明の態様（４）によれば、第２収音部は、発話者が発話した音響信号を反射音がない状態で収録できるので、伝達関数を精度良く推定することができる。
本発明の態様（５）によれば、すでに記憶部に記憶されている伝達関数を用いることができるので、伝達関数を推定する手間を省くことができる。
本発明の態様（６）によれば、記憶部に伝達関数が記憶されていないときに、発話者が発話する音響信号を収録できるので、伝達関数を効率よく推定することができる。
本発明の態様（７）、（８）によれば、推定した伝達関数を逐次更新、補間することができるので、伝達関数を精度良く推定することができる。

第１実施形態に係る音響処理装置の構成を示すブロック図である。車両内に本実施形態の音響処理装置を適用する例を説明する図である。第１実施形態に係る第１収音部のマイクロホンが１個の場合の音響モデルを説明する図である。第１実施形態に係る第１収音部のマイクロホンがＭ個の場合の音響モデルを説明する図である。ＴＤ手法により算出された伝達関数の特性の一例を示す図である。ＦＤ手法により算出された伝達関数の特性の一例を示す図である。ＦＤＡ手法により算出された伝達関数の特性の一例を示す図である。ＦＤＮ手法により算出された伝達関数の特性の一例を示す図である。ＦＤＰ手法により算出された伝達関数の特性の一例を示す図である。ＦＤＣ手法により算出された伝達関数の特性の一例を示す図である。ＦＤＳ手法により算出された伝達関数の特性の一例を示す図である。第１実施形態に係るＦＤＳ手法において伝達関数推定部が行う処理手順のフローチャートである。従来のスピーカーから発した音声をマイクロホンで収録して伝達関数を推定した場合の音声認識率の一例を説明する図である。第１実施形態にかかる音響処理装置を用いた場合の音声認識率の一例を説明する図である。第２実施形態に係る音響処理装置の構成を示すブロック図である。第２実施形態に係る伝達関数更新部の構成を示すブロック図である。最も早く発話者の音響信号が到達する１番目のマイクロホンが収録した音響信号と、ｎ番目のマイクロホンが収録した音響信号の波形の例を説明する図である。第２実施形態に係る伝達関数を設定する処理のフローチャートである。第２実施形態に係る伝達関数を設定する処理のフローチャートである。第２実施形態に係る伝達関数を設定する処理のフローチャートである。第３実施形態に係る音響処理装置の構成を示すブロック図である。第３実施形態に係る話者Ｓｐと収音部のマイクロホンとの位置関係を説明する図である。第３実施形態に係るマイクロホンアレイにおける信号と伝達関数を説明する図である。代表チャネルにおける伝達関数のインパルスの開始時刻を０とした場合、各チャネルの伝達関数のタイミングを説明する図である。取得された全ての音響信号を開始時刻をＴだけ遅延させた場合、各チャネルの伝達関数のタイミングを説明する図である。第３実施形態に係る伝達関数推定部が推定した伝達関数の結果を示す図である。第３実施形態に係る音響処理装置を用いて６０度の角度から出力された音源について音源定位させた結果を示す図である。第３実施形態に係る音響処理装置を用いて３０度の角度から出力された音源について音源定位させた結果を示す図である。第３本実施形態に係る音響処理装置を用いて０度の角度から出力された音源について音源定位させた結果を示す図である。第３実施形態に係る音響処理装置を用いて−３０度の角度から出力された音源について音源定位させた結果を示す図である。第３実施形態に係る音響処理装置を用いて−６０度の角度から出力された音源について音源定位させた結果を示す図である。

まず、車両内などのように狭い空間において、話者を想定して、スピーカーが発した音響信号をマイクロホンで収音して伝達関数を推定する場合の課題を説明する。
例えば、スピーカーの口径が話者の口より大きいため、スピーカーの振動板の中心から周辺までの位置毎に発せられた音響信号に対する反射音の反射時間が異なる。また、スピーカーから発する音量によっては、多数回の反射が生じることがある。ここで、多数回の反射は、例えば、車両の座席シートに反射後、さらに車両のハンドルで反射することで、２回反射する。このような場合、想定している話者が発した音声信号とは異なってしまうため、この音響信号を用いて精度の良い伝達関数を推定することができない。また、車両内において、話者の口の位置と同じ位置にスピーカーを設置するのは困難であった。
このような課題があったため、車両内にスピーカーとマイクロホンを設置し、スピーカーから発した音響信号をマイクロホンで収音し、収音した音響信号から伝達関数を推定した場合、この伝達関数を用いた音声認識では、認識率が３０％程度しか得られないという問題点があった。

次に、本発明の概要を説明する。
本発明の音響処理装置では、実際の話者による発話によって音場の伝達関数を推定する。
これにより、上述したスピーカーの口径によって生じる反射の差が解消され、室内における反射回数も実際の話者に合わせたものとなり、話者の口の位置に関する課題も解決することができる。

［第１実施形態］
以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る音響処理装置１０の構成を示すブロック図である。図１に示すように、音響処理システム１は、音響処理装置１０、第２収音部２０、及び第１収音部３０を備える。また、音響処理装置１０は、第２音響信号取得部１０１、第１音響信号取得部１０２、伝達関数推定部１０３、音源定位部１０４、音源分離部１０５、音響特徴量抽出部１０６、発話認識部１０７、出力部１０８、及び記憶部１０９を備えている。また、音響処理装置１０には、第２収音部２０及び第１収音部３０が接続されている。

第２収音部２０は、１チャネルの音響信号を収録し、収録した１チャネルの音響信号を音響処理装置１０に送信する。第２収音部２０は、話者が装着する接話マイクロホンである。第２収音部２０は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の成分を有する音波を受信する１個のマイクロホンを備えている。第２収音部２０は、収録した１チャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。
また、第２収音部２０は、例えば、マイクロホンを有する携帯電話であってもよい。この場合、携帯電話は、取得した音響信号を、例えば無線で、第２音響信号取得部１０１に送信するようにしてもよい。

第１収音部３０は、Ｍ個（Ｍは１よりも大きい整数、例えば８個）のチャネルの音響信号を収録し、収録したＭチャネルの音響信号を音響処理装置１０に送信する。第１収音部３０は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の成分を有する音波を受信するＭ個のマイクロホン３０１−１〜３０１−Ｍを備えている。以下、マイクロホン３０１−１〜３０１−Ｍのうち、特定しない場合は、単にマイクロホン３０１という。第１収音部３０は、収録したＭチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｍが１よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。

第２音響信号取得部１０１は、第２収音部２０の１個のマイクロホンによって収録された１個の音響信号を取得する。第２音響信号取得部１０１は、取得した１個の音響信号を伝達関数推定部１０３に出力する。または、第２音響信号取得部１０１は、取得した１個の音響信号に対して、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。第２音響信号取得部１０１は、フーリエ変換した１個の音響信号を伝達関数推定部１０３に出力する。

第１音響信号取得部１０２は、第１収音部３０のＭ個のマイクロホン３０１によって収録されたＭ個の音響信号を取得する。第１音響信号取得部１０２は、取得したＭ個の音響信号を伝達関数推定部１０３に出力する。または、第１音響信号取得部１０２は、取得したＭ個の音響信号に対して、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。第１音響信号取得部１０２は、フーリエ変換したＭ個の音響信号を伝達関数推定部１０３に出力する。

伝達関数推定部１０３は、第２音響信号取得部１０１及び第１音響信号取得部１０２から入力された音響信号を用いて後述するように伝達関数を推定し、推定した伝達関数を記憶部１０９に記憶させる。なお、伝達関数推定部１０３は、例えば、車両を使用する運転者が複数いるような場合、発話者と伝達関数とを関連づけて記憶部１０９に記憶させるようにしてもよい。この場合、伝達関数推定部１０３は、例えば、不図示の操作部から運転者によって入力された情報に応じて、記憶部１０９に記憶させた伝達関数から、運転者に対応する伝達関数を読み出して使用する。
記憶部１０９には、伝達関数が記憶される。また、車両を使用する運転者が複数いるような場合、記憶部１０９には、発話者と伝達関数とが関連づけて記憶される。

音源定位部１０４は、第１音響信号取得部１０２から入力された音響信号に対して、記憶部１０９に記憶されている伝達関数を読み出し、読み出した伝達関数を用いて音源方向を推定する（以下、音源定位という）。音源定位部１０４は、音源定位させた結果を示す情報を音源分離部１０５に出力する。

音源分離部１０５は、音源定位部１０４から入力された音源定位させた結果を示す情報に対して、記憶部１０９に記憶されている伝達関数を読み出し、読み出した伝達関数を用いて目的音と雑音との音源分離を行う。音源分離部１０５は、音源分離した各音源に対応する信号を音響特徴量抽出部１０６に出力する。なお、目的音とは、例えば、発話者から発せられた音声である。雑音（ノイズ）とは、目的音以外の、例えば、風切り音、集音された部屋に置かれている他の装置が発する音などである。

音響特徴量抽出部１０６は、音源分離部１０５から入力された各音源に対応する信号の音響特徴量を抽出し、抽出した各音響特徴量を示す情報を発話認識部１０７に出力する。
発話認識部１０７は、音源に人間が発話した音声が含まれている場合、音響特徴量抽出部１０６から入力された音響特徴量に基づいて音声認識し、認識した認識結果を出力部１０８に出力する。
出力部１０８は、例えば表示装置、音響信号出力装置等である。出力部１０８は、発話認識部１０７から入力された認識結果に基づく情報を、例えば表示部に表示する。

図２は、車両内に本実施形態の音響処理装置１０を適用する例を説明する図である。図２に示すように、第２収音部２０は、例えば、利用者が装着している接話マイクのため、利用者の口元にある。第１収音部３０は、例えば、車両のルームミラー付近に取り付けられている。
また、符号４０１が示す矢印の画像のように、第２収音部２０には、発話者が発話した音響信号が直接伝搬される。一方、符号４０２が示す矢印の画像のように、第１収音部３０には、発話者が発話した音響信号が、直接伝搬され、または、車両のシート及びハンドル等に反射した後、伝搬される。

ここで、第２収音部２０及び第１収音部３０が収録する音響信号と、伝達関数との関係について説明する。
図３は、本実施形態に係る第１収音部３０のマイクロホン３０１が１個の場合の音響モデルを説明する図である。
図３において、信号ｓ（ｔ）は、第２収音部２０が収録した音響信号を時間領域の信号であり、信号ｘ_１（ｔ）は、第１収音部３０が収録した音響信号を時間領域の信号である。ａ_１（ｔ）は、伝達関数である。このため、時間領域における信号ｘ_１（ｔ）は、次式（１）のように表される。

式（１）において、丸の中にＸの演算子は、テルソン積の演算子である。また、次数Ｎとした場合、式（１）は次式（２）のように表される。

また、式（１）を周波数領域で表すと、次式（３）のように表される。

次に、第１収音部３０のマイクロホン３０１がＭ個の場合の音響モデルを説明する。
図４は、本実施形態に係る第１収音部３０のマイクロホン３０１がＭ個の場合の音響モデルを説明する図である。
図４において、信号ｓ（ｔ）は、図３と同様に、第２収音部２０が収録した時間領域の信号であり、信号ｘ_１（ｔ）〜ｘ_Ｍ（ｔ）おのおのは、第１収音部３０のマイクロホン３０１−１〜３０１−Ｍが収録した時間領域の信号である。ａ_１（ｔ）〜ａ_Ｍ（ｔ）は、伝達関数である。時間領域における信号ｘ_１（ｔ）〜ａ_Ｍ（ｔ）は、次式（４）のように表される。

また、次数Ｎとした場合、式（４）は次式（５）のように表される。

また、式（４）を周波数領域で表すと、次式（６）のように表される。

次に、本実施形態における伝達関数の推定方法を説明する。本実施形態では、伝達関数推定部１０３が、以下の７つの手法のうち、いずれかの手法を用いて伝達関数を推定する。

＜ＴＤ手法＞
まず、伝達関数推定部１０３が、リグレッションモデル（ｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌ）を用いて、伝達関数を算出する手法について説明する。また、リグレッションモデルとは、独立した値の相関関係を調べるときなどに用いられるモデルである。そして、リグレッションモデルは、リグレッサ（独立変数）と未知のパラメータである基底パラメータとの積により表される。なお、以下に説明する手法を、以下、ＴＤ（ＴｉｍｅＤｏｍａｉｎ）手法ともいう。

まず、１からＮサンプル目を１フレームとすると、時間領域における１フレームの観測値ｘ_［Ｎ］ ^Ｔは、次式（７）のように表される。

なお、式（７）において、ｘ_［Ｎ］ ^Ｔ、ｓ_{［１：Ｎ］} ^Ｔ、及びａ^Ｔ（ｔ）おのおのは、リグレションモデルにおける観測値、リグレッサ、及び基底パラメータである。また、ｘ_［Ｎ］ ^Ｔは、第１収音部３０によって収録された音響信号に基づく値であり、ｓ_{［１：Ｎ］} ^Ｔは、第２収音部２０によって収録された音響信号に基づく値であり、ａ^Ｔ（ｔ）は、求める伝達関数である。また、式（７）において、上付きのＴは、転置行列を表す。
次に、Ｆフレーム分は、次式（８）のように表される。

式（８）において、フレーム間のシフト長は任意であるが、本実施形態におけるＴＤ手法では、１が一般的である。このため、Ｆフレームの場合は、次式（９）を用いてもよい。

式（８）において、左辺の項をｘ_{［Ｎ｜１：Ｆ］}、右辺のｓに関する項をΦとすると、残差二乗和を最小にする伝達関数ａ^Ｔ（ｔ）の最小二乗推定値は、次式（１０）のように表される。すなわち、伝達関数推定部１０３は、式（１０）を用いて、伝達関数を推定する。

式（１０）において、（Φ^ＴΦ）^−１Φ^Ｔは、Φの疑似逆行列である。すなわち、式（１０）は、観測値のｘ_{［Ｎ｜１：Ｆ］}に、Φの疑似逆行列を乗じることで、伝達関数ａ^Ｔ（ｔ）を推定することを意味している。
なお、本実施形態では、信号の内、先頭からＴサンプルのみを使用する。以降、Ｔを使用次数とする。

図５は、ＴＤ手法により算出された伝達関数の特性の一例を示す図である。図５において、横軸はサンプル数、縦軸は信号の大きさを表す。図５において、符号５０１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、
符号５０２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図５に示した例では、収録した音響信号は、次数が４０９６、使用サンプル数が１６３８４×３である。また、ＴＤ手法に用いた使用次数が４０９６、フレーム長が４０９６、シフト長が１である。また、図５に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

なお、本実施形態では、音響信号における伝達関数の推定を行う例を説明したが、メカニカルなシステムの制御などにおいて、非線形モデルにおける伝達関数の推定に本手法を適用することができる。例えば、本実施形態によれば、非線形メカニカルシステムの一つである倒立振子の質量や慣性モーメントなどのモデルのパラメータを、ラグランジュの運動方程式から導出されるリグレッションモデルを用いて推定することが可能である。

＜ＦＤ手法＞
次に、伝達関数推定部１０３が、周波数領域における複素リグレッションモデルを用いて、伝達関数を推定する手法について説明する。なお、複素リグレッションモデルとは、リグレッションモデルにおいて、時間領域のモデルを複素拡張したものである。なお、以下に説明する手法を、以下、ＦＤ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）手法ともいう。

まず、１からＮサンプル目を１フレームとすると、周波数領域における１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、次式（１１）のように表される。

なお、式（１１）において、Ｘ_［Ｎ］ ^Ｔ、Ｓ_［Ｎ］、及びＡ^Ｔ（ω）おのおのは、リグレションモデルにおける観測値、リグレッサ、及び基底パラメータである。また、Ｘ_［Ｎ］ ^Ｔは、第１収音部３０によって収録された音響信号に基づく値であり、Ｓ_［Ｎ］は、第２収音部２０によって収録された音響信号に基づく値であり、Ａ^Ｔ（ω）は、求める伝達関数である。また、式（１１）において、Ｓ_［Ｎ］は複素スカラである。
次に、Ｆフレーム分は、次式（１２）のように表される。

式（１２）において、左辺の項をｘ_{［Ｎ｜１：Ｆ］}、右辺のＳに関する項をΦとすると、残差二乗和を最小にする伝達関数Ａ^Ｔ（ω）の最小二乗推定値は、次式（１３）のように表される。すなわち、伝達関数推定部１０３は、式（１３）を用いて、伝達関数を推定する。

式（１０）と同様に式（１３）は、観測値のｘ_{［Ｎ｜１：Ｆ］}に、Φの疑似逆行列を乗じることで、伝達関数Ａ^Ｔ（ω）を推定することを意味している。
なお、上述したＦＤ手法では、信号の内、先頭からＴサンプルのみを使用する。

図６は、ＦＤ手法により算出された伝達関数の特性の一例を示す図である。図６において、横軸はサンプル数、縦軸は信号の大きさを表す。図６において、符号５１１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５１２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図６に示した例では、収録した音響信号は、図５と同様である。また、ＦＤ手法に用いた使用次数が４０９６、フレーム長が１６３８４、シフト長が１０、窓関数がハミング関数である。また、図６に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

上述したＦＤ手法では、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換するとき、及びＳ_［ｎ］をｓ_［ｎ］にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したＦＤ手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、ＴＤ手法と比較して演算量を削減できる。

ここで、用いる窓関数の選択について説明する。
伝達関数推定部１０３は、用いる窓関数を、予め定めておいてもよい。または、伝達関数推定部１０３は、用いる窓関数を複数用意しておき、音場や発話者に応じて選択するようにしてもよい。例えば、図１に示した構成により、音声認識を行い、音声認識を行った認識率が高い窓関数を選択するようにしてもよい。窓関数の選択は、周波数分解能を細かくすることと、ダイナミックレンジを広くすることがトレードオフの関係にあるため、状況に応じて適切な窓関数を用いるようにしてもよい。

また、ＦＤ手法におけるフレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、ＦＤ手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。

また、ＦＤ手法の場合、リグレッションモデルを用いているため、観測サンプル内で二乗誤差が最小となる伝達関数を求めることができるので、精度の高い伝達関数を推定することができる。

＜ＦＤＡ手法＞
次に、伝達関数推定部１０３が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、ＦＤＡ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＡｖｅｒａｇｅ）手法ともいう。

まず、ＦＤ手法と同様に、１からＮサンプル目を１フレームとすると、１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、ＦＤ手法の式（１１）と同じである。また、Ｆフレーム分は、ＦＤ手法の式（１２）と同じである。
出力値を入力値で除算した値の平均を算出することで、伝達関数推定部１０３は、伝達関数Ａ^Ｔ（ω）を、次式（１４）によって推定する。

式（１４）に示すように、フレーム間において、出力値である第１収音部３０によって収録された音響信号に基づく値Ｘ_［Ｎ］ ^Ｔを、入力値である第２収音部２０によって収録された音響信号に基づく値Ｓ_［Ｎ］によって除算した値の平均値を算出することで、伝達関数Ａ^Ｔ（ω）を推定することを意味している。

なお、伝達関数Ａ^Ｔ（ω）を逆フーリエ変換すると、Ｎサンプルあるが、本実施形態では、信号の内、先頭からＴサンプルのみを使用する。

図７は、ＦＤＡ手法により算出された伝達関数の特性の一例を示す図である。図７において、横軸はサンプル数、縦軸は信号の大きさを表す。図７において、符号５２１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５２２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図７に示した例では、収録した音響信号は、図５と同様である。また、ＦＤＡ手法に用いた使用次数が４０９６、フレーム長が４０９６、シフト長が１０、窓関数がハミング関数である。また、図７に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

上述したＦＤＡ手法では、ＦＤ手法と同様に、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換するとき、及びＳ_［ｎ］をｓ_［ｎ］にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したＦＤＡ手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、ＴＤ手法と比較して演算量を削減できる。
また、ＦＤＡ手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、ＦＤＡ手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。

＜ＦＤＮ手法＞
次に、伝達関数推定部１０３が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、ＦＤＮ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＮｏｒｍａｌｉｚｅ）手法ともいう。

まず、ＦＤ手法と同様に、１からＮサンプル目を１フレームとすると、１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、ＦＤ手法の式（１１）と同じである。また、Ｆフレーム分は、ＦＤ手法の式（１２）と同じである。
出力値の平均値と、入力値の平均値とを別に算出し、算出した出力の平均値を入力の平均値で除算することで、伝達関数推定部１０３は、伝達関数Ａ^Ｔ（ω）を、次式（１５）によって推定する。

式（１５）に示すように、フレーム間において、出力値である第１収音部３０によって収録された音響信号に基づく値Ｘ_［Ｎ］ ^Ｔの平均値を、入力値である第２収音部２０によって収録された音響信号に基づく値Ｓ_［Ｎ］の平均値によって除算することで、伝達関数Ａ^Ｔ（ω）を推定することを意味している。

図８は、ＦＤＮ手法により算出された伝達関数の特性の一例を示す図である。図８において、横軸はサンプル数、縦軸は信号の大きさを表す。図８において、符号５３１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５３２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図８に示した例では、収録した音響信号は、図５と同様である。また、ＦＤＮ手法に用いた使用次数が４０９６、フレーム長が１６３８４、シフト長が１６３８４、窓関数がハミング関数である。また、図８に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

上述したＦＤＮ手法では、ＦＤ手法と同様に、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換するとき、及びＳ_［ｎ］をｓ_［ｎ］にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したＦＤＮ手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、ＴＤ手法と比較して演算量を削減できる。
また、ＦＤＮ手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、ＦＤＮ手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。

＜ＦＤＰ手法＞
次に、伝達関数推定部１０３が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、ＦＤＰ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＰｈａｓｅＡｖｅｒａｇｅ）手法ともいう。

まず、ＦＤ手法と同様に、１からＮサンプル目を１フレームとすると、１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、ＦＤ手法の式（１１）と同じである。また、Ｆフレーム分は、ＦＤ手法の式（１２）と同じである。
振幅値は、フレーム間を平均し、かつ、位相は、一番信頼できそうなフレーム（ｋとする；ただしｋは１以上かつＦ以下の値）選択することで、伝達関数Ａ^Ｔ（ω）は、次式（１６）のようになる。

式（１６）において、∠は、位相角度である。式（１６）の右辺１項目は、フレーム間において、第１収音部３０によって収録された音響信号に基づく値Ｘ_［Ｎ］ ^Ｔの絶対値の平均値を、第２収音部２０によって収録された音響信号に基づく値Ｓ_［Ｎ］の絶対値の平均値によって除算する。すなわち、右辺１項目は、フレーム間において振幅を平均することを意味している。
次に、右辺２項目は、信頼できそうなｋフレームにおける第１収音部３０によって収録された音響信号に基づく値Ｘ_［Ｎ］ ^Ｔの位相角度を、第２収音部２０によって収録された音響信号に基づく値Ｓ_［Ｎ］の位相角度によって除算することを意味している。
そして、この右辺１項目に、右辺２項目を乗じることで、伝達関数Ａ^Ｔ（ω）を推定する。
なお、伝達関数推定部１０３は、一番信頼できそうなｋ番目のフレームを、に基づいて選択する。選択の指標については、使用周波数帯域の全域に対して大きなパワーとなるフレームを選ぶことが望ましい。

伝達関数Ａ^Ｔ（ω）を逆フーリエ変換すると、Ｎサンプルあるが、本実施形態では、信号の内、先頭からＴサンプルのみを使用する。

図９は、ＦＤＰ手法により算出された伝達関数の特性の一例を示す図である。図９において、横軸はサンプル数、縦軸は信号の大きさを表す。図９において、符号５４１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５４２で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図９に示した例では、収録した音響信号は、図５と同様である。また、ＦＤＰ手法に用いた使用次数が４０９６、フレーム長が１６３８４、シフト長が１６３８４、窓関数がハミング関数である。また、図９に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

上述したＦＤＰ手法によれば、ＦＤ手法等と同様に、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換する窓をかけることができる。同様に、Ｓ_［ｎ］をｓ_［ｎ］にフーリエ変換する窓をかけることができる。このため、ＦＤＰ手法では、ＴＤ手法と比較して演算量を削減できる。
また、ＦＤＰ手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、ＦＤＰ手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。

＜ＦＤＣ手法＞
次に、伝達関数推定部１０３が、周波数領域におけるフレーム間の加算平均に、さらにクロススペクトル法を適用するによって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、ＦＤＣ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＣｒｏｓｓＳｐｅｃｔｒｕｍ）手法ともいう。

まず、ＦＤ手法と同様に、１からＮサンプル目を１フレームとすると、１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、ＦＤ手法の式（１１）と同じである。また、Ｆフレーム分は、ＦＤ手法の式（１２）と同じである。
クロススペクトル法を用いることで、伝達関数Ａ（ω）は、次式（１７）のようになる。なお、式（１７）において、上付き*（アスタリスク）は、複素共役を表す。

ここで、クロススペクトル法について説明する。
自己相関関数Ｒ_ｘをフーリエ変換することで、パワースペクトル密度関数Ｓ_ｘ（ｆ）が得られ、相互相関関数Ｒ_ｘｙをフーリエ変換することで、クロススペクトル密度Ｓ_ｘｙ（ｆ）が得られる。
さらに、時間軸領域の畳み込みの関係が周波数領域で積となる合成積則より、クロススペクトル密度Ｓ_ｘｙ（ｆ）は、インパルス応答の周波数領域表現、すなわち伝達関数であるＨ（ｆ）とパワースペクトル密度関数Ｓ_ｘ（ｆ）との積で表される。
さらに、パワースペクトル密度と、信号のフーリエ変換の関係より、ワースペクトル密度関数Ｓ_ｘ（ｆ）は、次式（１８）のように表され、クロススペクトル密度Ｓ_ｘｙ（ｆ）は、次式（１９）のように表される。

すなわち、観測した入力信号ｘ（ｔ）、出力信号ｙ（ｔ）か、これらの信号の離散時間表現ｘ（ｎ）、ｙ（ｎ）のフーリエ変換を求め、式（１８）及び式（１９）の演算を行うことでインパルス応答の推定を行うことができる。
上述した式（１７）において、右辺の項の分母は式（１８）の総和であり、分子は式（１９）の総和に相当する。従って、式（１８）の総和を、式（１９）の総和で除算することで、伝達関数Ｈ（ｆ）＝Ａ（ω）を算出することができる。

図１０は、ＦＤＣ手法により算出された伝達関数の特性の一例を示す図である。図１０において、横軸はサンプル数、縦軸は信号の大きさを表す。図１０において、符号５５１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５５２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図１０に示した例では、収録した音響信号は、図５と同様である。また、ＦＤＣ手法に用いた使用次数が４０９６、フレーム長が１６３８４、シフト長が１６３８４、窓関数がハミング関数である。また、図１０に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

上述したように、ＦＤＣ手法では、ＦＤ手法等と同様に、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換する窓をかけることができる。同様に、Ｓ_［ｎ］をｓ_［ｎ］にフーリエ変換する窓をかけることができる。このため、ＦＤＣ手法では、ＴＤ手法と比較して演算量を削減できる。
また、ＦＤＣ手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、ＦＤＣ手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。

＜ＦＤＳ手法＞
次に、伝達関数推定部１０３が、周波数領域の１フレームで、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、ＦＤＳ（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＳｉｎｇｌｅｆｒａｍｅ）手法ともいう。

まず、ＦＤ手法と同様に、１からＭサンプル目を１フレームとすると、１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、ＦＤ手法の式（１１）と同じである。
式（１１）より、１フレーム分について伝達関数Ａ^Ｔ（ω）を算出すると、次式（２０）のようになる。

なお、１フレーム分のみで伝達関数を推定するため、ＦＤ手法等で用いる１フレームのサンプル数より多くする。

図１１は、ＦＤＳ手法により算出された伝達関数の特性の一例を示す図である。図１１において、横軸はサンプル数、縦軸は信号の大きさを表す。図１１において、符号５６１で示す領域の画像は、１チャネル目における第２収音部２０と第１収音部３０との間の伝達関数、符号５６２で示す領域の画像は、２チャネル目における第２収音部２０と第１収音部３０との間の伝達関数である。図１１に示した例では、収録した音響信号は、図５と同様である。また、ＦＤＳ手法に用いた使用次数が４０９６、フレーム長が１６３８４×３、窓関数がハミング関数である。また、図１１に示した例では、伝達関数推定部１０３は、先頭から４０９２サンプルを伝達関数として使用する。

次に、ＦＤＳ手法において伝達関数推定部１０３が行う処理手順について説明する。図１２は、本実施形態に係るＦＤＳ手法において伝達関数推定部１０３が行う処理手順のフローチャートである。なお、第２収音部２０及び第１収音部３０が収録した音響信号には、１〜Ｚサンプル目が含まれているとする。
（ステップＳ１０１）第２音響信号取得部１０１及び第１音響信号取得部１０２は、音響信号を取得する。
（ステップＳ１０２）伝達関数推定部１０３は、Ｎ−Ｚ＝ＴとなるようなＴサンプルを選択する。なお、Ｔは、最後に伝達関数として採用する使用次数である。

（ステップＳ１０３）伝達関数推定部１０３は、出力側であるＸ_［Ｎ］の残響を軽減するため、Ｓ_［Ｎ］のＺ＋１〜Ｎサンプル目を０で埋める。なお、伝達関数推定部１０３は、Ｘ_［Ｎ］は、そのまま使用する。
（ステップＳ１０４）伝達関数推定部１０３は、式（２０）を用いて、逆フーリエ変換して、最初のＴサンプルを伝達関数として決定する。

上述したように、ＦＤＳ手法では、ＦＤ手法等と同様に、Ｘ_［ｎ］ ^Ｔをｘ_［ｎ］ ^Ｔにフーリエ変換する窓をかけることができる。同様に、Ｓ_［ｎ］をｓ_［ｎ］にフーリエ変換する窓をかけることができる。このように、ＦＤＳ手法では、ＴＤ手法と比較して演算量を削減できる。

以上のように、本実施形態の音響処理装置１０は、音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部２０と、第１収音部よりも発話者に近い位置に移動可能に配置され、音響信号を収録する第２収音部３０と、音場の所定の位置に発話者がいる際に第１収音部及び第２収音部によって収録された音響信号から伝達関数を推定する伝達関数推定部１０３と、伝達関数推定部で推定した伝達関数を用いて音響信号の処理を行う音響信号処理部（音源定位部１０４、音源分離部１０５、音響特徴量抽出部１０６、発話認識部１０７）と、を備える。
また、本実施形態の音響処理装置１０は、第２収音部２０は、発話者の直接音が収録できる位置に配置される。

この構成によって、本実施形態の音響処理装置１０は、音場における伝達関数を精度良く推定することができる。

次に、本実施形態の音響処理装置１０を用いた場合の実験結果について説明する。
図１３は、従来のスピーカーから発した音声をマイクロホンで収録して伝達関数を推定した場合の音声認識率の一例を説明する図である。図１４は、本実施形態にかかる音響処理装置１０を用いた場合の音声認識率の一例を説明する図である。なお、図１４に示す例では、伝達関数推定部１３は、ＦＤ手法を用いて、伝達関数を推定した。なお、ＦＤ手法を用いた理由は、評価した結果、ＦＤ手法が上述した７つの手法のうち、最も音声認識率が高かったためである。
図１３において、符号６０１が示す画像は、第１計測点の音声認識率を示し、符号６０２が示す画像は、第２計測点の音声認識率を示している。

図１３において、横軸は測定点、縦軸は音声認識率を表す。図１４において、横軸は話者、縦軸は音声認識率を表す。符号６１１が示す画像は、第１話者の音声認識率を示し、符号６１２が示す画像は、第２話者の音声認識率を示し、符号６１３が示す画像は、第３話者の音声認識率を示し、符号６１４が示す画像は、第４話者の音声認識率を示している。
図１３に示すように、従来技術の音声認識率は、測定点１では約２８％、測定点２では約２５％であった。
一方、図１４に示すように、本実施形態では、話者１から話者４の各の音声認識率は、約７２％、７４％、６７％、６４％であった。
すなわち、本実施形態の音響処理装置１０では、従来技術と比較して、音声認識率を約４０％改善することができた。

なお、上述した各手法によって伝達関数を推定するのは、最初の１回のみでもよい。伝達関数推定部１０３は、推定した伝達関数を記憶部１０９に記憶させ、２回目以降は、記憶部１０９に記憶させた伝達関数を用いるようにしてもよい。なお、１回目の計測は、例えば、車両内のシート位置を調整するときなどに、車両の各種制御を行う制御部からの指示に応じて行うようにしてもよい。
また、第２収音部２０がスマートフォン等の携帯電話の場合、運転者が車両を停止させている際に携帯電話で通話を行ったときに、伝達関数推定部１０３は、音響信号を取得して伝達関数を推定するようにしてもよい。さらに、運転者が携帯電話で通話を行ったとき、逐次、伝達関数を更新するようにしてもよい。

また、本実施形態では、発話者の例として、運転者のみを説明したが、助手席または後部座席等に座っている人の音響信号についても、上述したように伝達関数を推定することができる。この場合、例えば、運転者または他の人が不図示の操作部を操作した結果に応じて、伝達関数推定部１０３は、記憶部１０９に記憶させた伝達関数を切り替えるようにしてもよい。

なお、第１実施形態では、伝達関数推定部１０３は、上述した手法のうち１つの手法を用いて伝達関数を推定する例を説明したが、これに限られない。伝達関数推定部１０３は、２つ以上の手法を用いて伝達関数を推定するようにしてもよい。
例えば、伝達関数推定部１０３は、ＦＤ手法とＴＤ手法を統合して、以下のように伝達関数を推定するようにしてもよい。伝達関数推定部１０３は、最小二乗推定で得られたＡ（ω）とａ（ｔ）とを統合する。そして、伝達関数推定部１０３は、伝達関数補間のときの類推を行う。また、伝達関数推定部１０３は、ＦＤ手法における位相の精度と、ＴＤ手法における振幅の精度を算出する。そして、伝達関数推定部１０３は、算出した位相の精度または振幅の精度と、予め定められている精度と比較する。伝達関数推定部１０３は、
位相の精度が予め定められている精度より良い場合、ＦＤ手法によって伝達関数を推定する。一方、伝達関数推定部１０３は、振幅の精度が予め定められている精度より良い場合、ＴＤ手法によって伝達関数を推定する。

また、第１実施形態では、第２収音部２０と第１収音部３０とを用いて発話者が発話した音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明したが、これに限られない。第１収音部３０は、発話者のかわりにスピーカーから出力された音響信号を取得する。そして、伝達関数推定部１０３は、取得した音響信号を観測値として伝達関数を求めて、求めた伝達関数と、上述した手法のいずれかで推定した伝達関数とを統合するようにしてもよい。
第２収音部２０と第１収音部３０とが収録した発話者の音響信号に基づいて推定された伝達関数Ａ^〜（ω）は、次式（２１）及び式（２３）のように表される。なお、式（２１）〜式（２４）において、伝達関数Ａ（ω）は、スピーカーから出力した音響信号を用いて計測された伝達関数である。

なお、式（２１）において、Ｄは、Ａ^〜（ω）は、次式（２２）である。

なお、式（２３）において、補間された伝達関数Ａ^〜（ω）は、次式（２４）である。

式（２１）と式（２３）より、Ａ^〜（ω）は、次式（２５）である。

なお、Ｄの値によって、式（２１）と式（２３）のどちらに重みをかけるか調整することができる。

スピーカーから出力された音響信号に基づいて計測された伝達関数と、第２収音部２０と第１収音部３０とが収録した発話者の音響信号に基づいて推定された伝達関数とを統合する意味合いは、同じ方向の２つの伝達関数の間を補間し、さらに後述するＧＭＭを補間することになる。

以上のように、スピーカーから出力された音響信号に基づいて計測された伝達関数と、第２収音部２０と第１収音部３０とが収録した発話者の音響信号に基づいて推定された伝達関数とを統合することで、運転者の個人差（例えば、背の高さや発話の向き）を考慮した伝達関数を推定することが可能になる。

また、複数の発話者の伝達関数を切り替える場合、伝達関数推定部１０３は、第１収音部３０が収録した音響信号を用いて話者同定を行って、同定した話者に対応する伝達関数に切り替えるようにしてもよい。この場合、話者同定には、ＧＭＭ（混合ガウシアンモデル）を用いて、事前学習させておくようにしてもよい。または、伝達関数推定部１０３は、第２収音部２０と第１収音部３０とが収録した音響信号に基づいて伝達関数を推定したときの音響信号から、同定に用いる音響モデルを生成し、生成した音響モデルを記憶部１０９に記憶させるようにしてもよい。そして、伝達関数推定部１０３は、音響特徴量抽出部１０６が抽出した特徴量を用いて、ＧＭＭの発話者毎の尤度を求める。そして、このように算出した尤度の比を用いて、式（２１）及び式（２３）におけるＤを決定するようにしてもよい。換言すると、最も大きな値の尤度に対応する音響モデルの伝達関数を採用することを意味している。なお、手動で使用する伝達関数が切り替えられる場合、Ｄは、０または１である。

［第２実施形態］
第１実施形態では、接話マイクである第２収音部２０と、マイクロホンアレイである第１収音部３０とを用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明した。本実施形態では、第２収音部２０を用いずに、第１収音部３０を用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明する。

図１５は、本実施形態に係る音響処理装置１０Ａの構成を示すブロック図である。図１５に示すように、音響処理システム１Ａは、音響処理装置１０Ａ、第１収音部３０、及び撮像部４０を備える。また、音響処理装置１０Ａは、第１音響信号取得部１０２、伝達関数推定部１０３Ａ、音源定位部１０４、音源分離部１０５、音響特徴量抽出部１０６、発話認識部１０７、出力部１０８、記憶部１０９、及び口元位置推定部１１０を備えている。伝達関数推定部１０３Ａは、伝達関数更新部１０３Ａ−１を備えている。また、音響処理装置１０Ａには、第１収音部３０が接続されている。なお、第１実施形態で説明した図１の音響処理装置１０と同じ機能を有する機能部については、同じ符号を用いて説明を省略する。

口元位置推定部１１０には、例えば発話者の口元を含む画像を撮像する撮像部４０が接続されている。口元位置推定部１１０は、撮像部４０によって撮像された画像に基づいて、第１収音部３０に対する発話者の口元の位置を推定する。口元位置推定部１１０は、例えば、撮像された画像に含まれる口元の画像の大きさに基づいて、第１収音部３０に対する発話者の口元の位置を推定する。口元位置推定部１１０は、推定した口元位置を示す情報を伝達関数推定部１０３Ａに出力する。
なお、カルマンフィルタを用いて音響信号だけに基づいて音源の位置を推定する場合、口元位置推定部１１０は、伝達関数推定部１０３Ａが備えていてもよい。

伝達関数推定部１０３Ａは、口元位置推定部１１０が出力した口元位置を示す情報と、第１収音部３０が収録した音響信号とを用いて伝達関数を推定し、推定した伝達関数を記憶部１０９に記憶させる。

図１６は、本実施形態に係る伝達関数更新部１０３Ａ−１の構成を示すブロック図である。図１６に示すように、伝達関数更新部１０３Ａ−１は、観測モデル部７０１、更新部７０２、予測部７０３、及び観測部７０４を備えている。

観測モデル部７０１には、後述する１番目のマイクロホン３０１を基準とした時間差ｔ_［ｌ］と、マイクロホン３０１に対する発話者の位置を示す情報とが入力される。観測モデル部７０１は、後述するように、観測モデルを用いて、観測モデルζ_［ｌ］を算出し、算出したζ_［ｌ］を更新部７０２に出力する。
更新部７０２は、観測モデル部７０１から入力される観測モデルζ_［ｌ］、予測部７０３から入力される分散Ｐ^＾ _{［ｌ｜ｌ−１］}、及び観測部７０４から入力される観測値ｈ（ζ^＾ _［ｌ］）を用いて、観測モデルζ^＾ _［ｌ］と分散Ｐ^＾ _［ｌ］を更新し、更新した観測モデルζ^＾ _［ｌ］と分散Ｐ^＾ _［ｌ］を予測部７０３に出力する。

予測部７０３は、更新部７０２から入力された観測モデルζ^＾ _［ｌ］と分散Ｐ^＾ _［ｌ］とを用いて、１つに先の観測モデルζ^＾ _{［ｌ｜ｌ−１］}と分散Ｐ^＾ _{［ｌ｜ｌ−１］}とを予測する。予測部７０３は、予測した観測モデルζ^＾ _{［ｌ｜ｌ−１］}と分散Ｐ^＾ _{［ｌ｜ｌ−１］}とを観測部７０４に出力し、予測した分散Ｐ^＾ _{［ｌ｜ｌ−１］}を更新部７０２に出力する。
観測部７０４は、予測部７０３から入力された観測モデルζ^＾ _{［ｌ｜ｌ−１］}と分散Ｐ^＾ _{［ｌ｜ｌ−１］}とを用いて観測値ｈ（ζ^＾ _［ｌ］）を算出し、算出した観測値ｈ（ζ^＾ _［ｌ］）を更新部７０２に出力する。

ここで、伝搬波モデルについて説明する。以下の説明では、発話者が発話した音響信号に基づく周波数領域の信号をＳ（ω）とし、マイクロホンが収録する音響信号に基づく周波数領域の信号をＸ_［ｎ］（ω）とし、伝達関数をＡ（ξ_ｓ，ξ_ｍ［ｎ］，ω）とする。
音響信号は１チャネルの場合の周波数領域の信号をＸ_［ｎ］（ω）は、次式（２６）のように表される。なお、ｎは、マイクロホンの番号、ξ_ｓは発話位置、ξ_ｍ［ｎ］は、ｎ番目のマイクロホンの位置である。

なお、式（２６）において、ξ_ｓは次式（２７）、ξ_ｍ［ｎ］は次式（２８）である。

また、音響信号はマルチチャネルの場合の周波数領域の信号をＸ（ω）は、次式（２９）のように表される。

なお、式（２９）において、伝達関数Ａ（ξ_ｓ，ξ_ｍ，ω）は次式（３０）である。

図１７は、最も早く発話者の音響信号が到達する１番目のマイクロホン３０１が収録した音響信号と、ｎ番目のマイクロホン３０１が収録した音響信号の波形の例を説明する図である。図１７において、横軸は時刻、縦軸は信号の大きさを表す。時刻ｔ＝０のとき、発話者が発話し、上述したように、発話者の位置はξ_ｓであり、ｎ番目のマイクロホンの位置はξ_ｍ［ｎ］である。また、発話者とｎ番目のマイクロホンとの距離をＤ_［ｎ］とする。
図１７に示すように、時刻ｔ_［１］のとき、１番目のマイクロホン３０１が発話者によって発話された音響信号が始まり、時刻ｔ_［ｎ］のとき、ｎ番目のマイクロホン３０１が発話者によって発話された音響信号が始まる。１番目のマイクロホン３０１に対するｎ番目のマイクロホン３０１の遅延時間ｔ_［ｎ］は、次式（３１）のように表される。

なお、式（３１）において、ｃは光速である。距離Ｄ_［ｎ］は、式（２７）、式（２８）より、次式（３２）のように表される。

次に、運動モデルについて説明する。
発話者の運動モデル（ランダムウォークモデル）は、次式（３３）のように表される。

なお、式（３３）において、Ｗ_ｓ［ｌ］は、次式（３４）である。

また、マイクロホンの運動モデル（ランダムウォークモデル）は、次式（３５）のように表される。

なお、式（３５）において、Ｗ_ｍ［ｌ］は、次式（３６）であり、Ｗ_{ｍ［ｎ］［ｌ］}は、次式（３７）である。

なお、式（３６）においてＲは、共分散行列である。

次に、観測モデルについて説明する。なお、以下の観測モデルは、観測モデル部７０１に記憶される。
１番目のマイクロホン３０１を基準とした時間差を観測すると、時間差は、次式（３８）のように表される。

また、観測モデルは、次式（３９）のように表される。

観測モデル部７０１は、式（３８）と式（３９）を用いて観測モデルζ_［ｌ］を算出し、算出した観測モデルζ_［ｌ］を更新部７０２に出力する。

次に、予測部７０３が行う予測ステップについて説明する。
予測部７０３は、次式（４０）を用いて、平均のアップデートを行う。

また、予測部７０３は、次式（４１）を用いて、分散Ｐのアップデートを行う。

式（４１）において、Ｉは単位行列、ｄｉａｇ（）は、対角行列を表している。また、Ｐは、分散であり、Ｆはシステムの時間変移に関する線形モデルであり、Ｒは共分散行列である。予測部７０３は、更新部７０２から入力された観測モデルζ^＾ _{［ｌ−１］}を観測モデルζ^＾ _{［ｌ｜ｌ−１］}に更新して、更新した観測モデルζ^＾ _{［ｌ｜ｌ−１］}を観測部７０４に出力する。また、予測部７０３は、更新部７０２から入力された分散Ｐ^＾ _{［ｌ−１］}を分散Ｐ^＾ _{［ｌ｜ｌ−１］}に更新して、更新した分散Ｐ^＾ _{［ｌ｜ｌ−１］}を観測部７０４と更新部７０２とに出力する。

次に、観測部７０４が行う観測ステップについて説明する。
観測部７０４は、予測部７０３から入力された観測モデルζ^＾ _{［ｌ｜ｌ−１］}を観測し、次式（４２）により、観測値ｈ（ζ^＾ _［ｌ］）を算出し、算出した観測値ｈ（ζ^＾ _［ｌ］）を更新部７０２に出力する。

次に、更新部７０２が行う、更新ステップについて説明する。
更新部７０２は、次式（４３）により、カルマンゲインＫを更新する。

なお、式（４３）において、Ｈは、状態空間に観測空間を線形写像する役割をする観測モデルであり、Ｑは共分散行列である。

また、更新部７０２は、次式（４４）により、観測モデルζ^＾ _［ｌ］を更新する。

なお、式（４３）において、Ｐ_［ｌ］は、次式（４５）であり、Ｈ_［ｌ］は、次式（４６）であり、Ｑ_［ｌ］は、次式（４７）である。

なお、式（４７）において、σ_ｒは、観測に対する分散である。
更新部７０２は、観測モデル部７０１から入力された観測モデルζ_［ｌ］と、観測部７０４から入力された観測値ｈ（ζ^＾ _［ｌ］）と、予測部７０３から入力された分散Ｐ^＾ _{［ｌ｜ｌ−１］}と、上述した式（４４）〜（４７）を用いて、観測モデルζ^＾ _［ｌ］と分散Ｐ^＾ _［ｌ］を更新し、更新した観測モデルζ^＾ _［ｌ］と分散Ｐ^＾ _［ｌ］を予測部７０３に出力する。
伝達関数更新部１０３Ａ−１は、上述した更新を、推定誤差が最小になるまで行って伝達関数Ａ（ξ^＾ _ｓ［ｌ］，ξ^＾ _ｍ［ｌ］，ω）を推定する。

以上のように、本実施形態の音響処理装置１０Ａは、音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部３０と、第１収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部（口元位置推定部１１０）と、音場の所定の位置に発話者がいる際に第１収音部によって収録された音響信号と推定した発話者位置から伝達関数を推定する伝達関数推定部１０３と、伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部（１０４〜１０７）と、を備える。

この構成によって、本実施形態によれば、第２収音部２０を用いず、第１収音部３０のみで伝達関数を推定することができる。

なお、第２収音部２０と第１収音部３０とを用いてを収録し、収録した音響信号に基づいて最初の１回目のみ伝達関数を推定した場合、２回目以降は、第１収音部３０を用いて音響信号を収録するようにしてもよい。そして、伝達関数推定部１０３は、第１収音部３０によって収録された音響信号を観測値とし、１回目で推定した伝達関数を、カルマンフィルタを逐次更新することで補正していくことで、伝達関数を補正するようにしてもよい。
なお、このように逐次更新をおこなうため、伝達関数推定部１０３は、上述した手法のうち時間領域の手法を用いて、伝達関数を推定するようにしてもよい。

なお、第１実施形態では、運転者が複数いる場合、第２収音部２０と第１収音部３０とを用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明したが、これに限らない。
例えば、第１運転者の発話のみを、第２収音部２０と第１収音部３０とを用いてを収録し、収録した音響信号に基づいて伝達関数を推定する。そして、他の運転者の発話は、第１収音部３０を用いて収録する。そして、伝達関数推定部１０３または１０３Ａは、収録した運転者の音響信号である観測値とし、第１運転者の伝達関数を、カルマンフィルタを逐次更新することで補正していくことで、第１運転者の伝達関数を補正するようにしてもよい。このように補正した伝達関数を、伝達関数推定部１０３または１０３Ａは、発話者である運転者と関連づけて記憶部１０９に記憶させるようにしてもよい。
同様に、逐次更新をおこなうため、伝達関数推定部１０３または１０３Ａは、上述した手法のうち時間領域の手法をもちいて、伝達関数を推定するようにしてもよい。

なお、第１実施形態の音響処理装置１０においても、上述した発話者の同定を行うようにしてもよい。伝達関数推定部１０３または１０３Ａは、同定された発話者に対応する伝達関数が、すでに記憶部１０９に記憶されているか否かを判別する。伝達関数推定部１０３または１０３Ａは、記憶部１０９に、すでに発話者に対応する伝達関数が記憶されている場合、発話者に対応する伝達関数を記憶部１０９から読み出して用いる。
一方、伝達関数推定部１０３または１０３Ａは、記憶部１０９に、すでに発話者に対応する伝達関数が記憶されていない場合、発話者に対して発話を促す報知を行うようにしてもよい。報知は、例えば、音響処理装置１０に接続されている不図示のスピーカー等から音響信号として報知してもよく、または、音響処理装置１０（または１０Ａ）に接続されている不図示の表示部等から画像や文字情報として報知してもよい。

ここで、発話者の同定を行って伝達関数を設定する処理手順の例を、図１８〜図２０を用いて説明する。図１８〜図２０は、本実施形態に係る伝達関数を設定する処理のフローチャートである。以下の説明では、図１５の構成の音響処理装置１０Ａが伝達関数を設定する処理する例を説明するが、図１の構成の音響処理装置１０が伝達関数を設定する処理するようにしてもよい。

まず、伝達関数を設定する処理の一例を、図１８を用いて説明する。
（ステップＳ２０１）伝達関数推定部１０３Ａは、撮像部４０が音響処理装置１０Ａに接続されている場合、撮像装置が撮像した画像に基づいて、座席シートに乗員が着席したか否かを判別する。なお、伝達関数推定部１０３Ａは、座席シートに取り付けられている不図示の乗員検知センサが検出した結果に基づいて、座席シートに乗員が着席したか否かを判別するようにしてもよい。伝達関数推定部１０３Ａは、座席シートに乗員が着席したと判別した場合（ステップＳ２０１；ＹＥＳ）、ステップＳ２０２に進み、座席シートに乗員が着席していないと判別した場合（ステップＳ２０１；ＮＯ）、ステップＳ２０１を繰り返す。

（ステップＳ２０２）伝達関数推定部１０３Ａは、例えば、第１音響信号取得部１０２が取得した音響信号に基づいて、座席シートに座った利用者の同定を自動的に行う。なお、伝達関数推定部１０３Ａは、撮像部４０が撮像した画像を用いて、利用者の同定を行うようにしてもよい。または、音響処理装置１０Ａに接続されている不図示の操作部を利用者が操作することで、利用者に関する情報を選択または入力するようにしてもよい。
（ステップＳ２０３）伝達関数推定部１０３Ａは、ステップＳ２０２で同定した利用者に対応する伝達関数が記憶部１０９に記憶されているか否か判別する。伝達関数推定部１０３Ａは、同定した利用者に対応する伝達関数が記憶部１０９に記憶されていないと判別した場合（ステップＳ２０３；ＮＯ）、ステップＳ２０６に進み、同定した利用者に対応する伝達関数が記憶部１０９に記憶されていると判別した場合（ステップＳ２０３；ＹＥＳ）、ステップＳ２０５に進む。

（ステップＳ２０５）伝達関数推定部１０３Ａは、記憶部１０９に記憶されている伝達関数を読み出して、読み出した伝達関数を利用者の発話に対して用いるように設定する。伝達関数推定部１０３Ａは、設定後、処理を終了する。
（ステップＳ２０６）伝達関数推定部１０３Ａは、例えば予め記憶部１０９に記憶されている発話を要請する旨の音声信号を出力部１０８に出力することで、利用者に発話要請を行う。

（ステップＳ２０７）伝達関数推定部１０３Ａは、第１音響信号取得部１０２が取得した音響信号に基づいて、伝達関数を計測する。
（ステップＳ２０８）伝達関数推定部１０３Ａは、計測した伝達関数を記憶部１０９に保存する。

次に、伝達関数を設定する処理手順の他の例を、図１９を用いて説明する。
（ステップＳ３０１〜Ｓ３０２）伝達関数推定部１０３Ａは、ステップＳ３０１〜Ｓ３０２の処理を、ステップＳ２０１〜Ｓ２０２（図１８）と同様に処理を行う。なお、伝達関数推定部１０３Ａは、ステップＳ３０１終了後、ステップＳ３０２を行わずに、ステップＳ３０３に処理を進めてもよい。

（ステップＳ３０３）伝達関数推定部１０３Ａは、不図示の操作部を利用者が操作した結果に基づいて、伝達関数の測定を行うか否かを判別する。伝達関数推定部１０３Ａは、伝達関数の測定を行わないと判別した場合（ステップＳ３０３：ＮＯ）、ステップＳ３０４に進み、伝達関数の測定を行うと判別した場合（ステップＳ３０３：ＹＥＳ）、ステップＳ３０５に進む。

（ステップＳ３０４〜Ｓ３０６）伝達関数推定部１０３Ａは、ステップＳ３０３〜Ｓ３０６の処理を、ステップＳ２０５、Ｓ２０７、及びＳ２０８と同様に行う。

ステップＳ３０３において、例えば、利用者が、音声認識機能を利用しないことを示す情報を選択した場合、伝達関数推定部１０３Ａは、伝達関数の測定を行わないと判別するようにしてもよい。または、利用者が、音声認識機能を利用することを示す情報を選択した場合、伝達関数推定部１０３Ａは、伝達関数の測定を行うと判別するようにしてもよい。

次に、伝達関数を設定する処理手順の他の例を、図２０を用いて説明する。
（ステップＳ４０１〜Ｓ４０３）伝達関数推定部１０３Ａは、ステップＳ４０１〜Ｓ４０４の処理を、ステップＳ３０３〜Ｓ３０５（図１９）と同様に処理を行う。例えば、利用者が操作部を操作したことに応じて、ステップＳ４０１の処理を開始する。伝達関数推定部１０３Ａは、ステップＳ４０３終了後、処理をステップＳ４０４に進める。

（ステップＳ４０４）伝達関数推定部１０３Ａは、伝達関数推定部１０３Ａは、計測した伝達関数をアップデートして、記憶部１０９に保存する。または、伝達関数推定部１０３Ａは、伝達関数推定部１０３Ａは、計測した伝達関数を記憶部１０９に、新規に保存する。

図２０に示した例において、すでに記憶部１０９に記憶されている伝達関数を用いて認識処理を音響処理装置１０Ａが行っていても、利用者にとって認識率が低いと感じた場合、利用者は、再度、伝達関数の計測を行うように操作部を操作するようにしてもよい。この操作に応じて音響処理装置１０Ａは、ステップＳ４０１において、伝達関数の計測を行うと判別するようにしてもよい。

なお、図１８〜図２０に示した例は一例であり、これに限られない。例えば、記憶部１０９には、複数の音響モデルや言語モデルが利用者を示す情報と関連づけて記憶されていてもよい。そして、伝達関数推定部１０３Ａは、利用者を同定した結果に基づいて、利用者に対応する音響モデルや言語モデルを記憶部１０９から読み出して用いるようにしてもよい。

このように複数の音響モデルや言語モデルを用いることで、例えば、第１利用者が日本語を話す男性、第２利用者が英語を話す女性のような場合であっても、本実施形態の音響処理装置１０Ａは、車両等の空間において、利用者毎に音響モデルや言語モデルを用いて伝達関数を計測することができる。この結果、本実施形態によれば、車両等の空間において、音声認識率を向上させることができる。

［第３実施形態］
第１実施形態では、接話マイクロホンである第２収音部２０と、マイクアレイである第１収音部３０とが収録した音響信号に基づいて、伝達関数推定部１０３が、伝達関数を推定する例を説明した。
本実施形態では、接話マイクロホンを用いずに、マイクロホンアレイのみを用いて、伝達関数を推定する例を説明する。

図２１は、本実施形態に係る音響処理装置１０Ｂの構成を示すブロック図である。図２１に示すように、音響処理システム１Ｂは、音響処理装置１０Ｂ及び第１収音部３０Ｂを備える。また、音響処理装置１０Ｂは、第１音響信号取得部１０２Ｂ、伝達関数推定部１０３Ｂ、音源定位部１０４、音源分離部１０５、音響特徴量抽出部１０６、発話認識部１０７、出力部１０８、記憶部１０９、遅延部１１１、及び選択部１１２を備えている。また、音響処理装置１０には、第１収音部３０Ｂが接続されている。なお、音響処理装置１０と同じ機能を有する機能部については、同じ符号を用いる。また、第１音響信号取得部１０２Ｂは、第１音響信号取得部１０２（図１）の対応し、第１収音部３０Ｂは、第１収音部３０（図１）に対応する。

第１音響信号取得部１０２Ｂは、第１収音部３０のＭ個のマイクロホン３０１によって収録されたＭ個の音響信号を取得する。第１音響信号取得部１０２Ｂは、取得したＭ個の音響信号を伝達関数推定部１０３Ｂ、遅延部１１１、及び選択部１１２に出力する。

遅延部１１１は、第１音響信号取得部１０２Ｂから入力されたＭ個の音響信号に対して、予め定められている時間遅延させる。ここで、予め定められている時間とは、後述するように、選択部１１２によって選択された代表チャネルに対応するマイクロホン３０１より音源に近い音響信号のインパルス応答が、演算に正の時刻となる時間である。遅延部１１１は、時間遅延させたＭ個の音響信号を、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。遅延部１１１は、フーリエ変換したＭ個の音響信号を伝達関数推定部１０３Ｂに出力する。なお、音源定位部１０４に入力される音響信号は、遅延部１１１によって遅延され、フーリエ変換される前の信号であってもよい。

選択部１１２は、第１音響信号取得部１０２Ｂから入力されたＭ個の音響信号の中から、１つの音響信号を選択する。選択する音響信号は、任意であってもよく、予め定められたマイクロホン３０１に対応するものであってもよい。選択部１１２は、選択した結果を示す情報を伝達関数推定部１０３Ｂに出力する。なお、音響信号の選択は、伝達関数推定部１０３Ｂが行ってもよい。

伝達関数推定部１０３Ｂは、選択部１１２から入力された選択された結果を示す情報と、遅延部１１１から入力された音響信号とを用いて後述するように伝達関数を推定し、推定した伝達関数を音源定位部１０４に出力する。また、伝達関数推定部１０３Ｂは、推定した伝達関数を記憶部１０９に記憶させる。なお、伝達関数推定部１０３Ｂは、例えば、車両を使用する運転者が複数いるような場合、発話者と伝達関数とを関連づけて記憶部１０９に記憶させるようにしてもよい。この場合、伝達関数推定部１０３Ｂは、例えば、不図示の操作部から運転者によって入力された情報に応じて、記憶部１０９に記憶させた伝達関数から、運転者に対応する伝達関数を読み出して使用する。

図２２は、本実施形態に係る話者Ｓｐと第１収音部３０Ｂのマイクロホン３０１との位置関係を説明する図である。図２２において、話者Ｓｐがいる床の面をｘｙ平面、話者Ｓｐの前方方向をｘ軸方向、話者Ｓｐの左手方向をｙ軸方向、高さ方向をｚ軸方向とする。
図２２に示す例では、第１収音部３０Ｂが４つのマイクロホン３０１−１〜３０１−４を備えている。４つのマイクロホン３０１−１〜３０１−４によって、マイクロホンアレイが構成される。マイクロホンアレイは、例えばｘｙ平面上に構成されている。

図２２のように、話者Ｓｐの口元と各マイクロホン３０１−１〜３０１−４とのそれぞれの距離は、Ｌ１、Ｌ２、Ｌ３、Ｌ４である。図２２に示した例では、マイクロホン３０１−４と話者Ｓｐの口元との距離Ｌ４が、最も短い、すなわち最も近い。マイクロホン３０１−１と話者Ｓｐの口元との距離Ｌ１は、距離Ｌ４より長く距離Ｌ３より短い。マイクロホン３０１−３と話者Ｓｐの口元との距離Ｌ３は、距離Ｌ１より長く距離Ｌ２より短い。マイクロホン３０１−４と話者Ｓｐの口元との距離Ｌ４が、最も長い、すなわち最も遠い。このように、第１実施形態の図２で説明したような車両に設置されるマイクロホンアレイと、話者Ｓｐとの口元との距離は、マイクロホン３０１毎に異なっている。
なお、以下の説明では、マイクロホン３０１−１に到達する１ｃｈ（チャネル）目の音響信号を１ｃｈ、マイクロホン３０１−２に到達する２ｃｈ目の音響信号を２ｃｈ、マイクロホン３０１−３に到達する３ｃｈ目の音響信号を３ｃｈ、マイクロホン３０１−４に到達する４ｃｈ目の音響信号を４ｃｈという。

図２３は、本実施形態に係るマイクロホンアレイにおける信号と伝達関数を説明する図である。
図２３では、マイクロホン３０１−１に到達する音響信号を代表チャネルとしている。信号ｘ_１（ｔ）〜ｘ_４（ｔ）ぞれぞれは、マイクロホン３０１−１〜３０１−４それぞれが収録した音響信号を時間領域の信号である。また、ａ_１ ^〜（ｔ）は、マイクロホン３０１−１とマイクロホン３０１−１との間の推定される伝達関数、ａ_２ ^〜（ｔ）は、マイクロホン３０１−１とマイクロホン３０１−２との間の推定される伝達関数である。ａ_３ ^〜（ｔ）は、マイクロホン３０１−１とマイクロホン３０１−３との間の推定される伝達関数、ａ_４ ^〜（ｔ）は、マイクロホン３０１−１とマイクロホン３０１−４との間の推定される伝達関数である。

次に、マイクロホン３０１がＭ個の場合を説明する。
ａ_１（ｔ）〜ａ_４（ｔ）それぞれは、マイクロホン３０１−１〜３０４−４の各伝達関数である。まず、マイクロホン３０１−１が収録する音響信号を代表チャネルとする。次数Ｎとした場合、時間領域における信号ｘ_１［Ｎ］〜ａ_Ｍ［Ｎ］は、次式（４８）のように表される。

図２４は、代表チャネルにおける伝達関数のインパルスの開始時刻を０とした場合、各チャネルの伝達関数のタイミングを説明する図である。
図２４において、横軸は時刻、縦軸は信号の大きさを表している。また、図２４は、４本のマイクロホン３０１−１〜３０１−４で収録された直接波の例であり、各マイクロホン３０１−１〜３０１−４と話者Ｓｐの口元との距離Ｌ１〜Ｌ４は、図２２で説明した関係であるとする。符号ｇ１が示す波形は、１ｃｈの伝達関数のインパルス応答の波形、符号ｇ２が示す波形は、２ｃｈの伝達関数のインパルス応答の波形、符号ｇ３が示す波形は、３ｃｈの伝達関数のインパルス応答の波形、符号ｇ４が示す波形は、４ｃｈの伝達関数のインパルス応答の波形である。

ここで、１ｃｈを代表チャネルとし、符号ｇ１のように、１ｃｈの伝達関数のインパルス応答の開始時刻を０とする。符号ｇ２のように、時刻ｔ１３のときが、２ｃｈの伝達関数のインパルス応答の開始時刻であり、符号ｇ３のように、時刻ｔ１２のときが、３ｃｈの伝達関数のインパルス応答の開始時刻である。符号ｇ４のように、時刻−ｔ１１のときが、４ｃｈの伝達関数のインパルス応答の開始時刻である。
すなわち、マイクロホン３０１のうち、任意のマイクロホン３０１を選択した場合、選択されたマイクロホン３０１より、話者Ｓｐの口元に近いマイクロホン３０１があると、そのマイクロホン３０１については、伝達関数のインパルス応答が負の時間に直接波が到来することになってしまう。

このため、本実施形態では、マイクロホン３０１のうち、任意のマイクロホン３０１を選択部１１２によって選択した場合でも、代表チャネルより音源に近いチャネルが、負の時刻にならないように遅延部１１１によって所定時刻Ｔだけ遅延させて、伝達関数の推定を行う。
図２５は、取得された全ての音響信号を開始時刻をＴだけ遅延させた場合、各チャネルの伝達関数のタイミングを説明する図である。図２５において、横軸は時刻、縦軸は信号の大きさを表す。

図２５に示すように、代表チャネルである１ｃｈのインパルス応答の開始時刻を時刻０からＴだけずらしている。この結果、符号ｇ１１が示す波形のように、時刻ｔ２２のときが、１ｃｈの伝達関数のインパルス応答の開始時刻であり、符号ｇ１２が示す波形のように、時刻ｔ２４のときが、２ｃｈの伝達関数のインパルス応答の開始時刻である。符号ｇ１３が示す波形のように、時刻ｔ２３のときが、３ｃｈの伝達関数のインパルス応答の開始時刻であり、符号ｇ１４が示す波形のように、時刻ｔ２１のときが、４ｃｈの伝達関数のインパルス応答の開始時刻である。
すなわち、マイクロホン３０１のうち、任意のマイクロホン３０１を選択し、選択されたマイクロホン３０１より、話者Ｓｐの口元に近いマイクロホン３０１があっても、全てのマイクロホン３０１について、伝達関数のインパルス応答が正の時刻に直接波が到来することになる。

マイクロホン３０１がＭ個、次数Ｎとした場合、時間領域における信号ｘ_１［Ｎ］〜ａ_Ｍ［Ｎ］は、式（４８）から時刻Ｔだけ遅延させたものであるため、次式（４９）のように表される。

式（４９）において、左辺をｘ［Ｎ］、右辺の第１項をａ（ｔ）、右辺の第２項をｘ１_{［１―Ｔ：Ｎ−Ｔ］}と置く。
式（４９）をフーリエ変換すると、式（４９）は次式（５０）のようになる。

式（５０）において、ωは、周波数領域における周波数であり、Ｘ_１［Ｎ］は複素スカラである。
式（５０）より、１からＮサンプル目を１フレームとすると、周波数領域における１フレームの観測値Ｘ_［Ｎ］ ^Ｔは、次式（５１）のように表される。

伝達関数推定部１０３Ｂは、１フレームの観測値である式（５１）を用いて、第１実施形態で説明したＴＤ手法、ＦＤ手法、ＦＤＡ手法、ＦＤＮ手法、ＦＤＰ手法、ＦＤＣ手法、及びＦＤＳ手法と同様の手順で、伝達関数を推定する。

次に、本実施形態の音響処理装置１０Ｂを用いた場合の実験結果について説明する。
まず、実験を行った条件について説明する。実験に用いた音源は、３０度毎に角度を変化させることができるスピーカーを用いた。そして、人間が発した音声を録音し、録音された音響信号をこのスピーカーから出力した。また、８本のマイクロホン３０１を用いて音響信号の収録を行った。
音響処理装置１０Ｂにおいて、次数Ｎは４０９６、使用サンプル数は１６３８４×１である。また、伝達関数推定部１０３Ｂは、ＦＤ手法を用いて、伝達関数を推定した。推定の条件は、使用次数Ｔが４０９６、フレーム長Ｎが１６３８、シフト長が１０、窓関数としてハミング（Ｈａｍｍｉｎｇ）関数を使用、そして遅延量Ｔが１２８である。そして、−６０度、−３０度、０度、３０度、及び６０度にスピーカーの角度を変化させて、実験を行った。

図２６は、伝達関数推定部１０３Ｂが推定した伝達関数の結果を示す図である。図２６において、紙面に向かって左右方向はマイクロホンの番号、紙面に向かって奥行き方向は時間、紙面に向かって縦方向は信号の大きさである。また、図２６において、マイクロホンＮｏ．０が収録する音響信号を代表チャネルとしている。また、図２６において、符号ｇ２０が示す波形は、マイクロホンＮｏ．０の伝達関数、符号ｇ２１〜ｇ２７が示す波形それぞれは、マイクロホンＮｏ．１〜Ｎｏ．７の伝達関数である。図２６の符号ｇ２１〜ｇ２７が示す波形のように、マイクロホンＮｏ．０〜Ｎｏ．７の伝達関数は、全て時刻が正になっている。このように、実験において、音響処理装置１０Ｂが、所定の時刻Ｔずらした伝達関数を用いて音源定位させた。

次に、音響処理装置１０Ｂを用いて音源定位させた結果を説明する。
図２７は、本実施形態に係る音響処理装置１０Ｂを用いて６０度の角度から出力された音源について音源定位させた結果を示す図である。図２８は、本実施形態に係る音響処理装置１０Ｂを用いて３０度の角度から出力された音源について音源定位させた結果を示す図である。図２９は、本実施形態に係る音響処理装置１０Ｂを用いて０度の角度から出力された音源について音源定位させた結果を示す図である。図３０は、本実施形態に係る音響処理装置１０Ｂを用いて−３０度の角度から出力された音源について音源定位させた結果を示す図である。図３１は、本実施形態に係る音響処理装置１０Ｂを用いて−６０度の角度から出力された音源について音源定位させた結果を示す図である。
図２７〜図３１において、横軸は時刻、縦軸は推定された角度（方位）である。
また、符号ｇ３１、ｇ４１、ｇ５１、ｇ６１、及びｇ７１が示す線は、第１の音声信号（例えば、第一声「あー」）を音源定位させた結果を示している。符号ｇ３２、ｇ４２、ｇ５２、ｇ６２、及びｇ７２が示す線は、第２の音声信号（例えば、第二声「あー」）を音源定位させた結果を示している。符号ｇ３３、ｇ４３、ｇ５３、ｇ６３、及びｇ７３が示す線は、第３の音声信号（例えば、第三声「あー」）を音源定位させた結果を示している。

図２７の符号ｇ３１〜ｇ３３のように、６０度の角度から発せられた音響信号を定位させた結果、６０度の定位結果が得られた。図２８の符号ｇ４１〜ｇ４３のように、３０度の角度から発せられた音響信号を定位させた結果、３０度の定位結果が得られた。図２９の符号ｇ５１〜ｇ５３のように、０度の角度から発せられた音響信号を定位させた結果、０度の定位結果が得られた。図３０の符号６１〜６３のように、−３０度の角度から発せられた音響信号を定位させた結果、−３０度の定位結果が得られた。図３１の符号ｇ７１〜ｇ７３のように、−６０度の角度から発せられた音響信号を定位させた結果、−６０度の定位結果が得られた。

以上のように、本実施形態の音響処理装置１０Ｂは、音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホン３０１−１〜３０１−Ｍを用いて収録する第１収音部（第１収音部３０Ｂ、第１音響信号取得部１０２Ｂ）と、第１収音部によって集音された全ての音響信号を所定の時間だけ遅延させる遅延部１１１と、複数のマイクロホンの中から１つのマイクロホンを選択し、選択したマイクロホンを選択する選択部１１２と、選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、遅延部によって遅延された音響信号を用いて伝達関数を推定する伝達関数推定部１０３Ｂと、伝達関数推定部で推定した伝達関数を用いて音響信号の処理を行う音響信号処理部（音源定位部１０４、音源分離部１０５、音響特徴量抽出部１０６、発話認識部１０７）と、を備える。

この構成によって、本実施形態の音響処理装置１０Ｂでは、第１収音部３０Ｂが備える複数のマイクロホン３０１の中から、任意のマイクロホン３０１を代表チャネルとする。そして、この代表チャネルの伝達関数におけるインパルスの開始時刻を時刻Ｔずらすことにより、選択された代表チャネルに対応するマイクロホン３０１より音源に近いマイクロホン３０１があっても、伝達関数を推定することができる。この結果、接話マイクロホンを用いることなく、車両等の狭い空間であっても、マイクロホンアレイを用いて、精度良く伝達関数を推定することができる。

なお、本実施形態では、図２２、図２３において、マイクロホン３０１が４本の例を説明したが、これに限られず、２本以上であればよい。また、複数のマイクロホン３０１の配置は、例えば図２２において、ｘｙ平面に限られず、ｘｙｚ空間に３次元配置するようにしてもよい。
また、音響処理装置１０Ｂは、第２実施形態で説明した口元位置推定部１１０（図１５）を備えていてもよい。さらに、音響処理装置１０Ｂは、第２実施形態で説明したように、推定誤差が最小になるまで行って伝達関数を推定するようにしてもよい。

また、本実施形態では、取得された音響信号を、予め定められた時間Ｔだけ遅延させる例を説明したが、遅延させる時間Ｔは、音響処理装置１０Ｂが算出するようにしてもよい。例えば、車両に音響処理装置１０Ｂが取り付けられている場合、運転者の口元が想定される位置から既知の音響信号を発し、発せられた音響信号を第１収音部３０Ｂ、を第１音響信号取得部１０２Ｂで取得する。そして、音響処理装置１０Ｂは、取得された各チャネルの音響信号のタイミングに基づいて、遅延させる時間Ｔを算出するようにしてもよい。音響処理装置１０Ｂは、例えば、最も速く音響信号が取得された時刻と、最も遅く音響信号が取得された時刻との差を算出し、算出した差に所定のマージンを加算または所定の値を乗じた時間を遅延させる時間Ｔとして算出するようにしてもよい。

なお、第１〜第３実施形態では、音場の例として、車両を説明したが、これに限られない。例えば、音場は、室内の部屋、会議室等であってもよい。この場合、例えば、発話者は、部屋に設置されているソファー等に座っている等、発話者の位置がほぼ固定されている場合もある。このように、発話者の位置がほぼ固定されている場合、音響処理装置１０において第２収音部２０と第１収音部３０が収録した音響信号に基づいて伝達関数を推定するのは、１回のみでもよい。または、音響処理装置１０Ａにおいて第１収音部３０Ａが収録した音響信号に基づいて伝達関数を推定するのは、１回のみでもよい。または、音響処理装置１０Ｂにおいて第１収音部３０Ｂが収録した音響信号に基づいて伝達関数を推定するのは、１回のみでもよい。推定後は、記憶部１０９に記憶させた伝達関数を用いて、または記憶させた伝達関数を第１収音部３０（または３０Ａ、３０Ｂ）が収録した音響信号を用いて更新した伝達関数を用いて、音声認識を行うようにしてもよい。このように、音場が部屋等の場合にも、音響処理装置１０において第２収音部２０は携帯電話等であってもよい。音響処理装置１０において第２収音部２０が携帯電話等の場合、発話者が通話を行ったときに、伝達関数を推定し、または伝達関数を更新するようにしてもよい。
音響処理装置１０、１０Ａ及び１０Ｂは、このように音声認識された結果を、例えば室内に設置されている機器（例えば、テレビ、エアコン、プロジェクター）等に出力する。室内に設置されている機器は、入力された音声認識結果に応じて、動作するようにしてもよい。

なお、本発明における音響処理装置１０（または１０Ａ、１０Ｂ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ、１Ｂ…音響処理システム、１０、１０Ａ、１０Ｂ…音響処理装置、２０…第１収音部、３０…第１収音部、３０Ａ…収音部、４０…撮像部、１０１…第２音響信号取得部、１０２…第１音響信号取得部、１０２…音響信号取得部、１０３、１０３Ａ、１０３Ｂ…伝達関数推定部、１０４…音源定位部、１０５…音源分離部、１０６…音響特徴量抽出部、１０７…発話認識部、１０８…出力部、１０９…記憶部、３０１、３０１−１〜３０１−Ｍ…マイクロホン、１０３Ａ−１…伝達関数更新部、７０１…観測モデル部、７０２…更新部、７０３…予測部、７０４…観測部

Claims

音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部と、
前記第１収音部よりも発話者に近い位置に移動可能に配置され、前記音響信号を収録する第２収音部と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第２収音部及び前記第１収音部によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。
音場に取り付けられ、発話者の発話である音響信号を収録する第１収音部と、
前記第１収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音部によって収録された音響信号と推定した前記発話者位置を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。
音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホンを用いて収録する第１収音部と、
前記第１収音部によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延部と、
前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択部と、
予め測定された音場の伝達関数を用いずに、前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延部によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。
前記第２収音部は、
発話者の直接音が収録できる位置に配置される
ことを特徴とする請求項１に記載の音響処理装置。
前記伝達関数推定部が推定した伝達関数を記憶する記憶部と、
発話者を特定する発話者特定部と、
を備え、
前記伝達関数推定部は、
前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されている場合、前記記憶部に記憶されている発話者に対応する前記伝達関数を選択する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の音響処理装置。
前記伝達関数推定部は、
前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されていない場合、発話者に発話を促す報知を行う
ことを特徴とする請求項５に記載の音響処理装置。
前記第１収音部は、
発話者が発話したときの音響信号を収録し、
前記伝達関数推定部は、
前記第１収音部が収録した音響信号に基づいて、前記伝達関数を逐次更新する
ことを特徴とする請求項１から請求項６のいずれか１項に記載の音響処理装置。
予め所定の伝達関数が記憶されている記憶部を備え、
前記伝達関数推定部は、
前記記憶部に予め記憶されている伝達関数を、前記第１収音部及び前記第２収音部によって収録された音響信号に基づいて推定された伝達関数を用いて補間する
ことを特徴とする請求項１に記載の音響処理装置。
音場に取り付けられた第１収音部が、発話者の発話である音響信号を収録する第１収音手順と、
前記第１収音部よりも発話者に近い位置に移動可能に配置される第２収音部が、前記音響信号を収録する第２収音手順と、
伝達関数推定部が、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音手順及び前記第２収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、
音響信号処理部が、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を含むことを特徴とする音響処理方法。
音場に取り付けられた第１収音部が、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
遅延部が、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
選択部が、前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
伝達関数推定が、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、
音響信号処理部が、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を含むことを特徴とする音響処理方法。
音場に取り付けられた第１収音部と前記第１収音部よりも発話者に近い位置に移動可能に配置される第２収音部とを有する音響処理装置のコンピュータに、
音響信号を収録する第１収音手順と、
発話者の発話である音響信号を収録する第２収音手順と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第１収音手順及び前記第２収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、
前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を実行させる音響処理プログラム。
音場に取り付けられた第１収音部を有する音響処理装置のコンピュータに、
発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
前記複数のマイクロホンの中から１つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された１つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも１つによって伝達関数を推定する伝達関数推定手順と、
前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を実行させる音響処理プログラム。