JP6078461B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents
音響処理装置、音響処理方法、及び音響処理プログラム Download PDFInfo
- Publication number
- JP6078461B2 JP6078461B2 JP2013261544A JP2013261544A JP6078461B2 JP 6078461 B2 JP6078461 B2 JP 6078461B2 JP 2013261544 A JP2013261544 A JP 2013261544A JP 2013261544 A JP2013261544 A JP 2013261544A JP 6078461 B2 JP6078461 B2 JP 6078461B2
- Authority
- JP
- Japan
- Prior art keywords
- transfer function
- sound
- unit
- acoustic signal
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明の態様(2)によれば、第2収音部が不要であるため、装置を小型化でき、また、発話者が発話したときに伝達関数を推定することができる。
本発明の態様(3)、(10)、(12)によれば、第1収音部のみによって、遅延された音響信号と選択された代表信号に基づいて、伝達関数を精度良く推定することができる。
本発明の態様(4)によれば、第2収音部は、発話者が発話した音響信号を反射音がない状態で収録できるので、伝達関数を精度良く推定することができる。
本発明の態様(5)によれば、すでに記憶部に記憶されている伝達関数を用いることができるので、伝達関数を推定する手間を省くことができる。
本発明の態様(6)によれば、記憶部に伝達関数が記憶されていないときに、発話者が発話する音響信号を収録できるので、伝達関数を効率よく推定することができる。
本発明の態様(7)、(8)によれば、推定した伝達関数を逐次更新、補間することができるので、伝達関数を精度良く推定することができる。
例えば、スピーカーの口径が話者の口より大きいため、スピーカーの振動板の中心から周辺までの位置毎に発せられた音響信号に対する反射音の反射時間が異なる。また、スピーカーから発する音量によっては、多数回の反射が生じることがある。ここで、多数回の反射は、例えば、車両の座席シートに反射後、さらに車両のハンドルで反射することで、2回反射する。このような場合、想定している話者が発した音声信号とは異なってしまうため、この音響信号を用いて精度の良い伝達関数を推定することができない。また、車両内において、話者の口の位置と同じ位置にスピーカーを設置するのは困難であった。
このような課題があったため、車両内にスピーカーとマイクロホンを設置し、スピーカーから発した音響信号をマイクロホンで収音し、収音した音響信号から伝達関数を推定した場合、この伝達関数を用いた音声認識では、認識率が30%程度しか得られないという問題点があった。
本発明の音響処理装置では、実際の話者による発話によって音場の伝達関数を推定する。
これにより、上述したスピーカーの口径によって生じる反射の差が解消され、室内における反射回数も実際の話者に合わせたものとなり、話者の口の位置に関する課題も解決することができる。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音響処理装置10の構成を示すブロック図である。図1に示すように、音響処理システム1は、音響処理装置10、第2収音部20、及び第1収音部30を備える。また、音響処理装置10は、第2音響信号取得部101、第1音響信号取得部102、伝達関数推定部103、音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107、出力部108、及び記憶部109を備えている。また、音響処理装置10には、第2収音部20及び第1収音部30が接続されている。
また、第2収音部20は、例えば、マイクロホンを有する携帯電話であってもよい。この場合、携帯電話は、取得した音響信号を、例えば無線で、第2音響信号取得部101に送信するようにしてもよい。
記憶部109には、伝達関数が記憶される。また、車両を使用する運転者が複数いるような場合、記憶部109には、発話者と伝達関数とが関連づけて記憶される。
発話認識部107は、音源に人間が発話した音声が含まれている場合、音響特徴量抽出部106から入力された音響特徴量に基づいて音声認識し、認識した認識結果を出力部108に出力する。
出力部108は、例えば表示装置、音響信号出力装置等である。出力部108は、発話認識部107から入力された認識結果に基づく情報を、例えば表示部に表示する。
また、符号401が示す矢印の画像のように、第2収音部20には、発話者が発話した音響信号が直接伝搬される。一方、符号402が示す矢印の画像のように、第1収音部30には、発話者が発話した音響信号が、直接伝搬され、または、車両のシート及びハンドル等に反射した後、伝搬される。
図3は、本実施形態に係る第1収音部30のマイクロホン301が1個の場合の音響モデルを説明する図である。
図3において、信号s(t)は、第2収音部20が収録した音響信号を時間領域の信号であり、信号x1(t)は、第1収音部30が収録した音響信号を時間領域の信号である。a1(t)は、伝達関数である。このため、時間領域における信号x1(t)は、次式(1)のように表される。
図4は、本実施形態に係る第1収音部30のマイクロホン301がM個の場合の音響モデルを説明する図である。
図4において、信号s(t)は、図3と同様に、第2収音部20が収録した時間領域の信号であり、信号x1(t)〜xM(t)おのおのは、第1収音部30のマイクロホン301−1〜301−Mが収録した時間領域の信号である。a1(t)〜aM(t)は、伝達関数である。時間領域における信号x1(t)〜aM(t)は、次式(4)のように表される。
まず、伝達関数推定部103が、リグレッションモデル(regression model)を用いて、伝達関数を算出する手法について説明する。また、リグレッションモデルとは、独立した値の相関関係を調べるときなどに用いられるモデルである。そして、リグレッションモデルは、リグレッサ(独立変数)と未知のパラメータである基底パラメータとの積により表される。なお、以下に説明する手法を、以下、TD(Time Domain)手法ともいう。
次に、Fフレーム分は、次式(8)のように表される。
なお、本実施形態では、信号の内、先頭からTサンプルのみを使用する。以降、Tを使用次数とする。
符号502で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図5に示した例では、収録した音響信号は、次数が4096、使用サンプル数が16384×3である。また、TD手法に用いた使用次数が4096、フレーム長が4096、シフト長が1である。また、図5に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
次に、伝達関数推定部103が、周波数領域における複素リグレッションモデルを用いて、伝達関数を推定する手法について説明する。なお、複素リグレッションモデルとは、リグレッションモデルにおいて、時間領域のモデルを複素拡張したものである。なお、以下に説明する手法を、以下、FD(Frequency Domain)手法ともいう。
次に、Fフレーム分は、次式(12)のように表される。
なお、上述したFD手法では、信号の内、先頭からTサンプルのみを使用する。
伝達関数推定部103は、用いる窓関数を、予め定めておいてもよい。または、伝達関数推定部103は、用いる窓関数を複数用意しておき、音場や発話者に応じて選択するようにしてもよい。例えば、図1に示した構成により、音声認識を行い、音声認識を行った認識率が高い窓関数を選択するようにしてもよい。窓関数の選択は、周波数分解能を細かくすることと、ダイナミックレンジを広くすることがトレードオフの関係にあるため、状況に応じて適切な窓関数を用いるようにしてもよい。
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDA(Frequency Domain Average)手法ともいう。
出力値を入力値で除算した値の平均を算出することで、伝達関数推定部103は、伝達関数AT(ω)を、次式(14)によって推定する。
また、FDA手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDA手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDN(Frequency Domain Normalize)手法ともいう。
出力値の平均値と、入力値の平均値とを別に算出し、算出した出力の平均値を入力の平均値で除算することで、伝達関数推定部103は、伝達関数AT(ω)を、次式(15)によって推定する。
また、FDN手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDN手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDP(Frequency Domain Phase Average)手法ともいう。
振幅値は、フレーム間を平均し、かつ、位相は、一番信頼できそうなフレーム(kとする;ただしkは1以上かつF以下の値)選択することで、伝達関数AT(ω)は、次式(16)のようになる。
次に、右辺2項目は、信頼できそうなkフレームにおける第1収音部30によって収録された音響信号に基づく値X[N] Tの位相角度を、第2収音部20によって収録された音響信号に基づく値S[N]の位相角度によって除算することを意味している。
そして、この右辺1項目に、右辺2項目を乗じることで、伝達関数AT(ω)を推定する。
なお、伝達関数推定部103は、一番信頼できそうなk番目のフレームを、に基づいて選択する。選択の指標については、使用周波数帯域の全域に対して大きなパワーとなるフレームを選ぶことが望ましい。
また、FDP手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDP手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均に、さらにクロススペクトル法を適用するによって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDC(Frequency Domain Cross Spectrum)手法ともいう。
クロススペクトル法を用いることで、伝達関数A(ω)は、次式(17)のようになる。なお、式(17)において、上付き*(アスタリスク)は、複素共役を表す。
自己相関関数Rxをフーリエ変換することで、パワースペクトル密度関数Sx(f)が得られ、相互相関関数Rxyをフーリエ変換することで、クロススペクトル密度Sxy(f)が得られる。
さらに、時間軸領域の畳み込みの関係が周波数領域で積となる合成積則より、クロススペクトル密度Sxy(f)は、インパルス応答の周波数領域表現、すなわち伝達関数であるH(f)とパワースペクトル密度関数Sx(f)との積で表される。
さらに、パワースペクトル密度と、信号のフーリエ変換の関係より、ワースペクトル密度関数Sx(f)は、次式(18)のように表され、クロススペクトル密度Sxy(f)は、次式(19)のように表される。
上述した式(17)において、右辺の項の分母は式(18)の総和であり、分子は式(19)の総和に相当する。従って、式(18)の総和を、式(19)の総和で除算することで、伝達関数H(f)=A(ω)を算出することができる。
また、FDC手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDC手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
次に、伝達関数推定部103が、周波数領域の1フレームで、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDS(Frequency Domain Single frame)手法ともいう。
式(11)より、1フレーム分について伝達関数AT(ω)を算出すると、次式(20)のようになる。
(ステップS101)第2音響信号取得部101及び第1音響信号取得部102は、音響信号を取得する。
(ステップS102)伝達関数推定部103は、N−Z=TとなるようなTサンプルを選択する。なお、Tは、最後に伝達関数として採用する使用次数である。
(ステップS104)伝達関数推定部103は、式(20)を用いて、逆フーリエ変換して、最初のTサンプルを伝達関数として決定する。
また、本実施形態の音響処理装置10は、第2収音部20は、発話者の直接音が収録できる位置に配置される。
図13は、従来のスピーカーから発した音声をマイクロホンで収録して伝達関数を推定した場合の音声認識率の一例を説明する図である。図14は、本実施形態にかかる音響処理装置10を用いた場合の音声認識率の一例を説明する図である。なお、図14に示す例では、伝達関数推定部13は、FD手法を用いて、伝達関数を推定した。なお、FD手法を用いた理由は、評価した結果、FD手法が上述した7つの手法のうち、最も音声認識率が高かったためである。
図13において、符号601が示す画像は、第1計測点の音声認識率を示し、符号602が示す画像は、第2計測点の音声認識率を示している。
図13に示すように、従来技術の音声認識率は、測定点1では約28%、測定点2では約25%であった。
一方、図14に示すように、本実施形態では、話者1から話者4の各の音声認識率は、約72%、74%、67%、64%であった。
すなわち、本実施形態の音響処理装置10では、従来技術と比較して、音声認識率を約40%改善することができた。
また、第2収音部20がスマートフォン等の携帯電話の場合、運転者が車両を停止させている際に携帯電話で通話を行ったときに、伝達関数推定部103は、音響信号を取得して伝達関数を推定するようにしてもよい。さらに、運転者が携帯電話で通話を行ったとき、逐次、伝達関数を更新するようにしてもよい。
例えば、伝達関数推定部103は、FD手法とTD手法を統合して、以下のように伝達関数を推定するようにしてもよい。伝達関数推定部103は、最小二乗推定で得られたA(ω)とa(t)とを統合する。そして、伝達関数推定部103は、伝達関数補間のときの類推を行う。また、伝達関数推定部103は、FD手法における位相の精度と、TD手法における振幅の精度を算出する。そして、伝達関数推定部103は、算出した位相の精度または振幅の精度と、予め定められている精度と比較する。伝達関数推定部103は、
位相の精度が予め定められている精度より良い場合、FD手法によって伝達関数を推定する。一方、伝達関数推定部103は、振幅の精度が予め定められている精度より良い場合、TD手法によって伝達関数を推定する。
第2収音部20と第1収音部30とが収録した発話者の音響信号に基づいて推定された伝達関数A〜(ω)は、次式(21)及び式(23)のように表される。なお、式(21)〜式(24)において、伝達関数A(ω)は、スピーカーから出力した音響信号を用いて計測された伝達関数である。
第1実施形態では、接話マイクである第2収音部20と、マイクロホンアレイである第1収音部30とを用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明した。本実施形態では、第2収音部20を用いずに、第1収音部30を用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明する。
なお、カルマンフィルタを用いて音響信号だけに基づいて音源の位置を推定する場合、口元位置推定部110は、伝達関数推定部103Aが備えていてもよい。
更新部702は、観測モデル部701から入力される観測モデルζ[l]、予測部703から入力される分散P^ [l|l−1]、及び観測部704から入力される観測値h(ζ^ [l])を用いて、観測モデルζ^ [l]と分散P^ [l]を更新し、更新した観測モデルζ^ [l]と分散P^ [l]を予測部703に出力する。
観測部704は、予測部703から入力された観測モデルζ^ [l|l−1]と分散P^ [l|l−1]とを用いて観測値h(ζ^ [l])を算出し、算出した観測値h(ζ^ [l])を更新部702に出力する。
音響信号は1チャネルの場合の周波数領域の信号をX[n](ω)は、次式(26)のように表される。なお、nは、マイクロホンの番号、ξsは発話位置、ξm[n]は、n番目のマイクロホンの位置である。
図17に示すように、時刻t[1]のとき、1番目のマイクロホン301が発話者によって発話された音響信号が始まり、時刻t[n]のとき、n番目のマイクロホン301が発話者によって発話された音響信号が始まる。1番目のマイクロホン301に対するn番目のマイクロホン301の遅延時間t[n]は、次式(31)のように表される。
発話者の運動モデル(ランダムウォークモデル)は、次式(33)のように表される。
1番目のマイクロホン301を基準とした時間差を観測すると、時間差は、次式(38)のように表される。
予測部703は、次式(40)を用いて、平均のアップデートを行う。
観測部704は、予測部703から入力された観測モデルζ^ [l|l−1]を観測し、次式(42)により、観測値h(ζ^ [l])を算出し、算出した観測値h(ζ^ [l])を更新部702に出力する。
更新部702は、次式(43)により、カルマンゲインKを更新する。
更新部702は、観測モデル部701から入力された観測モデルζ[l]と、観測部704から入力された観測値h(ζ^ [l])と、予測部703から入力された分散P^ [l|l−1]と、上述した式(44)〜(47)を用いて、観測モデルζ^ [l]と分散P^ [l]を更新し、更新した観測モデルζ^ [l]と分散P^ [l]を予測部703に出力する。
伝達関数更新部103A−1は、上述した更新を、推定誤差が最小になるまで行って伝達関数A(ξ^ s[l],ξ^ m[l],ω)を推定する。
なお、このように逐次更新をおこなうため、伝達関数推定部103は、上述した手法のうち時間領域の手法を用いて、伝達関数を推定するようにしてもよい。
例えば、第1運転者の発話のみを、第2収音部20と第1収音部30とを用いてを収録し、収録した音響信号に基づいて伝達関数を推定する。そして、他の運転者の発話は、第1収音部30を用いて収録する。そして、伝達関数推定部103または103Aは、収録した運転者の音響信号である観測値とし、第1運転者の伝達関数を、カルマンフィルタを逐次更新することで補正していくことで、第1運転者の伝達関数を補正するようにしてもよい。このように補正した伝達関数を、伝達関数推定部103または103Aは、発話者である運転者と関連づけて記憶部109に記憶させるようにしてもよい。
同様に、逐次更新をおこなうため、伝達関数推定部103または103Aは、上述した手法のうち時間領域の手法をもちいて、伝達関数を推定するようにしてもよい。
一方、伝達関数推定部103または103Aは、記憶部109に、すでに発話者に対応する伝達関数が記憶されていない場合、発話者に対して発話を促す報知を行うようにしてもよい。報知は、例えば、音響処理装置10に接続されている不図示のスピーカー等から音響信号として報知してもよく、または、音響処理装置10(または10A)に接続されている不図示の表示部等から画像や文字情報として報知してもよい。
(ステップS201)伝達関数推定部103Aは、撮像部40が音響処理装置10Aに接続されている場合、撮像装置が撮像した画像に基づいて、座席シートに乗員が着席したか否かを判別する。なお、伝達関数推定部103Aは、座席シートに取り付けられている不図示の乗員検知センサが検出した結果に基づいて、座席シートに乗員が着席したか否かを判別するようにしてもよい。伝達関数推定部103Aは、座席シートに乗員が着席したと判別した場合(ステップS201;YES)、ステップS202に進み、座席シートに乗員が着席していないと判別した場合(ステップS201;NO)、ステップS201を繰り返す。
(ステップS203)伝達関数推定部103Aは、ステップS202で同定した利用者に対応する伝達関数が記憶部109に記憶されているか否か判別する。伝達関数推定部103Aは、同定した利用者に対応する伝達関数が記憶部109に記憶されていないと判別した場合(ステップS203;NO)、ステップS206に進み、同定した利用者に対応する伝達関数が記憶部109に記憶されていると判別した場合(ステップS203;YES)、ステップS205に進む。
(ステップS206)伝達関数推定部103Aは、例えば予め記憶部109に記憶されている発話を要請する旨の音声信号を出力部108に出力することで、利用者に発話要請を行う。
(ステップS208)伝達関数推定部103Aは、計測した伝達関数を記憶部109に保存する。
(ステップS301〜S302)伝達関数推定部103Aは、ステップS301〜S302の処理を、ステップS201〜S202(図18)と同様に処理を行う。なお、伝達関数推定部103Aは、ステップS301終了後、ステップS302を行わずに、ステップS303に処理を進めてもよい。
(ステップS401〜S403)伝達関数推定部103Aは、ステップS401〜S404の処理を、ステップS303〜S305(図19)と同様に処理を行う。例えば、利用者が操作部を操作したことに応じて、ステップS401の処理を開始する。伝達関数推定部103Aは、ステップS403終了後、処理をステップS404に進める。
第1実施形態では、接話マイクロホンである第2収音部20と、マイクアレイである第1収音部30とが収録した音響信号に基づいて、伝達関数推定部103が、伝達関数を推定する例を説明した。
本実施形態では、接話マイクロホンを用いずに、マイクロホンアレイのみを用いて、伝達関数を推定する例を説明する。
図22に示す例では、第1収音部30Bが4つのマイクロホン301−1〜301−4を備えている。4つのマイクロホン301−1〜301−4によって、マイクロホンアレイが構成される。マイクロホンアレイは、例えばxy平面上に構成されている。
なお、以下の説明では、マイクロホン301−1に到達する1ch(チャネル)目の音響信号を1ch、マイクロホン301−2に到達する2ch目の音響信号を2ch、マイクロホン301−3に到達する3ch目の音響信号を3ch、マイクロホン301−4に到達する4ch目の音響信号を4chという。
図23では、マイクロホン301−1に到達する音響信号を代表チャネルとしている。信号x1(t)〜x4(t)ぞれぞれは、マイクロホン301−1〜301−4それぞれが収録した音響信号を時間領域の信号である。また、a1 〜(t)は、マイクロホン301−1とマイクロホン301−1との間の推定される伝達関数、a2 〜(t)は、マイクロホン301−1とマイクロホン301−2との間の推定される伝達関数である。a3 〜(t)は、マイクロホン301−1とマイクロホン301−3との間の推定される伝達関数、a4 〜(t)は、マイクロホン301−1とマイクロホン301−4との間の推定される伝達関数である。
a1(t)〜a4(t)それぞれは、マイクロホン301−1〜304−4の各伝達関数である。まず、マイクロホン301−1が収録する音響信号を代表チャネルとする。次数Nとした場合、時間領域における信号x1[N]〜aM[N]は、次式(48)のように表される。
図24において、横軸は時刻、縦軸は信号の大きさを表している。また、図24は、4本のマイクロホン301−1〜301−4で収録された直接波の例であり、各マイクロホン301−1〜301−4と話者Spの口元との距離L1〜L4は、図22で説明した関係であるとする。符号g1が示す波形は、1chの伝達関数のインパルス応答の波形、符号g2が示す波形は、2chの伝達関数のインパルス応答の波形、符号g3が示す波形は、3chの伝達関数のインパルス応答の波形、符号g4が示す波形は、4chの伝達関数のインパルス応答の波形である。
すなわち、マイクロホン301のうち、任意のマイクロホン301を選択した場合、選択されたマイクロホン301より、話者Spの口元に近いマイクロホン301があると、そのマイクロホン301については、伝達関数のインパルス応答が負の時間に直接波が到来することになってしまう。
図25は、取得された全ての音響信号を開始時刻をTだけ遅延させた場合、各チャネルの伝達関数のタイミングを説明する図である。図25において、横軸は時刻、縦軸は信号の大きさを表す。
すなわち、マイクロホン301のうち、任意のマイクロホン301を選択し、選択されたマイクロホン301より、話者Spの口元に近いマイクロホン301があっても、全てのマイクロホン301について、伝達関数のインパルス応答が正の時刻に直接波が到来することになる。
式(49)をフーリエ変換すると、式(49)は次式(50)のようになる。
式(50)より、1からNサンプル目を1フレームとすると、周波数領域における1フレームの観測値X[N] Tは、次式(51)のように表される。
まず、実験を行った条件について説明する。実験に用いた音源は、30度毎に角度を変化させることができるスピーカーを用いた。そして、人間が発した音声を録音し、録音された音響信号をこのスピーカーから出力した。また、8本のマイクロホン301を用いて音響信号の収録を行った。
音響処理装置10Bにおいて、次数Nは4096、使用サンプル数は16384×1である。また、伝達関数推定部103Bは、FD手法を用いて、伝達関数を推定した。推定の条件は、使用次数Tが4096、フレーム長Nが1638、シフト長が10、窓関数としてハミング(Hamming)関数を使用、そして遅延量Tが128である。そして、−60度、−30度、0度、30度、及び60度にスピーカーの角度を変化させて、実験を行った。
図27は、本実施形態に係る音響処理装置10Bを用いて60度の角度から出力された音源について音源定位させた結果を示す図である。図28は、本実施形態に係る音響処理装置10Bを用いて30度の角度から出力された音源について音源定位させた結果を示す図である。図29は、本実施形態に係る音響処理装置10Bを用いて0度の角度から出力された音源について音源定位させた結果を示す図である。図30は、本実施形態に係る音響処理装置10Bを用いて−30度の角度から出力された音源について音源定位させた結果を示す図である。図31は、本実施形態に係る音響処理装置10Bを用いて−60度の角度から出力された音源について音源定位させた結果を示す図である。
図27〜図31において、横軸は時刻、縦軸は推定された角度(方位)である。
また、符号g31、g41、g51、g61、及びg71が示す線は、第1の音声信号(例えば、第一声「あー」)を音源定位させた結果を示している。符号g32、g42、g52、g62、及びg72が示す線は、第2の音声信号(例えば、第二声「あー」)を音源定位させた結果を示している。符号g33、g43、g53、g63、及びg73が示す線は、第3の音声信号(例えば、第三声「あー」)を音源定位させた結果を示している。
また、音響処理装置10Bは、第2実施形態で説明した口元位置推定部110(図15)を備えていてもよい。さらに、音響処理装置10Bは、第2実施形態で説明したように、推定誤差が最小になるまで行って伝達関数を推定するようにしてもよい。
音響処理装置10、10A及び10Bは、このように音声認識された結果を、例えば室内に設置されている機器(例えば、テレビ、エアコン、プロジェクター)等に出力する。室内に設置されている機器は、入力された音声認識結果に応じて、動作するようにしてもよい。
Claims (12)
- 音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、
前記第1収音部よりも発話者に近い位置に移動可能に配置され、前記音響信号を収録する第2収音部と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第2収音部及び前記第1収音部によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。 - 音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、
前記第1収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音部によって収録された音響信号と推定した前記発話者位置を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。 - 音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホンを用いて収録する第1収音部と、
前記第1収音部によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延部と、
前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択部と、
予め測定された音場の伝達関数を用いずに、前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延部によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
を備えることを特徴とする音響処理装置。 - 前記第2収音部は、
発話者の直接音が収録できる位置に配置される
ことを特徴とする請求項1に記載の音響処理装置。 - 前記伝達関数推定部が推定した伝達関数を記憶する記憶部と、
発話者を特定する発話者特定部と、
を備え、
前記伝達関数推定部は、
前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されている場合、前記記憶部に記憶されている発話者に対応する前記伝達関数を選択する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音響処理装置。 - 前記伝達関数推定部は、
前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されていない場合、発話者に発話を促す報知を行う
ことを特徴とする請求項5に記載の音響処理装置。 - 前記第1収音部は、
発話者が発話したときの音響信号を収録し、
前記伝達関数推定部は、
前記第1収音部が収録した音響信号に基づいて、前記伝達関数を逐次更新する
ことを特徴とする請求項1から請求項6のいずれか1項に記載の音響処理装置。 - 予め所定の伝達関数が記憶されている記憶部を備え、
前記伝達関数推定部は、
前記記憶部に予め記憶されている伝達関数を、前記第1収音部及び前記第2収音部によって収録された音響信号に基づいて推定された伝達関数を用いて補間する
ことを特徴とする請求項1に記載の音響処理装置。 - 音場に取り付けられた第1収音部が、発話者の発話である音響信号を収録する第1収音手順と、
前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部が、前記音響信号を収録する第2収音手順と、
伝達関数推定部が、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
音響信号処理部が、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を含むことを特徴とする音響処理方法。 - 音場に取り付けられた第1収音部が、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
遅延部が、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
選択部が、前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
伝達関数推定が、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
音響信号処理部が、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を含むことを特徴とする音響処理方法。 - 音場に取り付けられた第1収音部と前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部とを有する音響処理装置のコンピュータに、
音響信号を収録する第1収音手順と、
発話者の発話である音響信号を収録する第2収音手順と、
予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を実行させる音響処理プログラム。 - 音場に取り付けられた第1収音部を有する音響処理装置のコンピュータに、
発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
を実行させる音響処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013261544A JP6078461B2 (ja) | 2013-12-18 | 2013-12-18 | 音響処理装置、音響処理方法、及び音響処理プログラム |
US14/572,941 US9549274B2 (en) | 2013-12-18 | 2014-12-17 | Sound processing apparatus, sound processing method, and sound processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013261544A JP6078461B2 (ja) | 2013-12-18 | 2013-12-18 | 音響処理装置、音響処理方法、及び音響処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015119343A JP2015119343A (ja) | 2015-06-25 |
JP6078461B2 true JP6078461B2 (ja) | 2017-02-08 |
Family
ID=53370127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013261544A Active JP6078461B2 (ja) | 2013-12-18 | 2013-12-18 | 音響処理装置、音響処理方法、及び音響処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9549274B2 (ja) |
JP (1) | JP6078461B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
KR101610161B1 (ko) * | 2014-11-26 | 2016-04-08 | 현대자동차 주식회사 | 음성인식 시스템 및 그 방법 |
JP6606784B2 (ja) * | 2015-09-29 | 2019-11-20 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
JP6466863B2 (ja) * | 2016-02-09 | 2019-02-06 | 日本電信電話株式会社 | 最適化装置、最適化方法、およびプログラム |
DE112017001830B4 (de) * | 2016-05-06 | 2024-02-22 | Robert Bosch Gmbh | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen |
US10743107B1 (en) * | 2019-04-30 | 2020-08-11 | Microsoft Technology Licensing, Llc | Synchronization of audio signals from distributed devices |
CN111688580B (zh) | 2020-05-29 | 2023-03-14 | 阿波罗智联(北京)科技有限公司 | 智能后视镜进行拾音的方法以及装置 |
US11546689B2 (en) | 2020-10-02 | 2023-01-03 | Ford Global Technologies, Llc | Systems and methods for audio processing |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4482247B2 (ja) | 2001-04-26 | 2010-06-16 | パナソニック株式会社 | 自動音質音量調整音響システムおよびその音質音量調整方法 |
JP3506138B2 (ja) * | 2001-07-11 | 2004-03-15 | ヤマハ株式会社 | 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置 |
JP4929740B2 (ja) * | 2006-01-31 | 2012-05-09 | ヤマハ株式会社 | 音声会議装置 |
EP1818912A1 (en) * | 2006-02-08 | 2007-08-15 | Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO | System for giving intelligibility feedback to a speaker |
JP2007302155A (ja) * | 2006-05-12 | 2007-11-22 | Matsushita Electric Ind Co Ltd | 車載用マイクロホン装置及びその指向性制御方法 |
US20090034752A1 (en) * | 2007-07-30 | 2009-02-05 | Texas Instruments Incorporated | Constrainted switched adaptive beamforming |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
KR101669866B1 (ko) * | 2011-12-29 | 2016-10-27 | 인텔 코포레이션 | 음향 신호 조정 |
EP2901667B1 (en) * | 2012-09-27 | 2018-06-27 | Dolby Laboratories Licensing Corporation | Spatial multiplexing in a soundfield teleconferencing system |
-
2013
- 2013-12-18 JP JP2013261544A patent/JP6078461B2/ja active Active
-
2014
- 2014-12-17 US US14/572,941 patent/US9549274B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015119343A (ja) | 2015-06-25 |
US20150172842A1 (en) | 2015-06-18 |
US9549274B2 (en) | 2017-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6078461B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
JP6584930B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6644197B2 (ja) | 雑音除去装置および雑音除去方法 | |
RU2717895C2 (ru) | Устройство и способ для формирования отфильтрованного звукового сигнала, реализующего рендеризацию угла места | |
JP5092974B2 (ja) | 伝達特性推定装置、雑音抑圧装置、伝達特性推定方法及びコンピュータプログラム | |
EP2748817B1 (en) | Processing signals | |
JP5207479B2 (ja) | 雑音抑圧装置およびプログラム | |
JP5572445B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP4104626B2 (ja) | 収音方法及び収音装置 | |
RU2591026C2 (ru) | Аудиосистема и способ ее работы | |
JP6454916B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6019969B2 (ja) | 音響処理装置 | |
JP2015526767A (ja) | 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
JP2001309483A (ja) | 収音方法および収音装置 | |
JP5451562B2 (ja) | 音響処理システム及びこれを用いた機械 | |
JP5459220B2 (ja) | 発話音声検出装置 | |
US20130253923A1 (en) | Multichannel enhancement system for preserving spatial cues | |
JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
JP5405130B2 (ja) | 音再生装置および音再生方法 | |
JP5698166B2 (ja) | 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム | |
JP2019086724A (ja) | 音声処理装置 | |
JP2016158072A (ja) | 集音装置、音声処理方法、および音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6078461 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |