JP7016307B2 - 音響処理装置、音響処理方法およびプログラム - Google Patents

音響処理装置、音響処理方法およびプログラム Download PDF

Info

Publication number
JP7016307B2
JP7016307B2 JP2018165175A JP2018165175A JP7016307B2 JP 7016307 B2 JP7016307 B2 JP 7016307B2 JP 2018165175 A JP2018165175 A JP 2018165175A JP 2018165175 A JP2018165175 A JP 2018165175A JP 7016307 B2 JP7016307 B2 JP 7016307B2
Authority
JP
Japan
Prior art keywords
time
sound
response
row
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018165175A
Other languages
English (en)
Other versions
JP2020038284A (ja
Inventor
兆峰 張
一博 中臺
直亮 住田
弘史 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018165175A priority Critical patent/JP7016307B2/ja
Publication of JP2020038284A publication Critical patent/JP2020038284A/ja
Application granted granted Critical
Publication of JP7016307B2 publication Critical patent/JP7016307B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響処理装置、音響処理方法およびプログラムに関する。
音声認識は、発話音声の内容を特定するための処理であり、人工知能(AI:Artificial intelligence)の要素技術として様々な環境で応用されている。音声認識では、一般的に音声の物理的な特性を示す音響特徴量と発音との間の統計的な関係を示す音響モデルが用いられる。従来は、話者とマイクロホンとの位置関係が固定されている静的環境を前提として、音響モデルの学習が行われてきた。
特開2008-219884号公報
AIの普及に伴い、音声認識は動的な環境で応用されることがある。例えば、音声認識エンジンがロボットなどの移動体に搭載されることがある。そのような場合には、音声を収音するためのマイクロホンも移動体に設置される。話者とマイクロホンとの位置関係が変化するので、収音される音声の音響特徴量も変化してしまう。そのため、動的環境で音声認識を実行する際、静的環境で学習された音響モデルをそのまま用いると認識率が低下しがちである。
動的な環境のもとで音声認識を実行する際、その環境に応じた音響モデルを用いて認識率を向上させることが期待される。話者とマイクロホンとの位置関係は、その都度変化しうるが、特許文献1に記載の手法では、マイクロホンが静止している場合を前提としている。しかしながら、音響モデルの学習のために現実にマイクロホンの位置、つまり収音位置を変化させながら学習用の音声データを取得することは煩雑である。そこで、収音位置が変化する環境を仮定して、収音される音声データを容易に取得することが期待される。
本発明は上記の点に鑑みてなされたものであり、収音位置が変化する状況で収音される音を容易に取得することを課題とする。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化部と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション部と、を備え、前記シミュレーション部は、前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、前記シミュレーション行列を前記音響信号ベクトルに乗算する音響処理装置である。
(2)本発明のその他の態様は、上述の音響処理装置であって、移動する前記音源位置を所定時間間隔で離散化する音源位置離散化部をさらに備え、前記シミュレーション部は、離散化した前記音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得することを特徴とする。
(3)本発明のその他の態様は、音響処理装置における音響処理方法であって、前記音響処理装置は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化過程と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション過程と、を有し、前記シミュレーション過程は、前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、前記シミュレーション行列を前記音響信号ベクトルに乗算する音響処理方法である。
(4)本発明のその他の態様は、音響処理装置のコンピュータに、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化手順と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション手順と、を実行させるためのプログラムであって、前記シミュレーション手順は、前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、前記シミュレーション行列を前記音響信号ベクトルに乗算するプログラムである。
本発明の態様(1)、(3)及び(4)によれば、移動する収音部で収音される収音信号に近似する合成信号を容易に取得することができる。また、音源信号に基づく音響信号ベクトルに対する、音源位置と移動する音源位置に対応するインパルス応答の応答係数を要素値として含むインパルス応答行列の乗算により、収音信号ベクトルが得られる。そのため、複雑な演算を要さずに収音信号の信号値を容易に得ることができる。
本発明の態様(2)によれば、移動する音源から発される音に応じて収音される収音信号に近似する合成信号を容易に取得することができる
第1の実施形態に係る音響処理装置の構成例を示す概略ブロック図である。 第1の実施形態に係るシミュレーション方法を説明するための説明図である。 第1の実施形態に係る合成信号生成処理の例を示すフローチャートである。 第2の実施形態に係る音響処理装置の構成例を示す概略ブロック図である。 第2の実施形態に係るシミュレーション方法を説明するための説明図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成例を示す概略ブロック図である。
音響処理装置1は、音源信号取得部11、収音位置取得部12、収音位置離散化部13、シミュレーション部14および合成信号生成部15を含んで構成される。
音源信号取得部11は、処理対象の音響信号として音源信号を取得する。音源信号は、所定のサンプリング周波数(例えば、8kHz-48kHz)に対応する時間間隔でサンプリングされた時刻ごとの信号値の時系列からなるディジタル音響信号である。各サンプル時刻の信号値は、その時点における音の強度を示す。音源信号取得部11は、取得した音源信号をシミュレーション部14に出力する。
音源信号取得部11は、例えば、マイクロホン(図示せず)から入力されるアナログ音響信号をディジタル音響信号に変換するためのAD(Analog/Digital;アナログ・ディジタル)変換器を備える。マイクロホンは、音響処理装置1に内蔵されてもよいし、音響処理装置1とは別体であってもよい。音源信号取得部11は、自装置とは別個の他機器から音響信号を入力するための入出力インタフェースであってもよい。
また、音源信号取得部11は、自部に入力される指令(コマンド)で指示される音響信号を格納したデータファイルを、自装置の記憶部(図示せず)から読み出してもよい。音源信号取得部11に入力される指令は、他機器から入力される指令であってもよいし、操作部(図示せず)から入力される操作信号で伝達される命令であってもよい。
収音位置取得部12は、シミュレーションの条件の一つの要素である収音位置を示す収音位置信号を取得する。収音位置は、音を収音する収音部(例えば、マイクロホン)の仮想的な位置である。収音位置は、一般に移動、つまり時間の経過に応じて変動しうる。収音位置取得部12は、例えば、所定の収音位置の移動パターンを示す収音位置信号を生成する。収音位置取得部12は、操作部(図示せず)から入力される操作信号で逐次に指示される収音位置を示す収音位置信号を生成してもよい。収音位置取得部12は、生成した収音位置信号を収音位置離散化部13に出力する。
収音位置離散化部13は、収音位置取得部12から入力される収音位置信号が示す収音位置を所定のサンプリング周波数に対応する時間間隔でサンプリングすることにより離散化する。このサンプリング周波数は、音響信号のサンプリング周波数と等しい周波数である。入力される収音位置信号は、音響信号のサンプリング時刻とは異なる離散化時刻ごとに離散化された収音位置を示すディジタル信号でありうる。その場合には、収音位置離散化部13は、収音位置信号が示す時刻ごとの収音位置を補間して、そのサンプリング周波数に対応する時間間隔で離散化された時刻ごとに収音位置を算出する。収音位置離散化部13は、離散化された収音位置信号をシミュレーション部14に出力する。
シミュレーション部14には、音源信号取得部11から音源信号が入力され、収音位置離散化部13から収音位置信号が入力される。
シミュレーション部14は、インパルス応答取得部142を備える。インパルス応答取得部142には、音源位置から収音位置までの音の伝達特性を示すインパルス応答の生成モデルを示すモデルデータを予め設定させておく。また、本実施形態では、音源位置は所定の位置に静止していることを仮定する。
インパルス応答取得部142は、モデルデータを用いて、時刻ごとに音源位置から収音位置信号が示す収音位置までのインパルス応答を生成する。個々のインパルス応答は、N(Nは、2以上の整数)個の応答係数を含んで構成される。以下の説明では、個々の応答係数を、第n(nは、0からN-1までの整数)と呼ぶ。インパルス応答の長さである応答期間は、例えば、シミュレーション対象の音源位置と収音位置を含む空間の残響時間(例えば、0.1s~2.0s)と同じ程度であってもよい。従って、インパルス応答の次数Nは、例えば、応答期間をサンプリング間隔で除算して得られる実数値を整数に丸めた値であってもよい。
シミュレーション部14は、離散化された時刻tごとに生成したインパルス応答を用いて音源信号に対して畳み込み演算を行う。ここで、シミュレーション部14は、現時刻tにおける第0応答係数h’q(t)(0)から、現時刻tから(N-1)時刻前の時刻t-(N-1)における第N-1応答係数h’q(t-(N-1))(N-1)までのそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N-1時刻前における信号値s(t-(N-1))に乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x’(t)として算出する。シミュレーション部14は、算出した信号値を合成信号生成部15に出力する。
合成信号生成部15は、シミュレーション部14から入力される信号値の時系列を示す合成信号を生成する。合成信号は、シミュレーションによって算出された信号値の時系列を示す。合成信号生成部15は、例えば、生成した合成信号を他機器に出力する。出力先となる機器は、例えば、音声認識装置、スピーカ(図示せず)などである。音声認識装置は、音響モデル学習部(図示せず)を備え、合成信号生成部15から入力される合成信号を用いて音響モデルを生成することができる。スピーカは、合成信号生成部15から入力される合成信号に基づく音を再生する。スピーカにより、移動する収音位置に到来する音が再生される。また、合成信号生成部15は、生成した合成信号を他機器に出力せずに、自装置の記憶部(図示せず)に記憶してもよい。
(シミュレーション方法)
次に、本実施形態に係るシミュレーション方法について説明する。
図2は、時刻tにおけるインパルス応答h’q(t)を例示する。インパルス応答h’q(t)は、音源Srの位置である音源位置pから収音部Mcの位置である収音位置q(t)までの音の伝達特性を示す。時刻tにおけるインパルス応答h’q(t)は、第0次の応答係数h’q(t)(0)から第N-1次の応答係数h’q(t)(N-1)をそれぞれ要素として有するN次元のベクトル[h’q(t)(0),h’q(t)(1),h’q(t)(2),…,hq(t)(N-1)]として表される。ここで、[…]は、ベクトルもしくは行列[…]の転置を示す。なお、本願では、ベクトルもしくは行列の最初の行、列を、それぞれ第0行、第0列とする。
音源位置p、収音位置q(t)ともに静止している場合には、時刻tにおいて収音位置q(t)で収音される音響信号の信号値x’q(t)(t)は、従来の手法と同様に音源信号s(t)に対してインパルス応答h’q(t)を畳み込み演算を行って算出される。畳み込み演算は、現時刻tよりも所定サンプルτ(τは、1以上N-1以下の整数)前の過去の時刻t-τにおける音源信号の信号値s(t-τ)の現時刻tにおける信号値x’q(t)(t)に対する寄与率を第τ次の応答係数h’q(t)(τ)とする数理モデルとみなすこともできる。
但し、本実施形態では、時刻tの経過に伴う収音位置q(t)の変化によりインパルス応答h’q(t)が変化する。そこで、シミュレーション部14は、畳み込み演算において、過去の時刻t-τにおける音源信号の信号値s(t-τ)の現時刻tにおける信号値x’q(t)(t)に対する寄与率として、時刻t-τにおける第τ次の応答係数h’q(t-τ)(τ)を用いる。言い換えれば、シミュレーション部14は、現時刻tにおける第0応答係数hq(t)(0)から、現時刻tから(N-1)時刻前の時刻t-(N-1)における第N-1応答係数h’q(tー(N-1))(N-1)までのそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N-1時刻前における信号値s(t-(N-1))までのそれぞれに乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x’ q(t)(t)として算出する。
シミュレーション部14は、式(1)に示すように、音源信号ベクトルsに、インパルス応答行列H’q(t)を乗じて合成信号ベクトルx’q(t)を算出することができる。
Figure 0007016307000001
音源信号ベクトルsは、[s(0),s(1),s(2),…,s(t),…,s(T-1)]と表される。つまり、音源信号ベクトルsは、第t次元の要素として時刻tにおける音源信号の信号値s(t)を含むT次元の列ベクトルである。Tは、計算対象とする音源信号のサンプル数(期間)を示す。Tは、インパルス応答の次数Nよりも大きい整数である。
合成信号ベクトルx’q(t)は、[x’ q(0)(0),x’ q(1)(1),x’ q(2)(2),…,x’ q(t)(t),…,x’ q(T+N-2)(T+N-2)]と表される。つまり、合成信号ベクトルx’q(t)は、第t次元の要素として時刻tにおける合成信号の信号値x’ q(t)(t)を含むT+N-1次元のベクトルである。
インパルス応答行列H’q(t)は、[h’,h’,h’,…,h’,…,h’T+N-2と表される。つまり、インパルス応答行列H’q(t)は、第t行の要素としてT次元の要素ベクトルh’を含むT+N-1行T列の行列である。
要素ベクトルh’は、それぞれ次式で表されるT次元の行ベクトルである。
Figure 0007016307000002
シミュレーション部14は、次に説明する手順で合成信号の信号値を算出する。
図3は、本実施形態に係る合成信号生成処理の例を示すフローチャートである。
(ステップS102)シミュレーション部14は、音源信号の時刻0における信号値s(0)から時刻N-1における信号値s(N-1)まで、その順序で配列して音源信号ベクトルsを構成する。
(ステップS104)インパルス応答取得部142は、予め設定されたモデルデータを用いて、時刻0における収音位置q(0)に対応するインパルス応答h’q(0)から時刻T+N-2における収音位置q(T+N-2)までのインパルス応答h’q(T+N-2)を生成する。
(ステップS106)シミュレーション部14は、生成したインパルス応答h’q(0)-h’q(T+N-2)からインパルス応答行列H’を構成する。インパルス応答行列H’を構成する際、第0行から第N-2行までの第t行において、シミュレーション部14は、時刻tにおける第t応答係数h’q(t)(t)から第0応答係数h’q(t)(0)までのt+1個の応答係数と、T-(t+1)個の0(ゼロ;スカラ値)を各列の要素値として、その順序で配列する。
第N-1行から第T-1行までの第t行において、シミュレーション部14は、t-N+1個の0と、時刻tにおける第N-1応答係数h’q(t)(N-1)から第0応答係数h’q(t)(0)までのN個の応答係数と、T-(t+1)個の0を各列の要素値として、その順序で配列する。第T行から第T+N-2行までの第t行において、シミュレーション部14は、t-N+1個の0と、時刻tにおける第N-1応答係数h’q(t)(N-1)から第t-T+1応答係数h’q(t)(t-T+1)までのT+N-(t+1)個の応答係数を、各列の要素値として、その順序で配列する。
(ステップS108)シミュレーション部14は、音源信号ベクトルsにインパルス応答行列H’を乗算して合成信号ベクトルx’q(t)を算出する。シミュレーション部14は、合成信号ベクトルx’q(t)の要素値x’q(t)(t)を時刻tにおける合成信号の信号値として合成信号生成部15に出力する。
(インパルス応答の生成モデル)
次に、インパルス応答の生成モデルの例について説明する。
インパルス応答の生成モデルとして、音源位置と収音位置(もしくは、音源位置を基準とする収音方向)に応じてインパルス応答を一意に定めることができる数理モデルであれば、いかなる生成モデルも利用可能である。
インパルス応答取得部142は、インパルス応答の生成モデルとして、例えば、幾何学的音響伝搬モデルを利用することができる。簡素な音響伝搬モデルのうちの一つとして球面波モデルが利用可能である。球面波モデルは、収音位置qにおける音圧が、音源位置から収音位置までの距離rに反比例して減衰し、音源位置における時刻から伝搬時間tだけ遅延することを表すモデルである。伝搬時間tは、距離rを音速vで除算して得られる。
また、インパルス応答取得部142は、予め複数の受音点のそれぞれに対して実測された伝達関数を補間して、収音位置における伝達関数を算出してもよい。周波数領域で算出される伝達関数に対して逆フーリエ変換を行うことにより、時間領域のインパルス応答が得られる。複数の伝達関数を補間する手法として、FDLI(Frequency Domain Linear or bi-linear Interpolation)法、TDLI(Time Domain Linear interpolation)法、FTDLI(Frequency Time Domain Linear or bi-linear Interpolation)法などのいずれの手法が用いられてもよい。FDLI法とは、2以上の受音点間において、それぞれの受音点に対する伝達関数を周波数領域で線形補間して、収音位置に対する伝達関数を算出する手法である。TDLI法とは、時間領域で2以上の受音点間において、それぞれの受音点に対する伝達関数を時間領域で線形補間して、収音位置に対する伝達関数を算出する手法である。FTDLI法は、時間領域で2以上の受音点間において、それぞれの受音点に対する伝達関数の位相を周波数領域で線形補間し、振幅を時間領域で線形補間する手法である。
また、インパルス応答取得部142は、インパルス応答の生成モデルとして、音源位置から放射される音波の伝搬を表す波動方程式から導出されたモデルを用いてもよい。波動方程式から導出されるグリーン関数は、音源位置から収音位置までの伝達特性を示すインパルス応答として利用することができる。Habetsが提案した室内インパルス応答生成法では、直方体の形状を有する室の壁面における音の反射特性を境界条件として導出されるグリーン関数がインパルス応答として採用されている。Habetsが提案した手法については、例えば、次の文献に詳しく記載されている。
Habets,E.A.(2006). Room impulse response generator. Technische Universiteit Eindhoven,Tech.Rep.2(2.4),1.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、第1の実施形態との差異点を主とする。第1の実施形態と共通の処理、構成については、同一の符号を付して、特に断らない限りその説明を援用する。
図4は、本実施形態に係る音響処理装置1の構成を示す概略図である。
音響処理装置1は、音源信号取得部11、収音位置取得部12、収音位置離散化部13、シミュレーション部14、合成信号生成部15、音源位置取得部16および音源位置離散化部17を含んで構成される。即ち、図4に示す音響処理装置1は、図1に示す音響処理装置1に対して、さらに音源位置取得部16と音源位置離散化部17を備える。
音源位置取得部16は、シミュレーションの条件の他の要素である音源位置を示す音源位置信号を取得する。本実施形態では、収音位置の他、音源位置も時間の経過に応じて変動しうる。音源位置取得部16は、例えば、所定の音源位置の移動パターンを示す音源位置信号を生成する。音源位置取得部16は、操作部(図示せず)から入力される操作信号で逐次に指示される音源位置を示す音源位置信号を生成してもよい。音源位置取得部16は、生成した音源位置信号を音源位置離散化部17に出力する。
音源位置離散化部17は、音源位置取得部16から入力される音源位置信号が示す音源位置を所定のサンプリング周波数に対応する時間間隔でサンプリングすることにより離散化する。このサンプリング周波数は、音響信号のサンプリング周波数と等しい周波数である。入力される音源位置信号は、音響信号のサンプリング時刻とは異なる離散化時刻ごとの音源位置を示すディジタル信号でありうる。その場合には、音源位置離散化部17は、音源位置信号が示す時刻ごとの収音位置を補間して、そのサンプリング周波数に対応する時間間隔で離散化された時刻ごとに収音位置を算出する。音源位置離散化部17は、離散化された音源位置信号をシミュレーション部14に出力する。
シミュレーション部14には、音源信号取得部11から音源信号が入力され、収音位置離散化部13から収音位置信号が入力される他、音源位置離散化部17から音源位置信号が入力される。
インパルス応答取得部142は、モデルデータを用いて、離散化された時刻ごとに音源位置から収音位置信号が示す収音位置までのインパルス応答を生成する。本実施形態では、時刻ごとの音源位置、収音位置は、入力された音源位置信号、収音位置信号でそれぞれ指示される。従って、生成されるインパルス応答h”q(t)p(t)は、収音位置q(t)と音源位置p(t)に依存する。
シミュレーション部14は、後述するシミュレーション方法に従い、時刻tごとに生成したインパルス応答を構成する応答係数を用いて、音源信号に対して畳み込み演算を行う。シミュレーション部14は、畳み込み演算により得られた各時刻tで収音位置q(t)において収音されうる音の信号値x”(t)を合成信号生成部15に出力する。
(シミュレーション方法)
次に、本実施形態に係るシミュレーション方法について説明する。
図5は、時刻tにおけるインパルス応答h”p(t)q(t)を示す。インパルス応答h”p(t)q(t)は、音源位置p(t)から収音位置q(t)までの音の伝達特性を示す。時刻tにおけるインパルス応答h”p(t)q(t)は、第0次の応答係数h”p(t)q(t)(0)から第N-1次の応答係数h”p(t)q(t)(N-1)をそれぞれ要素として有するN次元のベクトル[h”p(t)q(t)(0),h” p(t)q(t)(1),h” p(t)q(t)(2),…,h” p(t)q(t)(N-1)]として表される。
本実施形態では、音源位置p(t)、収音位置q(t)の両者が時間経過により変化しうるため、インパルス応答h”p(t)q(t)も時間経過に伴って変化しうる。収音位置q(t)の変動に対しては、シミュレーション部14は、畳み込み演算において、過去の時刻t-τにおける音源信号の信号値s(t-τ)の現時刻tにおける信号値x”q(t)(t)に対する寄与率として、時刻t-τにおける収音位置q(t-τ)に対する第τ次の応答係数h”p(t)q(t-τ)(τ)を用いればよい。ここで、音源位置p(t)の変動に関しては、各時刻tにおける音源位置p(t)に配置された音源Srが信号値s(t)に基づく音を放射し、その他の時刻t-τにおける音源位置p(t-τ)に配置された音源が音を放射していないと仮定する。
そこで、シミュレーション部14は、現時刻tにおける音源位置p(t)と収音位置q(t)に対応するインパルス応答の第0応答係数h”p(t)q(t)(0)から、現時刻tから(N-1)時刻前の時刻t-N+1における音源位置p(t-N+1)と現時刻tにおける収音位置q(t)に対応するインパルス応答の第N-1応答係数h”p(t-N+1)q(t))(N-1)までのN個の応答係数のそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N-1時刻前における信号値s(t-N+1)までのそれぞれに乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x” q(t)(t)として算出する。
本実施形態では、シミュレーション部14は、式(3)に示すように、音源信号ベクトルsに、インパルス応答行列H”q(t)を乗じて合成信号ベクトルx”q(t)を算出することができる。
Figure 0007016307000003
合成信号ベクトルx”q(t)は、[x” q(0)(0),x” q(1)(1),x” q(2)(2),…,x” q(t)(t),…,x”q(T+N-2)(T+N-2)]と表される。
インパルス応答行列H”q(t)は、[h”,h”,h”,…,h”,…,h”T+N-2と表される。
要素ベクトルh”は、それぞれ次式で表されるT次元の行ベクトルである。
Figure 0007016307000004
従って、インパルス応答取得部142は、ステップS104(図3)において、モデルデータを用いて、各時刻t(tは、0からT-1までの整数)における音源位置p(t)と各時刻t(tは、0からT+N-2までの整数)における収音位置q(t)との組にそれぞれ対応するインパルス応答h”p(t1)q(t2)を生成すればよい。
シミュレーション部14は、ステップS106(図3において)、生成したインパルス応答h”p(t1)q(t2)からインパルス応答行列H”を構成する。インパルス応答行列H”を構成する際、第0行から第N-2行までの第t行において、シミュレーション部14は、時刻0における音源位置p(0)と時刻tにおける収音位置q(t)に対応するインパルス応答の第t応答係数h”p(0)q(t)(t)から時刻tにおける音源位置p(t)と時刻tにおける収音位置q(t)に対応するインパルス応答の第0応答係数h”p(t)q(t)(0)までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として、その順序で配列する。
第N-1行から第T-1行までの第t行において、シミュレーション部14は、t-N+1個の0と、時刻t-N+1における音源位置p(t-N+1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第N-1応答係数h” p(t-N+1)q(t)(N-1)から時刻tにおける音源位置p(t)と時刻tにおける収音位置q(t)に対応するインパルス応答の第0応答係数h” p(t)q(t)(0)までのN個の応答係数と、T-(t+1)個の0を各列の要素値として、その順序で配列する。
第T行から第T+N-2行までの第t行において、シミュレーション部14は、T-N+1個の0と、時刻t-N+1における音源位置p(t-N+1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第N-1応答係数h” p(t-N+1)q(t)(N-1)から時刻T-1における音源位置p(T-1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第t-T+1応答係数h”p(T-1)q(t)(t-T+1))までのT+N-(t+1)個の応答係数を、各列の要素値として、その順序で配列する。
(評価実験)
上記の実施形態の音響処理方法の有効性を検証するために出願人は2項目の評価実験を行った。実験1では、合成信号のドップラー効果の再現性について検証した。実験1では、音源となるスピーカと収音部となるマイクロホンの位置関係として、次の移動パターン(a)~(c)を設定した。
パターン(a) 当初、音源位置から収音位置までの距離を18.74mに設定しておき、収音位置を静止させたまま、音源位置を収音位置に秒速40m/sの速度で接近させた。
パターン(b) 当初、音源位置から収音位置までの距離を8.5mに設定しておき、音源位置を静止させたまま、収音位置を音源位置に秒速40m/sの速度で接近させた。
パターン(c) 当初、音源位置から収音位置までの距離を26.74mに設定しておき、音源位置と収音位置が互いに接近する方向に、それぞれ秒速40m/sの速度で接近させた。従って、合成信号の生成において、パターン(a)、(c)については、第2の実施形態を適用し、パターン(b)については、第1の実施形態を適用した。
合成信号の生成には、期間が0.2sの音源信号と長さが0.256sのインパルス応答を用いた。インパルス応答の生成において、Habetsが提案した手法を用いた。但し、音速340m/s、サンプリング周波数8kHz、残響時間0.2sおよび反射次数0次を仮定した。また、マイクロホンの指向特性として無指向性を仮定した。
検証結果の有効性を評価するために、合成信号の周波数と、収音信号の周波数の理論値とを比較した。ドップラー効果によれば、収音信号の周波数の理論値f’は、式(5)に示すように、音源信号の周波数fに対して、音速Vと音源位置の移動速度vとの差に対する音速Vと収音位置の移動速度vとの和の比を乗じて得られる周波数となる。
Figure 0007016307000005
パターン(a)では、理論値は、1133.33Hzであるのに対し、合成信号の周波数は、1133.42Hzとなった。パターン(b)では、理論値は、1117.65Hzであるのに対し、合成信号の周波数は、1117.71Hzとなった。パターン(c)では、理論値は、1266.67Hzであるのに対し、合成信号の周波数は、1266.84Hzとなった。パターン(a)~(c)ともに、合成信号の周波数の理論値との差分は、0.14Hz以下に過ぎない。従って、実験1の結果は、音源位置や収音位置の移動に伴う周波数の変化が十分に再現できることを示す。
実験2では、合成信号の音量について検証した。検証において、現実に音源から発した音を収音して得られる収音信号の音量と合成信号の音量とを比較した。音源信号として英文誌ウォールストリートジャーナル(WSJ:Wall Street Journal)の原稿のうち10個の文を発話内容とする音声を用いた。
収音信号は、無響室内でスピーカとマイクロホンの一方もしくは両方を移動させながら収録した。無響室の内部は、縦6.2m、横4.8m、高さ5.1mの直方体の空間である。スピーカは、無響室の中心部を中心位置とする縦方向に4.0mの範囲を経路として移動させた。但し、スピーカを静止させる場合には、その経路の中心位置に静止させた。マイクロホンは、無響室の中心部から横方向に1.0m離れた位置を中心位置とする縦方向に4.0mの範囲を経路として移動させた。但し、マイクロホンを静止させる場合には、その経路の中心位置に静止させた。スピーカとマイクロホンの位置関係として、次の移動パターン(i)~(v)を設定した。
パターン(i) 音源位置、収音位置をいずれも静止させた。
パターン(ii) 音源位置を静止させながら、収音位置を経路の一端から他端まで一定速度1.8m/sで移動させた。
パターン(iii) 収音位置を静止させながら、音源位置を経路の一端から他端まで一定速度1.8m/sで移動させた。
パターン(iv) 音源位置と収音位置を、同じ方向でそれぞれの経路上を一端から他端まで一定速度で移動させた。但し、音源位置の移動速度を1.8m/sとし、収音位置の移動速度を1.7m/sとした。
パターン(v) 音源位置と収音位置を、同じ速度でそれぞれの経路上を一定速度1.8m/sで移動させた。但し、音源位置と収音位置の移動方向は、互いに逆方向である。音源の移動開始位置はその経路の一端であるのに対し、収音位置の移動開始位置はその経路の他端である。従って、パターン(i)に対する合成信号は、従来の手法と同様に音源位置と収音位置に対するインパルス応答を音源信号に対して畳み込み演算を行って得られる。パターン(ii)に対する合成信号は、第1の実施形態の手法を実行して得られる。パターン(iii)~(v)に対する合成信号は、第2の実施形態の手法を実行して得られる。
評価を行う前に、合成信号に対する増幅率Aを定める。増幅率Aは、合成信号全体に対する音量を収音信号全体に対する音量に合わせるためのパラメータである。
増幅率Aは、式(6)に基づいて計算できる。
Figure 0007016307000006
(f,t)は、第fフレームの時刻tにおける合成信号の信号値を示す。x(f,t)は、第fフレームの時刻tにおける収音信号の信号値を示す。F、Nは、それぞれフレーム数、フレーム内のサンプル数を示す。従って、増幅された合成信号全体の音量が収音信号の音量に全体として等しくする増幅率A’が、増幅率Aとして算出される。
つまり、式(6)に示す増幅率Aは、式(7)に示す関数C(A)を最小にするとの条件のもとで与えられる。
Figure 0007016307000007
関数C(A)の増幅率Aに対する導関数は、式(8)で与えられる。
Figure 0007016307000008
式(8)の両辺を0とおくと、式(9)の関係が得られる。
Figure 0007016307000009
式(9)を変形すると、式(10)が得られる。式(10)を用いて増幅率Aが算出される。
Figure 0007016307000010
そして、合成信号x(f,t)に増幅率Aを乗算して、補正合成信号x’(f,t)を算出する。次に、合成信号と収音信号の音量の類似性の尺度として、式(11)を用いて距離Dを算出する。
Figure 0007016307000011
距離Dは、合成信号と収音信号の信号値のフレームごとの差の大きさを示す。評価において、距離Dを音源位置と収音位置の時間変化に伴う両信号間の振幅変化の差の大きさを示す尺度として用いた。
なお、比較のために、式(12)を用いて原信号x’(f,t)と収音信号との距離Dを算出した。
Figure 0007016307000012
評価において、パターン(i)~(v)のそれぞれについて、距離Dと距離Dを算出した。次に、距離Dと距離Dの算出例を示す。但し、次に示す算出例は、移動パターンごとの10回の発話間の平均値である。
距離Dsは、パターン(i)、(ii)、(iii)、(iv)、(v)のそれぞれについて、0.0110、0.0147、0.096、0.0120、0.0089となった。
距離Doは、パターン(i)、(ii)、(iii)、(iv)、(v)のそれぞれについて、0.0108、0.0302、0.0335、0.0139、0.0372となった。
算出した距離Dは、パターン(v)、(iii)、(i)、(iv)、(ii)の順に大きくなるが、いずれのパターンにかかわらず、約0.01となり、音源位置と収音位置の相対速度との相関性も認められない。最も相対速度が大きい移動パターン(v)でも距離Dは0.0089に過ぎない。
他方、距離Doは、パターン(i)、(iv)、(ii)、(iii)、(v)の順に大きくなる傾向がある。このことは、相対速度が大きいほど移動に伴う音量の変化が著しいことを裏付ける。パターン(i)では、音源位置と収音位置の相対速度が0となり、移動パターン(iv)では、音源位置と収音位置の相対速度が0.1m/sとなり、移動パターン(ii)、(iii)では、音源位置と収音位置の相対速度が1.8m/sとなり、移動パターン(v)では、音源位置と収音位置の相対速度が3.6m/sとなる。移動パターン(i)、(iv)のように音源位置と収音位置の相対速度が0や0と近い場合に、距離Doと距離Dが近似するに過ぎない。
従って、実験2の結果は、音源位置と収音位置の間の相対速度が高くなっても、移動に伴う音量の変化を再現できることを示す。
以上に説明した実施形態に係る音響処理装置1は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化部13と、音源位置から収音位置までの伝達特性を示すインパルス応答を取得するシミュレーション部14を備える。インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN個の応答係数を含む。シミュレーション部14は、現時刻tにおける第0応答係数から時刻t-(N-1)までの第N-1応答係数までの応答係数と、音源が発する音響信号を所定時間間隔で離散化した信号値について、現時刻tにおける信号値から前記時刻t-(N-1)における信号値までの信号値を用いて畳み込み演算を行って、収音位置における音響信号である合成信号を示す信号値を算出する。
この構成により、移動する収音部で収音される収音信号に近似する合成信号を容易に取得することができる。
また、音響処理装置1は、移動する音源位置を所定時間間隔で離散化する音源位置離散化部17をさらに備えてもよい。シミュレーション部14は、離散化した音源位置から収音位置までの伝達特性を示すインパルス応答を取得する。
この構成により、移動する音源から発される音に応じて収音される収音信号に近似する合成信号を容易に取得することができる。
また、音響処理装置1は、シミュレーション部14は、応答係数を要素値として含むT+N-1行T列のシミュレーション行列を生成し、シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T-(t+1)個の0を各列の要素値として含む。シミュレーション行列の第N-1行から第T-1行までの第t行は、T-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T-(t+1)個の0を各列の要素値として含む。また、シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から時刻tにおける収音位置に基づく第t-T+1応答係数までの応答係数を各列の要素値として含む。そして、シミュレーション部14は、時刻0における前記信号値から時刻T-1における信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、生成したシミュレーション行列を音響信号ベクトルに乗算する。
この構成によれば、音源信号に基づく音響信号ベクトルに対する、音源位置と移動する音源位置に対応するインパルス応答の応答係数を要素値として含むインパルス応答行列の乗算により、収音信号ベクトルが得られる。そのため、複雑な演算を要さずに収音信号の信号値を容易に得ることができる。
なお、上述した実施形態における音響処理装置1の一部、例えば、収音位置離散化部13、シミュレーション部14、合成信号生成部15および音源位置離散化部17をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置1に内蔵されたCPU等の1以上のプロセッサを備えるコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音響処理装置1は、音声認識に用いられる音響モデル学習部(図示せず)の一部として構成されてもよい。音響モデル学習部は、それぞれ音源位置の時系列を示す移動パターンごとに合成信号生成部15が生成した合成信号を用いて音響モデルを生成する。音響モデル学習部は、生成された合成信号について所定の時間長(例えば、10~50ms)のフレームごとに音響特徴量(例えば、MFCC(Mel-frequency Cepstrum Coefficients;メル周波数ケプストラム係数)を算出し、算出した音響信号を用いて、予め生成された既存の音響モデルに対する最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)による更新処理を行う。既存の音響モデルは、例えば、音源位置と収音位置が固定された静的環境下で収音された発話音声を用いて学習された音響モデルとして、GMM(Gaussian Mixture Model;混合ガウス分布モデル)、隠れマルコフモデル(Hidden Markov Model;HMM)などが適用可能である。これにより、比較的少量の合成信号により、移動パターンごとの音響モデルを取得できる。音声認識装置は、移動パターンごとに生成された音響モデルを音声認識に用いることで、発話者や収音部の移動パターンに応じた発話音声の認識を向上させることができる。
また、音響処理装置1は、仮想的な音響環境における音源位置から収音位置に伝搬する音を示す合成信号を生成ならびに可聴化するための音響シミュレータとして構成されてもよい。
1…音響処理装置、11…音源信号取得部、12…収音位置取得部、13…収音位置離散化部、14…シミュレーション部、15…合成信号生成部、16…音源位置取得部、17…音源位置離散化部

Claims (4)

  1. 移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化部と、
    音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
    前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
    現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション部と、を備え、
    前記シミュレーション部は、
    前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、
    前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、
    時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、
    前記シミュレーション行列を前記音響信号ベクトルに乗算する
    音響処理装置。
  2. 移動する前記音源位置を所定時間間隔で離散化する音源位置離散化部をさらに備え、
    前記シミュレーション部は、
    離散化した前記音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得することを特徴とする請求項1に記載の音響処理装置。
  3. 音響処理装置における音響処理方法であって、
    前記音響処理装置は、
    移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化過程と、
    音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
    前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
    現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション過程と、を有し、
    前記シミュレーション過程は、
    前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、
    前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、
    時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、
    前記シミュレーション行列を前記音響信号ベクトルに乗算する
    音響処理方法。
  4. 音響処理装置のコンピュータに、
    移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化手順と、
    音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
    前記インパルス応答は、時刻ごとに第0応答係数から第N-1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
    現時刻tにおける第0応答係数から、当該現時刻tからN-1時刻前の時刻t-(N-1)における第N-1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t-(N-1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション手順と、
    を実行させるためのプログラムであって、
    前記シミュレーション手順は、
    前記応答係数を要素値として含むT+N-1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、
    前記シミュレーション行列の第0行から第N-2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から第0応答係数までのt+1個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第N-1行から第T-1行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第0応答係数までのN個の応答係数と、T-(t+1)個の0を各列の要素値として含み、
    前記シミュレーション行列の第T行から第T+N-2行までの第t行は、t-N+1個の0と、時刻tにおける収音位置に基づく第N-1応答係数から第t-T+1応答係数までのT+N-(t+1)個の応答係数を各列の要素値として含み、
    時刻0における前記信号値から時刻T-1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、
    前記シミュレーション行列を前記音響信号ベクトルに乗算する
    プログラム。
JP2018165175A 2018-09-04 2018-09-04 音響処理装置、音響処理方法およびプログラム Active JP7016307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018165175A JP7016307B2 (ja) 2018-09-04 2018-09-04 音響処理装置、音響処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018165175A JP7016307B2 (ja) 2018-09-04 2018-09-04 音響処理装置、音響処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020038284A JP2020038284A (ja) 2020-03-12
JP7016307B2 true JP7016307B2 (ja) 2022-02-04

Family

ID=69737888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018165175A Active JP7016307B2 (ja) 2018-09-04 2018-09-04 音響処理装置、音響処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP7016307B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317911A (ja) 2003-04-18 2004-11-11 Chiba Inst Of Technology 音場シミュレーション装置、音場シミュレーション方法、コンピュータプログラム、プログラム記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3258816B2 (ja) * 1994-05-19 2002-02-18 シャープ株式会社 3次元音場空間再生装置
JP2006005868A (ja) * 2004-06-21 2006-01-05 Denso Corp 車両用報知音出力装置及びプログラム
JP2014093697A (ja) * 2012-11-05 2014-05-19 Yamaha Corp 音響再生システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317911A (ja) 2003-04-18 2004-11-11 Chiba Inst Of Technology 音場シミュレーション装置、音場シミュレーション方法、コンピュータプログラム、プログラム記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山中晋他,頭部伝達関数の補間による音像の滑らかな移動,電子情報通信学会2001年基礎・境界ソサイエティ大会講演論文集,p.204

Also Published As

Publication number Publication date
JP2020038284A (ja) 2020-03-12

Similar Documents

Publication Publication Date Title
Antonello et al. Room impulse response interpolation using a sparse spatio-temporal representation of the sound field
US8447585B2 (en) System and method for characterizing, synthesizing, and/or canceling out acoustic signals from inanimate sound sources
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
US9805704B1 (en) Method and system for artificial reverberation using modal decomposition
Salvati et al. Adaptive time delay estimation using filter length constraints for source localization in reverberant acoustic environments
US20140224100A1 (en) Digital aerophones and dynamic impulse response systems
JPH10320008A (ja) 複合被駆動システムの効率的合成
Grondin et al. BIRD: Big impulse response dataset
Han et al. wav2shape: Hearing the Shape of a Drum Machine
JP2023550434A (ja) 改良型音響源測位法
JP7016307B2 (ja) 音響処理装置、音響処理方法およびプログラム
Sarabia et al. Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
Antonello et al. Joint source localization and dereverberation by sound field interpolation using sparse regularization
US11830471B1 (en) Surface augmented ray-based acoustic modeling
Simionato et al. A virtual tube delay effect
CN114609493B (zh) 一种信号数据增强的局部放电信号识别方法
Nguyen et al. Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network.
Olgun et al. Data-driven threshold selection for direct path dominance test
Johnson et al. Latent gaussian activity propagation: using smoothness and structure to separate and localize sounds in large noisy environments
Buday et al. Microphone array speech enhancement using LSTM neural network
Ma et al. Generalized crosspower-spectrum phase method
Okubo et al. Three-Dimensional Sound Wave Propagation Reproduction by CE-FDTD Simulation Applying Actual Radiation Characteristics
Verma et al. One-Shot Acoustic Matching Of Audio Signals--Learning to Hear Music In Any Room/Concert Hall
Lankila Simulation Model for an Active Noise Control System-Development and Validation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220125