JP2020038284A - Acoustic processing device, acoustic processing method and program - Google Patents
Acoustic processing device, acoustic processing method and program Download PDFInfo
- Publication number
- JP2020038284A JP2020038284A JP2018165175A JP2018165175A JP2020038284A JP 2020038284 A JP2020038284 A JP 2020038284A JP 2018165175 A JP2018165175 A JP 2018165175A JP 2018165175 A JP2018165175 A JP 2018165175A JP 2020038284 A JP2020038284 A JP 2020038284A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- time
- signal
- response
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音響処理装置、音響処理方法およびプログラムに関する。 The present invention relates to a sound processing device, a sound processing method, and a program.
音声認識は、発話音声の内容を特定するための処理であり、人工知能(AI:Artificial intelligence)の要素技術として様々な環境で応用されている。音声認識では、一般的に音声の物理的な特性を示す音響特徴量と発音との間の統計的な関係を示す音響モデルが用いられる。従来は、話者とマイクロホンとの位置関係が固定されている静的環境を前提として、音響モデルの学習が行われてきた。 Speech recognition is a process for specifying the content of an uttered voice, and is applied in various environments as an elemental technology of artificial intelligence (AI). In speech recognition, generally, an acoustic model indicating a statistical relationship between an acoustic feature indicating a physical characteristic of a speech and pronunciation is used. Conventionally, acoustic model learning has been performed on the premise of a static environment in which the positional relationship between a speaker and a microphone is fixed.
AIの普及に伴い、音声認識は動的な環境で応用されることがある。例えば、音声認識エンジンがロボットなどの移動体に搭載されることがある。そのような場合には、音声を収音するためのマイクロホンも移動体に設置される。話者とマイクロホンとの位置関係が変化するので、収音される音声の音響特徴量も変化してしまう。そのため、動的環境で音声認識を実行する際、静的環境で学習された音響モデルをそのまま用いると認識率が低下しがちである。 With the spread of AI, speech recognition may be applied in a dynamic environment. For example, a voice recognition engine may be mounted on a moving object such as a robot. In such a case, a microphone for collecting sound is also installed on the moving body. Since the positional relationship between the speaker and the microphone changes, the acoustic feature of the collected sound also changes. Therefore, when speech recognition is performed in a dynamic environment, the recognition rate tends to decrease if an acoustic model learned in a static environment is used as it is.
動的な環境のもとで音声認識を実行する際、その環境に応じた音響モデルを用いて認識率を向上させることが期待される。話者とマイクロホンとの位置関係は、その都度変化しうるが、特許文献1に記載の手法では、マイクロホンが静止している場合を前提としている。しかしながら、音響モデルの学習のために現実にマイクロホンの位置、つまり収音位置を変化させながら学習用の音声データを取得することは煩雑である。そこで、収音位置が変化する環境を仮定して、収音される音声データを容易に取得することが期待される。
When speech recognition is performed in a dynamic environment, it is expected to improve the recognition rate by using an acoustic model corresponding to the environment. The positional relationship between the speaker and the microphone can change each time, but the method described in
本発明は上記の点に鑑みてなされたものであり、収音位置が変化する状況で収音される音を容易に取得することを課題とする。 The present invention has been made in view of the above points, and it is an object of the present invention to easily obtain a sound picked up in a situation where a sound pickup position changes.
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化部と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション部と、を備える音響処理装置である。 (1) The present invention has been made to solve the above-described problem, and one embodiment of the present invention is a sound pickup position that digitizes a sound pickup position that is a position of a moving sound pickup unit at predetermined time intervals. A discretization unit and an impulse response indicating a transfer characteristic from the sound source position to the sound pickup position are acquired, and the impulse response is N (N is from 0th response coefficient to N-1th response coefficient for each time). Response coefficients from the 0th response coefficient at the current time t to the (N-1) th response coefficient at a time t- (N-1) immediately before the current time t. Convolution operation using a response coefficient and a signal value obtained by discretizing an acoustic signal emitted from a sound source at the predetermined time interval from a signal value at the current time t to a signal value at a time t− (N−1). To obtain an acoustic signal at the sound pickup position. A simulation unit for calculating a signal value at to the current time t, a sound processing apparatus comprising a.
(2)本発明のその他の態様は、上述の音響処理装置であって、移動する前記音源位置を所定時間間隔で離散化する音源位置離散化部をさらに備え、前記シミュレーション部は、離散化した前記音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得することを特徴とする。 (2) Another embodiment of the present invention is the above-described sound processing device, further comprising a sound source position discretization unit that discretizes the moving sound source position at predetermined time intervals, and wherein the simulation unit performs discretization. An impulse response indicating a transfer characteristic from the sound source position to the sound pickup position is obtained.
(3)本発明のその他の態様は、上述の音響処理装置であって、前記シミュレーション部は、前記応答係数を要素値として含むT+N−1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、前記シミュレーション行列の第0行から第N−2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第N−1行から第T−1行までの第t行は、T−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含み、前記シミュレーション行列の第T行から第T+N−2行までの第t行は、t−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第t−T+1応答係数までの応答係数を各列の要素値として含み、時刻0における前記信号値から時刻T−1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、前記シミュレーション行列を前記音響信号ベクトルに乗算する。
(3) Another aspect of the present invention is the above-described sound processing device, wherein the simulation unit performs a simulation of T + N−1 rows and T columns (T is an integer greater than N) including the response coefficient as an element value. A t-th row from the 0th row to the (N-2) th row of the simulation matrix includes a 0th response coefficient based on the sound pickup position at time t to a 0th response coefficient based on the sound pickup position at time t. , And T- (t + 1) 0s as element values of each column, and the t-th row from the (N−1) th row to the T−1-th row of the simulation matrix has T−N + 1 0, the response coefficients from the (N−1) th response coefficient based on the sound pickup position at time t to the 0th response coefficient based on the sound pickup position at time t, and T− (t + 1) 0s are the element values of each column. As the simulation line The t-th row from the T-th row to the (T + N-2) -th row has t-N + 1 zeros and the (n−1) th response coefficient based on the sound pickup position at time t, and the t-th line based on the sound pickup position at time t. A response signal up to −T + 1 response coefficient is included as an element value of each column, and an acoustic signal vector including a signal value from the signal value at
(4)本発明のその他の態様は、音響処理装置における音響処理方法であって、前記音響処理装置は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化過程と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション過程と、を有する。 (4) Another aspect of the present invention is a sound processing method in a sound processing apparatus, wherein the sound processing apparatus discretizes a sound collection position, which is a position of a moving sound collection unit, at predetermined time intervals. A position discretization process and an impulse response indicating a transfer characteristic from the sound source position to the sound pickup position are acquired. , Which is an integer greater than 1), from the 0th response coefficient at the current time t to the (N-1) th response coefficient at a time t- (N-1) which is N-1 times before the current time t. And a signal value obtained by discretizing the acoustic signal emitted from the sound source at the predetermined time interval from the signal value at the current time t to the signal value at the time t− (N−1). Perform the calculation to find the sound pickup position Kicking with a simulation step of calculating the signal value at the current time t showing an acoustic signal.
(5)本発明のその他の態様は、音響処理装置のコンピュータに、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化手順と、音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション手順と、を実行させるためのプログラムである。 (5) In another aspect of the present invention, a computer of the sound processing apparatus includes a sound collecting position discretizing step of discretizing a sound collecting position, which is a position of a moving sound collecting unit, at predetermined time intervals, and An impulse response indicating a transfer characteristic up to the sound pickup position is obtained, and the impulse response is N (N is an integer greater than 1) response coefficients from a 0th response coefficient to an N-1th response coefficient at each time. And a response coefficient from the 0th response coefficient at the current time t to an N-1th response coefficient at a time t- (N-1) immediately before the current time t and an N-1 time point, and an acoustic signal emitted by the sound source. Is convolved using the signal values from the signal value at the current time t to the signal value at the time t− (N−1) for the signal value obtained by discretizing the signal at the predetermined time interval. At the current time t indicating the sound signal, And simulation procedure for calculating the that signal value, which is a program for causing the execution.
本発明の態様(1)、(4)及び(5)によれば、移動する収音部で収音される収音信号に近似する合成信号を容易に取得することができる。
本発明の態様(2)によれば、移動する音源から発される音に応じて収音される収音信号に近似する合成信号を容易に取得することができる。
本発明の態様(3)によれば、音源信号に基づく音響信号ベクトルに対する、音源位置と移動する音源位置に対応するインパルス応答の応答係数を要素値として含むインパルス応答行列の乗算により、収音信号ベクトルが得られる。そのため、複雑な演算を要さずに収音信号の信号値を容易に得ることができる。
According to the aspects (1), (4) and (5) of the present invention, it is possible to easily obtain a synthesized signal that is similar to a sound pickup signal picked up by a moving sound pickup unit.
According to the aspect (2) of the present invention, it is possible to easily obtain a synthesized signal that is similar to a sound pickup signal picked up in accordance with a sound emitted from a moving sound source.
According to the aspect (3) of the present invention, a sound pickup signal is obtained by multiplying an acoustic signal vector based on a sound source signal by an impulse response matrix including, as element values, a response coefficient of an impulse response corresponding to a sound source position and a moving sound source position. The vector is obtained. Therefore, the signal value of the picked-up signal can be easily obtained without requiring a complicated operation.
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成例を示す概略ブロック図である。
音響処理装置1は、音源信号取得部11、収音位置取得部12、収音位置離散化部13、シミュレーション部14および合成信号生成部15を含んで構成される。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram illustrating a configuration example of a
The
音源信号取得部11は、処理対象の音響信号として音源信号を取得する。音源信号は、所定のサンプリング周波数(例えば、8kHz−48kHz)に対応する時間間隔でサンプリングされた時刻ごとの信号値の時系列からなるディジタル音響信号である。各サンプル時刻の信号値は、その時点における音の強度を示す。音源信号取得部11は、取得した音源信号をシミュレーション部14に出力する。
音源信号取得部11は、例えば、マイクロホン(図示せず)から入力されるアナログ音響信号をディジタル音響信号に変換するためのAD(Analog/Digital;アナログ・ディジタル)変換器を備える。マイクロホンは、音響処理装置1に内蔵されてもよいし、音響処理装置1とは別体であってもよい。音源信号取得部11は、自装置とは別個の他機器から音響信号を入力するための入出力インタフェースであってもよい。
また、音源信号取得部11は、自部に入力される指令(コマンド)で指示される音響信号を格納したデータファイルを、自装置の記憶部(図示せず)から読み出してもよい。音源信号取得部11に入力される指令は、他機器から入力される指令であってもよいし、操作部(図示せず)から入力される操作信号で伝達される命令であってもよい。
The sound source
The sound source
Further, the sound source
収音位置取得部12は、シミュレーションの条件の一つの要素である収音位置を示す収音位置信号を取得する。収音位置は、音を収音する収音部(例えば、マイクロホン)の仮想的な位置である。収音位置は、一般に移動、つまり時間の経過に応じて変動しうる。収音位置取得部12は、例えば、所定の収音位置の移動パターンを示す収音位置信号を生成する。収音位置取得部12は、操作部(図示せず)から入力される操作信号で逐次に指示される収音位置を示す収音位置信号を生成してもよい。収音位置取得部12は、生成した収音位置信号を収音位置離散化部13に出力する。
The sound collection
収音位置離散化部13は、収音位置取得部12から入力される収音位置信号が示す収音位置を所定のサンプリング周波数に対応する時間間隔でサンプリングすることにより離散化する。このサンプリング周波数は、音響信号のサンプリング周波数と等しい周波数である。入力される収音位置信号は、音響信号のサンプリング時刻とは異なる離散化時刻ごとに離散化された収音位置を示すディジタル信号でありうる。その場合には、収音位置離散化部13は、収音位置信号が示す時刻ごとの収音位置を補間して、そのサンプリング周波数に対応する時間間隔で離散化された時刻ごとに収音位置を算出する。収音位置離散化部13は、離散化された収音位置信号をシミュレーション部14に出力する。
The sound collection
シミュレーション部14には、音源信号取得部11から音源信号が入力され、収音位置離散化部13から収音位置信号が入力される。
シミュレーション部14は、インパルス応答取得部142を備える。インパルス応答取得部142には、音源位置から収音位置までの音の伝達特性を示すインパルス応答の生成モデルを示すモデルデータを予め設定させておく。また、本実施形態では、音源位置は所定の位置に静止していることを仮定する。
インパルス応答取得部142は、モデルデータを用いて、時刻ごとに音源位置から収音位置信号が示す収音位置までのインパルス応答を生成する。個々のインパルス応答は、N(Nは、2以上の整数)個の応答係数を含んで構成される。以下の説明では、個々の応答係数を、第n(nは、0からN−1までの整数)と呼ぶ。インパルス応答の長さである応答期間は、例えば、シミュレーション対象の音源位置と収音位置を含む空間の残響時間(例えば、0.1s〜2.0s)と同じ程度であってもよい。従って、インパルス応答の次数Nは、例えば、応答期間をサンプリング間隔で除算して得られる実数値を整数に丸めた値であってもよい。
The
The
The impulse
シミュレーション部14は、離散化された時刻tごとに生成したインパルス応答を用いて音源信号に対して畳み込み演算を行う。ここで、シミュレーション部14は、現時刻tにおける第0応答係数h’q(t)(0)から、現時刻tから(N−1)時刻前の時刻t−(N−1)における第N−1応答係数h’q(t−(N−1))(N−1)までのそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N−1時刻前における信号値s(t−(N−1))に乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x’(t)として算出する。シミュレーション部14は、算出した信号値を合成信号生成部15に出力する。
The
合成信号生成部15は、シミュレーション部14から入力される信号値の時系列を示す合成信号を生成する。合成信号は、シミュレーションによって算出された信号値の時系列を示す。合成信号生成部15は、例えば、生成した合成信号を他機器に出力する。出力先となる機器は、例えば、音声認識装置、スピーカ(図示せず)などである。音声認識装置は、音響モデル学習部(図示せず)を備え、合成信号生成部15から入力される合成信号を用いて音響モデルを生成することができる。スピーカは、合成信号生成部15から入力される合成信号に基づく音を再生する。スピーカにより、移動する収音位置に到来する音が再生される。また、合成信号生成部15は、生成した合成信号を他機器に出力せずに、自装置の記憶部(図示せず)に記憶してもよい。
The synthesized
(シミュレーション方法)
次に、本実施形態に係るシミュレーション方法について説明する。
図2は、時刻tにおけるインパルス応答h’q(t)を例示する。インパルス応答h’q(t)は、音源Srの位置である音源位置pから収音部Mcの位置である収音位置q(t)までの音の伝達特性を示す。時刻tにおけるインパルス応答h’q(t)は、第0次の応答係数h’q(t)(0)から第N−1次の応答係数h’q(t)(N−1)をそれぞれ要素として有するN次元のベクトル[h’q(t)(0),h’q(t)(1),h’q(t)(2),…,hq(t)(N−1)]Tとして表される。ここで、[…]Tは、ベクトルもしくは行列[…]の転置を示す。なお、本願では、ベクトルもしくは行列の最初の行、列を、それぞれ第0行、第0列とする。
(Simulation method)
Next, a simulation method according to the present embodiment will be described.
FIG. 2 illustrates the impulse response h ′ q (t) at time t. The impulse response h ′ q (t) indicates a sound transmission characteristic from the sound source position p, which is the position of the sound source Sr, to the sound collecting position q (t), which is the position of the sound collecting unit Mc. The impulse response h ′ q (t) at time t is obtained by calculating the 0th-order response coefficient h′q (t) (0) to the N−1th-order response coefficient h′q (t) (N−1), respectively. N-dimensional vector [h ′ q (t) (0), h ′ q (t) (1), h ′ q (t) (2),..., H q (t) (N−1) ] Represented as T. Here, [...] T indicates transposition of a vector or matrix [...]. In the present application, the first row and column of a vector or matrix are referred to as a 0th row and a 0th column, respectively.
音源位置p、収音位置q(t)ともに静止している場合には、時刻tにおいて収音位置q(t)で収音される音響信号の信号値x’q(t)(t)は、従来の手法と同様に音源信号s(t)に対してインパルス応答h’q(t)を畳み込み演算を行って算出される。畳み込み演算は、現時刻tよりも所定サンプルτ(τは、1以上N−1以下の整数)前の過去の時刻t−τにおける音源信号の信号値s(t−τ)の現時刻tにおける信号値x’q(t)(t)に対する寄与率を第τ次の応答係数h’q(t)(τ)とする数理モデルとみなすこともできる。 When both the sound source position p and the sound collection position q (t) are stationary, the signal value x ′ q (t) (t) of the acoustic signal collected at the sound collection position q (t) at time t is In a manner similar to the conventional method, the sound source signal s (t) is calculated by performing a convolution operation on the impulse response h ′ q (t) . The convolution operation is performed at the current time t of the signal value s (t-τ) of the sound source signal at the past time t−τ before a predetermined sample τ (τ is an integer of 1 to N−1) before the current time t. It can also be regarded as a mathematical model in which the contribution rate to the signal value x ′ q (t) (t) is the τ-th order response coefficient h ′ q (t) (τ).
但し、本実施形態では、時刻tの経過に伴う収音位置q(t)の変化によりインパルス応答h’q(t)が変化する。そこで、シミュレーション部14は、畳み込み演算において、過去の時刻t−τにおける音源信号の信号値s(t−τ)の現時刻tにおける信号値x’q(t)(t)に対する寄与率として、時刻t−τにおける第τ次の応答係数h’q(t−τ)(τ)を用いる。言い換えれば、シミュレーション部14は、現時刻tにおける第0応答係数hq(t)(0)から、現時刻tから(N−1)時刻前の時刻t−(N−1)における第N−1応答係数h’q(tー(N−1))(N−1)までのそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N−1時刻前における信号値s(t−(N−1))までのそれぞれに乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x’ q(t)(t)として算出する。
However, in the present embodiment, the impulse response h ′ q (t) changes due to a change in the sound collection position q (t) with the passage of the time t. Therefore, in the convolution operation, the
シミュレーション部14は、式(1)に示すように、音源信号ベクトルsに、インパルス応答行列H’q(t)を乗じて合成信号ベクトルx’q(t)を算出することができる。
音源信号ベクトルsは、[s(0),s(1),s(2),…,s(t),…,s(T−1)]Tと表される。つまり、音源信号ベクトルsは、第t次元の要素として時刻tにおける音源信号の信号値s(t)を含むT次元の列ベクトルである。Tは、計算対象とする音源信号のサンプル数(期間)を示す。Tは、インパルス応答の次数Nよりも大きい整数である。
合成信号ベクトルx’q(t)は、[x’ q(0)(0),x’ q(1)(1),x’ q(2)(2),…,x’ q(t)(t),…,x’ q(T+N−2)(T+N−2)]Tと表される。つまり、合成信号ベクトルx’q(t)は、第t次元の要素として時刻tにおける合成信号の信号値x’ q(t)(t)を含むT+N−1次元のベクトルである。
インパルス応答行列H’q(t)は、[h’0,h’1,h’2,…,h’t,…,h’T+N−2]Tと表される。つまり、インパルス応答行列H’q(t)は、第t行の要素としてT次元の要素ベクトルh’tを含むT+N−1行T列の行列である。
The sound source signal vector s is represented as [s (0), s (1), s (2), ..., s (t), ..., s (T-1)] T. That is, the sound source signal vector s is a T-dimensional column vector including the signal value s (t) of the sound source signal at the time t as the t-dimensional element. T indicates the number of samples (period) of the sound source signal to be calculated. T is an integer greater than the order N of the impulse response.
The composite signal vector x ′ q (t) is [x ′ q (0) (0), x ′ q (1) (1), x ′ q (2) (2),..., X ′ q (t) (t), ..., x ' q (T + N-2) (T + N-2)] it is expressed as T. That is, the synthesized signal vector x ′ q (t) is a T + N−1-dimensional vector including the signal value x ′ q (t) (t) of the synthesized signal at the time t as the t-dimensional element.
Impulse
要素ベクトルh’tは、それぞれ次式で表されるT次元の行ベクトルである。 Each of the element vectors h ′ t is a T-dimensional row vector represented by the following equation.
シミュレーション部14は、次に説明する手順で合成信号の信号値を算出する。
図3は、本実施形態に係る合成信号生成処理の例を示すフローチャートである。
(ステップS102)シミュレーション部14は、音源信号の時刻0における信号値s(0)から時刻N−1における信号値s(N−1)まで、その順序で配列して音源信号ベクトルsを構成する。
(ステップS104)インパルス応答取得部142は、予め設定されたモデルデータを用いて、時刻0における収音位置q(0)に対応するインパルス応答h’q(0)から時刻T+N−2における収音位置q(T+N−2)までのインパルス応答h’q(T+N−2)を生成する。
The
FIG. 3 is a flowchart illustrating an example of the composite signal generation process according to the present embodiment.
(Step S102) The
(Step S104) The impulse
(ステップS106)シミュレーション部14は、生成したインパルス応答h’q(0)−h’q(T+N−2)からインパルス応答行列H’を構成する。インパルス応答行列H’を構成する際、第0行から第N−2行までの第t行において、シミュレーション部14は、時刻tにおける第t応答係数h’q(t)(t)から第0応答係数h’q(t)(0)までのt+1個の応答係数と、T−(t+1)個の0(ゼロ;スカラ値)を各列の要素値として、その順序で配列する。
第N−1行から第T−1行までの第t行において、シミュレーション部14は、t−N+1個の0と、時刻tにおける第N−1応答係数h’q(t)(N−1)から第0応答係数h’q(t)(0)までのN個の応答係数と、T−(t+1)個の0を各列の要素値として、その順序で配列する。第T行から第T+N−2行までの第t行において、シミュレーション部14は、t−N+1個の0と、時刻tにおける第N−1応答係数h’q(t)(N−1)から第t−T+1応答係数h’q(t)(t−T+1)までのT+N−(t+1)個の応答係数を、各列の要素値として、その順序で配列する。
(ステップS108)シミュレーション部14は、音源信号ベクトルsにインパルス応答行列H’を乗算して合成信号ベクトルx’q(t)を算出する。シミュレーション部14は、合成信号ベクトルx’q(t)の要素値x’q(t)(t)を時刻tにおける合成信号の信号値として合成信号生成部15に出力する。
(Step S106) The
In the t-th row from the (N−1) -th row to the (T−1) -th row, the
(Step S108) The
(インパルス応答の生成モデル)
次に、インパルス応答の生成モデルの例について説明する。
インパルス応答の生成モデルとして、音源位置と収音位置(もしくは、音源位置を基準とする収音方向)に応じてインパルス応答を一意に定めることができる数理モデルであれば、いかなる生成モデルも利用可能である。
インパルス応答取得部142は、インパルス応答の生成モデルとして、例えば、幾何学的音響伝搬モデルを利用することができる。簡素な音響伝搬モデルのうちの一つとして球面波モデルが利用可能である。球面波モデルは、収音位置qにおける音圧が、音源位置から収音位置までの距離rに反比例して減衰し、音源位置における時刻から伝搬時間tpだけ遅延することを表すモデルである。伝搬時間tpは、距離rを音速vで除算して得られる。
(Impulse response generation model)
Next, an example of an impulse response generation model will be described.
As a generation model of the impulse response, any generation model can be used as long as it is a mathematical model that can uniquely determine an impulse response according to a sound source position and a sound pickup position (or a sound pickup direction based on the sound source position). It is.
The impulse
また、インパルス応答取得部142は、予め複数の受音点のそれぞれに対して実測された伝達関数を補間して、収音位置における伝達関数を算出してもよい。周波数領域で算出される伝達関数に対して逆フーリエ変換を行うことにより、時間領域のインパルス応答が得られる。複数の伝達関数を補間する手法として、FDLI(Frequency Domain Linear or bi−linear Interpolation)法、TDLI(Time Domain Linear interpolation)法、FTDLI(Frequency Time Domain Linear or bi−linear Interpolation)法などのいずれの手法が用いられてもよい。FDLI法とは、2以上の受音点間において、それぞれの受音点に対する伝達関数を周波数領域で線形補間して、収音位置に対する伝達関数を算出する手法である。TDLI法とは、時間領域で2以上の受音点間において、それぞれの受音点に対する伝達関数を時間領域で線形補間して、収音位置に対する伝達関数を算出する手法である。FTDLI法は、時間領域で2以上の受音点間において、それぞれの受音点に対する伝達関数の位相を周波数領域で線形補間し、振幅を時間領域で線形補間する手法である。
Further, the impulse
また、インパルス応答取得部142は、インパルス応答の生成モデルとして、音源位置から放射される音波の伝搬を表す波動方程式から導出されたモデルを用いてもよい。波動方程式から導出されるグリーン関数は、音源位置から収音位置までの伝達特性を示すインパルス応答として利用することができる。Habetsが提案した室内インパルス応答生成法では、直方体の形状を有する室の壁面における音の反射特性を境界条件として導出されるグリーン関数がインパルス応答として採用されている。Habetsが提案した手法については、例えば、次の文献に詳しく記載されている。
Habets,E.A.(2006). Room impulse response generator. Technische Universiteit Eindhoven,Tech.Rep.2(2.4),1.
Further, the impulse
Havets, E .; A. (2006). Room impulse response generator. Technische Universitysite Eindhoven, Tech. Rep. 2 (2.4), 1.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、第1の実施形態との差異点を主とする。第1の実施形態と共通の処理、構成については、同一の符号を付して、特に断らない限りその説明を援用する。
図4は、本実施形態に係る音響処理装置1の構成を示す概略図である。
音響処理装置1は、音源信号取得部11、収音位置取得部12、収音位置離散化部13、シミュレーション部14、合成信号生成部15、音源位置取得部16および音源位置離散化部17を含んで構成される。即ち、図4に示す音響処理装置1は、図1に示す音響処理装置1に対して、さらに音源位置取得部16と音源位置離散化部17を備える。
(Second embodiment)
Next, a second embodiment of the present invention will be described. In the following description, differences from the first embodiment will be mainly described. The same processes and configurations as those in the first embodiment are denoted by the same reference numerals, and the description will be referred to unless otherwise specified.
FIG. 4 is a schematic diagram illustrating a configuration of the
The
音源位置取得部16は、シミュレーションの条件の他の要素である音源位置を示す音源位置信号を取得する。本実施形態では、収音位置の他、音源位置も時間の経過に応じて変動しうる。音源位置取得部16は、例えば、所定の音源位置の移動パターンを示す音源位置信号を生成する。音源位置取得部16は、操作部(図示せず)から入力される操作信号で逐次に指示される音源位置を示す音源位置信号を生成してもよい。音源位置取得部16は、生成した音源位置信号を音源位置離散化部17に出力する。
The sound source
音源位置離散化部17は、音源位置取得部16から入力される音源位置信号が示す音源位置を所定のサンプリング周波数に対応する時間間隔でサンプリングすることにより離散化する。このサンプリング周波数は、音響信号のサンプリング周波数と等しい周波数である。入力される音源位置信号は、音響信号のサンプリング時刻とは異なる離散化時刻ごとの音源位置を示すディジタル信号でありうる。その場合には、音源位置離散化部17は、音源位置信号が示す時刻ごとの収音位置を補間して、そのサンプリング周波数に対応する時間間隔で離散化された時刻ごとに収音位置を算出する。音源位置離散化部17は、離散化された音源位置信号をシミュレーション部14に出力する。
The sound source
シミュレーション部14には、音源信号取得部11から音源信号が入力され、収音位置離散化部13から収音位置信号が入力される他、音源位置離散化部17から音源位置信号が入力される。
インパルス応答取得部142は、モデルデータを用いて、離散化された時刻ごとに音源位置から収音位置信号が示す収音位置までのインパルス応答を生成する。本実施形態では、時刻ごとの音源位置、収音位置は、入力された音源位置信号、収音位置信号でそれぞれ指示される。従って、生成されるインパルス応答h”q(t)p(t)は、収音位置q(t)と音源位置p(t)に依存する。
シミュレーション部14は、後述するシミュレーション方法に従い、時刻tごとに生成したインパルス応答を構成する応答係数を用いて、音源信号に対して畳み込み演算を行う。シミュレーション部14は、畳み込み演算により得られた各時刻tで収音位置q(t)において収音されうる音の信号値x”(t)を合成信号生成部15に出力する。
The
The impulse
The
(シミュレーション方法)
次に、本実施形態に係るシミュレーション方法について説明する。
図5は、時刻tにおけるインパルス応答h”p(t)q(t)を示す。インパルス応答h”p(t)q(t)は、音源位置p(t)から収音位置q(t)までの音の伝達特性を示す。時刻tにおけるインパルス応答h”p(t)q(t)は、第0次の応答係数h”p(t)q(t)(0)から第N−1次の応答係数h”p(t)q(t)(N−1)をそれぞれ要素として有するN次元のベクトル[h”p(t)q(t)(0),h” p(t)q(t)(1),h” p(t)q(t)(2),…,h” p(t)q(t)(N−1)]Tとして表される。
(Simulation method)
Next, a simulation method according to the present embodiment will be described.
FIG. 5 shows an impulse response h ″ p (t) q (t) at time t. The impulse response h ″ p (t) q (t) is shifted from the sound source position p (t) to the sound pickup position q (t). This shows the transmission characteristics of sound up to this point. The impulse response h ″ p (t) q (t) at time t is calculated from the 0th-order response coefficient h ″ p (t) q (t) (0) to the (N−1) th-order response coefficient h ″ p (t ) Q (t) (N−1) as an N-dimensional vector [h ″ p (t) q (t) (0), h ″ p (t) q (t) (1), h ″ p (t) q (t) (2),..., h ″ p (t) q (t) (N−1)] T.
本実施形態では、音源位置p(t)、収音位置q(t)の両者が時間経過により変化しうるため、インパルス応答h”p(t)q(t)も時間経過に伴って変化しうる。収音位置q(t)の変動に対しては、シミュレーション部14は、畳み込み演算において、過去の時刻t−τにおける音源信号の信号値s(t−τ)の現時刻tにおける信号値x”q(t)(t)に対する寄与率として、時刻t−τにおける収音位置q(t−τ)に対する第τ次の応答係数h”p(t)q(t−τ)(τ)を用いればよい。ここで、音源位置p(t)の変動に関しては、各時刻tにおける音源位置p(t)に配置された音源Srが信号値s(t)に基づく音を放射し、その他の時刻t−τにおける音源位置p(t−τ)に配置された音源が音を放射していないと仮定する。
In this embodiment, since both the sound source position p (t) and the sound pickup position q (t) can change over time, the impulse response h ″ p (t) q (t) also changes over time. With respect to the fluctuation of the sound pickup position q (t), the
そこで、シミュレーション部14は、現時刻tにおける音源位置p(t)と収音位置q(t)に対応するインパルス応答の第0応答係数h”p(t)q(t)(0)から、現時刻tから(N−1)時刻前の時刻t−N+1における音源位置p(t−N+1)と現時刻tにおける収音位置q(t)に対応するインパルス応答の第N−1応答係数h”p(t−N+1)q(t))(N−1)までのN個の応答係数のそれぞれを、現時刻tにおける音源信号の信号値s(t)から、現時刻tから第N−1時刻前における信号値s(t−N+1)までのそれぞれに乗算して得られる乗算値の総和を、現時刻tにおける収音位置q(t)で収音されうる音の信号値x” q(t)(t)として算出する。
Therefore, the
本実施形態では、シミュレーション部14は、式(3)に示すように、音源信号ベクトルsに、インパルス応答行列H”q(t)を乗じて合成信号ベクトルx”q(t)を算出することができる。
In the present embodiment, the
合成信号ベクトルx”q(t)は、[x” q(0)(0),x” q(1)(1),x” q(2)(2),…,x” q(t)(t),…,x”q(T+N−2)(T+N−2)]Tと表される。
インパルス応答行列H”q(t)は、[h”0,h”1,h”2,…,h”t,…,h”T+N−2]Tと表される。
要素ベクトルh”tは、それぞれ次式で表されるT次元の行ベクトルである。
The composite signal vector x ″ q (t) is [x ″ q (0) (0), x ″ q (1) (1), x ″ q (2) (2),..., X ″ q (t) (t), ..., x " q (T + N-2) (T + N-2)] it is expressed as T.
The impulse response matrix H " q (t) is represented as [h" 0 , h " 1 , h" 2 , ..., h " t , ..., h" T + N-2 ] T.
Each of the element vectors h ″ t is a T-dimensional row vector represented by the following equation.
従って、インパルス応答取得部142は、ステップS104(図3)において、モデルデータを用いて、各時刻t1(t1は、0からT−1までの整数)における音源位置p(t1)と各時刻t2(t2は、0からT+N−2までの整数)における収音位置q(t2)との組にそれぞれ対応するインパルス応答h”p(t1)q(t2)を生成すればよい。
Thus, the impulse
シミュレーション部14は、ステップS106(図3において)、生成したインパルス応答h”p(t1)q(t2)からインパルス応答行列H”を構成する。インパルス応答行列H”を構成する際、第0行から第N−2行までの第t行において、シミュレーション部14は、時刻0における音源位置p(0)と時刻tにおける収音位置q(t)に対応するインパルス応答の第t応答係数h”p(0)q(t)(t)から時刻tにおける音源位置p(t)と時刻tにおける収音位置q(t)に対応するインパルス応答の第0応答係数h”p(t)q(t)(0)までのt+1個の応答係数と、T−(t+1)個の0を各列の要素値として、その順序で配列する。
第N−1行から第T−1行までの第t行において、シミュレーション部14は、t−N+1個の0と、時刻t−N+1における音源位置p(t−N+1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第N−1応答係数h” p(t−N+1)q(t)(N−1)から時刻tにおける音源位置p(t)と時刻tにおける収音位置q(t)に対応するインパルス応答の第0応答係数h” p(t)q(t)(0)までのN個の応答係数と、T−(t+1)個の0を各列の要素値として、その順序で配列する。
第T行から第T+N−2行までの第t行において、シミュレーション部14は、T−N+1個の0と、時刻t−N+1における音源位置p(t−N+1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第N−1応答係数h” p(t−N+1)q(t)(N−1)から時刻T−1における音源位置p(T−1)と時刻tにおける収音位置q(t)に対応するインパルス応答の第t−T+1応答係数h”p(T−1)q(t)(t−T+1))までのT+N−(t+1)個の応答係数を、各列の要素値として、その順序で配列する。
The
In the t-th row from the (N−1) -th row to the (T−1) -th row, the
In the t-th row from the T-th row to the (T + N-2) -th row, the
(評価実験)
上記の実施形態の音響処理方法の有効性を検証するために出願人は2項目の評価実験を行った。実験1では、合成信号のドップラー効果の再現性について検証した。実験1では、音源となるスピーカと収音部となるマイクロホンの位置関係として、次の移動パターン(a)〜(c)を設定した。
パターン(a) 当初、音源位置から収音位置までの距離を18.74mに設定しておき、収音位置を静止させたまま、音源位置を収音位置に秒速40m/sの速度で接近させた。
パターン(b) 当初、音源位置から収音位置までの距離を8.5mに設定しておき、音源位置を静止させたまま、収音位置を音源位置に秒速40m/sの速度で接近させた。
パターン(c) 当初、音源位置から収音位置までの距離を26.74mに設定しておき、音源位置と収音位置が互いに接近する方向に、それぞれ秒速40m/sの速度で接近させた。従って、合成信号の生成において、パターン(a)、(c)については、第2の実施形態を適用し、パターン(b)については、第1の実施形態を適用した。
合成信号の生成には、期間が0.2sの音源信号と長さが0.256sのインパルス応答を用いた。インパルス応答の生成において、Habetsが提案した手法を用いた。但し、音速340m/s、サンプリング周波数8kHz、残響時間0.2sおよび反射次数0次を仮定した。また、マイクロホンの指向特性として無指向性を仮定した。
検証結果の有効性を評価するために、合成信号の周波数と、収音信号の周波数の理論値とを比較した。ドップラー効果によれば、収音信号の周波数の理論値f’は、式(5)に示すように、音源信号の周波数fに対して、音速Vと音源位置の移動速度vsとの差に対する音速Vと収音位置の移動速度voとの和の比を乗じて得られる周波数となる。
(Evaluation experiment)
In order to verify the effectiveness of the sound processing method according to the above-described embodiment, the applicant performed two items of evaluation experiments. In
Pattern (a) Initially, the distance from the sound source position to the sound pickup position is set to 18.74 m, and the sound source position is approached to the sound pickup position at a speed of 40 m / s per second while the sound pickup position is stationary. Was.
Pattern (b) Initially, the distance from the sound source position to the sound pickup position was set to 8.5 m, and the sound pickup position was approached to the sound source position at a speed of 40 m / s while the sound source position was kept still. .
Pattern (c) Initially, the distance from the sound source position to the sound pickup position was set to 26.74 m, and the sound source position and the sound pickup position were approached each other at a speed of 40 m / s per second. Therefore, in the generation of the composite signal, the second embodiment is applied to the patterns (a) and (c), and the first embodiment is applied to the pattern (b).
To generate the composite signal, a sound source signal having a period of 0.2 s and an impulse response having a length of 0.256 s were used. In generating the impulse response, the method proposed by Havets was used. However, it was assumed that the sound velocity was 340 m / s, the sampling frequency was 8 kHz, the reverberation time was 0.2 s, and the reflection order was 0. In addition, omnidirectionality was assumed as the directional characteristic of the microphone.
In order to evaluate the effectiveness of the verification result, the frequency of the synthesized signal was compared with the theoretical value of the frequency of the collected signal. According to the Doppler effect, the theoretical value f of the frequency of the sound collection signal ', as shown in equation (5), with respect to the frequency f of the excitation signal, for the difference between the moving velocity v s of sound velocity V and the sound source position The frequency is obtained by multiplying the ratio of the sum of the sound speed V and the moving speed vo of the sound pickup position.
パターン(a)では、理論値は、1133.33Hzであるのに対し、合成信号の周波数は、1133.42Hzとなった。パターン(b)では、理論値は、1117.65Hzであるのに対し、合成信号の周波数は、1117.71Hzとなった。パターン(c)では、理論値は、1266.67Hzであるのに対し、合成信号の周波数は、1266.84Hzとなった。パターン(a)〜(c)ともに、合成信号の周波数の理論値との差分は、0.14Hz以下に過ぎない。従って、実験1の結果は、音源位置や収音位置の移動に伴う周波数の変化が十分に再現できることを示す。
In the pattern (a), the theoretical value was 1133.33 Hz, whereas the frequency of the synthesized signal was 1133.42 Hz. In the pattern (b), the theoretical value was 1117.65 Hz, whereas the frequency of the combined signal was 1117.71 Hz. In the pattern (c), the theoretical value was 1266.67 Hz, whereas the frequency of the synthesized signal was 1266.64 Hz. In all of the patterns (a) to (c), the difference between the frequency of the synthesized signal and the theoretical value is only 0.14 Hz or less. Therefore, the result of
実験2では、合成信号の音量について検証した。検証において、現実に音源から発した音を収音して得られる収音信号の音量と合成信号の音量とを比較した。音源信号として英文誌ウォールストリートジャーナル(WSJ:Wall Street Journal)の原稿のうち10個の文を発話内容とする音声を用いた。
収音信号は、無響室内でスピーカとマイクロホンの一方もしくは両方を移動させながら収録した。無響室の内部は、縦6.2m、横4.8m、高さ5.1mの直方体の空間である。スピーカは、無響室の中心部を中心位置とする縦方向に4.0mの範囲を経路として移動させた。但し、スピーカを静止させる場合には、その経路の中心位置に静止させた。マイクロホンは、無響室の中心部から横方向に1.0m離れた位置を中心位置とする縦方向に4.0mの範囲を経路として移動させた。但し、マイクロホンを静止させる場合には、その経路の中心位置に静止させた。スピーカとマイクロホンの位置関係として、次の移動パターン(i)〜(v)を設定した。
In
The picked-up signal was recorded while moving one or both of the speaker and the microphone in the anechoic room. The interior of the anechoic room is a rectangular parallelepiped space having a length of 6.2 m, a width of 4.8 m, and a height of 5.1 m. The loudspeaker was moved along a range of 4.0 m in the vertical direction with the center of the anechoic room as the center position. However, when the speaker was stopped, the speaker was stopped at the center position of the path. The microphone was moved along a range of 4.0 m in the vertical direction with the center position being 1.0 m away from the center of the anechoic chamber in the horizontal direction. However, when the microphone was stopped, the microphone was stopped at the center position of the path. The following movement patterns (i) to (v) were set as the positional relationship between the speaker and the microphone.
パターン(i) 音源位置、収音位置をいずれも静止させた。
パターン(ii) 音源位置を静止させながら、収音位置を経路の一端から他端まで一定速度1.8m/sで移動させた。
パターン(iii) 収音位置を静止させながら、音源位置を経路の一端から他端まで一定速度1.8m/sで移動させた。
パターン(iv) 音源位置と収音位置を、同じ方向でそれぞれの経路上を一端から他端まで一定速度で移動させた。但し、音源位置の移動速度を1.8m/sとし、収音位置の移動速度を1.7m/sとした。
パターン(v) 音源位置と収音位置を、同じ速度でそれぞれの経路上を一定速度1.8m/sで移動させた。但し、音源位置と収音位置の移動方向は、互いに逆方向である。音源の移動開始位置はその経路の一端であるのに対し、収音位置の移動開始位置はその経路の他端である。従って、パターン(i)に対する合成信号は、従来の手法と同様に音源位置と収音位置に対するインパルス応答を音源信号に対して畳み込み演算を行って得られる。パターン(ii)に対する合成信号は、第1の実施形態の手法を実行して得られる。パターン(iii)〜(v)に対する合成信号は、第2の実施形態の手法を実行して得られる。
Pattern (i) Both the sound source position and the sound pickup position were stopped.
Pattern (ii) The sound pickup position was moved from one end of the path to the other end at a constant speed of 1.8 m / s while the sound source position was kept still.
Pattern (iii) The sound source position was moved from one end of the path to the other end at a constant speed of 1.8 m / s while the sound collection position was stopped.
Pattern (iv) The sound source position and the sound pickup position were moved at a constant speed from one end to the other end on each path in the same direction. However, the moving speed of the sound source position was 1.8 m / s, and the moving speed of the sound pickup position was 1.7 m / s.
Pattern (v) The sound source position and the sound pickup position were moved at the same speed on each route at a constant speed of 1.8 m / s. However, the moving directions of the sound source position and the sound pickup position are opposite to each other. The movement start position of the sound source is one end of the route, whereas the movement start position of the sound pickup position is the other end of the route. Therefore, the composite signal for the pattern (i) is obtained by performing a convolution operation on the sound source signal with the impulse response for the sound source position and the sound pickup position, as in the conventional method. A composite signal for the pattern (ii) is obtained by executing the method of the first embodiment. The composite signals for the patterns (iii) to (v) are obtained by executing the method of the second embodiment.
評価を行う前に、合成信号に対する増幅率Aを定める。増幅率Aは、合成信号全体に対する音量を収音信号全体に対する音量に合わせるためのパラメータである。
増幅率Aは、式(6)に基づいて計算できる。
Before the evaluation, the amplification factor A for the combined signal is determined. The amplification factor A is a parameter for adjusting the volume of the entire synthesized signal to the volume of the entire collected signal.
The amplification factor A can be calculated based on equation (6).
xs(f,t)は、第fフレームの時刻tにおける合成信号の信号値を示す。xr(f,t)は、第fフレームの時刻tにおける収音信号の信号値を示す。F、Nは、それぞれフレーム数、フレーム内のサンプル数を示す。従って、増幅された合成信号全体の音量が収音信号の音量に全体として等しくする増幅率A’が、増幅率Aとして算出される。 x s (f, t) indicates the signal value of the composite signal at time t of the f-th frame. xr (f, t) indicates the signal value of the collected sound signal at time t of the f-th frame. F and N indicate the number of frames and the number of samples in the frame, respectively. Therefore, an amplification factor A ′ that makes the entire volume of the amplified composite signal equal to the volume of the collected signal as a whole is calculated as the amplification factor A.
つまり、式(6)に示す増幅率Aは、式(7)に示す関数C(A)を最小にするとの条件のもとで与えられる。 That is, the amplification factor A shown in Expression (6) is given under the condition that the function C (A) shown in Expression (7) is minimized.
関数C(A)の増幅率Aに対する導関数は、式(8)で与えられる。 The derivative of the function C (A) with respect to the amplification factor A is given by equation (8).
式(8)の両辺を0とおくと、式(9)の関係が得られる。 If both sides of equation (8) are set to 0, the relationship of equation (9) is obtained.
式(9)を変形すると、式(10)が得られる。式(10)を用いて増幅率Aが算出される。 By transforming equation (9), equation (10) is obtained. The amplification factor A is calculated using the equation (10).
そして、合成信号xs(f,t)に増幅率Aを乗算して、補正合成信号x’s(f,t)を算出する。次に、合成信号と収音信号の音量の類似性の尺度として、式(11)を用いて距離Dsを算出する。 Then, the composite signal x s (f, t) is multiplied by the amplification factor A to calculate a corrected composite signal x ′ s (f, t). Then, as a measure of the similarity of the sound volume of the synthesized signal and the collected signal calculates the distance D s using the equation (11).
距離Dsは、合成信号と収音信号の信号値のフレームごとの差の大きさを示す。評価において、距離Dsを音源位置と収音位置の時間変化に伴う両信号間の振幅変化の差の大きさを示す尺度として用いた。
なお、比較のために、式(12)を用いて原信号x’o(f,t)と収音信号との距離Doを算出した。
The distance D s indicates the magnitude of the difference for each frame of the signal value of the composite signal and the collected sound signal. In the evaluation, using the distance D s as a measure indicating the magnitude of the difference of the change in amplitude between the two signals due to the time change of the sound source position and sound pickup position.
For comparison, it was calculated distance D o of using Equation (12) the original signal x 'o (f, t) and the picked-up signal.
評価において、パターン(i)〜(v)のそれぞれについて、距離Dsと距離Doを算出した。次に、距離Dsと距離Doの算出例を示す。但し、次に示す算出例は、移動パターンごとの10回の発話間の平均値である。
距離Dsは、パターン(i)、(ii)、(iii)、(iv)、(v)のそれぞれについて、0.0110、0.0147、0.096、0.0120、0.0089となった。
距離Doは、パターン(i)、(ii)、(iii)、(iv)、(v)のそれぞれについて、0.0108、0.0302、0.0335、0.0139、0.0372となった。
算出した距離Dsは、パターン(v)、(iii)、(i)、(iv)、(ii)の順に大きくなるが、いずれのパターンにかかわらず、約0.01となり、音源位置と収音位置の相対速度との相関性も認められない。最も相対速度が大きい移動パターン(v)でも距離DSは0.0089に過ぎない。
他方、距離Doは、パターン(i)、(iv)、(ii)、(iii)、(v)の順に大きくなる傾向がある。このことは、相対速度が大きいほど移動に伴う音量の変化が著しいことを裏付ける。パターン(i)では、音源位置と収音位置の相対速度が0となり、移動パターン(iv)では、音源位置と収音位置の相対速度が0.1m/sとなり、移動パターン(ii)、(iii)では、音源位置と収音位置の相対速度が1.8m/sとなり、移動パターン(v)では、音源位置と収音位置の相対速度が3.6m/sとなる。移動パターン(i)、(iv)のように音源位置と収音位置の相対速度が0や0と近い場合に、距離Doと距離Dsが近似するに過ぎない。
従って、実験2の結果は、音源位置と収音位置の間の相対速度が高くなっても、移動に伴う音量の変化を再現できることを示す。
In the evaluation, for each pattern (i) ~ (v), was calculated distance D s and the distance D o. Next, an example of calculation of the distance D s and the distance D o. However, the following calculation example is an average value between 10 utterances for each movement pattern.
The distance D s, the pattern (i), for each of the (ii), (iii), (iv), (v), a 0.0110,0.0147,0.096,0.0120,0.0089 Was.
The distance D o, a pattern (i), for each of the (ii), (iii), (iv), (v), a 0.0108,0.0302,0.0335,0.0139,0.0372 Was.
Calculated distance D s, the pattern (v), (iii), (i), (iv), but increases in the order of (ii), irrespective of any pattern, about 0.01, and the sound source position and the yield There is no correlation with the relative speed of the sound position. The most relative velocity is large moving pattern even (v) the distance D S is only 0.0089.
On the other hand, the distance D o, a pattern (i), tends to become larger in the order of (iv), (ii), (iii), (v). This confirms that the greater the relative speed, the more significant the change in the sound volume due to the movement. In the pattern (i), the relative speed between the sound source position and the sound pickup position is 0, and in the movement pattern (iv), the relative speed between the sound source position and the sound pickup position is 0.1 m / s, and the movement patterns (ii), ( In iii), the relative speed between the sound source position and the sound pickup position is 1.8 m / s, and in the movement pattern (v), the relative speed between the sound source position and the sound pickup position is 3.6 m / s. Movement pattern (i), when close to the relative speed is 0 and 0 of the sound source position and the voice collecting position as (iv), the distance D o and the distance D s is only approximate.
Therefore, the result of
以上に説明した実施形態に係る音響処理装置1は、移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化部13と、音源位置から収音位置までの伝達特性を示すインパルス応答を取得するシミュレーション部14を備える。インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN個の応答係数を含む。シミュレーション部14は、現時刻tにおける第0応答係数から時刻t−(N−1)までの第N−1応答係数までの応答係数と、音源が発する音響信号を所定時間間隔で離散化した信号値について、現時刻tにおける信号値から前記時刻t−(N−1)における信号値までの信号値を用いて畳み込み演算を行って、収音位置における音響信号である合成信号を示す信号値を算出する。
この構成により、移動する収音部で収音される収音信号に近似する合成信号を容易に取得することができる。
The
With this configuration, it is possible to easily obtain a synthesized signal that is similar to a sound pickup signal picked up by the moving sound pickup unit.
また、音響処理装置1は、移動する音源位置を所定時間間隔で離散化する音源位置離散化部17をさらに備えてもよい。シミュレーション部14は、離散化した音源位置から収音位置までの伝達特性を示すインパルス応答を取得する。
この構成により、移動する音源から発される音に応じて収音される収音信号に近似する合成信号を容易に取得することができる。
In addition, the
With this configuration, it is possible to easily obtain a synthesized signal that is similar to a sound pickup signal picked up in accordance with a sound emitted from a moving sound source.
また、音響処理装置1は、シミュレーション部14は、応答係数を要素値として含むT+N−1行T列のシミュレーション行列を生成し、シミュレーション行列の第0行から第N−2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含む。シミュレーション行列の第N−1行から第T−1行までの第t行は、T−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含む。また、シミュレーション行列の第T行から第T+N−2行までの第t行は、t−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第t−T+1応答係数までの応答係数を各列の要素値として含む。そして、シミュレーション部14は、時刻0における前記信号値から時刻T−1における信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、生成したシミュレーション行列を音響信号ベクトルに乗算する。
この構成によれば、音源信号に基づく音響信号ベクトルに対する、音源位置と移動する音源位置に対応するインパルス応答の応答係数を要素値として含むインパルス応答行列の乗算により、収音信号ベクトルが得られる。そのため、複雑な演算を要さずに収音信号の信号値を容易に得ることができる。
Further, in the
According to this configuration, a sound pickup signal vector is obtained by multiplying the acoustic signal vector based on the sound source signal by the impulse response matrix including, as element values, the response coefficients of the impulse response corresponding to the sound source position and the moving sound source position. Therefore, the signal value of the picked-up signal can be easily obtained without requiring a complicated operation.
なお、上述した実施形態における音響処理装置1の一部、例えば、収音位置離散化部13、シミュレーション部14、合成信号生成部15および音源位置離散化部17をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置1に内蔵されたCPU等の1以上のプロセッサを備えるコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
Note that a part of the
Further, a part or all of the
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音響処理装置1は、音声認識に用いられる音響モデル学習部(図示せず)の一部として構成されてもよい。音響モデル学習部は、それぞれ音源位置の時系列を示す移動パターンごとに合成信号生成部15が生成した合成信号を用いて音響モデルを生成する。音響モデル学習部は、生成された合成信号について所定の時間長(例えば、10〜50ms)のフレームごとに音響特徴量(例えば、MFCC(Mel−frequency Cepstrum Coefficients;メル周波数ケプストラム係数)を算出し、算出した音響信号を用いて、予め生成された既存の音響モデルに対する最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)による更新処理を行う。既存の音響モデルは、例えば、音源位置と収音位置が固定された静的環境下で収音された発話音声を用いて学習された音響モデルとして、GMM(Gaussian Mixture Model;混合ガウス分布モデル)、隠れマルコフモデル(Hidden Markov Model;HMM)などが適用可能である。これにより、比較的少量の合成信号により、移動パターンごとの音響モデルを取得できる。音声認識装置は、移動パターンごとに生成された音響モデルを音声認識に用いることで、発話者や収音部の移動パターンに応じた発話音声の認識を向上させることができる。
また、音響処理装置1は、仮想的な音響環境における音源位置から収音位置に伝搬する音を示す合成信号を生成ならびに可聴化するための音響シミュレータとして構成されてもよい。
As described above, one embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the gist of the present invention. It is possible to
For example, the
Further, the
1…音響処理装置、11…音源信号取得部、12…収音位置取得部、13…収音位置離散化部、14…シミュレーション部、15…合成信号生成部、16…音源位置取得部、17…音源位置離散化部
DESCRIPTION OF
Claims (5)
音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション部と、
を備える音響処理装置。 A sound collecting position discretizing unit that discretizes a sound collecting position, which is a position of a moving sound collecting unit, at predetermined time intervals;
Obtain an impulse response indicating a transfer characteristic from a sound source position to the sound pickup position,
The impulse response includes N (N is an integer greater than 1) response coefficients from a 0th response coefficient to an N-1th response coefficient at each time,
The response coefficient from the 0th response coefficient at the current time t to the (N-1) th response coefficient at a time t- (N-1) immediately before the current time t and the sound signal emitted by the sound source is determined by the predetermined value. Convolution operation is performed on the signal values discretized at the time intervals using the signal values from the signal value at the current time t to the signal value at the time t− (N−1), and the acoustic signal at the sound collection position is obtained. A simulation unit for calculating a signal value at the current time t shown,
A sound processing device comprising:
前記シミュレーション部は、
離散化した前記音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得することを特徴とする請求項1に記載の音響処理装置。 A sound source position discretization unit that discretizes the moving sound source position at predetermined time intervals,
The simulation unit includes:
The acoustic processing apparatus according to claim 1, wherein an impulse response indicating a transfer characteristic from the discretized sound source position to the sound pickup position is acquired.
前記応答係数を要素値として含むT+N−1行T列(Tは、Nより大きい整数)のシミュレーション行列を生成し、
前記シミュレーション行列の第0行から第N−2行までの第t行は、時刻tにおける収音位置に基づく第t応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含み、
前記シミュレーション行列の第N−1行から第T−1行までの第t行は、T−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第0応答係数までの応答係数と、T−(t+1)個の0を各列の要素値として含み、
前記シミュレーション行列の第T行から第T+N−2行までの第t行は、t−N+1個の0と、時刻tにおける収音位置に基づく第N−1応答係数から時刻tにおける収音位置に基づく第t−T+1応答係数までの応答係数を各列の要素値として含み、
時刻0における前記信号値から時刻T−1における前記信号値までの信号値を各行の要素値として含む音響信号ベクトルを生成し、
前記シミュレーション行列を前記音響信号ベクトルに乗算する
請求項1または請求項2に記載の音響処理装置。 The simulation unit includes:
Generating a simulation matrix of T + N−1 rows and T columns (T is an integer greater than N) including the response coefficient as an element value;
The t-th row from the 0th row to the N-2th row of the simulation matrix includes response coefficients from the t-th response coefficient based on the sound collection position at time t to the 0th response coefficient based on the sound collection position at time t. , T- (t + 1) 0s as element values of each column,
The t-th row from the (N−1) -th row to the T−1-th row of the simulation matrix includes the sound pickup at the time t based on the (T−N + 1) 0s and the (N−1) th response coefficient based on the sound pickup position at the time t. Including response coefficients up to the 0th response coefficient based on the position and T- (t + 1) 0s as element values of each column,
The t-th row from the T-th row to the (T + N−2) -th row of the simulation matrix includes t−N + 1 zeros and the (N−1) th response coefficient based on the sound pickup position at the time t to the sound pickup position at the time t. Response factors up to the (t-T + 1) th response factor based on
Generating an acoustic signal vector including a signal value from the signal value at time 0 to the signal value at time T-1 as an element value of each row;
The acoustic processing device according to claim 1, wherein the acoustic matrix is multiplied by the simulation matrix.
前記音響処理装置は、
移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化過程と、
音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション過程と、
を有する音響処理方法。 A sound processing method in a sound processing device,
The sound processing device,
A sound collection position discretization process of discretizing a sound collection position, which is a position of a moving sound collection unit, at predetermined time intervals;
Obtain an impulse response indicating a transfer characteristic from a sound source position to the sound pickup position,
The impulse response includes N (N is an integer greater than 1) response coefficients from a 0th response coefficient to an N-1th response coefficient at each time,
The response coefficient from the 0th response coefficient at the current time t to the (N-1) th response coefficient at a time t- (N-1) immediately before the current time t and the sound signal emitted by the sound source is determined by the predetermined value. Convolution operation is performed on the signal values discretized at the time intervals using the signal values from the signal value at the current time t to the signal value at the time t− (N−1), and the acoustic signal at the sound collection position is obtained. A simulation process of calculating a signal value at the current time t shown,
A sound processing method comprising:
移動する収音部の位置である収音位置を所定時間間隔で離散化する収音位置離散化手順と、
音源位置から前記収音位置までの伝達特性を示すインパルス応答を取得し、
前記インパルス応答は、時刻ごとに第0応答係数から第N−1応答係数までのN(Nは、1より大きい整数)個の応答係数を含み、
現時刻tにおける第0応答係数から、当該現時刻tからN−1時刻前の時刻t−(N−1)における第N−1応答係数までの応答係数と、音源が発する音響信号を前記所定時間間隔で離散化した信号値について、現時刻tにおける信号値から時刻t−(N−1)における信号値までの信号値、を用いて畳み込み演算を行って、前記収音位置における音響信号を示す現時刻tにおける信号値を算出するシミュレーション手順と、
を実行させるためのプログラム。 In the computer of the sound processing device,
A sound collection position discretization procedure for discretizing a sound collection position, which is a position of a moving sound collection unit, at predetermined time intervals;
Obtain an impulse response indicating a transfer characteristic from a sound source position to the sound pickup position,
The impulse response includes N (N is an integer greater than 1) response coefficients from a 0th response coefficient to an N-1th response coefficient at each time,
The response coefficient from the 0th response coefficient at the current time t to the (N-1) th response coefficient at a time t- (N-1) immediately before the current time t and the sound signal emitted by the sound source is determined by the predetermined value. Convolution operation is performed on the signal values discretized at the time intervals using the signal values from the signal value at the current time t to the signal value at the time t− (N−1), and the acoustic signal at the sound collection position is obtained. A simulation procedure for calculating a signal value at the current time t shown,
A program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165175A JP7016307B2 (en) | 2018-09-04 | 2018-09-04 | Sound processing equipment, sound processing methods and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165175A JP7016307B2 (en) | 2018-09-04 | 2018-09-04 | Sound processing equipment, sound processing methods and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038284A true JP2020038284A (en) | 2020-03-12 |
JP7016307B2 JP7016307B2 (en) | 2022-02-04 |
Family
ID=69737888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018165175A Active JP7016307B2 (en) | 2018-09-04 | 2018-09-04 | Sound processing equipment, sound processing methods and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7016307B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07312800A (en) * | 1994-05-19 | 1995-11-28 | Sharp Corp | Three-dimension sound field space reproducing device |
JP2004317911A (en) * | 2003-04-18 | 2004-11-11 | Chiba Inst Of Technology | Device and method for sound field simulation, computer program, and program recording medium |
JP2006005868A (en) * | 2004-06-21 | 2006-01-05 | Denso Corp | Vehicle notification sound output device and program |
JP2014093697A (en) * | 2012-11-05 | 2014-05-19 | Yamaha Corp | Acoustic reproduction system |
-
2018
- 2018-09-04 JP JP2018165175A patent/JP7016307B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07312800A (en) * | 1994-05-19 | 1995-11-28 | Sharp Corp | Three-dimension sound field space reproducing device |
JP2004317911A (en) * | 2003-04-18 | 2004-11-11 | Chiba Inst Of Technology | Device and method for sound field simulation, computer program, and program recording medium |
JP2006005868A (en) * | 2004-06-21 | 2006-01-05 | Denso Corp | Vehicle notification sound output device and program |
JP2014093697A (en) * | 2012-11-05 | 2014-05-19 | Yamaha Corp | Acoustic reproduction system |
Non-Patent Citations (1)
Title |
---|
山中晋他: "頭部伝達関数の補間による音像の滑らかな移動", 電子情報通信学会2001年基礎・境界ソサイエティ大会講演論文集, JPN6021042202, pages 204, ISSN: 0004623099 * |
Also Published As
Publication number | Publication date |
---|---|
JP7016307B2 (en) | 2022-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6584930B2 (en) | Information processing apparatus, information processing method, and program | |
Antonello et al. | Room impulse response interpolation using a sparse spatio-temporal representation of the sound field | |
JP6042858B2 (en) | Multi-sensor sound source localization | |
JP5124014B2 (en) | Signal enhancement apparatus, method, program and recording medium | |
US5465302A (en) | Method for the location of a speaker and the acquisition of a voice message, and related system | |
US6542857B1 (en) | System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources | |
JP6703460B2 (en) | Audio processing device, audio processing method, and audio processing program | |
JP4812302B2 (en) | Sound source direction estimation system, sound source direction estimation method, and sound source direction estimation program | |
KR100856246B1 (en) | Apparatus And Method For Beamforming Reflective Of Character Of Actual Noise Environment | |
JP2004347761A (en) | Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer | |
US8822804B1 (en) | Digital aerophones and dynamic impulse response systems | |
JP2012042465A (en) | Sound source direction estimation device and sound source direction estimation method | |
Salvati et al. | Adaptive time delay estimation using filter length constraints for source localization in reverberant acoustic environments | |
Grondin et al. | BIRD: Big impulse response dataset | |
JPWO2017208822A1 (en) | Local silenced sound field forming apparatus and method, and program | |
JP2020038284A (en) | Acoustic processing device, acoustic processing method and program | |
JP3862685B2 (en) | Sound source direction estimating device, signal time delay estimating device, and computer program | |
JP2015037207A (en) | Sound field gathering/reproducing device, method and program | |
EP3557576A1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
US11830471B1 (en) | Surface augmented ray-based acoustic modeling | |
KR20230044574A (en) | Data augmentation method using fundamental freuqency obtained by dj transform | |
Heitkaemper et al. | A study on online source extraction in the presence of changing speaker positions | |
JP2005258215A (en) | Signal processing method and signal processing device | |
Ezers et al. | Musical Instruments Recognition App | |
Raghavan | Speaker and environment adaptation in continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220125 |