JP6677662B2

JP6677662B2 - 音響処理装置、音響処理方法およびプログラム

Info

Publication number: JP6677662B2
Application number: JP2017024874A
Authority: JP
Inventors: 籠嶋　岳彦; 岳彦籠嶋; 谷口　徹; 徹谷口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2020-04-08
Anticipated expiration: 2037-02-14
Also published as: JP2018133654A; CN108429995B; CN108429995A; US20180233161A1; US10152986B2

Description

本発明の実施形態は、音響処理装置、音響処理方法およびプログラムに関する。

音源から直接届く直接音以外に、壁、床、および、天井などで反射して直接音よりも遅れて届く音を残響と呼ぶ。音源が音声の場合、残響が大きいと音韻が不明瞭になり聞き取りにくくなる。そこで従来、マイクロフォンで集音した音声から残響を除去して聞き取りやすくする信号処理技術が開発されている。

例えば、マイクロフォンで集音した観測信号を用いて、音源からマイクロフォンまでの伝達特性の逆特性を持つ逆フィルタを推定し、観測信号に逆フィルタをかけることによって残響を除去する技術が提案されている。また、所定の遅延を持つ過去の観測信号に残響除去フィルタを適用して得られる信号に音源信号を加算して得られる信号として現在の観測信号を表現する自己回帰モデルに基づいて、観測信号から残響除去フィルタを推定し、観測信号に残響除去フィルタをかけることによって残響を除去する技術が提案されている。

特許第５３１２２４８号特許第５２２７３９３号

しかしながら、従来技術では、モデルが物理現象と整合しないこと、および、近似的なフィルタを用いることなどに起因して、残響除去の精度が低下する場合があった。

実施形態の音響処理装置は、記憶部と、推定部と、除去部と、を備える。記憶部は、第１処理区間に含まれる第１観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第２観測信号と、参照信号とを用いて、残響除去フィルタのフィルタ係数を推定する。除去部は、第２観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタと、を用いて、第２観測信号から残響が除去された信号を表す出力信号を求める。

自己回帰モデルを用いた音響処理装置の機能ブロック図。自己回帰モデルが表す残響の物理的な意味を説明する図。（３）式のモデルが表す残響の物理的な意味を説明する図。（４）式のモデルを用いた音響処理装置の機能ブロック図。第１の実施形態にかかる音響処理装置の構成ブロック図。第１の実施形態における残響除去処理のフローチャート。第１の実施形態の残響除去処理の概念図。第２の実施形態にかかる音響処理装置の構成ブロック図。第２の実施形態の残響除去処理の概念図。第３の実施形態にかかる音響処理装置の構成ブロック図。第４の実施形態にかかる音響処理装置の構成ブロック図。第１から第４の実施形態にかかる音響処理装置のハードウェア図。

以下に添付図面を参照して、この発明にかかる音響処理装置の実施形態を詳細に説明する。以下では、音響信号として主に音声信号を用いる例を説明するが、音響信号は音声信号に限られるものではない。

上述の自己回帰モデルは、例えば以下の（１）式で表される。

ここでｓ（ｔ）は時刻ｔの音源信号、ｘ（ｔ）はマイクロフォンで集音された時刻ｔの観測信号、ｃ（τ）は残響除去フィルタの係数、Ｋは直接音からの残響成分の遅延の上限を表す。このモデルに基づいて、観測信号から残響除去フィルタの係数が推定され、以下の（２）式で表されるフィルタリングによって残響が除去される。

ここで、ｙ（ｔ）は残響が除去された目的信号を表している。またＤは除去する残響の遅延の下限を表している。一般に遅延が小さい範囲では、音源信号そのものの成分と残響成分との区別が難しい。このため、音源信号成分を取り除いて歪みが生じることを避けるために所定の遅延Ｄが設定される。

図１は、上述の自己回帰モデルを用いた音響処理装置１０の機能構成例を示すブロック図である。図１に示すように音響処理装置１０は、受付部１１と、推定部１２と、除去部１３と、を備えている。

受付部１１は、観測信号ｘ（ｔ）の入力を受け付ける。例えば受付部１１は、マイクロフォンなどの集音装置で集音された観測信号を入力する。推定部１２は、観測信号ｘ（ｔ）を参照して残響除去フィルタ係数ｃ（τ）を推定する。

除去部１３は、（２）式に基づいてフィルタリングを行って目的信号ｙ（ｔ）を出力する。ここで、（２）式で表される残響除去フィルタは非再帰型フィルタ（ＦＩＲ（Finite Impulse Response）フィルタ）であるため、フィルタは常に安定であり、出力が発散することはない。

図２は、音響処理装置１０で用いられる自己回帰モデルが表す残響の物理的な意味を説明するための図である。図２に示すように、音源である話者３３からの音源信号がマイクロフォン３１で集音（観測）される。観測信号がスピーカ３２などの音響出力装置から出力される。図２は、音源信号は直接音のみがマイクロフォン３１で観測され、観測信号がスピーカ３２で再生され、残響を伴って再度マイクロフォン３１に集音されることを表している。

このように、自己回帰モデルは、話者３３の口元のマイクロフォン３１で集音した音声を会場に拡声放送し、会場で反射した音声が再度マイクロフォン３１に集音される状況などの残響を表している。

残響が問題になる別の状況として、マイクロフォン３１から離れた音源の音声を集音する状況がある。この場合のモデルは以下の（３）式で表される。図３は、このモデルが表す残響の物理的な意味を説明するための図である。

図３は、音源である話者３３から直接マイクロフォン３１に到達する直接音と、音源信号が壁などで反射することによって減衰し遅延した信号とが加算された信号がマイクロフォン３１で観測されることを表している。

残響を除去する信号処理は、一般に音声認識の前処理として用いられることが多い。これは、例えば話者３３の口元から離れたマイクロフォン３１で音声認識を行う場合、室内の残響によって音声認識の精度が低下するためである。このような用途における残響のモデルは、図３のように話者３３から遠い位置にあるマイクロフォン３１による集音のモデルとなる。

モデルが前提とする状況が異なる、すなわち、モデルが不整合であるため、図１に示すような自己回帰モデルを用いた手法では、図３に示す状況に対して、十分な残響除去の精度を得ることができない。

一方、上述したような逆フィルタを用いる手法は、図３のモデルに基づいている。（３）式のｃ（τ）を観測信号ｘ（ｔ）から求めることができたと仮定すると、残響が除去された目的信号ｙ（ｔ）は以下の（４）式で求められる。

図４は、（４）式のモデルを用いた音響処理装置２０の機能構成例を示すブロック図である。図４に示すように音響処理装置２０は、受付部１１と、推定部２２と、除去部２３と、記憶部２４と、を備えている。受付部１１は、図１と同様であるため同一の符号を付し説明を省略する。

推定部２２は、（３）式のモデルに基づいて残響除去フィルタ係数ｃ（τ）を推定する。除去部２３は、（４）式に基づいて目的信号ｙ（ｔ）を計算する。このとき、過去の目的信号が必要であることから、除去部２３は、記憶部２４に算出した目的信号ｙ（ｔ）を記憶して用いている。

このような構成では、残響除去フィルタが再帰型フィルタ（ＩＩＲ（Infinite Impulse Response）フィルタ）となる。このため、フィルタ係数が不安定となって発散する可能性があり、実際には実施することができない。

一般に残響除去で必要なフィルタの次数は数十以上であり、推定したフィルタ係数の安定性を保証することはできない。そのため、（４）式の再帰型残響除去フィルタの特性を近似する非再帰型の残響除去フィルタ（逆フィルタ）が推定され、（２）式によって残響除去が行われる。

このように、図４のような構成では、モデルに基づいた残響除去フィルタそのものではなく、近似的な逆フィルタを用いている。このため、近似による誤差が生じ、残響除去の精度が低下する場合がある。

以下の各実施形態にかかる音響処理装置は、音源から離れたマイクロフォンにより集音する状況に対して、その物理現象と合致したモデルに基づいて、フィルタ係数が不安定とならない手法により、残響除去フィルタを推定する。そして各実施形態にかかる音響処理装置は、推定したフィルタを用いて残響除去処理を行う。これにより、残響除去処理の精度を向上させることが可能となる。

（第１の実施形態）
図５は、第１の実施形態にかかる音響処理装置１００の構成の一例を示すブロック図である。図５に示すように、音響処理装置１００は、受付部１１と、推定部１０２と、除去部１０３と、更新部１０４と、記憶部１２１と、記憶部１２２と、を備えている。受付部１１は、図１と同様であるため同一の符号を付し説明を省略する。

音響処理装置１００は、マイクロフォンなどで集音された観測信号ｘ（ｔ）を入力とし、残響が除去された目的信号ｙ_ｎ（ｔ）を出力とする。本実施形態では、処理の対象となる処理区間に含まれる観測信号の全体に対して繰り返し残響除去処理が行われ、最後に得られた目的信号が出力される。処理区間は、例えば、音声認識などの音声処理の対象となる時系列の音響信号を含む区間である。繰り返しの回数をＮ回（Ｎは２以上の整数）とする。図中のｎ（ｎは１≦ｎ≦Ｎを満たす整数）は何回目の繰り返しであるかを示すインデックスである。

記憶部１２１は、除去部１０３により出力される目的信号ｙ_ｎ（ｔ）を記憶する。後述するように、記憶部１２１に記憶される目的信号は、除去部１０３による残響除去処理では直接には参照されない。

記憶部１２２は、観測信号から残響が除去された後の目的信号を記憶する。記憶部１２２に記憶される目的信号は、推定部１０２によるフィルタ係数の推定処理、および、除去部１０３による残響除去処理で参照される。例えば繰り返しのｎ回目に目的信号ｙ_ｎ（ｔ）を求めるときには、繰り返しの（ｎ−１）回目（この場合、ｎは２≦ｎ≦Ｎ）に求められて記憶部１２２に記憶された目的信号ｙ_ｎ−１（ｔ）が参照される。処理を開始する時点（ｎ＝１）では目的信号は求められていないため、記憶部１２２は、参照する目的信号の初期値として観測信号を記憶しておく（ｙ_０（ｔ）＝ｘ（ｔ））。

処理区間に含まれるすべての観測信号に対して除去部１０３により残響除去処理が実行された後、更新部１０４が、記憶部１２１に記憶された目的信号によって、記憶部１２２に記憶された目的信号を更新する。

除去部１０３により出力され記憶部１２１に記憶される目的信号を、以下では出力信号といい、記憶部１２２に記憶され除去部１０３により参照される目的信号を、以下では参照信号という場合がある。記憶部１２２は、ある処理区間（第１処理区間）に含まれる観測信号（第１観測信号）に対して残響の除去が完了した信号を表す参照信号を記憶する記憶部に相当する。

推定部１０２は、残響除去フィルタのフィルタ係数を推定する。推定部１０２は、音源から離れたマイクロフォンにより集音する状況に適合するモデルに基づいてフィルタ係数を推定する。このモデルは、例えば、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルである。推定部１０２は、このモデルに基づいて、観測信号（第２観測信号）と、参照信号とを用いて、残響除去フィルタのフィルタ係数を推定する。

除去部１０３は、観測信号から残響を除去する残響除去処理を実行する。例えば除去部１０３は、観測信号（第２観測信号）と、記憶部１２２に記憶された参照信号と、推定部１０２により推定されたフィルタ係数を有する残響除去フィルタと、を用いて、観測信号から残響が除去された目的信号（出力信号）を求める。

本実施形態では、同じ処理区間に含まれる観測信号に対して、フィルタ係数の推定処理がＮ回繰り返し実行され、残響除去処理がＮ回繰り返し実行される。すなわち、記憶部１２２に記憶された参照信号を求めるために用いられた観測信号（第１観測信号）と、参照信号を用いて次の繰り返しで目的信号を求めるために用いられる観測信号（第２観測信号）とは、同じ処理区間に含まれる。

更新部１０４は、出力信号によって参照信号を更新する。例えば更新部１０４は、（ｎ−１）回目に求められる出力信号が、繰り返しのｎ回目の参照信号として用いられるように記憶部１２２に記憶された参照信号を更新する。

上述の各部（受付部１１、推定部１０２、除去部１０３、および、更新部１０４）は、例えば、１または複数のプロセッサにより実現される。例えば上述の各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上述の各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上述の各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

記憶部１２１および記憶部１２２は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。また、記憶部１２１および記憶部１２２は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部１２１および記憶部１２２のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。

次に、このように構成された第１の実施形態にかかる音響処理装置１００による残響除去処理について図６を用いて説明する。図６は、第１の実施形態における残響除去処理の一例を示すフローチャートである。

受付部１１は、例えばマイクロフォンなどにより集音された観測信号を受け付ける（ステップＳ１０１）。繰り返しの１回目の場合、観測信号ｘ（ｔ）が、参照信号ｙ_０（ｔ）として記憶部１２２に記憶される。

推定部１０２は、残響除去フィルタのフィルタ係数を推定する（ステップＳ１０２）。繰り返しの１回目では、推定部１０２は、記憶部１２２の参照信号ｙ_０（ｔ）と観測信号ｘ（ｔ）とを参照して残響除去フィルタのフィルタ係数ｃ_１（τ）を推定する。

次に除去部１０３は、推定されたフィルタ係数ｃ_１（τ）を有する残響除去フィルタで観測信号から残響を除去した出力信号を算出する（ステップＳ１０３）。例えば除去部１０３は、以下の（５）式に基づいて出力信号ｙ_ｎ（ｔ）を求める。繰り返しの１回目（ｎ＝１）の場合、除去部１０３は、出力信号ｙ_１（ｔ）を算出する。

除去部１０３は、出力信号ｙ_１（ｔ）を記憶部１２１に記憶する（ステップＳ１０４）。推定部１０２は、処理区間に含まれるすべての時刻ｔの観測信号を処理したか否かを判断する（ステップＳ１０５）。処理していない場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０２に戻り、次の時刻ｔの観測信号に対して処理が繰り返される。

すべての時刻ｔの観測信号に対して出力信号ｙ_１（ｔ）が求められたら（ステップＳ１０５：Ｙｅｓ）、更新部１０４は、記憶部１２１に記憶されている出力信号ｙ_１（ｔ）を次回の繰り返しの参照信号として記憶部１２２の内容を更新する（ステップＳ１０６）。

次に、推定部１０２は、処理回数が繰り返し回数（Ｎ）に達したか否かを判断する（ステップＳ１０７）。達していない場合（ステップＳ１０７：Ｎｏ）、ステップＳ１０２に戻り、処理区間に含まれるすべての時刻ｔの観測信号に対して再度処理が繰り返される。

例えば繰り返しの２回目の場合、ｎ＝２として同様に推定部１０２および除去部１０３の処理が行われ出力信号ｙ_２（ｔ）が求められて記憶部１２１に記憶される。更新部１０４は、記憶部１２２の参照信号ｙ_１（ｔ）をｙ_２（ｔ）で更新して次回の参照信号とする。以下同様に処理がＮ回繰り返される。

処理回数が繰り返し回数（Ｎ）に達した場合（ステップＳ１０７：Ｙｅｓ）、除去部１０３は、Ｎ回目の処理で得られた出力信号ｙ_Ｎ（ｔ）を、最終的な出力信号として出力し（ステップＳ１０８）、残響除去処理を終了する。

図７は、本実施形態の残響除去処理の流れを説明するための概念図である。丸印は各信号の１サンプル（ある時刻ｔの信号）を表している。ｘ（ｔ）は処理区間に含まれる各時刻ｔの観測信号を表す。ｙ（ｔ）は各時刻ｔの参照信号を表す。図７の例では、１９個の観測信号を含む区間が処理区間とされる。

繰り返しの１回目では、観測信号ｘ（ｔ）が記憶部１２２に記憶され、参照信号ｙ_０（ｔ）として参照される。繰り返しの１回目で算出された出力信号ｙ_１（ｔ）は、２回目の参照信号として記憶部１２２に記憶される。繰り返しの２回目で算出された出力信号ｙ_２（ｔ）は、３回目の参照信号として記憶部１２２に記憶される。同様にして、繰り返し回数Ｎに達するまで処理が繰り返される。

次に、推定部１０２による残響除去フィルタ係数の推定処理の一例について説明する。なお推定処理は以下の例に限られるものではなく、ニューラルネットワークを用いた方法などの任意の方法を適用できる。

残響除去フィルタ係数を表すベクトルＣ_ｎを以下の（６）式で定義する。

また、現在の時刻ｔに対して過去の参照信号を表すベクトルＹ_{ｎ，ｔ−Ｄ}を以下の（７）式で定義する。

これらを用いると（５）式は以下の（８）式で表される。記号Ｔは行列の転置を表す。

ここで、残響が取り除かれた出力信号ｙ_ｎ（ｔ）が平均０分散σ（ｔ）^２の時変正規分布に従うと仮定すると、フィルタ係数を表すベクトルＣ_ｎを求める問題は、以下の（９）式で表される目的関数Ｅ（Ｃ_ｎ）を最大化するＣ_ｎを推定する問題に帰着される。

ただし、Ｎ（ｘ；μ，σ^２）は、平均μ、分散σ^２の正規分布を表すｘの関数である。目的関数Ｅ（Ｃ_ｎ）を最大化するＣ_ｎは以下の（１０）式で求められる。

ここで、分散の推定値としてはσ（ｔ）＝ｙ_ｎ−１（ｔ）を用いることが可能であり、その場合のＣ_ｎは以下の（１１）式で求められる。

また、観測信号が十分に長い場合は、出力信号が時不変正規分布に従うと仮定して、分散を時間に依存しない定数としても精度よく残響除去フィルタ係数を求めることが可能である。この場合はσ（ｔ）＝１とすればよく、Ｃ_ｎは以下の（１２）式で求められる。

第１の実施形態では、音源から離れたマイクロフォンで集音した場合の残響の物理モデルを模擬する（３）式のモデルに基づいて残響除去フィルタ係数を求め、その係数を参照信号に畳み込んで残響成分を求めている。このため、精度よく残響を除去することができる。推定された１セットの残響除去フィルタ係数を用いたフィルタリング処理の過程では、参照信号が出力信号で置き換えられることはなく、再帰型のフィルタとはならない。このため、出力が発散する問題は生じない。

上述した実施形態において、ＤおよびＫの値は、１≦Ｄ≦Ｋを満たす任意の値を設定することができる。これらの値は集音環境における残響の特性に応じて設定すればよい。一般に遅れ時間が２５ｍｓ以下の初期反射音については音声の明瞭性に影響を与えにくいことから、Ｄは２５ｍｓ程度に相当する値をサンプリング周波数に応じて設定すればよい。残響時間が長い環境ではＫの値は大き目に設定する必要がある。ＫとＤの値の差が大きいほど計算量が大きくなる傾向があるため、性能と計算量のバランスを考慮して調整すればよい。

上述した実施形態では、除去部１０３は（５）式に基づいて出力信号を求めるものとして説明したが、これに限定されるものではない。例えば、（５）式のｙ_ｎ（ｔ）の符号とｘ（ｔ）の符号が異なる場合にｙ_ｎ（ｔ）＝０でクリッピングするようにしてもよい。または、（５）式のｙ_ｎ（ｔ）の絶対値がｘ（ｔ）の絶対値を超える場合にｙ_ｎ（ｔ）の絶対値をｘ（ｔ）の絶対値で制限するようにしてもよい。雑音などの影響によって残響除去フィルタの係数に誤差が生じた場合でも、残響除去による音質劣化の副作用を防止することができる。

（変形例）
第１の実施形態では、ある処理区間の観測信号全体に対して残響除去フィルタ係数を推定するものとして説明した。本変形例では、観測信号を所定の時間間隔で区切ったブロック毎に残響除去フィルタ係数の推定と残響除去処理を行う。すなわち、複数の観測信号を含む処理区間が分割されたブロックを処理区間（第１処理区間）として処理が実行される。

ブロック長をＬとし、ブロックの番号を表すインデックスをｂとすると、第ｂ番目のブロックの範囲は、ｂＬ≦ｔ≦ｂＬ＋Ｌ−１となる。推定部１０２は、以下の（１３）式を用いて残響除去フィルタ係数を求める。

（１３）式は、（１２）式をブロック毎の処理に変更した式である。除去部１０３は、ｂＬ≦ｔ≦ｂＬ＋Ｌ−１の範囲で（５）式を用いて出力信号ｙ_ｎ（ｔ）を求める。第１の実施形態と同様に、残響除去フィルタ係数の推定と出力信号の算出が、当該ブロックに対してＮ回繰り返される。最終的に得られた出力信号が当該ブロックの結果として出力される。第ｂ番目のブロックの処理が完了したら、第（ｂ＋１）番目のブロックの観測信号を入力して同様に順次処理を行う。

本変形例によれば、観測信号が長く残響の特性が時間的に変動するような場合に、残響特性の変化に追従して精度よく残響を除去することが可能となる。また、リアルタイムの処理において順次残響を除去した目的信号を出力する必要があるような場合は、本変形例を用いることで、出力の遅延を低減することが可能となる。

このように、第１の実施形態にかかる音響処理装置では、繰り返しの各回で、前の回で求められた目的信号を参照するように、残響除去処理が繰り返し実行される。これにより、再帰型ではないフィルタにより精度よく残響を除去することが可能となる。

（第２の実施形態）
第２の実施形態にかかる音響処理装置は、上記変形例と同様に、複数の観測信号を含む処理区間が分割されたブロックを処理区間として残響除去処理を実行する。本実施形態では、前のブロック（第１処理区間）で求められた目的信号を参照信号として、後のブロック（第２処理区間）の残響除去処理が実行される。

図８は、第２の実施形態にかかる音響処理装置１００−２の構成の一例を示すブロック図である。図８に示すように、音響処理装置１００−２は、受付部１１と、推定部１０２−２と、除去部１０３−２と、更新部１０４−２と、記憶部１２１と、記憶部１２２と、を備えている。

第２の実施形態では、推定部１０２−２、除去部１０３−２および更新部１０４−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音響処理装置１００のブロック図である図５と同様であるので、同一符号を付し、ここでの説明は省略する。

推定部１０２−２は、前の処理区間（ブロック）で算出された目的信号を参照信号として、フィルタ係数の推定処理を実行する点が、第１の実施形態の推定部１０２と異なっている。除去部１０３−２は、前の処理区間（ブロック）で算出された目的信号を参照信号として、残響除去処理を実行する点が、第１の実施形態の除去部１０３と異なっている。更新部１０４−２は、前の処理区間（ブロック）で求められる出力信号が、次の処理区間（ブロック）の参照信号として用いられるように記憶部１２２に記憶された参照信号を更新する。

このように本実施形態では、ある処理区間（ブロック）に含まれる観測信号に対して、前の処理区間（ブロック）で算出された目的信号を参照信号として残響除去処理が実行される。すなわち、記憶部１２２に記憶された参照信号を求めるために用いられた観測信号（第１観測信号）と、参照信号を用いて次の繰り返しで目的信号を求めるために用いられる観測信号（第２観測信号）とは、異なる処理区間（ブロック）に含まれる。

本実施形態は、ブロック長Ｌと除去する残響の遅延の下限値Ｄが、Ｌ≦Ｄの関係を満たす場合に適用できる。Ｌ≦Ｄが成立する場合、あるブロックのフィルタ係数の推定処理で参照する参照信号が、直前のブロックの出力信号により確定している。すなわち、参照信号が現在のブロックで算出された出力信号で置き換えられることはなく、再帰型のフィルタとはならない。このため、出力が発散する問題は生じない。

図９は、第２の実施形態の残響除去処理の流れを説明するための概念図である。丸印は各信号の１サンプル（ある時刻ｔの信号）を表している。ｘ（ｔ）は処理区間に含まれる各時刻ｔの観測信号を表す。ｙ（ｔ）は各時刻ｔの参照信号を表す。破線はブロックの境界を示す。図９の例ではブロック長Ｌ＝８となっている。

第（ｂ−１）番目のブロックの処理を完了したと仮定し、第ｂ番目のブロックを処理する手順を説明する。この時点で、記憶部１２２には第（ｂ−１）番目のブロックとそれ以前のブロックで求められた目的信号が参照信号として記憶されている。第ｂ番目のブロックに対しては参照信号の初期値として観測信号が記憶されている。

推定部１０２−２の処理について説明する。まず推定部１０２−２は、以下の（１４）式、（１５）式で表される行列Ｒ_ｎおよびベクトルｒ_ｎを求める。

次に推定部１０２−２は、（１４）式で求めた行列Ｒ_ｎ、（１５）式で求めたベクトルｒ_ｎ、直前のブロックの行列Ｒ_ｎ ^ｂ−１、ベクトルｒ_ｎ ^ｂ−１、および、所定のスムージング係数αを用いて、当該ブロックの行列Ｒ_ｎ ^ｂおよびベクトルｒ_ｎ ^ｂを、以下の（１６）式、（１７）式で求める。

αの値は、０＜α＜１の範囲で設定される。αは、例えばＬが小さくなるほど１に近い値（例えば０．９）が用いられる。推定部１０２−２は、これらを用いて、残響除去フィルタ係数Ｃ_ｎを以下の（１８）式で求める。

次に、除去部１０３−２は、（５）式を用いて当該ブロックの出力信号を算出し、記憶部１２１に記憶する。次に、更新部１０４−２は、記憶部１２２の当該ブロックの参照信号を記憶部１２１の出力信号で更新する。

本実施形態の推定部１０２−２の処理において、（１４）式および（１５）式のＹ_{ｎ−１，ｔ−Ｄ}が参照する範囲は、Ｌ≦Ｄが成立するため、常に第（ｂ−１）番目のブロックかそれ以前のブロックに含まれている。例えば、残響の遅延の下限値Ｄ＝１０、上限値Ｋ＝１４の場合、Ｙ_{ｎ−１，ｔ−Ｄ}が参照する範囲は図９の範囲４０１となる。

すなわち、本実施形態では、当該ブロックの最初（ｎ＝１）の残響除去フィルタ推定処理においても、参照信号が直前のブロックの出力信号として確定しているため、（３）式の残響モデルに基づいた残響除去フィルタの推定が可能であり、必ずしも繰り返しを行う必要がない。繰り返しを行わない場合は、繰り返す場合と比較して計算量を削減可能となる。

また本実施形態では、残響除去フィルタ係数は、当該ブロックだけで求めるのではなく、それ以前の信号の情報も利用して行列Ｒ_ｎ ^ｂおよびベクトルｒ_ｎ ^ｂをスムージングしながら求められる。これにより、ブロックが短い場合でも高精度に残響除去が可能なフィルタ係数を安定して求めることが可能となる。

なお、スムージングを実行せず、第１の実施形態と同様の方法でフィルタ係数を求めてもよい。例えば、（１８）式の代わりに、（１０）式、（１１）式、または、（１２）式によりフィルタ係数を求めてもよい。また、最初のブロックなどのように直前のブロックの出力信号（参照信号）が存在しない場合は、当該ブロックの観測信号などを参照信号の初期値として用いればよい。

このように、第２の実施形態では高い残響除去性能を維持したままアルゴリズム遅延と演算量を低減することができる。このため、リアルタイム処理に適している。

（第３の実施形態）
第３の実施形態にかかる音響処理装置は、観測信号を周波数ごとに分けた観測信号（周波数別観測信号）に分割し、周波数別観測信号ごとに残響除去処理を行う。そして本実施形態にかかる音響処理装置は、周波数ごとに求めた、残響が除去された目的信号（周波数別目的信号）を統合して目的信号を求める。

図１０は、第３の実施形態にかかる音響処理装置１００−３の構成の一例を示すブロック図である。図１０に示すように、音響処理装置１００−３は、分割部１０１１と、音響処理部１００１ａ〜１００１ｄと、統合部１０１２と、を備えている。

音響処理部１００１ａ〜１００１ｄは、分割部１０１１により分割された周波数別観測信号を入力して音響除去処理を実行する。音響処理部１００１ａ〜１００１ｄは同様の機能を備えるため、以下では、区別する必要のない場合は単に音響処理部１００１という。図１０では４つの音響処理部１００１を備える例を示しているが、分割する周波数の数に応じた個数の音響処理部１００１を備えればよい。以下では、観測信号がＦ個の周波数領域に分割され、Ｆ個の音響処理部１００１が備えられる例を説明する。

分割部１０１１は、入力された観測信号に帯域分割処理を行い、観測信号をＦ個の周波数帯域に分割し、Ｆ個の周波数別観測信号を出力する。帯域分割処理に伴い、周波数別観測信号のサンプリング周波数は、観測信号のサンプリング周波数と比較して低減される。

Ｆ個の音響処理部１００１は、Ｆ個の周波数別観測信号のうち対応する周波数別観測信号がそれぞれ入力される。音響処理部１００１は、入力された周波数別観測信号（第２観測信号）に対して残響除去処理を行って周波数別目的信号を出力する。

統合部１０１２は、Ｆ個の音響処理部１００１からＦ個の周波数別目的信号を受け取り、Ｆ個の周波数別目的信号の周波数帯域を統合する処理を行い、観測信号と同じサンプリング周波数の目的信号を出力する。

分割部１０１１は、例えば高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を用いて構成することが可能である。例えば分割部１０１１は、観測信号に対して所定のフレーム周期ごとに、窓関数を乗じて短時間波形を取得し、ＦＦＴを適用して帯域分割を行う。例えば、窓関数長(ＦＦＴ長)を５１２サンプルとすると、周波数帯域数は５１２となる。対称性があるため処理すべき帯域数はほぼ半分のＦ＝２５７となる。

ＦＦＴを適用して得られた信号のうち同じ周波数ビンに対応する値をフレーム間で連結した信号が周波数別観測信号となる。そのため、周波数別観測信号のサンプリング周期はフレーム周期と等しくなる。例えば、フレーム周期を１２８サンプルとすれば、周波数別観測信号のサンプリング周期は観測信号のサンプリング周期の１２８倍となる。

音響処理部１００１は、上述した第１〜第２の実施形態の音響処理装置のいずれかを用いることができる。ただし、本実施形態の周波数別観測信号はＦＦＴ処理の結果として複素数となっているため、上述した実施形態における信号処理を複素数に拡張して用いる必要がある。具体的には、行列の転置を共役転置に、値の２乗を絶対値の２乗に変更するなどの拡張を行うことによって、複素数の信号に対しても残響除去を行うことができる。

音響処理部１００１に含まれる除去部の機能は、上述した第１〜第２の実施形態と同様であってもよいし、複素数の信号の位相を無視して絶対値で残響成分を除去するようにしてもよい。この場合、除去部は、（５）式の代わりに以下の（１９）式、（２０）式で出力信号を求めればよい。

本実施形態によれば、出力信号のパワーが観測信号のパワー以下となるため、残響除去による副作用を防止して頑健な処理を行うことができる。

統合部１０１２は、Ｆ個の周波数別目的信号を受け取り、フレームごとに周波数帯域を統合して逆フーリエ変換（ＩＦＦＴ：Inverse FFT）を適用することにより、フレームごとの短時間波形を生成する。さらに統合部１０１２は、各短時間波形の端点での不連続を軽減する合成窓を適用した後に、フレーム周期だけずらして各フレームの短時間波形を重畳することにより目的信号を生成する。

本実施形態では、周波数別観測信号のサンプリング周波数が低減されるため、音響処理部１００１における残響時間に関するパラメータ（（５）式のＤおよびＫ）の値が低減される。その結果、音響処理部１００１の計算量は第１〜第２の実施形態と比較して大幅に削減され、分割部１０１１および統合部１０１２の計算量を含めても計算量が削減される。

分割部１０１１の構成は上記に限られるものではない。例えば分割部１０１１が、完全再構成フィルタバンクを用いるように構成してもよい。これは、例えば直交ミラーフィルタ（ＱＭＦ：Quadrature Mirror Filter）に基づく分析フィルタと１／２サブサンプリングを多段に組み合わせた構成で実現される。

統合部１０１２は逆に、２倍オーバーサンプリングとＱＭＦに基づく合成フィルタを多段に組み合わせた構成によって実現される。完全再構成フィルタバンクを用いた構成では、周波数別観測信号は実数の信号となるため、ＦＦＴを用いる構成と比較してさらに演算量が低減される。

上述した実施形態では、分割されたＦ個の周波数別観測信号のすべてに残響除去処理を行うものとして説明したが、一部の信号のみに残響除去処理を行うようにしてもよい。例えば、１００Ｈｚ〜２０００Ｈｚ程度の範囲に対応する帯域の周波数別観測信号にのみ残響除去処理を行うようにしてもよい。音声の主要な周波数成分はこの帯域に含まれているため、残響除去による明瞭化が可能となり、計算量を削減することができる。また、周波数別観測信号毎に異なるパラメータを設定するようにしてもよい。例えば、残響時間が比較的短い周波数には、（５）式のＫを小さい値とすることにより、性能を低下させずに計算量を削減することができる。

（第４の実施形態）
第４の実施形態にかかる音響処理装置は、残響を除去した音響信号を基に音声認識処理を実行する機能を備える。

図１１は、第４の実施形態にかかる音響処理装置１００−４の構成の一例を示すブロック図である。図１１に示すように、音響処理装置１００−４は、マイクロフォン１１０１と、変換部１１０２と、残響除去部１１０３と、認識部１１０４と、を備えている。

マイクロフォン１１０１は、音声を集音して観測信号を出力する。例えばマイクロフォン１１０１は、残響を含んだアナログ音声信号である観測信号を出力する。マイクロフォン１１０１を音響処理装置１００−４内に備えず、音響処理装置１００−４に接続されたマイクロフォン１１０１から観測信号を入力するように構成してもよい。

変換部１１０２は、アナログ信号である観測信号をデジタル信号に変換する。マイクロフォン１１０１とともに変換部１１０２を音響処理装置１００−４の外部に備えてもよい。この場合、残響除去部１１０３は、変換部１１０２により変換されたデジタル信号を観測信号として入力すればよい。

残響除去部１１０３は、上述した第１〜第３の実施形態に係る音響処理装置のいずれかを用いることができる。残響除去部１１０３で残響が除去された目的信号は認識部１１０４に入力される。

認識部１１０４は、入力された目的信号に対して音声認識処理を実行する。認識部１１０４は、任意の音声認識手法を用いて音声認識処理を実施すればよい。認識部１１０４の出力は、テキストデータでもよいし、認識された単語ＩＤのような記号化された情報であってもよい。

残響除去部１１０３として、第３の実施形態に係る音響処理装置１００−３を用いる場合、統合部１０１２において、統合された周波数別目的信号に対してＩＦＦＴ処理を行わず、周波数別目的信号のまま認識部１１０４に入力するようにしてもよい。このような構成にすることで、認識部１１０４における特徴量抽出のためのＦＦＴ処理を省くことが可能となる。この結果、計算量を削減することができる。

本実施形態の音響処理装置１００−４は、１台の計算機に実装してもよいし、認識部１１０４をサーバ上に実装し、残響除去部１１０３を端末上に実装して、これらの間をネットワークを介して通信するように構成してもよい。

第４の本実施形態の音響処理装置１００−４は、マイクロフォン１１０１と音源とが離れていて残響が混入する集音環境においても、残響を除去して音韻が明瞭になった音声に音声認識処理を適用できる。すなわち、高い精度で認識処理を実行可能となる。

以上説明したとおり、第１から第４の実施形態によれば、残響除去処理の精度を向上させることが可能となる。

次に、第１から第４の実施形態にかかる音響処理装置のハードウェア構成について図１２を用いて説明する。図１２は、第１から第４の実施形態にかかる音響処理装置のハードウェア構成例を示す説明図である。

第１から第４の実施形態にかかる音響処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第４の実施形態にかかる音響処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第４の実施形態にかかる音響処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第４の実施形態にかかる音響処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第４の実施形態にかかる音響処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第４の実施形態にかかる音響処理装置で実行されるプログラムは、コンピュータを上述した音響処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、２０、１００、１００−２、１００−３、１００−４音響処理装置
１１受付部
１２、２２、１０２、１０２−２推定部
１３、２３、１０３、１０３−２除去部
２４、１２１、１２２記憶部
３１、１１０１マイクロフォン
３２スピーカ
１０４、１０４−２更新部
１００１音響処理部
１０１１分割部
１０１２統合部
１１０２変換部
１１０３残響除去部
１１０４認識部

Claims

第１処理区間に含まれる第１観測信号から残響を除去した信号を表す参照信号を記憶する記憶部と、
遅延して入力される音源信号に残響除去フィルタを適用することによって得られる信号と音源信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第２観測信号と、前記第２観測信号より前の時刻の前記第１観測信号に対応する前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定部と、
前記第２観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第２観測信号から残響が除去された信号を表す出力信号を求める除去部と、
を備える音響処理装置。
前記第２観測信号は、前記第１処理区間に含まれる観測信号であり、
前記推定部は、前記第２観測信号と前記参照信号とを用いて前記フィルタ係数を推定する処理をＮ回（Ｎは２以上の整数）繰り返し、
前記除去部は、前記第２観測信号から前記出力信号を求める処理をＮ回繰り返し、
繰り返しの（ｎ−１）回目（ｎは２≦ｎ≦Ｎを満たす整数）に求められる前記出力信号が、繰り返しのｎ回目の前記参照信号として用いられるように前記記憶部に記憶された前記参照信号を更新する更新部をさらに備える、
請求項１に記載の音響処理装置。
前記推定部は、繰り返しの１回目に、前記参照信号の代わりに前記第１観測信号を用いる、
請求項２に記載の音響処理装置。
前記第１処理区間は、複数の観測信号を含む処理区間が分割された区間である、
請求項１に記載の音響処理装置。
前記第２観測信号は、前記第１処理区間より後の第２処理区間に含まれる観測信号である、
請求項１に記載の音響処理装置。
入力された観測信号を複数の周波数帯域に対応する複数の周波数別観測信号に分割する分割部をさらに備え、
前記推定部は、前記周波数別観測信号を前記第２観測信号として前記フィルタ係数を推定し、
前記除去部は、前記周波数別観測信号を前記第２観測信号として前記出力信号を求める、
請求項１に記載の音響処理装置。
前記除去部によって出力された、複数の周波数帯域に対応する複数の出力信号を統合する統合部をさらに備える、
請求項６に記載の音響処理装置。
前記出力信号に含まれる音声を認識する認識部をさらに備える、
請求項１に記載の音響処理装置。
第１処理区間に含まれる第１観測信号から残響を除去した信号を表す参照信号を記憶部に記憶させる記憶ステップと、
遅延して入力される音源信号に残響除去フィルタを適用することによって得られる信号と音源信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第２観測信号と、前記第２観測信号より前の時刻の前記第１観測信号に対応する前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定ステップと、
前記第２観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第２観測信号から残響が除去された信号を表す出力信号を求める除去ステップと、
を含む音響処理方法。
コンピュータに、
第１処理区間に含まれる第１観測信号から残響を除去した信号を表す参照信号を記憶部に記憶させる記憶ステップと、
遅延して入力される音源信号に残響除去フィルタを適用することによって得られる信号と音源信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第２観測信号と、前記第２観測信号より前の時刻の前記第１観測信号に対応する前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定ステップと、
前記第２観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第２観測信号から残響が除去された信号を表す出力信号を求める除去ステップと、
を実行させるためのプログラム。