JP3787103B2

JP3787103B2 - 音声処理装置、音声処理方法、音声処理プログラム

Info

Publication number: JP3787103B2
Application number: JP2002071858A
Authority: JP
Inventors: 真理子青木; 賢一古家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2006-06-21
Anticipated expiration: 2022-03-15
Also published as: JP2003271167A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば音声、楽音、各種環境音源等から得られたステレオ信号の原音推定に利用することができる音声処理装置、音声処理方法、音声処理プログラムに関する。
【０００２】
【従来の技術】
従来よりステレオ信号の原音推定に利用されているゾーン分離収音技術には、例えば、音が持つ次のような特徴を利用したものがある。音はいくつかの周波数成分の和として表現されることが知られている。そこで、複数の音が同時に鳴っている場合、各チャネルのマイクロホンに入力される音源信号を各音源からの周波数成分が周波数軸上で重ならない程度の帯域に分割し、チャネル間の各周波数成分の到達位相差や到達レベル差を基に、各周波数成分のそれぞれがどのゾーンからのものであるかを判定し、同一ゾーンからの成分を集めて合成することにより、各ゾーン毎の音を個別に収音する方法が用いられていた（参考：特願平０９−２５２３１２号：「音源分離方法、装置および記録媒体」）。
【０００３】
【発明が解決しようとする課題】
ところが、この技術では、残響下で２つの音源の角度が近接している場合や２つのマイクロホン間の距離が近い場合に、マイクロホンで受音される信号の、目的音に対する妨害音のレベルが大きくなり（以下、ＳＮが劣化する、と表現する）、その結果、分離処理後の音に歪みが生じるという課題があった（課題１）。本発明は、受音信号に対して逆フィルタ演算をすることにより受音信号のＳＮを回復する。
また、逆フィルタ演算をすることにより受音信号のＳＮを回復する方式としては従来、高次統計量を用いて逆フィルタを推定する方法があった。（参考：A.J.Bell and T.J.Sejowski,“An information-maximization approach to blind separation and blind deconvolution,”Neural Comput.,vol.7,1129-1159(1995).）しかし、高次統計量を扱うため、演算量が多いという課題があった（課題２）。
【０００４】
【課題を解決するための手段】
この発明では２つのチャネルの信号を、複数の周波数帯域に分割する帯域分割手段と、上記帯域分割手段で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する帯域別レベル差算出手段と、上記帯域別レベル差算出手段で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定手段と、上記伝達特性推定手段で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出手段と、を有する音声処理装置を提案する。
【０００５】
この発明では更に２つのチャネルの信号を、複数の周波数帯域に分割する帯域分割手段と、上記帯域分割手段で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する帯域別レベル差算出手段と、上記帯域別レベル差算出手段で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定手段と、上記伝達特性推定手段で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出手段と、上記帯域別レベル差算出手段で算出されるチャネル間レベル差に基づき、その帯域の出力信号が、いずれの音源から入力された信号であるかを判定する信号判定手段と、上記信号判定手段の判定に基づき、上記逆混合行列算出手段で得られた出力信号に重み値を乗算することで、同一音源から入力された信号を少なくとも一つ抽出する音源信号選択手段と、上記音源信号選択手段で同一音源からの信号として選択された複数の帯域信号を音源信号として合成する音源信号合成手段と、を有する音声処理装置を提案する。
【０００６】
又２つの信号を、複数の周波数帯域に分割する帯域分割手段と、上記帯域分割手段で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する第１帯域別レベル差算出手段と、上記帯域別レベル差算出手段で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定手段と、上記伝達特性推定手段で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出手段と、上記逆混合行列算出手段からの出力信号を基に、各帯域のチャネル間レベル差を算出する第２帯域別レベル差算出手段と、上記第２帯域別レベル差算出手段で算出されるチャネル間レベル差に基づき、その帯域の出力信号が、いずれの音源から入力された信号であるかを判定する信号判定手段と、上記信号判定手段の判定に基づき、上記逆混合行列算出手段で得られた出力信号に重み値を乗算することで、同一音源から入力された信号を少なくとも一つ抽出する音源信号選択手段と、上記音源信号選択手段で同一音源からの信号として選択された複数の帯域信号を音源信号として合成する音源信号合成手段と、を有する音声処理装置を提案する。
【０００７】
この発明では更に２つのチャネルの信号を、複数の周波数帯域に分割する帯域分割処理と、上記帯域分割処理で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する帯域別レベル差算出処理と、上記帯域別レベル差算出処理で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定処理と、上記伝達特性推定処理で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出処理と、を実行する音声処理方法を提案する。
【０００８】
この発明では更に２つのチャネルの信号を、複数の周波数帯域に分割する帯域分割処理と、上記帯域分割処理で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する帯域別レベル差算出処理と、上記帯域別レベル差算出処理で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定処理と、上記伝達特性推定処理で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出処理と、上記帯域別レベル差算出処理で算出されるチャネル間レベル差に基づき、その帯域の出力信号が、いずれの音源から入力された信号であるかを判定する信号判定処理と、上記信号判定処理の判定に基づき、上記逆混合行列算出処理で得られた出力信号に重み値を乗算することで、同一音源から入力された信号を少なくとも一つ抽出する音源信号選択処理と、上記音源信号選択処理で同一音源からの信号として選択された複数の帯域信号を音源信号として合成する音源信号合成処理と、を実行する音声処理方法を提案する。
【０００９】
又２つのチャネルの信号を、複数の周波数帯域に分割する帯域分割処理と、上記帯域分割処理で分割された各出力チャネル信号の各同一帯域毎に、チャネル間レベル差を算出する第１帯域別レベル差算出処理と、上記第１帯域別レベル差算出処理で算出された帯域別チャネル間レベル差を基に、各チャネルの伝達特性を推定する伝達特性推定処理と、上記伝達特性推定処理で推定された伝達特性を基に、逆フィルタ演算をする逆混合行列算出処理と、上記逆混合行列算出処理からの出力信号を基に、各帯域のチャネル間レベル差を算出する第２帯域別レベル差算出処理と、上記第２帯域別レベル差算出処理で算出されるチャネル間レベル差に基づき、その帯域の出力信号が、いずれの音源から入力された信号であるかを判定する信号判定処理と、上記信号判定処理の判定に基づき、上記逆混合行列算出処理で得られた出力信号に重み値を乗算することで、同一音源から入力された信号を少なくとも一つ抽出する音源信号選択処理と、上記音源信号選択処理で同一音源からの信号として選択された複数の帯域信号を音源信号として合成する音源信号合成処理と、を実行する音声処理方法を提案する。
【００１０】
この発明では更にコンピュータが読み取り可能な符号によって記述され、上記記載の音声処理方法をコンピュータ上で実行する音声処理プログラムを提案する。
作用
この発明による音声処理装置、音声処理方法によれば受音信号に対して逆フィルタ演算を施すことで、信号のＳＮを改善し、その信号に対して各帯域がどちらの音源の影響が強いかを判定することで従来と比べ高いＳＮで歪みを小さくしたまま音源を分離することができる（課題１の解決）。
【００１１】
また、逆フィルタ演算を行なう際に従来のように高次統計量を用いず、受音信号を周波数分析し、各帯域における周波数成分のチャネル間の比を算出することで逆混合行列を推定する。そのために、演算量の削減をはかることが出来る（課題２の解決）。
【００１２】
【発明の実施の形態】
図１にこの発明の請求項１で提案する音声処理装置の実施例を示す。図中Ｓ１及びＳ２は音源、１及び２は例えばマイクロホンのような収音手段を示す。音源Ｓ１の信号をＳ₁(ｎ）、音源Ｓ２の信号をＳ₂(ｎ）とする。
尚、この実施例では音源Ｓ１とＳ２が発生する信号Ｓ₁(ｎ）とＳ₂(ｎ）を収音手段１及び２で収音して２チャネルのステレオ信号を生成した例を示すが、予め収録した２チャネルのステレオ信号を再生して、この発明による音声処理方法を施すことも考えられる。
【００１３】
収音手段１は音源Ｓ１の信号Ｓ₁(ｎ）を伝達特性Ｈ₁₁を介して収音する信号と、音源Ｓ２の信号Ｓ₂(ｎ）を伝達特性Ｈ₂₁を介して収音する信号を出力する。収音手段２は音源Ｓ２の信号Ｓ₂(ｎ）を伝達特性Ｈ₂₂を介して収音する信号と、音源Ｓ１の信号Ｓ₁(ｎ）を伝達特性Ｈ₁₂を介して収音する信号を出力する。収音手段１が出力する信号をＸ₁(ｎ）、収音手段２が出力する信号をＸ₂(ｎ）とする。
収音手段１及び２が出力する信号Ｘ₁(ｎ）及びＸ₂(ｎ）は帯域分割手段３に入力される。帯域分割手段３は信号Ｘ₁(ｎ）及びＸ₂(ｎ）を複数の周波数帯域に分割する。帯域分割の手段としては例えば、フーリエ変換やウェーブレット変換が挙げられる。受音信号を、式（１）、（２）で表す。ここで、ｌは、信号分析長（フーリエ変換の場合にはフレーム長）のインデックスを表す。
【００１４】
Ｘ₁(ω，ｌ）＝｜Ｘ₁(ω，ｌ）｜exp(jarg（Ｘ₁(ω，ｌ））（１）
Ｘ₂(ω，ｌ）＝｜Ｘ₂(ω，ｌ）｜exp(jarg（Ｘ₂(ω，ｌ））（２）
ここで、周波数領域に変換された音源信号Ｓ（ω）＝［Ｓ₁(ω），Ｓ₂(ω）］^Tと、受音信号Ｘ（ω）＝［Ｘ₁(ω），Ｘ₂(ω）］^Tの間には式（３）で示される関係が成立する。
Ｈ（ω）は音源ｉからマイクｊへの周波数応答（伝達特性）Ｈ_ji（ω）を要素とする（２×２）の混合行列である。
【００１５】
【数１】

【００１６】
帯域別レベル差算出手段４においては、Ｘ₁，Ｘ₂の信号に対し、式（４）で示す帯域別レベル差を算出する。
【００１７】
【数２】

【００１８】
伝達特性推定手段５においては、まず、帯域別レベル差をもとに、各帯域の音が音源１、音源２のどちらの影響が強いかを判定する。例えば、あらかじめ定めた１以上の値ａに対し、
【００１９】
【数３】

【００２０】
が成立するならば、その帯域は音源Ｓ２の影響が強く、音源Ｓ１の信号Ｓ₁(ｎ）はＳ₁(ω）＝０と仮定できると考える。この場合、Ｓ₁(ω）＝０であることから、式（６）が成立する。
【００２１】
【数４】

【００２２】
そこで、伝達特性の推定値として式（７）を用いる。
【００２３】
【数５】

【００２４】
同様に、あらかじめ定めた１以上の値ｂに対し、
【００２５】
【数６】

【００２６】
が成立するならば、その帯域は音源Ｓ１の影響が強く、音源Ｓ２の信号Ｓ₂(ｎ）はＳ₂(ω）＝０と仮定できると考える。この場合、Ｓ₂(ω）＝０であることから、式（９）が成立する。
【００２７】
【数７】

【００２８】
そこで、伝達特性の推定値として式（１０）を用いる。
【００２９】
【数８】

【００３０】
また、式（５）、（７）のいずれにも該当しない帯域については、Ｓ１＝０，Ｓ２＝０どちらの仮定も成立しないため、受音信号をそのまま回復させるために、伝達特性の推定値として式（１１）を用いる。
【００３１】
【数９】

【００３２】
次に、各フレームにおいて算出された伝達特性の推定値
【００３３】
【数１０】

【００３４】
を、ある一定時間長バッファに貯め、それを加重平均する。加重平均の式は式（１２）で示される。
【００３５】
【数１１】

【００３６】
ここで、βとγの数値としては０＜β＜１、０＜γ＜１とする。また、Ｍは加重平均に用いるフレームの個数とする。Ｍの数としては例えば１００程度が用いられる。
逆混合行列算出手段６においては、式（１３）で示される逆混合行列演算により、受音信号Ｘ₁(ω，ｌ）とＸ₂(ω，ｌ）に逆フィルタ処理を施し、各チャネルの本来の信号（音源Ｓ１の信号Ｓ₁(ｎ）と音源Ｓ２の信号Ｓ₂(ｎ））に分離し、
【００３７】
【数１２】

【００３８】
分離された信号Ｙ₁(ω），Ｙ₂(ω）を得る。
図１に示した帯域分割手段３、帯域別レベル差算出手段４、伝達特性推定手段５、逆混合行列算出手段６はそれぞれコンピュータ上でこの発明による音声処理プログラムによって実現される。
図２にこの発明による音声処理プログラムの概要を表わすフローチャートを示す。
ステップＳ１０で帯域分割処理を実行する。この帯域分割処理は先にも説明したように、フーリエ変換或はウェーブレット変換を利用することができる。周波数帯域の分割数としては図１０に示すように、５１２，１０２４，２０４８，４０９６等に採ることができる。
【００３９】
ステップＳ２０では帯域別レベル差算出処理を実行する。この処理により、各帯域毎にチャネル間のレベル差が算出される。
ステップＳ３０ではステップＳ２０で算出されたチャネル間レベル差を利用して上述した式（７）乃至式（１１）により各周波数帯域毎に伝達特性推定処理を施す。
ステップＳ４０ではステップＳ３０で各周波数帯域毎に推定した伝達特性Ｈ₂₁（ω）／Ｈ₁₁（ω）とＨ₁₂（ω）／Ｈ₂₂（ω）を利用して式（１３）により逆混合処理（音源Ｓ１，Ｓ２と収音手段１，２で生じた混合現象の逆）を施し、分離された信号Ｙ₁(ω），Ｙ₂(ω）を得る。
【００４０】
図３にこの発明の請求項３で提案する音声信号処理装置の実施例を示す。この実施例では帯域分割手段３、帯域別レベル差算出手段４、伝達特性推定手段５、逆混合行列算出手段６を用いて逆混合行列算出手段６から逆混合された信号Ｙ₁(ω），Ｙ₂(ω）を得るまでの構成は図１に示した構成と同じである。この実施例では信号判定手段７と、信号選択手段８と、信号合成手段９とを設けた構成を特徴とするものである。信号判定手段７においては帯域別レベル差算出手段４で算出した各帯域別のチャネル間レベル差に基づき、分離された信号Ｙ₁(ω），Ｙ₂(ω）に乗算する重み値を決定する。例えば、チャネル間レベル差がある値τより大きい（但しτはτ＞１）場合、Ｙ₁(ω）には重み値として１となる重み値ｗｅｉ１（ω）を決定し、Ｙ₂(ω）には重み値として０または小さな値ｃ（ω）となる重み値ｗｅｉ２（ω）を決定する。
【００４１】
信号選択手段８では信号判定手段７で決定した重み値ｗｅｉ１（ω）とｗｅｉ２（ω）を逆混合行列算出手段６から出力される信号Ｙ₁(ω）とＹ₂(ω）に乗算する。
信号合成手段９では重み値ｗｅｉ１（ω）とｗｅｉ２（ω）が乗算された信号を共に、信号を周波数領域から時間領域に変換することで各音源Ｓ１，Ｓ２からの音を高いＳ／Ｎで抽出することができる。
図４に図２に示した音声処理装置をコンピュータ上で実現するための音声処理プログラムの概要を示す。ステップＳ１０乃至ステップＳ４０までの処理は図２に示したフローチャートと同じである。ここでの特徴はステップＳ４０で逆混合行列算出処理を施した後に信号判定処理ステップＳ５０と、音源信号選択処理ステップＳ６０と音源信号合成処理ステップＳ７０を実行する点を特徴とするものである。
【００４２】
信号判定処理ステップＳ５０ではステップＳ２０で算出した帯域別レベル差に従って重み値ｗｅｉ１（ω）とｗｅｉ２（ω）の値を決定する。音源信号選択処理ステップＳ６０ではステップＳ５０で決定した重み値ｗｅｉ１（ω）とｗｅｉ２（ω）を逆混合行列算出ステップＳ４０で算出された信号Ｙ₁(ω），Ｙ₂(ω）に乗算する。音源信号合成処理ステップＳ７０では重み値ｗｅｉ１（ω）とｗｅｉ２（ω）が乗算された信号を元に、信号を周波数領域から時間領域に変換する。図５はこの発明に関連する音声処理装置の提案例を示す。この提案例では第１帯域別レベル差算出手段４とは別に、第２帯域別レベル差算出手段１０を設け、この第２帯域別レベル差算出手段１０により逆混合行列算出手段６が出力する信号Ｙ₁(ω）とＹ₂(ω）のレベル差を算出し、その算出結果を利用して信号判定手段７で重み値ｗｅｉ１（ω）とｗｅｉ２（ω）を決定し、これらの重み値を信号選択手段８で信号Ｙ₁(ω）とＹ₂(ω）に乗算する構成とした場合を示す。
【００４３】
このように構成しても、図３の実施例と同様に各音源Ｓ１及びＳ２からの音を高いＳ／Ｎで抽出することができる利点が得られる。図６に図５に示した提案例をコンピュータ上で実現するための音声処理プログラムの概要を示すフローチャートを示す。ここでは図４に示したフローチャートのステップＳ４０とステップＳ５０の間に第２帯域別レベル差算出処理ステップＳ８０を介挿し、これにより逆混合行列算出処理で得られる信号Ｙ₁(ω）とＹ₂(ω）のレベル差に基づいて重み値ｗｅｉ１（ω）とｗｅｉ２（ω）を決定する処理手順とした点を特徴とするものである。
【００４４】
上述したこの発明による音声処理方法はコンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることにより実現される。プログラムはＣＤ等の記録媒体或は通信回線を通じてコンピュータにダウンロードされ、インストールされてＣＰＵ等で実行される。
【００４５】
【発明の効果】
以上説明したように、この発明によれば受音信号に逆混合行列算出処理を施し、ＳＮを改善させた信号Ｙ₁(ω），Ｙ₂(ω）に対してチャネル間レベル差に基づき各帯域の信号が音源Ｓ１，Ｓ２のどちらの信号であるかを判定したから、高いＳＮで音源を分離することが可能となる。
因みに実験結果を例示する。ここではチャネル間比分布の観測（シミュレーション）を行なって、
同時発声の２音声に対してチャネル間比分布を二つに分離して観測できるか否かを調べた。図７は４００Ｈｚ付近のチャネル間分布を７秒間観測した例である。２音声の混合信号は、信号作成時に到達レベル差（２ｄＢ）、到達時間差（０．４７ｍｓ）を与えて作成した。図７より、チャネル間比分布を分離して観測可能であることが解る。
【００４６】
次に、フーリエ変換（ＦＦＴ）で用いるフレーム長とＳＮ比改善量（残響下）に関する実験例を示す。
本発明による音声処理方法において、ＦＦＴフレーム長を変化させた場合のＳＮ比改善量を調べた。図８に収音機器の配置図、図９に実験条件を、結果を図１０に示す。
ＦＦＴフレーム長２０４８（ポイント）の場合にＳＮ比改善量が最大となった。ＦＦＴフレーム長が短かい場合に性能が劣化するのは、一般に、伝達関数Ｇ（ω）を推定する際に、フィルタタップ長が混合系のインパルス応答以上の長さが必要であるためと考えられる。
【００４７】
また、ＦＦＴフレーム長４０９６（ポイント）で性能が劣化するのは、フレーム長が長くなることでＦＦＴ分析の時間分解能が低下し、その結果２音声信号の同一周波数帯域における重畳度が上り、Ｓｉ（ω）＝０、Ｓｊ（ω）≠０の仮定が成立しなくなるためと考えられる。
チャネル間比推定時間長とＳＮ比改善量（残響下）に関して、
長さが１５秒の音声データに対し、チャネル間比を観測する時間を変化させた場合に得られるＳＮ比改善量を調べた。ＦＦＴフレーム長は２０４８とした。
結果を図１１に示す。図１１から推定時間が長い程ＳＮ比改善量も増加することが分かった。一方で、５秒の推定でも８ｄＢ程度のＳＮ比改善が得られた。
【００４８】
ＳＡＦＩＡ（特願平９−２５２３１２号：音源分離方法、装置および記録媒体）と本発明方法との組合せに対する効果、
ＳＡＦＩＡの前段に本発明の音声処理方法を入れることで得られる効果について調べた。比較のため、本発明の方法の他に周波数領域ＩＣＡ、不要音声側にＮｕｌｌを向ける２素子の適応ビームフォーマ（以下ＡＢＦと称す）をＳＡＦＩＡの前段に用いた場合について評価した。
評価尺度としては、ＳＡＦＩＡ処理を施すことで得られるＳＮ比改善量（ＳＮＲ_SAFIA）を全ての方式で一定にし、そのとき得られる歪改善量（ＳＤＲ_SAFIA）を測定した。また、全ての方式においてＳＮＲ_SAFIAは２４ｄＢとなるようにＳＡＦＩＡ側のパラメータを調整した。これは、先に検討したＳＡＦＩＡ単体でのＳＤＲ_SAFIA測定時と条件を同一にするためである。
【００４９】
結果を図１２に示す。ＳＤＲ_SAFIAの値は（本発明＋ＳＡＦＩＡ）が最も高く（ＡＢＦ＋ＳＡＦＩＡ）、（ＩＣＡ＋ＳＡＦＩＡ）、ＳＡＦＩＡ単体の順になった。（本発明＋ＳＡＦＩＡ）はＳＡＦＩＡ単体に比べて８ｄＢ程度ＳＤＲ_SAFIAが改善した。このことから、本発明法をＳＡＦＩＡの前段に組み合せる効果が高いことがわかる。
本発明はＳＡＦＩＡのミュージカルノイズ（歪み）を低減させるため、チャネル間比を観測することで逆混合行列を推定する方法を提案し、ＳＡＦＩＡと組み合わせることによる効果を調べた。本発明方法はＳＡＦＩＡ単体に比べてＳＮを保ったまま（２４ｄＢ）、歪（ＳＤＲ_SAFIA）を８ｄＢ程度改善することができた。
【００５０】
また、この発明によれば逆混合行列算出処理演算（逆フィルタ演算）において、従来の高次統計量を用いるために演算量が大きかったものをチャネル間レベル差の観測という演算負荷の小さい方法で実現することにより、少ない演算量で逆フィルタ演算を可能とし、処理速度の向上も期待できる。
【図面の簡単な説明】
【図１】この発明の請求項１，２で提案する音声処理装置の一実施例を説明するためのブロック図。
【図２】この発明の請求項４で提案する音声処理方法及びこの方法を実行するプログラムの概要を説明するためのフローチャート。
【図３】この発明の請求項３で提案する音声処理装置の一実施例を説明するためのブロック図。
【図４】この発明の請求項６で提案する音声処理方法及びこの方法を実行するプログラムの概要を説明するためのフローチャート。
【図５】この発明の関連する音声処理装置の一提案例を説明するためのブロック図。
【図６】この発明の関連する音声処理方法及びこの方法を実行するプログラムの概要を説明するためのフローチャート。
【図７】この発明の効果を説明するための図。
【図８】この発明の効果を確認するために行なった実験で用いた収音機器の配置の様子を説明するための配置図。
【図９】図８に示した実験の実験条件を示す図。
【図１０】この発明の音声処理方法において、ＦＦＴのフレーム長とＳＮ比改善量を調べた結果を示す図。
【図１１】この発明の音声処理方法においてチャネル間比推定時間長とＳＮ比改善量の関係を調べた結果を示す図。
【図１２】この発明の音声処理方法と他の方法との組合せで得られる効果を調べた結果を示す図。

Claims

２つの音源が発生する信号を収音する２つの収音手段が出力するチャネル信号を、それぞれフレーム毎に複数の帯域別信号Ｘ_１（ω，ｌ），Ｘ_２（ω，ｌ）［ｌはフレーム番号］に分割する帯域分割手段と、
上記帯域分割手段で分割された各出力チャネル信号の各帯域別信号Ｘ_１（ω，ｌ），Ｘ_２（ω，ｌ）から、同一帯域毎に帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）を算出する帯域別レベル差算出手段と、
上記帯域別レベル差算出手段で算出された帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）が第１の閾値以上の場合は、Ｈ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）がＸ_１（ω，ｌ）／Ｘ_２（ω，ｌ）でかつＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）が０であると推定し、
Ｘ_１（ω，ｌ）／Ｘ_２（ω，ｌ）が第２の閾値以上の場合は、Ｈ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）がＸ_２（ω，ｌ）／Ｘ_１（ω，ｌ）でかつＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）が０であると推定し、
上記のいずれでもない場合は、Ｈ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）がいずれも０であると推定し、
上記伝達特性推定手段で推定されたＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）とを用いて

により分離された信号Ｙ_１（ω，ｌ），Ｙ_２（ω，ｌ）を求める逆混合行列算出手段と、
を有することを特徴とする音声処理装置。
（但しＨ_１１（ω，ｌ）は第１の音源から第１の収音手段への伝達特性、
Ｈ_１２（ω，ｌ）は第１の音源から第２の収音手段への伝達特性、
Ｈ_２２（ω，ｌ）は第２の音源から第２の収音手段への伝達特性、
Ｈ_２１（ω，ｌ）は第２の音源から第１の収音手段への伝達特性、）
請求項１に記載の音声処理装置であって、
上記伝達特性推定手段は上記フレーム毎に推定したＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）のそれぞれの所定数のフレームの加重平均Ｈ_２１（ω）／Ｈ_１１（ω）とＨ_１２（ω）／Ｈ_２２（ω）を求める手段を有し、
上記逆混合行列算出手段は上記伝達特性推定手段で推定されたＨ_２１（ω）／Ｈ_１１（ω）とＨ_１２（ω）／Ｈ_２２（ω）とを用いて

により分離された信号Ｙ_１（ω，ｌ），Ｙ_２（ω，ｌ）を求める手段を有することを特徴とする音声処理装置。
請求項１又は２に記載の音声処理装置であって、
上記帯域別レベル差算出手段で算出される帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）に基づき、チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）が第３の閾値以上の場合は、重み値ｗｅｉ１（ω，ｌ）を１、及びｗｅｉ２（ω，ｌ）を０と決定する信号判定手段と、
上記分離された信号Ｙ_１（ω，ｌ）に上記重み値ｗｅｉ１（ω，ｌ）を、上記信号Ｙ_２（ω，ｌ）に上記重み値ｗｅｉ２（ω，ｌ）をそれぞれ乗算する信号選択手段と、
上記信号選択手段から出力されたそれぞれの上記重み付けされた信号ｗｅｉ１（ω，ｌ）Ｙ_１（ω，ｌ），ｗｅｉ２（ω，ｌ）Ｙ_２（ω，ｌ）を音源信号として音声信号を合成する信号合成手段と、
を有することを特徴とする音声処理装置。
２つの音源が発生する信号を収音する２つの収音手段が出力するチャネル信号を、それぞれフレーム毎に複数の帯域別信号Ｘ_１（ω，ｌ），Ｘ_２（ω，ｌ）［ｌはフレーム番号］に分割し、
上記分割された各出力チャネル信号の各帯域別信号Ｘ_１（ω，ｌ），Ｘ_２（ω，ｌ）から、同一帯域毎に帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）を算出し、
上記算出された帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）が第１の閾値以上の場合は、Ｈ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）がＸ_１（ω，ｌ）／Ｘ_２（ω，ｌ）でかつＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）が０であると推定し、
Ｘ_１（ω，ｌ）／Ｘ_２（ω，ｌ）が第２の閾値以上の場合は、Ｈ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）がＸ_２（ω，ｌ）／Ｘ_１（ω，ｌ）でかつＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）が０であると推定し、
上記のいずれでもない場合は、Ｈ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）がいずれも０であると推定し、
上記推定されたＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）とを用いて

により分離された信号Ｙ_１（ω，ｌ），Ｙ_２（ω，ｌ）を求めることを特徴とする音声処理方法。
（但しＨ_１１（ω，ｌ）は第１の音源から第１の収音手段への伝達特性、
Ｈ_１２（ω，ｌ）は第１の音源から第２の収音手段への伝達特性、
Ｈ_２２（ω，ｌ）は第２の音源から第２の収音手段への伝達特性、
Ｈ_２１（ω，ｌ）は第２の音源から第１の収音手段への伝達特性、）
請求項４に記載の音声処理方法であって、
上記フレーム毎に推定したＨ_２１（ω，ｌ）／Ｈ_１１（ω，ｌ）とＨ_１２（ω，ｌ）／Ｈ_２２（ω，ｌ）のそれぞれの所定数のフレームの加重平均Ｈ_２１（ω）／Ｈ_１１（ω）とＨ_１２（ω）／Ｈ_２２（ω）を求め、
上記推定されたＨ_２１（ω）／Ｈ_１１（ω）とＨ_１２（ω）／Ｈ_２２（ω）とを用いて

により分離された信号Ｙ_１（ω，ｌ），Ｙ_２（ω，ｌ）を求めることを特徴とする音声処理方法。
請求項４又は５に記載の音声処理方法であって、
上記帯域別チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）に基づき、チャネル間レベル差Ｘ_２（ω，ｌ）／Ｘ_１（ω，ｌ）が第３の閾値以上の場合は、重み値ｗｅｉ１（ω，ｌ）を１、及びｗｅｉ２（ω，ｌ）を０と決定し、
上記分離された信号Ｙ_１（ω，ｌ）に上記重み値ｗｅｉ１（ω，ｌ）を、上記信号Ｙ_２（ω，ｌ）に上記重み値ｗｅｉ２（ω，ｌ）をそれぞれ乗算し、
上記重み付け信号ｗｅｉ１（ω，ｌ）Ｙ_１（ω，ｌ），ｗｅｉ２（ω，ｌ）Ｙ_２（ω，ｌ）を音源信号として音声信号を合成することを特徴とする音声処理方法。
コンピュータが読み取り可能な符号によって記述され、上記請求項４乃至６のいずれかに記載の音声処理方法をコンピュータ上で実行する音声処理プログラム。