JP7182168B2 - 音情報処理装置及びプログラム - Google Patents
音情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP7182168B2 JP7182168B2 JP2019033034A JP2019033034A JP7182168B2 JP 7182168 B2 JP7182168 B2 JP 7182168B2 JP 2019033034 A JP2019033034 A JP 2019033034A JP 2019033034 A JP2019033034 A JP 2019033034A JP 7182168 B2 JP7182168 B2 JP 7182168B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- beamforming
- time
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
十分な数の収音部M(例えば、マイクロフォン)が使用できる時、ビームフォーミングは効果的な音声強調を達成する。音声強調を事前に適用することで音声認識性能が向上することが報告されており、そういった音声アプリケーションの前処理として音声強調は重要なタスクである。ところが、マイクロフォンアレイに基づく音声強調性能はマイクロフォンの数Mnに依存する。一般に1個の目的音源sとN-1個の干渉音源nとが存在する時、音源数Nと同数以上のマイクロフォンが必要となる。一方で近年普及しているICレコーダなどの小型機器は高々2個のマイクロフォンを持つことが多く、そういった小型機器でも効果的に音声強調を達成する手法の開発が求められている。従来の時間周波数マスキングやマルチチャネルWienerフィルタ、潜在変数を用いた観測信号の統計的モデリング、非負値行列因子分解などの手法は劣決定条件下(すなわち、Mn<N)においても音声強調が可能である。しかし、これらの手法はミュージカルノイズのような人工ノイズを生じさせやすく、後段のアプリケーションに好ましくない。また、時間周波数点毎にただ1つの音源のみが存在するというW-Disjoint orthogonality(W-DO)を仮定する時間周波数マスキングは、原理的に、複数の音源が同時に存在する時間周波数点を抑圧することはできない。そこで、本実施形態では、より高性能な音声強調を目指し、劣決定問題であっても、目的音声を歪ませずに高い雑音抑圧性能を達成する、新たな音声強調手法の開発について説明する。
従来、正方形マイクロフォンアレイを用いた複数の固定ビームフォーマの周波数方向の組み合わせとWienerフィルタによる音声強調手法が提案されているが、この手法は、目的音声に歪みを生じやすいことが問題点として知られている。また、ロボットの機械の駆動音(モータなど)の抑圧を目的とし、時間周波数点毎に最適な雑音共分散行列をクラスタリングにより選択し、ビームフォーミングを行う手法が提案されている。この手法は、ロボットの駆動音の種類が限られているという仮定のもと、事前に雑音をクラスタリングする必要があり、音声強調への適用は難しい。一方、本研究では劣決定条件下における音声強調のために、複数の適応ビームフォーマを組み合わせる。更に、目的音声の歪みを可能な限り排除することで、後段の音声アプリケーションにとって有利な信号処理である。
(1)複数ビームフォーマ出力の積の累乗根をとる複素値相乗平均(complex-valued geometric mean;CGM)と、
(2)出力の最小絶対値をとる最小値選択(minimum value selection;MIN)と
の2つの方法を示す。CGMは、観測信号がW-DOを満たす場合、すなわち単一の時間周波数点においては、ただ1つの音源のみが存在する場合に干渉音源nを抑圧することができる。MINは、上記に加え、単一の時間周波数点に1つの目的音源sと1つの干渉音源nが存在する場合にも干渉音源nを抑圧することができる。MINによる複数ビームフォーマの組み合わせを、時間周波数スイッチング(time-frequency-bin-wise switching;TFS)ビームフォーマと呼ぶ。
なお、複数の固定ヌルビームフォーマの最小値選択による雑音抑圧は、従来から提案されているが、本実施形態では、MaxSNR(maximum signal-to-noise ratio)ビームフォーマやMVDR(minimum variance distortionless response)ビームフォーマなどの適応ビームフォーマを複数組み合わせ、最小値選択を行う。
従来の音声強調手法の多くと同様に、本手法もマイクロフォン観測をSTFTにより時間周波数領域に変換し信号処理を行う。ここで、xi(ω,t)を周波数ω、t番目の時間フレームにおけるi番目のマイクロフォン観測とする。
簡単のため2マイクの場合(すなわち、Mn=2の場合)を考えると、線形ビームフォーマは一般に以下の式(1)~式(3)で与えられる。
簡単のため、目的音源sと、干渉音源n1と、干渉音源n2とからなる3音源を2つのマイクロフォン(収音部M1及び収音部M2)で抑圧することを考える。この状況下では、2つの干渉音源nを同時に抑圧する空間フィルタは構成できない。ここで、もし目的音源sと干渉音源n1のみが観測されたならば、干渉音源n1のみを抑圧するビームフォーマ1を従来のビームフォーマの構成法を用いて構成することができる。同様に干渉音源n2のみを抑圧するビームフォーマ2も構成することができる。これらのビームフォーマを用いることで、3音源からなる観測信号x(ω,t)を用いて以下の2出力y1(ω,t)、y2(ω,t)を得る。
図3は、本実施形態の空間フィルタの組合せ結果の一例を示す図である。
ここでw1(ω)、w2(ω)はそれぞれビームフォーマ1、2の空間フィルタである。x、y1、y2における支配的な音源を図3の第1~第3列に示した。xの全ての時間周波数点において、支配的な音源は1列目に示した7パターンとなる。ここで音源が存在しないケースは自明であるため考慮しない。y1及びy2の列に着目すれば、目的音源sのみが支配的である場合、2つのビームフォーマは共に目的音(すなわち、目的音源sの音)を出力する(図3;2行目参照)。干渉音源n1のみが支配的な場合、ビームフォーマ1は抑圧された信号を出力するが、ビームフォーマ2は干渉音源n1に対する制約を持たないため、何らかの影響が及ぼされた干渉音1(すなわち、干渉音源n1の音)を出力する。目的音源sと干渉音源n1が支配的な場合、ビームフォーマ1は目的音を出力するが、ビームフォーマ2は両方を出力する。
本実施形態の手法では、y1とy2の両方を組み合わせることで音声強調を行う。ここで重要な問題は、これらのビームフォーマをどのように組み合わせるか、である。W-DOの仮定下において、各時間周波数で支配的な音は目的音源s、干渉音源n1、n2のいずれかである。組み合わせ方法の要件は、
1)目的音源sのみが支配的な場合、組み合わせも目的音を劣化なく出力
2)干渉音源n1もしくはn2が支配的な場合、それぞれの干渉音源nを抑圧しなければならない
という2点である。本実施形態では、CGMとMINとの2つの方法を、上記要件を満たす手法として示す。
干渉音源n1、n2が到来した時、ビームフォーマ1(又は2)の出力が0もしくはごく小さな値であれば、CGMの以下の式は組み合わせ方法の要件を満たす。
目的音源sのみが支配的であれば、出力は目的音と目的音との相乗平均であるから、目的音そのものとなる。干渉音源n1のみが支配的な時間周波数点では、0もしくはごく小さな値と干渉音源n1との積を計算することになるため、その出力も0に近い値になる、すなわち抑圧されることが期待される。干渉音源n2に対しても同様に考えられるため、複素値相乗平均では、両方の干渉音源が抑圧されることが期待できる。
しかし、目的音源sと干渉音源n1が同時に支配的な時間周波数点においては、目的音源sと、目的音源sと干渉音源n1との積とが計算されるため抑圧されない。従って本手法は、従来の時間周波数マスキングなどと同様に、W-DOが成り立つ時間周波数点のみ抑圧することができる。性能面での従来法との違いは、ビームフォーマを用いているため歪みが少なくなると期待されることである。
干渉音源n1(又はn2)が到来した時、ビームフォーマ1(又は2)の出力はビームフォーマ1(又は2)よりも小さくなる。従って以下の式は組み合わせの要件を満たす。
なお、一般には、
MINによる複数ビームフォーマの組み合わせと時間周波数マスキングとには似た点がある。時間周波数マスキングは、各時間周波数点の信号が目的音源sかどうかを決定するマスクを推定する。従って、W-DOの仮定が必要となる。一方でMINは、どちらのビームフォーマがより良く干渉音源を抑圧するかを選択する。従って、MINによるビームフォーマの組み合わせでは、目的音源sと1つの干渉音源nが存在する時間周波数点においても、すなわちW-DOが成り立たなくとも抑圧が可能である。以上より、MINによる複数ビームフォーマの組み合わせは従来のW-DOの仮定を必要とする時間周波数マスキングの拡張であると言える。また、時間周波数点毎にビームフォーマを切り替えていることから、MINによる組み合わせを、改めて時間周波数スイッチング(time-frequency-bin-wise switching;TFS)ビームフォーマと呼ぶ。
TFSビームフォーマはいくつかの利点を有する。
1)まず、従来の時間周波数マスキングが仮定する各音源間のW-DOの仮定を必要としない点である。ステレオマイクロフォンを用いたTFSビームフォーマでは、単一の時間周波数点に複数の干渉音源nが存在しないことを必要とする。一般に、Mn個のマイクロフォンが利用可能な場合(ただしMn<N)、単一の時間周波数点には(Mn-1)個の干渉音源nが同時に存在できる。これは、従来のW-DOの仮定を緩和するものである。なお、本手法はビームフォーマを用いるため、目的音声の存在は全ての時間周波数点で許容される。従って、各時間周波数点には、最大で目的音声と(Mn-1)個の干渉音源nが同時に存在できる。
2)次に、空間フィルタw(ω)の構成には、任意の従来のヌルビームフォーマを利用することが可能な点である。本実施形態ではMaxSNRビームフォーマとMVDRビームフォーマを用いるが、その他にもMVDRビームフォーマの一般化であるLCMVビームフォーマなども利用可能である。
3)更に、適切なビームフォーマを用いた場合、目的音源sには理論的に歪みが生じない。この特色は、音声認識などのアプリケーションの前段の処理として音声強調を行う場合に極めて重要な利点だと言える。なお、使用するビームフォーマは、複数のビームフォーマの出力信号の振幅と位相が共に一致する場合に、適切であると言える。そのようなビームフォーマの代表例はMVDRビームフォーマである。
最小値選択による音声強調はシンプルな組み合わせ方法でありながら、高い音声強調性能を示す。しかし、複数の雑音が同時に存在する時間周波数点においては、全てを抑圧することができない。もしも、そのような時間周波数点に目的音源sが存在しないのであれば、時間周波数マスキング同様に抑圧すべきである。
本実施形態でDOA推定に用いる手法は、広く知られた手法である。ここで、観測信号の相対的な位相差を表すrelative phase ratio (RPR)は式(14)で定義される。
次に、DOALの平均を取ることで、時間フレーム毎の音源アクティビティ推定(source activity estimation; SAE)を行う。
本実施形態の手法の有効性を確認するため2種の実環境実験と1種のシミュレーションからなる、3種の評価実験を行った。実環境のデータベースとして、3話者のデータセットを利用した。データセットにはそれぞれ男性3名、女性3名の混合音が含まれており、各話者を目的音源として計6通りの音声強調を行った。シミュレーションでは、RIR generatorにより生成したインパルス応答とクリーン音声との畳込み演算により、各音源を生成した。
実環境実験1として、複数ビームフォーマの組み合わせ方法について、それぞれの性能を検証すると共に、使用するビームフォーマによる性能変化についても検証した。
実環境実験2として、時間周波数を用いたTFSビームフォーマの拡張の有効性について検証した。また、それぞれの実験において、図2の1列目に示す7パターンの音源の組み合わせに対して音声強調実験を行うことで、各区間において、期待する効果が得られているかどうかも検証した。
シミュレーションとして、W-DOの緩和について、残響環境下における音声強調実験により検証した。
実験条件を次表に示す。
比較のための従来法として、それぞれのビームフォーマを単体で用いた劣決定音声強調であるMaxSNR_SOL及びMVDR_SOL、また、2チャネルの時間周波数マスキングとしてDUETを用いた。更に、ヴァーチャルマイクロフォン技術を用いたMaxSNRビームフォーマも評価した。この手法では、実マイクロフォンとヴァーチャルマイクロフォンの両方を用いることで、劣決定条件を回避することができる。ヴァーチャルマイクロフォン合成のパラメータとしてα=0.5、β=2を用いた。手法として、“ビームフォーマ”_“CGM or MIN”と呼ぶ4種類を評価した。ここで“ビームフォーマ”はMaxSNRかMVDRである(例えばMaxSNR_CGM)。CGMとMIN計算のため、それぞれ干渉音源n1、n2を抑圧するビームフォーマ1、2を事前に構成した。そのため、目的音源区間と干渉音源n1、n2それぞれの区間が必要となる。本手法の有効性の調査のため、図3の1列目に示す7パターンの区間を用意した。ここで、全ての音源は音声であるためスパースである。従って各時間周波数点においては、複数の音源からなる区間であっても常に同時に存在するとは限らない。評価尺度として、SDR、SIRを用いた。実験結果として、データセットに含まれる男性3名、女性3名、それぞれを目的音源とした計6通りの音声強調の結果を評価し、その平均を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。
図4は、本実施形態の実環境実験の結果の一例を示す図である。
SDRとSIRを図4に示した。従来の単一ビームフォーマでは、周波数ビン毎に干渉音源n1かn2のどちらか一方のみが抑圧可能であり、十分な音声強調性能が得られていない。従来法であるDUETは時間周波数マスクにより音源分離を行うため歪みが生じやすく、SDRが低くなっている。一方で、雑音はよく抑圧できており、SIRは高い値となっている。一般に、時間周波数マスキングでは歪みと雑音抑圧性能がトレードオフとなっており、両者を同時に高めることは(W-DOがどの程度の時間周波数点で成り立っているかにも依存するが)困難である。一方で本実施形態の手法、特にMVDR_MINは、SDR、SIR共に高くなっており、少ない歪みで高い雑音抑圧性能を達成している。
CGMとMINのSIRを比べると、常にMINがCGMを上回っている。これはビームフォーマの指向特性から考察できる。目的音源sを強調し、干渉音源n1のみを抑圧するビームフォーマ1は、干渉音源n2の方向に対する制約を持たないため、その方向への応答は不明であり、ゲインが多少増加する可能性がある。例えばy1に含まれる干渉音源n1のゲインが-25dB、y2では5dBである時、CGMの計算後は約(-25+5)/2=-10dBとなる。一般に、ある雑音に対して-20dB以下の応答を持つ時、ビームフォーマはその雑音を抑圧すると言える。従って、この時ビームフォーマ1は干渉音源n1を抑圧しているが、CGMでは抑圧できていない。このように、CGMでは深いヌルを作ることができない。一方、MINでは、このような場合であってもビームフォーマ1を選択することで抑圧が可能である。なお、CGMの計算時に適した重みを設定することで、性能を向上させることも可能である。
MaxSNRビームフォーマとMVDRビームフォーマを比べると、MVDRビームフォーマが多くの場合に高い性能を示している。特にSDRにおいてはMVDR_MINが最高性能を示しており、必ずMaxSNRビームフォーマを上回っている。また、興味深いことにSIRでは僅差でMaxSNR_MINが最高性能を示している。これはそれぞれのビームフォーマの性質、及びMINの性質から考察できる。MaxSNRビームフォーマはSNRを最大化し、目的音源方向に対する制約は持たない。従って干渉音源nを良く抑圧しやすく、SIRが高くなる。しかし一方で、それぞれのビームフォーマ毎にSNRを最大化するため、2つのビームフォーマの出力において目的音の位相及びゲインが異なる可能性がある。これは本手法において無視できない極めて重要な問題である。
実験条件を次表に示す。
実験では、MVDRビームフォーマがTFSビームフォーマにおける適切なビームフォーマの一つであることから、MVDRビームフォーマを従来のビームフォーマとして利用した。ビームフォーマの事前情報は実験1と同様とした。比較のための従来法として、こちらも実験1と同様に、MVDRビームフォーマを単体で用いた劣決定音声強調であるMVDR、2チャネルの時間周波数マスキングであるDUET、ヴァーチャルマイクロフォン技術(VM)を導入したMaxSNRビームフォーマも評価した。これらの手法に加え、空間的サブトラクションアレー(spatial subtraction array;SSA)を2チャネルで実行した場合の性能も示す。ここで参照パスの推定(雑音の推定)にはヌルビームフォーマや独立成分分析(independent component analysis;ICA)に基づく手法が提案されているが、本実施形態ではMaxSNRビームフォーマを用いた。なお、SSAで用いるパラメータは提案されている値とした。また、位相の補償にはDSビームフォーマの出力値が用いられているが、本稿ではMaxSNRビームフォーマの出力値を用いている。
MVDRビームフォーマを用いた時間周波数スイッチングビームフォーマと、時間周波数マスキングを用いたその拡張を検討し、以下ではそれぞれをTFS、TFS+TFMと省略する。各手法の計算のため、それぞれ干渉音源n1、n2を抑圧するビームフォーマ1、2を事前に構成した。そのため、目的音源区間と2つの干渉音それぞれの干渉音源区間が必要となる。時間周波数マスク構成のためのDOA推定のパラメータは以下の通りである。全ての複素ガウス分布の分散は10とした。ここで、音声のエネルギーが十分存在すると考えられる周波数帯域である1~4kHzの周波数ビンのみを用いてGMMを学習した。SAEでは、LWMAによるスムージングのために用いる区間をT=9(384ms)とした。
本手法の有効性の調査のため、実験1と同様に、図3の1列目に示す7パターンの音源の組み合わせに対して実験を行った。評価尺度として、SDR、SIRに加え、SARを用いた。なお、実験1と同様に、データセットに含まれる男性3名、女性3名、それぞれを目的音源とした計6通りの音声強調の結果を評価し、その平均を実験結果として示す。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。
図5は、本実施形態の実環境実験の結果の他の一例を示す図である。
実験結果を図5に示した。従来の単一ビームフォーマはただ1つの干渉音のみ抑圧できるため、音声強調性能は低いが、SARに示されるように人工的な雑音は生じにくい。本実施形態の手法は全ての評価尺度に置いて高い性能を示し、単一ビームフォーマだけでなく従来の時間周波数マスキング手法であるDUETも上回る結果となった。特にTFSを時間周波数マスキングを用いて拡張することで、SARを劣化させることなく、SIRを大きく向上させることに成功している。以上より、本実施形態の手法とその拡張は高い音声強調性能を示すと言える。SSAに関しては、特に音声認識の前段の処理として開発されており、位相情報を正しく保持しない。そのため、全ての評価尺度の値が低くなっていることに注意されたい。
DOA推定による本実施形態の手法の拡張の最大の利点は、時間周波数マスク適用によるSIRの向上である。TFSビームフォーマでは、干渉音源n1、n2が同時に存在する時間周波数点においては、その両方を同時に抑圧することはできない。そのような点はマスキングすることで、より効果的な雑音抑圧を達成している。以上より、DOA推定に基づくTFSビームフォーマの拡張は、雑音抑圧性能の向上に有効だと言える。
実験で用いたFFTフレーム長を次表に示す。
評価尺度は、実験2と同様に、SDR、SIR、SARを用いた。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。実験結果は、4人の話者について音声を行った結果を評価し、その平均を示す。
図6は、本実施形態のシミュレーションの結果の一例を示す図である。
SDR、SIR、SARの改善量(混合信号と強調信号の各評価尺度の値の差)を図6に示す。音源si(ω,t)、(i=1、…、4)は、max|si(ω,t)|/10よりも大きな振幅値をとるときに存在するとした。単一の時間周波数点に複数の音源が存在した場合、そのような点ではW-DOが満たされていない。
図6によると、従来の単一ビームフォーマであるMVDRは一つの干渉音源しか抑圧できないが、一方で人工雑音は生成しにくい。従って、SARのみ高い数値を示し、これまでの結果と一致する。残響時間が120msの時、多くの時間周波数点でW-DOが満たされる。そのため、DUETは高い音声強調性能を達成している。しかし、残響時間が長い場合、混合信号はW-DOを満たしにくくなる。DUETの音声強調性能は、従って、大きく低下する。一方で、本実施形態の手法は、非常に長い780msという残響環境においても高い音声強調を保持している。従って、本実施形態の手法は残響環境においても有効であると言える。
本実施形態の手法と残響時間の関係に着目すると、残響が長くなるに連れて、本実施形態の手法の音声強調性能が少しずつ低下していく。しかし、一般に残響が長いほど音声強調は困難になることから、その低下は十分に少ないと言える。従って、本実施形態の手法は残響に対してロバストであると言える。残響時間が310msの場合、約20%の時間周波数点において、二つの音源が同時に存在した。このような時間周波数点は、DUETなどの時間周波数マスキングに基づく音声強調では、原理的に音声強調が行えない。一方で本実施形態の手法は、2チャネルのマイクロフォンアレイが利用可能な時、二つの音源が同時に存在する場合にも音声強調が可能である。ただし、二つの音源が共に干渉音の場合には、時間周波数マスキングによる後段の処理が必要である。310msの場合に比べ、780msではさらに多くの時間周波数点において、複数の音源が存在していた。同時に存在する音源が二つの場合は先述の通りである。音源が3以上の場合、本実施形態の手法は全ての干渉音源nを同時に抑圧することはできないが、少なくとも1つの干渉音源nはビームフォーマにより抑圧することができる。従って、本実施形態の手法は一定の音声強調性能を保証する。その一方で、時間周波数マスキングは、そのような時間周波数点においては、全ての音源を抑圧するか、全く抑圧しないかのどちらかである。
本実施形態では、TFSビームフォーマの更なる発展を説明する。上述したTFSビームフォーマは、複数のビームフォーマを事前構成するため、事前情報として、目的音源区間と各干渉音源区間が必要であった。しかし、実環境においてそれら全ての事前情報は通常得られない。そこで、本実施形態では、TFSビームフォーマを同時最適化問題として再定式化し、事前情報として目的音源sの伝達関数のみを必要とする手法へと拡張する。
TFSビームフォーマは、その利点の一つとして、任意のヌルビームフォーマを用いて空間フィルタw(ω)を構成できるという特徴を持つ。従って、MaxSNRビームフォーマなどの適応ビームフォーマの他、固定ビームフォーマを用いることも可能であり、高い拡張性があった。しかし、存在する干渉音源nそれぞれを抑圧するビームフォーマの構成のため、目的音源sの他に、それぞれのビームフォーマが抑圧したい干渉音源nの事前情報を必要とした。すなわち、K個の干渉音源nが存在する場合には、k番目の干渉音源(k=1、…、K)を抑圧するビームフォーマkの構成のために、目的音源sと干渉音源nkの事前情報が必要であった。ところが、実環境においてそのような事前情報が得られるという状況は考えにくく、本実施形態の手法の実用性を著しく損なってしまう。
そこで本実施形態では、TFSビームフォーマで用いるビームフォーマをMVDRビームフォーマに限定し、再定式化することで、上記の問題点を解決する。すでに多くの製品で実用化されているMVDRビームフォーマは、目的音源sの伝達関数のみを事前情報として必要とする。従って、本実施形態の手法が必要とする事前情報を、同様に目的音源sの伝達関数のみに限ることができれば、十分実用的であると言える。
i番目のマイクロフォンにおける観測信号のSTFT表現をxi(ω,t)とする。Mnチャネルのマイクロフォンアレイを用いて、1個の目的音とN-1個の干渉音源nを観測する時(すなわち、Mn=Nであり、決定系である)、従来のMVDRビームフォーマを用いて音声強調が行える。音声強調は、以下の方程式により、干渉音源nのDOAに対してヌルを形成することで行われる。
簡単のため、以下ではステレオマイクロフォンの利用を考える(すなわちMn=2)。TFSビームフォーマは、1個の目的音源sとN-1個の干渉音源nからなるN音源に対して、K個の空間フィルタ(K=N-1)の組み合わせによって音声強調を行う。従って、TFSに基づくMVDRビームフォーマの最適化問題は、以下のように定式化される。
wkを固定すると、mkに関するコスト関数は
次に、mkを固定すると、wkに関するコスト関数は式(36)に一致する。
mk(ω,t)=1を満たす時間周波数点は、wk(ω)を構成する時に使用される。この時間周波数点の集合は、干渉音源nkが全ての干渉音源nの中で最も支配的な時間周波数点のクラスタとみなすことができる。干渉音源n間のW-DOを仮定することで、このクラスタは、干渉音源nk(及び目的音源s)のみが存在する時間周波数点のクラスタであると言い換えることができる。そのような時間周波数点に着目したビームフォーミングは、従って、決定系における音声強調であり、従来のMVDRビームフォーマによって解くことができる。このように、TFSに基づくMVDRビームフォーマは、最も支配的な干渉音源nのクラスタリングとMVDRビームフォーマの構成、という二つのステップにより音声強調を行っていると解釈することができる。
本実施形態の手法の有効性を確認するため、RIR generatorを用いたシミュレーションにより、インパルス応答を生成し、評価実験を行った。実験条件を次表に示す。
本実施形態の手法には事前情報として目的音源sの伝達関数を与えた。また、空間フィルタwk(ω)の初期化は、固定ビームフォーマであるヌルビームフォーマを利用した。ここで、ヌルビームフォーマは目的音源sのDOAを除くランダムな方向にヌルを形成した。ヌルを形成する方向は、少なくとも20°は離れるように制約した。実験では、5種類のランダム初期値に対して音声強調を行い、その平均を結果として示す。また、mkとwkは、それぞれ式(38)と式(40)とを用いて10回ずつ更新した。
本実施形態の手法の有効性を確認するため、6種類の干渉音源nA~nFを用意した。各干渉音源nのDOAは、それぞれ20°、40°、60°、110°、130°、150°である。干渉音源nの組み合わせとして、nA~nCから一つ、nD~nFから一つ選択し、計9通りの組み合わせに対して実験を行った。更に、干渉音源の組み合わせnAnCnE、nBnDnF、nCnDnEに対しても実験を行った。目的音源sとしては、日本語男性/女性、英語男性/女性の4種類の音声を使用し、そのDOAは90°とした。目的音と各干渉音のSNRは0dBに設定した。従って観測信号に含まれる目的音と干渉音のSNRは負の値をとる。評価尺度は、SDR、SIRを用いて、その改善量を示す。実験結果は、目的音声及び空間フィルタのランダム初期化に関して、平均値を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。
各干渉音源nの組み合わせに対するSDR及びSIRの改善量を示す。次表には、音源数N=3の場合の結果を示す。
時間周波数平面において、選択されたビームフォーマは頻繁に切り替わる。しかし、TFS-MVDRは基本的に最適化問題(式(35))における線形拘束条件を満たす。従って、ビームフォーマの切り替えによる目的音声の歪みは生じない。強調信号y1及びy2の和である最終的な強調信号y(式(42)を参照)について、mk(ω,t)=1となる時間周波数点の集合は、目的音源sの存在によらず、干渉音源nk(それぞれ、k=1、k=2)を含む。Mn=2のとき、干渉音源間のW-DOを仮定すれば、それぞれの集合は目的音源s及び干渉音源nkのみからなる。そのような集合により表される信号に対するビームフォーミングは決定問題であり、目的音声と抑圧された干渉音源nkを含む強調信号ykを出力する。ここで、ykは、mk(ω,t)=1となる時間周波数点の集合を用いて計算されるため、目的音源sの一部のみを保持することに注意されたい。更に、yk及びそれ以外の強調信号yk′は、完全に異なる時間周波数点において、目的音源成分を持つ。ykの和である強調信号yは、従って両方の干渉音を抑圧し、かつ、目的音源sは完全に復元される。
本実施形態においては、時不変な空間フィルタw(ω)を用いていたが、適応ビームフォーマであるMVDRビームフォーマは、時変な空間フィルタw(ω,t)を構成することができる。従って、本実施形態の手法も同様に時変な空間フィルタwk(ω,t)を構成することができる。
次に、上述した新たな劣決定音声強調手法を実現するための音情報処理装置10の機能構成について説明する。
音情報処理装置10は、時間周波数変換部110と、信号取得部120と、ビームフォーミング演算部130と、統計演算部140と、判定部150と、マスキング演算部160と、波形変換部170と、特性更新部180と、音源方向情報記憶部190とを備える。
本実施形態の一例では、収音部M1及び収音部M2の2つの収音部Mがある。この場合、時間周波数変換部110は、収音部M1が収音した音信号SI1を時間周波数変換して時間周波数信号TF1を生成する。また、時間周波数変換部110は、収音部M2が収音した音信号SI2を時間周波数変換して時間周波数信号TF2を生成する。
ビームフォーミング演算部130は、目的音源方向情報Dsに加え、音信号SIに含まれるノイズ音源の収音部Mに対する方向を示すノイズ音源方向情報Dnにさらに基づく空間フィルタを用いて、ビームフォーミング信号BFSを生成してもよい。
このように構成された音情報処理装置10によれば、雑音抑圧性能をより向上させることができる。
(ステップS01)ビームフォーミング演算部130は、現状の空間フィルタ(w1(ω)、w2(ω))によってビームフォーミング信号BFSを生成する。
(ステップS02)統計演算部140は、ステップS01において生成されたビームフォーミング信号BFSに基づいて、統計演算結果信号SSを生成する。これにより、k番目の干渉音信号に基づく、干渉音源nのクラスタリング結果が得られる。このクラスタリング結果をビームフォーママスクと呼ぶ。
(ステップS03)特性更新部180は、予め取得されている目的音源方向情報Dsと、ステップS02において得られたクラスタリング結果とに基づいて、空間フィルタ(w1(ω)、w2(ω))の特性を更新する。
ビームフォーミング演算部130と、統計演算部140と、特性更新部180とは、上述したステップS01~ステップS03を繰り返し実行することにより、雑音抑圧性能がより高い空間フィルタを生成する。
マスキング演算部160は、判定部150による判定結果に基づいて、統計演算部140が出力する統計演算結果信号SSに対するマスキング演算を行い、マスキング演算結果信号MS(マスキング演算後の信号)を波形変換部170に出力する。
この場合、波形変換部170は、統計演算部140が出力する統計演算結果信号SSに代えて、マスキング演算部160が出力するマスキング演算結果信号MSを波形変換対象の信号にして、音信号に変換する。
図9は、本実施形態の音情報処理装置10の動作の流れの一例を示す図である。
(ステップS10)時間周波数変換部110は、複数の収音部Mから音信号SIをそれぞれ取得する。
(ステップS20)時間周波数変換部110は、取得した音信号SIをフーリエ変換(例えば、短時間フーリエ変換)することにより、音信号SIが時間周波数変換された信号、すなわち時間周波数信号TFを生成する。時間周波数変換部110は、生成した時間周波数信号TFを信号取得部120に出力する。
(ステップS30)信号取得部120は、時間周波数変換部110が生成した時間周波数信号TFを取得し、ビームフォーミング演算部130に出力する。
(ステップS40)
ビームフォーミング演算部130は、信号取得部120から時間周波数信号TFを取得する。また、ビームフォーミング演算部130は、音源方向情報記憶部190から目的音源方向情報Dsを取得する。ビームフォーミング演算部130は、取得した時間周波数信号TFと、目的音源方向情報Dsとに基づく空間フィルタを用いて、ビームフォーミング信号BFSを生成する。ビームフォーミング演算部130は、生成したビームフォーミング信号BFSを、統計演算部140に出力する。
(1)統計演算とは、ビームフォーミング演算部130が出力する複数のビームフォーミング信号BFSのうち、強度が相対的に弱いビームフォーミング信号BFSを選択することである。この場合、統計演算部140は、統計演算によって選択したビームフォーミング信号BFSを統計演算結果信号SSとして出力する。
(2)統計演算とは、ビームフォーミング演算部130が出力する複数のビームフォーミング信号BFSをそれぞれ所定の重みによって重みづけして互いに積算することである。この場合、統計演算部140は、統計演算により、積算したビームフォーミング信号BFSを統計演算結果信号SSとして出力する。
例えば、図3に示す表の7行目のように、時間周波数信号TFに目的音源s由来の音が含まれていない場合には、ビームフォーミング信号BFS1及びビームフォーミング信号BFS2を統計演算したとしても、統計演算結果信号SS2には、干渉音源n1又は干渉音源n2のいずれかの雑音成分が残ってしまう。
判定部150は、統計演算結果信号SSに含まれる音情報が目的音源s由来でないと判定した場合(つまり、統計演算結果信号SSが、統計演算結果信号SS2であると判定した場合)には、マスキング演算部160に対して、統計演算結果信号SSのマスキング演算を指示する。マスキング演算部160は、判定部150からマスキング演算を指示されると、当該統計演算結果信号SSをマスキングする。この結果、マスキング演算部160は、統計演算結果信号SS1に基づくマスキング演算結果信号MSを出力し、統計演算結果信号SS2にもとづくマスキング演算結果信号MSを出力しない。つまり、マスキング演算部160は、目的音源s由来でない統計演算結果信号SSをマスキングする。このように構成された音情報処理装置10によれば、雑音抑圧性能をより向上させることができる。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
Claims (7)
- 複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得部と、
前記信号取得部が取得する複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタを用いて、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算部と、
前記ビームフォーミング演算部が生成する複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算部と、
前記統計演算部が出力する前記演算結果信号を音波形信号に変換する波形変換部と、
を備える音情報処理装置。 - 前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号のうち、強度が相対的に弱い前記ビームフォーミング信号を選択することであり、
前記統計演算部は、
前記統計演算によって選択した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項1に記載の音情報処理装置。 - 前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号をそれぞれ所定の重みによって重みづけして互いに積算することであり、
前記統計演算部は、
前記統計演算により、積算した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項1に記載の音情報処理装置。 - 前記ビームフォーミング演算部は、
前記音信号に含まれるノイズ音源の前記収音部に対する方向を示すノイズ音源方向情報にさらに基づく空間フィルタを用いて、前記ビームフォーミング信号を生成する
請求項1から請求項3のいずれか一項に記載の音情報処理装置。 - 前記目的音源方向情報と、前記演算結果信号とに基づいて、前記ビームフォーミング演算部が変換に用いる空間フィルタの特性を更新する特性更新部
をさらに備える請求項1から請求項4のいずれか一項に記載の音情報処理装置。 - 前記目的音源方向情報に基づいて、前記統計演算部が出力する前記演算結果信号に含まれる音情報が前記目的音源由来であるか否かを判定する判定部と、
前記判定部による判定結果に基づいて、前記統計演算部が出力する前記演算結果信号に対するマスキング演算を行い、マスキング演算後の信号を前記波形変換部に出力するマスキング演算部と、
をさらに備え、
前記波形変換部は、
前記統計演算部が出力する前記演算結果信号に代えて、前記マスキング演算部が出力する前記マスキング演算後の信号を音波形信号に変換する
請求項1から請求項5のいずれか一項に記載の音情報処理装置。 - コンピュータに、
複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得ステップと、
前記信号取得ステップにおいて取得される複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタによって、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算ステップと、
前記ビームフォーミング演算ステップにおいて生成される複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算ステップと、
前記統計演算ステップにおいて出力される前記演算結果信号を音波形信号に変換する波形変換ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033034A JP7182168B2 (ja) | 2019-02-26 | 2019-02-26 | 音情報処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033034A JP7182168B2 (ja) | 2019-02-26 | 2019-02-26 | 音情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020141160A JP2020141160A (ja) | 2020-09-03 |
JP7182168B2 true JP7182168B2 (ja) | 2022-12-02 |
Family
ID=72280604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019033034A Active JP7182168B2 (ja) | 2019-02-26 | 2019-02-26 | 音情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7182168B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114245266B (zh) * | 2021-12-15 | 2022-12-23 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047699A (ja) | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2007151103A (ja) | 2005-11-02 | 2007-06-14 | Yamaha Corp | 遠隔会議装置 |
JP2011123370A (ja) | 2009-12-11 | 2011-06-23 | Oki Electric Industry Co Ltd | 音源分離装置、プログラム及び方法 |
JP2018128500A (ja) | 2017-02-06 | 2018-08-16 | 日本電信電話株式会社 | 形成装置、形成方法および形成プログラム |
US20180374495A1 (en) | 2017-06-27 | 2018-12-27 | Motorola Solutions, Inc. | Beam selection for body worn devices |
-
2019
- 2019-02-26 JP JP2019033034A patent/JP7182168B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047699A (ja) | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2007151103A (ja) | 2005-11-02 | 2007-06-14 | Yamaha Corp | 遠隔会議装置 |
JP2011123370A (ja) | 2009-12-11 | 2011-06-23 | Oki Electric Industry Co Ltd | 音源分離装置、プログラム及び方法 |
JP2018128500A (ja) | 2017-02-06 | 2018-08-16 | 日本電信電話株式会社 | 形成装置、形成方法および形成プログラム |
US20180374495A1 (en) | 2017-06-27 | 2018-12-27 | Motorola Solutions, Inc. | Beam selection for body worn devices |
Also Published As
Publication number | Publication date |
---|---|
JP2020141160A (ja) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing | |
CN106710601B (zh) | 一种语音信号降噪拾音处理方法和装置及冰箱 | |
US10123113B2 (en) | Selective audio source enhancement | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
Pedersen et al. | Two-microphone separation of speech mixtures | |
RU2641319C2 (ru) | Фильтр и способ для информированной пространственной фильтрации, используя многочисленные мгновенные оценки направления прибытия | |
RU2559520C2 (ru) | Устройство и способ для пространственно избирательного получения звука с помощью акустической триангуляции | |
JP5091948B2 (ja) | ブラインド信号抽出 | |
CN111415676A (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN105981404A (zh) | 使用麦克风阵列的混响声的提取 | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
CN110907893B (zh) | 一种适用于球麦克风阵列的超分辨声源定位方法 | |
Fingscheidt et al. | Environment-optimized speech enhancement | |
Ito et al. | Designing the Wiener post-filter for diffuse noise suppression using imaginary parts of inter-channel cross-spectra | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Zhao et al. | Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reduction | |
Beit-On et al. | Speaker localization using the direct-path dominance test for arbitrary arrays | |
JP7182168B2 (ja) | 音情報処理装置及びプログラム | |
Neo et al. | Signal compaction using polynomial EVD for spherical array processing with applications | |
Asaei et al. | Binary sparse coding of convolutive mixtures for sound localization and separation via spatialization | |
KR101243897B1 (ko) | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 | |
Dwivedi et al. | Joint doa estimation in spherical harmonics domain using low complexity cnn | |
JP2019054344A (ja) | フィルタ係数算出装置、収音装置、その方法、及びプログラム | |
Neo et al. | Fixed beamformer design using polynomial eigenvalue decomposition | |
Yamaoka et al. | Time-frequency-bin-wise beamformer selection and masking for speech enhancement in underdetermined noisy scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7182168 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |