JP7182168B2

JP7182168B2 - 音情報処理装置及びプログラム

Info

Publication number: JP7182168B2
Application number: JP2019033034A
Authority: JP
Inventors: 昭二牧野; 洸瑛山岡; 武志山田; 順貴小野
Original assignee: University of Tsukuba NUC; Tokyo Metropolitan Public University Corp
Current assignee: University of Tsukuba NUC; Tokyo Metropolitan Public University Corp
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-12-02
Anticipated expiration: 2039-02-26
Also published as: JP2020141160A

Description

特許法第３０条第２項適用 ▲１▼開催日：平成３０年３月１５日集会名、開催場所：日本音響学会２０１８年春季研究発表会、日本工業大学宮代キャンパス（埼玉県南埼玉郡宮代町学園台４－１） ▲２▼発行日：平成３０年２月２７日刊行物：日本音響学会２０１８年春季研究発表会講演論文集、第４７５頁～第４７８頁、一般社団法人日本音響学会 ▲３▼開催日：平成３０年９月１２日集会名、開催場所：日本音響学会２０１８年秋季研究発表会、大分大学旦野原キャンパス（大分県大分市大字旦野原７００番地） ▲４▼発行日：平成３０年８月２９日刊行物：日本音響学会２０１８年秋季研究発表会講演論文集、第４０７頁～第４１０頁、一般社団法人日本音響学会 ▲５▼開催日：平成３０年９月３日集会名、開催場所：ＥＵＳＩＰＣＯ２０１８（主催：ＴｈｅＥｕｒｏｐｅａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）（ＣｅｎｔｒｏＣｏｎｇｒｅｓｓｉｄｉＣｏｎｆｉｎｄｕｓｔｒｉａ－ＡｕｄｉｔｏｒｉｕｍｄｅｌｌａＴｅｎｃｉｃａ，ＶｉａｌｅＵｍｂｅｒｔｏＴｕｐｉｎｉ，６５，００１４４，Ｒｏｍｅ，Ｉｔａｌｙ） ▲６▼発行日：平成３０年９月３日刊行物：ＥＵＳＩＰＣＯ２０１８予稿集、第１５９６頁～第１６００頁、ＴｈｅＥｕｒｏｐｅａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＥＵＲＡＳＩＰ）

本発明は、音情報処理装置及びプログラムに関する。

従来、複数のマイクロフォンが収音した音信号に基づいて、目的音と雑音（干渉音）とを分離することにより、雑音抑制を行う技術が開示されている（例えば、特許文献１を参照）。

再公表ＷＯ２０１４／０２４２４８号公報

しかしながら、上述した従来技術によると、例えば、雑音源が複数ある場合など、目的音と雑音との分離が困難となる場合があり、この場合には、雑音抑制の性能が低下してしまうという課題があった。

本発明の一実施形態は、複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得部と、前記信号取得部が取得する複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタを用いて、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算部と、前記ビームフォーミング演算部が生成する複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算部と、前記統計演算部が出力する前記演算結果信号を音波形信号に変換する波形変換部とを備える音情報処理装置である。

本発明の一実施形態は、上述の音情報処理装置において、前記統計演算とは、前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号のうち、強度が相対的に弱い前記ビームフォーミング信号を選択することであり、前記統計演算部は、前記統計演算によって選択した前記ビームフォーミング信号を前記演算結果信号として出力する。

本発明の一実施形態は、上述の音情報処理装置において、前記統計演算とは、前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号をそれぞれ所定の重みによって重みづけして互いに積算することであり、前記統計演算部は、前記統計演算により、積算した前記ビームフォーミング信号を前記演算結果信号として出力する。

本発明の一実施形態は、上述の音情報処理装置において、前記ビームフォーミング演算部は、前記音信号に含まれるノイズ音源の前記収音部に対する方向を示すノイズ音源方向情報にさらに基づく空間フィルタを用いて、前記ビームフォーミング信号を生成する。

本発明の一実施形態は、上述の音情報処理装置は、前記目的音源方向情報と、前記演算結果信号とに基づいて、前記ビームフォーミング演算部が変換に用いる空間フィルタの特性を更新する特性更新部をさらに備える。

本発明の一実施形態は、上述の音情報処理装置は、前記目的音源方向情報に基づいて、前記統計演算部が出力する前記演算結果信号に含まれる音情報が前記目的音源由来であるか否かを判定する判定部と、前記判定部による判定結果に基づいて、前記統計演算部が出力する前記演算結果信号に対するマスキング演算を行い、マスキング演算後の信号を前記波形変換部に出力するマスキング演算部とをさらに備え、前記波形変換部は、前記統計演算部が出力する前記演算結果信号に代えて、前記マスキング演算部が出力する前記マスキング演算後の信号を音波形信号に変換する。

本発明の一実施形態は、コンピュータに、複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得ステップと、前記信号取得ステップにおいて取得される複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタによって、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算ステップと、前記ビームフォーミング演算ステップにおいて生成される複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算ステップと、前記統計演算ステップにおいて出力される前記演算結果信号を音波形信号に変換する波形変換ステップと、を実行させるためのプログラムである。

本発明によれば、雑音抑圧性能を向上させることができる音情報処理装置及びプログラムを提供することができる。

本実施形態の目的音源と干渉音源と収音部との配置とビームフォーミングによる空間フィルタの一例を示す図である。本実施形態の空間フィルタの一例を示す図である。本実施形態の空間フィルタの組合せ結果の一例を示す図である。本実施形態の実環境実験の結果の一例を示す図である。本実施形態の実環境実験の結果の他の一例を示す図である。本実施形態のシミュレーションの結果の一例を示す図である。本実施形態の音情報処理装置の機能構成の一例を示す図である。本実施形態の空間フィルタの特性を更新動作の流れの一例を示す図である。本実施形態の音情報処理装置の動作の流れの一例を示す図である。

［概要］
十分な数の収音部Ｍ（例えば、マイクロフォン）が使用できる時、ビームフォーミングは効果的な音声強調を達成する。音声強調を事前に適用することで音声認識性能が向上することが報告されており、そういった音声アプリケーションの前処理として音声強調は重要なタスクである。ところが、マイクロフォンアレイに基づく音声強調性能はマイクロフォンの数Ｍｎに依存する。一般に１個の目的音源ｓとＮ－１個の干渉音源ｎとが存在する時、音源数Ｎと同数以上のマイクロフォンが必要となる。一方で近年普及しているＩＣレコーダなどの小型機器は高々２個のマイクロフォンを持つことが多く、そういった小型機器でも効果的に音声強調を達成する手法の開発が求められている。従来の時間周波数マスキングやマルチチャネルＷｉｅｎｅｒフィルタ、潜在変数を用いた観測信号の統計的モデリング、非負値行列因子分解などの手法は劣決定条件下（すなわち、Ｍｎ＜Ｎ）においても音声強調が可能である。しかし、これらの手法はミュージカルノイズのような人工ノイズを生じさせやすく、後段のアプリケーションに好ましくない。また、時間周波数点毎にただ１つの音源のみが存在するというＷ－Ｄｉｓｊｏｉｎｔｏｒｔｈｏｇｏｎａｌｉｔｙ（Ｗ－ＤＯ）を仮定する時間周波数マスキングは、原理的に、複数の音源が同時に存在する時間周波数点を抑圧することはできない。そこで、本実施形態では、より高性能な音声強調を目指し、劣決定問題であっても、目的音声を歪ませずに高い雑音抑圧性能を達成する、新たな音声強調手法の開発について説明する。

図１は、本実施形態の目的音源ｓと干渉音源ｎと収音部Ｍとの配置とビームフォーミングによる空間フィルタの一例を示す図である。本実施形態では、時間周波数マスキング及び線形信号処理の拡張として、複数のビームフォーマを組み合わせる新たな非線形音声強調手法を説明する。一般に、Ｎ個の音源と２個のマイクロフォンが存在する（すなわち、Ｍｎ＝２である）時、従来の線形ビームフォーマはただ１つの干渉音源ｎのみを抑圧し、残りの干渉音源ｎは抑圧されない。ただし、干渉音源ｎとは、ある方向から到来する雑音の点音源をいう。しかし、Ｎ－１個の干渉音源ｎのそれぞれを抑圧するようなＮ－１個のビームフォーマが構成できれば、それらのビームフォーマを組み合わせることで音声強調性能を向上させることができる。

本実施形態では、劣決定音声強調を目的とし、同一の目的音源ｓを強調し、互いに異なる干渉音源ｎを抑圧する複数のビームフォーマを組み合わせる。
従来、正方形マイクロフォンアレイを用いた複数の固定ビームフォーマの周波数方向の組み合わせとＷｉｅｎｅｒフィルタによる音声強調手法が提案されているが、この手法は、目的音声に歪みを生じやすいことが問題点として知られている。また、ロボットの機械の駆動音（モータなど）の抑圧を目的とし、時間周波数点毎に最適な雑音共分散行列をクラスタリングにより選択し、ビームフォーミングを行う手法が提案されている。この手法は、ロボットの駆動音の種類が限られているという仮定のもと、事前に雑音をクラスタリングする必要があり、音声強調への適用は難しい。一方、本研究では劣決定条件下における音声強調のために、複数の適応ビームフォーマを組み合わせる。更に、目的音声の歪みを可能な限り排除することで、後段の音声アプリケーションにとって有利な信号処理である。

本実施形態では複数ビームフォーマの組み合わせ方法として、
（１）複数ビームフォーマ出力の積の累乗根をとる複素値相乗平均（ｃｏｍｐｌｅｘ－ｖａｌｕｅｄｇｅｏｍｅｔｒｉｃｍｅａｎ；ＣＧＭ）と、
（２）出力の最小絶対値をとる最小値選択（ｍｉｎｉｍｕｍｖａｌｕｅｓｅｌｅｃｔｉｏｎ；ＭＩＮ）と
の２つの方法を示す。ＣＧＭは、観測信号がＷ－ＤＯを満たす場合、すなわち単一の時間周波数点においては、ただ１つの音源のみが存在する場合に干渉音源ｎを抑圧することができる。ＭＩＮは、上記に加え、単一の時間周波数点に１つの目的音源ｓと１つの干渉音源ｎが存在する場合にも干渉音源ｎを抑圧することができる。ＭＩＮによる複数ビームフォーマの組み合わせを、時間周波数スイッチング（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ－ｂｉｎ－ｗｉｓｅｓｗｉｔｃｈｉｎｇ；ＴＦＳ）ビームフォーマと呼ぶ。
なお、複数の固定ヌルビームフォーマの最小値選択による雑音抑圧は、従来から提案されているが、本実施形態では、ＭａｘＳＮＲ（ｍａｘｉｍｕｍｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）ビームフォーマやＭＶＤＲ（ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）ビームフォーマなどの適応ビームフォーマを複数組み合わせ、最小値選択を行う。

［線形ビームフォーマ］
従来の音声強調手法の多くと同様に、本手法もマイクロフォン観測をＳＴＦＴにより時間周波数領域に変換し信号処理を行う。ここで、ｘ_ｉ（ω，ｔ）を周波数ω、ｔ番目の時間フレームにおけるｉ番目のマイクロフォン観測とする。
簡単のため２マイクの場合（すなわち、Ｍｎ＝２の場合）を考えると、線形ビームフォーマは一般に以下の式（１）～式（３）で与えられる。

ここでｙ（ω，ｔ）はビームフォーマの出力であり、ｗ（ω）は構成された空間フィルタである。ｗ（ω）の設計にはＭａｘＳＮＲビームフォーマやＭＶＤＲビームフォーマ、線形拘束付最小分散（ｌｉｎｅａｒｌｙｃｏｎｓｔｒａｉｎｅｄｍｉｎｉｍｕｍｖａｒｉａｎｃｅ；ＬＣＭＶ）ビームフォーマなどを利用できる。しかし、一般にＭｎ個のマイクロフォンではＭｎ－１個の干渉音源ｎのみ抑圧が可能であり、線形音声強調は、音源数よりもマイクロフォンの数が少ない場合には（劣決定条件）、十分な音声強調性能を得ることができない。

［複数ビームフォーマの組み合わせによる音声強調］
簡単のため、目的音源ｓと、干渉音源ｎ_１と、干渉音源ｎ_２とからなる３音源を２つのマイクロフォン（収音部Ｍ１及び収音部Ｍ２）で抑圧することを考える。この状況下では、２つの干渉音源ｎを同時に抑圧する空間フィルタは構成できない。ここで、もし目的音源ｓと干渉音源ｎ_１のみが観測されたならば、干渉音源ｎ_１のみを抑圧するビームフォーマ１を従来のビームフォーマの構成法を用いて構成することができる。同様に干渉音源ｎ_２のみを抑圧するビームフォーマ２も構成することができる。これらのビームフォーマを用いることで、３音源からなる観測信号ｘ（ω，ｔ）を用いて以下の２出力ｙ_１（ω，ｔ）、ｙ_２（ω，ｔ）を得る。

図２は、本実施形態の空間フィルタの一例を示す図である。
図３は、本実施形態の空間フィルタの組合せ結果の一例を示す図である。
ここでｗ_１（ω）、ｗ_２（ω）はそれぞれビームフォーマ１、２の空間フィルタである。ｘ、ｙ_１、ｙ_２における支配的な音源を図３の第１～第３列に示した。ｘの全ての時間周波数点において、支配的な音源は１列目に示した７パターンとなる。ここで音源が存在しないケースは自明であるため考慮しない。ｙ_１及びｙ_２の列に着目すれば、目的音源ｓのみが支配的である場合、２つのビームフォーマは共に目的音（すなわち、目的音源ｓの音）を出力する（図３；２行目参照）。干渉音源ｎ_１のみが支配的な場合、ビームフォーマ１は抑圧された信号を出力するが、ビームフォーマ２は干渉音源ｎ_１に対する制約を持たないため、何らかの影響が及ぼされた干渉音１（すなわち、干渉音源ｎ_１の音）を出力する。目的音源ｓと干渉音源ｎ_１が支配的な場合、ビームフォーマ１は目的音を出力するが、ビームフォーマ２は両方を出力する。
本実施形態の手法では、ｙ_１とｙ_２の両方を組み合わせることで音声強調を行う。ここで重要な問題は、これらのビームフォーマをどのように組み合わせるか、である。Ｗ－ＤＯの仮定下において、各時間周波数で支配的な音は目的音源ｓ、干渉音源ｎ_１、ｎ_２のいずれかである。組み合わせ方法の要件は、
１）目的音源ｓのみが支配的な場合、組み合わせも目的音を劣化なく出力
２）干渉音源ｎ_１もしくはｎ_２が支配的な場合、それぞれの干渉音源ｎを抑圧しなければならない
という２点である。本実施形態では、ＣＧＭとＭＩＮとの２つの方法を、上記要件を満たす手法として示す。

［複素値相乗平均によるビームフォーマの組み合わせ］
干渉音源ｎ_１、ｎ_２が到来した時、ビームフォーマ１（又は２）の出力が０もしくはごく小さな値であれば、ＣＧＭの以下の式は組み合わせ方法の要件を満たす。

上式は複素値をもつ複数ビームフォーマ出力の相乗平均を計算する。ただし、複素数の平方根は一般に２個あるが、ここではｙ_１（ω，ｔ）、ｙ_２（ω，ｔ）の位相に近い値、すわなち

が小さくなる位相の根を用いる。なお、一般には、Ｋ個の干渉音源が存在した場合、それぞれを抑圧するＫ個の空間フィルタであるｗ_ｋ（ω）（ｋ＝１、…、Ｋ）を用いて、

となる。
目的音源ｓのみが支配的であれば、出力は目的音と目的音との相乗平均であるから、目的音そのものとなる。干渉音源ｎ_１のみが支配的な時間周波数点では、０もしくはごく小さな値と干渉音源ｎ_１との積を計算することになるため、その出力も０に近い値になる、すなわち抑圧されることが期待される。干渉音源ｎ_２に対しても同様に考えられるため、複素値相乗平均では、両方の干渉音源が抑圧されることが期待できる。
しかし、目的音源ｓと干渉音源ｎ_１が同時に支配的な時間周波数点においては、目的音源ｓと、目的音源ｓと干渉音源ｎ_１との積とが計算されるため抑圧されない。従って本手法は、従来の時間周波数マスキングなどと同様に、Ｗ－ＤＯが成り立つ時間周波数点のみ抑圧することができる。性能面での従来法との違いは、ビームフォーマを用いているため歪みが少なくなると期待されることである。

［時間周波数スイッチングビームフォーマ：最小値選択によるビームフォーマの組み合わせ］
干渉音源ｎ_１（又はｎ_２）が到来した時、ビームフォーマ１（又は２）の出力はビームフォーマ１（又は２）よりも小さくなる。従って以下の式は組み合わせの要件を満たす。

式（１０）のように最小値選択では振幅が小さい出力を選択する。ここで目的音源ｓの振幅が、目的音源ｓと１つの干渉音源ｎからなる信号の振幅よりも小さいと仮定する。これは、音源の統計的独立性により、有効な仮定であると考えられる。この仮定により、目的音源ｓと１つの干渉音源ｎからなる時間周波数点においても干渉音源ｎを抑圧することができると期待される（図３の５～６行目を参照）。しかし、干渉音源ｎ_１、ｎ_２が同時に存在する時間周波数点では、出力として干渉音２もしくは１のどちらかが必ず選択される（図３の７行目を参照）。その出力は干渉音源ｎ_１、ｎ_２の混合よりも小さくなるが、片方の音源は依然として抑圧されない。
なお、一般には、

となる。ただし、（ｋ′＝１、…、Ｋ）かつ（ｋ′≠ｋ）である。
ＭＩＮによる複数ビームフォーマの組み合わせと時間周波数マスキングとには似た点がある。時間周波数マスキングは、各時間周波数点の信号が目的音源ｓかどうかを決定するマスクを推定する。従って、Ｗ－ＤＯの仮定が必要となる。一方でＭＩＮは、どちらのビームフォーマがより良く干渉音源を抑圧するかを選択する。従って、ＭＩＮによるビームフォーマの組み合わせでは、目的音源ｓと１つの干渉音源ｎが存在する時間周波数点においても、すなわちＷ－ＤＯが成り立たなくとも抑圧が可能である。以上より、ＭＩＮによる複数ビームフォーマの組み合わせは従来のＷ－ＤＯの仮定を必要とする時間周波数マスキングの拡張であると言える。また、時間周波数点毎にビームフォーマを切り替えていることから、ＭＩＮによる組み合わせを、改めて時間周波数スイッチング（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ－ｂｉｎ－ｗｉｓｅｓｗｉｔｃｈｉｎｇ；ＴＦＳ）ビームフォーマと呼ぶ。

［時間周波数スイッチングビームフォーマの特色］
ＴＦＳビームフォーマはいくつかの利点を有する。
１）まず、従来の時間周波数マスキングが仮定する各音源間のＷ－ＤＯの仮定を必要としない点である。ステレオマイクロフォンを用いたＴＦＳビームフォーマでは、単一の時間周波数点に複数の干渉音源ｎが存在しないことを必要とする。一般に、Ｍｎ個のマイクロフォンが利用可能な場合（ただしＭｎ＜Ｎ）、単一の時間周波数点には（Ｍｎ－１）個の干渉音源ｎが同時に存在できる。これは、従来のＷ－ＤＯの仮定を緩和するものである。なお、本手法はビームフォーマを用いるため、目的音声の存在は全ての時間周波数点で許容される。従って、各時間周波数点には、最大で目的音声と（Ｍｎ－１）個の干渉音源ｎが同時に存在できる。
２）次に、空間フィルタｗ（ω）の構成には、任意の従来のヌルビームフォーマを利用することが可能な点である。本実施形態ではＭａｘＳＮＲビームフォーマとＭＶＤＲビームフォーマを用いるが、その他にもＭＶＤＲビームフォーマの一般化であるＬＣＭＶビームフォーマなども利用可能である。
３）更に、適切なビームフォーマを用いた場合、目的音源ｓには理論的に歪みが生じない。この特色は、音声認識などのアプリケーションの前段の処理として音声強調を行う場合に極めて重要な利点だと言える。なお、使用するビームフォーマは、複数のビームフォーマの出力信号の振幅と位相が共に一致する場合に、適切であると言える。そのようなビームフォーマの代表例はＭＶＤＲビームフォーマである。

［時間周波数マスキングとの併用による拡張］
最小値選択による音声強調はシンプルな組み合わせ方法でありながら、高い音声強調性能を示す。しかし、複数の雑音が同時に存在する時間周波数点においては、全てを抑圧することができない。もしも、そのような時間周波数点に目的音源ｓが存在しないのであれば、時間周波数マスキング同様に抑圧すべきである。

ここで、Ｍ（ω，ｔ）は時間周波数マスクである。最小値選択の出力に時間周波数マスキングを適用することで、図３の７行目についても抑圧が可能となる。なお、図３の８行目の抑圧には高度なソフトマスクの構成が必要となる。Ｍ（ω，ｔ）の構成のため、本実施形態ではＤＯＡ推定による音源のアクティビティ推定を行った。まず、既存手法を１マイクロフォンペアのみで行う。これにより時間周波数点毎にＤＯＡ推定値が得られる。この推定はＷ－ＤＯの仮定下で有効に働く。次に周波数ビン方向に平均を取る形で、時間フレーム毎の音源のアクティビティ推定を行う。最終的に、Ｗ－ＤＯが十分に成り立っている時間周波数点では時間周波数点毎の、成り立っていない点では時間フレーム毎の音源アクティビティ推定に基づいてマスクの構成を行う。

［音源到来方向推定に基づく時間周波数マスキングの構成］
本実施形態でＤＯＡ推定に用いる手法は、広く知られた手法である。ここで、観測信号の相対的な位相差を表すｒｅｌａｔｉｖｅｐｈａｓｅｒａｔｉｏ（ＲＰＲ）は式（１４）で定義される。

ＲＰＲは、混合ガウス分布（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ；ＧＭＭ）フィッティングによりクラスタリングされる。推定された各複素ガウス分布Ｎ^ｃの平均ｋ（ｋ＝１、…、Ｋ）は、事前に定義された解像度に従うＤＯＡに関連付けられたＲＰＲの推定値となる。ここで、Ｋはクラスタ数を表す。また、解像度は、何度おきにＤＯＡを推定するかを表し、例えば０°～１８０°の間で、１°おきに推定する、などと設定する。各複素ガウス分布Ｎ^ｃの分散σ^２は全てのガウス分布に対して共通とし、性能を低下させることなく、ユーザが定義することができる。

ここで、与えられた観測φ（ω，ｔ）に対して尤度最大となる複素ガウス分布の平均は、時間周波数点毎のＤＯＡの推定値となる。

以降、局所的な、すわなち、時間周波数点毎のＤＯＡをＤＯＡ^Ｌとし、大域的な、すなわち、時間フレーム毎のＤＯＡをＤＯＡ^Ｇとする。ここで、ＤＯＡ^Ｌは各時間周波数点のＤＯＡに関連付けられたＲＰＲであることに注意する。この時ＤＯＡ^Ｌに基づくソフトマスクＭ^Ｌ（ω，ｔ）は、以下で求められる。

ただし、μ_ｋ＝ｔａｒｇｅｔは目的音方向（目的音源方向情報Ｄｓが示す方向、すなわち、収音部Ｍに対する目的音源ｓの方向）に対応するガウシアンの平均である。この時間周波数点毎の推定は、Ｗ－ＤＯが成立している点において有効な推定となる。
次に、ＤＯＡ^Ｌの平均を取ることで、時間フレーム毎の音源アクティビティ推定（ｓｏｕｒｃｅａｃｔｉｖｉｔｙｅｓｔｉｍａｔｉｏｎ；ＳＡＥ）を行う。

ここで、Ｎ_ωは周波数ビンの数である。ここで、η^Ｌ _ｋ（ω，ｔ）は、時間周波数点（ω，ｔ）に存在する音源が、クラスタｋに所属するかどうかを表すブーリアン型の変数である。ＳＡＥ_ｋ（ｔ）は、以下で定義される線形重み付移動平均（ｌｉｎｅａｒｗｅｉｇｈｔｅｄｍｏｖｉｎｇａｖｅｒａｇｅ；ＬＷＭＡ）を適用することでスムージングされる。

ここで、ＴはＬＷＭＡを適用する一定区間のフレーム数である。これを用いて、ＤＯＡ^Ｇ、すなわち、時間フレームに関連付けられたＤＯＡ推定値は、ＳＡＥ推定値に固定閾値（ｔｈｒｅｓｈｏｌｄ）による閾値処理により計算される。

ここでη^Ｇ _ｋ（ｔ）及びソフトマスクＭ（ｔ）^Ｇは、それぞれ局所的な推定値であるη^Ｌ _ｋ（ω，ｔ）及びＭ^Ｌ（ω，ｔ）の大域的な推定値に対応するものである。ＤＯＡ^Ｇは、ＤＯＡ^Ｌの平均を取る形で求められる。そのため、各時間フレームにつき、いくつかの周波数ビンがＷ－ＤＯを満たしていなかったとしても、有効な推定を行うことができる。例えば、ある時間フレームについて、５割（固定閾値に対応）の周波数ビンにおいてある音源（目的音源ｓ）が存在するのであれば、（残りの５割の周波数ビンの推定が誤っていたとしても）当該時間フレームにおいて目的音源ｓは存在すると言える。最終的に、Ｗ－ＤＯが十分に成立している時間周波数点においてはＤＯＡ^Ｌが、それ以外の時間周波数点ではＤＯＡ^Ｇの値がＤＯＡ推定値として採用される。

ここで＜・，・＞は標準内積を意味する。これを用いて、式（１３）のソフトマスクＭ（ω，ｔ）は、

により、構成される。

［評価結果］
本実施形態の手法の有効性を確認するため２種の実環境実験と１種のシミュレーションからなる、３種の評価実験を行った。実環境のデータベースとして、３話者のデータセットを利用した。データセットにはそれぞれ男性３名、女性３名の混合音が含まれており、各話者を目的音源として計６通りの音声強調を行った。シミュレーションでは、ＲＩＲｇｅｎｅｒａｔｏｒにより生成したインパルス応答とクリーン音声との畳込み演算により、各音源を生成した。
実環境実験１として、複数ビームフォーマの組み合わせ方法について、それぞれの性能を検証すると共に、使用するビームフォーマによる性能変化についても検証した。
実環境実験２として、時間周波数を用いたＴＦＳビームフォーマの拡張の有効性について検証した。また、それぞれの実験において、図２の１列目に示す７パターンの音源の組み合わせに対して音声強調実験を行うことで、各区間において、期待する効果が得られているかどうかも検証した。
シミュレーションとして、Ｗ－ＤＯの緩和について、残響環境下における音声強調実験により検証した。

［実環境実験１：複数ビームフォーマの組み合わせ方法及び使用するビームフォーマに関する検討］
実験条件を次表に示す。

実験では、ＭａｘＳＮＲビームフォーマ、ＭＶＤＲビームフォーマを従来のビームフォーマとして利用した。それぞれのビームフォーマの事前情報として、目的音源区間と干渉音源区間を与えた。それぞれのビームフォーマに同一の事前情報を与えることで、条件を揃えている。目的音源区間ではなく、目的音源の伝達関数を必要とするＭＶＤＲビームフォーマにおいては、目的音源区間の空間相関行列に対して固有値分解を行い、最大固有値に対応する固有ベクトルを伝達関数の推定値として用いた。
比較のための従来法として、それぞれのビームフォーマを単体で用いた劣決定音声強調であるＭａｘＳＮＲ＿ＳＯＬ及びＭＶＤＲ＿ＳＯＬ、また、２チャネルの時間周波数マスキングとしてＤＵＥＴを用いた。更に、ヴァーチャルマイクロフォン技術を用いたＭａｘＳＮＲビームフォーマも評価した。この手法では、実マイクロフォンとヴァーチャルマイクロフォンの両方を用いることで、劣決定条件を回避することができる。ヴァーチャルマイクロフォン合成のパラメータとしてα＝０．５、β＝２を用いた。手法として、“ビームフォーマ”＿“ＣＧＭｏｒＭＩＮ”と呼ぶ４種類を評価した。ここで“ビームフォーマ”はＭａｘＳＮＲかＭＶＤＲである（例えばＭａｘＳＮＲ＿ＣＧＭ）。ＣＧＭとＭＩＮ計算のため、それぞれ干渉音源ｎ_１、ｎ_２を抑圧するビームフォーマ１、２を事前に構成した。そのため、目的音源区間と干渉音源ｎ_１、ｎ_２それぞれの区間が必要となる。本手法の有効性の調査のため、図３の１列目に示す７パターンの区間を用意した。ここで、全ての音源は音声であるためスパースである。従って各時間周波数点においては、複数の音源からなる区間であっても常に同時に存在するとは限らない。評価尺度として、ＳＤＲ、ＳＩＲを用いた。実験結果として、データセットに含まれる男性３名、女性３名、それぞれを目的音源とした計６通りの音声強調の結果を評価し、その平均を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。

［実環境実験１：結果と考察］
図４は、本実施形態の実環境実験の結果の一例を示す図である。
ＳＤＲとＳＩＲを図４に示した。従来の単一ビームフォーマでは、周波数ビン毎に干渉音源ｎ_１かｎ_２のどちらか一方のみが抑圧可能であり、十分な音声強調性能が得られていない。従来法であるＤＵＥＴは時間周波数マスクにより音源分離を行うため歪みが生じやすく、ＳＤＲが低くなっている。一方で、雑音はよく抑圧できており、ＳＩＲは高い値となっている。一般に、時間周波数マスキングでは歪みと雑音抑圧性能がトレードオフとなっており、両者を同時に高めることは（Ｗ－ＤＯがどの程度の時間周波数点で成り立っているかにも依存するが）困難である。一方で本実施形態の手法、特にＭＶＤＲ＿ＭＩＮは、ＳＤＲ、ＳＩＲ共に高くなっており、少ない歪みで高い雑音抑圧性能を達成している。
ＣＧＭとＭＩＮのＳＩＲを比べると、常にＭＩＮがＣＧＭを上回っている。これはビームフォーマの指向特性から考察できる。目的音源ｓを強調し、干渉音源ｎ_１のみを抑圧するビームフォーマ１は、干渉音源ｎ_２の方向に対する制約を持たないため、その方向への応答は不明であり、ゲインが多少増加する可能性がある。例えばｙ_１に含まれる干渉音源ｎ_１のゲインが－２５ｄＢ、ｙ_２では５ｄＢである時、ＣＧＭの計算後は約（－２５＋５）／２＝－１０ｄＢとなる。一般に、ある雑音に対して－２０ｄＢ以下の応答を持つ時、ビームフォーマはその雑音を抑圧すると言える。従って、この時ビームフォーマ１は干渉音源ｎ_１を抑圧しているが、ＣＧＭでは抑圧できていない。このように、ＣＧＭでは深いヌルを作ることができない。一方、ＭＩＮでは、このような場合であってもビームフォーマ１を選択することで抑圧が可能である。なお、ＣＧＭの計算時に適した重みを設定することで、性能を向上させることも可能である。
ＭａｘＳＮＲビームフォーマとＭＶＤＲビームフォーマを比べると、ＭＶＤＲビームフォーマが多くの場合に高い性能を示している。特にＳＤＲにおいてはＭＶＤＲ＿ＭＩＮが最高性能を示しており、必ずＭａｘＳＮＲビームフォーマを上回っている。また、興味深いことにＳＩＲでは僅差でＭａｘＳＮＲ＿ＭＩＮが最高性能を示している。これはそれぞれのビームフォーマの性質、及びＭＩＮの性質から考察できる。ＭａｘＳＮＲビームフォーマはＳＮＲを最大化し、目的音源方向に対する制約は持たない。従って干渉音源ｎを良く抑圧しやすく、ＳＩＲが高くなる。しかし一方で、それぞれのビームフォーマ毎にＳＮＲを最大化するため、２つのビームフォーマの出力において目的音の位相及びゲインが異なる可能性がある。これは本手法において無視できない極めて重要な問題である。

ＴＦＳビームフォーマでは時間周波数点毎に２つのビームフォーマが頻繁に切り替わる。これにより、時間周波数点毎に最適なビームフォーマが選択され、音声強調性能を向上させている。しかし、２つのビームフォーマ出力の位相もしくはゲインが異なる場合、時間周波数マスキングのように、ビームフォーマの切り替えによって歪みが生じてしまう。ＭａｘＳＮＲビームフォーマに対し、ＭＶＤＲビームフォーマは目的音源方向に対する制約をもち、２つのビームフォーマ出力の位相とゲインが（制約が満たされている限り）一致する。従って切り替えによる歪みは生じない。これが、ＭＶＤＲ＿ＭＩＮが高いＳＤＲを示す理由である。そして、以上よりＭＩＮにとって、すわなち、ＴＦＳビームフォーマにとって適切なビームフォーマの要件は、複数ビームフォーマの出力信号の位相とゲインが一致すること、となる。

［実環境実験２：ＴＦＳビームフォーマと時間周波数マスキングを用いたその拡張の有効性の検証］
実験条件を次表に示す。

なお、残響時間は、実験１よりも１２０ｍｓ長い２５０ｍｓのデータを使用した。また、サンプリング周波数を１６ｋＨｚにしたことにより、高域においては空間的エイリアシングが生じることに注意する。サンプリング周波数の変更に伴い、ＳＴＦＴにおけるＦＦＴフレーム長及びＦＦＴフレームシフト幅を調整している。その他の実験条件は実験１と同一である。
実験では、ＭＶＤＲビームフォーマがＴＦＳビームフォーマにおける適切なビームフォーマの一つであることから、ＭＶＤＲビームフォーマを従来のビームフォーマとして利用した。ビームフォーマの事前情報は実験１と同様とした。比較のための従来法として、こちらも実験１と同様に、ＭＶＤＲビームフォーマを単体で用いた劣決定音声強調であるＭＶＤＲ、２チャネルの時間周波数マスキングであるＤＵＥＴ、ヴァーチャルマイクロフォン技術（ＶＭ）を導入したＭａｘＳＮＲビームフォーマも評価した。これらの手法に加え、空間的サブトラクションアレー（ｓｐａｔｉａｌｓｕｂｔｒａｃｔｉｏｎａｒｒａｙ；ＳＳＡ）を２チャネルで実行した場合の性能も示す。ここで参照パスの推定（雑音の推定）にはヌルビームフォーマや独立成分分析（ｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ；ＩＣＡ）に基づく手法が提案されているが、本実施形態ではＭａｘＳＮＲビームフォーマを用いた。なお、ＳＳＡで用いるパラメータは提案されている値とした。また、位相の補償にはＤＳビームフォーマの出力値が用いられているが、本稿ではＭａｘＳＮＲビームフォーマの出力値を用いている。
ＭＶＤＲビームフォーマを用いた時間周波数スイッチングビームフォーマと、時間周波数マスキングを用いたその拡張を検討し、以下ではそれぞれをＴＦＳ、ＴＦＳ＋ＴＦＭと省略する。各手法の計算のため、それぞれ干渉音源ｎ_１、ｎ_２を抑圧するビームフォーマ１、２を事前に構成した。そのため、目的音源区間と２つの干渉音それぞれの干渉音源区間が必要となる。時間周波数マスク構成のためのＤＯＡ推定のパラメータは以下の通りである。全ての複素ガウス分布の分散は１０とした。ここで、音声のエネルギーが十分存在すると考えられる周波数帯域である１～４ｋＨｚの周波数ビンのみを用いてＧＭＭを学習した。ＳＡＥでは、ＬＷＭＡによるスムージングのために用いる区間をＴ＝９（３８４ｍｓ）とした。
本手法の有効性の調査のため、実験１と同様に、図３の１列目に示す７パターンの音源の組み合わせに対して実験を行った。評価尺度として、ＳＤＲ、ＳＩＲに加え、ＳＡＲを用いた。なお、実験１と同様に、データセットに含まれる男性３名、女性３名、それぞれを目的音源とした計６通りの音声強調の結果を評価し、その平均を実験結果として示す。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。

［実環境実験２：結果と考察］
図５は、本実施形態の実環境実験の結果の他の一例を示す図である。
実験結果を図５に示した。従来の単一ビームフォーマはただ１つの干渉音のみ抑圧できるため、音声強調性能は低いが、ＳＡＲに示されるように人工的な雑音は生じにくい。本実施形態の手法は全ての評価尺度に置いて高い性能を示し、単一ビームフォーマだけでなく従来の時間周波数マスキング手法であるＤＵＥＴも上回る結果となった。特にＴＦＳを時間周波数マスキングを用いて拡張することで、ＳＡＲを劣化させることなく、ＳＩＲを大きく向上させることに成功している。以上より、本実施形態の手法とその拡張は高い音声強調性能を示すと言える。ＳＳＡに関しては、特に音声認識の前段の処理として開発されており、位相情報を正しく保持しない。そのため、全ての評価尺度の値が低くなっていることに注意されたい。
ＤＯＡ推定による本実施形態の手法の拡張の最大の利点は、時間周波数マスク適用によるＳＩＲの向上である。ＴＦＳビームフォーマでは、干渉音源ｎ_１、ｎ_２が同時に存在する時間周波数点においては、その両方を同時に抑圧することはできない。そのような点はマスキングすることで、より効果的な雑音抑圧を達成している。以上より、ＤＯＡ推定に基づくＴＦＳビームフォーマの拡張は、雑音抑圧性能の向上に有効だと言える。

［シミュレーション：ＴＦＳビームフォーマの残響環境における音声強調性能及びＷ－ＤＯとの関係性］
実験で用いたＦＦＴフレーム長を次表に示す。

その他の実験条件を次表に示す。

実験では、ＭＶＤＲビームフォーマを用いたＴＦＳビームフォーマを用いた（ＴＦＳ）。ビームフォーマの事前情報は実験１と同様とした。ただし、ＴＦＳビームフォーマ自体の性質について議論するため、時間周波数マスキングによる後段の処理は行っていない。比較のための従来法として、こちらも実験１と同様に、ＭＶＤＲビームフォーマを単体で用いた劣決定音声強調であるＭＶＤＲ、２チャネルの時間周波数マスキングであるＤＵＥＴを用いた。目的音源ｓは、日本語男性／女性、英語男性／女性の４種類の音声と、生成したインパルス応答との畳込み演算によりシミュレートし、そのＤＯＡは９０°とした。干渉音源ｎとしては、５０°、１２０°、１６０°から到来する３種類の音声を用いた。目的音と各干渉音のＳＮＲは０ｄＢに設定した。従って観測信号に含まれる目的音と干渉音のＳＮＲは負の値をとる。ＳＴＦＴで用いるＦＦＴフレーム長は、各種法、各残響時間毎に最大のＳＤＲをとる値を最適値として用いた。
評価尺度は、実験２と同様に、ＳＤＲ、ＳＩＲ、ＳＡＲを用いた。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。実験結果は、４人の話者について音声を行った結果を評価し、その平均を示す。

［シミュレーション: 結果と考察］
図６は、本実施形態のシミュレーションの結果の一例を示す図である。
ＳＤＲ、ＳＩＲ、ＳＡＲの改善量（混合信号と強調信号の各評価尺度の値の差）を図６に示す。音源ｓ_ｉ（ω，ｔ）、（ｉ＝１、…、４）は、ｍａｘ｜ｓ_ｉ（ω，ｔ）｜／１０よりも大きな振幅値をとるときに存在するとした。単一の時間周波数点に複数の音源が存在した場合、そのような点ではＷ－ＤＯが満たされていない。
図６によると、従来の単一ビームフォーマであるＭＶＤＲは一つの干渉音源しか抑圧できないが、一方で人工雑音は生成しにくい。従って、ＳＡＲのみ高い数値を示し、これまでの結果と一致する。残響時間が１２０ｍｓの時、多くの時間周波数点でＷ－ＤＯが満たされる。そのため、ＤＵＥＴは高い音声強調性能を達成している。しかし、残響時間が長い場合、混合信号はＷ－ＤＯを満たしにくくなる。ＤＵＥＴの音声強調性能は、従って、大きく低下する。一方で、本実施形態の手法は、非常に長い７８０ｍｓという残響環境においても高い音声強調を保持している。従って、本実施形態の手法は残響環境においても有効であると言える。
本実施形態の手法と残響時間の関係に着目すると、残響が長くなるに連れて、本実施形態の手法の音声強調性能が少しずつ低下していく。しかし、一般に残響が長いほど音声強調は困難になることから、その低下は十分に少ないと言える。従って、本実施形態の手法は残響に対してロバストであると言える。残響時間が３１０ｍｓの場合、約２０％の時間周波数点において、二つの音源が同時に存在した。このような時間周波数点は、ＤＵＥＴなどの時間周波数マスキングに基づく音声強調では、原理的に音声強調が行えない。一方で本実施形態の手法は、２チャネルのマイクロフォンアレイが利用可能な時、二つの音源が同時に存在する場合にも音声強調が可能である。ただし、二つの音源が共に干渉音の場合には、時間周波数マスキングによる後段の処理が必要である。３１０ｍｓの場合に比べ、７８０ｍｓではさらに多くの時間周波数点において、複数の音源が存在していた。同時に存在する音源が二つの場合は先述の通りである。音源が３以上の場合、本実施形態の手法は全ての干渉音源ｎを同時に抑圧することはできないが、少なくとも１つの干渉音源ｎはビームフォーマにより抑圧することができる。従って、本実施形態の手法は一定の音声強調性能を保証する。その一方で、時間周波数マスキングは、そのような時間周波数点においては、全ての音源を抑圧するか、全く抑圧しないかのどちらかである。

本実施形態では、新たな劣決定音声強調手法としてＴＦＳビームフォーマを示した。これは、事前に構成した複数のビームフォーマから時間周波数点毎に最適なビームフォーマを選択する手法であり、ＭＶＤＲビームフォーマなどの適切なビームフォーマを用いることで、目的音声の歪みを抑えながら高い雑音抑圧性能を達成するという極めて重要な特色を持つ。また、本手法は時間周波数マスキングと併用することで、更に雑音抑圧性能を向上させることができる。本実施形態で用いた時間周波数マスキングは、時間周波数点毎のＤＯＡ推定、及び時間フレーム毎のＳＡＥに基づき構成した。両者の手法は共にＷ－ＤＯの成立を必要とせず、従来の時間周波数マスキングの拡張であると言える。実環境実験では、ＴＦＳビームフォーマ及びその拡張が、比較に用いた従来法を大きく上回る性能を達成することを確認した。

［時間周波数スイッチング技術を用いた最小分散無歪応答ビームフォーマの劣決定拡張］
本実施形態では、ＴＦＳビームフォーマの更なる発展を説明する。上述したＴＦＳビームフォーマは、複数のビームフォーマを事前構成するため、事前情報として、目的音源区間と各干渉音源区間が必要であった。しかし、実環境においてそれら全ての事前情報は通常得られない。そこで、本実施形態では、ＴＦＳビームフォーマを同時最適化問題として再定式化し、事前情報として目的音源ｓの伝達関数のみを必要とする手法へと拡張する。

［時間周波数スイッチングビームフォーマの問題点］
ＴＦＳビームフォーマは、その利点の一つとして、任意のヌルビームフォーマを用いて空間フィルタｗ（ω）を構成できるという特徴を持つ。従って、ＭａｘＳＮＲビームフォーマなどの適応ビームフォーマの他、固定ビームフォーマを用いることも可能であり、高い拡張性があった。しかし、存在する干渉音源ｎそれぞれを抑圧するビームフォーマの構成のため、目的音源ｓの他に、それぞれのビームフォーマが抑圧したい干渉音源ｎの事前情報を必要とした。すなわち、Ｋ個の干渉音源ｎが存在する場合には、ｋ番目の干渉音源（ｋ＝１、…、Ｋ）を抑圧するビームフォーマｋの構成のために、目的音源ｓと干渉音源ｎ_ｋの事前情報が必要であった。ところが、実環境においてそのような事前情報が得られるという状況は考えにくく、本実施形態の手法の実用性を著しく損なってしまう。
そこで本実施形態では、ＴＦＳビームフォーマで用いるビームフォーマをＭＶＤＲビームフォーマに限定し、再定式化することで、上記の問題点を解決する。すでに多くの製品で実用化されているＭＶＤＲビームフォーマは、目的音源ｓの伝達関数のみを事前情報として必要とする。従って、本実施形態の手法が必要とする事前情報を、同様に目的音源ｓの伝達関数のみに限ることができれば、十分実用的であると言える。

［従来の最小分散無歪応答（ＭＶＤＲ）ビームフォーマ］
ｉ番目のマイクロフォンにおける観測信号のＳＴＦＴ表現をｘ_ｉ（ω，ｔ）とする。Ｍｎチャネルのマイクロフォンアレイを用いて、１個の目的音とＮ－１個の干渉音源ｎを観測する時（すなわち、Ｍｎ＝Ｎであり、決定系である）、従来のＭＶＤＲビームフォーマを用いて音声強調が行える。音声強調は、以下の方程式により、干渉音源ｎのＤＯＡに対してヌルを形成することで行われる。

ここでｙ（ω，ｔ）はビームフォーマの出力信号であり、ｗ（ω）は空間フィルタである。空間フィルタｗ（ω）は以下の最適化問題を解くことで構成される。

ここで、Ｅ［・］は期待値演算であり、ａ（ω）は目的音源ｓからマイクロフォンアレイへの伝達関数である。ただし、実際にはａ_１ですべての要素を割ることで、相対的な伝達関数を使用する。

式（２９）は制約付き最適化問題であるから、ラグランジュの未定乗数法を用いることで、以下のコスト関数Ｊｃを得る。

ここで、Ｒｅ［・］は引数の実部を返す関数であり、λ^＊は複素値のラグランジュ乗数である。コスト関数（式３２）を最小化することで、以下の閉形式の解を得る。

ＭＶＤＲビームフォーマは、目的音を無歪みで強調することが可能である。しかし、Ｍｎ個のマイクロフォンではＭｎ－１個の干渉音源ｎのみが抑圧可能である。従って、Ｍｎ＜Ｎとなるような劣決定条件の下では、ＭＶＤＲビームフォーマを用いた線形音声強調の性能は十分でない。

［最小分散無歪応答（ＭＶＤＲ）ビームフォーマの劣決定拡張］
簡単のため、以下ではステレオマイクロフォンの利用を考える（すなわちＭｎ＝２）。ＴＦＳビームフォーマは、１個の目的音源ｓとＮ－１個の干渉音源ｎからなるＮ音源に対して、Ｋ個の空間フィルタ（Ｋ＝Ｎ－１）の組み合わせによって音声強調を行う。従って、ＴＦＳに基づくＭＶＤＲビームフォーマの最適化問題は、以下のように定式化される。

ここで、ｍ_ｋ（ω，ｔ）は、ｗ_ｋ（ω）が使われるならば１、使われないならば０をとる時間周波数マスク（バイナリマスク）である。従って、式（３５）は、ｋ番目の空間フィルタと、時間周波数点（ω，ｔ）において使用するビームフォーマを同時に最適化している。Ｎ＝２の時、従ってＫ＝１の時（すなわち決定系である）、本実施形態の最適化問題（式（３５））は従来のＭＶＤＲビームフォーマの最適化問題（式（２９））と一致することに注意されたい。式（３５）は制約付き最適化問題であるから、ラグランジュの未定乗数法を用いることで、以下のコスト関数Ｊｐを得る。

ここで、λ^* _ｋはｋ番目の複素値のラグランジュ乗数である。Ｊｐの最小化は同時最適化問題であり、ｗ_ｋとｍ_ｋを同時に最適化することは困難である。しかし、それぞれを交互に最適化することは可能である。
ｗ_ｋを固定すると、ｍ_ｋに関するコスト関数は

となり、従って、

を得る。ここで、（ｋ′＝１、…、Ｋ）かつ（ｋ′≠ｋ）である。この最適化は、各時間周波数点において最適な空間フィルタを選択することに相当し、すなわち、ＭＶＤＲビームフォーマの時間周波数点毎のスイッチング（すなわちＴＦＳ）を行っていることに相当する。
次に、ｍ_ｋを固定すると、ｗ_ｋに関するコスト関数は式（３６）に一致する。

ｋ番目の空間フィルタが使われる時間周波数点（すなわちｍ_ｋ（ω，ｔ）＝１）に着目すると、コスト関数（すなわち、式（３９））は従来のＭＶＤＲビームフォーマのそれ（式（３２））に一致する。従って、式（３９）を最小化するという最適化問題は以下の閉形式の解を得る。

ｍ_ｋとｗ_ｋは、それぞれ式（３８）と式（４０）を用いて交互に更新される。ｍ_ｋもしくはｗ_ｋは、それぞれ、固定ビームフォーマであるヌルビームフォーマなど、空間フィルタを構成する従来手法、ＤＵＥＴなど、時間周波数マスキング（バイナリマスク）を構成する従来す手法を用いて初期化することができる。このような初期値を用いることでパーミュテーション問題を回避することができる．すなわち、空間フィルタｗ_ｋは全ての周波数ビンにおいて，干渉音源ｎ_ｋを抑圧する。一方で，ランダムな初期値を用いた場合には、周波数ビン毎に異なる干渉音源を抑圧する可能性がある。最終的に、十分な回数の更新の後、以下の式により音声強調が行われる。

ここで、空間フィルタの計算（式（４０））と音声強調（式（４２））を含む、以上の全ての式は、決定系において（Ｎ＝２であり、すなわちＫ＝１）、従来のＭＶＤＲビームフォーマの対応する式と完全に一致することに、再度注意されたい。
ｍ_ｋ（ω，ｔ）＝１を満たす時間周波数点は、ｗ_ｋ（ω）を構成する時に使用される。この時間周波数点の集合は、干渉音源ｎ_ｋが全ての干渉音源ｎの中で最も支配的な時間周波数点のクラスタとみなすことができる。干渉音源ｎ間のＷ－ＤＯを仮定することで、このクラスタは、干渉音源ｎ_ｋ（及び目的音源ｓ）のみが存在する時間周波数点のクラスタであると言い換えることができる。そのような時間周波数点に着目したビームフォーミングは、従って、決定系における音声強調であり、従来のＭＶＤＲビームフォーマによって解くことができる。このように、ＴＦＳに基づくＭＶＤＲビームフォーマは、最も支配的な干渉音源ｎのクラスタリングとＭＶＤＲビームフォーマの構成、という二つのステップにより音声強調を行っていると解釈することができる。

［シミュレーションによる評価実験］
本実施形態の手法の有効性を確認するため、ＲＩＲｇｅｎｅｒａｔｏｒを用いたシミュレーションにより、インパルス応答を生成し、評価実験を行った。実験条件を次表に示す。

実験では、本実施形態の手法の有効性を以下の３手法と比較することで検証した。比較手法は、従来のＭＶＤＲビームフォーマを単独で用いた劣決定音声強調（ＭＶＤＲ）、２チャネルの時間周波数マスキングＤＵＥＴ、従来のＴＦＳビームフォーマとした。
本実施形態の手法には事前情報として目的音源ｓの伝達関数を与えた。また、空間フィルタｗ_ｋ（ω）の初期化は、固定ビームフォーマであるヌルビームフォーマを利用した。ここで、ヌルビームフォーマは目的音源ｓのＤＯＡを除くランダムな方向にヌルを形成した。ヌルを形成する方向は、少なくとも２０°は離れるように制約した。実験では、５種類のランダム初期値に対して音声強調を行い、その平均を結果として示す。また、ｍ_ｋとｗ_ｋは、それぞれ式（３８）と式（４０）とを用いて１０回ずつ更新した。
本実施形態の手法の有効性を確認するため、６種類の干渉音源ｎ_Ａ～ｎ_Ｆを用意した。各干渉音源ｎのＤＯＡは、それぞれ２０°、４０°、６０°、１１０°、１３０°、１５０°である。干渉音源ｎの組み合わせとして、ｎ_Ａ～ｎ_Ｃから一つ、ｎ_Ｄ～ｎ_Ｆから一つ選択し、計９通りの組み合わせに対して実験を行った。更に、干渉音源の組み合わせｎ_Ａｎ_Ｃｎ_Ｅ、ｎ_Ｂｎ_Ｄｎ_Ｆ、ｎ_Ｃｎ_Ｄｎ_Ｅに対しても実験を行った。目的音源ｓとしては、日本語男性／女性、英語男性／女性の４種類の音声を使用し、そのＤＯＡは９０°とした。目的音と各干渉音のＳＮＲは０ｄＢに設定した。従って観測信号に含まれる目的音と干渉音のＳＮＲは負の値をとる。評価尺度は、ＳＤＲ、ＳＩＲを用いて、その改善量を示す。実験結果は、目的音声及び空間フィルタのランダム初期化に関して、平均値を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。

［実験結果］
各干渉音源ｎの組み合わせに対するＳＤＲ及びＳＩＲの改善量を示す。次表には、音源数Ｎ＝３の場合の結果を示す。

次表には、Ｎ＝４の場合の結果を示す。

従来法であるＭＶＤＲは一つの干渉音源のみが抑圧可能なため、劣決定系においては音声強調に失敗している。ＴＦＳ－ＭＶＤＲは、干渉音源のＤＯＡにかかわらず、常にＤＵＥＴを上回る結果となった。更に、本実施形態の手法は事前学習を必要としないにもかかわらず、事前学習を必要とする従来のＴＦＳ－ＭＶＤＲに近い音声強調性能を達成した。以上より、本実施形態のＴＦＳ－ＭＶＤＲは雑音環境下における劣決定音声強調に有効であると言える。
時間周波数平面において、選択されたビームフォーマは頻繁に切り替わる。しかし、ＴＦＳ－ＭＶＤＲは基本的に最適化問題（式（３５））における線形拘束条件を満たす。従って、ビームフォーマの切り替えによる目的音声の歪みは生じない。強調信号ｙ_１及びｙ_２の和である最終的な強調信号ｙ（式（４２）を参照）について、ｍ_ｋ（ω，ｔ）＝１となる時間周波数点の集合は、目的音源ｓの存在によらず、干渉音源ｎ_ｋ（それぞれ、ｋ＝１、ｋ＝２）を含む。Ｍｎ＝２のとき、干渉音源間のＷ－ＤＯを仮定すれば、それぞれの集合は目的音源ｓ及び干渉音源ｎ_ｋのみからなる。そのような集合により表される信号に対するビームフォーミングは決定問題であり、目的音声と抑圧された干渉音源ｎ_ｋを含む強調信号ｙ_ｋを出力する。ここで、ｙ_ｋは、ｍ_ｋ（ω，ｔ）＝１となる時間周波数点の集合を用いて計算されるため、目的音源ｓの一部のみを保持することに注意されたい。更に、ｙ_ｋ及びそれ以外の強調信号ｙ_ｋ′は、完全に異なる時間周波数点において、目的音源成分を持つ。ｙ_ｋの和である強調信号ｙは、従って両方の干渉音を抑圧し、かつ、目的音源ｓは完全に復元される。
本実施形態においては、時不変な空間フィルタｗ（ω）を用いていたが、適応ビームフォーマであるＭＶＤＲビームフォーマは、時変な空間フィルタｗ（ω，ｔ）を構成することができる。従って、本実施形態の手法も同様に時変な空間フィルタｗ_ｋ（ω，ｔ）を構成することができる。

本実施形態では、新たな劣決定音声強調手法である時間周波数スイッチング（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ－ｂｉｎ－ｗｉｓｅｓｗｉｔｃｈｉｎｇ；ＴＦＳ）ビームフォーマを、より実用的な手法へと拡張した。本実施形態の手法は、従来のＭＶＤＲビームフォーマの自然な劣決定拡張である。更に、時間周波数マスキングの拡張でもあり、また、ビームフォーミングと時間周波数マスキングを組み合わせた手法ともみなすことができる。実験では、干渉音源ｎのＤＯＡによらず、高い音声強調性能、すなわち、少ない歪みで高い雑音抑圧性能を示すことを確認した。

［音情報処理装置１０の機能構成］
次に、上述した新たな劣決定音声強調手法を実現するための音情報処理装置１０の機能構成について説明する。

図７は、本実施形態の音情報処理装置１０の機能構成の一例を示す図である。
音情報処理装置１０は、時間周波数変換部１１０と、信号取得部１２０と、ビームフォーミング演算部１３０と、統計演算部１４０と、判定部１５０と、マスキング演算部１６０と、波形変換部１７０と、特性更新部１８０と、音源方向情報記憶部１９０とを備える。

音源方向情報記憶部１９０には、目的音源方向情報Ｄｓが記憶されている。この目的音源方向情報Ｄｓとは、収音部Ｍに対する目的音源ｓの方向を示す情報であり、例えば伝達関数などの情報である。目的音源方向情報Ｄｓは、例えば、音情報処理装置１０を利用する利用者の操作に基づいて、又は、収音部Ｍに対する目的音源ｓの方向を検出するセンサ類（不図示）の出力に基づいて生成される。

時間周波数変換部１１０は、複数の収音部Ｍが収音した音信号ＳＩをそれぞれ時間周波数変換することにより、音信号ＳＩに対応する時間周波数信号ＴＦを生成する。時間周波数変換部１１０は、生成した時間周波数信号ＴＦを信号取得部１２０に出力する。
本実施形態の一例では、収音部Ｍ１及び収音部Ｍ２の２つの収音部Ｍがある。この場合、時間周波数変換部１１０は、収音部Ｍ１が収音した音信号ＳＩ１を時間周波数変換して時間周波数信号ＴＦ１を生成する。また、時間周波数変換部１１０は、収音部Ｍ２が収音した音信号ＳＩ２を時間周波数変換して時間周波数信号ＴＦ２を生成する。

信号取得部１２０は、時間周波数変換部１１０が収音部Ｍ毎に生成した時間周波数信号ＴＦを取得する。すなわち、信号取得部１２０は、複数の収音部Ｍが収音した音信号ＳＩがそれぞれ時間周波数変換された複数の時間周波数信号ＴＦを取得する。

ビームフォーミング演算部１３０は、時間周波数信号ＴＦを変換することにより、ビームフォーミング信号ＢＦＳを生成する。より具体的には、ビームフォーミング演算部１３０は、信号取得部１２０が取得する複数の時間周波数信号ＴＦと、音信号ＳＩに含まれる目的音源ｓの収音部Ｍに対する方向を示す目的音源方向情報Ｄｓとに基づく空間フィルタを用いて、複数の時間周波数信号ＴＦがそれぞれ変換された複数のビームフォーミング信号ＢＦＳを生成する。

なお、ビームフォーミング演算部１３０は、目的音源方向情報Ｄｓ、すなわち、収音部Ｍに対する目的音源ｓの方向を示す情報に基づく空間フィルタを用いてビームフォーミング信号ＢＦＳを生成するとして説明したが、これに限られない。
ビームフォーミング演算部１３０は、目的音源方向情報Ｄｓに加え、音信号ＳＩに含まれるノイズ音源の収音部Ｍに対する方向を示すノイズ音源方向情報Ｄｎにさらに基づく空間フィルタを用いて、ビームフォーミング信号ＢＦＳを生成してもよい。
このように構成された音情報処理装置１０によれば、雑音抑圧性能をより向上させることができる。

統計演算部１４０は、ビームフォーミング演算部１３０が生成する複数のビームフォーミング信号ＢＦＳどうしが統計演算された統計演算結果信号ＳＳを出力する。

波形変換部１７０は、統計演算部１４０が出力する統計演算結果信号ＳＳを音波形信号ＳＯに変換する。波形変換部１７０は、音波形信号ＳＯを音情報利用装置２０に出力する。

特性更新部１８０は、目的音源方向情報Ｄｓと、統計演算結果信号ＳＳとに基づいて、ビームフォーミング演算部１３０が変換に用いる空間フィルタの特性を更新する。空間フィルタの特性の更新動作の一例について説明する。

図８は、本実施形態の空間フィルタの特性更新動作の流れの一例を示す図である。
（ステップＳ０１）ビームフォーミング演算部１３０は、現状の空間フィルタ（ｗ_１（ω）、ｗ_２（ω））によってビームフォーミング信号ＢＦＳを生成する。
（ステップＳ０２）統計演算部１４０は、ステップＳ０１において生成されたビームフォーミング信号ＢＦＳに基づいて、統計演算結果信号ＳＳを生成する。これにより、ｋ番目の干渉音信号に基づく、干渉音源ｎのクラスタリング結果が得られる。このクラスタリング結果をビームフォーママスクと呼ぶ。
（ステップＳ０３）特性更新部１８０は、予め取得されている目的音源方向情報Ｄｓと、ステップＳ０２において得られたクラスタリング結果とに基づいて、空間フィルタ（ｗ_１（ω）、ｗ_２（ω））の特性を更新する。
ビームフォーミング演算部１３０と、統計演算部１４０と、特性更新部１８０とは、上述したステップＳ０１～ステップＳ０３を繰り返し実行することにより、雑音抑圧性能がより高い空間フィルタを生成する。

図７に戻り、判定部１５０は、目的音源方向情報Ｄｓに基づいて、統計演算部１４０が出力する統計演算結果信号ＳＳに含まれる音情報が目的音源ｓ由来であるか否かを判定する。
マスキング演算部１６０は、判定部１５０による判定結果に基づいて、統計演算部１４０が出力する統計演算結果信号ＳＳに対するマスキング演算を行い、マスキング演算結果信号ＭＳ（マスキング演算後の信号）を波形変換部１７０に出力する。
この場合、波形変換部１７０は、統計演算部１４０が出力する統計演算結果信号ＳＳに代えて、マスキング演算部１６０が出力するマスキング演算結果信号ＭＳを波形変換対象の信号にして、音信号に変換する。

［音情報処理装置１０の動作］
図９は、本実施形態の音情報処理装置１０の動作の流れの一例を示す図である。
（ステップＳ１０）時間周波数変換部１１０は、複数の収音部Ｍから音信号ＳＩをそれぞれ取得する。
（ステップＳ２０）時間周波数変換部１１０は、取得した音信号ＳＩをフーリエ変換（例えば、短時間フーリエ変換）することにより、音信号ＳＩが時間周波数変換された信号、すなわち時間周波数信号ＴＦを生成する。時間周波数変換部１１０は、生成した時間周波数信号ＴＦを信号取得部１２０に出力する。
（ステップＳ３０）信号取得部１２０は、時間周波数変換部１１０が生成した時間周波数信号ＴＦを取得し、ビームフォーミング演算部１３０に出力する。
（ステップＳ４０）
ビームフォーミング演算部１３０は、信号取得部１２０から時間周波数信号ＴＦを取得する。また、ビームフォーミング演算部１３０は、音源方向情報記憶部１９０から目的音源方向情報Ｄｓを取得する。ビームフォーミング演算部１３０は、取得した時間周波数信号ＴＦと、目的音源方向情報Ｄｓとに基づく空間フィルタを用いて、ビームフォーミング信号ＢＦＳを生成する。ビームフォーミング演算部１３０は、生成したビームフォーミング信号ＢＦＳを、統計演算部１４０に出力する。

（ステップＳ５０）統計演算部１４０は、ビームフォーミング演算部１３０が出力するビームフォーミング信号ＢＦＳを統計演算することにより、統計演算結果信号ＳＳを生成する。

なお、統計演算部１４０による統計演算には、次の２種類が含まれていてもよい。
（１）統計演算とは、ビームフォーミング演算部１３０が出力する複数のビームフォーミング信号ＢＦＳのうち、強度が相対的に弱いビームフォーミング信号ＢＦＳを選択することである。この場合、統計演算部１４０は、統計演算によって選択したビームフォーミング信号ＢＦＳを統計演算結果信号ＳＳとして出力する。
（２）統計演算とは、ビームフォーミング演算部１３０が出力する複数のビームフォーミング信号ＢＦＳをそれぞれ所定の重みによって重みづけして互いに積算することである。この場合、統計演算部１４０は、統計演算により、積算したビームフォーミング信号ＢＦＳを統計演算結果信号ＳＳとして出力する。

（ステップＳ６０）判定部１５０は、目的音源方向情報Ｄｓに基づいて、統計演算結果信号ＳＳに含まれる音情報が目的音源ｓ由来であるか否かを判定する。

ここで、統計演算結果信号ＳＳに目的音源ｓ由来の音情報が含まれている場合と、目的音源ｓ由来の音情報が含まれていない場合とがある。例えば、図３に示した一例の場合、図３に示す表の２行目から６行目までの統計演算結果信号ＳＳ（つまり、統計演算結果信号ＳＳ１）には、目的音源ｓ由来の音が含まれている。一方、図３に示す表の７行目の統計演算結果信号ＳＳ（つまり、統計演算結果信号ＳＳ２）には、目的音源ｓ由来の音が含まれていない。
例えば、図３に示す表の７行目のように、時間周波数信号ＴＦに目的音源ｓ由来の音が含まれていない場合には、ビームフォーミング信号ＢＦＳ１及びビームフォーミング信号ＢＦＳ２を統計演算したとしても、統計演算結果信号ＳＳ２には、干渉音源ｎ_１又は干渉音源ｎ_２のいずれかの雑音成分が残ってしまう。
判定部１５０は、統計演算結果信号ＳＳに含まれる音情報が目的音源ｓ由来でないと判定した場合（つまり、統計演算結果信号ＳＳが、統計演算結果信号ＳＳ２であると判定した場合）には、マスキング演算部１６０に対して、統計演算結果信号ＳＳのマスキング演算を指示する。マスキング演算部１６０は、判定部１５０からマスキング演算を指示されると、当該統計演算結果信号ＳＳをマスキングする。この結果、マスキング演算部１６０は、統計演算結果信号ＳＳ１に基づくマスキング演算結果信号ＭＳを出力し、統計演算結果信号ＳＳ２にもとづくマスキング演算結果信号ＭＳを出力しない。つまり、マスキング演算部１６０は、目的音源ｓ由来でない統計演算結果信号ＳＳをマスキングする。このように構成された音情報処理装置１０によれば、雑音抑圧性能をより向上させることができる。

（ステップＳ７０）波形変換部１７０は、マスキング演算部１６０が出力するマスキング演算結果信号ＭＳを音波形信号ＳＯに変換して、変換した音波形信号ＳＯを音情報利用装置２０に出力し、一連の動作を終了する。

以上説明したように、音情報処理装置１０は、干渉音源ｎごとにビームフォーマ出力を得て、これら複数のビームフォーマ出力を組み合わせることにより、劣決定下条件においても雑音抑圧性能を向上させることができる。

以上、本発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。

なお、上述の各装置は内部にコンピュータを有している。そして、上述した各装置の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１０…音情報処理装置、１１０…時間周波数変換部、１２０…信号取得部、１３０…ビームフォーミング演算部、１４０…統計演算部、１５０…判定部、１６０…マスキング演算部、１７０…波形変換部、１８０…特性更新部、１９０…音源方向情報記憶部

Claims

複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得部と、
前記信号取得部が取得する複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタを用いて、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算部と、
前記ビームフォーミング演算部が生成する複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算部と、
前記統計演算部が出力する前記演算結果信号を音波形信号に変換する波形変換部と、
を備える音情報処理装置。
前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号のうち、強度が相対的に弱い前記ビームフォーミング信号を選択することであり、
前記統計演算部は、
前記統計演算によって選択した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項１に記載の音情報処理装置。
前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号をそれぞれ所定の重みによって重みづけして互いに積算することであり、
前記統計演算部は、
前記統計演算により、積算した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項１に記載の音情報処理装置。
前記ビームフォーミング演算部は、
前記音信号に含まれるノイズ音源の前記収音部に対する方向を示すノイズ音源方向情報にさらに基づく空間フィルタを用いて、前記ビームフォーミング信号を生成する
請求項１から請求項３のいずれか一項に記載の音情報処理装置。
前記目的音源方向情報と、前記演算結果信号とに基づいて、前記ビームフォーミング演算部が変換に用いる空間フィルタの特性を更新する特性更新部
をさらに備える請求項１から請求項４のいずれか一項に記載の音情報処理装置。
前記目的音源方向情報に基づいて、前記統計演算部が出力する前記演算結果信号に含まれる音情報が前記目的音源由来であるか否かを判定する判定部と、
前記判定部による判定結果に基づいて、前記統計演算部が出力する前記演算結果信号に対するマスキング演算を行い、マスキング演算後の信号を前記波形変換部に出力するマスキング演算部と、
をさらに備え、
前記波形変換部は、
前記統計演算部が出力する前記演算結果信号に代えて、前記マスキング演算部が出力する前記マスキング演算後の信号を音波形信号に変換する
請求項１から請求項５のいずれか一項に記載の音情報処理装置。
コンピュータに、
複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得ステップと、
前記信号取得ステップにおいて取得される複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタによって、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算ステップと、
前記ビームフォーミング演算ステップにおいて生成される複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算ステップと、
前記統計演算ステップにおいて出力される前記演算結果信号を音波形信号に変換する波形変換ステップと、
を実行させるためのプログラム。