JP2009272876A

JP2009272876A - 音源分離強調システム

Info

Publication number: JP2009272876A
Application number: JP2008121524A
Authority: JP
Inventors: Shuichi Sakamoto; 修一坂本; Ai Sasaki; 愛佐々木; Yoichi Suzuki; 陽一鈴木; Satoru Hongo; 哲本郷; Junfeng Li; 軍鋒李
Original assignee: Tohoku University NUC; Institute of National Colleges of Technologies Japan
Current assignee: Tohoku University NUC; Institute of National Colleges of Technologies Japan
Priority date: 2008-05-07
Filing date: 2008-05-07
Publication date: 2009-11-19

Abstract

【課題】目的音の音空間情報を保存した高品質な２出力信号を得ること
【構成】音源分離強調システムは、多数の音源から発生される音響信号を異なる２点で収録する受信部１１１，１１２と、受信部１１１、１１２からの受信信号Ｘ_Ｌ，Ｘ_Ｒを入力として該信号を処理した後に、異なる点の受信信号Ｘ_Ｒ，Ｘ_Ｌとの差信号に目的音源の信号が含まれなくなるようなフィルタ処理部１２０と、フィルタ処理部１２０の出力信号と受信部１１１，１１２からの信号Ｘ_Ｌ，Ｘ_Ｒを受けて、目的音源を強調するような時間周波数フィルタ係数を推定するマスクフィルタ推定部１３０と、マスクフィルタ推定部１３０からの信号Ｇを受信部からの信号Ｘ_Ｌ，Ｘ_Ｒに乗ずることにより目的外音を低減し、空間音情報を保持した目的音を強調するマスクフィルタ１４０とを有する。
【選択図】図１

Description

本発明は、複数の音が異なる方位から提示されている環境下において、複数の受信部（例えばマイクロフォン）を用いてある目的音を選択的に分離強調し、分離音の空間音情報を保持した２出力（２チャンネル）の音響信号を出力する技術に関するものである。

一般に我々人間は、雑音環境下においても会話をし、その内容が理解される。これは左右両耳に入力される音響信号の特性が、音源位置に依存して変化することに起因し、人間はこの変化を検出することができることによる。これは、一般にカクテル・パーティ効果として知られている。複数の音が異なる方位から提示されている環境下において、ある音を選択的に入力する選択的両耳聴アルゴリズム（カクテル・パーティ効果アルゴリズム）は、ヒトの聴覚機構の実現という観点から様々な研究がされている。

特許文献１では、周波数領域両耳聴モデル（ＦＤＢＭ：Frequency Domain Binaural Model）を用いて、複数の音源から発生される音響信号を左右両受音部から入力し、入力した左右両入力信号を周波数帯域ごとに分割し、左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差（ＩＰＤ）、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差（ＩＬＤ）を求め、全周波数帯域で各周波数帯域ごとに得られたＩＰＤまたはＩＬＤと、データベースのそれとを比較することにより各周波数帯域ごとに音源方向の候補を求め、各周波数帯域ごとに得られた音源方向のうち出現頻度が高い方向を、音源方向と推定する方法により、複数の音が発生している環境下で、左右、上下二次元的に存在する複数の音源方向を推定する方法が提案されている。

特許文献２では、特許文献１の周波数変換をウェーブレット変換におきかえることによって、人間の聴覚フィルタに合致させて、かつデータベース容量と計算の回数を特許文献１の１／１０程度に抑える効果をもち、特許文献１と同様に複数の音が発生している環境下で、左右、上下二次元的に存在する複数の音源方向を推定する方法が提案されている。

非特許文献１では、適応フィルタを用いてターゲット信号を消去し、雑音成分を推定するブロックと、バイナリマスクを算出するブロックの２つからなり、適応フィルタを用いて入力信号からターゲット信号を消去し、雑音成分のみの信号を作る。作った雑音成分のみの信号と、基準となる１個のマイクロフォンの入力信号との比ＯＩＲ（Output Input Ratio）を求める。
ＯＩＲは次式で与えられる。
ここで、Ｘ_Ｌ（ω，ｌ）は、片側（左）の入力信号であり、Ｎ（ω，ｌ）は、適応フィルタの出力信号である。前記のＯＩＲの値により、以下の式に従って判定し、バイナリマスクＢＭを作成する。
特開２００４−３２５２８４号公報『音源方向を推定する方法、そのためのシステム、および複数の音源の分離方法、そのためのシステム』特開２００７−２４０６０５号公報『複素ウェーブレット変換を用いた音源分離方法、および音源分離システム』 N. Roman et al, "Binaural segregation in multisource reverberant environments," J. Acoust. Soc. Am., 120, 6, 2006.

特許文献１及び特許文献２では、その分離能力は低く、さらに分離音源に大きな歪みが残るという問題がある。また、非特許文献１では、音源出力が１出力であるため、ステレオ出力による音空間情報を利用することができない。さらに、音源分離フィルタが時間周波数領域で１、０の急峻なものとなっているため、目的音源が存在する時間周波数域と存在しない時間周波数域の境界部分の誤差が大きくなることが推定できる。

本発明は、上記問題を解決するために、音源出力を複数とした２出力のシステムに着目し、目的音の音空間情報を保存した高品質な２出力信号を得ることを目的としている。

上記目的を達成するため、本発明は、複数の音源から入力する信号を受信し、２チャンネルの受信信号を出力する２個の受信部と、該２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引くことにより、目的とする信号成分のみを消去して目的外の雑音信号とするフィルタ部と、該フィルタ部により抽出された雑音信号と、該２チャンネルの受信信号の平均との割合から、時間周波数領域ごとに受信信号に対する目的音の成分比を推定し、推定により得られた目的音成分比と受信信号を用いて、受信信号から必要のない成分を除去するための時間周波数領域のマスクフィルタ係数を推定するマスクフィルタ係数推定部と、前記推定されたマスクフィルタ係数と、２チャンネルの受信信号とを用いて、２チャンネルの出力信号を出力するマスクフィルタ部とを備え、音源の空間情報を保持したまま目的音を抽出することを特徴とする音源分離強調システムである。
前記フィルタ部は、前記２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引く２つの構成の１つを選択してもよい。
前記２チャンネルの受信信号を出力する２個の受信部は、ｍ個（ｍ≧２：ｍは整数）設けた受信部から２個を選択し、前記フィルタ部は、選択された２個の受信部からの２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を該２チャンネルの他の受信信号から引く構成の１つを選択することもできる。
前記受信部は、複数の音源に対して異なる位置に設置したマイクロフォンとし、例えば、補聴器等に適用することもできる。

本願の音源分離強調システムにおいては、２チャンネルの出力により、空間的音情報を保持して音響信号を得ることができる。
また、ｍ点（ｍ≧２：ｍは整数）の受信信号から選択した２チャンネル信号により、効果的に音源の空間情報を保持したまま高精度に目的音を抽出することができる。これは、目的音源と雑音源の配置によっては、目的とする信号成分のみを消去する精度が悪くなるため、他点の信号を組み合わせる結果を利用することができるからである。

次に、本発明の実施の形態に係る多入力二出力の音源分離強調システムについて、図面を参照しながら説明する。
なお、以下の実施の形態により本発明が限定されるものではない。以下で、各部はアナログ信号をアナログ処理しても、信号をデジタル化してデジタル処理で各部を実現してもよい。デジタル処理を行う場合は、プロセッサで実行するプログラムにより処理を実現してもよい。

図１に、本発明の実施の形態に係る二出力の音源分離強調システムの構成を示す。図１では、２点から入力する例を示す。
図１に示すように、音源分離強調システムは、多数の音源から発生される音響信号を異なる２点で収録する受信部１１１，１１２と、受信部１１１、１１２からの受信信号Ｘ_Ｒ，Ｘ_Ｌを入力として該信号を処理した後に、異なる点の受信信号Ｘ_Ｌ，Ｘ_Ｒとの差信号に目的音源の信号が含まれなくなるようなフィルタ処理部１２０と、フィルタ処理部１２０の出力信号と受信部１１１，１１２からの信号Ｘ_Ｌ，Ｘ_Ｒを受けて、目的音源を強調するような時間周波数フィルタ係数を推定するマスクフィルタ推定部１３０と、マスクフィルタ推定部１３０からの信号Ｇを受信部からの信号Ｘ_Ｌ，Ｘ_Ｒに乗ずることにより目的外音を低減し、空間音情報を保持した目的音を強調するマスクフィルタ１４０とを有する。

受信部１１１，１１２は、例えば、２個のマイクロフォンが配置された構成により、２点間で複数音源から発生される音響信号を収録する。収録された２ｃｈ間の音響信号は、それぞれ電気的な信号データに変換されてフィルタ処理部１２０へ渡される。このときに、アナログ／デジタル変換により、電気的な信号をデジタル信号としてもよい。

フィルタ処理部１２０では、受信部１１１，１１２から渡された信号データＸ_Ｌ，Ｘ_Ｒのうち、一方の信号（図１ではＸ_Ｒ）に対して適応フィルタ１２１により処理を施し、フィルタ出力信号とフィルタ入力信号とは異なる点からの信号（図１ではＸ_Ｌ）との差信号に含まれる目的音源成分が小さくなる（雑音信号Ｎが大きくなる）ように適応制御している。
フィルタ処理部１２０の出力信号Ｎは、マスクフィルタ推定部１３０に渡される。

マスクフィルタ推定部１４０は、受信部１１１，１１２からの信号データＸ_Ｌ，Ｘ_Ｒとフィルタ処理部１２０の出力信号Ｎに基づき、それらの比を求め、非線形な判断処理を行い、マスクフィルタ係数を推定する。
マスクフィルタ係数の推定の処理について説明する。
受信した信号をＸ_Ｌ（ω，ｌ），Ｘ_Ｒ（ω，ｌ）（周波数帯域番号，ｌを時間フレーム番号）としたときに、フィルタ処理部１２０からの信号とフィルタ処理部１２０への入力信号と異なる点からの信号との差信号をＮ（ω，ｌ）とすると、
なるＲ（ω，ｌ）を判別指標とする。

（１）式から、Ｒ（ω，ｌ）≒１であれば、入力部への入力信号の平均値と雑音成分がほぼ等しいことを意味する。即ち、このときには入力部への入力信号は雑音成分で構成され、目的とする信号は含まれていないと考えられる。逆にＲ（ω，ｌ）≪１であれば、入力部への入力信号の平均値が雑音成分よりも大きくなり、入力信号には目的信号が多く含まれていると考えることができる。このことから、Ｒ（ω，ｌ）の値に基づいて、例えば次式のようにマスクフィルタ係数Ｇ（ω，ｌ）を推定することができる。ここでＸ_Ｌ（ω，ｌ），Ｘ_Ｒ（ω，ｌ）は、２つの受信部１１１，１１２からの信号である。

マスクフィルタ係数ＧはＸ_Ｌ（ω，ｌ），Ｘ_Ｒ（ω，ｌ），Ｎ（ω，ｌ）の大きさによって、様々な関数を適切に用いるものであり、上式により制限されるものではない。
例えば、良い実現法のひとつには、
という閾値と前記式（２）により推定してもよい。

このマスクフィルタ推定部１３０の出力Ｇ（ω，ｌ）と、入力信号Ｘ_Ｌ（ω，ｌ），Ｘ_Ｒ（ω，ｌ）とから、マスクフィルタ部１４０により以下のように処理して、出力信号＾Ｓ_Ｌ（ω，ｌ），＾Ｓ_Ｒ（ω，ｌ）を生成する。
さて、本発明のシステムでは、信号の振幅値のみを変化させ、かつ左右で同じフィルタを用いているため、出力信号では、ＩＴＤやＩＬＤが保存される。
従って、ターゲット信号の空間信号を保存した音源信号の強調ができるため、処理後の信号においても選択的両耳聴能を利用でき、例えば、補聴器やヘッドフォン等の両耳で音楽を聞く等への応用に有効である。

[他の実施形態１]
図２に、図１の実施形態のフィルタ処理部１２０の他の実施形態を示す。
図２（ａ）に示した構成は、図１に示したフィルタ処理部１２０と同じ構成であり、Ｘ_Ｒ信号に対して適応フィルタ１２１により処理を施し、フィルタ出力信号とＸ_Ｌ信号との差信号に含まれる目的音源成分が小さくなる（雑音信号Ｎが大きくなる）ように適応制御している。
図２（ｂ）に示した構成は、図２（ａ）とは逆に、Ｘ_Ｌ信号に対して適応フィルタ１２３により処理を施し、フィルタ出力信号とＸ_Ｒ信号との差信号に含まれる目的音源成分が小さくなる（雑音信号Ｎが大きくなる）ように適応制御している。
この実施形態では、図２（ａ）と図２（ｂ）の２つの構成ができるように用意しておき、例えば、右側に目的音源があり、右側の音源を強調すべき場合は、図２（ａ）の構成を選択し、左側に目的音源があり、左側の音源を強調すべき場合は、図２（ｂ）の構成を選択する。２つの構成の選択はスイッチング回路（図示せず）を設け、目的音源の位置により、フィルタ処理部１２０の構成を変化させる。
この構成により、目的音源の位置により、最適なフィルタ処理部の構成を選択することができる。

[他の実施形態２]
図２に示した構成は、マイクロフォン等の受信部は２個設けた場合の構成を示している。しかし、受信部は２個に限られる必要はない。それぞれ、異なる位置に設置したｍ個（ｍ≧２：整数）の受信部とそれに接続される適応フィルタを設けることもできる。
この場合、目的音源の位置により、ｍ個の受信部の中の２個の受信部を選択できるようなスイッチング回路と、選択された２個の受信部に接続されるように、適応フィルタの中から１個を選択し、図２に示すように、選択された１個の適応フィルタの出力信号は、それぞれ適応フィルタ入力信号とは異なる点からの入力信号との差信号をとり、その差信号に含まれる目的音源成分が小さくなる（雑音信号Ｎが大きくなる）ように適応制御するスイッチング回路を設けている。
２個の受信部の選択は、目的音源の信号成分のみを適応フィルタを用いて消去する精度がよくなるように選択するとよい。
この構成では、多入力（ｍ入力）から２つのペアの信号を取り出し、目的とする音源信号を最初に適応フィルタを用いて消去し、目的外雑音成分を推定する。このように推定した１つ以上の雑音成分と入力信号との比から時間周波数平面上のある時刻、ある周波数の小領域（以下周波数ビンと呼ぶ）ごとに、目的信号の割合が多いビンの乗算係数を１に近くし、目的信号の割合が少ないビンの乗算係数を０に近くすることにより、目的の信号を抽出することが可能となる。

次に、シミュレーションを行った実用上の一例を示す。
図１に示した構成の音源分離強調システムを用いたシミュレーションには音源信号、あるいは雑音信号に対し、ＭＩＴにより配布されているＫＥＭＡＲダミーヘッドの頭部伝達関数（ＨＲＴＦ:Head-Related Transfer Function）を畳み込んだものを使用した。
非特許文献１では、ＳＮ比が良い方のマイクロフォンを基準とし、これを分母としていた。このため、雑音成分の位置によって精度にばらつきが見られ、基準のマイクロフォンにおけるＳＮ比が悪くなる。これに対して、本発明の図１に示した構成のシステムでは、例えば（１）式のように入力信号の平均値との比を用いるなどするため、このような問題を解決できる。
これを図３に示す。図３のグラフのRoman's Systemと、本発明の図１に示した構成のシステム(Proposed System)とを比較すると、Roman's Systemの方は、０度を中心として左右がアンバランスなのに対して、本発明では左右のバランスがほぼ均等になっていることが分かる。
さて、色々な条件で、シミュレーションを行った。スピーカーとレシーバ間の距離は１．４ｍとし、音源はすべて仰角０°とした。また、水平角は正面方向を０°，右側を＋，左側を−，ＳＮ比は−５，０，５，１０ｄＢとした。ＳＮ比の評価は全て１つのチャンネルにおいて行った。なお、複数雑音成分が存在する場合には、それらを全て加算した上で、やはり左耳でＳＮ比を求めた。
目的信号には、ＮＴＴ−ＡＴの音素バランス１０００文広帯域音源データベースに収録されている「ふしぎな感銘と不意をつかれた驚異を覚えるとき、感情移入せずにはいられなかった。」を用いた。話者はＭＩＹ（男性）である。ターゲット信号の一は水平角０°とした。
雑音源の位置や種類については、図４に示した３つの条件を設定し、シミュレーションを行った。

評価指標は、 Segmental SNRとLog-spectral distance （ＬＳＤ）を用いた。Segmental SNRはその値が大きいほど、ＳＮ比が改善されていることを示し、ＬＳＤはその値が小さいほど音源のひずみが小さいことを示す。これらの算出式を次に示す。
ただし、ｓ（・）はターゲット信号、＾ｓ（・）処理後の音声信号であり、また、Ｌはフレームの総数を、Ｋは１フレーム内のサンプル数を表す。δは対数スペクトルのダイナミックレンジがおよそ５０ｄB以内となるように設定されたパラメータである。

シミュレーション実験を行い、各条件におけるSegmental SNR及び、ＬＳＤの結果を図５に示す。歪みを示すＬＳＤは同程度であり、分離性能を示すSegmental SNRの結果は非特許文献１に比べて１〜２ｄＢ程度向上していることが明らかであり、本発明の利点がわかる。

また、シミュレーション実験により、本発明で得られる出力信号が音空間情報を残していることを確かめた。図６には、目的音の真の２ｃｈレベル差と、分離音の２ｃｈレベル差を示す。目的音が存在している区間では、目的音源を分離抽出した後の２ｃｈ信号のレベル差が、雑音なしにおける２ｃｈの入力で得られた目的音の真のレベル差と等しくなっていることが確かめられており、本発明の利点が示される。

本発明は、従来の方法に比較して、
（１）基準のマイクロフォンを決める必要がないことから雑音成分の位置によらず、一定の精度が期待できる。
（２）２出力化したことにより、両耳聴が可能となった。
（３）左右の入力信号に対し、同じフィルタを通していることからＩＴＤやＩＬＤが保存され、両耳の空間情報を残したまま目的の音源を強調することができる。
などの利点がある。
従って、図７に示すように、本発明の音源分離強調システムを補聴器へ応用すれば、音源強調に加え、聴者自身の持つ選択的両耳聴能の利用により、難聴者における聞き取りの向上が期待される。

本発明の実施の形態に係る音源分離強調システムの構成を示すブロック図である。図１の音源分離強調システムにおけるフィルタ処理部の他の構成例を示す図である。目的音男性話者０°、雑音をホワイトノイズである場合における、雑音方向を変化させたときの本発明（Proposed System)と非特許文献１(Roman's System)による分離性能を示した図である。様々な方向の複数の雑音環境下における目的音の分離評価シミュレーションにおける音源方向の条件を示した図である。様々な方向の複数の雑音環境下における目的音の分離評価シミュレーションにおける本発明（Proposed System)と非特許文献１(Roman's System)の性能評価結果を示したものである。本発明による分離出力信号が目的音の音空間情報を保存していることを表している目的音の真の２ｃｈレベル差と、分離音の２ｃｈレベル差を示したものである。補聴器に本システムを適用した場合の構成を示す図である。

Claims

複数の音源から入力する信号を受信し、２チャンネルの受信信号を出力する２個の受信部と、
該２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引くことにより、目的とする信号成分のみを消去して目的外の雑音信号とするフィルタ部と、
該フィルタ部により抽出された雑音信号と、該２チャンネルの受信信号の平均との割合から、時間周波数領域ごとに受信信号に対する目的音の成分比を推定し、推定により得られた目的音成分比と受信信号を用いて、受信信号から必要のない成分を除去するための時間周波数領域のマスクフィルタ係数を推定するマスクフィルタ係数推定部と、
前記推定されたマスクフィルタ係数と、２チャンネルの受信信号とを用いて、２チャンネルの出力信号を出力するマスクフィルタ部と
を備え、音源の空間情報を保持したまま目的音を抽出することを特徴とする音源分離強調システム。
請求項１に記載の音源分離強調システムにおいて、
前記フィルタ部は、前記２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引く２つの構成の１つを選択する
ことを特徴とする音源分離強調システム。
請求項１に記載の音源分離強調システムにおいて、
前記２チャンネルの受信信号を出力する２個の受信部は、ｍ個（ｍ≧２：ｍは整数）設けた受信部から２個を選択し、
前記フィルタ部は、選択された２個の受信部からの２チャンネルの受信信号のうちの１つを入力として適応フィルタ処理を行い、その出力信号を該２チャンネルの他の受信信号から引く構成の１つを選択する
ことを特徴とする音源分離強調システム。
請求項１〜３のいずれかに記載の音源分離強調システムにおいて、
前記受信部は、複数の音源に対して異なる位置に設置したマイクロフォンである
ことを特徴とする音源分離強調システム。