JP2009272876A - 音源分離強調システム - Google Patents

音源分離強調システム Download PDF

Info

Publication number
JP2009272876A
JP2009272876A JP2008121524A JP2008121524A JP2009272876A JP 2009272876 A JP2009272876 A JP 2009272876A JP 2008121524 A JP2008121524 A JP 2008121524A JP 2008121524 A JP2008121524 A JP 2008121524A JP 2009272876 A JP2009272876 A JP 2009272876A
Authority
JP
Japan
Prior art keywords
signal
sound source
sound
signals
received signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008121524A
Other languages
English (en)
Inventor
Shuichi Sakamoto
修一 坂本
Ai Sasaki
愛 佐々木
Yoichi Suzuki
陽一 鈴木
Satoru Hongo
哲 本郷
Junfeng Li
軍鋒 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Institute of National Colleges of Technologies Japan
Original Assignee
Tohoku University NUC
Institute of National Colleges of Technologies Japan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Institute of National Colleges of Technologies Japan filed Critical Tohoku University NUC
Priority to JP2008121524A priority Critical patent/JP2009272876A/ja
Publication of JP2009272876A publication Critical patent/JP2009272876A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】目的音の音空間情報を保存した高品質な2出力信号を得ること
【構成】音源分離強調システムは、多数の音源から発生される音響信号を異なる2点で収録する受信部111,112と、受信部111、112からの受信信号X,Xを入力として該信号を処理した後に、異なる点の受信信号X,Xとの差信号に目的音源の信号が含まれなくなるようなフィルタ処理部120と、フィルタ処理部120の出力信号と受信部111,112からの信号X,Xを受けて、目的音源を強調するような時間周波数フィルタ係数を推定するマスクフィルタ推定部130と、マスクフィルタ推定部130からの信号Gを受信部からの信号X,Xに乗ずることにより目的外音を低減し、空間音情報を保持した目的音を強調するマスクフィルタ140とを有する。
【選択図】図1

Description

本発明は、複数の音が異なる方位から提示されている環境下において、複数の受信部(例えばマイクロフォン)を用いてある目的音を選択的に分離強調し、分離音の空間音情報を保持した2出力(2チャンネル)の音響信号を出力する技術に関するものである。
一般に我々人間は、雑音環境下においても会話をし、その内容が理解される。これは左右両耳に入力される音響信号の特性が、音源位置に依存して変化することに起因し、人間はこの変化を検出することができることによる。これは、一般にカクテル・パーティ効果として知られている。複数の音が異なる方位から提示されている環境下において、ある音を選択的に入力する選択的両耳聴アルゴリズム(カクテル・パーティ効果アルゴリズム)は、ヒトの聴覚機構の実現という観点から様々な研究がされている。
特許文献1では、周波数領域両耳聴モデル(FDBM:Frequency Domain Binaural Model)を用いて、複数の音源から発生される音響信号を左右両受音部から入力し、入力した左右両入力信号を周波数帯域ごとに分割し、左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、全周波数帯域で各周波数帯域ごとに得られたIPDまたはILDと、データベースのそれとを比較することにより各周波数帯域ごとに音源方向の候補を求め、各周波数帯域ごとに得られた音源方向のうち出現頻度が高い方向を、音源方向と推定する方法により、複数の音が発生している環境下で、左右、上下二次元的に存在する複数の音源方向を推定する方法が提案されている。
特許文献2では、特許文献1の周波数変換をウェーブレット変換におきかえることによって、人間の聴覚フィルタに合致させて、かつデータベース容量と計算の回数を特許文献1の1/10程度に抑える効果をもち、特許文献1と同様に複数の音が発生している環境下で、左右、上下二次元的に存在する複数の音源方向を推定する方法が提案されている。
非特許文献1では、適応フィルタを用いてターゲット信号を消去し、雑音成分を推定するブロックと、バイナリマスクを算出するブロックの2つからなり、適応フィルタを用いて入力信号からターゲット信号を消去し、雑音成分のみの信号を作る。作った雑音成分のみの信号と、基準となる1個のマイクロフォンの入力信号との比OIR(Output Input Ratio)を求める。
OIRは次式で与えられる。
ここで、X(ω,l)は、片側(左)の入力信号であり、N(ω,l)は、適応フィルタの出力信号である。前記のOIRの値により、以下の式に従って判定し、バイナリマスクBMを作成する。
特開2004−325284号公報『音源方向を推定する方法、そのためのシステム、および複数の音源の分離方法、そのためのシステム』 特開2007−240605号公報『複素ウェーブレット変換を用いた音源分離方法、および音源分離システム』 N. Roman et al, "Binaural segregation in multisource reverberant environments," J. Acoust. Soc. Am., 120, 6, 2006.
特許文献1及び特許文献2では、その分離能力は低く、さらに分離音源に大きな歪みが残るという問題がある。また、非特許文献1では、音源出力が1出力であるため、ステレオ出力による音空間情報を利用することができない。さらに、音源分離フィルタが時間周波数領域で1、0の急峻なものとなっているため、目的音源が存在する時間周波数域と存在しない時間周波数域の境界部分の誤差が大きくなることが推定できる。
本発明は、上記問題を解決するために、音源出力を複数とした2出力のシステムに着目し、目的音の音空間情報を保存した高品質な2出力信号を得ることを目的としている。
上記目的を達成するため、本発明は、複数の音源から入力する信号を受信し、2チャンネルの受信信号を出力する2個の受信部と、該2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引くことにより、目的とする信号成分のみを消去して目的外の雑音信号とするフィルタ部と、該フィルタ部により抽出された雑音信号と、該2チャンネルの受信信号の平均との割合から、時間周波数領域ごとに受信信号に対する目的音の成分比を推定し、推定により得られた目的音成分比と受信信号を用いて、受信信号から必要のない成分を除去するための時間周波数領域のマスクフィルタ係数を推定するマスクフィルタ係数推定部と、前記推定されたマスクフィルタ係数と、2チャンネルの受信信号とを用いて、2チャンネルの出力信号を出力するマスクフィルタ部とを備え、音源の空間情報を保持したまま目的音を抽出することを特徴とする音源分離強調システムである。
前記フィルタ部は、前記2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引く2つの構成の1つを選択してもよい。
前記2チャンネルの受信信号を出力する2個の受信部は、m個(m≧2:mは整数)設けた受信部から2個を選択し、前記フィルタ部は、選択された2個の受信部からの2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を該2チャンネルの他の受信信号から引く構成の1つを選択することもできる。
前記受信部は、複数の音源に対して異なる位置に設置したマイクロフォンとし、例えば、補聴器等に適用することもできる。
本願の音源分離強調システムにおいては、2チャンネルの出力により、空間的音情報を保持して音響信号を得ることができる。
また、m点(m≧2:mは整数)の受信信号から選択した2チャンネル信号により、効果的に音源の空間情報を保持したまま高精度に目的音を抽出することができる。これは、目的音源と雑音源の配置によっては、目的とする信号成分のみを消去する精度が悪くなるため、他点の信号を組み合わせる結果を利用することができるからである。
次に、本発明の実施の形態に係る多入力二出力の音源分離強調システムについて、図面を参照しながら説明する。
なお、以下の実施の形態により本発明が限定されるものではない。以下で、各部はアナログ信号をアナログ処理しても、信号をデジタル化してデジタル処理で各部を実現してもよい。デジタル処理を行う場合は、プロセッサで実行するプログラムにより処理を実現してもよい。
図1に、本発明の実施の形態に係る二出力の音源分離強調システムの構成を示す。図1では、2点から入力する例を示す。
図1に示すように、音源分離強調システムは、多数の音源から発生される音響信号を異なる2点で収録する受信部111,112と、受信部111、112からの受信信号X,Xを入力として該信号を処理した後に、異なる点の受信信号X,Xとの差信号に目的音源の信号が含まれなくなるようなフィルタ処理部120と、フィルタ処理部120の出力信号と受信部111,112からの信号X,Xを受けて、目的音源を強調するような時間周波数フィルタ係数を推定するマスクフィルタ推定部130と、マスクフィルタ推定部130からの信号Gを受信部からの信号X,Xに乗ずることにより目的外音を低減し、空間音情報を保持した目的音を強調するマスクフィルタ140とを有する。
受信部111,112は、例えば、2個のマイクロフォンが配置された構成により、2点間で複数音源から発生される音響信号を収録する。収録された2ch間の音響信号は、それぞれ電気的な信号データに変換されてフィルタ処理部120へ渡される。このときに、アナログ/デジタル変換により、電気的な信号をデジタル信号としてもよい。
フィルタ処理部120では、受信部111,112から渡された信号データX,Xのうち、一方の信号(図1ではX)に対して適応フィルタ121により処理を施し、フィルタ出力信号とフィルタ入力信号とは異なる点からの信号(図1ではX)との差信号に含まれる目的音源成分が小さくなる(雑音信号Nが大きくなる)ように適応制御している。
フィルタ処理部120の出力信号Nは、マスクフィルタ推定部130に渡される。
マスクフィルタ推定部140は、受信部111,112からの信号データX,Xとフィルタ処理部120の出力信号Nに基づき、それらの比を求め、非線形な判断処理を行い、マスクフィルタ係数を推定する。
マスクフィルタ係数の推定の処理について説明する。
受信した信号をX(ω,l),X(ω,l)(周波数帯域番号,lを時間フレーム番号)としたときに、フィルタ処理部120からの信号とフィルタ処理部120への入力信号と異なる点からの信号との差信号をN(ω,l)とすると、
なるR(ω,l)を判別指標とする。
(1)式から、R(ω,l)≒1であれば、入力部への入力信号の平均値と雑音成分がほぼ等しいことを意味する。即ち、このときには入力部への入力信号は雑音成分で構成され、目的とする信号は含まれていないと考えられる。逆にR(ω,l)≪1であれば、入力部への入力信号の平均値が雑音成分よりも大きくなり、入力信号には目的信号が多く含まれていると考えることができる。このことから、R(ω,l)の値に基づいて、例えば次式のようにマスクフィルタ係数G(ω,l)を推定することができる。ここでX(ω,l),X(ω,l)は、2つの受信部111,112からの信号である。
マスクフィルタ係数GはX(ω,l),X(ω,l),N(ω,l)の大きさによって、様々な関数を適切に用いるものであり、上式により制限されるものではない。
例えば、良い実現法のひとつには、
という閾値と前記式(2)により推定してもよい。
このマスクフィルタ推定部130の出力G(ω,l)と、入力信号X(ω,l),X(ω,l)とから、マスクフィルタ部140により以下のように処理して、出力信号^S(ω,l),^S(ω,l)を生成する。
さて、本発明のシステムでは、信号の振幅値のみを変化させ、かつ左右で同じフィルタを用いているため、出力信号では、ITDやILDが保存される。
従って、ターゲット信号の空間信号を保存した音源信号の強調ができるため、処理後の信号においても選択的両耳聴能を利用でき、例えば、補聴器やヘッドフォン等の両耳で音楽を聞く等への応用に有効である。
[他の実施形態1]
図2に、図1の実施形態のフィルタ処理部120の他の実施形態を示す。
図2(a)に示した構成は、図1に示したフィルタ処理部120と同じ構成であり、X信号に対して適応フィルタ121により処理を施し、フィルタ出力信号とX信号との差信号に含まれる目的音源成分が小さくなる(雑音信号Nが大きくなる)ように適応制御している。
図2(b)に示した構成は、図2(a)とは逆に、X信号に対して適応フィルタ123により処理を施し、フィルタ出力信号とX信号との差信号に含まれる目的音源成分が小さくなる(雑音信号Nが大きくなる)ように適応制御している。
この実施形態では、図2(a)と図2(b)の2つの構成ができるように用意しておき、例えば、右側に目的音源があり、右側の音源を強調すべき場合は、図2(a)の構成を選択し、左側に目的音源があり、左側の音源を強調すべき場合は、図2(b)の構成を選択する。2つの構成の選択はスイッチング回路(図示せず)を設け、目的音源の位置により、フィルタ処理部120の構成を変化させる。
この構成により、目的音源の位置により、最適なフィルタ処理部の構成を選択することができる。
[他の実施形態2]
図2に示した構成は、マイクロフォン等の受信部は2個設けた場合の構成を示している。しかし、受信部は2個に限られる必要はない。それぞれ、異なる位置に設置したm個(m≧2:整数)の受信部とそれに接続される適応フィルタを設けることもできる。
この場合、目的音源の位置により、m個の受信部の中の2個の受信部を選択できるようなスイッチング回路と、選択された2個の受信部に接続されるように、適応フィルタの中から1個を選択し、図2に示すように、選択された1個の適応フィルタの出力信号は、それぞれ適応フィルタ入力信号とは異なる点からの入力信号との差信号をとり、その差信号に含まれる目的音源成分が小さくなる(雑音信号Nが大きくなる)ように適応制御するスイッチング回路を設けている。
2個の受信部の選択は、目的音源の信号成分のみを適応フィルタを用いて消去する精度がよくなるように選択するとよい。
この構成では、多入力(m入力)から2つのペアの信号を取り出し、目的とする音源信号を最初に適応フィルタを用いて消去し、目的外雑音成分を推定する。このように推定した1つ以上の雑音成分と入力信号との比から時間周波数平面上のある時刻、ある周波数の小領域(以下周波数ビンと呼ぶ)ごとに、目的信号の割合が多いビンの乗算係数を1に近くし、目的信号の割合が少ないビンの乗算係数を0に近くすることにより、目的の信号を抽出することが可能となる。
次に、シミュレーションを行った実用上の一例を示す。
図1に示した構成の音源分離強調システムを用いたシミュレーションには音源信号、あるいは雑音信号に対し、MITにより配布されているKEMARダミーヘッドの頭部伝達関数(HRTF:Head-Related Transfer Function)を畳み込んだものを使用した。
非特許文献1では、SN比が良い方のマイクロフォンを基準とし、これを分母としていた。このため、雑音成分の位置によって精度にばらつきが見られ、基準のマイクロフォンにおけるSN比が悪くなる。これに対して、本発明の図1に示した構成のシステムでは、例えば(1)式のように入力信号の平均値との比を用いるなどするため、このような問題を解決できる。
これを図3に示す。図3のグラフのRoman's Systemと、本発明の図1に示した構成のシステム(Proposed System)とを比較すると、Roman's Systemの方は、0度を中心として左右がアンバランスなのに対して、本発明では左右のバランスがほぼ均等になっていることが分かる。
さて、色々な条件で、シミュレーションを行った。スピーカーとレシーバ間の距離は1.4mとし、音源はすべて仰角0°とした。また、水平角は正面方向を0°,右側を+,左側を−,SN比は−5,0,5,10dBとした。SN比の評価は全て1つのチャンネルにおいて行った。なお、複数雑音成分が存在する場合には、それらを全て加算した上で、やはり左耳でSN比を求めた。
目的信号には、NTT−ATの音素バランス1000文広帯域音源データベースに収録されている「ふしぎな感銘と不意をつかれた驚異を覚えるとき、感情移入せずにはいられなかった。」を用いた。話者はMIY(男性)である。ターゲット信号の一は水平角0°とした。
雑音源の位置や種類については、図4に示した3つの条件を設定し、シミュレーションを行った。
評価指標は、 Segmental SNRとLog-spectral distance (LSD)を用いた。Segmental SNRはその値が大きいほど、SN比が改善されていることを示し、LSDはその値が小さいほど音源のひずみが小さいことを示す。これらの算出式を次に示す。
ただし、s(・)はターゲット信号、^s(・)処理後の音声信号であり、また、Lはフレームの総数を、Kは1フレーム内のサンプル数を表す。δは対数スペクトルのダイナミックレンジがおよそ50dB以内となるように設定されたパラメータである。
シミュレーション実験を行い、各条件におけるSegmental SNR及び、LSDの結果を図5に示す。歪みを示すLSDは同程度であり、分離性能を示すSegmental SNRの結果は非特許文献1に比べて1〜2dB程度向上していることが明らかであり、本発明の利点がわかる。
また、シミュレーション実験により、本発明で得られる出力信号が音空間情報を残していることを確かめた。図6には、目的音の真の2chレベル差と、分離音の2chレベル差を示す。目的音が存在している区間では、目的音源を分離抽出した後の2ch信号のレベル差が、雑音なしにおける2chの入力で得られた目的音の真のレベル差と等しくなっていることが確かめられており、本発明の利点が示される。
本発明は、従来の方法に比較して、
(1)基準のマイクロフォンを決める必要がないことから雑音成分の位置によらず、一定の精度が期待できる。
(2)2出力化したことにより、両耳聴が可能となった。
(3)左右の入力信号に対し、同じフィルタを通していることからITDやILDが保存され、両耳の空間情報を残したまま目的の音源を強調することができる。
などの利点がある。
従って、図7に示すように、本発明の音源分離強調システムを補聴器へ応用すれば、音源強調に加え、聴者自身の持つ選択的両耳聴能の利用により、難聴者における聞き取りの向上が期待される。
本発明の実施の形態に係る音源分離強調システムの構成を示すブロック図である。 図1の音源分離強調システムにおけるフィルタ処理部の他の構成例を示す図である。 目的音男性話者0°、雑音をホワイトノイズである場合における、雑音方向を変化させたときの本発明(Proposed System)と非特許文献1(Roman's System)による分離性能を示した図である。 様々な方向の複数の雑音環境下における目的音の分離評価シミュレーションにおける音源方向の条件を示した図である。 様々な方向の複数の雑音環境下における目的音の分離評価シミュレーションにおける本発明(Proposed System)と非特許文献1(Roman's System)の性能評価結果を示したものである。 本発明による分離出力信号が目的音の音空間情報を保存していることを表している目的音の真の2chレベル差と、分離音の2chレベル差を示したものである。 補聴器に本システムを適用した場合の構成を示す図である。

Claims (4)

  1. 複数の音源から入力する信号を受信し、2チャンネルの受信信号を出力する2個の受信部と、
    該2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引くことにより、目的とする信号成分のみを消去して目的外の雑音信号とするフィルタ部と、
    該フィルタ部により抽出された雑音信号と、該2チャンネルの受信信号の平均との割合から、時間周波数領域ごとに受信信号に対する目的音の成分比を推定し、推定により得られた目的音成分比と受信信号を用いて、受信信号から必要のない成分を除去するための時間周波数領域のマスクフィルタ係数を推定するマスクフィルタ係数推定部と、
    前記推定されたマスクフィルタ係数と、2チャンネルの受信信号とを用いて、2チャンネルの出力信号を出力するマスクフィルタ部と
    を備え、音源の空間情報を保持したまま目的音を抽出することを特徴とする音源分離強調システム。
  2. 請求項1に記載の音源分離強調システムにおいて、
    前記フィルタ部は、前記2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を他の受信信号から引く2つの構成の1つを選択する
    ことを特徴とする音源分離強調システム。
  3. 請求項1に記載の音源分離強調システムにおいて、
    前記2チャンネルの受信信号を出力する2個の受信部は、m個(m≧2:mは整数)設けた受信部から2個を選択し、
    前記フィルタ部は、選択された2個の受信部からの2チャンネルの受信信号のうちの1つを入力として適応フィルタ処理を行い、その出力信号を該2チャンネルの他の受信信号から引く構成の1つを選択する
    ことを特徴とする音源分離強調システム。
  4. 請求項1〜3のいずれかに記載の音源分離強調システムにおいて、
    前記受信部は、複数の音源に対して異なる位置に設置したマイクロフォンである
    ことを特徴とする音源分離強調システム。
JP2008121524A 2008-05-07 2008-05-07 音源分離強調システム Pending JP2009272876A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008121524A JP2009272876A (ja) 2008-05-07 2008-05-07 音源分離強調システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008121524A JP2009272876A (ja) 2008-05-07 2008-05-07 音源分離強調システム

Publications (1)

Publication Number Publication Date
JP2009272876A true JP2009272876A (ja) 2009-11-19

Family

ID=41439032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008121524A Pending JP2009272876A (ja) 2008-05-07 2008-05-07 音源分離強調システム

Country Status (1)

Country Link
JP (1) JP2009272876A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384753B2 (en) 2010-08-30 2016-07-05 Samsung Electronics Co., Ltd. Sound outputting apparatus and method of controlling the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384753B2 (en) 2010-08-30 2016-07-05 Samsung Electronics Co., Ltd. Sound outputting apparatus and method of controlling the same

Similar Documents

Publication Publication Date Title
JP4162604B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US20190341015A1 (en) Single-channel, binaural and multi-channel dereverberation
CN106664485B (zh) 基于自适应函数的一致声学场景再现的系统、装置和方法
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP6616946B2 (ja) 人工聴覚ヘッドセット
JP5738488B2 (ja) ビームフォーミング装置
US8958572B1 (en) Adaptive noise cancellation for multi-microphone systems
JP6834061B2 (ja) 不一致のトランスオーラルラウドスピーカシステムのためのエンハンスド仮想ステレオ再生
KR20190085927A (ko) 적응성 빔포밍
US8682006B1 (en) Noise suppression based on null coherence
JP6832968B2 (ja) クロストーク処理の方法
KR101989062B1 (ko) 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템
KR101934999B1 (ko) 잡음을 제거하는 장치 및 이를 수행하는 방법
WO2008045476A2 (en) System and method for utilizing omni-directional microphones for speech enhancement
JP2004187283A (ja) マイクロホン装置および再生装置
JP2007288775A (ja) マルチチャネルエコー補正システムおよび方法
TW201727623A (zh) 聲場增強裝置及方法
Marquardt et al. Interaural coherence preservation for binaural noise reduction using partial noise estimation and spectral postfiltering
KR20190085988A (ko) 상관해제 필터들의 적응적 제어를 위한 방법 및 장치
JPWO2016076237A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2009272876A (ja) 音源分離強調システム
CN109429167B (zh) 音频强化装置及方法
Khan et al. A new cascaded spectral subtraction approach for binaural speech dereverberation and its application in source separation
JP2017181761A (ja) 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム
JP5246700B2 (ja) 補聴システム