JP2010054728A

JP2010054728A - 音源抽出装置

Info

Publication number: JP2010054728A
Application number: JP2008218565A
Authority: JP
Inventors: Masato Togami; 真人戸上; Yohei Kawaguchi; 洋平川口; Yasunari Obuchi; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2010-03-11
Anticipated expiration: 2028-08-27
Also published as: JP5231139B2

Abstract

【課題】残響環境で、複数の音声が混ざりあった中から特定の音源成分を抽出する。
【解決手段】本発明の多チャンネル空間予測及び歪み補正処理により、室内残響環境で、複数の音声が混ざりあった音を音源毎に高精度に分離することが可能となる。
【選択図】図４

Description

本発明は会話抽出装置に関し、様々な音源が混ざった中から特定の音源の信号のみを抽出する音源抽出装置に関する。

複数のマイクロホンを用いて、様々な音の中から、特定の音のみを抽出する音源分離技術が従来より盛んに検討されている。走行騒音が重畳した車室内収録の音声データからドライバの声を抽出するなどの応用が検討されてきている（例えば、特許文献１参照）。従来の音源分離技術は、独立成分分析に基づくブラインド音源分離技術と、ＳＮＲ最大化基準に基づく方法（例えば、非特許文献２参照）などのビームフォーミング技術の２つに大別される。

特開2007-10897号公報 J. Chen, J. Benesty, and Y. Huang, "A minimum distortion noise reduction algorithm with multiple microphones," IEEE Trans. ASLP, vol.16, pp.481-493, 2008 S. Araki, H. Sawada, and S. Makino, "Blind speech separation in a meeting situation with maximum snr beamformers," Proc. ICASSP2007, vol.I, pp.41-44, 2007 M. Togami, T. Sumiyoshi, and A. Amano, "Stepwise phase difference restoration method for sound source localization using multiple microphone pairs," Proc. ICASSP2007, vol.I, pp.117-120, 2007.

ブラインド音源分離技術は、マイク配置や目的音方向の情報を必要としないという利点があるが、残響が存在するような環境では性能が十分ではないという課題がある。ＳＮＲ最大化基準に基づくビームフォーミング法は、信号帯域が広帯域の場合、性能が悪いという問題がある。そこで、時間周波数分解により、狭帯域信号に変換した信号に対して、ＳＮＲ最大化基準に基づくビームフォーミング法を適用することが一般的である。しかし、一般に狭帯域信号に変換するためには、フレーム長が長い必要があるが、フレーム長が長い場合、音声の定常性の仮定が崩れて、かえって性能が劣化するという問題があった。時間領域の広帯域信号に適用可能な手法として、最小歪みビームフォーマ法（例えば、非特許文献１参照）がある。この方法は、雑音がプロジェクタのファンの音など、定常的な場合は雑音抑圧効果が高いが、原理的に雑音が音声のように時々刻々音量が変化する、非定常な雑音の場合、雑音抑圧効果が低いという課題があった。

本発明の音源抽出装置は、雑音の空間的伝達特性を複数チャンネルのマイク素子を用いて推定することが可能な多チャンネル空間予測と、多チャンネル空間予測に伴う目的音の歪みの補正処理を有する。多チャンネル空間予測では、雑音が定常/非定常にかかわりなく、雑音の空間伝達特性を推定できる。したがって推定した空間伝達特性を用いれば、非定常な雑音であっても、抑圧することが可能である。また、本発明は、複数タップを持った雑音除去フィルタを有しており、残響を考慮して雑音を抑圧することができる。同様に目的音の残響も考慮できるため、目的音の残響成分を歪まず取り出すことができる。

本発明の音源抽出装置は、複数のマイクロホン素子からなるマイクロホンアレイと、マイクロホンアレイから出力されるアナログ信号をデジタル信号に変換するＡＤ変換装置と、計算装置と、記憶装置とを有し、計算装置は、ＡＤ変換装置によって変換されたデジタル信号中の雑音成分を抑圧するようなデジタル信号処理を施し、雑音抑圧信号を取り出した後、該雑音抑圧信号中に含まれる目的音の歪みを補正し、補正後の信号を再生又は記憶装置に記憶する。

計算装置は、複数のマイクロホン素子のうちの１つの素子に含まれる雑音信号を当該素子以外の素子に含まれる雑音信号に第１のＦＩＲフィルタをかけたものの和で近似するとともに近似誤差の２乗和が最少となるように第１のＦＩＲフィルタの係数を決定する多チャンネル空間予測部を有し、雑音抑圧信号を、複数のマイクロホン素子のうちの任意の１素子の信号から当該素子以外の素子に含まれる信号に多チャンネル空間予測部で予測した第１のＦＩＲフィルタを重畳したものの和を差し引くことで生成することができる。

更に、雑音抑圧信号をマイクロホンアレイの全てのマイクロホン素子の出力に対して個々に生成し、生成した複数の雑音抑圧信号に第２のＦＩＲフィルタを施して１チャンネルの歪み補正信号を得る多チャンネル歪み補正部を有し、歪み補正信号とマイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の２乗誤差とマイクロホン素子の入力信号が雑音のみの場合の歪み補正信号の２乗和に定数値を掛けたものとの和が最も小さくなるように、多チャンネル歪み補正部の前記第２のＦＩＲフィルタを決定するのが好ましい。

更に、雑音信号を推定する雑音信号推定部を有し、推定した雑音信号と歪み補正信号に個別の第３のＦＩＲフィルタに重畳したものの和と、マイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の２乗誤差が最も小さくなるように第３のＦＩＲフィルタを決定し、歪み補正信号に第３のＦＩＲフィルタを重畳したものを出力する１チャンネル歪み補正部を有するのが好ましい。

雑音区間は、ユーザーの目的音位置の指定操作により同定した目的音位置の情報に基づいて算出した短時間区間毎の目的音パワーと雑音パワーの比率から計算される混合度をもとに同定することができる。

本発明の雑音抑圧法では、雑音の空間的伝達特性が不変であれば、雑音の原信号が音声のような非定常な雑音であっても原理的に消去することが可能である。したがって、複数の音声が混ざった音から特定の音声をとりだすことが可能であり、高精度な音声監視システムが実現可能である。また、本発明は、時間領域又は、サブバンド領域の広帯域の信号に対して適用可能であり、時間周波数領域に信号を変換する必要がない。時間周波数領域の音声の定常性問題を考慮する必要がなく、時間周波数領域の技術と比べて、性能の高い雑音抑圧信号を得ることが可能である。

以下、本発明の具体的な形態を、図を用いて説明する。
図１に、本発明の第一の実施例のハードウェア構成を示す。複数のマイクロホン素子を有するマイクロホンアレイ101にて取り込んだアナログ音圧は、ＡＤ変換装置102に送られ、アナログからデジタルデータに変換される。デジタルデータへの変換処理は、マイクロホン素子毎に行われる。変換された各マイクロホン素子のデジタル音圧データは、中央演算装置103に送られ、デジタル信号処理を施される。この際、デジタル信号処理を行うソフトウェア及び必要なデータは不揮発性メモリ105に予め記憶されており、また処理に必要なワークエリアは揮発性メモリ104上に確保される。デジタル信号処理により処理された音圧データはＤＡ変換装置106に送られ、デジタルデータからアナログ音圧に変換される。変換後、スピーカ107から出力され、再生される。本発明の第一実施例におけるソフトウェアブロックは全て中央演算装置103上で実行されるものとする。

図２に、第一実施例のソフトウェアブロック構成図を示す。また図２０に、ソフトウェアブロックと図１に示したハードウェア構成との対応関係を示す。波形取り込み部201はＡＤ変換装置で取り込んだマイクロホン素子毎のデジタルデータを揮発性メモリ104上に展開する。取り込んだ音圧データを次式(1)のように表記する。

ｘ_m(t) (1)
mはマイクロホン素子のインデックスを表し、１からＭまでの値をとる。Ｍは雑音抑圧処理に用いるマイクロホン素子数とする。tはサンプリング間隔単位の時間インデックスとする。

取り込んだ波形は、フィルタ適応処理部202に送られ、雑音抑圧フィルタの適応処理を行う。適応後のフィルタ係数は、揮発性メモリ104又は不揮発性メモリ105に確保されたフィルタデータ204に記憶される。フィルタリング部203は、記憶されたフィルタデータ204を読み込み、雑音抑圧フィルタを波形取り込み部201が取り込んだマイク入力信号に重畳し、雑音抑圧後の信号を得る。雑音抑圧後の信号は波形再生部205に送られ、スピーカ107から出力され、再生される。また雑音抑圧後の信号を揮発性メモリ104又は不揮発性メモリ105に記憶し、ネットワーク装置などを使って外部システムに送信するような構成をとっても良いし、別システムが読み出し再生するような構成をとっても良い。

波形取り込み部201が取り込む音は、ユーザーにとって不要な雑音だけか、又はユーザーが聞きたい目的音が混ざった音と仮定する。本発明は、このような音の中から、雑音を抑圧し、ユーザーが聞きたい目的音を取り出すことを目的としている。Ｍ個のマイク素子のうち一つをターゲットマイクと呼び、ターゲットマイクの入力信号から目的音成分を抜き出す。フィルタ適応処理部202は、波形取り込み部が得た音データを後述する方法で、ユーザーにとって不要な雑音だけか、又はユーザーが聞きたい目的音が混ざった音かを判定し、判定結果を用いてフィルタ適応を行う。フィルタの適応はいわゆるバッチ処理で行われる。つまりある程度長時間の録音データを使ってフィルタの適応を行う。それに対して、フィルタリング部203は、フィルタデータ204さえあれば、波形を得るたびに動作することが可能である。

図３にフィルタ適応処理部202内の処理のフローチャートを示す。フィルタ適応処理は、まず波形取り込み部が得た音をユーザーにとって不要な雑音だけの音か、又はユーザーが聞きたい目的音が混ざった音（混合音）のどどちらかを判定する。雑音取り込みS301では、雑音だと判定された時間帯のデータを取り込み、揮発性メモリ上に展開する。混合音取り込みS302では、混合音と判定された時間帯のデータを取り込み、揮発性メモリ上に展開する。得られた雑音を式(2)で表す。また得られた混合音を式(3)で表す。

Tはベクトル、行列の共役転置を表す演算子とする。それぞれ時間長Ln、Ls分データが得られるとする。

本発明では、フィルタバンク処理などを用いて、マイクで得られた信号を複数のサブバンドに分割した後、処理を行っても良い。その場合、信号がマイクから取り込まれた直後にアナリシスフィルタバンク処理を行い、サブバンドに分割し、各サブバンド毎に本発明の雑音抑圧処理を施し、サブバンド毎の雑音抑圧後の信号に対して、シンセシスフィルタバンク処理を行い、各サブバンドの信号が合成された形で得られる構成をとればよい。ＤＦＴ（Discrete Fourier Transform）モジュレートフィルタバンクを用いる場合、サブバンド分割後の信号は複素数になるが、本発明の処理は入力信号が複素数であっても実数であっても適用可能である。

得られた雑音、混合音は雑音多チャンネル空間予測S303で処理される。雑音統計量として、式(4)で表わされる雑音共分散行列と式(5)で表わされる雑音相関行列とが得られる。ここで、V_m(t)は式(6)で定義する。これはm番目のマイク入力信号を含まない要素数が(M-1)Lのベクトルである。Lはフィルタ長とする。またDは因果性を満たすための遅延とする。

m番目以外のマイク素子を用いて、m番目のマイク信号を２乗誤差最少となるように近似的に求めるフィルタ（ＦＩＲ＝Finite Impulse Responseフィルタ）は式(7)で表わされる。

以後、本発明におけるフィルタは、ＦＩＲフィルタとする。雑音多チャンネル空間予測では、マイク毎にこのフィルタを求める。従来のシングルチャンネル空間予測法（例えば、非特許文献１参照）では、あるマイク素子（予測先）の信号を他の１つのマイク素子（予測元）の信号で近似することを行う。反響残響の影響で予測先と予測元の振幅特性が大きく異なる場合にシングルチャンネル空間予測の予測精度が悪くなるという問題があった。それに対して、本発明の多チャンネル空間予測では、たとえある１つのマイク素子である振幅特性の谷ができていたとしても、他のマイクでその谷をカバーすることができるため、高精度な予測が可能である。雑音多チャンネル空間予測S303は、得られた雑音の多チャンネル空間予測フィルタを出力する。目的音推定S304では、式(8)でマイク毎に雑音が抑圧された信号y_m(t)を得る。X_m(t)は、式(9)で定義される。

この信号は、雑音が抑圧されており、目的音に起因する成分のみになっているが、空間予測フィルタにより目的音は歪んでしまっている。

目的音推定S304は、雑音抑圧信号とともに、雑音抑圧信号の共分散行列である式(10)及びターゲットマイクと雑音抑圧信号との相関行列である式(11)を出力する。targetはターゲットマイクのマイクインデックスとする。Y(t)は、式(12)で定義される。L₂は後段の歪み補正処理のフィルタ長とする。

残留雑音推定S305では、雑音のみの信号を多チャンネル空間予測処理による雑音抑圧処理にかけた時の出力信号y_v,m(t)を式(13)で算出する。得られた残留雑音成分と雑音の共分散行列として式(14)の結果を出力する。Y_v(t)は、式(15)で定義される。

空間的/F特歪み補正S306では、y_m(t)に含まれる目的音の歪みを後述する2段階の補正処理で補正して、補正後の信号を出力する。F特とは、周波数毎の振幅・位相特性を指す。2段階の補正をかけることで、空間的・振幅・位相特性的に補正がかかった信号が得られる。

図４に、本発明のフィルタリング部203の処理フローを示す。多チャンネル空間予測部401で、目的音と雑音が混合したm番目のマイク以外の入力信号に空間予測フィルタw_mを重畳する。遅延処理部402では、マイク入力信号を因果性を満たすために、m番目のマイク入力信号をDポイント遅延させる。遅延したマイク入力信号から多チャンネル空間予測フィルタ重畳後の信号を差し引くことで、雑音抑圧信号が得られる。多チャンネル歪み補正部403では、得られた多チャンネルの雑音抑圧信号に、式(16)で定義される多チャンネルの歪み補正フィルタHをかける。

歪補正後の信号s_distorted(t)はモノラル信号となる。１チャンネル歪み補正部404では、s_distorted(t)に周波数歪みの補正フィルタgを重畳し、歪み補正後の信号として下式(17)を得る。

図５に本発明の効果を示す。図５の最上段の波形は、ターゲットマイクに含まれる目的音信号を取り出した波形となる。この波形に近い雑音抑圧後の波形を得ることが目的となる。2段目の波形は、雑音が混合した後の波形である。雑音により元の目的音信号と異なった形となっていることが分かる。３段目の波形は、シングルチャンネル空間予測に基づく方法（例えば、非特許文献1参照）を適用した後の波形である。雑音成分は減っており、最上段の波形に近づいているが、歪みは大きく形は異なっている。４段目の波形は、本発明の処理により雑音抑圧を行った後の波形である。目的音に非常に近い波形になっていることが分かる。このように本発明によれば、歪みの小さい雑音抑圧信号を得ることができる。

図３の雑音取り込みS301での雑音区間の判定は、ユーザーが雑音のみが存在する時間区間を波形表示ツール上でドラッグして指定するような形態をとっても良い。また従来の独立成分分析や、後述するスパース性に基づく時間周波数振り分け法に基づく時間周波数領域音源分離により音を分離した信号と、ユーザーが指定した目的音の空間位置を元に雑音区間をシステムが自動的に同定するような形態をとっても良い。

後者の形態の具体的な処理フローを図６に示す。混合音取り込み601は、複数の音源が混ざった音を複数のマイクロホン素子で受音した信号を出力する。時間周波数領域音源分離602は、独立成分分析に基づく音源分離の場合には、時間周波数領域の音源方向推定（例えば、非特許文献３参照）を使って推定した時間周波数毎の音源方向推定結果をクラスタリングし、音源毎の原信号を復元する。

目的音指定603では復元した原信号の中から、ユーザーが抽出したい音を選択する。選択は、ユーザーがそれぞれの原信号の音をスピーカで再生させ聞きながら選択するような構成をとっても良いし、復元した原信号毎に音源方向推定（例えば、非特許文献３参照）を行い、推定した音源方向を画面上に表示し、画面上に表示した音源方向の中から、抽出したい方向をユーザーに選択させるような構成をとっても良い。このようにして、目的音指定603は、時間周波数領域音源分離602が出力した複数の復元信号の中で、ユーザーが抽出したい目的音がどの音源であるかの情報を出力し終了する。ここで、目的音の数は１つである必要はなく、複数であっても良い。

区間毎の処理604では、復元信号を数秒の短区間に切って、ループ処理を行う。目的音指定603後に復元信号は、目的音か雑音かに振り分けることが可能である。目的音と振り分けられた音を全て加算し、同様に雑音と振り分けられた音を全て加算する。加算後の目的音及び雑音の時間毎のパワーの時系列は、図７の最上段及び２段目に示すような形状となる。短区間毎の目的音のパワーをPs(τ)、雑音のパワーをPn(τ)とする。ここで、τは短区間のインデックスを表す変数とする。

混合度処理605では、目的音の雑音に対するパワー比率（混合度）の推定値として、Ps(τ)+ Pn(τ)とPs(τ)の比率を短区間毎に計算する。音源混合度は例えば、図７の3段目のような時系列となる。ソーティング606では、混合度が小さい短区間を同定する目的で、混合度が小さい上記比率を小さいものから順番に並べなおす。区間毎の処理607は、次の短区間に処理を移す。雑音区間推定608は、混合度が小さい短区間から予め定める上位Ｎ区間を取り出す。取り出した区間を雑音区間として出力して終了する。

時間周波数領域の音源分離処理として、時間周波数毎に計算した音源方向のヒストグラムから音源分離を行う例を図８に示す。時間周波数毎の処理801では、まず、複数素子のマイク入力信号を、短時間毎（フレームシフト）に処理する。短時間毎に処理を開始する波形の先頭をフレームシフトずつずらす。フレームシフトは数＋ｍｓ程度の時間長になるように予め定める。処理を開始する波形の先頭から終端までの時間長をフレームサイズと呼び、フレームシフトより長い値に設定する。マイク素子毎にフレームサイズ分のデータに対して、直流成分カット、ハニング窓重畳、短時間フーリエ変換を施し、時間周波数領域の信号を得る。短時間処理の処理単位をフレームと呼び、フレームのインデックスをτと記載する。マイク素子番号mで得られたｆ番目の周波数のフレームτの信号をx_m(f,τ)と記載し、X(f,τ)=[x₁(f,τ)…x_m(f,τ)… x_M(f,τ)]^Tとする。時間周波数毎の処理801では、周波数f、フレームτ毎に処理を行うループをスタートする。

位相差解析802では、GCC-PHATやSPIRE法(例えば、非特許文献３参照)により、周波数f、フレームτの音源方向を推定する。ヒストグラム生成803では、推定した音源方向のヒストグラムを推定する。周波数f、フレームτに求めた音源方向に対応するヒストグラムのビンに周波数f、フレームτ毎に１票加算される。時間周波数毎の処理804は、次の周波数又は次のフレームに処理を移す。ヒストグラムピークサーチ805は、求めた音源方向のヒストグラムのピークを探索する。前後のビンよりも値が大きいヒストグラムのビンがピークとして検出され、そのピークの中から、投票値が大きい順番で予め定める数のピークが抽出され、出力される。ピークの数Pはマイク数以下とする。ステアリングベクトル生成806では、周波数f、フレームτ毎の音源方向とヒストグラムピークサーチ805で求めた各ピークとの方向差を比較して、最も方向差が小さいピークを選択する。ステアリングベクトル生成806では、選択されたピークの番号がpとなる音源方向のうち、周波数fの音源方向に対応する入力ベクトルX(f,τ)の集合をΓ_p(f)とする。ピーク、周波数毎に１つ保持するステアリングベクトルa_p(f)を式(18)で求める。求めたステアリングベクトルの大きさを1に正規化する。正規化後のステアリングベクトルをa^_p (f)と表記する。このステアリングベクトルを元に生成した行列A(f)を式(19)とおく。逆フィルタリング807ではA(f)の一般化逆行列で定義されるフィルタ（式(20)）を時間周波数毎のマイク入力信号に重畳する。重畳後のベクトルは時間周波数毎の分離信号を要素に持つベクトルとなっている。

時間領域波形生成808では、音源毎に全ての時間周波数成分をより集め、逆短時間フーリエ変換及び重畳加算処理を行い、時間領域の音源毎の波形を得て、出力する。

図９には、雑音除去に加え残響除去をリアルタイムに行うための構成を記載している。波形取り込み部901からフィルタデータ904では、それぞれ図２の波形取り込み部201からフィルタデータ204と同じ内容の処理を行う。図２の構成では、ターゲットマイクをＭ個のマイクのうちのある特定の一つとしていたが、図９では全てのマイクの雑音抑圧後の波形を抽出する。つまり、ターゲットマイクを1からMまで変化させて、雑音抑圧を実施し、雑音抑圧後の波形を抽出する。

目的音区間抽出部905では、フィルタリング部903が出力する雑音抑圧後のMチャンネルの信号に対して、信号のパワー時系列を算出する。そして、パワーに基づくＶＡＤ（音声区間検出技術）を利用して、音声区間を抽出する。さらに、予め定める個数又は取り出した後の総時間長が所定の時間長になるように、パワーが大きい順で音声区間を抽出する。抽出した音声区間を目的音区間として出力する。このようにパワーが大きい音声区間を取り出すことで、高精度な空間伝達特性の学習が可能となる。

目的音伝達特性学習部906では、２次統計量に基づくマルチチャンネル残響除去で用いられる各種統計量を目的音区間抽出部905が取り出した目的音区間波形から学習し、学習後に残響除去フィルタを算出し、算出した残響除去フィルタを残響除去フィルタ907に書き出す。ここまでの処理がいわゆるバッチ処理であったのに対して、以後リアルタイムに取り出した波形に対する雑音抑圧処理及び残響除去処理を行う。

リアルタイム波形取り込み部908は、複数チャンネルの音データをフィルタリング処理するために必要な最小限のデータが得られるたびにそのデータを出力する。出力されたデータはフィルタリング部903に送られ、雑音抑圧された後、残響除去部909に送られる。

残響除去部909は、バッチ処理で適応した残響除去フィルタ907を読み込み、残響除去処理を行う。残響除去後のデータは、リアルタイム波形再生部910に送られ、ＤＡ変換を施され、スピーカから放出される。

一般に残響除去フィルタの適応には、長時間の観測データが必要であるため、バッチで適応したフィルタを使うのが望ましい。目的音が複数存在する場合を勘案し、目的音区間抽出部905で、得られた区間毎に音源方向推定を行い、得られた区間を方向推定結果を元にクラスタリングし、各クラスタ毎に所定の時間長の目的音信号をパワーに基づき抽出し、抽出した区間から目的音伝達特性学習部906で、残響除去フィルタを方向毎に求めるようにし、さらに残響除去部909の前に音源方向推定を行い、推定した方向に最も近い方向の残響除去フィルタを使って残響除去するような構成をとっても良い。

図１０に、図３の空間的/F特歪み補正S306の空間的歪み補正の構成例を示す。空間的歪み補正フィルタHは次式(21)で定義され、式(22)で計算される。

残留雑音推定部1001では、式(13)で定義されるy_v,m(t)を計算する。目的音推定部1002は、式(8)で定義されるy_m(t)を計算する。遅延処理部1007はターゲットマイクの入力信号に因果性を満たすための遅延Dを入れ、遅延後の信号を出力する。目的音共分散推定部1005は、R_{cov(noiseless)}を計算する。残留雑音共分散推定部1003は、R_{cov(noise,noiseless)}を計算する。μ乗算1004は、R_{cov(noise,noiseless)}の全要素にμを乗算する。R_{cov(noiseless)}+μR_{cov(noise,noiseless)}の逆行列invRを逆行列演算部1006で計算する。目的音相関行列推定部1008では、式(11)で定義される相関ベクトルR_{cor(noiseless)}を計算し、行列掛け算部1009では、R_{cor(noiseless)}invRの行列の積を計算する。行列の積を歪み補正フィルタＨとして出力する。

図１１にF特歪み補正の一構成を示す。多チャンネル歪み補正部1101は、式(16)で定義される多チャンネル歪み後の信号を算出する。遅延処理部1102は、ターゲットマイクの入力信号を因果性を満たす遅延Dだけ遅延させ、遅延後の信号を出力する。雑音共分散行列は、式(24)で定義されるR_cov(noise)を計算する。ここで、V(t)は式(23)で定義される。

μ乗算部1104は、R_cov(noise)の全ての要素に予め定める係数μを乗算する。目的音共分散推定部1105は、下式(26)で定義される行列R_cov(input)を計算する。ここで、X(t)は式(25)で定義される。

雑音相関推定部1107は、式(27)で定義される相関行列R_cor(noise)を計算する。

R_cov(input)+ μR_cov(noise)の逆行列invR2を逆行列演算部1106で計算する。行列掛け算部1108では、R_cor(noise)invR2の行列の積を計算し、それを雑音推定フィルタRとする。雑音推定部1109では、目的音と雑音が混合した多チャンネル信号X(t)から雑音成分n(t)をn(t)=RX(t)で推定する。n(t)は１ｃｈの雑音信号である。

最小２乗フィルタ推定部1110では、式(28)で表わされる入力信号推定値x_taget^(t-D)とx_target(t-D)の間の２乗誤差が最小値をとるg及びqを、最小２乗法（式(29)）で求める。式中”*”は畳み込みを表す演算子とする。求めた歪み補正フィルタgを出力して終了する。

図１２は、本発明の第二実施例のハードウェア構成を示した図である。マイクロホンアレイ1201で取り込んだ音データはAD変換装置1203でアナログの音圧からデジタル音圧データに変換される。変換されたデータを計算機1204上で処理した後、データはHUB1205を介してサーバ上の計算機に送信される。また、カメラ1202で取り込んだ画像データも音声データとともに送信される。サーバ上ではHUB 1206を介して、送信されたデータを受信する。受信したデータは、サーバ上の計算機1207で信号処理を施される。信号処理を施された音データは大規模ストレージ1211で録音される。

また会議データを閲覧するユーザーのリクエストに応じて、サーバはデータを会議データ閲覧ユーザーに送信する。閲覧ユーザーサイドのHUB 1211を介してデータが、閲覧ユーザーが保有する計算機1208に送られる。計算機1208上でデータが処理されスピーカ1209から再生される。また、一部の音響情報が表示装置1210に表示される。

図１３は、閲覧ユーザーの表示装置1210に表示する画面の構成を示している。表示装置1210の画面1301は4つのサブ画面からなる。カメラ画像表示部1301-1上には、会議時にカメラ1202で撮影した動画が表示される。音源位置表示部1301-2は、会議時にマイクロホンアレイで取り込んだ音から推定した音源位置を表示する。音源位置は、会議時の音声全てを使って作った方向ヒストグラムのピークサーチをすることで求める構成を取っても良いし、カメラ画像と同期して、映像時刻前後の音声波形から生成した方向ヒストグラムをピークサーチすることで求めた音源位置を表示するような構成を取っても良い。1301-2の画面を会議室を縮尺した平面図と見立て、音源の平面的な位置を表示するようにする。音源位置毎に、表示の色や形を変化させて表示しても良い。

発話タイミング表示部1301-3は、発話箇所を、発話音量に応じて濃淡を変えてマーキングする。音源位置表示部1301-2で各音源の表示に使った色や形で各音源の発話位置をマーキングするようにしても良い。サムネイル画像表示部1301-4は、発話箇所毎に1枚その発話箇所に含まれる時間帯のカメラ画像を表示する。カメラが複数台ある場合は、発話箇所の音源方向を写したカメラの画像を表示するようにしても良い。また、カメラ画像表示部1301-1のある特定の点をユーザーが計算機付属のマウスでクリックすると、そのクリック位置の音が再生されたり、音源位置表示部1301-2の音源位置をクリックすると、その音源の再生箇所が発話タイミング表示部1301-3に表示され、発話タイミング表示部1301-3の発話箇所をクリックすると、そのクリック箇所が再生されるような構成を取っても良い。

図１４は、本発明の第二実施例のソフトウェア構成図を示した図である。音取り込み部1401で取り込んだ複数チャンネルの音情報及び画像取り込み部1403で取り込んだ画像データは、データ送信部1404に送られ、サーバに送られる。また、会議拠点におけるマイクロホンアレイの各マイク素子の配置及びカメラの配置及び向きに関する情報1402も音情報や画像データと一緒に送信される。サーバ上では、データ受信部1405で、音情報や画像データ及びマイクロホンアレイの各マイク素子の配置及びカメラの配置及び向きのデータを受信し、拠点毎データ1413に記憶する。拠点毎データ1413は大規模ストレージ上のデータ領域とする。

閲覧拠点では、ユーザーI/F処理部1412で、ユーザーのクリック位置やドラッグ位置を認識し、再生する音源位置の情報に変換する。拠点毎データ1410内に記憶された該当音源位置の音声波形を再生する。拠点毎データ1410内に該当音源位置の音声波形が存在しなければ、会議データリクエスト部1406が、該当音源位置の音声波形を送信するリクエストをサーバに送信するような作りを取っても良い。サーバに送信されたリクエストはデータ受信部1407で受信される。そして音響情報生成部1409に、リクエストに含まれる再生音源位置の音声波形を抽出するようなコマンドを送付する。

音響情報生成部1409では、拠点毎データ1413に記憶された多チャンネルの音声波形とその音声波形を録音したマイクロホンアレイの空間的配置の情報から、本発明の第一の実施例に基づき再生音源位置の音声波形を分離して抽出する。データ送信部1408は、抽出した音声波形を閲覧拠点に送信する。また、カメラ画像や各時間の音源方向の情報を送付するようにしても良い。画像表示部1415は、カメラ画像を表示装置上のカメラ画像表示部に表示する。表示する際、再生音源波形に合わせて再生画像を変えても良い。音声再生部1411は、ユーザーが選択した音源位置の波形の指定された再生箇所を再生し、スピーカから音声を出力する。

図１５に、ユーザーI/F処理部及び音声再生部、画像表示部を含んだユーザークリックやドラッグ処理の処理フローを示す。聞きたい方向を選択1501で、ユーザーのクリック位置やドラッグ位置からユーザーの聞きたい方向を同定する。音源が存在するか1502で、同定した方向に音源が存在するか判定し、もし存在しない場合は、その方向に音源が存在しない旨、メッセージ提示1507して終了する。音源が存在する場合は、雑音区間同定1503で、第一実施例で示した図６の雑音区間抽出処理により、雑音区間を抽出する。目的音抽出1504で、雑音区間の情報から第一実施例で示した図３の雑音抑圧方式で雑音抑圧後の目的音を抽出する。再生区間を選択1505では、雑音抑圧後の目的音の発話区間を発話タイミング表示部に表示した後、ユーザーに発話区間の中から聞きたい区間を選択させる。音・画像を再生1506では、選択させた発話区間の音声を音声再生部が再生するとともに、再生発話区間に対応するカメラ画像を、表示装置1210のカメラ画像表示部1301-1上に再生発話区間と同期させて、表示する。再生終了後、処理を終了する。

図１６は、本発明の第三実施例の監視システムの異常音検出ブロックを示した図である。対象とする異常音は、例えば、工場における機械の異常時の動作音であったり、オフィス、家庭内でのガラスが割れる音などである。ハードウェア構成は、図１２に示した第二実施例のハードウェア構成と同一とする。またソフトウェアブロック構成は図１４に記載の構成と同一とする。音源情報生成部1601は、図１４の音響情報生成部に相当する。

異常音データベース1603には、異常音の振幅スペクトルやケプストラムなどの音響特徴量やHidden Markov Model 形式で記述された異常音の音響特徴量の遷移パターンの状態遷移情報が記憶されているものとする。パターンマッチング部1602は、取り出した音源波形の情報と異常音データベースに記載の異常音の情報とパターンマッチングを行う。音源波形に短時間フーリエ変換をかけ、振幅スペクトルやケプストラムなどの音響特徴量を抽出し、抽出した音響特徴量と異常音データベースに記載の異常音の音響特徴量の遷移パターンやHidden Markov Modelで記述された異常音のスペクトルパターンとの距離計算を行う。距離計算の結果から、異常音の存在確率のゆう度を計算する。Hidden Markov Modelで記述された異常音のスペクトルパターンの場合、ビタビアルゴリズムなどで高速に距離計算を行うことが可能である。

異常音判定部1604では、計算したゆう度から異常音が存在するかどうかを短時間区間毎に判定する。判定の結果、異常音が存在した場合は、アラート送信部1605で警告情報を送信する。警告情報は、閲覧拠点上のスピーカから予め定める警告音を鳴らすとともに、その異常音が発生した場所と時間帯を画面上に表示するような形態をとる。

図１７は、異常音検出処理の具体的な処理フローを示した図である。混合音取り込み1701では、様々な音が混ざった複数チャンネルの音データを取り込む。時間周波数領域音源分離1702で音源毎の信号を生成する。時間周波数領域音源分離では、音源毎の信号を完全には分離しきれないため、次にその分離精度を高める処理を加える。音源毎の処理1703では、分離した音源毎の処理ループを開始する。区間毎の処理1704では、処理対象の音源信号の各短時間区間毎の波形に対する処理ループを開始する。混合度処理1705では、処理対象の音源波形のパワーPs(t)と処理対象以外の音源のパワーを加算したものPn(t)とを用いて、混合度Ps(t)/(Pn(t)+Ps(t))を区間t毎に計算する。計算した混合度をソーティング1706で混合度が小さいものから順番に並び変える。区間毎の処理1707では、次の区間に処理を移す。雑音区間抽出1708では、ソーティング後の混合度の情報から、混合度が小さいものから順番に総時間が予め定める時間になるまで区間を抽出する。そして抽出した区間を雑音区間として出力する。雑音除去1709では、本発明の第一実施例の図３に示す処理フローにより雑音を除去した目的音だけの信号を抽出する。異常音検出1710で、異常音情報とのパターンマッチング処理を行い、異常音が検出された場合は、アラート送信部1711に処理を移して、アラートを閲覧拠点に送信した後次の音源の処理に移る。また異常音が検出されなかった場合は、何もせず次の音源の処理に移る。

図１８に、本発明に基づき、ユーザーが指定した音源位置の音声を高速再生するための話速変換処理の処理フローを示す。本処理フローは、図１４における音声再生部1411で処理される。本処理の目的は、ユーザーが指定した音源の音声をゆっくりと聞きやすい速度で再生し、それ以外の話者の音声を高速に再生することで、聞きたい音だけを聞きやすく再生することである。それ以外の音は高速に再生されるため、時間をかけずに聞き流すことができる。

目的音/雑音抽出1801では、本発明の第一実施例により、目的音が存在する区間と雑音だけの区間を抽出する。区間毎の処理1802では、抽出した音声を短時間区間にわけて、各区間毎のループ処理を開始する。SNRに基づく音声検出1803では、目的音の短時間パワーPs(t)と雑音の短時間パワーPn(t)からSNR=Ps(t)/Pn(t)を計算する。音声判定1804では、SNRが予め定める閾値以上であれば、音声がその短時間区間に存在すると判定し、その区間の再生速度を予め定める目的音区間用の話速に設定する（1806）。また、閾値以下であれば、その区間を雑音区間と判定し、雑音区間用話速に設定1805で、その区間の再生速度を予め定める雑音区間用の話速に設定する。ここで、予め雑音区間用の話速が目的音区間用話速より速くなるように設定しておく。設定の後、区間毎の処理1807で次の区間に処理を移す。設定した話速に従い再生1808で、実際にスピーカから設定した話速に従い話速変換処理を行い、変換後の音声を再生した後、終了する。

図１９は、ユーザーが選択した音源方向の情報だけを抽出し、再生する処理のフロー図である。1901から1904までは図１８の相当する処理と同様とする。このフローでは、区間を削除1905で、目的音区間と判定されなかった区間を再生区間から削除する。また、区間を残す1906で、目的音区間と判定された区間を再生区間に残す。区間毎の処理1907は、次の区間に処理を移す。設定した再生区間を再生1908では、設定した再生区間をスピーカから再生した後、処理を終了する。

本発明の雑音抑圧装置のハードウェア構成図。本発明の雑音抑圧装置のソフトウェアブロック構成図。本発明の雑音抑圧装置の処理フロー図。本発明の雑音抑圧装置のフィルタリング部の詳細ブロック構成図。本発明の雑音抑圧手法の効果を示す図。本発明のブラインド雑音抑圧装置の処理フロー図。本発明のブラインド雑音抑圧装置における混合度処理の例を示した図。本発明のブラインド雑音抑圧装置の時間周波数領域音源分離の構成例を示す図。雑音抑圧と残響除去を同時に行う信号処理装置のブロック図。本発明における多チャンネル歪み補正処理の詳細ブロック図。本発明における１チャンネル歪み補正処理の詳細ブロック図。本発明を会議支援システムや音声監視システムに応用する場合のハードウェア構成図。会議支援システムの画面表示例を示した図。会議支援システムのソフトウェアブロック構成を示した図。会議支援システムのユーザーインターフェース及び内部処理のフローチャート。本発明を音声監視システムに応用した異常音検出装置のブロック図。音声監視システムの処理フロー図。本発明の再生処理に話速変換処理を利用した処理フロー図。本発明の再生処理に無音削除処理を利用した処理フロー図。本発明の雑音抑圧装置のソフトウェアブロックとハードウェアの対応関係を示した図。

符号の説明

101…マイクロホンアレイ、102…ＡＤ変換装置、103…中央演算装置、104…揮発性メモリ、105…不揮発性メモリ、106…ＤＡ変換装置、107…スピーカ、201…波形取り込み部、202…フィルタ適応処理部、203…フィルタリング部、204…フィルタデータ、205…波形再生部、401…多チャンネル空間予測部、402…遅延処理部、403…多チャンネル歪み補正部、404…１チャンネル歪み補正部、901…波形取り込み部、902…フィルタ適応処理部、903…フィルタリング部、904…フィルタデータ、905…目的音区間抽出部、906…目的音伝達特性学習部、907…残響除去フィルタ、908…リアルタイム波形取り込み部、909…残響除去部、910…リアルタイム波形再生部、1001…残留雑音推定部、1002…目的音推定部、1003…残留雑音共分散推定部、1004…μ乗算部、1005…目的音共分散推定部、1006…逆行列演算部、1007…遅延処理部、1008…目的音相関行列推定部、1009…行列掛け算部、1101…多チャンネル歪補正部、1102…遅延処理部、1103…雑音共分散推定部、1104…μ乗算部、1105…目的音共分散推定部、1106…逆行列演算部、1107…雑音相関推定部、1108…行列掛け算部、1109…雑音推定部、1110…最小２乗フィルタ推定部、1201…マイクロホンアレイ、1201…カメラ、1203…ＡＤ変換装置、1204…計算機、1205…ＨＵＢ、1206…ＨＵＢ2、1207…計算機、1208…計算機、1209…スピーカ、1210…表示装置、1301…画面、1301-1…カメラ画像表示部、1301-2…音源位置表示部、1301-3…発話タイミング表示部、1301-4…サムネイル画像表示部、1401…音取り込み部、1403…画像取り込み部、1404…データ送信部、1405…データ受信部、1406…会議データリクエスト部、1407…データ受信部、1408…データ送信部、1409…音響情報生成部、1410…拠点毎データ、1411…音声再生部、1412…拠点毎データ、1601…音源抽出部、1602…パターンマッチング部、1603…異常音データベース、1604…異常音判定部、1605…アラート送信部

Claims

複数のマイクロホン素子からなるマイクロホンアレイと、
前記マイクロホンアレイから出力されるアナログ信号をデジタル信号に変換するＡＤ変換装置と、
計算装置と、
記憶装置とを有し、
前記計算装置は、前記ＡＤ変換装置によって変換されたデジタル信号中の雑音成分を抑圧するようなデジタル信号処理を施し、雑音抑圧信号を取り出した後、該雑音抑圧信号中に含まれる目的音の歪みを補正し、補正後の信号を再生又は前記記憶装置に記憶することを特徴とする音源抽出装置。
請求項１に記載の音源抽出装置において、前記計算装置は、前記複数のマイクロホン素子のうちの１つの素子に含まれる雑音信号を当該素子以外の素子に含まれる雑音信号に第１のＦＩＲフィルタをかけたものの和で近似するとともに近似誤差の２乗和が最少となるように前記第１のＦＩＲフィルタの係数を決定する多チャンネル空間予測部を有し、前記雑音抑圧信号を、前記複数のマイクロホン素子のうちの任意の１素子の信号から当該素子以外の素子に含まれる信号に前記多チャンネル空間予測部で予測した前記第１のＦＩＲフィルタを重畳したものの和を差し引くことで生成することを特徴とする音源抽出装置。
請求項２に記載の音源抽出装置において、前記雑音抑圧信号を前記マイクロホンアレイの全てのマイクロホン素子の出力に対して個々に生成し、生成した複数の雑音抑圧信号に第２のＦＩＲフィルタを施して１チャンネルの歪み補正信号を得る多チャンネル歪み補正部を有し、前記歪み補正信号と前記マイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の２乗誤差とマイクロホン素子の入力信号が雑音のみの場合の歪み補正信号の２乗和に定数値を掛けたものとの和が最も小さくなるように、前記多チャンネル歪み補正部の前記第２のＦＩＲフィルタを決定することを特徴とする音源抽出装置。
請求項３に記載の音源抽出装置において、雑音信号を推定する雑音信号推定部を有し、推定した雑音信号と歪み補正信号に個別の第３のＦＩＲフィルタに重畳したものの和と、前記マイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の２乗誤差が最も小さくなるように前記第３のＦＩＲフィルタを決定し、歪み補正信号に前記第３のＦＩＲフィルタを重畳したものを出力する１チャンネル歪み補正部を有することを特徴とする音源抽出装置。
請求項４に記載の音源抽出装置において、ユーザーの目的音位置の指定操作により同定した目的音位置の情報に基づいて算出した短時間区間毎の目的音パワーと雑音パワーの比率から計算される混合度をもとに雑音区間を同定することを特徴とする音源抽出装置。
請求項５に記載の音源抽出装置において、前記同定した雑音区間の話速をそれ以外の区間の話速より速めて再生することを特徴とする音源抽出装置。
請求項５に記載の音源抽出装置において、前記同定した雑音区間以外の区間の音声のみ再生することを特徴とする音源抽出装置。