JP2010152107A - 目的音抽出装置及び目的音抽出プログラム - Google Patents

目的音抽出装置及び目的音抽出プログラム Download PDF

Info

Publication number
JP2010152107A
JP2010152107A JP2008330478A JP2008330478A JP2010152107A JP 2010152107 A JP2010152107 A JP 2010152107A JP 2008330478 A JP2008330478 A JP 2008330478A JP 2008330478 A JP2008330478 A JP 2008330478A JP 2010152107 A JP2010152107 A JP 2010152107A
Authority
JP
Japan
Prior art keywords
target sound
target
signal
sound
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008330478A
Other languages
English (en)
Inventor
Takayuki Hiekata
孝之 稗方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2008330478A priority Critical patent/JP2010152107A/ja
Publication of JP2010152107A publication Critical patent/JP2010152107A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても,特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出できること。
【解決手段】信号強調部17が,目標方向R1及び複数の参照方向R21,R22からなる複数の設定方向各々について,3つ以上の無指向性のマイクロホン111〜113を通じて逐次得られる3つ以上の入力音響信号を,各マイクロホンに到達する音響の時間のずれに応じた時間調整の後に合成して前記設定方向各々からの音響の成分の強調信号を逐次生成し,目的音抽出信号生成部Qが,前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより,前記目的音に相当する目的音抽出信号を逐次生成する。
【選択図】図1

Description

本発明は,複数のマイクロホンを通じて得られる複数の入力音響信号に基づいて,所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する目的音抽出装置及びそのプログラムに関するものである。
従来より,電話会議システム,テレビ会議システム,券売機,カーナビゲーションシステム等,話者等の音源が発する音響を入力し,入力した音響信号を処理する音響処理システムが存在する。音響処理システムは,マイクロホンによって処理対象とする特定の音源から発せられる音を収音するが,前記マイクロホンを通じて得られる音響信号に,想定外の音源が発する音響が雑音成分として混入する場合が多い。以下,前記処理対象とする特定の音源のことを目的音源,その目的音源が発する音を目的音と称する。また,前記マイクロホンを通じて得られる音響信号のことを入力音響信号と称する。
前記音響処理システムにおいて,前記入力音響信号における雑音成分の割合が大きいと,前記入力音響信号における前記目的音の音響成分の明瞭性が損なわれ,通話品質の悪化や自動音声認識率の悪化等の問題が生じる。そのため,前記音響処理システムにおいては,前記入力音響信号から前記目的音以外の音響成分を減衰させ,前記目的音の音響成分が抽出された音響信号を逐次生成して出力する目的音抽出処理が必要となる。
また,カメラ一体型VTR装置においても,録画方向から到来する音響を前記目的音として前記目的音抽出処理を行い,抽出した前記目的音の音響信号のデータを録画データに含めて記録メディアに記録できれば好適である。これにより,録画対象が発する前記目的音を聞き取りやすい音響信号のデータが,録画データの一部として記録される。
以下,前記入力音響信号から前記目的音以外の音響成分を減衰させた音響信号,即ち,前記目的音の音響成分が抽出された音響信号のことを目的音抽出信号と称する。また,前記目的音に対して雑音となる音響のことを非目的音と称する。即ち,目的音抽出処理においては,前記非目的音は前記目的音に対する雑音の典型例である。
例えば,特許文献1には,カメラ一体型VTR装置において,複数の方向から収音した前記入力音響信号の相関係数を算出し,その相関係数に基づいて,各収音方向の中央の方向からの音響の信号成分を強調することについて示されている。
また,特許文献2〜4には,目的音を収音する主要入力用マイクロホンと,その他の参照入力用マイクロホンとを備えたズームマイクロホン装置について示されている。特許文献2〜4に示される技術は,前記参照入力用マイクロホンを通じて得られる音響信号に基づく適応フィルタ処理によって目的音以外の音響に対応する不要信号を生成し,前記主要入力用マイクロホンを通じて得られる音響信号から前記不要信号を減算除去する技術である。
ところで,所定の音響空間に複数の音源と複数のマイクロホンとが存在する場合,その複数のマイクロホンごとに,複数の音源各々からの個別の音響信号(以下,音源信号という)が重畳された前記入力音響信号が得られる。このようにして得られた前記入力音響信号のみに基づいて,各音源が発する音に相当する音響信号である分離信号をする音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式)と呼ばれる。以下,ブラインド音源分離方式のことをBSS方式と記載する。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis)に基づくBSS方式の音源分離処理がある。以下,独立成分分析法のことをICA法と記載する。このICA法に基づくBSS方式の音源分離処理では,複数の前記入力音響信号において各音源に対応する音響成分それぞれが統計的に独立であることを利用して逆混合行列である分離行列を最適化する学習計算が行われる。
以下,図15に示すブロック図を参照しつつ,ICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Aについて説明する。なお,以下の説明において,ICA−BSS方式とは,ICA法に基づくBSS方式のことを意味する。
図15に示される音源分離装置Aは,ICA−BSS方式の一種である周波数領域における独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行う。以下,その方式のことを,FDICA−BSS方式と称する。なお,FDは,Frequency-Domainの略である。本処理の詳細は,非特許文献1や非特許文献2等に示されている。
前記音源分離装置Aは,ある音響空間に複数の音源1,2と複数のマイクロホン111,112とが存在する状態で,そのマイクロホン111,112各々を通じて逐次入力される音源1,2各々が発する音響の信号が重畳された複数の分離対象音響信号xj(t)から,各音源に対応する音響信号を個別に分離した分離信号,即ち,各音源の音響信号に対応した同定信号yj(t)を逐次生成してスピーカに対してリアルタイム出力する。
図15に示されるように,前記音源分離装置Aは,図中においてADCと表記されているA/Dコンバータ12,DFT処理部13,IDFT処理部14,図中においてDACと表記されているD/Aコンバータ15,信号バッファ16,分離フィルタ処理部21,学習演算部22等を備えている。
なお,図15には,前記分離対象音響信号xj(t)のチャンネル数,即ち,マイクロホンの数が2つである例について示されているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
前記A/Dコンバータ12は,複数のマイクロホン111,112各々から入力されるアナログの前記入力音響信号各々を所定のサンプリング周期でサンプリングすることにより,デジタルの分離対象音響信号Xj(t)に変換するすものである。例えば,各音源の音響信号が人の音声信号である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
前記DFT処理部13は,AD/コンバータ12から伝送されてくる前記分離対象音響信号xj(t)に対して離散フーリエ変換(Discrete Fourier Transform)処理を行い,所定の時間長分の時間領域の前記分離対象音響信号xj(t)であるフレーム信号を,同時間長分の周波数領域の分離対象音響信号xj(f)に変換する。なお,fは所定範囲の周波数帯域の区分である周波数ビンを表す。
前記分離フィルタ処理部21は,マイクロホン111,112,前記A/Dコンバータ12及び前記DFT処理部13を通じて逐次入力される複数の周波数領域の前記分離対象音響信号xj(f)に対し,分離行列W(f)を用いた行列演算を行うことによってフィルタ処理を施す。そして,前記分離フィルタ処理部21は,そのフィルタ処理によって各音源に対応する複数の分離信号yj(t)を逐次生成してリアルタイムで出力する逐次音源分離処理を実行する。なお,前記周波数ビンをf,前記フレーム信号の番号をmとすると,前記分離フィルタ処理部21の処理によって得られる分離信号y(f,m)は,次の(1)式で表される。なお,前記分離信号y(f,m)は,前記フレーム信号の番号が指定された前記分離信号yj(f)である。
Figure 2010152107
ここで,前記マイクロホン111,112は,いずれも複数の音源1,2が存在する所定の音響空間に配置される。また,前記分離信号yj(f)各々は,前記分離対象音響信号xj(f)の数と同じ数だけ出力される。図15に示される例では,チャンネル番号iは,1又は2である。
前記信号バッファ16は,前記DFT処理部13を通じて逐次入力される複数の周波数領域の前記分離対象音響信号xj(f)を,常に最新の所定時間長分だけ保持するデータバッファである。
前記学習演算部22は,予め定められた時間長分の複数の周波数領域の前記分離対象音響信号xj(f)を用いて,FDICA−BSS方式の音源分離処理における分離行列W(f)の学習計算を行う。その際,前記学習演算部22は,前記信号バッファ16に保持されている前記分離対象音響信号xj(f)を用いて学習計算を行う。この学習計算により得られる分離行列W(f)が,前記分離フィルタ処理部21で用いられる分離行列として設定される。
また,前記学習計算は,逐次入力される新たな前記分離対象音響信号xj(f)に基づいて随時行われ,前記分離フィルタ処理部21で用いられる前記分離行列W(f)は随時更新される。
前記学習計算は,次の(2)式により表される単位処理を繰り返し実行する逐次計算である。即ち,i回目の計算結果である出力y(f)を(2)式に適用することよって(i+1)回目のW(f)を求め,そのW(f)を用いて所定時間長分の前記分離対象音響信号x(f,m)に対して(1)式に基づくフィルタ処理を施すことによって(i+1)回目の出力y(f,m)を求める,という前記単位処理を複数回繰り返す。これにより,分離フィルタW(f)が,徐々に前記逐次計算で用いられる前記分離対象音響信号x(f,m)に適応した内容となる。
Figure 2010152107
このFDICA−BSS方式の音源分離処理によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタのフィルタ特性を規定する前記分離行列W(f)の学習計算を行うことができる。
前記IDFT処理部14は,前記分離フィルタ処理部21から伝送されてくる周波数領域の前記分離信号yj(f)に対して逆離散フーリエ変換(Inverse Discrete Fourier Transform)処理を行い,周波数領域の前記分離信号yj(f)を時間領域の分離信号yj(t)に変換する。
前記D/Aコンバータ15は,前記IDFT処理部14から伝送されてくる時間領域のデジタル信号である前記分離信号yj(t)をアナログの分離信号yj(t)に変換する。そのアナログの分離信号yj(t)は,所定のスピーカを通じて音響出力される。
そして,前記ICA法−BSS方式の音源分離処理では,逐次入力される前記入力音響信号に対し,前記学習計算により最適化された前記分離行列を用いたフィルタ処理を施すことにより,各音源の出力音の同定信号である前記分離信号の生成が行われる。ICA法に基づくBSS方式の音源分離処理によれば,マイクロホンごとに前記分離信号が得られ,その分離信号は,対応するマイクロホン以外のマイクロホンの収音方向に存在する音源からの音響の信号成分を前記分離行列により減衰させた音響信号である。従って,前記ICA−BSS方式の音源分離処理によれば,前記分離対象音響信号の数,即ち,マイクロホンの数と同じ数の前記分離信号が得られる。このようなICA−BSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
また,BSS方式の音源分離処理としては,バイナリーマスキング処理による音源分離処理も知られている。バイナリーマスキング処理は,複数の前記分離対象音響信号相互間で,複数に区分された周波数成分である周波数ビンごとのパワーを比較して他の分離対象音響信号よりもパワーの小さな信号成分を除去することにより,前記分離対象音響信号それぞれについて,主となる音源からの音響信号以外の信号成分を除去する処理である。バイナリーマスキング処理は,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
そして,前記分離対象響信号に基づいてBSS方式の音源分離処理を実行すれば,目的音に対応する前記分離信号を得ることができる。
前述したように,前記ICA法に基づく音源分離処理やバイナリーマスキング処理などのBSS方式の音源分離処理は,前記分離対象音響信号から前記目的音の収音方向以外の特定の方向に存在する前記非目的音の音響成分を減衰させて除去することによって前記目的音の分離信号を生成する。そのため,BSS方式の音源分離処理は,雑音の音源が,前記副マイクロホンの収音方向の1箇所に集中した点音源の状態又はそれに近い状態で存在する場合には,雑音除去性能が高まり,目的音の抽出性能が高まる。特に,前記ICA法に基づくBSS方式の音源分離処理は,各音源の出力音の独立性に依拠して前記分離信号を生成するため,前記目的音と前記非目的音との音量差が比較的小さい場合であっても,高い精度で前記分離信号を生成できる。
また,特許文献5には,ICA法に基づくBSS方式の音源分離処理とスペクトル減算処理とを組み合わせた目的音抽出装置について示されている。
特許文献5に示される目的音抽出装置は,前記主音響信号と複数の前記副音響信号それぞれとの組合せごとに,前記目的音及びその他の雑音の分離信号を生成する音源分離処理を行い,前記目的音の分離信号の合成信号又は前記主音響信号と,前記その他の雑音の分離信号との間でスペクトル減算処理を行った結果を前記目的音抽出信号として出力する。なお,特許文献5に示される目的音抽出装置における前記音源分離処理は,例えば,ICA法に基づくBSS方式の音源分離処理が好適である。
音響環境には,多数の雑音音源が散在している場合や雑音が反射及び反響する場合のように,雑音が不特定の方向から各マイクロホンへ到来する状況が生じ得る。以下,そのような音響環境を,拡散雑音環境という。
BSS方式の音源分離処理は,前記拡散雑音環境の下では,目的音の抽出性能が低下し得る。
また,BSS方式の音源分離処理により得られる雑音の分離信号は,前記分離対象音響信号から前記目的音の音響成分が除去された音響信号である。
そこで,前記拡散雑音環境の下において,特許文献5に示されるように,前記主音響信号やBSS方式の音源分離処理により得られる前記目的音の分離信号の周波数スペクトルから,BSS方式の音源分離処理により得られる雑音の分離信号の周波数スペクトルを減算することが考えられる。これにより,前記拡散雑音環境の下においても,前記目的音の音響成分のみが抽出された音響信号が得られる。
以上に示したように,複数の前記分離対象音響信号を用いたBSS方式の音源分離処理を行うことにより,前記目的音の音響成分が効果的に抽出された前記目的音抽出信号を得ることができる。
一方,前記ICA法に基づくBSS方式の音源分離処理においては,前記学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を検出する各種の技術が従来より知られている。例えば,非特許文献5や非特許文献6には,前記分離行列にステアリングベクトルを乗じることによってDOAを検出する技術が示されている。
特開2001−8285号公報 特開平6−083372号公報 特開平6−090493号公報 特開平6−165286号公報 特開2008−292974号公報 猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」,電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation" ,In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43-55, 1993. 西川剛樹他,「ICAとビームフォーミングを統合した高速収束アルゴリズムに基づく3音源以上のブラインド音源分離」,日本音響学会講演論文集,1-6-13,March 2005. 栗田悟史他,「指向特性を利用したブラインド信号分離の残響下における評価」,電子情報通信学会技術報告,DSP99-77,SP99-75,1999.09
ところで,特許文献1に示される技術によれば,特定の方向に存在する音源からくる前記目的音の成分が強調された音響信号が得られるが,出力音響信号における前記目的音以外のノイズ成分を十分に低減させることができない。そのため,特許文献1に示される技術は,前記目的音のみを高精度で抽出したいというニーズには対応できないという問題点があった。
また,特許文献2〜4に示される技術では,適応フィルタ処理を行う演算部が,前記非目的音を主として収音する前記参照入力用マイクロホンを通じて得られる音響信号に基づいて前記不要信号を生成する。従って,特許文献2〜4に示される技術では,前記参照入力用マイクロホンに前記目的音が混入すると,前記目的音の成分を除去した出力音響信号を生成するという誤作動が生じる。そのような誤作動を回避するためには,前記参照入力用マイクロホンは,その収音方向が,前記目的音の音源が存在し得る比較的広範囲の方向から外れるようにセッティングされる必要がある。
また,特許文献2〜4に示される技術において,前記参照入力用マイクロホンの収音範囲が,前記目的音の音源が存在する方向から遠ざかるほど,前記目的音の収音方向を狭く制限すること,即ち,鋭い指向性を実現できない。特許文献2〜4に示される技術において,前記目的音の収音についての鋭い指向性を実現できないということは,前記主要入力用マイクロホンへの前記非目的音の混入度合いが大きくなるほど,前記非目的音の除去性能,即ち,前記目的音の抽出性能が悪化するということである。
このように,特許文献2〜4に示される技術は,前記誤作動を回避しつつ前記目的音の抽出性能を十分に確保することができないという問題点があった。この問題点は,前記非目的音の音量が大きく前記主要入力用マイクロホンへの前記非目的音の混入量が大きい場合に特に顕著となる。
一方,BSS方式の音源分離処理を用いれば,前記目的音の音源の位置が変化する音響環境や,前記非目的音の音量が比較的大きい音響環境においても,高い精度で前記目的音に対応する前記分離信号を生成することができる。
例えば,BSS方式の音源分離処理により得られる前記目的音に対応する前記分離信号をそのまま前記目的音抽出信号として出力することが考えられる。
また,前記拡散雑音環境においては,特許文献5に示される技術により,BSS方式の音源分離処理を中間処理として用いて前記目的音抽出信号を生成することが考えられる。
しかしながら,BSS方式の音源分離処理に用いられる複数の前記分離対象音響信号は,その各々に前記目的音の音響成分と前記非目的音の音響成分とが適当な音量差を有して混在している必要がある。そのため,目的音抽出処理にBSS方式の音源分離処理を採用する場合,複数の前記分離対象音響信号を得るための複数のマイクロホンの構造や配置の制約が大きいという問題点があった。
例えば,複数の指向性マイクロホンが各々異なる方向に向けて配置される場合,それら指向性マイクロホン各々に対して本来の指向方向とは異なる方向からの音響を伝播させる空間やピンホール等の音響経路が必要となる。
また,複数の無指向性マイクロホンが配置される場合,それら指向性マイクロホン各々に対して異なる方向から到来する音響に音量差が生じるように,複数の無指向性マイクロホンが広い間隔,例えば,数百ミリメートル以上の間隔を空けて配置される必要がある。この場合も,無指向性マイクロホンの周囲に音響を伝播させる空間が必要となる。
上記のような構造や配置の制約は,カメラ一体型VTR装置のように,ごく狭いスペースに複数のマイクロホンを配置しなければならない小型の装置においては,BSS方式の音源分離処理の採用に支障をきたすという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても,特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出できる目的音抽出装置及び目的音抽出プログラムを提供することにある。
上記目的を達成するために本発明に係る目的音抽出装置は,3つ以上の無指向性のマイクロホンを通じて逐次得られる3つ以上の入力音響信号に基づいて,所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力するものであり,次の(1)及び(2)に示される各構成要素を備えている。
(1)前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について,前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより,前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成手段。
(2)前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより,前記目的音抽出信号を逐次生成する目的音抽出信号生成手段。
本発明において,前記入力音響信号を得るための前記マイクロホンの配置構造は,指向性マイクロホンが採用される場合のように,本来の指向方向とは異なる方向からの音響を伝播させる空間やピンホール等の特別な音響経路を必要としない。
本発明に係る目的音抽出装置は,複数の前記マイクロホンが狭いスペースに近接配置された場合でも,前記強調信号生成手段によって複数の前記設定方向各々からの響の成分が強調された複数の前記強調信号を生成する。それら複数の強調信号は,主として前記目標方向から到来する前記目的音の音響成分とそれ以外の前記参照方向から到来する前記非目的音の音響成分とが適当な音量差を有して混在した信号となる。即ち,前記強調信号は,BSS方式の音源分離処理に用いられる音響信号として好適な信号である。
従って,前記強調信号を用いたBSS方式の音源分離処理を行うことによって前記目的音抽出信号を生成する前記目的音抽出信号生成手段により,主として前記目標方向から到来する目的音を,前記入力音響信号から高い精度で抽出することができる。
前記目的音抽出信号生成手段は,例えば,BSS方式の音源分離処理により得られる前記目的音に対応する前記分離信号をそのまま前記目的音抽出信号として出力することが考えられる。
また,前記拡散雑音環境においては,前記目的音抽出信号生成手段が,特許文献5に示されるように,BSS方式の音源分離処理を中間処理として用いて前記目的音抽出信号を生成することも考えられる。
ところで,本発明に係る目的音抽出装置において,前記目標方向と複数の前記参照方向各々との差異が小さいほど,前記目的音抽出信号生成手段におけるBSS方式の音源分離処理により,前記目標方向を含むより狭い範囲から到来する音響のみが,前記目的音に対応する前記分離信号として生成される。即ち,本発明に係る目的音抽出装置は,前記目標方向と複数の前記参照方向各々との差異が小さいほど,前記目的音の抽出方向の指向性が鋭くなる。前記目的音の音量に対する前記非目的音の音量が比較的大きい場合には,前記目的音の抽出性能を確保するために,前記目的音に対する指向性を鋭くすることが有効である。また,カメラ一体型VTR装置において,ズームアップの倍率が高い場合には,遠くに存在する被写体が発する低音量の前記目的音を明瞭に抽出するため,前記目的音に対する指向性を鋭くすることが有効である。
一方,本発明に係る目的音抽出装置は,前記目標方向と複数の前記参照方向各々との差異が大きいほど,前記目的音の抽出方向の指向性が緩やかになる。
前記目的音の音量に対する前記非目的音の音量が比較的小さい場合には,前記目的音の音源の位置が多少変化しても,その目的音を確実に捉えた前記目的音抽出信号を生成するために,前記目的音に対する指向性を緩やかにすることが有効である。また,カメラ一体型VTR装置において,ズームアップの倍率が低い場合には,広角の範囲内に存在する被写体全体が発する前記目的音を抽出するため,前記目的音に対する指向性を緩やかにすることが有効である。
そこで,本発明に係る目的音抽出装置が,さらに,次の(3)に示される構成要素を備えれば好適である。
(3)前記目標方向に対する複数の前記参照方向を可変に設定する参照方向設定手段。
これにより,複数の前記マイクロホンの配置状態を変更することなく,前記目的音に対する指向性を調節できる。
また,本発明に係る目的音抽出装置が,さらに,次の(4)に示される構成要素を備えるとともに,前記参照方向設定手段が,(5)に示される処理を実行することが考えられる。
(4)前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出手段。
(5)前記参照方向設定手段が,前記非目的音音量検出手段の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定する。
これにより,前記非目的音の音量に応じて前記目的音に対する指向性が適切に自動設定される。
また,前記参照方向設定手段が,所定の操作部を通じた操作入力に応じて前記参照方向を設定することも考えられる。
前記操作部とは,例えば,カメラ一体型VTR装置におけるズームアップの倍率設定用の操作レバー等である。
また,本発明に係る目的音抽出装置において,前記目的音抽出信号生成手段における前記ブラインド音源分離方式での音源分離処理が,独立成分分析法に基づくブラインド音源分離方式での音源分離処理であることが考えられる。
即ち,前記目的音抽出信号生成手段が,次の(2−1)及び(2−2)に示される各構成要素を備えることが考えられる。
(2−1)前記強調信号を用いた独立成分分析法に基づくブラインド音源分離方式での音源分離処理における分離行列の学習計算を行う分離行列学習手段。
(2−2)逐次入力される前記強調信号に対し前記分離行列学習手段により随時得られる学習後の分離行列を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号を逐次生成する分離フィルタ処理手段。
そして,前記目的音抽出信号生成手段は,前記分離信号に基づいて前記目的音抽出信号を逐次生成する。
例えば,前記目的音抽出信号生成手段が,前記目標方向の音源に対応する前記分離信号をそのまま前記目的音抽出信号とすることが考えられる。
その他,前記目的音抽出信号生成手段が,特許文献5に示されるように,独立成分分析法に基づくブラインド音源分離方式での音源分離処理を中間処理として用いて前記目的音抽出信号を生成することも考えられる。
また,前記目的音抽出信号生成手段が,独立成分分析法に基づくブラインド音源分離方式での音源分離処理を行う場合,本発明に係る目的音抽出装置が,次の(6)及び(7)に示される各構成要素を備えることが考えられる。
(6)前記分離行列学習手段により随時得られる学習後の分離行列に基づいて前記目的音の音源の方向の推定値を算出する目的音源方向算出手段。
(7)前記目的音源方向算出手段の算出結果に応じて前記目標方向を自動設定する目標方向設定手段。
これにより,前記目的音の音源が移動する場合でも,その音源の移動に追従して前記目標方向が自動設定されるため,前記目的音を確実に捉えた前記目的音抽出信号を生成することができる。
また,本発明は,以上に示した本発明に係る目的音抽出装置における各構成要素が実行する処理を,コンピュータ(プロセッサ)に実行させる目的音抽出プログラムとして捉えることもできる。
本発明によれば,入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても,特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出することができる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
以下,添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る目的音抽出装置Xの概略構成を表すブロック図,図2は目的音抽出装置Xに採用し得る第1例の目的音抽出信号生成部Q1の構成を表すブロック図,図3は目的音抽出装置Xに採用し得る第2例の目的音抽出信号生成部Q2の構成を表すブロック図,図4は目的音抽出装置Xに採用し得る第3例の目的音抽出信号生成部Q3の構成を表すブロック図,図5は目的音抽出装置Xに採用し得る第4例の目的音抽出信号生成部Q4の構成を表すブロック図,図6は目的音抽出装置Xにおけるマイクロホンの第1の配置例を表す図,図7は目的音抽出装置Xにおけるマイクロホンの第2の配置例を表す図,図8は目的音抽出装置Xにおける強調信号の指向性の第1の例を表す収音利得分布の模式図,図9は目的音抽出装置X全体の収音の指向性の第1の例を表す収音利得分布の模式図,図10は目的音抽出装置Xにおける強調信号の指向性の第2の例を表す収音利得分布の模式図,図11は目的音抽出装置X全体の収音の指向性の第2の例を表す収音利得分布の模式図,図12は目的音抽出装置Xにおける強調信号の指向性の第3の例を表す収音利得分布の模式図,図13は目的音抽出装置X全体の収音の指向性の第3の例を表す収音利得分布の模式図,図14は目的音抽出装置X全体の収音利得分布の一例,図15はICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Aの概略構成を表すブロック図である。
以下,図1に示されるブロック図を参照しつつ,本発明の実施形態に係る目的音抽出装置Xについて説明する。
なお,図1において,図15に示される符号と同じ符号が付されている構成要素は,前記音源分離装置Aが備える構成要素と同じものである。
前記目的音抽出装置Xは,3つ以上の無指向性のマイクロホン111,112,113を通じて逐次得られる3つ以上の入力音響信号x0k(k=1,2,3,…)に基づいて,所定の目的音源1が発する目的音の音響信号に相当する目的音抽出信号yoを逐次生成して出力する装置である。
前記目的音は,予め設定される前記マイクロホン111,112,113の位置を基準とする目標方位R1に存在する音源が発する音響である。
本実施形態においては,3つの前記マイクロホン111〜113を通じて得られる3つの入力音響信号xk(k=1,2,3)に基づいて前記目的音抽出信号yoを生成する場合の例を示す。
以下,3つのマイクロホン111〜113のうちの代表する1つのマイクロホンを主マイクロホン112,その主マイクロホン112を通じて得られる入力音響信号を主音響信号x02と称する。一方,前記主マイクロホン112以外の残りのマイクロホンを副マイクロホン111,113,その副マイクロホン111,113を通じて得られる入力音響信号を副音響信号x01,x03と称する。
例えば,前記主マイクロホン112は,複数の前記マイクロホン111〜113の中で中央の位置に配置されたマイクロホンである。
また,図1において,(t)は時間領域の信号であることを表し, (f)は周波数領域の信号であることを表している。また,fは周波数ビンである。
3つの前記マイクロホン111〜113は,それぞれわずかに異なる位置に配置されている。
図1に示されるように,前記目的音抽出装置Xは,前記音源分離装置Aと同様に,図中においてADCと表記されている前記A/Dコンバータ12,前記DFT処理部13,前記IDFT処理部14,図中においてDACと表記されている前記D/Aコンバータ15等を備えている。
さらに,前記目的音抽出装置Xは,前記入力音響信号x01〜x03と同数の信号強調部17,目的音抽出信号生成部Q,非目的音音量検出部41,目的音方位検出部42及び指向性制御部43も備えている。
前記目的音抽出装置Xにおいて,前記信号強調部17,前記DFT処理部13,前記IDFT処理部14,前記目的音抽出信号生成部Q,前記非目的音音量検出部41,前記目的音方位検出部42及び前記指向性制御部43などの演算処理部は,例えば,DSP(Digital Signal Processor)等の演算用のプロセッサと,そのプロセッサにより実行されるプログラムが記憶されたROM等のメモリと,その他の周辺デバイスにより実現される。或いは,前記演算処理部は,その各々が行う処理に対応するプログラムモジュールを実行するコンピュータとして実現されることも考えられる。また,前記演算処理部の処理を所定のコンピュータやDSPに実行させる音源分離処理プログラムが,本発明の実施品として提供されることも考えられる。
前記A/Dコンバータ12は,アナログの前記入力音響信号を所定のサンプリング周期でサンプリングすることにより,デジタルの前記入力音響信号x0k(t)に変換する。
前記信号強調部17は,前記入力音響信号x0k(t)と同数の設定方位R1,R21,R22各々について,その設定方位R1,R21,R22各々からの音響の成分が強調された強調信号を逐次生成する。ここで,前記信号強調部17は,複数の前記設定方位R1,R21,R22各々について,前記入力音響信号x01(t)〜x03(t)各々を当該設定方位からの音響が前記マイクロホン111〜113各々に到達する時間のずれに応じた時間調整の後に合成する処理を実行する。即ち,前記信号強調部17は,前記マイクロホン111〜113の位置の違いに基づくいわゆる遅延加算処理を行うことによって前記設定方位R1,R21,R22各々からの音響を強調した前記強調信号を生成する。これにより,前記設定方位R1,R21,R22各々からの音響の成分が強調された強調信号が生成される。なお,前記設定方位R1,R21,R22には,前記目的音に対応する前記目標方位R1と,それ以外の方向に対応する複数の参照方位R21,R22とが含まれる。
図6は,3つの前記マイクロホン111〜113の第1の配置例を表す図である。この第1の配置例では,3つの前記マイクロホン111〜113が,所定の基準方向である角度0°の方向に対して直交する方向に沿って一列に並べられている。この第1の配置例において,前記設定方位R1,R21,R22が,前記基準方向に対してなす角度θによって表されるものとする。また,前記マイクロホン111〜113の配列番号(マイクインデックス)をk,前記マイクロホン111〜113の配置間隔をd,前記マイクロホン111〜113の総数をM,音速をcとする。なお,Mは前記入力音響信号x0k(t)の数でもある。
前記第1の配置例の場合,前記信号強調部17は,角度θの前記設定方位から到来する音響の成分が強調された強調信号x(t)を,次の(A1)式に基づく処理を実行することによって導出できる。なお,(A1)式におけるτkは,角度θの前記設定方位から到来する音響が,基準となる1番目のマイクロホン111とk番目のマイクロホンとのそれぞれに到達する時間の差(遅延時間)を表す。
Figure 2010152107
また,図7は,3つの前記マイクロホン111〜113の第2の配置例を表す図である。この第2の配置例では,1つの前記主マイクロホン112の位置を中心とする半径dの円周上にその他の前記副マイクロホン111,113が配置されている。この第2の配置例において,前記設定方位R1,R21,R22が,所定の基準方向である0°の方向に対してなす角度θによって表されるものとする。また,前記基準方向に直交し,円の中心位置である前記主マイクロホン112の位置を通る直線と,前記主マイクロホン112と前記副マイクロホン111,113それぞれとを結ぶ線分とがなす角度がθM1,θM3であるとする。また,前記マイクロホン111〜113の番号(マイクインデックス)をk,前記主マイクロホン112とk番目のマイクロホンとの距離をdk,前記マイクロホン111〜113の総数をM,音速をcとする。なお,Mは前記入力音響信号x0k(t)の数でもある。
前記第2の配置例の場合,前記信号強調部17は,角度θの前記設定方位から到来する音響の成分が強調された強調信号x(t)を,次の(A2)式に基づく処理を実行することによって導出できる。
Figure 2010152107
なお,前記信号強調部17の処理は,周波数領域の音響信号の位相を調整する処理によっても実現可能である。
図8,図10及び図12は,前記目標方位R1及び前記参照方位R21,R22に応じて前記信号強調部17により生成される3つの前記強調信号x1(t)〜x3(t)それぞれの指向性を表す収音利得分布の模式図である。
ここで,図8は,前記目標方位R1が0°の方向,一方の前記参照方位R21が+90°の方向,他方の前記参照方位R22が−90°の方向である第1の例である。また,図10は,前記目標方位R1が0°の方向,一方の前記参照方位R21が+45°の方向,他方の前記参照方位R22が−45°の方向である第2の例である。また,図12は,前記目標方位R1が20°の方向,一方の前記参照方位R21が+110°の方向,他方の前記参照方位R22が−70°の方向である第3の例である。
図8,図10及び図12に示されるように,3つの前記マイクロホン111〜113は無指向性のマイクロホンであるが,前記信号強調部17により生成される3つの前記強調信号x1(t)〜x3(t)は,前記設定方位R1,R21,R22それぞれの方向に比較的緩やかな指向性を有する音響信号となる。
即ち,前記目標方位R1の音響成分が強調された前記強調信号x2(t)は,前記目標方位R1から到来する前記目的音の音響成分を主成分とし,それ以外の前記参照方向R21,R22から到来する非目的音の音響成分が適当な音量差を有して混在した音響信号となる。
また,前記参照方位R21,R22の音響成分が強調された前記強調信号x1(t),x3(t)は,前記参照方位R21,R22それぞれから到来する非目的音の音響成分を主成分とし,前記目標方向R1から到来する前記目的音の音響成分が適当な音量差を有して混在した音響信号となる。
従って,前記強調信号x1(t)〜x3(t)は,BSS方式の音源分離処理における前記分離対象音響信号として用いられるのに好適な音響信号である。
そこで,前記目的音抽出装置Xは,前記強調信号x1(t)〜x3(t)をICA−BSS方式の音源分離処理における前記分離対象音響信号として用いる。
前記DFT処理部13は,入力される時間領域の前記強調信号xj(t)に対して離散フーリエ変換処理を行うことによって周波数領域の前記強調信号xj(f)へ変換する処理を逐次実行する。その周波数領域の前記強調信号xj(f)は,前記目的音抽出信号生成部Qにおいて,ICA−BSS方式の音源分離処理における前記分離対象音響信号として用いられる。
前記目的音抽出信号生成部Qは,前記強調信号xj(f)を用いたICA−BSS方式の音源分離処理を行うことにより,前記目的音抽出信号yo(f)を逐次生成する。
前記目的音抽出信号生成部Qの具体例は種々考えられるが,以下,図2〜図5を順次参照しつつ,前記目的音抽出装置Xに採用し得る4種類の目的音抽出信号生成部Q1〜Q4それぞれについて説明する。なお,図2〜図5において,図15に示される符号と同じ符号が付されている構成要素は,前記音源分離装置Aが備える構成要素と同じものである。
以下,前記目標方位R1の音響の成分が強調された前記強調信号x1(f)を目標方位強調信号x1(f)と称し,前記参照方位R21,R222それぞれの音響の成分が強調された前記強調信号x1(f),x3(f)を参照方位強調信号x1(f),x3(f)と称する。
図2は,第1例の目的音抽出信号生成部Q1の構成を表すブロック図である。
図2に示されるように,前記目的音抽出信号生成部Q1は,前記音源分離装置Aと同様に,前記信号バッファ16,前記分離フィルタ処理部21及び前記学習演算部22等を備えている。
但し,前記目的音抽出信号生成部Q1は,前記目標方位強調信号x2(f)と前記参照方位強調信号x1(f),x3(f)一つ一つとの組合せごとに,前記分離フィルタ処理部21及び前記学習演算部22からなる分離信号逐次生成部Vを備えている。図2には,前記目的音抽出信号生成部Q1が,前記目標方位強調信号x2(f)と一方の前記参照方位強調信号x1(f)との組合せを前記分離対象音響信号とする分離信号逐次生成部Vaと,前記目標方位強調信号x2(f)と他方の前記参照方位強調信号x3(f)との組合せを前記分離対象音響信号とする分離信号逐次生成部Vbとを備える例が示されている。
さらに,前記目的音抽出信号生成部Q1は,信号合成部31及びスペクトル減算部32も備えている。
前記目的音抽出信号生成部Q1において,前記分離フィルタ処理部21,前記学習演算部22,前記信号合成部31及び前記スペクトル減算部32などの演算処理部は,例えば,DSP(Digital Signal Processor)等の演算用のプロセッサと,そのプロセッサにより実行されるプログラムが記憶されたROM等のメモリと,その他の周辺デバイスにより実現される。或いは,前記演算処理部は,その各々が行う処理に対応するプログラムモジュールを実行するコンピュータとして実現されることも考えられる。また,前記演算処理部の処理を所定のコンピュータやDSPに実行させる音源分離処理プログラムが,本発明の実施品として提供されることも考えられる。
前記DFT処理部13によって得られた周波数領域の分離対象音響信号である前記強調信号xj(f)は,前記信号バッファ16に一時記憶される。
また,前記分離信号逐次生成部Va,Vbそれぞれにおいて,前記学習演算部22は,前記信号バッファ22に随時一時蓄積される前記目標方位強調信号x2(f)と前記参照方位音響信号x1(f),x3(f)各々との組合せごとに,その信号を用いて,FDICA−BSS方式の音源分離処理における前記分離行列W(f)の学習計算を行う。この学習計算により得られる分離行列W(f)が,前記分離フィルタ処理部21で用いられる分離行列として設定される。
また,前記学習演算部22は,逐次入力される新たな前記強調信号xj(f)に基づいて前記学習計算を随時実行し,前記分離フィルタ処理部21で用いられる前記分離行列W(f)を随時更新する。
また,前記分離信号逐次生成部Va,Vbそれぞれにおいて,前記分離フィルタ処理部21は,逐次入力される前記強調信号xj(f)に対し,前記分離行列W(f)を用いた行列演算を行うことによってフィルタ処理を施す。そして,前記分離フィルタ処理部21は,そのフィルタ処理によって前記目的音に相当する目的音分離信号y1a(f),y1b(f)と,前記非目的音に相当する非目的音分離信号y2a(f),y2b(f)とを逐次生成する。
このように,前記分離フィルタ処理部21は,逐次入力される前記強調信号xj(f)に対し前記学習演算部22により随時得られる学習後の分離行列W(f)を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号y1a(f),y1b(f),y2a(f),y2b(f)を逐次生成する。
また,前記目的音抽出信号生成部Q1における前記分離信号逐次生成部Va,Vbは,前記目標方位強調信号x2(f)と前記参照方位強調信号x1(f),x3(f)各々との組合せごとに,前記目的音分離信号y1a(f),y1b(f)及び前記非目的音分離信号y2a(f),y2b(f)の生成を行う。
そして,前記非目的音分離信号y2a(f),y2b(f)は,前記非目的音音量検出部41に伝送され,前記非目的音の音量検出に用いられる。
また,前記学習演算部22により得られた学習後の分離信号W(f)は,前記目的音方位検出部42に伝送され,前記目的音の音源の方向の推定値θpの算出に用いられる。
また,前記信号合成部31は,前記分離信号逐次生成部Va,Vbにより生成される複数の前記目的音分離信号y1a(f),y1b(f)を合成した1つの合成信号を生成し,その合成信号を代表の目的音分離信号y1'(f)として後段へ出力する。
例えば,前記信号合成部31は,複数の前記目的音分離信号y1a(f),y1b(f)のパワースペクトルにおける周波数ビンごとのパワーの平均値を求めることによって信号の合成を行う。
また,前記スペクトル減算部32は,前記信号合成部31によって逐次生成される代表の前記目的音分離信号y1'(f)のスペクトルから,前記分離信号逐次生成部Va,Vbにより逐次生成される前記非目的音分離信号y2a,y2bのスペクトルを減算するスペクトル減算処理を行う。
そして,前記目的音抽出信号生成部Q1は,前記スペクトル減算部32の処理により得られる信号を,前記目的音抽出信号yo(f)として後段へ出力する。
なお,スペクトル減算処理において,前記目的音抽出信号yo(f)に相当する処理後の信号のスペクトル値と,代表の前記目的音分離信号y1'(f)に相当する減算される側の信号のスペクトル値と,前記非目的音分離信号y2a,y2bに相当する減算する側の信号のスペクトル値との関係は,例えば,次の(C1)式により表される。
Figure 2010152107
(C1)式において,減算する側の信号のスペクトル値は,例えば,複数の前記非目的音分離信号y2a,y2bそれぞれのスペクトル値の平均値や所定の重み係数に基づく加重平均値などである。また,(C1)式において,抑圧係数βは一般に0に設定される。
以上に示した前記目的音抽出信号生成部Q1によれば,ICA−BSS方式の音源分離処理により得られた前記目的音分離信号y1'(f)から,さらに,前記非目的音に相当する前記非目的音分離信号y2a,y2bの成分が除去される。その結果,前記目的音抽出信号生成部Q1は,前記目標方位R1に音源が位置する前記目的音を前記強調信号xj(f)から高い精度で抽出することができる。
なお,前記目的音抽出信号生成部Q1における代表の前記目的音分離信号y1'(f)をそのまま前記目的音抽出信号yo(f)とすることも考えられる。
続いて,図3を参照しつつ,第2例の目的音抽出信号生成部Q2について説明する。図3は,前記目的音抽出信号生成部Q2の構成を表すブロック図である。
前記目的音抽出信号生成部Q2は,前記目的音抽出信号生成部Q1の一部を改変したものであり,その基本的な特徴部分及び効果は,前記目的音抽出信号生成部Q1同様である。以下,前記目的音抽出信号生成部Q2について,前記目的音抽出信号生成部Q1と異なる部分についてのみ説明する。なお,図3において,図2に示される構成要素と同じ構成要素については,同じ符号が付されている。
前記目的音抽出信号生成部Q2が,前記目的音抽出信号生成部Q1と異なる部分は,逐次入力される前記強調信号xj(f)に対し,ICA−BSS方式の音源分離処理を施して前記目的音分離信号y1(f)と前記非目的音分離信号y2a(f),y2b(f)とを逐次生成する分離信号逐次生成処理を行う部分である。
即ち,目的音抽出装置X2は,逐次入力される1つの前記目標方位強調信号x2(f)及び全ての前記参照方位強調信号x1 (f),x3(f)からなる分離対象音響信号にICA−BSS方式の音源分離処理を施す分離信号逐次生成部V’を備えている。この分離信号逐次生成部V’は,1組の前記目的音分離信号y1(f)及び前記非目的音分離信号y2a(f),y2b(f)を逐次生成する。
従って,前記目的音抽出信号生成部Q2は,前記信号合成部31を備えていない。そして,前記目的音抽出信号生成部Q2における前記スペクトル減算部32は,前記分離信号逐次生成部V’により生成される前記目的音分離信号y1(f)と前記非目的音分離信号y2a(f),y2b(f)との間でスペクトル減算処理を行って前記目的音抽出信号yo(f)を生成する。
以上に示した前記目的音抽出信号生成部Q2も,前記目的音抽出信号生成部Q1と同様の作用効果を発揮する。
なお,前記目的音抽出信号生成部Q2における前記目的音分離信号y1(f)をそのまま前記目的音抽出信号yo(f)とすることも考えられる。
次に,図4を参照しつつ,第3例の目的音抽出信号生成部Q3について説明する。図4は,前記目的音抽出信号生成部Q3の構成を表すブロック図である。
前記目的音抽出信号生成部Q3は,前記目的音抽出信号生成部Q1の一部を改変したものであり,その基本的な特徴部分及び効果は,前記目的音抽出信号生成部Q1と同様である。以下,前記目的音抽出信号生成部Q3について,前記目的音抽出信号生成部Q1と異なる部分についてのみ説明する。なお,図4において,図2に示される構成要素と同じ構成要素については,同じ符号が付されている。
前記目的音抽出信号生成部Q3が,前記目的音抽出信号生成部Q1と異なる点は,前記スペクトル減算部32が,前記目標方位強調信号x2(f)と前記非目的音分離信号y2a(f),y2b(f)との間でスペクトル減算処理を行う点である。
前記非目的音分離信号y2a(f),y2b(f)は,前記目的音の信号成分が除去された音響信号であるため,前記目標方位強調信号x2(f)のスペクトルから前記非目的音分離信号y2a(f),y2b(f)のスペクトルを減算すれば,前記目的音が抽出された音響信号が得られる。
以上に示した前記目的音抽出信号生成部Q3も,前記目的音抽出信号生成部Q1と同様の作用効果を発揮する。
次に,図5を参照しつつ,第4例の目的音抽出信号生成部Q4について説明する。図5は,前記目的音抽出信号生成部Q4の構成を表すブロック図である。
前記目的音抽出信号生成部Q4は,前記目的音抽出信号生成部Q1の一部を改変したものである。以下,前記目的音抽出信号生成部Q4について,前記目的音抽出信号生成部Q1と異なる部分についてのみ説明する。なお,図5において,図2に示される構成要素と同じ構成要素については,同じ符号が付されている。
前記目的音抽出信号生成部Q4が,前記目的音抽出信号生成部Q1と異なる点は,前記信号合成部31及び前記スペクトル減算部32の代わりにスペクトル近似信号抽出部33が設けられ,そのスペクトル近似信号抽出部33により得られる音響信号が,前記目的音抽出信号yo(f)として後段へ出力される点である。
前記目的音抽出信号生成部Q4において,前記スペクトル近似信号抽出部33 も,例えばDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記スペクトル近似信号抽出部33が行う処理を前記DSPに実行させるためのプログラムが予め記憶されている。
前記スペクトル近似信号抽出部33は,前記分離信号逐次生成部Va,Vbによって生成された複数の前記目的音分離信号y1a(f),y1b(f)について,周波数ビンごとの信号成分のうち,その信号成分が前記目的音分離信号y1a(f),y1b(f)相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号y1a(f),y1b(f)から前記目的音に相当する前記目的音抽出信号yo(f)を生成する。
例えば,前記スペクトル近似信号抽出部33は,複数の前記目的音分離信号y1a(f),y1b(f)について,周波数ビンごとにそれらの信号成分のレベル(パワー)を比較し,そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に,それらの信号成分のいずれか1つを選択する,又はそれらの信号成分を合成する(例えば平均値や最小値を算出する)ことによって前記目的音抽出信号yo(f)を生成する。
以上に示した前記目的音抽出信号生成部Q4も,前記目的音抽出信号生成部Q1と同様の作用効果を発揮する。
次に,図1に示される前記非目的音音量検出部41,前記目的音方位検出部42及び前記指向性制御部43それぞれについて順次説明する。
前記非目的音音量検出部41は,前記参照方向R21,R22から前記マイクロホン111〜113に到来する前記非目的音の音量vrを検出する処理を実行する。
前記目的音抽出装置Xにおいては,前記非目的音音量検出部41は,前記分離信号逐次生成部Vによって得られた前記非目的音分離信号y2a(f),y2b(f)に基づいてその音量vrを検出する。その際,前記非目的音音量検出部41は,前記前記非目的音分離信号y2a(f),y2b(f)それぞれの音量vrを個別に検出し,それらを前記参照方向R21,R22それぞれの方向における音量として検出す。
なお,前記音量vrは,例えば,前記非目的音分離信号y2a(f),y2b(f)のパワースペクトルにおけるパワーの平均値等である。
その他,前記非目的音音量検出部41が,前記参照方向強調信号x1(f),x3(f)それぞれの音量を前記非目的音の音量vrとして検出することも考えられる。また,前記目的音抽出装置Xが,前記非目的音の音量vrを検出するための指向性マイクロホンを別途備えることも考えられる。
ところで,前記目的音抽出信号生成部Qは,前述したように,ICA−BSS方式の音源分離処理における分離行列W(f)の学習計算を行う前記学習演算部22を備えている。その学習演算部22は,図15に示される前記音源分離装置Aが備える前記学習演算部22と同じものである。
そして,前記目的音方位検出部42は,前記目的音抽出信号生成部Qが備える前記学習演算部22により随時得られる学習後の分離行列W(f)に基づいて,前記目的音の音源の方向の推定値θpを算出する。
前記ICA−BSS方式の音源分離処理の学習計算により得られる分離行列W (f)は,前記マイクロホン111〜113の位置を基準にした各音源の方向からの音響に相当する音響成分を減衰させるフィルタ係数に相当する行列値が設定された行列である。
また,前記分離行列W(f)を次の(D1)式に適用することにより,音響の周波数f及び収音方向θに応じて変化するフィルタの利得Gを導出する関数Fl(f,θ)が得られることが知られている。
Figure 2010152107
(D1)式において,添字のkはマイクロホンの識別番号(k=1,2,3),添字のlは分離フィルタの識別番号(l=1,2,3),fは周波数ビン,fの添字mは周波数ビンの識別番号(m=1,2,3)である。また,Wlk(ICA)(f)は,複数の行列からなる前記分離行列W(f)におけるl番目の分離フィルタ及びk番目のマイクロホンの組合せに対応する行列である。また,cは音速,dkは複数の前記マイクロホン111〜113の中心位置から各マイクロホン111〜113までの距離,θは複数の前記マイクロホン111〜113の中心位置からみた収音方向である。ここで,kは,前記強調信号の識別番号jと一致している。また,分離フィルタの識別番号lの数は,マイクロホンの識別番号kの数と同数である。
そして,前記目的音方位検出部42は,次の(D2)式で表される処理を実行し,周波数ビンごとにフィルタ利得を最小化するθp(fm)を算出する。
Figure 2010152107
さらに,前記目的音方位検出部42は,周波数ビンごとに計算されたθp(fm)について,全周波数ビンの範囲で平均値を計算し,その平均値を前記目的音の音源の方向の推定値θpとして算出する。
また,前記指向性制御部43は,以下に示す2つの処理を実行する。
前記指向性制御部43が実行する第1の処理は,前記非目的音音量検出部41の検出結果vrに応じて,前記目標方位R1を基準とする複数の前記参照方位R21,R22それぞれを自動設定する処理である。以下,この処理のことを,参照方位自動設定処理と称する。
また,前記指向性制御部43が実行する第2の処理は,前記目的音方位検出部42により算出された前記目的音の音源の方向の推定値θpに応じて,前記目標方位R1を自動設定する処理である。以下,この処理のことを目標方位自動設定処理と称する。
以下,図14を参照しつつ,前記目的音抽出装置Xの指向性の評価結果について説明する。図14は,以下に示す実験によって前記目的音抽出装置Xにより得られる前記目的音抽出信号yo(t)から,前記目的音の音源の方向とその目的音の抽出感度(単位dB)との関係を表したグラフである。ここで,前記目標方位R1は0°の方向であり,前記参照方位R21,R22はそれぞれ+90°及び−90°の方向である。なお,参考として,図14には前記マイクロホン111〜113自体の指向性も示されている。
図14からわかるように,前記マイクロホン111〜113自体の指向性が非常に緩やかなものであるにもかかわらず,前記目的音抽出装置Xにおいては,前記目標方向R1を中心としたごく狭い範囲で高いNRRが得られる。一方,前記目的の音源が前記目標方位R1と前記参照方位R21,R22それぞれとの中間の方向(±45°)を境界とする範囲から外れると,急激にNRRが低下する。
このように,前記マイクロホン111〜113が無指向性のマイクロホンであっても,前記目的音抽出装置Xとしては非常に急峻な指向性を有する音響入力装置として機能する。そして,前記目標方位R1と前記参照方位R21,R22との差が小さいほど,前記目的音抽出装置Xの指向性はより急峻となる。
図9,図11及び図13は,前記目標方位R1及び前記参照方位R21,R22に応じて定まる前記目的音抽出装置Xの指向性を表す収音利得分布の模式図である。なお,図9,図11及び図13に示される例は,それぞれ図8,図10及び図12に示された第1の例乃至第3の例に相当する。
図9及び図11に示されるように,前記目標方位R1と前記参照方位R21,R22との差が小さいほど,前記目的音抽出装置Xの指向性はより急峻となる。
また,図9及び図13に示されるように,前記目標方位R1と前記参照方位R21,R22との相対的な関係を維持しながら前記目標方位R1を変化させれば,前記目的音抽出装置Xの指向性は,指向方向全体が前記目標方位R1の変化に応じて変化する。
このように,前記目的音抽出装置Xにおいては,前記目標方位R1と前記参照方位R21,R22との差異の大きさを調整することにより,指向性の急峻さを調整できる。また,前記目的音抽出装置Xにおいては,前記目標方位R1と前記参照方位R21,R22との相対的な関係を維持しつつ,前記目標方位R1を調整することにより,収音の指向方向を調整できる。
そこで,前記指向性制御部43は,前記参照方位自動設定処理を例えば以下のように実行する。
即ち,前記指向性制御部43は,前記非目的音音量検出部41により検出された前記非目的音の音量vrが大きいほど,前記目標方位R1に対する複数の前記参照方位R21,R22それぞれの差異が小さくなるように自動設定する。これにより,前記非目的音の音量が大きい場合に,前記目的音に対する前記目的音抽出装置Xの指向性が鋭くなり,前記非目的音の音響成分が十分に除去された前記目的音抽出信号yo(f)が得られる。
また,前記非目的音の音量が小さい場合には,前記目的音に対する前記目的音抽出装置Xの指向性が緩やかになり,前記目的音の音源の位置が多少変化しても,その目的音を確実に捉えた前記目的音抽出信号yo(f)が生成される。
そこで,前記指向性制御部43は,前記目標方位自動設定処理を例えば以下のように実行する。
即ち,前記指向性制御部43は,前記目標方位R1を,前記目的音方位検出部42により算出された前記目的音の音源の方向の推定値θpと一致するように自動設定する。その際,前記指向性制御部43は,並行して実行する前記参照方位自動設定処理により,前記目標方位R1と前記参照方位R21,R22との相対的な関係を自動調節する。
前記目標方位自動設定処理により,前記目的音の音源が移動する場合でも,その音源の移動に追従して前記目標方向R1が自動設定されるため,前記目的音を確実に捉えた前記目的音抽出信号yo(f)を生成することができる。
以上に示した実施形態は,前記指向性制御部43が,前記目標方位R1及び前記参照方位R21,R22を自動設定する例であるが,それ以外の例も考えられる。
例えば,前記指向性制御部43が,所定の操作部を通じた操作入力に応じて前記目標方位R1を基準とする前記参照方位R21,R22を設定することも考えられる。前記操作部とは,例えば,カメラ一体型VTR装置におけるズームアップの倍率設定用の操作レバー等である。
この場合,前記指向性制御部43は,ズームアップの倍率が高い場合に,遠くに存在する被写体が発する低音量の前記目的音を明瞭に抽出するため,前記目標方位R1に対する前記参照方位R21,R22の差異を小さく設定し,前記目的音に対する指向性を鋭くする。
一方,前記指向性制御部43は,ズームアップの倍率が低い場合に,広角の範囲内に存在する被写体全体が発する前記目的音を抽出するため,前記目標方位R1に対する前記参照方位R21,R22の差異を大きく設定し,前記目的音に対する指向性を緩やかにする。
ここに示した実施形態も本発明の実施形態の一例である。
また,前述した実施形態は,1つの前記主マイクロホン112に対して2つの前記副マイクロホン111,113が設けられた例であるが,1つの前記主マイクロホン112に対して3つ以上の前記副マイクロホン111,113が設けられてもよい。
例えば,4つ以上のマイクロホンが三次元的に配置されることも考えられる。これにより,前記目的音抽出装置Xの指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば,ある一の平面内において3つの前記副マイクロホンを三角形の頂点の位置に配置し,前記主マイクロホンを前記副マイクロホンが形成する三角形を底面とする三角錐の頭頂部の位置に配置する。そして,前記目標方位及び3つの前記参照方位を三次元的に設定することが考えられる。これにより,前記目的音抽出装置Xの前記目的音に対する指向性を三次元的に所望の特性に設定できる。
また,前記目的音抽出装置Xにおいて,前記分離信号逐次生成部Va,Vb,Vは,他のBSS方式の音源分離処理を行うことによって前記目的音分離信号y1(f)及び前記非目的音分離信号y2a(f),y2b(f)を生成するものであってもよい。例えば,前記分離信号逐次生成部Va,Vb,Vが,周知のバイナリーマスキング処理による音源分離処理を実行することによって前記目的音分離信号y1(f)及び前記非目的音分離信号y2a(f),y2b(f)を生成するものであることも考えられる。
本発明は,複数のマイクロホンを通じて得られる複数の音響信号に基づいて,所定の目的音に相当する目的音抽出信号を生成する装置への利用が可能である。
本発明の実施形態に係る目的音抽出装置Xの概略構成を表すブロック図。 目的音抽出装置Xに採用し得る第1例の目的音抽出信号生成部Q1の構成を表すブロック図。 目的音抽出装置Xに採用し得る第2例の目的音抽出信号生成部Q2の構成を表すブロック図。 目的音抽出装置Xに採用し得る第3例の目的音抽出信号生成部Q3の構成を表すブロック図。 目的音抽出装置Xに採用し得る第4例の目的音抽出信号生成部Q4の構成を表すブロック図。 目的音抽出装置Xにおけるマイクロホンの第1の配置例を表す図。 目的音抽出装置Xにおけるマイクロホンの第2の配置例を表す図。 目的音抽出装置Xにおける強調信号の指向性の第1の例を表す収音利得分布の模式図。 目的音抽出装置X全体の収音の指向性の第1の例を表す収音利得分布の模式図。 目的音抽出装置Xにおける強調信号の指向性の第2の例を表す収音利得分布の模式図。 目的音抽出装置X全体の収音の指向性の第2の例を表す収音利得分布の模式図。 目的音抽出装置Xにおける強調信号の指向性の第3の例を表す収音利得分布の模式図。 目的音抽出装置X全体の収音の指向性の第3の例を表す収音利得分布の模式図。 目的音抽出装置X全体の収音利得分布の一例。 ICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Aの概略構成を表すブロック図。
符号の説明
X:本発明の実施形態に係る目的音抽出装置
Q,Q1,Q2,Q3,Q4:目的音抽出信号生成部
V,Va,Vb:分離信号逐次生成部
1,2:音源
12 :A/Dコンバータ
13 :DFT処理部
14 :IDFT処理部
15 :D/Aコンバータ
16 :信号バッファ
17 :信号強調部
21 :分離フィルタ処理部
22 :学習演算部
31 :信号合成部
32 :スペクトル減算部
33 :スペクトル近似信号抽出部
41 :非目的音音量検出部
42 :目的音方位検出部
43 :指向性制御部
111,112,113:マイクロホン
R1 :目標方位
R21,R22:参照方位

Claims (8)

  1. 3つ以上の無指向性のマイクロホンを通じて逐次得られる3つ以上の入力音響信号に基づいて,所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する目的音抽出装置であって,
    前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について,前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより,前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成手段と,
    前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより,前記目的音抽出信号を逐次生成する目的音抽出信号生成手段と,
    を具備してなることを特徴とする目的音抽出装置。
  2. 前記目標方向に対する複数の前記参照方向を可変に設定する参照方向設定手段を具備してなる請求項1に記載の目的音抽出装置。
  3. 前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出手段を具備し,
    前記参照方向設定手段が,前記非目的音音量検出手段の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定してなる請求項2に記載の目的音抽出装置。
  4. 前記参照方向設定手段が,所定の操作部を通じた操作入力に応じて前記参照方向を設定してなる請求項2に記載の目的音抽出装置。
  5. 前記目的音抽出信号生成手段が,
    前記強調信号を用いた独立成分分析法に基づくブラインド音源分離方式での音源分離処理における分離行列の学習計算を行う分離行列学習手段と,
    逐次入力される前記強調信号に対し前記分離行列学習手段により随時得られる学習後の分離行列を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号を逐次生成する分離フィルタ処理手段と,を備えるとともに,前記分離信号に基づいて前記目的音抽出信号を逐次生成してなる請求項1〜4のいずれかに記載の目的音抽出装置。
  6. 前記分離行列学習手段により随時得られる学習後の分離行列に基づいて前記目的音の音源の方向の推定値を算出する目的音源方向算出手段と,
    前記目的音源方向算出手段の算出結果に応じて前記目標方向を自動設定する目標方向設定手段と,
    を具備してなる請求項5に記載の目的音抽出装置。
  7. 3つ以上の無指向性のマイクロホンを通じて逐次得られる3つ以上の入力音響信号に基づいて所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する処理をコンピュータに実行させる目的音抽出プログラムであって,
    コンピュータに,
    前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について,前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより,前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成処理と,
    前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより,前記目的音抽出信号を逐次生成する目的音抽出信号生成処理と,
    を実行させてなることを特徴とする目的音抽出プログラム。
  8. コンピュータに,
    前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出処理と,
    前記非目的音音量検出処理の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定する参照方向設定処理と,
    をさらに実行させてなる請求項7に記載の目的音抽出プログラム。
JP2008330478A 2008-12-25 2008-12-25 目的音抽出装置及び目的音抽出プログラム Withdrawn JP2010152107A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008330478A JP2010152107A (ja) 2008-12-25 2008-12-25 目的音抽出装置及び目的音抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008330478A JP2010152107A (ja) 2008-12-25 2008-12-25 目的音抽出装置及び目的音抽出プログラム

Publications (1)

Publication Number Publication Date
JP2010152107A true JP2010152107A (ja) 2010-07-08

Family

ID=42571270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008330478A Withdrawn JP2010152107A (ja) 2008-12-25 2008-12-25 目的音抽出装置及び目的音抽出プログラム

Country Status (1)

Country Link
JP (1) JP2010152107A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8970620B2 (en) 2010-09-28 2015-03-03 Sony Corporation Position information providing device, position information providing method, position information providing system, and program
JP2015226104A (ja) * 2014-05-26 2015-12-14 キヤノン株式会社 音源分離装置および音源分離方法
CN109443393A (zh) * 2018-12-11 2019-03-08 中国人民解放军火箭军工程大学 一种基于盲分离算法的捷联惯导信号提取方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8970620B2 (en) 2010-09-28 2015-03-03 Sony Corporation Position information providing device, position information providing method, position information providing system, and program
US9361858B2 (en) 2010-09-28 2016-06-07 Sony Corporation Position information providing device, position information providing method, position information providing system, and program
US10198240B2 (en) 2010-09-28 2019-02-05 Sony Corporation Position information providing device, position information providing method, position information providing system, and program
JP2015226104A (ja) * 2014-05-26 2015-12-14 キヤノン株式会社 音源分離装置および音源分離方法
CN109443393A (zh) * 2018-12-11 2019-03-08 中国人民解放军火箭军工程大学 一种基于盲分离算法的捷联惯导信号提取方法及系统

Similar Documents

Publication Publication Date Title
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CA2407855C (en) Interference suppression techniques
EP3542547B1 (en) Adaptive beamforming
CN105355210B (zh) 用于远场语音识别的预处理方法和装置
EP1293104B1 (en) Fft-based technique for adaptive directionality of dual microphones
JP4675177B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
US8942976B2 (en) Method and device for noise reduction control using microphone array
JP3940662B2 (ja) 音響信号処理方法及び音響信号処理装置及び音声認識装置
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
CN104717587A (zh) 用于音频信号处理的耳机和方法
CN107925816B (zh) 用于在波束成形的音频中重新创建方向提示的方法和装置
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
EP2938098B1 (en) Directional microphone device, audio signal processing method and program
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
JP2006154314A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US8218787B2 (en) Microphone array signal processing apparatus, microphone array signal processing method, and microphone array system
JP4519901B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
Kim Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller
US10070220B2 (en) Method for equalization of microphone sensitivities
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
JP4336378B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
EP3545691B1 (en) Far field sound capturing
JP6048596B2 (ja) 集音装置、集音装置の入力信号補正方法および移動機器情報システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120306