JP4519901B2 - 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 - Google Patents

目的音抽出装置,目的音抽出プログラム,目的音抽出方法 Download PDF

Info

Publication number
JP4519901B2
JP4519901B2 JP2007325065A JP2007325065A JP4519901B2 JP 4519901 B2 JP4519901 B2 JP 4519901B2 JP 2007325065 A JP2007325065 A JP 2007325065A JP 2007325065 A JP2007325065 A JP 2007325065A JP 4519901 B2 JP4519901 B2 JP 4519901B2
Authority
JP
Japan
Prior art keywords
signal
target sound
sound
acoustic
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007325065A
Other languages
English (en)
Other versions
JP2008295011A (ja
Inventor
孝之 稗方
孝司 森田
陽平 池田
敏章 下田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2007325065A priority Critical patent/JP4519901B2/ja
Priority to US12/078,839 priority patent/US20080267423A1/en
Publication of JP2008295011A publication Critical patent/JP2008295011A/ja
Application granted granted Critical
Publication of JP4519901B2 publication Critical patent/JP4519901B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は,マイクロホンを通じて得られる音響信号に基づいて,所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置,そのプログラム及びその方法に関するものである。
電話会議システム,テレビ会議システム,券売機,カーナビゲーションシステム等,話者等の音源が発する音響を入力する機能を備えた装置においては,マイクロホンによってある特定の音源(以下,目的音源という)から発せられる音(以下,目的音という)が収音されるが,音源の存在する環境に応じて,そのマイクロホンを通じて得られる音響信号に,前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして,マイクロホンを通じて得られる音響信号において,雑音成分の割合が大きいと,目的音の明瞭性が損なわれ,通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
ところで,前記副マイクロホンは,これに前記目的音が極力混入しないよう,前記主マイクロホンとは異なる位置に配置されたマイクロホン,或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため,複数の方向から異なる雑音が各マイクロホンに到来する場合,前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合,前記2入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また,特許文献2には,カメラ一体型VTR装置において,撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め,その相関係数に基づいて,撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また,特許文献3〜5には,目的音を主として入力するマイクロホン(前記主マイクロホンに相当)を通じて得られる音響信号(以下,主音響信号という)から,目的音以外の参照音(非目的音)を主として入力するマイクロホン(前記副マイクロホンに相当)を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに,その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。
一方,所定の音響空間に複数の音源と複数のマイクロホン(音響入力手段)とが存在する場合,その複数のマイクロホンごとに,複数の音源各々からの個別の音響信号(以下,音源信号という)が重畳された音響信号(以下,混合音響信号という)が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
また,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性マイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとのレベル(パワー)を比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献4や非特許文献5等に詳説されている。
特開平6−67691号公報 特開2001−8285号公報 特開平6−83372号公報 特開平6−90493号公報 特開平6−165286号公報 菅村他,「2入力による雑音除去手法を用いた自動車内の音声認識」,電子情報通信学会技術研究報告,SP−81,pp.41-48,1989 猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」,電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation", In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43--55, 1993.
しかしながら,非特許文献1に示される技術や特許文献3〜5に示される技術では,目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合,その目的音に対応する音響信号の成分が雑音成分として誤って除去されること等により,高い雑音除去性能が得られないという問題点があった。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,音響環境の変化によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
また,特許文献2に示される技術は,撮影範囲中央の人物からの音声信号が強調されるものの,それ以外の音声信号も残存し,目的音の信号が抽出されるわけではない。
また,前記主音響信号及び前記副音響信号に基づいて,前記ICA法に基づくBSS方式の音源分離処理や前記バイナリーマスキング処理を実行すれば,目的音に対応する分離信号を得ることができるが,音響環境によっては,その分離信号に目的音以外の雑音の信号成分が比較的高い割合で含まれてしまう場合が生じるという問題点があった。例えば,前記ICA法に基づくBSS方式の音源分離処理において,目的音及びそれ以外の雑音の音源がマイクロホンの数以上に存在したり,雑音が反射・反響するような環境では,音源分離性能が悪化する。
また,鋭い指向特性を実現する音響入力装置としては,例えば,マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られているが,それは指向性を鋭くするほど装置が大型化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音(非目的音)が混入し,またその混入状態が変化し得る音響環境下において,小型の装置によって高い目的音抽出性能(雑音除去性能)を確保できる目的音抽出装置,目的音抽出プログラム及び目的音抽出方法を提供することにある。
上記目的を達成するために本発明(後述する第2発明に相当)に係る目的音抽出装置は,所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であり,次の(1−1)及び(1−2)に示す各構成要素を備えるものである。
(1−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ当該2つの音響信号に基づいて前記目的音に対応する目的音分離信号を独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段。
(1−2)前記音源分離手段により分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域ごとの信号成分のうち,該信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル近似信号抽出手段
発明において,前記音源分離手段により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。しかしながら,複数のマイクロホン(前記主マイクロホン及び前記副マイクロホン)に対する目的音源の位置や雑音の発生状況によっては,その目的音分離信号に,目的音以外の雑音の信号成分が比較的多く残存する場合もある。そのような場合であっても,複数のマイクロホンそれぞれの位置又は指向性の方向が異なるので,雑音成分を多く含む前記目的音分離信号は,その全てのうちの一部であるか,或いは前記目的音分離信号それぞれに含まれる雑音成分の種類が異なることが通常である。従って,前記スペクトル近似信号抽出手段により,複数の前記目的音分離信号において近似する信号成分を抽出することにより,比較的強い特定の雑音が前記主マイクロホンに到来する状況や,複数の方向から異なる雑音が前記主マイクロホンに到来する状況においても,高い雑音除去性能を維持できる。
ところで,一般に,ICA法に基づくBSS方式による音源分離処理において,高い音源分離性能を得るためには,分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数を増やす,或いはその逐次計算に用いる音響信号(ディジタル信号)のサンプル数を増やすことが必要となり,そうすると,演算負荷が大きくなる。例えば,その逐次計算を実用的なプロセッサで行った場合,入力される音響信号の時間長に対して数倍の時間を要することもあり,リアルタイム処理に適さない。
一方,スペクトル減算処理は,その演算負荷が比較的小さく,実用的なプロセッサによってもリアルタイム処理が可能である。
そこで,本発明に係る目的音抽出装置において,前記音源分離手段が実行する音源分離処理が,次の(1−1−1)又は(1−1−2)のいずれかに示す処理であることが考えられる。
(1−1−1)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い,該逐次計算の回数を予め定められた回数に制限する。
(1−1−2)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに,その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行する。
上記(1−1−1)又は(1−1−2)に示した音源分離処理において,前記フィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記スペクトル減算処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
また,上記(1−1−1)又は(1−1−2)に示した音源分離処理における前記逐次計算(学習計算)も,逐次計算回数やその逐次計算に用いる音響信号(ディジタル信号)のサンプル数(時間帯)が制限された演算負荷の小さな処理である。そのため,前記逐次計算(学習計算)は,実用的なプロセッサによって前記フィルタ処理及び前記スペクトル減算処理(リアルタイム処理)と併せて実行されても,比較的短時間でその処理(以降に用いる前記分離行列の算出)が完了する。その結果,前記フィルタ処理に用いられる前記分離行列が,音響環境の変化に適応した状態に速やかに更新され,音響環境の変化に対する目的音抽出の適応力が高まる。また,このような前記逐次計算(学習計算)の簡素化より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理とスペクトル減算処理との組合せにより,全体として目的音の抽出性能を十分に確保できる。
また,本発明に係る目的音抽出装置が,さらに次の(1−3)及び(1−4)に示す構成要素を備えればなお好適である。
(1−3)れぞれ指向性の方向が異なる3つ以上のマイクロホンを通じて得られる3つ以上の入力音響信号に基づいて,該3つ以上の入力音響信号の中から1つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段。
(1−4)前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段。
例えば,前記主・副音響信号特定手段が,例えば,前記3つ以上の入力音響信号それぞれの信号強度の比較に基づいて,又は前記3つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて,1つの前記主音響信号と複数の前記副音響信号とを特定すること等が考えられる。
これらの構成要素を備えることにより,本発明に係る目的音抽出装置は,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホンとして固定できない対象に対しても適用できる。
また,本発明は,以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)及び(2−2)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に当該2つの音響信号に基づいて前記目的音に対応する目的音分離信号を独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理。
(2−2)前記音源分離処理により分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域ごとの信号成分のうち,該信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル近似信号抽出処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また,本発明は,以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。
本発明(後述する第2発明に相当)によれば,複数の方向から異なる雑音が各マイクロホンに到来する音響環境下や,目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入するような音響環境下,さらににはそのような音響環境が変化するような場合でも高い雑音除去性能を確保できる。
また,本発明によれば,後述するように,前記主マイクロホン自体の指向性が緩やかなものであっても,本発明に係る目的音抽出装置は非常に急峻な指向性を有する音響入力装置として機能する。しかも,前記主マイクロホンの位置若しくは指向性の方向に対する前記副マイクロホンの位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ことにより,雑音として取り扱われる(除去される)音の音源の位置や方向を調節できるため,本発明に係る目的音抽出装置の指向性能を調節することができ,利便性が高い。また,後述するように,そのように急峻な,或いはフレキシブルな指向性を有する音響入力装置として機能する装置を,非常に小型の装置として実現できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は第1発明の実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は目的音抽出装置X1における目的音抽出処理の過程を表す概念図,図3は第2発明の実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図4は目的音抽出装置X2における目的音抽出処理の過程を表す概念図,図5は第3発明の実施形態に係る目的音抽出装置X3の概略構成を表すブロック図,図6は目的音抽出装置X3における目的音抽出処理の過程を表す概念図,図7は目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件を表す図,図8は目的音抽出装置X1〜X3の目的音抽出性能を評価する第2の実験条件を表す図,図9は第1の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図10は第2の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図11は目的音抽出装置X1の指向性を評価する第3の実験条件を表す図,図12は第3の実験条件の下での目的音抽出装置X1の指向性を表す図,図13は目的音抽出装置X1〜X3に採用され得る音響入力装置V2の概略構成を表すブロック図,図14はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図,図15は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第1例を表すタイムチャート,図16は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第2例を表すタイムチャート,図17は目的音抽出装置X1〜X3の音源分離処理における第1実施例に係る学習計算のシーケンスを表すタイムチャート,図18は目的音抽出装置X1〜X3の音源分離処理における第2実施例に係る学習計算のシーケンスを表すタイムチャートである。
[第1発明]
まず,図1に示すブロック図を参照しつつ,第1発明の実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,複数のマイクロホンを含む音響入力装置V1,複数(図1では3つ)の音源分離処理部10(10−1〜10−3),目的音分離信号合成処理部20及びスペクトル減算処理部31を備えている。ここで,前記音響入力装置V1は,1つの主マイクロホン101及び複数(図1では3つ)の副マイクロホン102(102−1〜102−3)を含む。また,前記主マイクロホン101及び複数の前記副マイクロホン102は,それぞれ複数の異なる位置に配置されたもの,又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン101は,所定の目的音源(例えば,所定範囲内で移動し得る話者等)が発する音響(以下,目的音という)を主に入力する音響入力手段である。
また,複数の前記副マイクロホン102−1〜102−3は,前記主マイクロホン101とは異なる複数の位置それぞれに配置されたもの,或いはそれぞれ異なる複数の方向に指向性を有するものであり,主として目的音以外の参照音(雑音)を入力する音響入力手段である。なお,副マイクロホン102との記載は,複数の副マイクロホン102−1〜102−3を総称した記載である。
なお,図1に示す主マイクロホン101及び副マイクロホン102は,それぞれ指向性を有するマイクロホンであり,副マイクロホン102は,それぞれ前記主マイクロホン102とは異なる複数の方向それぞれに指向性を有するよう配置されている。
前記主マイクロホン101及び前記副マイクロホン102それぞれが指向性を有するマイクロホンである場合,前記主マイクロホン101の指向中心方向(正面方向)を中心(0°)として一方の側の+180°未満の方向(例えば,+90°の方向),及び他方の側の−180°未満の方向(例えば,−90°の方向)のそれぞれに,前記副マイクロホン102の指向中心方向(正面方向)が設定されることが望ましい。
また,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定される他,三次元的に異なる方向に設定されることも考えられる。
そして,目的音抽出装置X1は,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(以下,目的音抽出信号という)を出力するものである。
目的音抽出装置X1において,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,その組合せである主音響信号及び副音響信号とに基づいて,前記目的音に対応する分離信号(目的音の同定信号)である目的音分離信号と,前記目的音以外の音である参照音(雑音といってもよい)に対応する参照音分離信号(参照音の同定信号)とを分離生成する音源分離処理を実行するものである。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,不図示のA/Dコンバータが設けられており,そのA/Dコンバータによってデジタル信号に変換された音響信号が,前記音源分離処理部10に伝送される。例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
ここで,前記音源分離処理部10(10−1〜10−3)は,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
以下,図14に示すブロック図を参照しつつ,前記音源分離処理部10として採用可能な装置の一例である音源分離装置Zについて説明する。
以下に示す音源分離装置Zは,所定の音響空間に複数の音源と複数のマイクロホン101,102が存在する状態で,そのマイクロホン101,102各々を通じて,音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA法に基づくBSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
また,図14に示す前記音源分離装置Zは,ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行うものである。
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離演算処理部11fにより分離行列W(f)に基づく分離演算処理(フィルタ処理)を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(1)式のように表すことができる。
Figure 0004519901
この(1)式からわかるように,分離演算処理(フィルタ処理)は,周波数ビンごとに行われる。
ここで,分離フィルタW(f)の更新式は,例えば次の(2)式のように表すことができる。
Figure 0004519901
このFDICA方式によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
図14において,主マイクロホン101に対応する分離信号y1(f)が前記目的音分離信号である。また,副マイクロホン102に対応する分離信号y2(f)が前記参照音分離信号である。
なお,図14においては,入力される混合音声信号x1,x2のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,目的音抽出装置X1において,前記目的音分離信号合成処理部20は,前記音源分離処理部10それぞれにより分離生成された複数の前記目的音分離信号の合成処理を実行し,それにより得られる合成信号を出力するものである。
例えば,前記目的音分離信号合成処理部20は,複数の前記目的音分離信号について,複数に区分された周波数成分(周波数ビン)ごとに平均処理や加重平均処理を実行すること等により,それら目的音分離信号を合成する。
また,目的音抽出装置X1において,前記スペクトル減算処理部31は,前記目的音分離信号合成処理部20により得られた合成信号と,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記合成信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。
前記スペクトル減算処理部31は,周知のスペクトル減算処理(スペクトラム差分法に基づく目的音抽出処理)により,前記合成信号から前記参照音分離信号それぞれの信号成分を除去することによって前記目的音抽出信号を抽出する処理を実行するものである。
前記スペクトル減算処理において,前記スペクトル減算処理部31は,前記合成信号及び前記参照音分離信号それぞれについて,所定時間長分のフレームごとに離散フーリエ変換処理(DFT)を実行し,観測信号(ここでは,前記合成信号)の短時間分析を行う。ここで,周波数ビンをf,分析フレーム番号をm,観測信号である前記合成信号のスペクトル値(DFT後の信号値)をY(f,m)とし,目的音信号のスペクトル値がS(f,m),雑音信号(目的音以外の音の信号)のスペクトル値がN(f,m)であるとすると,前記合成信号のスペクトル値Y(f,m)は,次の(3)式により表される。
Figure 0004519901
ここで,目的音信号と雑音信号との間に相関がないものと仮定し,さらに,雑音信号のスペクトル値N(f,m)を前記参照音信号のスペクトル値で近似できるとすると,前記スペクトル減算処理部31は,目的音信号のスペクトル推定値(即ち,前記目的音抽出信号のスペクトル値)を,次の(4)式に基づき算出できる。
Figure 0004519901
次に,図2を参照しつつ,目的音抽出装置X1における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図2には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。同様に,前記音源分離処理部10により分離生成される複数の前記参照音分離信号(図2におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図2において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分が比較的多く残存する場合もある。従って,それらを合成した前記合成信号(図2におけるYC)も,基本的には目的音の信号成分(図2において斜線のバーグラフで示される成分)を主として含む信号ではあるが,状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,前記スペクトル減算処理部31により,前記合成信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図2におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y1によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X1においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に目的音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
[第2発明]
次に,図3に示すブロック図を参照しつつ,第2発明の実施形態に係る目的音抽出装置X2について説明する。なお,図3において,目的音抽出装置X2が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図3に示すように,目的音抽出装置X2は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル近似信号抽出処理部32を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X2も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X2において,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,前記主音響信号と前記副音響信号とに基づいて,前記目的音に対応する分離信号(同定信号)である目的音分離信号を分離生成する音源分離処理を実行するものである(前記音源分離手段の一例)。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
また,前記スペクトル近似信号抽出処理部32は,前記音源分離処理部10によって分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域(周波数ビン)ごとの信号成分のうち,その信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである(前記スペクトル近似信号抽出手段の一例)。
例えば,前記スペクトル近似信号抽出処理部32は,複数の前記目的音分離信号について,周波数ビンごとにそれらの信号成分のレベル(パワー)を比較し,そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に,それらの信号成分のいずれか1つを選択する,又はそれらの信号成分を合成する(例えば平均値や最小値を算出する)ことによって前記目的音抽出信号を抽出する。
次に,図4を参照しつつ,目的音抽出装置X2における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図4には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号(図4におけるYA1,YA2)は,それぞれ目的音の信号成分(図4において斜線のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分(図4において斜線のバーグラフ以外のバーグラフで示される成分)が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,複数のマイクロホン101,102それぞれの位置又は指向性の方向が異なるので,雑音成分を多く含む前記目的音分離信号は,その全てのうちの一部であるか,或いは前記目的音分離信号それぞれに含まれる雑音成分の種類が異なることが通常である。
従って,前記スペクトル近似信号抽出処理部32により,複数の前記目的音分離信号(図4におけるYA1,YA2)において近似する信号成分を抽出した結果である前記目的音抽出信号(図4におけるYO)は,各種の雑音の信号成分が除去された信号である。
従って,目的音抽出装置Y2によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
[第3発明]
次に,図5に示すブロック図を参照しつつ,第3発明の実施形態に係る目的音抽出装置X3について説明する。なお,図5において,目的音抽出装置X3が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図5に示すように,目的音抽出装置X3は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル減算処理部31’を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X3も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X3において,前記音源分離処理部10及び前記スペクトル減算処理部31’は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル減算処理部31’が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,前記主音響信号と前記副音響信号とに基づいて,前記目的音以外の雑音(参照音)に対応する分離信号(同定信号)である参照音分離信号を分離生成する音源分離処理を実行するものである。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
また,前記スペクトル減算処理部31’は,前記主マイクロホン101を通じて得られる前記主音響信号と,前記音源分離処理部10により分離生成された複数の前記参照音分離信号との間で前述したスペクトル減算処理を行うことにより,前記主音響信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。このスペクトル減算処理部31’は,処理対象(観測信号)が前記合成信号から前記主音響信号に入れ替わったこと以外は前記目的音抽出装置X1における前記スペクトル減算処理部31と同じ処理を実行するものである。
次に,図6を参照しつつ,目的音抽出装置X1における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図6には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成され複数の前記参照音分離信号(図6におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図6において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
一方,前記主音響信号には,目的音以外の参照音の信号成分が比較的多く残存する場合もある。このように,前記主音響信号に目的音以外のノイズ音(参照音)の成分が含まれていても,前記スペクトル減算処理部31’により,前記主音響信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図6におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y3によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X3においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に雑音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
なお,FDICA方式の音源分離処理を実行する前記音源分離処理部10の処理結果である前記参照音分離信号,前記目的音分離信号及びそれらの合成信号,並びに,前記スペクトル減算処理や前記スペクトル近似信号抽出処理により得られる前記目的抽出信号は,いずれも周波数領域の音響信号である。このため,図1,3,5には図示されていないが,目的音抽出装置Y1,Y2,Y3は,さらに,IDFT処理部と音響出力処理部とを備えている。
前記IDFT処理部は,周波数領域の前記目的音抽出信号を時間領域の信号に変換する処理,即ち,逆離散フーリエ変換(IDFT)処理を施して所定のバッファメモリに出力する処理を実行する。
また,前記音響出力処理部は,前記IDFT処理部により得られた時間領域の目的音抽出信号を順次外部出力する(例えば,実時間で出力する)。
[目的音抽出性能の評価]
以下,図7〜図10を参照しつつ,以上に示した目的音抽出装置X1〜X3それぞれの目的音抽出性能の評価結果について説明する。
図7及び図8に,目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件及び第2の実験条件を示す。
前記第1の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が,指向性を有する前記副マイクロホン102それぞれの正面方向にその他のノイズ音源(参照音源)が存在するという理想状態に比較的近い条件である。
また,前記第2の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が存在する一方,その他のノイズ音源(参照音源)が前記副マイクロホン102それぞれに必ずしも対応していないという実際の使用環境に比較的近い条件である。
前記第1の実験条件及び前記第2の実験条件それぞれの下での前記目的音抽出装置X1〜X3及び従来の目的音抽出装置の目的音抽出性能を,前記目的音抽出信号におけるNRR(Noise Reduction Rate)により表したものが図9及び図10である。図9及び図10において,前記目的音抽出装置X1〜X3それぞれを装置X1〜装置X3,従来の目的音抽出装置を従来装置と記している。なお,ここでいう従来の目的音抽出装置は,前記主音響信号から,前記副音響信号に基づく前記スペクトル減算処理によって目的音に対応する信号成分を抽出するものである。
図9及び図10からわかるように,実験条件にかかわらず,前記目的音抽出装置X1〜X3のいずれによっても,従来装置に比べて極めて高い目的音抽出性能が得られることがわかる。
また,前記目的音抽出装置X1〜X3の中では,特に,前記目的音抽出装置X1による目的音抽出性能が高く,それに続いて前記目的音抽出装置X3,前記目的音抽出装置X2の順で,高い目的音抽出性能が得られることがわかる。
このように,前記目的音抽出装置X1〜X3によれば,様々な音響環境の下において,従来よりも高い目的音抽出性能(雑音除去性能)を確保できる。
[指向性の評価]
以下,図11及び図12を参照しつつ,前記目的音抽出装置X1の指向性の評価結果について説明する。
図11に,目的音抽出装置X1の指向性を評価する第3の実験条件を示す。この第3の実験条件は,目的音源を移動させることにより,前記主マイクロホン101の正面方向を基準としてどの程度の範囲まで目的音を抽出できるかを評価する実験条件である。
前記第3の実験条件の下での前記目的音抽出装置X1及び指向性を有する前記主マイクロホン101自体の指向特性,即ち,全360度方向からの音源に対するマイク感度(単位dB)を表したものが図12である。
図12からわかるように,前記主マイクロホン101自体の指向性が非常に緩やかなものであるにもかかわらず,前記目的音抽出装置X1においては,前記主マイクロホン101の正面方向を中心としたごく狭い範囲で高いNRRが得られる一方で,目的音源がその範囲から外れると急激にNRRが低下する。
このように,前記主マイクロホン101自体の指向性が非常に緩やかなものであっても,前記目的音抽出装置X1としては非常に急峻な指向性を有する音響入力装置として機能する。
また,図12に示す結果において,前記主マイクロホン101の正面方向(指向範囲の中心方向)を中心(0°方向)として概ね+45°及び−45°の方向が,指向性の範囲の境界を形成する方向となっている。
一方,前記第3の実験条件において,それぞれ左右対称でほぼ同じ指向特性を有する前記主マイクロホン101及び前記副マイクロホン102が,前記主マイクロホン101の指向中心方向(0°)に対して2つの前記副マイクロホン102それぞれの指向中心方向が+90°及び−90°に設定されている。このことから,前記目的音抽出装置X1〜X3において,前記主マイクロホン101及び前記副マイクロホン102がそれぞれ左右対称でほぼ同じ指向特性を有する場合,指向性の範囲の境界を形成する方向が,前記主マイクロホン101の指向中心方向と,前記副マイクロホン102それぞれの指向中心方向との中間方向となることがわかる。
また,図12に示す例は,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定された場合の例であるが,それらが三次元的に異なる方向に設定した場合,指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば,ある一の平面内において前記主マイクロホン101の正面方向と2つの前記副マイクロホン102−1,102−2の正面方向とを0°方向及び±90°の方向に向け,もう1つの前記副マイクロホン102−3の正面方向を前記一の平面に直交する方向に向けること等も考えられる。これにより,前記目的音抽出装置X1の指向特性を三次元的に所望の特性に設定できる。
従って,前記目的音抽出装置X1に,前記主マイクロホン101の位置若しくは指向性の方向に対する前記副マイクロホン102の位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ためのスイッチやダイヤル等の操作部を設けることにより,前記目的音抽出装置X1の指向性能を容易に調節することができ,利便性が高い。
また,以上に示した前記目的音抽出装置X1の指向性能は,前記目的音抽出装置X2及びX3も同様に有する。
ところで,鋭い指向特性を実現する音響入力装置としては,例えば,マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られている。しかしながら,そのような従来の音響入力装置において,図12に示すような鋭い指向性を実現するためには,マイクロホンアレイを構成するマイクロホンの数を増やし,かつそれらマイクロホンを数メートルに渡って配列しなければならず,人が簡単に運搬できないほどに装置が大型化してしまう。
一方,前記目的音抽出装置X1〜X3は,数センチメートルの間隔で配置された3〜5個程度のマイクロホンと,信号処理を行うDSPやASIC等のごく小型のプロセッサとを備えた小型の装置(一般的なハンディマイク程度の大きさの装置)により,図12に示すような鋭い指向性を実現できる。
次に,図13に示すブロック図を参照しつつ,前記目的音抽出装置X1〜X3において,前記音響入力装置V1の代わりに採用可能な装置の一例である音響入力装置V2について説明する。
前記音響入力装置V1においては,前記主音響信号を得るための前記主マイクロホン101及び前記副音響信号を得るための複数の前記副マイクロホン102が予め定められていたが,前記音響入力装置V2は,複数のマイクロホンを備え,そのいずれを前記主マイクロホン101及び前記副マイクロホン102として機能させるかを状況に応じて切り替えるものである。
図13に示すように,前記音響入力装置V2は,3つ以上(図13では4つ)のマイクロホン100−1〜100−4と,主・副音響信号特定部41と,信号切替器42とを備えている。
3つ以上の前記マイクロホン100−1〜100−4は,それぞれ配置位置が異なる又はそれぞれ指向性の方向が異なるマイクロホンである。これらのマイクロホン100−1〜100−4は,状況に応じて,前記主マイクロホン101として機能したり,或いは前記副マイクロホン102として機能する。
例えば,前記マイクロホン100−1〜100−4は,それぞれ同じ指向性を有するマイクロホンであり,図13に示すように,所定の円周(中心PO)上にその円における放射線方向外側に向けて等間隔に(マイクロホン位置と円の中心POとを結んだときの中心角が等しくなるように)配置される。
また,前記主・副音響信号特定部41は,3つ以上の前記マイクロホン100−1〜100−4それぞれを通じて得られる3つ以上の入力音響信号に基づいて,それら入力音響信号の中から1つの前記主音響信号と,複数の前記副音響信号とを特定する処理を実行するものである(前記主・副音響信号特定手段の一例)。さらに,前記主・副音響信号特定部41は,前記主音響信号及び前記副音響信号の特定結果に応じた制御信号を前記信号切替器42に対して出力する。
前記主・副音響信号特定部41は,例えば,3つ以上の前記入力音響信号それぞれの信号強度(音圧)を比較し,その信号強度が最大である入力音響信号を前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定する。前記その他の入力音響信号のうちの一部を前記副音響信号として特定する方法としては,例えば,前記主音響信号を得るマイクロホンに対し,配置位置又は指向方向が両側それぞれに隣接する2つのマイクロホンを通じて得られる音響信号を前記副音響信号として特定すること等が考えられる。
また,前記主・副音響信号特定部41が,3つ以上の前記入力音響信号それぞれにおける予め定められた周波数成分の占める割合を比較し,その割合が最大であるものを前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定すること等も考えられる。これは,前記目的音源が発する音響の周波数特性がある程度既知である場合等に有効である。
前記主・副音響信号特定部41は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記主・副音響信号特定部41が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
また,前記信号切替器42は,前記主・副音響信号特定部41から出力される制御信号(信号の特定結果に応じた信号)に従って,3つ以上の前記マイクロホン100−1〜100−4から前記音源分離処理部10への音響信号の伝送経路を切り替える装置である(前記信号経路切替手段の一例)。
前記信号切替器42は,前記マイクロホン100−1〜100−4それぞれに接続される信号入力端In1〜In4と,前記主音響信号の出力用の1つの信号出力端Ot1と,前記副音響信号の出力用の複数(図13では3つ)の信号出力端Ot2〜Ot4とを備えている。さらに,前記信号切替器42は,前記主・副音響信号特定部41から出力される制御信号に応じて,各信号入力端In1〜In4と各信号出力端Ot1〜Ot4とを接続する信号経路を,予め定められた複数の切替パターンの中から選択的に切り替える。これにより,前記主・副音響信号特定部41によって前記主音響信号として特定された音響信号が前記出力端Ot1から出力され,前記主・副音響信号特定部41によって前記副音響信号として特定された音響信号が前記出力端Ot2〜Ot4から出力される。
前記目的音抽出装置X1〜X3は,図13に示すような音響入力装置V2を備えることにより,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホン101として固定できない対象に対しても適用可能となる。
次に,図15〜図18に示すタイムチャートを参照しつつ,前記音源分離処理部10が前記FDICA方式に基づく音源分離処理を行う場合について,その音源分離処理のシーケンスについて説明する。なお,前述したように,前記FDICA方式に基づく音源分離処理は,独立成分分析法に基づくブラインド音源分離方式による音源分離処理の一例である。なお,以下の説明において,前記目的音抽出装置X1における前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31の処理と,前記目的音抽出装置X2における前記スペクトル近似信号抽出処理部32の処理と,前記目的音抽出装置X3における前記スペクトル減算処理部31’の処理とを総称してポスト処理という。
前記FDICA方式に基づく音源分離処理では,複数のマイクロホン(目的音抽出装置X1〜X3における前記主マイクロホン101及び前記副マイクロホン102)を通じて時系列に入力される音響信号(以下,入力音響信号という)に対し,これを周波数領域の信号に変換した上で,分離行列W(f)に基づくフィルタ処理(行列演算)を順次実行して分離信号(前記参照音分離信号や前記目的音分離信号)を生成する処理が実行される。ここで,前記入力音響信号は,図14における前記混合音声信号x1(t),x2(t)に相当し,図1,図3及び図5における前記主音響信号及び前記副音響信号に相当する。
また,前述したように,前記フィルタ処理は,所定時間長分のフレーム信号(例えば,前記混合音声信号が数十ms〜数百ms程度の周期で区分された信号)ごとに行われる。このフィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記ポスト処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
さらに,前述したように,前記FDICA方式に基づく音源分離処理では,時系列に入力される前記入力音響信号を用いて,前記フィルタ処理に用いる前記分離行列W(f)を求める学習計算(逐次計算)も行われる。この学習計算は,演算負荷が大きく,一般に,リアルタイム処理に適さない。
図15は,目的音抽出装置X1〜X3における前記学習計算を除く処理のシーケンスの第1例を表すタイムチャートである。なお,以下に示すSt1,St2,…は,処理手順(ステップ)の識別符号を表す。
図15に示すように,目的音抽出装置X1〜X3においては,前記音源分離処理部10が,前記入力音響信号について,所定時間長分のフレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。この第1例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長と同じ周期で実行する。これにより,連続する2つのフレーム信号は,時間帯の重複のない信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。
次に,他の処理部(前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31,又は前記スペクトル近似信号抽出処理部32,又は前記スペクトル減算処理部31’)が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。これにより,前記入力音響信号における前記フレーム信号それぞれに対応する周波数領域の前記目的音抽出信号が得られる。
さらに,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示したステップSt1〜St4の処理は,演算負荷の小さな処理であり,実用的なプロセッサによって実行されても,比較的余裕をもって前記フレーム信号の時間長の範囲内で処理を完了できる。従って,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
一方,前記FDICA方式に基づく音源分離処理における前記学習計算は,連続する複数の前記フレーム信号が入力されるごとに,その複数のフレーム信号を用いた逐次計算によって新たな前記分離行列W(f)(以降の前記フィルタ処理に用いられる分離行列)を算出する処理であり,図5に示した各処理(St1〜St5)と並行して実行される。このようにして新たに算出された分離行列W(f)は,以降に実行される前記フィルタ処理に用いられる。
以下,前記学習計算において新たな分離行列W(f)を算出するごとに用いられる予め定められた数(複数)の連続する前記フレーム信号の集合のことを,以下,メタフレーム信号という。このメタフレーム信号は,時系列に入力される前記入力音響信号における予め定められた周期で区分された信号(前記区間信号に相当)であり,直接的には,周波数領域の信号に変換された(逆離散フーリエ変換処理が施された)メタフレーム信号が前記学習計算に用いられる。前記フレーム信号の時間長(信号区分の周期)が数十ミリ秒〜数百ミリ秒であるのに対し,前記メタフレーム信号の時間長(信号区分の周期)は,処理を実行するプロセッサの能力にもよるが,音響環境の変化への適応時間として許容される時間(例えば,数秒程度)である。
また,図16は,目的音抽出装置X1〜X3における前記学習計算を除く処理のシーケンスの第2例を表すタイムチャートである。
図16に示す例においても,前記音源分離処理部10が,前記入力音響信号について,前記フレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。但し,この第2例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長よりも短い周期で実行する。これにより,連続する2つのフレーム信号は,一部の時間帯が重複する信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。その際,前記音源分離処理部10が生成する連続する2フレーム分の分離信号も,一部の時間帯(図16において波線の円内の時間帯)が重複する信号となる。そのため,前記音源分離処理部10は,連続する2フレーム分の分離信号における重複する時間帯の部分について合成処理(加重平均処理等)を施すことにより,出力する分離信号を生成する。
次に,前記第1例(図15)と同様に,他の処理部が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。
さらに,前記第1例(図15)と同様に,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示した第2例の処理においても,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
図17は,前記FDICA方式に基づく音源分離処理を行う前記音源分離処理部10が実行する前記学習計算の第1実施例のタイムチャートである。
図17に示す前記学習計算(逐次計算)の例(第1実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}ごとに,そのメタフレーム信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。但し,この場合,学習計算における逐次計算の回数が,予め定められた上限回数以下となるように(その上限回数に至れば逐次計算を完了させるように)制限されている。
図17に示す第1実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の全てを用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このとき,ある前記メタフレーム信号Mframe(i)を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
ここで,演算負荷の高い前記学習計算を特に制限無しで実行した場合,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)より大きくなり,音響環境の変化への速やかな適応が困難になる事態が生じる。
そこで,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記学習計算における逐次計算回数を前記上限回数で制限すれば,音響環境の変化への速やかな適応が可能となる。
また,このような逐次計算回数の制限(学習計算の簡素化)より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記目的音抽出装置X1〜X3の処理の開始時(装置の電源ON時)の最初の前記フィルタ処理においては,例えば,予め用意された初期行列や,前回の処理終了時(装置の電源OFF時)にメモリに記憶させておいた分離行列等を前記分離行列として用いることが考えられる。
また,前記上限回数は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
図18は,前記FDICA方式に基づく音源分離処理を行う前記音源分離処理部10が実行する前記学習計算の第2実施例のタイムチャートである。
図18に示す前記学習計算(逐次計算)の例(第2実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}の先頭側の一部の時間帯の信号ごとに,その一部の時間帯の信号を用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。
図18に示す第2実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の先頭側の一部を用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このときも,ある前記メタフレーム信号Mframe(i)の一部を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)の一部を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
この第2実施例では,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記メタフレーム信号の一部を間引いて前記学習計算に用いることにより,音響環境の変化への速やかな適応が可能となる。
また,このような学習計算に用いる信号の間引き(学習計算の簡素化)により,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記メタフレーム信号における前記学習計算に用いる部分の時間長(ディジタル信号のサンプル数)は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
本発明は,目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。
第1発明の実施形態に係る目的音抽出装置X1の概略構成を表すブロック図。 目的音抽出装置X1における目的音抽出処理の過程を表す概念図。 第2発明の実施形態に係る目的音抽出装置X2の概略構成を表すブロック図。 目的音抽出装置X2における目的音抽出処理の過程を表す概念図。 第3発明の実施形態に係る目的音抽出装置X3の概略構成を表すブロック図。 目的音抽出装置X3における目的音抽出処理の過程を表す概念図。 目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件を表す図。 目的音抽出装置X1〜X3の目的音抽出性能を評価する第2の実験条件を表す図。 第1の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図。 第2の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図。 目的音抽出装置X1の指向性を評価する第3の実験条件を表す図。 第3の実験条件の下での目的音抽出装置X1の指向性を表す図。 目的音抽出装置X1〜X3に採用され得る音響入力装置V2の概略構成を表すブロック図。 FDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図。 目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第1例を表すタイムチャート。 目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第2例を表すタイムチャート。 目的音抽出装置X1〜X3の音源分離処理における第1実施例に係る学習計算のシーケンスを表すタイムチャート。 目的音抽出装置X1〜X3の音源分離処理における第2実施例に係る学習計算のシーケンスを表すタイムチャート。
符号の説明
X1:第1発明の実施形態に係る目的音抽出装置
X2:第2発明の実施形態に係る目的音抽出装置
X3:第3発明の実施形態に係る目的音抽出装置
V1,V2:音響入力装置
10(10−1〜10−3):音源分離処理部
20:目的音分離信号合成処理部
31,31’:スペクトル減算処理部
32:スペクトル近似信号抽出処理部
41:主・副音響信号特定部
42:信号切替器
101:主マイクロホン
102:副マイクロホン

Claims (7)

  1. 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であって,
    前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ当該2つの音響信号に基づいて前記目的音に対応する目的音分離信号を独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段と,
    前記音源分離手段により分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域ごとの信号成分のうち,該信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル近似信号抽出手段と,
    を具備してなることを特徴とする目的音抽出装置。
  2. 前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い,該逐次計算の回数を予め定められた回数に制限してなる請求項1に記載の目的音抽出装置。
  3. 前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに,その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行してなる請求項1に記載の目的音抽出装置。
  4. れぞれ指向性の方向が異なる3つ以上のマイクロホンを通じて得られる3つ以上の入力音響信号に基づいて,該3つ以上の入力音響信号の中から1つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段と,
    前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段と,
    を具備してなる請求項1〜のいずれかに記載の目的音抽出装置。
  5. 前記主・副音響信号特定手段が,前記3つ以上の入力音響信号それぞれの信号強度の比較に基づいて,又は前記3つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて,1つの前記主音響信号と複数の前記副音響信号とを特定してなる請求項に記載の目的音抽出装置。
  6. 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって,
    コンピュータに,
    前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に当該2つの音響信号に基づいて前記目的音に対応する目的音分離信号を独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
    前記音源分離処理により分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域ごとの信号成分のうち,該信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル近似信号抽出処理と,
    を実行させてなることを特徴とする目的音抽出プログラム。
  7. 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータにより実行する目的音抽出方法であって,
    コンピュータにより,
    前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に当該2つの音響信号に基づいて前記目的音に対応する目的音分離信号を独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
    前記音源分離処理により分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域ごとの信号成分のうち,該信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル近似信号抽出処理と,
    を実行してなることを特徴とする目的音抽出方法。
JP2007325065A 2007-04-26 2007-12-17 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 Expired - Fee Related JP4519901B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007325065A JP4519901B2 (ja) 2007-04-26 2007-12-17 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US12/078,839 US20080267423A1 (en) 2007-04-26 2008-04-07 Object sound extraction apparatus and object sound extraction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007116704 2007-04-26
JP2007325065A JP4519901B2 (ja) 2007-04-26 2007-12-17 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Publications (2)

Publication Number Publication Date
JP2008295011A JP2008295011A (ja) 2008-12-04
JP4519901B2 true JP4519901B2 (ja) 2010-08-04

Family

ID=40169251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007325065A Expired - Fee Related JP4519901B2 (ja) 2007-04-26 2007-12-17 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Country Status (1)

Country Link
JP (1) JP4519901B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2312579A1 (en) * 2009-10-15 2011-04-20 Honda Research Institute Europe GmbH Speech from noise separation with reference information
JP2011221087A (ja) * 2010-04-05 2011-11-04 Kobe Steel Ltd 能動騒音制御装置
CN106068535B (zh) * 2014-03-17 2019-11-05 皇家飞利浦有限公司 噪声抑制
JP6604091B2 (ja) * 2015-08-27 2019-11-13 沖電気工業株式会社 音声信号採取装置及びプログラム
JP6729187B2 (ja) 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
US11869478B2 (en) 2022-03-18 2024-01-09 Qualcomm Incorporated Audio processing using sound source representations

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167698A (ja) * 1990-10-29 1992-06-15 Purimo:Kk 目的音源に追随する指向性マイクロホン
JP2001008285A (ja) * 1999-04-19 2001-01-12 Sony Corp 音声帯域信号処理方法及び音声帯域信号処理装置
JP2001204092A (ja) * 2000-01-18 2001-07-27 Nippon Telegr & Teleph Corp <Ntt> ゾーン別収音装置
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007034238A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 現場作業支援システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167698A (ja) * 1990-10-29 1992-06-15 Purimo:Kk 目的音源に追随する指向性マイクロホン
JP2001008285A (ja) * 1999-04-19 2001-01-12 Sony Corp 音声帯域信号処理方法及び音声帯域信号処理装置
JP2001204092A (ja) * 2000-01-18 2001-07-27 Nippon Telegr & Teleph Corp <Ntt> ゾーン別収音装置
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007034238A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 現場作業支援システム

Also Published As

Publication number Publication date
JP2008295011A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN106251877B (zh) 语音声源方向估计方法及装置
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP4675177B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4519901B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
KR20130116299A (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
Nordqvist et al. An efficient robust sound classification algorithm for hearing aids
CN101828335A (zh) 稳健双麦克风噪声抑制系统
EP3655949A1 (en) Acoustic source separation systems
JP4336378B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US20080267423A1 (en) Object sound extraction apparatus and object sound extraction method
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP6540730B2 (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
US11978471B2 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
WO2010092914A1 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP4519900B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP6436180B2 (ja) 収音装置、プログラム及び方法
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
AU2020316738B2 (en) Speech-tracking listening device
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100519

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees