JP2017107141A - 音源情報推定装置、音源情報推定方法、およびプログラム - Google Patents

音源情報推定装置、音源情報推定方法、およびプログラム Download PDF

Info

Publication number
JP2017107141A
JP2017107141A JP2016028682A JP2016028682A JP2017107141A JP 2017107141 A JP2017107141 A JP 2017107141A JP 2016028682 A JP2016028682 A JP 2016028682A JP 2016028682 A JP2016028682 A JP 2016028682A JP 2017107141 A JP2017107141 A JP 2017107141A
Authority
JP
Japan
Prior art keywords
sound source
frequency domain
source information
information estimation
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016028682A
Other languages
English (en)
Other versions
JP6594222B2 (ja
Inventor
健太 丹羽
Kenta Niwa
健太 丹羽
和則 小林
Kazunori Kobayashi
和則 小林
悠馬 小泉
Yuma Koizumi
悠馬 小泉
智子 川瀬
Tomoko Kawase
智子 川瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JP2017107141A publication Critical patent/JP2017107141A/ja
Application granted granted Critical
Publication of JP6594222B2 publication Critical patent/JP6594222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】高精度に音源特徴から音源情報を推定する。【解決手段】ビームフォーミング部12は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を出力する。局所PSD推定部13は、複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する。DNNマッピング20は、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める。このとき、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。【選択図】図6

Description

この発明は、音響信号処理の技術分野に関し、特に、音響信号から抽出した音源特徴を用いて音源情報を推定する技術に関する。
従来から音響信号処理の技術分野において、音源特徴から音源情報を推定することが行われている。そのような従来技術として、例えば、部屋の残響度合いなどの指標となる直間比を推定する直間比推定技術や、様々な雑音が混在する状況下で特定の位置にある音源を強調する音源強調技術などがある。
従来の直間比推定技術では、複数のビームフォーミング出力から得られる空間的な感度分布を利用して、決定論的に直間比を決定する(例えば、特許文献1参照)。図1に従来の直間比推定装置の機能構成を示す。周波数領域変換部11−1〜11−M(M≧2)は、M本のマイクロホン10−1〜10−Mで受音した信号を入力とし、周波数領域の観測信号xω,τ=[X1,ω,τ,…,XM,ω,τ]Tを出力する。ビームフォーミング部(直接音強調用)12−1は、観測信号xω,τを入力とし、音源方向が強調された出力信号YBF,1,ωを出力する。ビームフォーミング部(拡散残響解析用)12−2は、観測信号xω,τを入力とし、音源以外の方向が強調された出力信号YBF,2,ωを出力する。局所PSD推定部13は、2個のビームフォーミング出力信号YBF,1,ω, YBF,2,ωを用いて、周波数ごとに直接音のPSDPD,ωと残響のPSDPR,ωを求める。パワー比計算部14は、直接音と残響のPSDPD,ω, PR,ωを用いて、直間比Γを推定する。
従来の音源強調技術では、(1)線形性のビームフォーミングを用いる方法や、(2)複数のビームフォーミング出力から得られる空間的な感度分布の差を利用して非線形性のウィーナーフィルタを生成する方法などが用いられる(例えば、特許文献2参照)。図2に従来の音源強調装置の機能構成を示す。受音部10−1〜10−Mは、汎用マイクロホンアレイや相互情報量増大型の受音系を用いて音を観測する。周波数領域変換部11−1〜11−Mは、受音したM個の信号を入力とし、周波数領域の観測信号xω,τを出力する。ビームフォーミング部(直接音強調用)12−1は、観測信号xω,τを入力とし、音源方向が強調された出力信号Yζ(1),ω,τ=Yi,ω,τを出力する。同様に、ビームフォーミング部(雑音解析用)12−2〜12−L(L≧2)は、観測信号xω,τを入力とし、音源以外の方向が強調されたL-1個のビームフォーミング出力信号Yζ(2),ω,τ, …, Yζ(L),ω,τをそれぞれ出力する。局所PSD推定部13は、L個のビームフォーミング出力信号Yζ(1),ω,τ, …, Yζ(L),ω,τを用いて、局所PSD^ΦS,ω,τを推定する。事前SNR計算部15は、局所PSD^ΦS,ω,τを入力とし、事前SNRの推定値^ξω,τ=^φS,ω,τ/^φN,ω,τを求める。フィルタリング部16は、推定した事前SNR^ξω,τを用いてウィーナーフィルタを計算し、ビームフォーミング出力信号Yζ(1),ω,τにウィーナーフィルタを掛け合わせることで、出力信号Zi,ω,τを出力する。
特開2011−53062号公報 国際公開第2015/129760号
従来の直間比推定技術では、(1)直接音と残響が無相関である、(2)室内に音源のみが存在し雑音レベルが十分低い、などの条件が成り立てば、ある程度正確に直間比を推定することができる。しかしながら、直接音と初期反射を含む残響には相関が存在するし、室内には雑音が存在するケースが多い。その場合、直間比の推定精度が低下する。
従来の音源強調技術では、(1)音源信号群の時間スパース性が低く、音源間の無相関性が仮定できない、(2)背景雑音のレベルが高い、(3)ウィーナーフィルタ設計に用いるパラメータが合っていない、などの場合において、目的音もしくは雑音のPSDの推定精度が低下し、出力信号が強調されないことがある。
すなわち、従来のように決定論的に音源情報を求める手法では、特定の条件を満足しない環境で利用した場合に、精度が低下するという課題があった。
この発明の目的は、このような点に鑑みて、従来の決定論的な手法では推定精度が低下する場合であっても、高精度に音源特徴から音源情報を推定することができる音源情報推定技術を提供することである。
上記の課題を解決するために、この発明の音源情報推定装置は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出部と、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定部と、を含み、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。
この発明の音源情報推定技術によれば、統計的な手法により音源特徴から音源情報を求めるため、従来の決定論的な手法では推定精度が低下する環境下であっても、高精度に音源特徴から音源情報を推定することができる。
図1は、従来の直間比推定装置の機能構成を例示する図である。 図2は、従来の音源強調装置の機能構成を例示する図である。 図3は、音源とインパルス応答の分解モデルを説明するための図である。 図4は、残響環境下における直接音と残響の伝搬モデルを説明するための図である。 図5は、直間比を推定するための局所PSD推定を説明するための図である。 図6は、第一実施形態の直間比推定装置の機能構成を例示する図である。 図7は、直間比推定方法の処理手続きを例示する図である。 図8は、DNNマッピング部の機能構成を例示する図である。 図9は、第二実施形態の直間比推定装置の機能構成を例示する図である。 図10は、第三実施形態の直間比推定装置の機能構成を例示する図である。 図11は、第四実施形態の直間比推定装置の機能構成を例示する図である。 図12は、相互情報量増大型受音系を説明するための図である。 図13は、第五実施形態の音源強調装置の機能構成を例示する図である。 図14は、音源強調方法の処理手続きを例示する図である。 図15は、第六実施形態の音源強調装置の機能構成を例示する図である。 図16は、第七実施形態の音源強調装置の機能構成を例示する図である。 図17は、第八実施形態の音源強調装置の機能構成を例示する図である。 図18は、対称性をもつアレイ構造を例示する図である。
以下、この発明を実施するための形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
第一実施形態から第四実施形態では、この発明の音源情報推定技術を直間比推定技術に適用した実施形態を説明する。第五実施形態から第八実施形態では、この発明の音源情報推定技術を音源強調技術に適用した実施形態を説明する。第九実施形態では、直間比推定技術と音源強調技術との上位概念として抽出される音源情報推定技術を、各実施形態に対応させて説明する。
なお、文中で使用する記号「^」「」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。
<直間比推定技術>
最初に、従来の決定論的な手法による直間比推定技術を詳細に説明し、続いて、この発明の音源情報推定技術を適用した直間比推定技術の実施形態を説明する。
≪残響環境下での音伝搬モデル≫
残響環境下における音源とマイクロホン間のインパルス応答は、直接音(direct sound)、初期反射音(early reflection)、および後部残響(late reverberation)から構成される。ここでは、簡易なモデル化のために、残響には初期反射音と後部残響とが含まれることとして、図3に示すように、直接音(direct sound)と残響(reverberation)の2要素によりインパルス応答が構成されるものと想定する。インパルス応答の周波数ωにおける特性(以後、伝達特性と呼ぶ)をHωとすると、伝達特性は式(1)でモデル化される。
ここで、HD,ωは直接音の伝達特性、HR,ωは残響の伝達特性を表す。
直接音と残響の伝達特性は特性が大きく異なる。一般的に、直接音は空間的に干渉性が高く、残響は拡散性であり干渉性が低い。直接音は、図4(A)に示すように、マイクロホンに対して直接的に伝搬する。反対に、残響は、図4(B)に示すように、あらゆる方向から等パワーで伝搬するようにモデル化できる。この伝搬モデルの違いに着目することで、直接音と残響のパワーを分離して推定できると考えられる。
以下の説明の中では、3つの条件を仮定する。(1)音源の到来方向は既知とする。音源の到来方向はマニュアルで与えてもよいし、ビームフォーミング法やMUSIC法等の従来方式で推定してもよい。(2)直接音と残響は無相関であるとする。(3)各方向に対する感度分布を探索するために、複数のマイクロホンで構成されたマイクロホンアレイで観測することとする。
≪アレイ信号の観測モデル≫
Xm,ω,τをm番目のマイクロホンにおける観測信号とする。マイクロホンは総計でM本あり、ωは周波数ビン番号、τは時間フレーム番号を表す。式(1)を用いると、Xm,ω,τは式(2)でモデル化される。
ここで、Sω,τは音源のスペクトラムを表す。
式(2)における伝達特性は、さらに2つの要素に分解される。1つ目の要素は、音源から参照位置(例えばマイクロホンアレイの中心)における伝達特性である。2つ目の要素は、参照位置から各マイクロホンまでの伝達特性である。音源信号が平面波として到来することを仮定すると、2つ目の要素(参照位置と各マイクロホンとの間の伝達特性)は、マイクロホン間に生じる遅延差による位相シフトで近似できる。そのため、HD,m,ωとHR,m,ωは式(3)(4)で表現される。
ここで、HDref,ωは音源と参照位置間における直接音の伝達特性、HRref,Ω,ωは残響の伝達特性を表す。τΩ,mは三次元的な角度Ω={θ, φ}(θ∈[0, 2π]: 水平角、φ∈[0, π]: 天頂角)から音源が到来するときの参照位置とm番目のマイクロホン間における遅延時間を表す。また、ΩDは音源の到来方向を表す。
マイクロホンアレイの観測信号ベクトルは式(5)でモデル化される。
ここで、aΩ,ω=[exp(-jωτ1,Ω), …, exp(-jωτM,Ω)]Tは方向Ωに対するステアリングベクトルを表す。SD,ω,τ, SR,Ω,ω,τはそれぞれ参照位置で観測される方向Ωから到来する直接音と残響とを表し、式(6)(7)で定義される。なお、・T(上付き添え字のT)は転置を表す。
≪ビームフォーミング出力≫
異なる方向から到来する波面の強度分布を解析するために、観測信号xω,τに対して、2つ以上のビームフォーミングフィルタを掛け合わせることを想定する。l番目のビームフォーミングの出力信号は、式(8)で表される。
ここで、・H(上付き添え字のH)は共役転置を表す。wl,ωはl番目のビームフォーミングのフィルタ係数であり、式(9)で定義される。
ビームフォーミング出力のパワースペクトル密度(Power Spectral Density: PSD)はビームフォーミングの感度特性で重みづけした直接音と残響のPSDの加算で表され、次式で表現される。
ここで、PD,ωは参照位置で観測した直接音のPSD、PR,Ω,ωは残響のPSDを表す。PD,ωとPR,Ω,ωは式(12)(13)で表現される。
ここで、E[・]は時間に対する期待値演算を表す。Gl,Ω,ωは方向Ωに対するl番目のビームフォーミングフィルタの感度を表し、式(14)で表現される。
式(11)の導出では直接音と残響が無相関であることを仮定した。つまり、E[S* D,ω,τSR,Ω,ω,τ]=0とした。ここで、・*(上付き添え字の*)は複素共役を表す。
残響が空間的に拡散して伝搬する(すなわち、あらゆる方向から到来するパワーが等しい)と仮定しているので、残響のPSDはすべての方向Ωに対して定数であるとモデル化できる。
したがって、式(11)におけるビームフォーミング出力のPSDは式(16)となる。
≪局所PSD推定≫
図5に示すように、2つの指向特性が異なるビームフォーミング(Beamformers)をアレイ観測信号に対して畳み込むと想定する。式(16)によると、2つのビームフォーミング出力のPSDは、式(17)のように行列形式で表される。
ここで、PBF,ωとGωに含まれる要素は既知であり事前に計算できるため、直接音と残響のPSDはフレームごとに推定される。
ここで、^・は推定された値を表す。なお,^Pcmp,ωを構成するPD,ωPR,ωは正の値であるため、算出された結果が負値である場合には0にフロアリングする。推定したPD,ωPR,ωを用いて、式(19)に従って直間比Γconvを推定することができる。
この発明では、直間比の推定精度を向上させるために、PD,ω, PR,ωという音源特徴を入力とし、直間比Γを出力する統計的マッピングモデルを導入する。近年、統計的マッピングモデルの一つとして、ディープニューラルネットワーク(Deep Neural Network: DNN)が多く用いられているので、ここではディープニューラルネットワークを利用する。ディープニューラルネットワークについての詳細は、下記参考文献1に記載されている。
〔参考文献1〕岡谷貴之著、“深層学習”、第一版、講談社サイエンティフィク、2015年
この発明を直間比推定に適用する場合のポイントは、(1)推定された局所PSDや複数のビームフォーミング出力パワー群をディープニューラルネットワークの入力として直間比を出力する構成と、(2)ディープニューラルネットワークのネットワークパラメータの初期値を従来法のように物理的な特性を加味して設定する点にある。
[第一実施形態]
第一実施形態の直間比推定装置は、図6に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、2個のビームフォーミング部12−1〜12−2、局所PSD推定部13、およびDNNマッピング部20を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第一実施形態の直間比推定方法が実現される。
直間比推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。直間比推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。直間比推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、直間比推定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
図7を参照して、第一実施形態の直間比推定方法の処理手続きを説明する。
ステップS10において、M個のマイクロホン10−1〜10−MからなるマイクロホンアレイがM個の観測信号xm(n)(m=1, …, M)を収音する。ここで、nは離散時間信号のサンプル番号を表す。観測信号xm(n)は周波数領域変換部11−1〜11−Mにそれぞれ入力される。
ステップS11において、周波数領域変換部11−m(m=1, …, M)は、各観測信号xm(n)を短い時間長(例えば、サンプリング周波数16,000Hzの場合には、256サンプル程度)のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行い周波数領域の観測信号Xm,ω,τを出力する。ここで、ωは周波数ビン番号、τは時間フレーム番号を表す。各周波数領域変換部11−1〜11−Mの出力信号群X1,ω,τ, X2,ω,τ, …, XM,ω,τはビームフォーミング部12−1〜12−2にそれぞれ入力される。
ステップS12において、ビームフォーミング部12−1〜12−2は、各周波数領域変換部11−1〜11−Mの出力信号群X1,ω,τ, X2,ω,τ, …, XM,ω,τに対して、それぞれ異なる方向の角度領域から到来する音を強調して収音する処理を行い、結果を出力する。ビームフォーミング部12−1は、直接音の強調に用いるものであり、あらかじめ定めた音源方向から到来する音を強調して出力信号YBF,1,ωを出力する。ビームフォーミング部12−2は、拡散残響の解析に用いるものであり、音源方向以外の方向から到来する音を強調して出力信号YBF,2,ωを出力する。各ビームフォーミング部12−1〜12−2の出力信号群YBF,1,ω, YBF,2,ωは局所PSD推定部13に入力される。
ステップS13において、局所PSD推定部13は、各ビームフォーミング部12−1〜12−2の出力信号群YBF,1,ω, YBF,2,ωを入力とし、上記式(18)に従って、直接音のPSDPD,ωおよび残響のPSDPR,ωを推定する。推定した直接音および残響のPSDPD,ω, PR,ωはDNNマッピング部20に入力される。
ステップS20において、DNNマッピング部20は、局所PSD推定部13の出力する直接音と残響のPSDPD,ω, PR,ωを入力とし、ネットワークパラメータzを用いて直間比の推定値Γを求め、結果を出力する。
以下、DNNマッピング部20の処理を詳細に説明する。DNNマッピング部20は、図8に示すように、N層のディープニューラルネットワークで構成される。ここでは、Nは4〜5程度でよい。まず、ディープニューラルネットワークの入力層に特徴量を設定する。
ここで、ωQは解析FFTビン数を表す。この際、複数の周波数ビンを集約した周波数バンドの状態でも構わない。ネットワークパラメータzにZ(2), …, Z(N), b(2), …, b(N)が含まれるとすると、ディープニューラルネットワークの出力はN-1回の逐次計算により、以下のように計算される。
ここで、n層目のレイヤー数をJnと記述するとき、
である。活性化関数f(n)(・)は、式(28)のように、シグモイド関数(sigmoid function)(n=2, …, N-1の場合)と恒等写像関数(n=Nの場合)を併用する。
N層目のレイヤー数をJN=1とし、推定された直間比Γは式(29)となる。
以後、q(1)を入力としネットワークパラメータzを用いて推定した直間比をΓ(q(1); z)と表記する。
ディープニューラルネットワークは、Hintonらのディープブリーフネット(deep brief network: DBN)の研究により、多層ニューラルネットの事前学習(pre-training)を適切に行い、ネットワークパラメータの初期値をうまく設定できるようになったことにより、様々な分野で利用されるようになった。ディープブリーフネットでは、制約ボルツマンマシン(restricted Boltzmann machine: RBM)を多層にスタックし(stacked RBMs)、一層ごとにネットワーパラメータの初期値を推定する。なお、各制約ボルツマンマシンのネットワークパラメータの更新量を適切に計算するためには、例えば、コンストラティブダイバージェンス法(contrastive divergence: CD)を用いればよい。
以下、ディープニューラルネットワークの最適化方法について説明する。第一実施形態では、ネットワークパラメータzの初期値をランダムに設定し、誤差逆伝搬(back propagation)に基づいて、直間比の推定誤差を最小とするようにネットワークパラメータzを最適化する。K個のサンプルデータで構成された学習用の局所PSDと直間比の正解値とからなる教師情報を、式(30)のように記載する。
式(21)(22)の各ステップをK個のサンプルデータに対して適用するとき、以下のように行列形式で書くことができる。
ここで、b(n)1K Tはb(n)をK個分並べる操作を表し、
である。
ディープニューラルネットワークの出力と正解として与えた直間比との誤差を測るための尺度として、式(35)で定義される二乗誤差関数を用いる。
誤差逆伝搬に基づいて、出力層(n=N)から入力層(n=1)に向かって逐次的にネットワークパラメータの勾配を算出する。Γ=[Γ1, …, ΓK]とするとき、n番目の層における各サンプルデータにおけるデルタΔ(n)を以下のように求める。
ここで、f'(・)は関数f(・)の微分であり、
は行列の各成分の積を表す。誤差関数の勾配を以下のように計算する。
最後に、求めた勾配を基にパラメータを更新する。
なお、更新量ΔZ(n), Δb(n)は、以下とすればよい。
ここで、ΔZ(n)+, Δb(n)+は前回の更新量、εは学習係数、μは汎化性能を向上し学習を速く進めるためのモメンタム(momentum)の係数、λは重み減衰(weight decay)である。εは0.01程度、μは0.9程度、λは0.0002程度に設定すればよい。
[第二実施形態]
第一実施形態では、直接音のPSDPD,ωと残響のPSDPR,ωを入力として、直間比の推定値Γを出力するN層のディープニューラルネットワークを用いる構成を説明した。第二実施形態では、次式のように複数のビームフォーミング出力を入力として、直間比の推定値Γを出力するN層のディープニューラルネットワークを用いる構成を説明する。
第二実施形態の直間比推定装置は、図9に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、2個のビームフォーミング部12−1〜12−2を第一実施形態と同様に備え、さらにDNNマッピング部21を含む。第一実施形態の直間比推定装置が備えていた局所PSD推定部13は備えておらず、ビームフォーミング部12−1〜12−2の出力がDNNマッピング部21へ入力されるように構成される。この直間比推定装置が後述する各ステップの処理を行うことにより第二実施形態の直間比推定方法が実現される。
ステップS21において、DNNマッピング部21は、各ビームフォーミング部12−1〜12−2の出力信号群YBF,1,ω, YBF,2,ωを入力とし、ネットワークパラメータzを用いて直間比の推定値Γを求め、結果を出力する。DNNマッピング部21は、K個のサンプルデータで構成された、学習用のビームフォーミング出力と直間比の正解値とからなる教師情報を用いて、第一実施形態と同様に最適化を行ったものである。
[第三実施形態]
第一実施形態および第二実施形態では、ネットワークパラメータzの初期値をランダムに設定した。第三実施形態では、従来法のように物理的な特性を加味してネットワークパラメータzの初期値を設定する方法について説明する。従来法における直間比推定技術は大きく以下の3ステップで構成されている。
(ステップ1:局所PSD推定処理)式(18)のように、2つ以上のビームフォーミングの出力パワー群PBF,ωから局所PSDの推定値^Pcmp,ωを求める。
(ステップ2:周波数加算処理)式(19)に含まれるように、局所PSDの推定値^Pcmp,ωを全周波数帯域にわたって足すことでΣωPD,ω, ΣωPR,ωを出力する。
(ステップ3:対数領域比計算処理)式(19)のように、ΣωPD,ω, ΣωPR,ωから直間比の推定値^Γを以下のように出力する。
以上の3ステップの処理が各層の処理に物理的に対応しているとみなすことができるため、ランダムに設定するよりも良質なネットワークパラメータの初期値を与えることができる。第三実施形態では、第二実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定するように構成する。なお、最適化処理については第二実施形態と同様である。
第三実施形態の直間比推定装置は、図10に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、2個のビームフォーミング部12−1〜12−2、およびDNNマッピング部21を第二実施形態と同様に備え、さらに初期値設定部31を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第三実施形態の直間比推定方法が実現される。
初期値設定部31は、以下のようにして、DNNマッピング部21の各層に対応するネットワークパラメータの初期値を設定する。入力層の値は、第二実施形態と同様に、次式のように設定する。
2層目の処理は、(ステップ1:局所PSD推定処理)が対応する。2層目のレイヤー数はJ2≧L×Qとなるようにする。Lはビームフォーミング数であり、Qは周波数ビン数である。以下では、L=2として説明する。以下のようにネットワークパラメータを書き表すことで、局所PSD推定処理を表現することができる。
なお、G2とB2は値幅調整係数である。Z(2)q(1)の最大値が1〜5程度になるようにG2を設定する。また、Z(2)q(1)の出力値が0以下である場合に値を0付近にフロアリングするために、B2は-5〜0の間に設定する。その後、以下の計算をすることで、2層目の出力q(2)を得る。
3層目の処理は、(ステップ2:周波数加算処理)が対応する。以下のようにネットワークパラメータを書き表すことで、周波数加算処理を表現することができる。なお、3層目のレイヤー数はJ3≧2となるようにする。
なお、G3とB3は値幅調整係数である。Z(3)q(2)の最大値が1〜5程度になるようにG3を設定する。また、B3は0程度で問題ない。その後、式(52)(53)の計算をすることで、3層目の出力q(3)を得る。
4層目の処理は、(ステップ3:対数領域比計算処理)が対応する。以下のようにネットワークパラメータを書き表すことで、対数領域比計算処理を表現することができる。なお、4層目(出力層)のレイヤー数はJ4=1である。
ここで、式(44)に対応させるため、Z1,1 (4)は正の値、Z1,2 (4)は負の値に制限される。例えば、以下のようにして値を決める。
このとき、参照している10log10ωPD,ω)や10log10ωPR,ω)は、1つのサンプルで計算されたものを利用してもよいし、多数のサンプルで計算された値の平均値を利用してもよい。
最後に、出力値を以下のように算出する。
上述したネットワークパラメータの初期値設定法では、層の数は信号処理演算の最小単位数+1以上に設定したほうがよいため、N≧4とすることが望ましい。上記では、N=4とみなして説明したが、Nを4よりも多くしたい場合には、冗長な層を挟めばよい。ここで、信号処理演算の最小単位数とは、同等の信号処理演算(ここでは、直間比推定処理)を従来の決定論的な手法で実行するときに必要となる、加算や乗算などの信号処理演算の数を意味している。
[第四実施形態]
第三実施形態では、第二実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定する構成を説明した。第四実施形態では、第一実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定するように構成する。なお、最適化処理については第一実施形態と同様である。
第四実施形態の直間比推定装置は、図11に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、2個のビームフォーミング部12−1〜12−2、局所PSD推定部13、およびDNNマッピング部20を第一実施形態と同様に備え、さらに初期値設定部30を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第四実施形態の直間比推定方法が実現される。
第三実施形態では、2層目の処理が局所PSD推定処理に対応していることを説明した。したがって、第四実施形態では、3層目以降の初期値設定を用いればよいということになる。入力層の値は、第一実施形態と同様に、式(60)のように設定する。
式(50)以降の処理を2層目、3層目の初期値として設定すればよいことになる。なお、第三実施形態ではN≧4に設定したほうがよいと説明したが、層の数を信号処理演算の最小単位数+1以上に設定する考え方は同様であるため、第四実施形態ではN≧3に設定することが望ましい。
第三実施形態や第四実施形態のように、ネットワークパラメータの初期値を適切に設定することで、各層の物理的な意味合いを持ちつつ、パラメータ最適化が可能になる。その結果、学習データがある程度少なくても外れ値を出力する可能性が減る効果が期待される。つまり、学習データが少なくても環境に依存しにくいディープニューラルネットワークを設計することができる効果がある。
<音源強調技術>
最初に、従来の決定論的手法による音源強調技術を詳細に説明し、続いて、この発明の音源情報推定技術を適用した音源強調技術の実施形態を説明する。
≪観測信号のモデリング≫
音場にK個の音源が存在し、M(≧2)個のマイクロホンを用いて観測する。この状況は、多入力多出力系(multiple-inputs and multiple-outputs: MIMO)の一つとして見なすことができる。k番目の音源とm番目のマイクロホン間の伝達特性をAm,k,ωとすると、M個の観測信号xω,τは式(61)のように計算できる。
ここで、式(61)は以下の要素で構成される。
ここで、k番目の音源をSk,ω,τ、m番目のマイクロホンにおける非方向性の背景雑音をNm,ω,τとして記述した。また、音源や背景雑音の平均値やパワーの期待値が以下を満たすことを仮定する。
ここで、<・>は期待値演算子を表す。また、Sk,ω,τやNm,ω,τが互いに無相関であることを仮定すると、以下のようになる。
ここで、・*(上付き添え字の*)は複素共役を表す。以上の統計的な性質を満たす場合には、音源信号や背景雑音の分散共分散行列は以下のようにモデル化される。
ここで、・H(上付き添え字のH)は共役転置、IKはK次元の単位行列、IMはM次元の単位行列である。
観測信号xω,τの分散共分散行列(以後、空間相関行列と呼ぶ)は,以下でモデル化される。
ここで、RA,ωは各マイクロホンにおける受音パワーσ2 A,ω(事前にチャネルのレベルが正規化されていることを想定)とチャネル間相関Γi,j,ωで構成される。
以後、従来の音源強調技術を構成する、受音系設計技術、ビームフォーミング、およびウィーナーフィルタリングについて順に説明する。受音系設計技術は、目的の音源群を詳細に解析するための受音技術(ハードウェア)である。ビームフォーミングは、受音した観測信号群を処理するための信号処理技術である。ウィーナーフィルタリングは、ビームフォーミング後の信号に対して、更なる雑音抑圧を行うための技術である。これらの技術群を下記のように任意に組み合わせて実装することが従来技術である。
実装形態1:受音設計技術+ビームフォーミング+ウィーナーフィルタリング
実装形態2:受音設計技術+ビームフォーミング
実装形態3:(汎用マイク)+ビームフォーミング
実装形態4:(汎用マイク)+ビームフォーミング+ウィーナーフィルタリング
≪相互情報量増大型受音系設計技術≫
参考文献2には、(1)音源信号を分離して収音しやすくなるような受音信号の性質と、(2)一つの実装形態として多凹型反射板を用いた受音系について説明されている。
〔参考文献2〕K. Niwa, T. Kako, and K. Kobayashi, “Microphone array for increasing mutual information between sound sources and observation signals,” ICASSP 2015, pp. 534-538, 2015.
参考文献2に記載された技術では、詳細に解析したいsω,τについてxω,τがどのくらい情報を教示してくれるのかを測るために、sω,τとxω,τの相互情報量Is;xを定義する。
ここで、Hsは伝送情報量のエントロピー、Hs|xは伝送損失を表す。仮に、Aωが正則な行列でない場合や、背景雑音のレベルが高い場合には、伝送損失Hs|xが増加する。Is;xが最大化するような空間相関行列を調査するために、チャネル容量Cωを導入する。
RA,ωを固有値分解することで、Cωは以下で表現される。
ここで、Λm,ωは、RA,ωのm番目の固有値である。参考文献2によると、Cωは以下のように固有値分布が平滑化されるように信号を受音することで最大化される。
式(82)のように固有値が平滑化されるように音を受音することは、チャネル間相関が0になるように受音することに相当する。
もし、Is;xが増加すれば、音源を分離するための手がかりが観測信号群に含まれるはずである。
相互情報量Is;xを増加するための受音系として、(1)拡散受音系(下記参考文献3参照)や、(2)多凹型反射板を用いた受音系(上記参考文献2参照)がある。拡散受音系は,拡散場でマイクロホンを離散して配置することでチャネル間相関が低下する物理現象を利用する、多マイクロホンを囲うように多反射板を設置するアレイである。多凹型反射板を用いた受音系を図12に示す。パラボラ反射板の焦点付近に準最適にマイクロホンを複数設置されている。焦点付近では,パラボラ反射板により反射された音波が様々な方向、時間差で到来する。焦点位置から少しずれた位置にマイクロホンを設置することで、受音する音の振幅や位相が劇的に変化する。そのため、マイクロホンの位置を最適に設定すれば、相互情報量Is;xが増加する。図12の受音系では、相互情報量が増加するように、12枚の各パラボラ反射板の前に8本のマイクロホンを準最適に設置し、計M=96本の無指向性マイクロホンが実装されている。
〔参考文献3〕K. Niwa, Y. Hioka, K. Furuya, and Y. Haneda, “Diffused sensing for sharp directive beamforming,” IEEE Trans. on Audio, Speech and Language Proc., vol. 21, pp. 2346-2355, 2013.
≪音源強調法1:ビームフォーミング≫
ビームフォーミングに基づく音源強調法について説明する。ビームフォーミングは、マイクロホン間に生じる位相/振幅差を操作し、加算することで、特定の方向から到来する音源を強調する方法である。観測信号群xω,τに対して、i番目の方向から到来する音源を強調するフィルタwi,ωを掛け合わせることで、出力信号Yi,ω,τを得る。
ここで、
である。
フィルタの代表的な設計法には遅延和法と最小分散法があるため、以下で説明する。まず、i番目の方向から到来した音波を受音したときのマイクロホン間の位相/振幅差の関係をモデル化する。以後、それをステアリングベクトルhi,ωと呼ぶ。
汎用性のマイクロホンアレイ(無指向性のマイクを中空に配置)を用い、かつ、音源とマイクロホンの距離が(例えば、1メートル以上)離れている場合、ステアリングベクトルを以下のようにモデル化できる。
ここで、cは音速(秒速およそ340メートル)、pi=[pX,i, pY,i, pZ,i]Tはi番目の音源の位置ベクトル、pm=[pX,m, pY,m, pZ,m]Tはm番目のマイクロホンの位置ベクトルを表す。また、相互情報量増大型のマイクロホンアレイを用いる場合には、ステアリングベクトルとして、伝達特性を用いる。
ただし、実測したインパルス応答は部屋の残響を含み、長くなる傾向がある。そのため、直接波が到来してから短い区間を切り出したデータを利用してもよいし、シミュレーションで算出したデータを利用してもよい。
上記のステアリングを利用して、式(89)の計算をすることで、遅延和フィルタが計算される。
最小分散法によりフィルタを設計する場合は、式(90)を計算する。
ここで、RH,ωはステアリングを用いて設計した空間相関行列である。
ここで、
である。時間領域のビームフォーミング後の出力信号は、Yi,ω,τに対して短時間逆フーリエ変換をすることで得られる。
≪音源強調法2:局所PSD推定に基づくウィーナーフィルタリング≫
更に高い精度で雑音抑圧を実施するために、ビームフォーミングの出力信号Yi,ω,τに対してウィーナーフィルタを掛け合わせる方法について説明する。i番目の音源を強調するためのウィーナーフィルタをGi,ω,τとするとき、出力信号Zi,ω,τは式(93)で得られる。
Gi,ω,τはフレームごとに変化する量であり、式(94)で計算される。
ここで、^φS,ω,τは、ビームフォーミング後の信号に含まれる目的音のPSDの推定値、^φN,ω,τは雑音のPSDの推定値を表す。また、^ξω,τ=^φS,ω,τ/^φN,ω,τは、ビームフォーミング後の信号におけるSN比(signal-noise ratio)(以後、事前SNRと呼ぶ)の推定値を表す。いずれもウィーナーフィルタを設計するために、観測信号群xω,τから求める必要がある。
観測信号群から目的音と雑音のPSDを求めるための従来方式として、局所PSD推定法がある(下記参考文献4、5参照)。
〔参考文献4〕Y. Hioka, K. Furuya, K. Kobayashi, K. Niwa, and Y. Haneda, “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” in Proc. IEEE Trans. on Audio, Speech, and Language Proc., vol. 21, pp. 1240-1250, 2013.
〔参考文献5〕K. Niwa, Y. Hioka, and K. Kobayashi, “Post-filter design for speech enhancement in various noisy environments,” in Proc. IWAENC 2014, pp. 36-40, 2014.
上述したように、観測信号xω,τにビームフォーミングを適用することで、特定の方向や位置から到来した音源を強調して収音した信号を得られる。目的音だけでなく雑音の情報も解析して目的音と雑音のPSDを推定するために、L(≧2)個のビームフォーミングを用いる。l(=1, …, L)番目のビームフォーミングがζ(l)番目の位置にある音源を強調して収音するとし、l番目のビームフォーミング信号をYζ(l),ω,τと表す。複数のビームフォーミング出力信号群をyω,τ=[Yζ(1),ω,τ, …, Yζ(L),ω,τ]Tと表す。なお、ζ(1)=iとし、1番目のビームフォーミング出力は必ず目的音を強調しているものとする。音源信号が互いに無相関であることを仮定できる場合、l番目のビームフォーミング出力信号のPSDは、式(95)でモデル化される。
ここで、φSk,ωは、k番目の音源のPSDを表す。また、Dζ(l),k,ωは、l番目のビームフォーミングのk番目の音源の位置に対する空間的な感度の平均を表す。L個のφYζ(l),ωとK個のφSk,ωの関係は式(96)でモデル化される。
なお、音源数Kは事前に正確に推定することが困難な場合も多いため、K≒Lと仮定して、適当に雑音が到来すると想定される場所を強調して収音したビームフォーミング信号群を利用してもよい。
L個の局所PSDを推定するために、式(96)の逆問題を解く。時間的なスパース性が非常に高く、音源信号が互いに無相関であることが仮定できる場合、式(96)の関係が時間フレームごとに成り立つと仮定できる。式(97)により、フレーム毎に音源信号のPSDを推定することができる。
推定した局所PSD^ΦS,ω,τから^φS,ω,τと^φN,ω,τを計算することで、ウィーナーフィルタを逐次計算できる。
ここで、αN,k,ωは調整用の係数であり、出力値から経験的に決められることが多い。
この発明では、クリアに目的音源を強調した信号を出力するために、ビームフォーミング後の信号群や推定された局所PSD^ΦS,ω,τを入力特徴量とし、事前SNR^ξω,τを出力する統計的マッピングモデルを導入する。近年、統計的マッピングモデルの一つとして、ディープニューラルネットワークが多く用いられているので、ここではディープニューラルネットワークを利用する。
この発明を音源強調に適用する場合のポイントは、(1)推定された局所PSDや複数のビームフォーミング出力パワー群をディープニューラルネットワークの入力として事前SNRを出力する構成と、(2)ディープニューラルネットワークのネットワークパラメータの初期値を従来法のように物理的な特性を加味して設定する点にある。
[第五実施形態]
第五実施形態の音源強調装置は、図13に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、L個のビームフォーミング部12−1〜12−L、局所PSD推定部13、DNNマッピング部22、およびフィルタリング部16を備える。この音源強調装置が後述する各ステップの処理を行うことにより第五実施形態の音源強調方法が実現される。
音源強調装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音源強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音源強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音源強調装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
図14を参照して、第五実施形態の音源強調方法の処理手続きを説明する。
ステップS10において、M個のマイクロホン10−1〜10−MからなるマイクロホンアレイがM個の観測信号xm(n)(m=1, …, M)を収音する。ここで、nは離散時間信号のサンプル番号を表す。観測信号xm(n)は周波数領域変換部11−1〜11−Mにそれぞれ入力される。
ステップS11において、周波数領域変換部11−m(m=1, …, M)は、各観測信号xm(n)を短い時間長(例えば、サンプリング周波数16,000Hzの場合には、256サンプル程度)のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行い周波数領域の観測信号Xm,ω,τを出力する。ここで、ωは周波数ビン番号を表し、τはフレーム番号を表す。各周波数領域変換部11−1〜11−Mの出力信号群X1,ω,τ, X2,ω,τ, …, XM,ω,τはビームフォーミング部12−1〜12−Lにそれぞれ入力される。
ステップS12において、ビームフォーミング部12−l〜12−Lは、各周波数領域変換部11−1〜11−Mの出力信号群X1,ω,τ, X2,ω,τ, …, XM,ω,τに対して、それぞれ異なる方向の角度領域から到来する音を強調して収音する処理を行い、結果を出力する。ビームフォーミング部12−1は、直接音の強調に用いるものであり、あらかじめ定めた音源方向から到来する音を強調して出力信号Yζ(1),ω,τを出力する。残りのビームフォーミング部12−2〜12−Lは、拡散残響の解析に用いるものであり、音源方向以外の方向から到来する音を強調して出力信号群Yζ(2),ω,τ, …, Yζ(L),ω,τを出力する。各ビームフォーミング部12−1〜12−Lの出力信号群Yζ(1),ω,τ, …, Yζ(L),ω,τは局所PSD推定部13に入力される。
ステップS13において、局所PSD推定部13は、各ビームフォーミング部12−1〜12−Lの出力信号群Yζ(1),ω,τ, …, Yζ(L),ω,τを入力とし、上記式(97)に従って、局所PSD^ΦS,ω,τを推定する。推定した局所PSD^ΦS,ω,τはDNNマッピング部22に入力される。
ステップS22において、DNNマッピング部22は、局所PSD推定部13の出力する局所PSD^ΦS,ω,τを入力とし、ネットワークパラメータzωiを用いて事前SNRの推定値^ξω,τ=^φS,ω,τ/^φN,ω,τを求め、結果を出力する。
以下、DNNマッピング部22の処理を詳細に説明する。DNNマッピング部22は、直間比推定の場合と同様に、N層のディープニューラルネットワークで構成される。Nは4〜5程度でよい。まず、ディープニューラルネットワークの入力層に特徴量を設定する。
このときのベクトルqωi (1)の次元(ノード数)は、J1=K×Qである。ネットワークパラメータzωiにZωi (2), …, Zωi (N), bωi (2), …, bωi (N)が含まれるとすると、N-1回の逐次計算により、以下のように計算される。
ここで、n層目のレイヤー数をJnと記述するとき、
である。活性化関数f(n)(・)は、式(108)のように、シグモイド関数(sigmoid function)(n=2, …, N-1の場合)と恒等写像関数(n=Nの場合)を併用する。
N層目のレイヤー数をJN=1とし、推定された事前SNRは式(109)となる。
以後、qωi (1)を入力としネットワークパラメータzωiを用いて推定した事前SNRをζ(qωi (1); zωi)と表記する。ネットワークパラメータは各周波数ビンかつ各帯域で学習し設計することとする。
以下、ディープニューラルネットワークの最適化方法について説明する。第五実施形態では、ネットワークパラメータzωiの初期値をランダムに設定し、誤差逆伝搬(back propagation)に基づいて、事前SNRの推定誤差を最小とするように、ネットワークパラメータzωiを最適化する。時間フレーム方向も含め多数の観測信号サンプルデータを用意し、計Θ個のデータで構成された学習用の局所PSDと事前SNRの正解値とからなる教師情報を、以下のように記載する。
式(101)(102)の各ステップをΘ個のサンプルデータに対して適用するとき、以下のように行列形式で書くことができる。
ここで、bωi (n)1Θ Tはbωi (n)をΘ個分並べる操作を表し、
である。
ディープニューラルネットワークの出力と正解として与えた事前SNRとの誤差を測るための尺度として、式(115)で定義される二乗誤差関数を用いる。
誤差逆伝搬に基づいて、出力層(n=N)から入力層(n=1)に向かって逐次的にネットワークパラメータの勾配を算出する。Ξωi=[ξωi,1, …, ξωi,Θ]とするとき、n番目の層における各サンプルデータおけるデルタΔωi, (n)を以下のように求める。
ここで、f'(・)は関数f(・)の微分であり、
は行列の各成分の積を表す。誤差関数の勾配を以下のように計算する。
最後に、求めた勾配を基にパラメータを更新する。
なお、更新量ΔZωi (n), Δbωi (n)は、以下とすればよい。
ここで、ΔZωi (n)+, Δbωi (n)+は前回の更新量、εは学習係数、μは汎化性能を向上し学習を速く進めるためのモメンタム(momentum)の係数、λは重み減衰(weight decay)である。εは0.01程度、μは0.9程度、λは0.0002程度に設定すればよい。
ステップS16において、フィルタリング部16は、DNNマッピング部22の出力する事前SNRの推定値^ξω,τを入力とし、上記式(94)に従ってウィーナーフィルタを計算し、上記式(93)に従ってビームフォーミング出力信号群Yζ(1),ω,τ, …, Yζ(L),ω,τにウィーナーフィルタを掛け合わせることで、出力信号Zi,ω,τを出力する。
[第六実施形態]
第五実施形態では、局所PSD^ΦS,ω,τを入力として、事前SNRの推定値^ξω,τを出力するN層のディープニューラルネットワークを各周波数ビンかつ各帯域で設計する構成を説明した。第六実施形態では、次式のように複数のビームフォーミング出力を入力として、事前SNRの推定値を出力するN層のディープニューラルネットワークを用いる構成を説明する。
第六実施形態の音源強調装置は、図15に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、L個のビームフォーミング部12−1〜12−L、およびフィルタリング部16を第五実施形態と同様に備え、さらにDNNマッピング部23を備える。第五実施形態の音源強調装置が備えていた局所PSD推定部13は備えておらず、ビームフォーミング部12−1〜12−Lの出力がDNNマッピング部23へ入力されるように構成される。この音源強調装置が後述する各ステップの処理を行うことにより第六実施形態の音源強調方法が実現される。
ステップS23において、DNNマッピング部23は、各ビームフォーミング部12−1〜12−Lの出力信号群Yζ(1),ω,τ, …, Yζ(L),ω,τを入力とし、ネットワークパラメータzωiを用いて事前SNRの推定値^ξω,τを求め、結果を出力する。DNNマッピング部23は、Θ個のサンプルデータで構成された、学習用のビームフォーミング出力と事前SNRの正解値とからなる教師情報を用いて、第五実施形態と同様に最適化を行ったものである。
[第七実施形態]
第五実施形態および第六実施形態では、ネットワークパラメータzωiの初期値をランダムに設定した。第七実施形態では、従来法のように物理的な特性を加味してネットワークパラメータzωiの初期値を設定する方法について説明する。従来法における事前SNR推定技術は大きく以下の3ステップで構成されている。
(ステップ1:局所PSD推定処理)式(97)のように、2つ以上のビームフォーミングの出力パワー群φYζ(i),ωi,τから局所PSDの推定値^ΦS,ω,τを求める。
(ステップ2:加算処理)式(98)(99)のように、ビームフォーミング出力における目的音と雑音のPSD^φS,ω,τ, ^φN,ω,τを出力する。
(ステップ3:対数領域比計算処理)式(124)のように、^φS,ω,τ, ^φN,ω,τから事前SNRの推定値^ξω,τを以下のように出力する。
以上の3ステップの処理が各層の処理に物理的に対応しているとみなすことができるため、ランダムに設定するよりも良質なネットワークパラメータの初期値を決めることができる。第七実施形態では、第六実施形態の音源強調装置において、ネットワークパラメータzωiの初期値を設定するように構成する。なお、最適化処理については第六実施形態と同様である。
第七実施形態の音源強調装置は、図16に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、L個のビームフォーミング部12−1〜12−L、フィルタリング部16、およびDNNマッピング部23を第六実施形態と同様に備え、さらに初期値設定部33を備える。この音源強調装置が後述する各ステップの処理を行うことにより第七実施形態の音源強調方法が実現される。
初期値設定部33は、以下のようにして、DNNマッピング部23の各層に対応するネットワークパラメータの初期値を設定する。入力層の値は、第六実施形態と同様に、次式のように設定する。
2層目の処理は、(ステップ1:局所PSD推定処理)が対応する。2層目のレイヤー数はJ2≧L×Qとなるようにする。Lはビームフォーミング数であり、Qは周波数ビン数である。式(97)に含まれるDω -1の要素を以下のように定義する。
ここで、・-1は、L=Kの場合は逆行列を表し、L≠Kの場合は擬似逆行列を表す。
対応する係数をネットワークパラメータに代入することで、2層目の初期値を設定することができる。
なお、Gωi,2とBωi,2は値幅調整係数である。Zωi (2)qωi (1)の最大値が1〜5程度になるようにGωi,2を設定する。また、Zωi (2)qωi (1)の出力値が0以下である場合に値を0付近にフロアリングするために、Bωi,2は-5〜0の間に設定する。その後、以下の計算をすることで、2層目の出力qωi (2)を得る。
3層目の処理は、(ステップ2:加算処理)が対応する。以下のようにネットワークパラメータを書き表すことで、加算処理を表現することができる。なお、3層目のレイヤー数はJ3≧2となるようにする。
なお、Gωi,3とBωi,3は値幅調整係数である。Zωi (3)qωi (2)の最大値が1〜5程度になるようにGωi,3を設定する。また、Bωi,3は0程度で問題ない。その後、式(133)(134)の計算をすることで、3層目の出力qωi (3)を得る。
4層目の処理は、(ステップ3:対数領域比計算処理)が対応する。以下のようにネットワークパラメータを書き表すことで、対数領域比計算処理を表現することができる。なお、4層目(出力層)のレイヤー数はJ4=1である。
ここで、式(124)に対応させるため、Zωi,1,1 (4)は正の値、Zωi,1,2 (4)は負の値に制限される。例えば、以下のようにして値を決める。
このとき、参照している^φS,ω,τや^φN,ω,τは、1つのサンプルで計算されたものを利用してもよいし、多数のサンプルで計算された値の平均値を利用してもよい。また、調整係数gωi,4は、次式のように求める。
最後に、出力値を以下のように算出する。
上述したネットワークパラメータの初期値設定法では、層の数は信号処理演算の最小単位数+1以上に設定したほうがよいため、N≧4とすることが望ましい。上記では、N=4とみなして説明したが、仮にNを4よりも多くしたい場合には、冗長な層を挟めばよい。ここで、信号処理演算の最小単位数とは、同等の信号処理演算(ここでは、事前SNR推定処理)を従来の決定論的な手法で実行するときに必要となる、加算や乗算などの信号処理演算の数を意味している。
[第八実施形態]
第七実施形態では、第六実施形態の音源強調装置において、ネットワークパラメータzωiの初期値を設定する構成を説明した。第八実施形態では、第五実施形態の音源強調装置において、ネットワークパラメータzωiの初期値を設定するように構成する。なお、最適化処理については第五実施形態と同様である。
第八実施形態の音源強調装置は、図17に示すように、M個のマイクロホン10−1〜10−M、M個の周波数領域変換部11−1〜11−M、L個のビームフォーミング部12−1〜12−L、局所PSD推定部13、DNNマッピング部22、およびフィルタリング部16を第五実施形態と同様に備え、さらに初期値設定部32を備える。この音源強調装置が後述する各ステップの処理を行うことにより第八実施形態の音源強調方法が実現される。
第七実施形態では、2層目の処理が局所PSD推定処理に対応していることを説明した。したがって、第八実施形態では、3層目以降の初期値設定を用いればよいということになる。入力層の値は、第五実施形態と同様に、次式のように設定する。
式(131)以降の処理を2層目、3層目の初期値として設定すればよいことになる。なお、第七実施形態ではN≧4に設定したほうがよいと説明したが、層の数を信号処理演算の最小単位数+1以上に設定する考え方は同様であるため、第八実施形態ではN≧3に設定することが望ましい。
第七実施形態や第八実施形態のように、ネットワークパラメータの初期値を適切に設定することで、各層の物理的な意味合いを持ちつつ、パラメータ最適化が可能になる。その結果、学習データがある程度少なくても外れ値を出力する可能性が減る効果が期待される。つまり、学習データが少なくても環境に依存しにくいディープニューラルネットワークを設計することができる効果がある。
[第九実施形態]
第九実施形態は、第一実施形態から第四実施形態で説明した直間比推定技術と、第五実施形態から第八実施形態で説明した音源強調技術とを包含する上位概念としての音源情報推定技術を説明する。
第九実施形態の音源情報推定装置は、例えば、音源特徴抽出部および音源情報推定部を備える。この音源情報推定装置が後述の各ステップの処理を行うことにより第九実施形態の音源情報推定方法が実現される。
音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する。音源特徴抽出部は、第一実施形態および第四実施形態の直間比推定装置では、ビームフォーミング部12−1〜12−2および局所PSD推定部13に相当し、第二実施形態および第三実施形態の直間比推定装置では、ビームフォーミング部12−1〜12−2に相当する。また、第五実施形態および第八実施形態の音源強調装置では、ビームフォーミング部12−1〜12−Lおよび局所PSD推定部13に相当し、第六実施形態および第七実施形態の音源強調装置では、ビームフォーミング部12−1〜12−Lに相当する。
音源情報推定部は、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める。このとき、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。音源情報推定部は、第一実施形態および第四実施形態の直間比推定装置では、DNNマッピング部20に相当し、第二実施形態および第三実施形態の直間比推定装置では、DNNマッピング部21に相当する。また、第五実施形態および第八実施形態の音源強調装置では、DNNマッピング部22に相当し、第六実施形態および第七実施形態の音源強調装置では、DNNマッピング部23に相当する。
上記の実施形態では、統計的マッピングモデルがディープニューラルネットワークで構成される例を説明したが、第一実施形態および第二実施形態の直間比推定技術と、第五実施形態および第六実施形態の音源強調技術と、第九実施形態の音源情報推定技術とにおける統計的マッピングモデルは、ディープニューラルネットワークに限定されず、他の統計的マッピングモデルを用いることが可能である。他の統計的マッピングモデルとしては、例えば、混合正規分布(Gaussian Mixture Model: GMM)などを挙げることができる。なお、第三実施形態および第四実施形態の直間比推定技術と、第七実施形態および第八実施形態の音源強調技術とにおいては、ディープニューラルネットワークのネットワークパラメータの初期値を設定する技術であるため、統計的マッピングモデルはディープニューラルネットワークに限定される。
[第十実施形態]
上述の実施形態では、特にマイクロホンアレイのハードウェア構造を限定せずに説明してきた。本形態では、マイクロホンアレイのハードウェア構造に対称性を持たせるように限定することで、学習したディープニューラルネットワークのネットワークパラメータの頑健性を高め、音源情報の推定性能を高めることを目的とする。なお、処理手続きに関しては、ハードウェア構成が制限される以外は、各実施形態と同様であるため、以下では対称性を持つマイクロホンアレイの具体的なハードウェア構成例と、なぜこの構成によりディープニューラルネットワークのネットワークパラメータの頑健性が高まるのかについて説明をする。
図18に対称性を持つアレイ構造の例を示す。ここで、対称性とは、2次元または3次元空間における点対称を指す。例えば、直線状にM個のマイクロホンを並べた場合は、1次元であるため対称性を持たせることができない。2次元構造であれば、円周上にマイクロホンを等間隔で並べる場合(すなわち、正多角形の頂点位置)が該当する。また、3次元構造であれば、例えば、正多面体の頂点位置にマイクロホンがある場合が該当する。図18では、2次元構造の例として正三角形・正方形・正六角形・正八角形の場合を、3次元構造の例として正四面体・正六面体・正八面体・正十二面体・正二十面体の場合を示したが、これらの構造に限定されるものではない。マイクロホンそのものに指向性がある場合には、対称性を保つように素子の向きが制限される。
マイクロホンアレイの構造に対称性を持たせることの効果について、音声強調の場合を例にして説明する。≪音源強調法1:ビームフォーミング≫で説明したように、目的音を強調するための基本的な方式は、式(84)のようにビームフォーミングをし、その後、式(93)のようなウィーナーフィルタリングをかけることである。その際に、目的音と雑音のPSD、またはその比である事前SNRξω,τを必要とするが、これらは式(97)のような演算で得られる。各実施形態ではディープニューラルネットワークを使用してきたが、基本的には、このフローを自動的に推定していることに相当している。マイクロホンアレイの構造に対称性を持たせることにより、感度行列Dωが目的音の到来方向に依らず同一となる。これにより、目的音を強調するための処理フローが目的音の到来方向とは独立に決まることになる。そのため、ディープニューラルネットワークにより、目的音を強調するフローを学習して推定した際にも、目的音の到来方向とは独立にネットワークパラメータが決まることになり、特定の方向から到来した音のデータを大量に用意しなくてもネットワークパラメータの学習が進む。ただし、ビームフォーミングをする際に目的音の到来方向を既知とすることが前提となる。このようにして、対称性をもつマイクロホンアレイを用いることでディープニューラルネットワークの頑健性を高めることができ、音源情報の推定性能をさらに高めることができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10−1〜10−M マイクロホン
11−1〜11−M 周波数領域変換部
12−1〜12−L ビームフォーミング部
13 局所PSD推定部
14 パワー比推定部
15 事前SNR計算部
16 フィルタリング部
20〜23 DNNマッピング部
30〜33 初期値設定部

Claims (12)

  1. 複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出部と、
    各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定部と、
    を含み、
    上記統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである、
    音源情報推定装置。
  2. 請求項1に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワースペクトル密度と各周波数領域音響信号から求めた直間比の正解値とを用いてパラメータを学習したものであり、
    上記音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を入力とし、各周波数領域観測信号のパワースペクトル密度を抽出するものであり、
    上記音源情報推定部は、各周波数領域観測信号のパワースペクトル密度を上記統計的マッピングモデルへ入力して直間比の推定値を求めるものである、
    音源情報推定装置。
  3. 請求項1に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワーと各周波数領域音響信号から求めた直間比の正解値とを用いてパラメータを学習したものであり、
    上記音源特徴抽出部は、入力された観測信号に対して複数の異なる方向の角度領域から到来する音を強調して複数の周波数領域観測信号を生成し、各周波数領域観測信号のパワーを抽出するものであり、
    上記音源情報推定部は、各周波数領域観測信号のパワーを上記統計的マッピングモデルへ入力して直間比の推定値を求めるものである、
    を含む音源情報推定装置。
  4. 請求項2に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、Nを所定の直間比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
    上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワースペクトル密度に設定し、2層目以降の各層のネットワークパラメータの初期値に上記直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
    音源情報推定装置。
  5. 請求項3に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、Nを所定の直間比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
    上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワーに設定し、2層目以降の各層のネットワークパラメータの初期値に上記直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
    音源情報推定装置。
  6. 請求項1に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワースペクトル密度と各周波数領域音響信号から求めたSN比の正解値とを用いてパラメータを学習したものであり、
    上記音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を入力とし、各周波数領域観測信号のパワースペクトル密度を抽出するものであり、
    上記音源情報推定部は、各周波数領域観測信号のパワースペクトル密度を上記統計的マッピングモデルへ入力してSN比の推定値を求めるものであり、
    上記SN比の推定値から周波数帯域毎の利得係数を計算し、上記周波数領域観測信号の各対応する周波数帯域のパワースペクトル密度に乗算するフィルタリング部をさらに含む、
    音源情報推定装置。
  7. 請求項1に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワーと各周波数領域音響信号から求めたSN比の正解値とを用いてパラメータを学習したものであり、
    上記音源特徴抽出部は、入力された観測信号に対して複数の異なる方向の角度領域から到来する音を強調して複数の周波数領域観測信号を生成し、各周波数領域観測信号のパワーを抽出するものであり、
    上記音源情報推定部は、各周波数領域観測信号のパワーを上記統計的マッピングモデルへ入力してSN比の推定値を求めるものであり、
    上記SN比の推定値から周波数帯域毎の利得係数を計算し、上記周波数領域観測信号の各対応する周波数帯域のパワースペクトル密度に乗算するフィルタリング部を含む、
    音源情報推定装置。
  8. 請求項6に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、Nを所定のSN比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
    上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワースペクトル密度に設定し、2層目以降の各層のネットワークパラメータの初期値に上記所定の直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
    音源情報推定装置。
  9. 請求項7に記載の音源情報推定装置であって、
    上記統計的マッピングモデルは、Nを所定のSN比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
    上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワーに設定し、2層目以降の各層のネットワークパラメータの初期値に上記所定の直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
    音源情報推定装置。
  10. 請求項1から9のいずれかに記載の音源情報推定装置であって、
    上記複数の周波数領域音響信号は、各マイクロホンが正多角形もしくは正多面体の頂点位置に配置されたマイクロホンアレイを用いて収音したものである、
    音源情報推定装置。
  11. 音源特徴抽出部が、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出ステップと、
    音源情報推定部が、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定ステップと、
    を含み、
    上記統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである、
    音源情報推定方法。
  12. 請求項1から10のいずれかに記載の音源情報推定装置としてコンピュータを機能させるためのプログラム。
JP2016028682A 2015-12-09 2016-02-18 音源情報推定装置、音源情報推定方法、およびプログラム Active JP6594222B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015240512 2015-12-09
JP2015240512 2015-12-09

Publications (2)

Publication Number Publication Date
JP2017107141A true JP2017107141A (ja) 2017-06-15
JP6594222B2 JP6594222B2 (ja) 2019-10-23

Family

ID=59060852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016028682A Active JP6594222B2 (ja) 2015-12-09 2016-02-18 音源情報推定装置、音源情報推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6594222B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
CN109164414A (zh) * 2018-09-07 2019-01-08 深圳市天博智科技有限公司 基于麦克风阵列的定位方法、装置和存储介质
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
KR20190108711A (ko) * 2018-03-15 2019-09-25 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
WO2020075008A1 (ja) * 2018-10-11 2020-04-16 株式会社半導体エネルギー研究所 車両警報装置
JP2021500593A (ja) * 2017-10-23 2021-01-07 アイフライテック カンパニー,リミテッド 対象音声検出方法及び装置
CN113109794A (zh) * 2020-01-13 2021-07-13 中国科学院声学研究所 一种强噪声环境下基于深度神经网络的深海声源定深方法
CN113126027A (zh) * 2019-12-31 2021-07-16 财团法人工业技术研究院 特定音源的定位方法
CN113189571A (zh) * 2020-01-14 2021-07-30 中国科学院声学研究所 一种基于音色特征提取和深度学习的声源被动测距方法
WO2021205494A1 (ja) * 2020-04-06 2021-10-14 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
WO2021255925A1 (ja) * 2020-06-19 2021-12-23 日本電信電話株式会社 目的音信号生成装置、目的音信号生成方法、プログラム
JP2022049428A (ja) * 2020-09-16 2022-03-29 株式会社東芝 信号処理装置及び学習済みニューラルネットワーク
JP7552742B2 (ja) 2021-02-15 2024-09-18 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289899A (ja) * 1989-01-24 1990-11-29 Sekisui Chem Co Ltd 音声検出方式
JPH05232986A (ja) * 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
JP2009044588A (ja) * 2007-08-10 2009-02-26 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP2013179388A (ja) * 2012-02-28 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289899A (ja) * 1989-01-24 1990-11-29 Sekisui Chem Co Ltd 音声検出方式
JPH05232986A (ja) * 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
JP2009044588A (ja) * 2007-08-10 2009-02-26 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP2013179388A (ja) * 2012-02-28 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
若宮 幸平: "音素別ニューラルネットワークを用いた調音−音響マッピング", 電子情報通信学会技術研究報告, vol. Vol.104 No.388, JPN6019005988, October 2004 (2004-10-01), JP *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
JPWO2019049276A1 (ja) * 2017-09-07 2019-12-26 三菱電機株式会社 雑音除去装置および雑音除去方法
US11308974B2 (en) 2017-10-23 2022-04-19 Iflytek Co., Ltd. Target voice detection method and apparatus
JP2021500593A (ja) * 2017-10-23 2021-01-07 アイフライテック カンパニー,リミテッド 対象音声検出方法及び装置
KR102087307B1 (ko) * 2018-03-15 2020-03-10 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
KR20190108711A (ko) * 2018-03-15 2019-09-25 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
CN109164414A (zh) * 2018-09-07 2019-01-08 深圳市天博智科技有限公司 基于麦克风阵列的定位方法、装置和存储介质
CN112805764A (zh) * 2018-10-11 2021-05-14 株式会社半导体能源研究所 车辆警报装置
WO2020075008A1 (ja) * 2018-10-11 2020-04-16 株式会社半導体エネルギー研究所 車両警報装置
US12049167B2 (en) 2018-10-11 2024-07-30 Semiconductor Energy Laboratory Co., Ltd. Vehicle alarm device
JP7402811B2 (ja) 2018-10-11 2023-12-21 株式会社半導体エネルギー研究所 車両警報装置
JPWO2020075008A1 (ja) * 2018-10-11 2021-11-25 株式会社半導体エネルギー研究所 車両警報装置
CN113126027A (zh) * 2019-12-31 2021-07-16 财团法人工业技术研究院 特定音源的定位方法
CN113109794A (zh) * 2020-01-13 2021-07-13 中国科学院声学研究所 一种强噪声环境下基于深度神经网络的深海声源定深方法
CN113109794B (zh) * 2020-01-13 2022-12-06 中国科学院声学研究所 一种强噪声环境下基于深度神经网络的深海声源定深方法
CN113189571A (zh) * 2020-01-14 2021-07-30 中国科学院声学研究所 一种基于音色特征提取和深度学习的声源被动测距方法
CN113189571B (zh) * 2020-01-14 2023-04-07 中国科学院声学研究所 一种基于音色特征提取和深度学习的声源被动测距方法
JPWO2021205494A1 (ja) * 2020-04-06 2021-10-14
JP7444243B2 (ja) 2020-04-06 2024-03-06 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
WO2021205494A1 (ja) * 2020-04-06 2021-10-14 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
WO2021255925A1 (ja) * 2020-06-19 2021-12-23 日本電信電話株式会社 目的音信号生成装置、目的音信号生成方法、プログラム
JP7428251B2 (ja) 2020-06-19 2024-02-06 日本電信電話株式会社 目的音信号生成装置、目的音信号生成方法、プログラム
JP2022049428A (ja) * 2020-09-16 2022-03-29 株式会社東芝 信号処理装置及び学習済みニューラルネットワーク
JP7387565B2 (ja) 2020-09-16 2023-11-28 株式会社東芝 信号処理装置、学習済みニューラルネットワーク、信号処理方法及び信号処理プログラム
JP7552742B2 (ja) 2021-02-15 2024-09-18 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム

Also Published As

Publication number Publication date
JP6594222B2 (ja) 2019-10-23

Similar Documents

Publication Publication Date Title
JP6594222B2 (ja) 音源情報推定装置、音源情報推定方法、およびプログラム
US9615172B2 (en) Broadband sensor location selection using convex optimization in very large scale arrays
CN111415676B (zh) 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
Teutsch et al. Acoustic source detection and localization based on wavefield decomposition using circular microphone arrays
JP6837099B2 (ja) 音響エコーキャンセルのための室内インパルス応答の推定
CN106537501B (zh) 混响估计器
US10455323B2 (en) Microphone probe, method, system and computer program product for audio signals processing
Landschoot et al. Model-based Bayesian direction of arrival analysis for sound sources using a spherical microphone array
JP2018063200A (ja) 音源位置推定装置、音源位置推定方法、及びプログラム
Malgoezar et al. On the use of global optimization methods for acoustic source mapping
Pujol et al. BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data
US11830471B1 (en) Surface augmented ray-based acoustic modeling
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN111123202B (zh) 一种室内早期反射声定位方法及系统
Zhai et al. A grid-free global optimization algorithm for sound sources localization in three-dimensional reverberant environments
Karimi et al. Acoustic source localisation using vibroacoustic beamforming
Durofchalk et al. Data driven source localization using a library of nearby shipping sources of opportunity
KR101354960B1 (ko) 영역 개념을 이용한 음파 입사 방향 추정 방법
Marković et al. Estimation of acoustic reflection coefficients through pseudospectrum matching
JP5815489B2 (ja) 音源別音声強調装置、方法、プログラム
Belloch et al. Real-time sound source localization on an embedded GPU using a spherical microphone array
US11908444B2 (en) Wave-domain approach for cancelling noise entering an aperture
Astapov et al. Far field speech enhancement at low SNR in presence of nonstationary noise based on spectral masking and MVDR beamforming
JP5791685B2 (ja) マイクロホン配置決定装置、マイクロホン配置決定方法及びプログラム
WO2022219558A9 (en) System and method for estimating direction of arrival and delays of early room reflections

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190924

R150 Certificate of patent or registration of utility model

Ref document number: 6594222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150