JP6339520B2 - 音源分離装置、音源分離方法および音源分離プログラム - Google Patents
音源分離装置、音源分離方法および音源分離プログラム Download PDFInfo
- Publication number
- JP6339520B2 JP6339520B2 JP2015075262A JP2015075262A JP6339520B2 JP 6339520 B2 JP6339520 B2 JP 6339520B2 JP 2015075262 A JP2015075262 A JP 2015075262A JP 2015075262 A JP2015075262 A JP 2015075262A JP 6339520 B2 JP6339520 B2 JP 6339520B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- posterior probability
- microphone
- existence
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
観測信号のモデル化においては、初めに変数を定義する。Iはマイクロホンノードの総数、Jは各マイクロホンノード内のクラスタの数、Kは音源の数(本明細書の中ではJ=Kとしているが、JとKは異なる値でも構わない)、xiはi番目のマイクロホンノードの観測特徴量、xは全マイクロホンノードの観測特徴量をまとめたxiの集合、ni,jはi番目のマイクロホンノードのj番目のクラスタに対応する音源のアクティビティを表すバイナリ変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、nはni,jの集合、akは全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、aはakの集合を表す。
実施形態の詳細な説明の前に、本発明の考えの概略について説明する。本発明は、各マイクロホンノードのそれぞれにおいて、音源分離のためのフィルタである音源存在事後確率を計算するものである。従来法では、この値を計算するために、他のマイクロホンノードからの情報を取り入れることはできなかった。
図1を用いて、実施形態に係る音源分離装置の構成について説明する。図1は、実施形態に係る音源分離装置の構成の概要を示す図である。音源分離装置10は、マイクノード別音源存在事後確率推定部11と、マイクノード間音源存在事後確率共起パタン検出部12と、収束判定部13と、出力音推定部14と、を具備する。
まず、マイクノード間音源存在事後確率共起パタン検出部12で処理を行う前のマイクノード別音源存在事後確率推定部11における処理について説明する。この時、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する。なお、マイクノード間音源存在事後確率共起パタン検出部12から出力される補正情報を用いた第一音源存在事後確率の更新処理については後述する。
次に、マイクノード間音源存在事後確率共起パタン検出部12の共起関係モデルパラメータ算出部121は、上記で得られた第一音源存在事後確率の集合、つまり全てのi(マイクロホンノードインデックス)、全てのj(各マイクロホンノードにおけるクラスタインデックス)、すべての時間フレームtに関するp(ni,j|xj,t)(xに時間フレームインデックスtを追加)を用いて、各事後確率の共起関係をモデル化(学習)する。具体的に、共起関係モデルパラメータ算出部121は、式(4)等で示されるRBMのパラメータ{Wi, bi, c}をp(n,a;θ(w))が最大となるように学習する。この学習には、一般的にはcontrastive divergenceを用いた最急降下法(参考文献1:G. E. Hinton, “A practical guide to training restricted Boltzmann machines,” Univ. of Toronto, Toronto, ON, Canada, Tech. Rep., 2010.)が用いられる。ここで、最急降下法で推定する各パラメータ{Wi, bi, c}の勾配は式(9)〜(11)によって計算される。
<手順a1>
まず、p(ni,j=1|xj)を従来のクラスタリングベース音源分離等を用いて計算する。
<手順a2>
次に、n^t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。ここで、サンプリングの具体的な処理例について説明する。まず、時間t、ノードiの観測特徴量x^t,iがクラスタjに帰属する事後確率をクラスタ1〜Jについて計算する。この時、1〜Jまでの事後確率の値を合算すれば1となる。次に、これらの事後確率を基に、0〜1の区間を分割する。例えば、クラスタ1,2,3で計算される帰属事後確率がそれぞれ、0.1,0.7,0.2であれば、0〜1の区間を[0.0 0.1),[0.1 0.8),[0.8 1.0]に分割し、各区間を各クラスタと紐づける。その後、1〜0の範囲の乱数を一つ発生させ、その乱数がどの区間に帰属するかを検出する。その該当区間に対応するクラスのn^t,i,jを1とし、それ以外の同一マイクロホンノード内のn^t,i,jを0とする。
<手順a3>
以下の(a3.1)および(a3.2)を所定の回数繰り返す。(本実施例では1回)
(a3.1)現在求められているn^t,i,jを基に、式(6)を用いてa^t,kを計算する。
(a3.2)a^t,kとxt,i(マイクロホンノードi、時間tの観測特徴量)とマイクノード別音源存在事後確率推定部11で推定されたp(xi|ni,j=1)を基に、式(7)および式(8)を用いて、n^t,i,jを計算する。
<手順a4>
手順a3で計算されたn^t,i,jを利用して式(9)〜(11)の計算を行う。
<手順b1>
n~t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。(具体的な処理例は、手順a2と同様)
<手順b2>
以下の(b3.1)および(b3.2)を所定の回数繰り返す。(本実施例では1回)
(b3.1)現在求められているn~t,i,jを基に、式(6)を用いてa~t,kを計算する。
(b3.2)a~t,kを基に、式(7)を用いて、n~t,i,jを計算する。
<手順b3>
手順b3で計算されたn~t,i,jを利用して式(9)〜(11)の計算を行う。
マイクノード別音源存在事後確率推定部11の第一音源存在事後確率更新部112は、マイクノード間音源存在事後確率共起パタン検出部12で得られた更新情報である第二音源存在事後確率p(ni,j=1|a^t,xt)を用いて、式(2)が最大となるようにp(xi|ni;θ(n i ))の分布パラメータを更新する。以下では、更新方法の一例を示す。
収束判定部13は、第一音源存在事後確率更新部112、共起関係モデルパラメータ算出部121および第二音源存在事後確率算出部122における処理を繰り返し行い、式(18)のマイクノード別音源存在事後確率推定部11のパラメータθ(n i )や式(2)のマイクノード間音源存在事後確率共起パタン検出部12のパラメータθ(w)の更新量が所定の閾値以下となったところで、収束したと判定し、繰り返しを終了するように制御する。また、式(2)に示す尤度が十分に大きな値となったところで収束したと判定してもよい。
実施形態に係る音源分離装置の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。図3に、シミュレーションに用いた音響環境を示す。図3は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は0.2、0.4、0.6、0.8秒の4条件とした。この音響環境を鏡像法(参考文献2:J.B.Allen and D.A.Berkeley, “Image method for efficiently simulating small-room acoustics, ”J.Acoust.Soc.Am.,vol.65(4),pp.943-950,1979.)を用いてシミュレーションした。
評価指標としては音源分離性能を示すSIR(Signal-to-interference ratio)を用いた。音源分離性能はSIRの値が大きいほど、性能が良いことを示す。評価音声としては、TIMIT(参考文献3:W.Fisher, G.R.Doddington, and K.M.Goudie-Marshall, “The DARPA speech recognition research database: specifications and status, ”inProc. DARPA workshop on Speech Recognition, 7986, pp.96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。
収束判定部13によって更新量が収束したと判定された場合は、出力音推定部14は、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。
図5を用いて、実施形態に係る音源分離装置10の処理の流れについて説明する。図5は、実施形態に係る音源分離装置の処理を示すフローチャートである。まず、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する(ステップS101)。次に、マイクノード間音源存在事後確率共起パタン検出部12は、第一音源存在事後確率の共起関係をモデル化するパラメータを算出し、既に算出された既存のパラメータが存在している場合は、既存のパラメータを更新する(ステップS102)。そして、マイクノード間音源存在事後確率共起パタン検出部12は、算出したパラメータを基に第二音源存在事後確率を算出する(ステップS103)。
まず、音源分離装置10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。そして、音源分離装置10は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。さらに、音源分離装置10は、音マイクノード別音源存在事後確率推定部における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。最後に、音源分離装置10は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。
音声分離装置10における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、上記実施の形態に係る音源分離装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。以下に、音源分離装置10と同様の機能を実現する音源分離プログラムを実行するコンピュータの一例を説明する。
11 マイクノード別音源存在事後確率推定部
12 マイクノード間音源存在事後確率共起パタン検出部
13 収束判定部
14 出力音推定部
15 入力部
20 マイクロホンノード
21 出力装置
Claims (5)
- 複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、
前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、
を有することを特徴とする音源分離装置。 - 前記マイクノード別音源存在事後確率推定部は、
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni;θ(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni;θ(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出部は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項1に記載の音源分離装置。 - 音源分離装置で実行される音源分離方法であって、
複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、
前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、
を含んだことを特徴とする音源分離方法。 - 前記マイクノード別音源存在事後確率推定工程は、
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni;θ(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni;θ(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出工程は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項3に記載の音源分離方法。 - コンピュータを請求項1または2に記載の音源分離装置として機能させるための音源分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075262A JP6339520B2 (ja) | 2015-04-01 | 2015-04-01 | 音源分離装置、音源分離方法および音源分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075262A JP6339520B2 (ja) | 2015-04-01 | 2015-04-01 | 音源分離装置、音源分離方法および音源分離プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016194657A JP2016194657A (ja) | 2016-11-17 |
JP6339520B2 true JP6339520B2 (ja) | 2018-06-06 |
Family
ID=57323126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015075262A Active JP6339520B2 (ja) | 2015-04-01 | 2015-04-01 | 音源分離装置、音源分離方法および音源分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6339520B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610718B (zh) * | 2018-06-15 | 2021-10-08 | 炬芯科技股份有限公司 | 一种提取期望声源语音信号的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5568530B2 (ja) * | 2011-09-06 | 2014-08-06 | 日本電信電話株式会社 | 音源分離装置とその方法とプログラム |
JP6114053B2 (ja) * | 2013-02-15 | 2017-04-12 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
JP6059112B2 (ja) * | 2013-08-21 | 2017-01-11 | 日本電信電話株式会社 | 音源分離装置とその方法とプログラム |
-
2015
- 2015-04-01 JP JP2015075262A patent/JP6339520B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016194657A (ja) | 2016-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
JP6235938B2 (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP6927419B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
JP5568530B2 (ja) | 音源分離装置とその方法とプログラム | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
Nandwana et al. | Robust unsupervised detection of human screams in noisy acoustic environments | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
JP6723120B2 (ja) | 音響処理装置および音響処理方法 | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
US20050027514A1 (en) | Method and apparatus for automatically recognizing audio data | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
KR102401959B1 (ko) | 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치 | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
Imoto et al. | Acoustic topic model for scene analysis with intermittently missing observations | |
Chettri et al. | A study on convolutional neural network based end-to-end replay anti-spoofing | |
KR20190037025A (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP6339520B2 (ja) | 音源分離装置、音源分離方法および音源分離プログラム | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP5731929B2 (ja) | 音声強調装置とその方法とプログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6339520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |