JP2014157261A - 音源分離装置、音源分離方法、およびプログラム - Google Patents

音源分離装置、音源分離方法、およびプログラム Download PDF

Info

Publication number
JP2014157261A
JP2014157261A JP2013028074A JP2013028074A JP2014157261A JP 2014157261 A JP2014157261 A JP 2014157261A JP 2013028074 A JP2013028074 A JP 2013028074A JP 2013028074 A JP2013028074 A JP 2013028074A JP 2014157261 A JP2014157261 A JP 2014157261A
Authority
JP
Japan
Prior art keywords
feature vector
probability
sound source
signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013028074A
Other languages
English (en)
Other versions
JP6114053B2 (ja
Inventor
Soden Meretsu
ソウデン メレツ
Keisuke Kinoshita
慶介 木下
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013028074A priority Critical patent/JP6114053B2/ja
Publication of JP2014157261A publication Critical patent/JP2014157261A/ja
Application granted granted Critical
Publication of JP6114053B2 publication Critical patent/JP6114053B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力信号の各チャネルのサンプリング周波数が異なる場合でも適切に目的音声を推定する。
【解決手段】音源分離装置は、複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号からノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部2と、エネルギー特徴ベクトルに基づいて目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部4と、観測信号に音声存在確率を乗じて目的信号の推定値を求めるフィルタリング部6とを含む。
【選択図】図2

Description

この発明は、複数の目的信号が含まれている入力信号から各目的信号を精度良く抽出する音源分離技術に関する。
複数の音源が存在する環境で音響信号を収音すると、目的信号同士が互いに重なり合った混合信号が観測されることがある。この時、注目している目的信号が音声信号である場合、その他の音源の信号がその目的信号に重畳した影響により、目的音声の明瞭性は大きく低下してしまい、本来の目的音声の性質を抽出することが困難となる。例えば、目的音声に対して自動音声認識システムにより音声認識を行う場合などには認識率が著しく低下する。このような場合に、それぞれの目的信号を分離する音源分離処理により、目的音声の明瞭性を回復したり、音声認識率を改善したりすることができる。
音源分離処理を他の様々な音響信号処理システムの要素技術として用いることで、そのシステム全体の性能向上に繋げることができる。音源分離処理が要素技術として性能向上に寄与できるようなシステムには、例えば、以下のようなものが列挙できる。実環境で収録された音声にはしばしば他話者の音や雑音などの目的音声以外の音源の音が含まれるが、以下に列挙するシステムはそのような状況で用いられることを想定した例である。
1.実環境下で収音された音から目的信号を抽出し聞き取り易さを向上させる補聴器。
2.目的信号を抽出し音声の明瞭度を向上させるTV会議システムなどの通信システム。
3.実環境で用いられる音声認識システム。
4.人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との対話装置。
5.人が歌ったり、楽器で演奏したり、スピーカで演奏されたりした音楽に含まれる目的信号を抽出し、楽曲を検索したり、採譜したりする音楽情報処理システム。
このような音源分離技術には、例えば非特許文献1に記載された技術がある。図1を参照して非特許文献1の音源分離技術を説明する。
非特許文献1の音源分離装置は、図1に示すように、複素特徴ベクトル計算部1、音声存在確率計算部3、フィルタリング部6を含む。
複数の音源が存在する環境において複数のマイクM1,…,MN(N>1)により収音された観測信号y(t)が音源分離装置へ入力される。ここで、tは時間フレームの番号である。この観測信号y(t)は複数の目的信号が重なり合った混合信号であり、短時間フーリエ変換などにより周波数領域に変換されていることを前提とする。入力された観測信号y(t)は複素特徴ベクトル計算部1へ入力される。
複素特徴ベクトル計算部1は、観測信号y(t)に基づいて、各時間周波数ビンを特徴づける複素特徴ベクトルψ(t)を計算する。複素特徴ベクトルψ(t)は複素領域の観測信号をそのノルムで正規化した特徴ベクトルである。観測信号をノルムで正規化することで音声信号による変動を正規化し、複素単位球面に射影することができる。複素特徴ベクトルψ(t)は式(1)で表される。
Figure 2014157261
計算した複素特徴ベクトルψ(t)は音声存在確率計算部3へ入力される。音声存在確率計算部3は複素特徴ベクトルψ(t)に基づいて各時間周波数ビンで複数の目的信号の各々の存在確率である音声存在確率を計算する。音声存在確率は混合数Lの混合モデルのパラメータを最尤推定することで計算される。ここで、Lは観測信号に含まれる目的信号の数である。音声信号はスパース性を有するため、複素特徴ベクトルψ(t)は多峰性の分布で精度よくモデル化することができる。つまり、多峰性の各山はL個の目的信号のいずれかのみから計算される正規化ベクトルの平均を中心として広がる。そのため、音源分離のタスクは多峰性分布の各山を表す隠れ変数Hを時間周波数ビンごとに定める作業に帰着されることになる。隠れ変数HはL個の離散値をとり、各離散値をH1,…,HLとする。仮にH=Hλ(λは1以上L以下の整数)であれば、λ番目の目的信号が観測信号の中で支配的であると言える。言い換えれば、各時間周波数ビンにおいてL個の事後確率p(Hλ|ψ(t))を計算することができれば観測信号のクラスタリングによる音源分離を行うことが可能となる。具体的には、式(2)に示すような混合モデルを用いて複素特徴ベクトルψ(t)をクラスタリングすることで音源分離を行う。
Figure 2014157261
ここで、θはモデルパラメータを表し、wλは式(3)の関係を満たす。
Figure 2014157261
複素特徴ベクトルの確率分布を用いたモデル化には、非特許文献1に記載されているガウス分布に類似した分布や、非特許文献2に記載されているワトソン混合分布が用いられている。ワトソン混合分布は式(4)で表される確率分布である。
Figure 2014157261
ここで、aλは集中母数(concentration parameter)であり、кλは分布の重心(centroid)である。Cは観測信号を収音したマイクの数である。Γ(・)はガンマ関数である。M(・,・,・)はKummerの合流型超幾何関数(confluent hypergeometric function)である。Hは複素転置、すなわち転置行列または転置ベクトルの成分をすべて共役複素数にしたものを表す。
式(5)に示すパラメータθの推定にはEMアルゴリズムを用い、その中のEステップで各音源の存在確率に相当する、L個のクラスタに関する事後確率を求める。式(5)において、・Tはベクトルまたは行列の転置を表す。
Figure 2014157261
計算した音声存在確率はフィルタリング部6へ入力される。フィルタリング部6は観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率を乗算することで所望の目的信号の推定値を算出する。この方法を用いることで観測信号に含まれる複数の目的信号を精度よく回復することができる。
H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment", IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 516-527, March 2011. D.H. Tran and R. Haeb-Umbach, "Blind separation employing directional statistics in an expectation maximization framework", IEEE ICASSP 2010, pp. 241-244.
しかしながら、非特許文献1に記載された音源分離技術では、入力信号の各チャネルのサンプリング周波数が異なる場合は、精度の良い信号回復を行うことができなかった。入力信号の各チャネルのサンプリング周波数が異なる状況は、例えばマイクアレイが複数の独立した録音デバイス(ICレコーダなど)で構成される場合にしばしば生じる。以降の説明では、このように複数の独立した録音デバイスで構成されたマイクアレイを分散型マイクアレイと呼ぶ。
この発明の目的は、入力信号の各チャネルのサンプリング周波数が異なる場合でも、適切に目的音声を推定することができる音源分離技術を提供することである。
上記の課題を解決するために、この発明の音源分離装置は、複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号からノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部と、エネルギー特徴ベクトルに基づいて目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部と、観測信号に音声存在確率を乗じて目的信号の推定値を求めるフィルタリング部とを含む。
この発明の音源分離技術によれば、入力信号の各チャネルのサンプリング周波数が異なる場合でも、適切に目的音声を推定することができる。
従来の音源分離装置の機能構成を例示する図。 第一実施形態の音源分離装置の機能構成を例示する図。 第一実施形態の音声存在確率計算部の機能構成を例示する図。 第一実施形態の音源分離装置の処理フローを例示する図。 第二実施形態の音源分離装置の機能構成を例示する図。 第二実施形態の音声存在確率計算部の機能構成を例示する図。 第二実施形態の音源分離装置の処理フローを例示する図。 実験条件を説明する図。 実験結果を説明する図。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源からの目的信号を推定する。
<観測信号>
この実施形態では、L個の音源を基点とする音響信号を、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号が入力されるものとする。ここで、Lは2以上の整数であり、Nは2以上の整数である。すなわち、1個のマイクを含む2個のノードからなる分散型マイクアレイを構成することにより、観測信号は少なくとも2個のチャネルを含む。各ノードに含まれるマイクの数は統一されている必要はなく、ここではN個のノードそれぞれに対応するマイクの数をC1,…,CNとする。すなわち、nを1以上N以下の整数として、n番目のノードにはCn個のマイクが含まれる。つまり、Cを観測信号を収音したマイクの数として、C=Σn=1 NCnが成り立つ。
n番目のノードが収音した観測信号yn(k,t)は式(6)のように表される。
Figure 2014157261
ここで、t(1≦t)を時間フレームの番号、Kを周波数ビンの数として、k(1≦k≦K)は周波数ビンの番号、Nを分散型マイクアレイのノードの数として、n(1≦n≦N)はノードの番号である。
n番目のノードが収音した観測信号yn(k,t)はCnチャネル分の音声信号を含んでいる。そのため、観測信号yn(k,t)は式(7)により定義される。
Figure 2014157261
また、分散型マイクアレイ全体の観測信号y(k,t)は式(8)により定義される。
Figure 2014157261
λ番目の目的信号Sλ(k,t)をn番目のノードが収音した観測信号xn,λ(k,t)は式(9)により定義されるように、チャネル歪みとも呼ばれる短い残響hn,λ(k)が重畳している。
Figure 2014157261
式(9)において、hn,λ(k)はλ番目の音源とn番目のノードとの間の伝達関数である。hn,λ(k)は式(10)により定義される。
Figure 2014157261
なお、この発明ではすべての処理を周波数ビンごとに独立に行うため、以降の説明では周波数ビンの番号kは省略して記載している。
<エネルギー特徴ベクトル>
音のエネルギーは、例えば自由音場では距離の二乗の逆数に比例し減衰するなど、音源とマイクとの間の距離に依存して大きく異なることが知られている。この発明ではこの距離による違いを利用して音源分離を行うために、式(11)により定義されるエネルギー特徴ベクトルρ(t)を計算する。
Figure 2014157261
ここで、n番目のノードの観測信号に対するエネルギー特徴ベクトルρn(t)は式(12)により定義される。
Figure 2014157261
つまり、エネルギー特徴ベクトルρn(t)はn番目のノードの観測信号のエネルギーを正規化した値である。式(12)に示すエネルギー特徴ベクトルρn(t)の分母は、n番目のノードが||yn||2のみを他のノードと共有すれば、それらを総和することで求めることができる。
非特許文献1の音源分離技術で用いられている式(1)に示す複素特徴ベクトルψ(t)は位相情報を含んでいる。各チャネルにおいてサンプリング周波数が異なると位相情報は大きくその影響を受けるため、位相情報を含む特徴ベクトルに基づいてクラスタリングを行なっても効果的な音源分離は実現できない。一方、式(11)に示すエネルギー特徴ベクトルρ(t)は位相情報を含んでおらず振幅情報のみが表されている。振幅情報はサンプリング周波数のずれがあっても、そのずれがフレーム長を大きく超えなければ音源分離への影響は大きくならない。したがって、エネルギー特徴ベクトルをクラスタリングに用いることで、各チャネルにおいてサンプリング周波数が異なる場合でも頑健かつ効果的なクラスタリングが実現されることが期待できる。
なお、エネルギー特徴ベクトルρ(t)は各ノードの観測信号のエネルギーをすべてのノードについて並べた特徴ベクトルであるため、ノード間での観測信号の特徴量(ノード間特徴量)である。一方、複素特徴ベクトルψ(t)は各ノードの観測信号の特徴量(ノード内特徴量)である。
<エネルギー特徴ベクトルのモデル化>
エネルギー特徴ベクトルはディリクレ混合分布モデル(Dirichlet Mixture Model: DMM)を用いてモデル化することができる。式(13)に示すようにすべての音源の音がすべてのマイクに到来していると仮定すると、ディリクレ混合分布モデルはエネルギー特徴ベクトルをモデル化するために妥当な確率分布である。
Figure 2014157261
ディリクレ混合分布モデルは式(14)により定義される。
Figure 2014157261
式(14)の各要素は式(15)により定義される。
Figure 2014157261
式(15)においてパラメータαは式(16)により定義される。
Figure 2014157261
ディリクレ混合分布モデルの詳細は、「T.P. Minka, “Estimating a Dirichlet distribution,” Technical report, Microsoft Research, Cambridge, 2003.(参考文献1)」および「N. Bouguila, D. Ziou, and J. Vaillancourt, “Unsupervised learning of a finite mixture model based on the Dirichlet distribution and its application,” IEEE Trans. Image Process., vol. 13, pp. 1533-1543, Nov. 2004.(参考文献2)」を参照されたい。
<ディリクレ混合分布のパラメータ推定>
ディリクレ混合分布のパラメータは尤度最大化などの基準で推定することが可能である。その一例としてEMアルゴリズムが挙げられる。以下に、EMアルゴリズムを用いたディリクレ混合分布のパラメータ推定の詳細な手順を説明する。
はじめに、ベイズの定理に従い、エネルギー特徴ベクトルを用いて計算される各目的信号の音声存在事後確率P(t,λ,^θ)を式(17)により定義する。
Figure 2014157261
ここで、^θは未知のディリクレ混合分布のパラメータαを表しており、式(14)を最大化することで求めることができる。なお、式(14)を効率的に最大化する方法として、式(14)を直接最大化するのではなく、式(14)の補助関数を式(18)のように定義し、それを最大化するパラメータを繰り返し推定してもよい。
Figure 2014157261
式(18)において^θ’はパラメータ^θの事前推定値である。また、Q1関数は式(19)により定義され、Q2関数は式(20)により定義される。
Figure 2014157261
式(18)に示す補助関数の最大化においては式(21)の制約を満たす必要がある。
Figure 2014157261
その結果、式(19)を最大化するwλは式(22)により求めることができる。
Figure 2014157261
式(18)のQ(^θ,^θ')を最大化するディリクレ混合分布のパラメータ推定には閉形式解がないが、Newton-Raphsonアルゴリズムにより精度の良いパラメータ推定が可能であることが知られている(詳しくは参考文献1参照)。
推定されたパラメータαn,λが正の値となることを保障するために、ある実数値βn,λに対してαn,λ=exp(βn,λ)のように変形する必要がある(詳しくは参考文献2参照)。βλをβλ=[β1,λ…βN,λ]Tとすれば、式(23)の操作を数回繰り返せば精度良くαn,λ=exp(βn,λ)を求めることができる。
Figure 2014157261
式(23)において、jは繰り返し回数を表す。Δ(βλ)はβに関するQ(^θ,^θ')の勾配を表す。∇(βλ)はQ(^θ,^θ')のヘッセ行列であり、逆行列を求めることが可能である。以下、Δ(βλ)および∇(βλ)に関して詳述する。
はじめに、変数γn,λを式(24)により定義する。
Figure 2014157261
また、変数τn,λを式(25)により定義する。
Figure 2014157261
変数γn,λn,λを用いるとΔ(βλ)のn番目の要素は式(26)のように表される。
Figure 2014157261
ここで、ψ(・)はdigamma関数である。∇(βλ)の対角要素は式(27)のように表され、非対角要素は式(28)のように表される。
Figure 2014157261
ここで、ψ'(・)はtrigamma関数である。結果、∇(βλ)は式(29)のような平易な形式で表わされることがわかる。
Figure 2014157261
ここで*は要素ごとの掛け算を表し、diag[・]は入力ベクトルを対角要素に持つ対角行列を表す。この行列の逆行列計算はSherman-Morrisonの公式を用いることで容易に計算することができる。
digamma関数およびtrigamma関数の詳細は「I.S. Gradshteyn and I.M. Ryzhik, “Table of integrals, series, and products, seventh edition”, Academic Press, MA, USA, 2007.(参考文献3)」を参照されたい。Sherman-Morrisonの公式の詳細は「J. Sherman and J. W. Morrison, “Adjustment of an inverse matrix corresponding to a change in one element of a given matrix,” Annals of Mathematical Statistics, vol. 21, pp. 124-127, 1950.(参考文献4)」を参照されたい。
以上説明した通り、ディリクレ混合分布のパラメータ推定をEMアルゴリズムで行う場合、Eステップとして式(15)(17)を、Mステップとして式(22)(23)を、所定の基準を満たすまで繰り返し実行する。所定の基準としては、例えばディリクレ混合分布のパラメータおよび目的信号の音声存在事後確率から計算されるQ関数の値が、更新前の値と更新後の値とでその差が所定の閾値未満となったときに所定の基準を満たしたと判定する方法が考えられる。また、予め定めた繰り返し回数に到達した場合に所定の基準を満たしたと判定する方法なども考えられる。繰り返し処理を行うことで式(18)のQ関数の値を最大化することができる。
なお上述の通り、これらの事後確率の計算は各周波数ビンで独立に行われるため、パーミュテーションの問題が生じるが、非特許文献1に記載されたパーミュテーション解決の方法を適用すればよい。
<構成>
第一実施形態の音源分離装置は、図2に示す通り、エネルギー特徴ベクトル計算部2、音声存在確率計算部4、フィルタリング部6を有する。音源分離装置は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部4は、図3に示す通り、事後確率計算手段41、パラメータ推定手段42、反復処理手段43を有する。
<動作>
図4を参照して、第一実施形態の音源分離装置の動作例を説明する。
C個のマイクM1,1,…,M1,C1,…,MN,1,…,MN,CNからなる分散型マイクアレイで収音した観測信号y(t)はエネルギー特徴ベクトル計算部2へ入力される。エネルギー特徴ベクトル計算部2は観測信号y(t)に基づいて各ノードのエネルギーを表すエネルギー特徴ベクトルρ(t)を計算する(ステップS2)。エネルギー特徴ベクトルρ(t)は式(11)(12)により計算できる。詳しくは上述の<エネルギー特徴ベクトル>を参照されたい。計算したエネルギー特徴ベクトルρ(t)は音声存在確率計算部4へ入力される。
音声存在確率計算部4は、事後確率計算手段41により、エネルギー特徴ベクトルρ(t)に基づいて目的信号ごとの音声が存在する確率を示す音声存在確率P(t,λ,^θ)を求める(ステップS41)。音声存在確率P(t,λ,^θ)は式(15)(17)により計算できる。詳しくは上述の<ディリクレ混合分布のパラメータ推定>を参照されたい。
音声存在確率計算部4は、パラメータ推定手段42により、エネルギー特徴ベクトルρ(t)と音声存在確率P(t,λ,^θ)に基づいてディリクレ混合分布のパラメータαλを更新する(ステップS42)。パラメータαλは式(22)(23)により求めることができる。詳しくは上述の<ディリクレ混合分布のパラメータ推定>を参照されたい。
音声存在確率計算部4は、反復処理手段43により、所定の基準を満たすかどうかを判断する(ステップS43)。所定の基準を満たさない場合には、ステップS41へ戻る。所定の基準を満たす場合には、最終的に得られた音声存在確率P(t,λ,^θ)をフィルタリング部6へ出力する。所定の基準については上述の<ディリクレ混合分布のパラメータ推定>で詳述したためここでは説明を省略する。
フィルタリング部6は、観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率P(t,λ,^θ)を乗じて目的信号の推定値を求める(ステップS6)。
推定した目的信号は出力端子Sから出力される。
[第二実施形態]
第二実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも2個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源の目的信号を推定する。したがって、第一実施形態の音源分離装置及び方法との相違点は分散型マイクアレイの各ノードが複数のマイクを含む点である。
<複素特徴ベクトル>
この実施形態の複素特徴ベクトルψn(t)は式(30)のように表される。
Figure 2014157261
この複素特徴ベクトルψn(t)は非特許文献1に記載の複素特徴ベクトルψ(t)を各ノードで計算した特徴ベクトルである。これはノードごとの観測信号を正規化した特徴量、すなわちノード内特徴量とも言える。
<複素特徴ベクトルのモデル化>
複素特徴ベクトルψn(t)はノード内特徴量であるため、非特許文献1と同様にワトソン混合分布でモデル化することが可能である。ワトソン混合分布の未知のパラメータ~θは式(31)で表される。
Figure 2014157261
パラメータ~θの推定は非特許文献1と同様にノードごとに独立に最適化すればよいが、より精度良く推定を行うためにノード間情報の共有を行なってもよい。ここでは、各ノードの観測信号において式(32)の独立性を仮定する。
Figure 2014157261
ここで、~ψ(t)は式(33)により定義される。
Figure 2014157261
式(32)の仮定のもとベイズ則を用いると、λ番目の目的信号に対する事後確率~P(t,λ,~θ)は式(34)のように表すことができる。
Figure 2014157261
ここで、χ(t,~θ)は正規化項であり、ζ(t,λ,~θ)は式(35)により定義される。
Figure 2014157261
式(35)の詳細は「J. Kittler, M. Hatef, R.P.W. Duin, and J. Matas, “On combining classifiers”, IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 20, pp. 226-239, March 1998.(参考文献5)」を参照されたい。
式(34)(35)によれば全体のパラメータ推定の中では、事後確率p(Hλn(t);~θ)のみがノード間で共有され、その他のパラメータは各ノードで独立して推定を行うことになる。なお、実際の音響空間では式(29)に示すような乗算に基づく仮説統合ではなく、式(36)に示すように加算に基づく仮説統合を行う方が効果的である。
Figure 2014157261
<モデルパラメータ推定>
エネルギー特徴ベクトルρ(t)と複素特徴ベクトルψ1(t),…,ψN(t)とは相補的な情報を捉えているため、互いに統計的に独立と仮定することができる。したがって、これらの特徴ベクトルを用いた各目的信号の音声存在事後確率P(ρ,~ψ)(t,λ,^θ)は式(37)のように表される。
Figure 2014157261
式(37)の音声存在事後確率P(ρ,~ψ)(t,λ,^θ)は式(38)により計算できる。
Figure 2014157261
また、全確率の定理を用いると、式(39)を得ることができる。
Figure 2014157261
ここで、^θはすべてのモデルパラメータを表しており、式(39)を最大化することで求めることができる。なお、式(39)を効率的に最大化する方法として、式(39)を直接最大化するのではなく、式(39)の補助関数を式(40)のように定義し、それを最大化するパラメータを繰り返し推定してもよい。
Figure 2014157261
式(40)において^θ’は^θの事前推定値である。また、Q1は式(41)により定義され、Q2は式(42)により定義され、Q3は式(43)により定義される。
Figure 2014157261
式(40)に示す補助関数の最大化においては上記式(21)の制約を満たす必要がある。その結果、式(41)を最大化するwλは式(44)により求めることができる。
Figure 2014157261
同様に、式(43)のan,λn,λに関する偏微分値を0とすることで、an,λは式(45)に示す行列Rn,λの最大固有値rn,λに対応する固有ベクトルとして与えられる。
Figure 2014157261
ここで、кn,λは式(46)を充足する必要がある。
Figure 2014157261
式(46)からкn,λに関する閉形式解を導出することはできないが、кn,λに関して式(47)の近似を用いることが効果的であることが知られている。
Figure 2014157261
この近似の詳細は「A.S. Bijral, M. Breitenbach, and G. Grudic, “Mixture of Watson distributions: a generative model for hyperspherical embedding”, J. Machine Learning Research, pp. 35-42, 2007.(参考文献6)」および「S. Sra and D. Karp, “The multivariate Watson distribution: maximum-likelihood estimation and other aspects”, preprint: arXiv:1104.4422v2, May 2012.(参考文献7)」を参照されたい。
式(40)のQ(^θ,^θ')を最大化するディリクレ混合分布のパラメータ推定には閉形式解がないが、Newton-Raphsonアルゴリズムにより精度の良いパラメータ推定が可能であることが知られている(詳しくは参考文献1参照)。
以上説明した通り、この実施形態のパラメータ推定をEMアルゴリズムで行う場合、所定の基準を満たすまで繰り返し、Eステップとして式(34)(36)(15)(38)を実行し、Mステップとして式(44)(45)(47)(23)を実行する。所定の基準は第一実施形態と同様であるので詳細な説明は省略する。
なお、この実施形態においてもパーミュテーションの問題が生じるが、第一実施形態と同様に非特許文献1に記載されたパーミュテーション解決の方法を適用すればよい。
<構成>
第二実施形態の音源分離装置は、図5に示す通り、N個の複素特徴ベクトル計算部11,…,1N、エネルギー特徴ベクトル計算部2、音声存在確率計算部5、フィルタリング部6を有する。音源分離装置は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部5は、図6に示す通り、第一存在確率計算手段51、第二存在確率計算手段52、事後確率計算手段53、パラメータ推定手段54、反復処理手段55を有する。
<動作>
図7を参照して、第二実施形態の音源分離装置の動作例を説明する。
分散型マイクアレイのN個のノードとN個の複素特徴ベクトル計算部11,…,1Nとはそれぞれ1対1で対応している。n番目のノードに含まれるCn個のマイクMn,1,…,Mn,Cnで収音したCnチャネルの観測信号yn(t)は複素特徴ベクトル計算部1nへ入力される。複素特徴ベクトル計算部1nは、n番目のノードで収音した観測信号yn(t)に基づいて、各時間周波数ビンを特徴づける複素特徴ベクトルψn(t)を計算する。(ステップS1)。複素特徴ベクトルψn(t)は式(30)により計算できる。詳しくは上述の<複素特徴ベクトル>を参照されたい。複素特徴ベクトル計算部11,…,1Nが計算した複素特徴ベクトルψ1(t),…,ψN(t)は音声存在確率計算部5へ入力される。
分散型マイクアレイ全体で収音したCチャネルの観測信号y(t)はエネルギー特徴ベクトル計算部2へ入力される。エネルギー特徴ベクトル計算部2は、観測信号y(t)に基づいて、ノードごとのエネルギーを表すエネルギー特徴ベクトルρ(t)を計算する(ステップS2)。エネルギー特徴ベクトル計算部2の処理は第一実施形態と同様であるので詳細な説明は省略する。計算したエネルギー特徴ベクトルρ(t)は音声存在確率計算部5へ入力される。
音声存在確率計算部5は、第一存在確率計算手段51により、エネルギー特徴ベクトルρ(t)に基づいて目的信号ごとの音声が存在する確率を示す第一音声存在確率を求める(ステップS51)。第一音声存在確率は式(15)により計算できる。詳しくは上述の<ディリクレ混合分布のパラメータ推定>を参照されたい。
音声存在確率計算部5は、第二存在確率計算手段52により、複素特徴ベクトルψ1(t),…,ψN(t)に基づいて目的信号ごとの音声が存在する確率を示す第二音声存在確率を求める(ステップS52)。第二音声存在確率は式(34)(36)により計算できる。詳しくは上述の<モデルパラメータ推定>を参照されたい。
音声存在確率計算部5は、事後確率計算手段53により、第一音声存在確率と第二音声存在確率を統合して目的信号ごとの音声が存在する確率を示す音声存在確率P(ρ,~ψ)(t,λ,^θ)を求める(ステップS53)。音声存在確率P(ρ,~ψ)(t,λ,^θ)は式(38)により求めることができる。詳しくは上述の<モデルパラメータ推定>を参照されたい。
音声存在確率計算部5は、パラメータ推定手段54により、エネルギー特徴ベクトルρ(t)と複素特徴ベクトルψ1(t),…,ψN(t)と音声存在確率P(ρ,~ψ)(t,λ,^θ)に基づいてディリクレ混合分布のパラメータαλとワトソン混合分布のパラメータкλを更新する(ステップS54)。パラメータαλは式(22)(23)により求めることができる。詳しくは上述の<ディリクレ混合分布のパラメータ推定>を参照されたい。パラメータкλは式(44)(45)(47)により求めることができる。詳しくは上述の<モデルパラメータ推定>を参照されたい。
音声存在確率計算部5は、反復処理手段55により、所定の基準を満たすかどうかを判断する(ステップS55)。所定の基準を満たさない場合には、ステップS51へ戻る。所定の基準を満たす場合には、最終的に得られた音声存在確率P(ρ,~ψ)(t,λ,^θ)をフィルタリング部6へ出力する。所定の基準については上述の<ディリクレ混合分布のパラメータ推定>で詳述したためここでは説明を省略する。
フィルタリング部6は、観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率P(ρ,~ψ)(t,λ,^θ)を乗じて目的信号の推定値を求める(ステップS6)。
推定した目的信号は出力端子Sから出力される。
[実験結果]
この発明によれば、例えば分散型マイクアレイ環境で収音した場合のように、入力信号の各チャネルのサンプリング周波数が異なる場合でも、精度の良い音源分離を安定的に行うことができる。
この発明の効果を確認するためにシミュレーション実験を行った。図8に実験環境を図示する。この実験では、目的信号を3つ(L=3)、ノード数を3(N=3)、各ノード内のマイク数を2(C1=2、C2=2、C3=2)とした。各話者の音源は、TIMITデータベースからランダムに抽出した男女各12名の話者のデータを用いた。各話者は分散型マイクアレイの中心から同心円上に3m離れた位置に等間隔に配置し、各マイクノードは分散型マイクアレイの中心から0.3m離れた位置に等間隔に配置した。実験を実施した部屋の残響時間は240msであった。
実験の評価指標としては目的音源とその他の音源のエネルギー比を示すSIR(Signal-to- Interference Ratio)を用いた。SIRが高ければより精度の高い音源分離を達成できていることが示される。各ノードのサンプリング周波数のずれによる性能変化を確認するため、3つの条件を用意した。条件(0,0,0)は、3つのノードすべてのサンプリング周波数が合致している条件に相当する。条件(0,4,8)は、2つ目のノードが1つ目のノードに対して+4サンプル/秒だけサンプリング周波数がずれており、3つ目のノードが1つ目のノードに対して+8サンプル/秒だけサンプリング周波数がずれている条件に相当する。条件(0,16,32)は、2つ目、3つ目のノードがそれぞれ+16、+32サンプル/秒だけサンプリング周波数がずれている条件に相当する。上記すべての条件において、1つ目のノードのサンプリング周波数は16kHzサンプリングとした。なお、事前実験では、同じ製造メーカから発売されている同じ機種の2つのICレコーダ間には1サンプル/秒以下のずれしかなかったのに対し、異なる製造メーカから発売されている2つのICレコーダ間には約30サンプル/秒ものずれがあることを確認している。上記のサンプリング周波数のずれ幅はこれらの事前実験に基づき定めた。
図9に実験結果を示す。「従来法(全体)」は、非特許文献1に記載された従来の音源分離技術を用いて、すべてのノードのすべてのマイクを用いて式(1)に示した複素特徴ベクトルを抽出し音源分離処理を行った結果である。「従来法(ノードごと)」では、非特許文献1に記載された従来の音源分離技術を用いて、ノードごとに式(1)に示した複素特徴ベクトルを抽出し音源分離処理を行い、各話者の分離音は話者に一番近いノードから生成した結果である。「提案法(第二実施形態)」は、上述の第二実施形態の音源分離技術を用いた結果である。
「従来法(全体)」はサンプリング周波数ずれの影響を大きく受け、ずれが大きくなるほど性能が低下していることが分かる。「従来法(ノードごと)」は、ノードごとの処理であるためサンプリング周波数ずれの影響は受けなかった。しかし、マイク数が2に留まっていることにも起因するが、全体的にSIRが低く、高い分離性能を達成することができていない。「提案法」は、サンプリング周波数ずれがない条件では「従来法(全体)」に劣るものの、サンプリング周波数ずれがある条件では従来法のいずれをも大きく上回っており、安定的に精度の良い音源分離を達成できていることがわかる。これらの結果よりこの発明の音源分離技術は様々な分散型マイクアレイ環境において精度の良い音源分離を安定的に行うことができることが確認された。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 複素特徴ベクトル計算部
2 エネルギー特徴ベクトル計算部
3,4,5 音声存在確率計算部
6 フィルタリング部
41 事後確率計算手段
42 パラメータ推定手段
43 反復処理手段
51 第一存在確率計算手段
52 第二存在確率計算手段
53 事後確率計算手段
54 パラメータ推定手段
55 反復処理手段

Claims (6)

  1. 複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部と、
    前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部と、
    前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリング部と、
    を含む音源分離装置。
  2. 請求項1に記載の音源分離装置であって、
    ||・||は・のノルムであり、nは前記ノードの番号であり、tは時間フレームの番号であり、y(t)はt番目の時間フレームにおける前記マイクアレイの観測信号であり、yn(t)はt番目の時間フレームにおけるn番目のノードの観測信号であり、
    前記エネルギー特徴ベクトル計算部は、n=1,…,Nについて、次式によりエネルギー特徴ベクトルを計算し、
    Figure 2014157261

    前記音声存在確率計算部は、前記エネルギー特徴ベクトルをディリクレ混合分布でモデル化して前記音声存在確率を求める
    ことを特徴とする音源分離装置。
  3. 請求項1または2に記載の音源分離装置であって、
    前記ノードごとに前記観測信号を正規化して複素特徴ベクトルを計算する複素特徴ベクトル計算部を含み、
    前記音声存在確率計算部は、前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第一音声存在確率を計算し、前記複素特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第二音声存在確率を計算し、前記第一音声存在確率と前記第二音声存在確率を統合して前記音声存在確率を求める、
    ことを特徴とする音源分離装置。
  4. 請求項3に記載の音源分離装置であって、
    ||・||は・のノルムであり、nは前記ノードの番号であり、tは時間フレームの番号であり、yn(t)はt番目の時間フレームにおけるn番目のノードの観測信号であり、
    前記複素特徴ベクトル計算部は、次式により複素特徴ベクトルを計算し、
    Figure 2014157261

    前記音声存在確率計算部は、前記エネルギー特徴ベクトルをディリクレ混合分布でモデル化して前記第一音声存在確率を計算し、前記複素特徴ベクトルをワトソン混合分布でモデル化して前記第二音声存在確率を計算する
    ことを特徴とする音源分離装置。
  5. エネルギー特徴ベクトル計算部が、複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算ステップと、
    音声存在確率計算部が、前記エネルギー特徴ベクトルを用いて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算ステップと、
    フィルタリング部が、前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリングステップと、
    を含む音源分離方法。
  6. 請求項1から4のいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。
JP2013028074A 2013-02-15 2013-02-15 音源分離装置、音源分離方法、およびプログラム Active JP6114053B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013028074A JP6114053B2 (ja) 2013-02-15 2013-02-15 音源分離装置、音源分離方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013028074A JP6114053B2 (ja) 2013-02-15 2013-02-15 音源分離装置、音源分離方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014157261A true JP2014157261A (ja) 2014-08-28
JP6114053B2 JP6114053B2 (ja) 2017-04-12

Family

ID=51578159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013028074A Active JP6114053B2 (ja) 2013-02-15 2013-02-15 音源分離装置、音源分離方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6114053B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194657A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音源分離装置、音源分離方法および音源分離プログラム
CN112820310A (zh) * 2019-11-15 2021-05-18 北京声智科技有限公司 一种来波方向估计方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100800A (ja) * 1999-09-27 2001-04-13 Toshiba Corp 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
JP2006330687A (ja) * 2005-04-28 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム
JP2010145836A (ja) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
WO2012063185A1 (en) * 2010-11-10 2012-05-18 Koninklijke Philips Electronics N.V. Method and device for estimating a pattern in a signal
JP2012173592A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP2013054258A (ja) * 2011-09-06 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置とその方法とプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100800A (ja) * 1999-09-27 2001-04-13 Toshiba Corp 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
JP2006330687A (ja) * 2005-04-28 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム
JP2010145836A (ja) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
WO2012063185A1 (en) * 2010-11-10 2012-05-18 Koninklijke Philips Electronics N.V. Method and device for estimating a pattern in a signal
JP2012173592A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP2013054258A (ja) * 2011-09-06 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置とその方法とプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HIROSHI SAWADA, ET AL.: "Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutatio", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, no. 3, JPN6014010546, 27 May 2010 (2010-05-27), US, pages 516 - 527, XP011337035, ISSN: 0003514594, DOI: 10.1109/TASL.2010.2051355 *
SHOKO ARAKI, ET AL.: "Stereo Source Separation and Source Counting with MAP Estimation with Dirichlet Prior Considering Sp", INDEPENDENT COMPONENT ANALYSIS AND SIGNAL SEPARATION, vol. 5441, JPN6016001913, 2009, DE, pages 742 - 750, XP019115474, ISSN: 0003240291, DOI: 10.1007/978-3-642-00599-2_93 *
SHOKO ARAKI, ET AL.: "Underdetermined Blind Sparse Source Separation for Arbitrarily Arranged Multiple Sensors", SIGNAL PROCESSING, vol. 87, no. 8, JPN6016001914, August 2007 (2007-08-01), NL, pages 1833 - 1847, XP022034408, ISSN: 0003240292, DOI: 10.1016/j.sigpro.2007.02.003 *
TOMOHIRO NAKATANI, ET AL.: "Multichannel Source Separation based on Source Location Cue with Log-Spectral Shaping by Hidden Mark", PROC. INTERSPEECH 2010, JPN6016001915, 26 September 2010 (2010-09-26), JP, pages 2766 - 2769, ISSN: 0003514593 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194657A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音源分離装置、音源分離方法および音源分離プログラム
CN112820310A (zh) * 2019-11-15 2021-05-18 北京声智科技有限公司 一种来波方向估计方法及装置
CN112820310B (zh) * 2019-11-15 2022-09-23 北京声智科技有限公司 一种来波方向估计方法及装置

Also Published As

Publication number Publication date
JP6114053B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
Žmolíková et al. Speakerbeam: Speaker aware neural network for target speaker extraction in speech mixtures
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
Lu et al. Ensemble modeling of denoising autoencoder for speech spectrum restoration.
CN108701468B (zh) 掩码估计装置、掩码估计方法以及记录介质
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
Nesta et al. Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation
Vijayasenan et al. An information theoretic combination of MFCC and TDOA features for speaker diarization
JPWO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6059072B2 (ja) モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
US20240144952A1 (en) Sound source separation apparatus, sound source separation method, and program
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP6989031B2 (ja) 伝達関数推定装置、方法及びプログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
Patil et al. Audio environment identification
Nian et al. An improved particle swarm optimization application to independent component analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170316

R150 Certificate of patent or registration of utility model

Ref document number: 6114053

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150