JP7420153B2 - 音源分離装置、音源分離方法、およびプログラム - Google Patents

音源分離装置、音源分離方法、およびプログラム Download PDF

Info

Publication number
JP7420153B2
JP7420153B2 JP2021577778A JP2021577778A JP7420153B2 JP 7420153 B2 JP7420153 B2 JP 7420153B2 JP 2021577778 A JP2021577778 A JP 2021577778A JP 2021577778 A JP2021577778 A JP 2021577778A JP 7420153 B2 JP7420153 B2 JP 7420153B2
Authority
JP
Japan
Prior art keywords
sound source
separation
signal
mixed signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021577778A
Other languages
English (en)
Other versions
JPWO2021161437A1 (ja
Inventor
翔一郎 武田
健太 丹羽
信哉 志水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021161437A1 publication Critical patent/JPWO2021161437A1/ja
Application granted granted Critical
Publication of JP7420153B2 publication Critical patent/JP7420153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、複数の音源信号が混合した混合信号から目的音源を分離する音源分離技術に関する。
実世界においてマイクを通じて取得される複数の音源信号が混合した混合信号から、各目的音源を分離する独立ベクトル分析(Independent Vector Analysis、IVA)と呼ばれる技術が存在する(例えば、非特許文献1,2参照)。この技術では、目的音源同士が互いに統計的に独立であると仮定し、各周波数ビンにおいて混合信号を統計的に独立な分離信号に分離する。この分離信号は、最尤推定法等を用いた最適化の枠組みの中で推定された分離フィルタを、混合信号に適用することで得られる。しかしながら、全周波数ビンにわたって分離信号の順序が揃う保証はなく、各周波数ビンで分離信号が入れ替わってしまうパーミュテーションと呼ばれる問題がしばしば発生することが知られている。
この問題を解決するために、到来方向(Direction of Arrival、DOA)という音源の空間情報を使って分離フィルタの推定精度を高める取り組みが数多くなされている(例えば、非特許文献3,4,5参照)。しかしながら、これらの技術は、分離フィルタを推定する最適化の枠組みの外で到来方向を利用するための明示的な手続きが必要であり、アルゴリズムの複雑性が増すという課題を抱えている。
Taesu Kim, Hagai T. Attias, Soo-Young Lee, Te-Won Lee, "Blind Source Separation Exploiting Higher-Order Frequency Dependencies," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, January 2007. Francesco Nesta, Zbynek Koldovsky, "Supervised independent vector analysis through pilot dependent components," IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. Hiroshi Saruwatari, Toshiya Kawamura, Tsuyoki Nishikawa, Akinobu Lee, Kiyohiro Shikano, "Blind Source Separation Based on a Fast-Convergence Algorithm Combining ICA and Beamforming," IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 2, March 2006. Affan H. Khan, Maja Taseska, Emanuel A.P. Habets, "A Geometrically Constrained Independent Vector Analysis Algorithm for Online Source Extraction," International Conference on Latent Variable Analysis and Signal Separation, vol. 9237, pp. 396-403, August 2015. Yuuki Tachioka, Tomohiro Narita, Jun Ishii, "Semi-Blind Source Separation using Binary Masking and Independent Vector Analysis," IEEJ Transactions on Electrical and Electronic Engineering, vol. 10(1), January 2015.
非特許文献3,4,5では、分離フィルタの推定精度を高めるために到来方向を利用することを提唱している。しかしながら、これらの処理は分離フィルタの推定に用いられる最適化の枠組みの外で明示的に行われており、アルゴリズムとして複雑になっている。また、これらの処理は微分不可能であるため、ディープニューラルネットワーク等の勾配法を前提としたモデルにそのまま応用することは難しい。
この発明の目的は、上記のような技術的課題に鑑みて、分離フィルタの推定と到来方向の利用を同時に考慮するシンプルな最適化が可能な音源分離技術を実現することである。
上記の課題を解決するために、この発明の一態様の音源分離装置は、複数の音源から到来した音を含む混合信号から音源ごとに強調された音を含む分離信号を取得する音源分離装置であって、音源ごとに当該音源から発せられた音を分離することと、音源ごとに当該音源方向に音源がない方向と比べて強い指向性をもつことと、を満たすよう最適化された分離フィルタを用いて、混合信号から分離信号を取得する分離信号推定部を含む。
この発明の音源分離技術は、分離フィルタの推定と到来方向の利用を同時に考慮するシンプルな最適化が可能である。
図1は、音源分離装置の機能構成を例示する図である。 図2は、音源分離方法の処理手順を例示する図である。 図3は、コンピュータの機能構成を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[実施形態]
この発明の実施形態は、複数の音源信号が混合した混合信号から各目的音源を分離するための音声処理アルゴリズムを実行する音源分離装置および方法である。この音声処理アルゴリズムは、(1)時間領域で定義される混合信号を周波数領域の混合信号に変換する信号変換ステップ、(2)現時点kで推定されている分離フィルタを、信号変換ステップで求められた周波数領域の混合信号に適用することで、現時点kにおける周波数領域の分離信号を推定する分離信号推定ステップ、(3)信号変換ステップで求められた周波数領域の混合信号と分離信号推定ステップで求められた周波数領域の分離信号とを用いて、現時点kで推定されている分離フィルタに関する尤度と到来方向に基づいた正則化とそれぞれの勾配を計算する勾配計算ステップ、(4)勾配計算ステップで計算された勾配を用いて、分離フィルタを更新するフィルタ更新ステップ、および(5)分離信号推定ステップで求められた周波数領域の分離信号を時間領域で定義される分離信号に変換する信号逆変換ステップを含むことを特徴とする。
実施形態の音源分離装置10は、複数の音源から到来した音を含む時間領域の混合信号を入力とし、音源ごとに強調された音を含む時間領域の分離信号を出力する音声信号処理装置である。音源分離装置10は、図1に例示するように、信号変換部1、分離信号推定部2、勾配計算部3、フィルタ更新部4、および信号逆変換部5を備える。この音源分離装置10が、図2に例示する各ステップの処理を行うことにより実施形態の音源分離方法が実現される。
音源分離装置10は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音源分離装置10は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音源分離装置10に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音源分離装置10の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
図2を参照して、実施形態の音源分離装置10が実行する音源分離方法の処理手続きを説明する。
本実施形態では、音源数Nおよびマイク数Mが既知とする。また、音源分離装置10の入力は、m∈{1, …, M}番目のマイクから取得される時間領域の混合信号Xtm∈Rとする。ここで、t∈{1, …, T}は各時間フレームを表し、Tは最大時間フレームを表す。また、Rは実数全体の集合である。
ステップS1において、信号変換部1は、音源分離装置10に入力された時間領域の混合信号Xtmを短時間フーリエ変換(Short-Time Fourier Transform、STFT)等を用いて周波数領域の混合信号xftm∈Cに変換する。ここで、f∈{1, …, F}は各周波数ビンを表し、Fは最大周波数ビンを表す。また、Cは複素数全体の集合である。信号変換部1は、周波数領域の混合信号xftmを分離信号推定部2および勾配計算部3へ出力する。
ステップS2において、分離信号推定部2は、まず、現時点kで推定されている分離フィルタwnf (k)∈C1×Mを行にもつ分離行列Wf (k)=[w1f (k), …, wNf (k)]T∈CN×Mを作成する。なお、・Tは転置を表す。次に、分離信号推定部2は、その分離行列Wf (k)と周波数領域の混合信号xftmのベクトルxft=[xft1, …, xftM]T∈CM×1との行列積を計算することで、現時点kにおける周波数領域の分離信号yftn (k)を推定する。具体的には、分離信号推定部2は、式(1)を計算する。
Figure 0007420153000001
ここで、yft (k)=[yft1 (k), …, yftN (k)]T∈CN×1である。分離フィルタwnf (k)は周波数領域の混合信号ベクトルxftからn∈{1, …, N}番目の音源に対応する周波数領域の分離信号yftn (k)を出力していることになる。分離信号推定部2は、周波数領域の分離信号yftn (k)を勾配計算部3へ出力する。
ステップS3において、勾配計算部3は、信号変換部1の出力結果である周波数領域の混合信号xftmと分離信号推定部2の出力結果である周波数領域の分離信号yftn (k)とを用いて、現時点kで推定されている分離フィルタwnf (k)に関する尤度の勾配と、到来方向に基づいた正則化の勾配を計算する。勾配計算部3は、勾配をフィルタ更新部4へ出力する。以下、勾配の計算方法について詳述する。
まず、周波数領域の混合信号xftmを周波数ビンの次元でまとめた混合信号ベクトルxtm=[x1tm, …, xFtm]Tに関して、現時点kにおける負の対数尤度LNLL (k)を、式(2)のように定義する。
Figure 0007420153000002
線形制約式(1)を考慮すると、式(2)は式(3)のように書き下すことができる。
Figure 0007420153000003
ここで、ytn (k)は周波数領域の分離信号yftn (k)を周波数ビンの次元でまとめた分離信号ベクトル[y1tn (k), …, yFtn (k)]∈CF×1を表し、p(ytn (k))は分離信号ベクトルytn (k)が従う確率モデルを表す。なお、ここで使用する確率モデルは、independent Laplacian distribution model(例えば、非特許文献1参照)などが一般的だが、本発明では特にモデルを制限するものではない。
現時点kで推定されている分離フィルタwnf (k)∈Wf (k)に関する尤度の勾配は、式(3)に対する分離フィルタの複素共役Wf *の勾配を計算することで求められる。具体的には、勾配計算部3は、式(4)を計算する。
Figure 0007420153000004
ここで、E[・]は・の期待値を計算することを表し、・Hはエルミート転置を表す。
現時点kで推定されている分離フィルタwnf (k)∈Wf (k)に対して到来方向に基づいた正則化も考え、その勾配を計算する。ここで、正則化は式(5)のように、シンプルな関数g1~g5の合成関数として定義される。
Figure 0007420153000005
ここで、g1~g5は以下のように定義されている。
Figure 0007420153000006
Figure 0007420153000007
Figure 0007420153000008
Figure 0007420153000009
Figure 0007420153000010
ここで、ψθf=[ψ1θf, …, ψNθf]Tは分離フィルタwnf (k)∈Wf (k)の周波数ビンfにおける到来方向θ={1, …, Θ}に関するビームパターンを表し、aθf=[a1θf, …, aMθf]Tは目的音源が平面波で到来方向θから到来したと仮定する時のアレイマニフォールドベクトルを表す。Bf=diag[b1, …, bn]は最適化中に分離行列Wf (k)のスケールが不定になる問題を調整するスケーリング行列であり、例えば、プロジェクションバック法(参考文献1)などが提案されているが、本発明では特に手法を制限するものではない。また、
Figure 0007420153000011
はアダマール積を表し、・*は複素共役を表している。
〔参考文献1〕D. E. Rumelhart, G. E. Hinton, R. J. Williams, et al., "Learning representations by back-propagating errors," Cognitive modeling, vol. 5, no. 3, pp. 1, 1988.
この正則化内のg3○g4○g5によって、現時点kにおけるビームパターンを計算する。ビームパターンは、x軸を到来方向θ、y軸を周波数ビンf、z軸を感度値ψθfとして、二次元のヒートマップ(例えば、赤が感度大、青が感度小)として描画することができる特徴量であり、分離フィルタの特性を表している。そして、g2のmax関数によって、ある特定の到来方向θに関する最大感度を取得する。つまり、ヒートマップ上のy軸方向に赤色のバンドが最も濃く表れている到来方向θを取得することに相当する。またこれは、現時点kにおける分離フィルタwnf (k)∈Wf (k)が最大感度を形成するべき方向、つまり目的音源の到来方向を暗に推定していることになる。最終的に、g1を用いて、ある特定の到来方向にどの程度最大感度を形成できているかを計算する。なお、g1は単純にL2ノルムの形をしているが、最大感度は最終的に値として1に収束するので、g1=||h1-1||2 2という定式化でもよいと考えられる。しかしながら、この場合だと正則化が厳しくなり、最適化が不安定になることが経験的に明らかになっている。そのため、基本的には式(6)のようにg1=||h1||2 2を用いることが望ましい。
正則化Lnorm (k)はシンプルな関数g1~g5の合成関数として表されるため、ニューラルネットワークなどで用いられる連鎖律を基にしたバックプロパゲーションを用いることで、式(11)~(14)のように正則化Lnorm (k)の勾配を計算することができる。
Figure 0007420153000012
Figure 0007420153000013
Figure 0007420153000014
Figure 0007420153000015
ここで、
Figure 0007420153000016
(中抜き文字のI)は指示関数であり、最大到来方向^θ=argmaxθ{h2,θ}θ=1 Θに関する計算のみを勾配として伝搬させることを表す。f1, f2はそれぞれ所定の周波数である。
また、本発明では∂Lnorm (k)/∂Wf *の近似として式(14)を提案する。これは、勾配計算時に目的音源の周波数的な性質を取り入れることを可能にするものである。例えば、人間の音声の主な周波数帯域は500~3000Hzであるため、f1=500, f2=3000とすることで、この周波数帯域のみを考慮した勾配計算が可能となる。
最終的に、現時点kにおける勾配∂L(k)/∂Wf *は、負の対数尤度の勾配∂LNLL (k)/∂Wf *と到来方向に基づいた正則化の勾配∂Lnorm (k)/∂Wf *の重み付き線形加算として、式(15)のように表される。
Figure 0007420153000017
ここでγは重みのハイパーパラメータである。したがって、現時点kにおけるコスト関数L(k)は、式(3)と式(5)から、式(16)で定義される。
Figure 0007420153000018
ステップS4-1において、フィルタ更新部4は、勾配計算部3の出力結果である現時点kにおける勾配∂L(k)/∂Wf *に基づいて、例えば、式(17)のように自然勾配法を用いて現時点kにおける分離フィルタWf (k)を更新し、次の時点k+1における分離フィルタWf (k+1)を計算する。
Figure 0007420153000019
ここで、αは更新のステップサイズを表している。最終的に、分離フィルタWf (k+1)が更新されなくなったときの分離信号推定部2の出力結果である周波数領域の分離信号yftn (k+1)が求めたい目的音源の周波数領域における表現となる。フィルタ更新部4は、分離フィルタWf (k+1)を分離信号推定部2へ出力する。
ステップS4-2において、フィルタ更新部4は、分離フィルタの更新が完了したか否かを判定する。更新が完了していたらステップS5へ処理を進める。更新が完了していなければステップS2へ処理を戻す。更新が完了したことの判断は、例えば、分離フィルタの更新量が所定の値よりも小さくなったことでもよいし、分離フィルタの更新回数が所定の回数となったことでもよい。
ステップS5において、信号逆変換部5は、分離信号推定部2の出力結果である周波数領域の分離信号yftn (k+1)を、逆短時間フーリエ変換を用いて、時間領域の分離信号ytn∈Rに変換する。信号逆変換部5は、時間領域の分離信号ytnを音源分離装置10の出力として出力する。
本発明では、到来方向の利用を最適化の中に暗黙的に取り入れるための微分可能な正則化を提案し、最適化の枠組みの中で分離フィルタの推定と到来方向の利用を同時に考慮するシンプルで新しい最適化手法を提案した。また、本発明で提案された正則化項は微分可能であるため、ディープニューラルネットワーク等の勾配法を前提にしたモデルにおける誤差項として容易に組み込むことが可能である。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図3に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離装置であって、
    離フィルタを用いて前記混合信号から前記分離信号を推定する分離信号推定部と、
    前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新するフィルタ更新部と、を含む
    音源分離装置。
  2. 請求項に記載の音源信号分離装置であって、
    t={1, …, T}は時間フレームを表し、n={1, …, N}は音源を表し、f={1, …, F}は周波数ビンを表し、p(ytn (k))は周波数領域の分離信号を周波数ビンの次元でまとめたベクトルytn (k)が従う確率モデルであり、Wf (k)は現時点kにおける分離フィルタを行にもつ分離行列であり、γは重みのハイパーパラメータであり、aθfは目的音源が平面波で到来方向θ={1, …, Θ}から到来したと仮定するときのアレイマニフォールドベクトルであり、Bfはスケーリング行列であり、
    前記コスト関数は、
    Figure 0007420153000020

    ただし、
    Figure 0007420153000021

    Figure 0007420153000022

    Figure 0007420153000023

    Figure 0007420153000024

    Figure 0007420153000025

    で定義される、
    音源分離装置。
  3. 請求項に記載の音源信号分離装置であって、
    前記コスト関数の第3項で考慮する周波数ビンfは、音源が発する音の周波数特性に基づいて定める、
    音源分離装置。
  4. 請求項に記載の音源信号分離装置であって、
    f1,f2はそれぞれ所定の周波数であり、中抜き文字のIは指示関数であり、aθfは目的音源が平面波で到来方向θから到来したと仮定するときのアレイマニフォールドベクトルであり、Bfはスケーリング行列であり、Wf (k)は現時点kにおける分離フィルタを行にもつ分離行列であり、
    前記コスト関数の第3項の勾配を
    Figure 0007420153000026

    ただし、
    Figure 0007420153000027

    Figure 0007420153000028

    を計算して求める、
    音源分離装置。
  5. 複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離方法であって、
    分離信号推定部が、分離フィルタを用いて、前記混合信号から前記分離信号を推定し、
    フィルタ更新部が、前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新する
    音源分離方法。
  6. 請求項1からのいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。
JP2021577778A 2020-02-13 2020-02-13 音源分離装置、音源分離方法、およびプログラム Active JP7420153B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005470 WO2021161437A1 (ja) 2020-02-13 2020-02-13 音源分離装置、音源分離方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021161437A1 JPWO2021161437A1 (ja) 2021-08-19
JP7420153B2 true JP7420153B2 (ja) 2024-01-23

Family

ID=77292199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577778A Active JP7420153B2 (ja) 2020-02-13 2020-02-13 音源分離装置、音源分離方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230079569A1 (ja)
JP (1) JP7420153B2 (ja)
WO (1) WO2021161437A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008306712A (ja) 2007-06-08 2008-12-18 Honda Motor Co Ltd 音源分離システム
US20100183178A1 (en) 2009-01-21 2010-07-22 Siemens Aktiengesellschaft Blind source separation method and acoustic signal processing system for improving interference estimation in binaural wiener filtering
JP2011191337A (ja) 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
US20160099008A1 (en) 2014-10-06 2016-04-07 Oticon A/S Hearing device comprising a low-latency sound source separation unit
JP2018121108A (ja) 2017-01-23 2018-08-02 日本電信電話株式会社 分離行列設計装置、フィルタ係数算出装置、その方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6815956B2 (ja) * 2017-09-13 2021-01-20 日本電信電話株式会社 フィルタ係数算出装置、その方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008306712A (ja) 2007-06-08 2008-12-18 Honda Motor Co Ltd 音源分離システム
US20100183178A1 (en) 2009-01-21 2010-07-22 Siemens Aktiengesellschaft Blind source separation method and acoustic signal processing system for improving interference estimation in binaural wiener filtering
JP2011191337A (ja) 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
US20160099008A1 (en) 2014-10-06 2016-04-07 Oticon A/S Hearing device comprising a low-latency sound source separation unit
JP2018121108A (ja) 2017-01-23 2018-08-02 日本電信電話株式会社 分離行列設計装置、フィルタ係数算出装置、その方法、及びプログラム

Also Published As

Publication number Publication date
US20230079569A1 (en) 2023-03-16
WO2021161437A1 (ja) 2021-08-19
JPWO2021161437A1 (ja) 2021-08-19

Similar Documents

Publication Publication Date Title
EP3504703B1 (en) A speech recognition method and apparatus
US20190286073A1 (en) Systems and methods for learning for domain adaptation
US20190295530A1 (en) Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
WO2019017403A1 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP6976804B2 (ja) 音源分離方法および音源分離装置
KR20190108711A (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
CN113454717A (zh) 语音识别装置和方法
JP2020086434A (ja) 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置
Wu et al. Acoustic to articulatory mapping with deep neural network
Sivasankaran et al. Discriminative importance weighting of augmented training data for acoustic model training
He et al. Single channel blind source separation under deep recurrent neural network
CN114267366A (zh) 通过离散表示学习进行语音降噪
JP7420153B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6567478B2 (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP2021157145A (ja) 推論器および推論器の学習方法
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
Čmejla et al. Independent vector analysis exploiting pre-learned banks of relative transfer functions for assumed target’s positions
Morito et al. Reduction of computational cost using two-stage deep neural network for training for denoising and sound source identification
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
EP4369254A1 (en) Training framework method with non-linear enhanced kernel reparameterization
Jun et al. Robust speech recognition based on independent vector analysis using harmonic frequency dependency

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R150 Certificate of patent or registration of utility model

Ref document number: 7420153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150