JP2006510060A - 複数の音響源が生成した複数の音響信号を分離する方法及びシステム - Google Patents

複数の音響源が生成した複数の音響信号を分離する方法及びシステム Download PDF

Info

Publication number
JP2006510060A
JP2006510060A JP2004560622A JP2004560622A JP2006510060A JP 2006510060 A JP2006510060 A JP 2006510060A JP 2004560622 A JP2004560622 A JP 2004560622A JP 2004560622 A JP2004560622 A JP 2004560622A JP 2006510060 A JP2006510060 A JP 2006510060A
Authority
JP
Japan
Prior art keywords
acoustic
signal
separating
signals generated
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004560622A
Other languages
English (en)
Inventor
ラマクリシュナン、ビクシャ
ゴメス、マニュエル・ジェイ・レイエス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2006510060A publication Critical patent/JP2006510060A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】本方法により、複数の音響源が生成した音響信号(例えば同じ室内の何人かの話者が同時に話した混合音声)を分離する。
【解決手段】各音源について、音響信号は結合されて、各音源に少なくとも1本ずつ設けられる複数のマイクによって取得される混合信号となる。混合信号をフィルタリングし、フィルタリングされた信号を総和して1つの信号にし、この信号から特徴を抽出する。因子HMM全体のターゲットシーケンスを推測し、それに従ってフィルタパラメータを最適化する。これらのステップは、フィルタパラメータが最適なフィルタリングパラメータに収束するまで繰り返し、次にこの最適なフィルタリングパラメータを用いて混合信号をもう一度フィルタリングし、この最後のフィルリングの総和出力が特定の音響源の音響信号となる。

Description

本発明は、包括的には混合音響信号の分離に関し、特に複数のチャネルが複数の音響源(話者など)から取得した混合音響信号の分離に関する。
しばしば、複数の話者によって複数の音声信号が同時に生成されるため、録音物において音声信号が互いに混ざり合う。その場合、それらの音声信号を分離することが必要になる。言い換えれば、2人以上の人が同時に話す場合、同時音声の録音物から個々の話者の音声を分離することが望ましい。これは話者分離問題と呼ばれる。
一方法において、同時音声は1チャネル録音により受信され、混合信号は時変フィルタにより分離される。Roweis著「One Microphone Source Separation」(Proc. Conference on Advances in Neural Information Processing Systems, pp. 793-799, 2000)およびHershey等著「Audio Visual Sound Separation Via Hidden Markov Models」(Proc. Conference on Advances in Neural Information Processing Systems, 2001)を参照。この方法は、通常は隠れマルコフモデル(HMM)等の動的モデルによって表される、異なる話者の音声の統計的な性質に関する広範な先験的(a priori)情報を用いて、時変フィルタを求める。
別の方法は、複数のマイクを用いて同時音声を録音する。この方法は通常、少なくとも話者の人数と同数のマイクを必要とし、音源分離問題はブラインド音源分離(BSS)の1つとして処理される。BSSは独立成分解析(ICA)によって行うことができる。この方法では信号の先験的知識は前提とされない。その代わりに、混合信号の複数の録音物から取り出した現在および過去のサンプルの重み付き結合(combination)として成分信号が推定される。推定重みは、推定成分信号の独立性を測定する目的関数を最適化する。Hyvaearinen著「Survey on Independent Component Analysis」(Neural Computing Surveys, Vol. 2., pp. 94-128, 1999)を参照。
両方法には欠点がある。既知の信号の統計を用いる時変フィルタ法は、混合信号の1チャネル録音物に基づいている。1チャネル録音物に存在する情報の量は通常、効果的な話者分離を行うには不十分である。ブラインド音源分離法は、話者に関する全ての先験的情報を無視する。その結果、この方法は多くの状況(信号が残響環境で録音された場合等)において失敗する。
したがって、従来技術を改良した混合音声信号の分離方法を提供することが望ましい。
本発明による方法は、分離する音響音声信号(例えば音声)に関する詳細な先の統計情報を用いる。この情報は隠れマルコフモデル(HMM)で表される。信号分離問題は、ビーム形成の1つとして処理される。ビーム形成では、推定フィルタ和(filter-and-sum)アレーを用いて各信号を抽出する。
推定フィルタは、所望の信号のHMMについて測定した、フィルタ和処理した出力の尤度を最大にする。これは、因子(factorial)HMM(FHMM)を用いた因子処理によって行われる。FHMMは複数の信号のHMMの外積である。因子処理は、現在のアレー出力を用いて全ての同時信号のFHMMからその信号のHMM全体の最適状態シーケンスを繰り返し推定するとともに、その状態シーケンスの尤度を最大にするフィルタを推定する。
音響信号の2音源混合物において、本発明による方法は、信号のHMMが音響信号から構築されている場合、前景音響信号よりも20dB低い背景音響信号を抽出することができる。
システム構造
図1は、本発明によるマルチチャネル音響信号分離システム100の基本的な構造を示す。この例では、混合音響信号(例えば音声103)を生成する2つの音源(例えば話者101〜102)がある。これより多い数の音源も可能である。本発明の目的は、取得した混合信号から1つの音源の信号190を分離することである。
本システムは複数のマイク110を、各話者または他の音源に少なくとも1本ずつ含む。これらの複数のマイク110には、複数のフィルタセット120が接続されている。各話者に1つのフィルタセット120があり、各セット120のフィルタの数はマイク110の本数に等しい。
各フィルタセット120出力121は対応する加算器130に接続される。加算器130は、総和信号131を特徴抽出モジュール140に供給する。
抽出した特徴141は因子処理モジュール150に供給される。因子処理モジュール150の出力は最適化モジュール160に接続されている。特徴は最適化モジュール160にも直接供給される。最適化モジュール160の出力は対応するフィルタセット120に戻される。各話者のトランスクリプション(transcription)隠れマルコフモデル(HMM)170も因子処理モジュール150に入力を供給する。HMMは、トランスクリプションに基づく必要はなく、例えば、いかなる形態または音源の音響内容、音楽、機械音、自然音、動物の声(animal sound)等から直接導出されてもよいことに留意すべきである。
システム動作
動作時には、取得した混合音響信号111をまずフィルタリングする(120)。初期のフィルタパラメータセットを用いることができる。フィルタリングした信号121を総和し、特徴141を抽出する(140)。HMM170を用いてターゲットシーケンス151を抽出する(150)。次に、共役勾配降下法を用いた最適化160により、1つの音源(例えば話者)の信号190の分離に用いることができる最適なフィルタパラメータ161を導出する。
次に、本発明によるシステムおよび方法の構造および動作を詳細に説明する。
フィルタ和
音源の数は既知であると仮定する。音源毎に別個のフィルタ和アレーを設ける。各マイク110からの混合信号111をマイク固有のフィルタによってフィルタリングする(120)。様々なフィルタリングされた信号121を総和して(130)合成131信号を得る。したがって、音源iの合成出力信号y[n]131は次のように表される。
Figure 2006510060
ここで、Lはマイク110の本数であり、x[n]はj番目のマイクにおける信号111であり、hij[n]は話者i用のj番目のフィルタに適用するフィルタである。フィルタインパルス応答hij[n]は、結果として得られる出力y[n]190がi番目の音源からの分離信号となるように、最適なフィルタパラメータ161によって最適化される。
音源用のフィルタの最適化
特定の音源からの信号用のフィルタ120は、音響信号に関する入手可能な情報(例えば話者の音声のトランスクリプション)を用いて最適化される。
音声信号の40次元のメルスペクトル(Mel-spectral)表現で訓練した、話者に依存しない隠れマルコフモデル(HMM)に基づく音声認識システムを用いることができる。この認識システムは、音響信号中の様々な音単位のHMMを含む。
上記と、おそらくはその話者の発声の既知のトランスクリプションとから、その発声のHMM170を構築する。これに続いて、話者用のフィルタ120のパラメータ161を推定して、発声HMM170に関してフィルタ和アレーの出力141から求めた40次元のメルスペクトルベクトルのシーケンスの尤度を最大にする。
最適化のために、メルスペクトルベクトルをフィルタパラメータの関数として次のように表現する。
まず、i番目の音源のフィルタパラメータを全てのチャネルについて連結し、1つのベクトルhにする。パラメータzが、i番目の音源用のアレーの出力131から抽出したメルスペクトルベクトルのシーケンス141を表す。パラメータzitはZにおけるt番目のスペクトルベクトルである。パラメータzitは次式によってベクトルhと関連付けられる。
Figure 2006510060
ここで、yitは、zitを求めるために用いられるy[n]からのサンプルのシーケンスを表すベクトルであり、Mはメルフィルタの重み係数行列であり、Fはフーリエ変換行列であり、Xはチャネル入力とそれをシフトしたものによって形成される超行列(super matrix)である。
Λはi番目の音源のHMMのパラメータセットを表すものとする。i番目の音源用のフィルタを最適化するために、その音源のHMMに対するZの対数尤度であるL(Z)=log(P(Z|Λ))を最大にする。パラメータL(Z)はHMM170全体で可能な状態シーケンス全てにわたって求める。
最適化を簡略化するために、Zの全体的な尤度は、HMM全体で最も尤度の高い状態シーケンスの尤度、すなわちP(Z|Λ)≒P(Z,S|Λ)によって大まかに表されるものとみなす。ここでSはHMM全体で最も尤度の高い状態シーケンスを表す。この仮定に基づいて次式が得られる。
Figure 2006510060
ここで、TはZにおけるベクトルの総数を表し、sitはi番目の音源の最も尤度の高い状態シーケンスの時間tにおける状態を表す。総和における2番目の対数項は、zitすなわちフィルタパラメータに依存しないため、最適化には影響を与えない。したがって、式3を最大にすることは1番目の対数項を最大にすることに等しい。
簡略化のために、これは、Zと状態シーケンスSのベクトルの最も尤度の高いベクトルシーケンスとの間の距離を最小にすることに等しいものとみなす。
HMMにおける状態出力の分布を単一ガウス(single Gaussian)でモデル化する場合、最も尤度の高いベクトルシーケンスが単純に、その最も尤度の高いシーケンスにおける状態の平均のシーケンスとなる。
以下において、この平均のシーケンスをその話者のターゲットシーケンス151と呼ぶ。最適化ステップ160においてフィルタパラメータ161について最適化される目的関数は次式によって定義される。
Figure 2006510060
ここで、ターゲットシーケンスm sitのt番目のベクトルは、最も尤度の高い状態シーケンスSのt番目の状態であるsitの平均である。
式2および式4は、Qがhの関数であることを示す。しかしながら、Qをhに関して直接最適化することは、両者間の関係が非常に非線形であるため不可能である。したがって、共役勾配降下法等の最適化方法を用いてQを最適化する。
図2は、本発明による方法200のステップを示す。
第1に、フィルタパラメータをh[0]=1/N、ならびにk≠0についてh[k]=0に初期化し(201)、式1を用いて各話者の混合信号111をフィルタ和処理する。
第2に、特徴ベクトル141を抽出する(202)。
第3に、状態シーケンスおよび最適化用の対応するターゲットシーケンス151を求める(203)。
第4に、式4を最適化するために共役勾配降下法等の最適化方法を用いて最適なフィルタパラメータ161を推定する(204)。
第5に、最適化されたフィルタパラメータを用いて信号を再度フィルタ和処理する。新たな目的関数が集束しない場合(206)、完了する(207)まで第3および第4のステップ203を繰り返す。
本プロセスは抽出した特徴141とターゲットシーケンス151の間の距離を最小にするため、よいターゲット選択が重要である。
ターゲットの推定
理想的なターゲットは、雑音や破損のない(clean uncorrupted)音響信号録音物から得られるメルスペクトルベクトルのシーケンスである。他のターゲットはすべて理想的なターゲットの近似値に過ぎない。この理想的なターゲットの近似値を求めるには、その話者の発声のHMM170からターゲット151を導出する。これは、現在の音源信号推定値からHMM全体の最適状態シーケンスを求めることによって行う。
直接的な手法では、信号のメルスペクトルベクトルのシーケンスについて最も尤度の高い状態シーケンスを求める。残念ながら、フィルタ120が完全に最適化される前のプロセスの初期の繰り返しでは、どの話者のフィルタ和アレーの出力131も他の話者からの信号を同様に大きな割合で含む。その結果、出力を単純にHMMと合わせてみてもターゲットの推定は粗悪な結果となる。
したがって、アレーの出力が全ての音源からの信号の混合であるという事実も考慮する。この信号を表現するHMMは、様々な音源のそれぞれのHMMの外積である因子HMM(FHMM)である。FHMMにおいて、各状態は音源の各々のHMMの1状態の複合(composition)であり、個々の音源の信号はそのそれぞれの状態のいずれかにあり、最終的な出力はこれらの状態からの出力の結合であるという事実を反映している。
図3は、話者が2人、HMMチェインが2つ(301〜302)(各話者につき1つ)である例のFHMMのダイナミクスを示す。HMMは特徴ベクトル141とともに動作する。
はk番目の話者のHMMのi番目の状態を表すものとし、ここでk∈[1,2]である。Skl ijは、k番目の話者のHMMが状態iにあり、l番目の話者のHMMが状態jにある場合に得られる因子状態を表す。Skl ijの出力密度はその成分状態の出力密度の関数である。
Figure 2006510060
関数f()の厳密な性質は、所望の話者の信号の現在の推定値における複数の話者の信号103の混合比率に依存する。この混合比率はまた、様々な話者の原信号レベル、および現在のフィルタセットによってもたらされる所望の話者の分離度を含むいくつかの因子に依存する。これらを教師なし(unsupervised)で求めるのは困難であるので、f()を正確に求めることはできない。
f()を推定することはしない。その代わりに、個々の音源のHMMを構築して単純なガウス状態出力密度を得る。FHMMの任意の状態の状態出力密度は、成分状態の状態出力密度の平均の線形結合を平均とするガウスでもあるとみなす。
kl ijのガウス状態出力密度の平均であるmkl ijを次のように定義する。
Figure 2006510060
ここで、m はS のD次元の平均ベクトルを表し、AはD×Dの重み行列である。
因子状態Skl ijの共分散に関して3つのオプションを検討する。全ての因子状態が共通の対角共分散行列Cを有する、すなわち、任意の因子状態Skl ijの共分散はCkl ij=Cによって与えられる。Skl ijの共分散はCkl ij=B(C +C )によって与えられ、ここで、C はS の共分散行列であり、Bは対角行列である。Ckl ij=B +B によって与えられ、ここでBは対角行列B=diag(b)である。
1番目の手法をグローバル共分散法、後の2つの手法を複合(composed)共分散法と呼ぶ。よって因子状態Skl ijの状態出力密度は次式によって与えられる。
Figure 2006510060
様々なAの値および共分散パラメータ値(検討中の共分散のオプションに応じてC、B、またはB)の値は未知であり、その話者の信号の現在の推定値から推定される。この推定は期待値最大化(EM)プロセスを用いて行われる。
このプロセスの期待(E)ステップでは、様々な因子状態の帰納的(a posteriori)確率、よって話者のHMMの状態の帰納的確率を求める。因子HMMはその成分HMMの状態数の積と同数の状態を有する。よって(E)ステップにおける直接的な計算は禁止される。
したがって、変形手法を採用する。Ghahramani等著「Factorial Hidden Markov Models」(Machine Learning, Vol. 29, pp. 245-275, Kluwer Academic Publishers, Boston 1997)を参照。本プロセスの最大化(M)ステップでは、計算した帰納的確率を用いてAを次のように推定する。
Figure 2006510060
ここで、AはAおよびAによりA=[A,A]として構成される行列であり、Pij(t)はi番目および(N+j)番目の値がP(Z|S )およびP(Z|S )に等しいベクトルであり、Mは、ブロックが個々の状態出力分布の平均により構成される行列で形成されるブロック行列である。
kl ij=B +B である複合分散法では、行列Bの対角成分bはEMアルゴリズムのn回目の繰り返しにおいて次のように推測される。
Figure 2006510060
ここでpij(t)=P(Z|Skl ij)である。
グローバル共分散法の共通の共分散Cおよび第1の複合共分散法のBは同様に計算することができる。
EMプロセスが集束し、As、共分散パラメータ(必要に応じてC、B、またはB)を求めた後、所望の話者の最適状態シーケンスもFHMMから、同様に変分近似を用いて得ることができる。
ある音源のターゲットシーケンス151を求めるためのシステム全般は次のように動作する。未処理信号からの特徴ベクトル141と、トランスクリプションを用いて求めたHMMとを用いて、式8および式9を用いてパラメータAおよび共分散パラメータ(必要に応じてC、B、またはB)を、全(total)対数尤度が収束するまで繰り返し更新する。
その後、所望の話者のHMM全体で最も尤度の高い状態シーケンスを求める。ターゲット151を得た後、フィルタ120を最適化し、フィルタ和アレーの出力131を用いてターゲットを再度推測する。本システムは、ターゲットが連続した繰り返しにおいて変化しなくなったときに集束する。最終的に得られたフィルタセットを用いて、その音源の音響信号を分離する。
発明の効果
本発明は、複数の話者からの音響信号の既知の統計特性を使用して音響信号を分類する新規のマルチチャネル話者分離システムとその方法を提供する。
2人の話者のシステム例の場合、本発明によるシステムおよび方法は、信号分離比(signal separation ratio:SSR)を従来技術の単純な遅延和と比べて20dB改善する。話者の信号レベルが異なる場合、結果はより劇的になる(すなわち38dB改善される)。
図4Aは混合信号を示し、図4Bおよび図4Cは、本発明による方法によって得られた2つの分離信号を示す。FHMMに基づく本方法により得られる信号分離は、フィルタ最適化の理想的なターゲットを用いて得られる信号分離に匹敵する。複合分散FHMM法は、全てのFHMM状態にグローバル共分散を用いる方法よりも少ない繰り返し回数で最終的なフィルタに集束する。
本発明を好適な実施の形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応形態および変更形態を実施できることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入る変形形態および変更形態をすべて網羅することである。
本発明に係る混合音響信号を分離するシステムのブロック図である。 本発明に係る混合音響信号を分離する方法のブロック図である。 本発明が用いる因子HMMのフロー図である。 分離すべき混合音声信号のグラフである。 本発明に従って分離した音声信号のグラフである。 本発明に従って分離した音声信号のグラフである。

Claims (10)

  1. 複数の音響源が生成した複数の音響信号を分離する方法であって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
    前記混合信号をフィルタリングしてフィルタリングされた信号にすること、
    前記フィルタリングされた信号を総和して合成信号にすること、
    前記合成信号から特徴を抽出すること、
    前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測すること、
    前記ターゲットシーケンスのフィルタパラメータを最適化すること、
    前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測するステップと前記最適化するステップとを繰り返すこと、および
    前記最適なフィルタパラメータを用いて前記混合信号をもう一度フィルタリングし、前記最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得ること
    を含む、複数の音響源が生成した複数の音響信号を分離する方法。
  2. 前記音響源は話者であり、前記音響信号は音声である、
    請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
  3. 前記音響源の各々に少なくとも1本のマイクがあり、マイクの各々に1つのフィルタセットがあり、セットの各々のフィルタの数は前記音響源の数に等しい、
    請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
  4. 前記フィルタパラメータは勾配降下法により最適化される、
    請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
  5. 前記ターゲットシーケンスは隠れマルコフモデルから推定される、
    請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
  6. 前記ターゲットシーケンスは、前記隠れマルコフモデルの最も尤度の高い状態シーケンスにおける状態の平均のシーケンスである、
    請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
  7. 前記隠れマルコフモデルは前記音響源と独立している、
    請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
  8. 前記音響信号は音声であり、前記隠れマルコフモデルは前記音声のトランスクリプションに基づいている、
    請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
  9. 前記音響源全ての個々の隠れマルコフモデルの外積である因子隠れマルコフモデルにより前記混合信号を表現すること
    をさらに含む請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
  10. 複数の音響源が生成した複数の音響信号を分離するシステムであって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
    前記混合信号をフィルタリングしてフィルタリングされた信号にする複数のフィルタと、
    前記フィルタリングされた信号を総和して合成信号にする加算器と、
    前記合成信号から特徴を抽出する手段と、
    前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測する手段と、
    前記ターゲットシーケンスのフィルタパラメータを最適化する手段と、
    前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測および前記最適化を繰り返し、次に前記最適なフィルタパラメータを用いて前記混合信号をフィルタリングし、最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得る手段と
    を備える、複数の音響源が生成した複数の音響信号を分離するシステム。
JP2004560622A 2002-12-13 2003-12-11 複数の音響源が生成した複数の音響信号を分離する方法及びシステム Pending JP2006510060A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/318,714 US20040117186A1 (en) 2002-12-13 2002-12-13 Multi-channel transcription-based speaker separation
PCT/JP2003/015877 WO2004055782A1 (en) 2002-12-13 2003-12-11 Method and system for separating plurality of acoustic signals generated by plurality of acoustic sources

Publications (1)

Publication Number Publication Date
JP2006510060A true JP2006510060A (ja) 2006-03-23

Family

ID=32506443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004560622A Pending JP2006510060A (ja) 2002-12-13 2003-12-11 複数の音響源が生成した複数の音響信号を分離する方法及びシステム

Country Status (5)

Country Link
US (1) US20040117186A1 (ja)
EP (1) EP1568013B1 (ja)
JP (1) JP2006510060A (ja)
DE (1) DE60312374T2 (ja)
WO (1) WO2004055782A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013529879A (ja) * 2010-08-27 2013-07-22 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 発電機の運転をスケジューリングするための方法
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567908B2 (en) * 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
KR100600313B1 (ko) * 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
US7865089B2 (en) * 2006-05-18 2011-01-04 Xerox Corporation Soft failure detection in a network of devices
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
US9313336B2 (en) 2011-07-21 2016-04-12 Nuance Communications, Inc. Systems and methods for processing audio signals captured using microphones of multiple devices
US9601117B1 (en) * 2011-11-30 2017-03-21 West Corporation Method and apparatus of processing user data of a multi-speaker conference call
CN102568493B (zh) * 2012-02-24 2013-09-04 大连理工大学 一种基于最大矩阵对角率的欠定盲分离方法
US10452986B2 (en) 2012-03-30 2019-10-22 Sony Corporation Data processing apparatus, data processing method, and program
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
CN105354594B (zh) * 2015-10-30 2018-08-31 哈尔滨工程大学 一种针对欠定盲源分离的混合矩阵估计方法
GB2567013B (en) * 2017-10-02 2021-12-01 Icp London Ltd Sound processing system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
US5675659A (en) * 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6236862B1 (en) * 1996-12-16 2001-05-22 Intersignal Llc Continuously adaptive dynamic signal separation and recovery system
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013529879A (ja) * 2010-08-27 2013-07-22 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 発電機の運転をスケジューリングするための方法
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
EP1568013A1 (en) 2005-08-31
EP1568013B1 (en) 2007-03-07
DE60312374D1 (de) 2007-04-19
WO2004055782A1 (en) 2004-07-01
DE60312374T2 (de) 2007-11-15
US20040117186A1 (en) 2004-06-17

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
JP2006510060A (ja) 複数の音響源が生成した複数の音響信号を分離する方法及びシステム
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
US8392185B2 (en) Speech recognition system and method for generating a mask of the system
US20170061978A1 (en) Real-time method for implementing deep neural network based speech separation
Delcroix et al. Compact network for speakerbeam target speaker extraction
CN107919133A (zh) 针对目标对象的语音增强系统及语音增强方法
US11854554B2 (en) Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments
Menne et al. Investigation into joint optimization of single channel speech enhancement and acoustic modeling for robust ASR
CN109887489B (zh) 基于生成对抗网络的深度特征的语音去混响方法
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
US20110046948A1 (en) Automatic sound recognition based on binary time frequency units
Sant'Ana et al. Text-independent speaker recognition based on the Hurst parameter and the multidimensional fractional Brownian motion model
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
Callens et al. Joint blind room acoustic characterization from speech and music signals using convolutional recurrent neural networks
Reyes-Gomez et al. Multi-channel source separation by factorial HMMs
Ozerov et al. GMM-based classification from noisy features
Jukić et al. Multi-channel linear prediction-based speech dereverberation with low-rank power spectrogram approximation
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Koutras et al. Improving simultaneous speech recognition in real room environments using overdetermined blind source separation.
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061020

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100302