JP2009042754A - 音源分離システム - Google Patents

音源分離システム Download PDF

Info

Publication number
JP2009042754A
JP2009042754A JP2008191382A JP2008191382A JP2009042754A JP 2009042754 A JP2009042754 A JP 2009042754A JP 2008191382 A JP2008191382 A JP 2008191382A JP 2008191382 A JP2008191382 A JP 2008191382A JP 2009042754 A JP2009042754 A JP 2009042754A
Authority
JP
Japan
Prior art keywords
signal
model
sound source
source separation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008191382A
Other languages
English (en)
Other versions
JP5178370B2 (ja
Inventor
Ryu Takeda
龍 武田
Kazuhiro Nakadai
一博 中臺
Koji Tsujino
広司 辻野
Hiroshi Okuno
博 奥乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to US12/187,684 priority Critical patent/US7987090B2/en
Priority to EP08252663A priority patent/EP2023343A1/en
Publication of JP2009042754A publication Critical patent/JP2009042754A/ja
Application granted granted Critical
Publication of JP5178370B2 publication Critical patent/JP5178370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】残響または反響の影響を軽減することにより音源分離精度の向上を図ることができるシステムを提供する。
【解決手段】観測信号Y(ω,f)から、第1モデルおよび第2モデルにしたがって元信号X(ω,f)が分離されることにより未知信号E(ω,f)が抽出される。第1モデルによれば、現在フレームfの元信号X(ω,f)が現在および過去の所定数Mのフレームにわたる既知信号S(ω,f−m+1)(m=1〜M)の合成信号として表現されている。このため、窓長を変更させることなく、既知信号S(ω,f)の残響または反響が観測信号Y(ω,f)に及ぼす影響を軽減しながら未知信号E(ω,f)が抽出されうる。
【選択図】 図5

Description

本発明は、音源分離システムに関する。
ユーザとロボットとの自然な対話を実現する上で、ロボットの発話中にユーザの発話(いわゆるバージイン)を許容することは不可欠である。ロボットにマイクロホンが搭載されている場合、ロボット自身の発話がマイクロホンに入り込むので、バージインは相手の発話を認識する上で大きな障害となる。
そこで、図4に示されている構成の適応フィルタが用いられている。自発話の除去は、スピーカSからマイクロホンMへの伝達系hを近似するフィルタh^の推定問題として取り扱われる。マイクロホンMから入力された観測信号y(k)から推定信号y^(k)が差し引かれることにより相手発話が取り出される。
適応フィルタの1つとしてNLMS(Normalized Least Mean Squares)法が提案されている。NLMS法によれば、時間領域において、線形かつ時間不変な伝達系を経て観測される信号y(k)が、元信号ベクトルx(k)=t(x(k),x(k−1),..x(k−N+1))(「N」はフィルタ長を表わす。「t」は転置を意味する。)と、伝達系のインパルス応答h= t(h1,h2,..hN)との畳み込みを用いて関係式(1)により表現される。
y(k)=tx(k)h ..(1)
推定フィルタh^= t(h1^,h2^,..hN^)は、関係式(2)により表わされる観測信号と推定信号との誤差e(k)の二乗平均を最小化することにより得られる。推定フィルタh^を求めるためのオンラインアルゴリズムは、正則化のための小さな正数値を用いて関係式(3)により表現される。なお、関係式(3)において||x(k)||2+δにより学習係数が正規化されない場合がLMS法である。
e(k)=y(k)−tx(k)h^ ..(2)
h^(k)=h^(k−1)+μNLMSx(k)e(k)/(||x(k)||2+δ) ..(3)
また、ICA(独立成分分析)法が提案されている。ICA法はノイズを仮定して設計されているため、自発話区間の検出が不要であり、かつ、ノイズが存在しても分離可能であり、その結果としてバージイン問題の解決に適している。たとえば、時間領域ICA法が提案されている(非特許文献1参照)。音源の混合過程はノイズn(k)およびN+1次の行列Aを用いて関係式(4)により表わされる。
t(y(k),tx(k))=A t(n(k), tx(k)),
ii=1(i=1..N+1),A1j=hj-1(j=2..N+1),
ik=0(k≠i) ..(4)
ICAによれば関係式(5)における分離行列Wが推定される。
t(e(k),tx(k))=W t(y(k),tx(k)),
11=a, Wii=1(i=2..N+1),
1j=hj(j=2..N;1),Wik=0(k≠i) ..(5)
分離行列Wの第1行第1列成分W11=a=1の場合が従来の適応フィルタのモデルであり、ICA法と最も異なっている点である。自然勾配法にしたがってKL情報量が最小化されることにより、オンラインアルゴリズムを表わす関係式(6)および(7)にしたがって最適な分離フィルタが求められる。
h^(k+1)=h^(k)
+μ1[{1−φ(e(k))e(k)}h^(k)−φ(e(k))x(k)] ..(6)
a(k+1)=a(k)+μ2[1−φ(e(k))e(k)]a(k) ..(7)
関数φは確率変数eの密度関数px(x)により関係式(8)により定義される。
φ(x)=−(d/dx)logpx(x) ..(8)
さらに、周波数領域ICA法が提案されている(非特許文献2参照)。一般的に周波数領域では畳み込み混合が瞬時の混合とみなせるため、時間領域ICA法よりも収束性に優れている。この手法によれば、窓長Tおよびシフト長Uによる短時間フーリエ解析が実行されることにより、時間周波数領域での信号が得られる。元信号x(t)および観測信号y(t)のそれぞれはフレームfおよび周波数ωを変数とする関数X(ω,f)およびY(ω,f)のそれぞれにより表現される。観測信号ベクトルY(ω,f)=t(Y(ω,f),X(ω,f))の分離過程は、推定された元信号ベクトルY^(ω,f)=t(E(ω,f),X(ω,f))を用いて関係式(9)により表現される。
Y^(ω,f)=W(ω)Y(ω,f), W21(ω)=0,W22(ω)=1 ..(9)
分離行列の学習は周波数ごとに独立に行われる。学習は非ホロノミック拘束適用によるKL情報量最小化に基づく関係式(10)により表わされる反復学習則にしたがって行われる(非特許文献3参照)。
(j+1)(ω)=W(j)(ω)−α{off-diag<φ(Y^)Y^H>}W(j)(ω) ..(10)
αは学習係数であり、(j)は更新回数であり、<・>は平均値であり、off−diagXは行列Xの対角要素を0に置換する演算を表わし、非線形関数φ(y)は関係式(11)により定義されている。
φ(yi)=tanh(|yi|)exp(iθ(yi)) ..(11)
また、既知音源から既知音源への伝達特性は定数で表わされるため、分離行列Wの第1行成分のみが更新される。
J.Yang et al., A New Adaptive Filter Algorithm for System Identification Using Independent Component Analysis, Proc. ICASSP2007, pp.1341-1344,2007 S.Myabe et al., Double-Talk Free Spoken Dialogue Interface Combining Sound Field Control with Semi-Blind Source Separation, Proc. ICASSP2006, pp.809-812,2006 Sawada et al., Polar Coordinate based Nonlinear Function for Frequency-Domain Blind Source Separation, IEICE Trans., Fundamentals, 3, E-86A, pp.505-510, 2003
しかし、従来の周波数領域ICA法には次のような問題点があった。第1の問題は残響に対応するために窓長Tを長く取る必要があり、その分だけ演算処理遅延および音源分離性能の低下を招くという点である。第2の問題点は窓長Tを環境に応じて変更する必要があり、他の雑音抑圧手法などの接続が煩雑になる点である。
そこで、本発明は、残響または反響の影響を軽減することにより音源分離精度の向上を図ることができるシステムを提供することを解決課題とする。
第1発明の音源分離システムは、環境に対して音響として出力される既知信号を保存する既知信号記憶手段と、マイクロホンと、前記マイクロホンからの出力信号を周波数変換することにより現在フレームの観測信号を生成する第1処理部と、現在および過去フレームの前記既知信号の合成信号として現在フレームの元信号が表現されている第1モデルと、前記元信号および未知信号を包含するように前記観測信号が表現されている第2モデルとにしたがって、前記第1処理部により生成された現在フレームの前記観測信号から前記元信号を除去することにより前記未知信号を抽出する第2処理部とを備えていることを特徴とする。
第1発明の音源分離システムによれば、第1モデルおよび第2モデルにしたがって観測信号から未知信号が抽出される。特に、第1モデルによれば、現在フレームの元信号が現在および過去フレームの既知信号の合成信号として表現されている。このため、窓長を変更させることなく、既知信号の残響または反響が観測信号に及ぼす影響を軽減しながら未知信号が抽出されうる。したがって、残響の影響を軽減するための演算処理負荷を軽減しながら、未知信号に基づく音源分離精度の向上を図ることができる。
第2発明の音源分離システムは、第1発明の音源分離システムにおいて、前記第2処理部が、周波数領域における前記既知信号の周波数成分およびその伝達関数の畳み込みにより前記元信号が表現されている前記第1モデルにしたがって、前記未知信号を抽出することを特徴とする。
第2発明の音源分離システムによれば、現在フレームの元信号が周波数領域における既知信号の周波数成分およびその伝達関数の畳み込みにより表現されている。このため、窓長を変更させることなく、元信号の残響または反響が観測信号に及ぼす影響を軽減しながら未知信号が抽出されうる。したがって、残響の影響を軽減するための演算処理負荷を軽減しながら、未知信号に基づく音源分離精度の向上を図ることができる。
第3発明の音源分離システムは、第1発明の音源分離システムにおいて、前記第2処理部が、適応的に分離フィルタを設定する前記第2モデルにしたがって、前記未知信号を抽出することを特徴とする。
第3発明の音源分離システムによれば、第2モデルにおいて適応的に分離フィルタが設定されるので、窓長を変更させることなく、元信号の残響または反響が観測信号に及ぼす影響を軽減しながら未知信号が抽出されうる。したがって、残響の影響を軽減するための演算処理負荷を軽減しながら、未知信号に基づく音源分離精度の向上を図ることができる。
本発明の音源分離システムの実施形態について図面を用いて説明する。
図1に示されている音源分離システムはマイクロホンMと、スピーカSと、電子制御ユニット(CPU,ROM,RAM/O回路、A/D変換回路等の電子回路などにより構成されている。)10とにより構成されている。電子制御ユニット10は第1処理部11と、第2処理部12と、第1モデル格納部101と、第2モデル格納部102と、自発話格納部104とを備えている。各処理部はたとえば演算処理回路、または、メモリと、メモリからプログラムを読み出してそのプログラムにしたがって担当する演算処理を実行する演算処理装置(CPU)とにより構成されている。
第1処理部11はマイクロホンMからの出力信号を周波数変換することにより現在のフレームfの観測信号(周波数ω成分)Y(ω,f)を生成する。第2処理部12は第1処理部11により生成された現在フレームの観測信号Y(ω,f)に基づき、第1モデル格納部101に格納されている第1モデルと、第2モデル格納部102に格納されている第2モデルとにしたがって未知信号E(ω,f)を抽出する。電子制御ユニット10は自発話格納部(既知信号記憶手段)104に格納されている既知信号をスピーカSから音声または音響として出力させる。
マイクロホンMはたとえば図2に示されているように電子制御ユニット10が搭載されているロボットRの頭部P1に配置されている。なお、音源分離システムはロボットRのほか、車両(四輪自動車)、複数の音源が存在する環境に接する任意の機械や装置に搭載されうる。また、マイクロホンMの数および配置は任意に変更されうる。ロボットRは脚式移動ロボットであり、人間と同様に基体P0と、基体P0の上方に配置された頭部P1と、基体P0の上部に上部両側から延設された左右の腕体P2と、左右の腕体P2のそれぞれの先端に連結されている手部P3と、基体P0の下部から下方に延設された左右の脚体P4と、左右の脚体P4のそれぞれに連結されている足部P5とを備えている。基体P0はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部P1は基体P0に対してヨー軸回りに回動する等、動くことができる。腕体P2は肩関節機構、肘関節機構および手根関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している、手部P3は、手掌部から延設され、人間の手の親指、人差指、中指、薬指および小指のそれぞれに相当する5つの指機構を備え、物体の把持動作等が可能に構成されている。脚体P4は股関節機構、膝関節機構および足関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している。ロボットRは音源分離システムによる音源分離結果に基づき、左右の脚体P4を動かして移動する等、適当な動作をすることができる。
前記構成の音源分離システムの機能について説明する。まず第1処理部11によりマイクロホンMからの出力信号が取得される(図3/S002)。また、第1処理部11によりこの出力信号がA/D変換された上で周波数変換されることにより、フレームfの観測信号Y(ω,f)が生成される(図3/S004)。
続いて第2処理部12により、第1モデルおよび第2モデルにしたがって、第1処理部11により生成された観測信号Y(ω,f)から元信号X(ω,f)が分離されることにより、未知信号E(ω,f)が抽出される(図3/S006)。
第1モデルによれば、現在および過去の所定数Mのフレームにわたる元信号を包含するように現在フレームfの元信号X(ω,f)が表現されている。第1モデルによれば、次フレームに入り込んだ反響音が時間周波数領域における畳み込みにより表現されている。具体的には、あるフレームfの周波数成分がMフレームにわたって観測信号の周波数成分に影響を及ぼすという仮定のもと、元信号X(ω,f)が、遅延した既知信号(具体的には元信号の遅延mの周波数成分)S(ω,f−m+1)およびその伝達関数A(ω,m)の畳み込みとして関係式(12)により表現されている。
X(ω,f)=Σm=1-MA(ω,m)S(ω,f−m+1) ..(12)
図5には当該畳み込みの模式図が示されている。畳み込まれた未知信号E(ω,f)と、通常の伝達過程を経た既知音(自発話信号)S(ω,f)との混合が観測音Y(ω,f)であるとみなされる。これは、一様DTF(Discrete Fourier Transform)フィルタバンクによる一種のマルチレート処理に相当する。
第2モデルによれば、適応フィルタ(分離フィルタ)h^を経由した元信号X(ω,f)と観測信号Y(ω,f)とを包含するように未知信号E(ω,f)が表現されている。具体的には、第2モデルによる分離過程は、元信号ベクトルX、未知信号E、観測音スペクトルYおよび分離フィルタh^およびcに基づき、関係式(13)〜(15)にしたがってベクトル表現されている。
t(E(ω,f), tX(ω,f))=C t(Y(ω,f),tX(ω,f)),
11=c(ω),Cii=1(i=2..M+1),
1j=hj-1^(j=2..M+1),Cki=0(k≠i) ..(13)
X(ω,f)=t(X(ω,f),X(ω,f−1),..X(ω,f−M+1)) ..(14)
h^(ω)=(h1^(ω),h2^(ω)..hM^(ω)) ..(15)
この表現は複素数が用いられるほかは時間領域ICA法と同一であるが、収束性の観点から周波数領域ICA法においてよく利用されている関係式(11)が用いられた。これによりフィルタh^の更新は関係式(16)により表現される。
h^(f+1)=h^(f)−μ1φ(E(f))X*(f) ..(16)
*(f)はX(f)の複素共役を表わしている。なお、周波数インデックスωは省略されている。
分離フィルタcに関する更新がないため、分離フィルタcは分離行列の初期値c0のままである。初期値c0は誤差Eの対数密度関数の導関数φ(x)に対して適切に定められるスケーリング係数である。関係式(16)から明らかなようにフィルタ更新時に誤差(未知信号)Eが適切にスケーリングされていれば、その学習は阻害されない。このため、スケーリング係数aがなんらかの方法にしたがって求められ、これを用いて関数φ(aE)が適用されれば、分離行列の初期値c0が1であっても差し支えない。スケーリング係数の学習則は時間領域ICA法と同様の関係式(7)が用いられればよい。これは、関係式(7)によれば実質的にeを正規化するスケーリング係数が求められているからである。時間領域ICA法におけるeはaEに相当する。
以上から第2モデルによる学習則は関係式(17)〜(19)により表現される。
E(f)=Y(f)−tX(f)h^(f) ..(17)
h^(f+1)=h^(f)+μ1φ(a(f)E(f))X*(f) ..(18)
a(f+1)=a(f)
+μ2[1−φ(a(k)E(k))a*(f)E*(f)]a(f) ..(19)
非線形関数φ(x)がtanh(|x|)exp(iθ(x))等、r(|x|,θ((x))exp(iθ(x))という形式を満たしていればaは実数となる。
前記機能を発揮する音源分離システムによれば、第1モデルおよび第2モデルにしたがって、観測信号Y(ω,f)から未知信号E(ω,f)が抽出される(図3/S002〜S006参照)。第1モデルによれば、現在フレームfの観測信号Y(ω,f)が現在および過去の所定数Mのフレームにわたる元信号X(ω,f−m+1)(m=1〜M)の合成信号として表現されている(関係式(12)参照)。また、第2モデルにおいて適応的に分離フィルタh^が設定される(関係式(16)〜(19)参照)。このため、窓長を変更させることなく、元信号(ω,f)の残響または反響が観測信号Y(ω,f)に及ぼす影響を軽減しながら未知信号E(ω,f)が抽出されうる。したがって、既知信号S(ω,f)の残響の影響を軽減するための演算処理負荷を軽減しながら、未知信号E(ω,f)に基づく音源分離精度の向上を図ることができる。
ここで、関係式(3)および(18)を比較する。適用領域を除けば、本願発明の拡張周波数領域ICA法はスケーリング係数aおよび関数φによりLMS(NLMS)法における推定フィルタと相違している。簡単のため、定義域が時間領域(実数)であり、ノイズ(未知信号)が標準正規分布にしたがうと仮定すると、関数φは関係式(20)により表わされる。
φ(x)=−(d/dx)log(exp(-x2/2))/(2π)1/2=x ..(20)
これは、関係式(18)右辺第2項に含まれるφ(aE(t))X(t)がaE(t)X(t)と表現されることを意味するので、関係式(18)は関係式(3)と等価になる。これは、関係式(3)において学習係数が適切に定められればLMS法でもDouble-Talk状態においてフィルタ更新が可能であることを意味する。換言すると、ノイズがガウス分布にしたがっており、かつ、学習係数がノイズのパワーに応じて適切に設定されている場合、LMS法はICA法と等価な動作をする。
図6にLMS法およびICA法のそれぞれによる分離例が示されている。観測音は前半では自発話のみである一方、後半では自発話と相手発話とが混じっている。LMS法によればノイズがない区間では拘束に収束しているが、ノイズがあるDouble-Talk状態では不安定な動作を示している。これに対して、ICA法によれば収束は遅いもののノイズがある区間でも安定である。
続いて、A.時間領域NLMS法、B.時間領域ICA法、C.周波数領域ICA法およびD.本願発明の手法のそれぞれの連続音源分離性能の実験結果について説明する。
実験に際して図7に示されているように4.2m×7mの広さの部屋(残響時間(RT60)が約0.3秒)において、サンプリングレート16kHzでインパルス応答が録音された。自発話に対応するスピーカSはマイク付近に設置され、マイクMに対するスピーカSが向く方向を正面方向とした。相手発話に対応するスピーカはマイクに向けて設置された。マイクMとスピーカとの距離は1.5mとされた。録音されたインパルス応答を畳み込んだASJ−JNASの評価用データセット200文(男女各100文)が評価用データとして用いられた。この200文を相手発話とし、自発話にはその中の一文(約7秒)を用いた。混合されたデータは、相手発話および自発話の始まりは揃っているが終わりは揃っていない。
音源分離エンジンとしてJuliusが使用された(1216856767017_0参照)。クリーン音声200話者(男性100人、女性100人)分のASJ−JNAS新聞記事読み上げ、および、音素バランス文計150文で学習したトライフォン(3状態8混合のHMM)が音響モデルとして使用された。MFCC(12+Δ12+ΔPow)25次元が音源分離特徴量として用いられた。認識に用いられた音声は学習データに含まれていない。
実験条件を一致させるため、時間領域におけるフィルタ長が約0.128秒に設定された。これにより、手法Aおよび手法Bのフィルタ長は2048(約0.128秒)となる。手法Dでは窓長Tが1024(0.064秒)に設定され、シフト長Uが128(約0.008秒)に設定され、かつ、遅延フレーム数Mが8に設定されることにより手法Aおよび手法Bと条件を一致させた。手法Cでは窓長Tが2048(0.128秒)に設定され、シフト長Uが手法Dと同様に128(0.008秒)に設定された。フィルタの初期値はすべて0に設定され、オンライン処理で分離が実行された。
学習係数の値としては試行錯誤により認識率が最高になる値が選択された。学習係数は収束性および分離性能を左右する因子であるが、最適値から大きく外れていない限り性能を著しく変化させることはない。
図8に認識結果である単語認識率が示されている。「観測音」は適応フィルタがない状態、すなわち、なんら処理が施されない状態での認識結果を表わしている。「単独発話」は自発話の混合がない状態、すなわち、ノイズがない状態での認識結果を表わしている。クリーン音声の一般的な認識率は約90%であることから、図8から明らかなように部屋環境の影響によって約20%も認識率が低下している。手法Aでは観測音と比較して認識率が0.87%だけ低下している。これは、自発話と相手発話とが混在するDouble-Talk状態では手法Aの動作が不安定になることを反映しているためであると推察される。手法Bでは観測音と比較して認識率が4.21%だけ上昇し、手法Cでは観測音と比較して認識率が7.55%だけ上昇している。これは、時間領域で処理が実行される手法Bよりも、周波数領域で処理が実行される結果として周波数ごとの特性が反映される手法Cのほうがよい結果が得られることを表わしている。手法Dでは観測音と比較して認識率が9.61%だけ上昇しており、従来手法A〜Cよりも有効な音源分離手法であることが確認された。
本発明の音源分離システムの構成説明図 本発明の音源分離システムのロボットへの搭載例示図 本発明の音源分離システムの機能を示すフローチャート 適応フィルタの構成に関する説明図 時間周波数領域における畳み込みに関する説明図 LMS法およびICA法による相手発話の分離結果に関する説明図 実験状況に関する説明図 音源分離結果としての各手法による単語正解率の比較説明図
符号の説明
10‥電子制御ユニット、11‥第1処理部、12‥第2処理部、S‥スピーカ、M‥マイクロホン

Claims (3)

  1. 環境に対して音響として出力される既知信号を保存する既知信号記憶手段と、
    マイクロホンと、
    前記マイクロホンからの出力信号を周波数変換することにより現在のフレームの観測信号を生成する第1処理部と、
    現在および過去フレームの前記既知信号の合成信号として現在フレームの元信号が表現されている第1モデルと、前記元信号および未知信号を包含するように前記観測信号が表現されている第2モデルとにしたがって、前記第1処理部により生成された現在フレームの前記観測信号から前記元信号を除去することにより前記未知信号を抽出する第2処理部とを備えていることを特徴とする音源分離システム。
  2. 請求項1記載の音源分離システムにおいて、
    前記第2処理部が、周波数領域における前記既知信号の周波数成分およびその伝達関数の畳み込みにより前記元信号が表現されている前記第1モデルにしたがって、前記未知信号を抽出することを特徴とする音源分離システム。
  3. 請求項1記載の音源分離システムにおいて、
    前記第2処理部が、適応的に分離フィルタを設定する前記第2モデルにしたがって、前記未知信号を抽出することを特徴とする音源分離システム。
JP2008191382A 2007-08-09 2008-07-24 音源分離システム Active JP5178370B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/187,684 US7987090B2 (en) 2007-08-09 2008-08-07 Sound-source separation system
EP08252663A EP2023343A1 (en) 2007-08-09 2008-08-11 Sound-source separation system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US95488907P 2007-08-09 2007-08-09
US60/954889 2007-08-09

Publications (2)

Publication Number Publication Date
JP2009042754A true JP2009042754A (ja) 2009-02-26
JP5178370B2 JP5178370B2 (ja) 2013-04-10

Family

ID=40443489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008191382A Active JP5178370B2 (ja) 2007-08-09 2008-07-24 音源分離システム

Country Status (1)

Country Link
JP (1) JP5178370B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
US8416642B2 (en) 2009-11-30 2013-04-09 Korea Institute Of Science And Technology Signal processing apparatus and method for removing reflected wave generated by robot platform
JP2017021385A (ja) * 2012-06-18 2017-01-26 ゴーアテック インコーポレイテッドGoertek Inc シングルチャンネル音声残響除去方法及びその装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200600586001; 大田健紘 他: '"既知雑音除去法の有効性に関する検討"' 電子情報通信学会技術研究報告 Vol.106,No.78, 20060519, p.7-12 *
CSNJ200710050286; 武田龍 他: '"ICAとMFTに基づく音声認識におけるSoft Maskを用いた性能 評価"' 情報処理学会第69回全国大会予稿集(2) , 20070306, p.2-585-2-586 *
JPN6012014876; 大田健紘 他: '"既知雑音除去法の有効性に関する検討"' 電子情報通信学会技術研究報告 Vol.106,No.78, 20060519, p.7-12 *
JPN6012014878; 武田龍 他: '"ICAとMFTに基づく音声認識におけるSoft Maskを用いた性能 評価"' 情報処理学会第69回全国大会予稿集(2) , 20070306, p.2-585-2-586 *
JPN6012014878; 武田龍 他: '"ICAとMFTに基づく音声認識におけるSoft Maskを用いた性能評価"' 情報処理学会第69回全国大会予稿集(2) , 20070306, p.2-585-2-586 *
JPN6012014881; Shigeki Miyabe et al.: '"Double-talk Free Spoken Dialogue Interface Combining Sound Field Control with Semi' Proc. of IEEE ICASSP2006 Vol.1, 20060514, p.I-809-I-812 *
JPN6012014881; Shigeki Miyabe et al.: '"Double-talk Free Spoken Dialogue Interface Combining Sound Field Control with Semi-blind Source Sep' Proc. of IEEE ICASSP2006 Vol.1, 20060514, p.I-809-I-812 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
US8416642B2 (en) 2009-11-30 2013-04-09 Korea Institute Of Science And Technology Signal processing apparatus and method for removing reflected wave generated by robot platform
JP2017021385A (ja) * 2012-06-18 2017-01-26 ゴーアテック インコーポレイテッドGoertek Inc シングルチャンネル音声残響除去方法及びその装置

Also Published As

Publication number Publication date
JP5178370B2 (ja) 2013-04-10

Similar Documents

Publication Publication Date Title
US7987090B2 (en) Sound-source separation system
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP5041934B2 (ja) ロボット
Pascual et al. Towards generalized speech enhancement with generative adversarial networks
US20230298593A1 (en) Method and apparatus for real-time sound enhancement
Sivaraman et al. Personalized speech enhancement through self-supervised data augmentation and purification
KR102499299B1 (ko) 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법
Abdullah et al. Towards more efficient DNN-based speech enhancement using quantized correlation mask
Saleem et al. Multi-objective long-short term memory recurrent neural networks for speech enhancement
JP5178370B2 (ja) 音源分離システム
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP4444345B2 (ja) 音源分離システム
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
Tamura et al. Improvements to the noise reduction neural network
Jaroslavceva et al. Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction
JP4275353B2 (ja) 音声認識装置及び音声認識方法
Kanda et al. Sequence distillation for purely sequence trained acoustic models
Raikar et al. Single channel joint speech dereverberation and denoising using deep priors
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
CN111933172A (zh) 人声分离提取方法方法、装置、计算机设备及存储介质
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130108

R150 Certificate of patent or registration of utility model

Ref document number: 5178370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150