JP2005091732A - ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法 - Google Patents
ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法 Download PDFInfo
- Publication number
- JP2005091732A JP2005091732A JP2003324733A JP2003324733A JP2005091732A JP 2005091732 A JP2005091732 A JP 2005091732A JP 2003324733 A JP2003324733 A JP 2003324733A JP 2003324733 A JP2003324733 A JP 2003324733A JP 2005091732 A JP2005091732 A JP 2005091732A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- shape
- target speech
- amplitude distribution
- spectra
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 250
- 238000009826 distribution Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000000926 separation method Methods 0.000 title claims abstract description 44
- 238000012880 independent component analysis Methods 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 230000009466 transformation Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- DXHYQIJBUNRPJT-UHFFFAOYSA-N parsalmide Chemical compound CCCCNC(=O)C1=CC(N)=CC=C1OCC#C DXHYQIJBUNRPJT-UHFFFAOYSA-N 0.000 description 1
- 229950001060 parsalmide Drugs 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】 音源11、12から発信された信号をマイク13、14で受信して混合信号を形成する第1工程と、各混合信号を周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号U1 、U2 に分解し各音源11、12から各マイク13、14までの各伝達経路特性に基づいてスペクトルv11、v12、v21、v22で構成される分割スペクトルを形成する第2工程と、各スペクトルv11、v12、v21、v22に対して、伝達特性を含む各スペクトルv11、v12、v21、v22の振幅分布の形状に基づいた判定基準を適用して目的音声に対応する推定スペクトルZ* を抽出し、推定スペクトルZ* から目的音声の復元スペクトル群を生成して目的音声を復元する第3工程とを有する。
【選択図】 図2
Description
この問題を解決するために、例えば分割スペクトルという概念を導入して、スケーリングの不定性を解決すると共に、各周波数で分割スペクトル系列の包絡を求めて、その類似度に基づく成分置換の解消法、すなわち包絡法が提案されている(例えば、非特許文献3参照)。
本発明はかかる事情に鑑みてなされたもので、独立成分解析法から得られる分割スペクトルの成分置換の不定性を解消しながら目的音声の推定スペクトルを抽出し目的音声を復元することが可能なブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を提供することを目的とする。
ここで、ブラインド信号分離とは、複数の音源が混じり合った混合信号から元々の信号源を分離・復元する技術である。
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号U1 、U2 に分解して、前記各音源から前記第1及び第2のマイクまでの各伝達経路特性に基づいて、前記分離信号U1 から生成され前記第1のマイクで受信された複数のスペクトルv11及び前記第2のマイクで受信された複数のスペクトルv12と、前記分離信号U2 から生成され前記第1のマイクで受信された複数のスペクトルv21及び前記第2のマイクで受信された複数のスペクトルv22とで構成される分割スペクトルを形成する第2工程と、
前記各スペクトルv11、v12、v21、v22に対して、前記第1及び第2のマイクと前記各音源との間の伝達特性を含む前記各スペクトルv11、v12、v21、v22の振幅分布の形状に基づいた判定基準を適用して、前記目的音声に対応する複数の推定スペクトルZ* 及び前記雑音に対応する複数の推定スペクトルZをそれぞれ抽出し、該各推定スペクトルZ* から前記目的音声の復元スペクトル群を生成して、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第3工程とを有する。
目的音声と雑音は、一般に統計的に独立であると考えられる。このため、混合信号を、独立した成分に分解する統計的手法、例えば、独立成分解析法を採用して、2つの独立した成分に分離すると、得られた一方の成分が目的音声に、他方の成分が雑音に対応する。
なお、混合信号は、目的音声と雑音が反射や到達時間の遅れを伴った状態で畳み込まれて形成されるので、混合信号を時間領域から周波数領域にフーリエ変換すれば、瞬時混合のときの問題と同様に扱える。従って、周波数領域ICAにより目的音声信号と雑音信号に相当する分離信号U1 、U2 に分離する。
このことは、周波数領域でも成立すると考えられ、各周波数において音声に対応する分割スペクトル系列と雑音に対応する分割スペクトル系列についてその振幅分布の形状を求めると、音声に対応する分割スペクトル系列の形状はスーパーガウシアン分布に類似した形状を示し、雑音に対応する分割スペクトル系列の振幅分布の形状は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが予想される。
従って、スペクトルv11とスペクトルv22(あるいはスペクトルv12とスペクトルv21)の振幅分布の形状を求め、形状がスーパーガウシアン分布に類似している方のスペクトルを目的音声に対応する推定スペクトルZ* とし、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示す方のスペクトルを雑音に対応する推定スペクトルZとして抽出することができる。
その結果、抽出した各推定スペクトルZ* から目的音声の復元スペクトル群を生成し、周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。
ここで、各スペクトルv11、v12、v21、v22の振幅分布は各振幅値が出現する際の確率密度関数に対応しており、振幅分布の形状は各振幅値の不確定性に対応していると考えることができる。そこで、振幅分布の形状を定量的に評価する方法として、例えば、エントロピーHを使用することができる。この場合、スーパーガウシアン分布に類似している形状のエントロピーHは、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状のエントロピーHより小さくなる。従って、音声に対応するスペクトルのエントロピーHは小さくなり、雑音に対応するスペクトルのエントロピーHは大きくなる。
なお、形状の定量的な評価方法として尖度(kurtsis)を使用することもできるが、異常値に対する評価の安定性が劣るという問題があり好ましくない。
複素数で表示された各スペクトルv11、v12、v21、v22の実部と虚部の振幅分布は、いずれも類似の形状を有しているため、実部あるいは虚部のどちらかの振幅分布に対してエントロピーHを求めればよい。ここで、各スペクトルv11、v12、v21、v22の中で音声や雑音の実体部分(信号の大きさ)に対応しているのは実部であるので、実部振幅分布に対してエントロピーHを求めることが好ましい。
絶対値の変動波形を対象にすることで、波形の変動領域を0以上の領域に限定することができ、エントロピーHを算出する際の計算量を大幅に減少させることができる。
(1)前記ΔHが負の場合、前記推定スペクトルZ* として前記スペクトルv11を抽出し、
(2)前記ΔHが正の場合、前記推定スペクトルZ* として前記スペクトルv21を抽出するように設定することができる。
従って、スペクトルv11のエントロピーH11を一方の音源に対するエントロピー、スペクトルv22のH22を他方の音源に対するエントロピーとして採用することができる。そして、スペクトルv11のエントロピーH11とスペクトルv22のエントロピーH22をそれぞれ算出した際、音声に対応するスペクトルのエントロピーHは小さく、雑音に対応するスペクトルのエントロピーHは大きくなる。このことから、ΔHが負の場合はH11<H22なので、推定スペクトルZ* としてスペクトルv11を抽出する。また、ΔHが正の場合はH11>H22なので、推定スペクトルZ* としてスペクトルv21を抽出する。
その結果、雑音環境下での音声認識として、例えば、OA分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。
図1は本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図2は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図3(A)は音声に対応する分割スペクトルの実部、(B)は雑音に対応する分割スペクトルの実部、(C)は音声に対応する分割スペクトルの実部の振幅分布、(D)は雑音に対応する分割スペクトルの実部の振幅分布の説明図である。
第1及び第2の増幅器15、16としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。
また、復元装置本体17は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法の一例であるFastICA法により2つの分離信号U1 、U2 に分解する分離信号作成演算回路と、音源11及び音源12から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号U1 から第1のマイク13で受信された複数のスペクトルv11と第2のマイク14で受信された複数のスペクトルv12を生成し、分離信号U2 から第1のマイク13で受信された複数のスペクトルv21と第2のマイク14で受信された複数のスペクトルv22を生成して分割スペクトルを形成する分割スペクトル生成演算回路を備えた分割スペクトル生成器22を有している。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにA/D変換器20、21を取付けることにより、復元装置本体17を一括して構成することができる。
また、復元信号増幅器18は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ19も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。
また、本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法は、各混合信号x1 (t)、x2 (t)を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号U1 、U2 に分解して、各音源11、12から前記第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号U1 から生成される第1のマイク13で受信された複数のスペクトルv11及び第2のマイク14で受信された複数のスペクトルv12と、分離信号U2 から生成される第1のマイク13で受信された複数のスペクトルv21及び第2のマイク14で受信された複数のスペクトルv22とで構成される分割スペクトルを形成する第2工程を有している。
音源11から発信される信号s1 (t)と、音源12から発信される雑音信号s2 (t)は、一般に統計的に独立と考えることができる。そして、信号s1 (t)と信号s2 (t)を、異なる位置に設置した第1及び第2のマイク13、14で受信して得られる各混合信号x1 (t)、x2 (t)は、式(1)のように表記できる。
ここで、s(t)=[s1 (t),s2 (t)]T 、x(t)=[x1 (t),x2 (t)]T 、*は畳み込み記号、G(t)は各音源11、12から各マイク13、14までのそれぞれの伝達関数である。
(1)式のように、各音源11、12からの信号が畳み込まれて観測される場合、各混合信号x1 (t)、x2 (t)から、信号s1 (t)と信号s2 (t)を、時間領域で分離することは困難となる。そのため、混合信号x1 (t)、x2 (t)を式(2)のように短時間間隔(フレーム)、例えば数10msec程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。
このとき混合信号スペクトルx(ω,k)と、信号s1 (t)及び信号s2 (t)の各スペクトルは、周波数領域で式(3)のように関係づけられる。ここに、s(ω,k)はs(t)を窓掛けして離散フーリエ変換したもので、G(ω)はG(t)を離散してフーリエ変換して得られる複素定数行列である。
すなわち、混合信号スペクトルx(ω,k)と分離信号スペクトルU1 (ω,k)、U2 (ω,k)の間に、式(4)の関係が成立するような分離行列H(ω)を求めることにより、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルU1 (ω,k)、U2 (ω,k)を決定することができる。ここで、u(ω,k)=[U1 (ω,k),U2 (ω,k)]T である。
ここにQ(ω)は白色化行列、Pは各行と列の全ての要素が値1である1つの要素を除いて0である成分置換を表す行列、D(ω)=diag[d1 (ω),d2 (ω)]は振幅の曖昧さを表す対角行列である。
ここに、f(・・・)は式(6)中の非線型関数で、f′(・・・)はf(・・・)の微分、 ̄は共役、Κはフレームのサンプル数である。
このとき、分割スペクトルv1 (ω,k)=[v11(ω,k),v12(ω,k)]T 、v2 (ω,k)=[v21(ω,k),v22(ω,k)]T は、分離信号スペクトルUn (ω,k)から、式(11)、(12)に示すように、各ノードn(=1,2)で対になって生成されるスペクトルとして定義する。
なお、g11(ω)は音源11から第1のマイク13までの伝達関数、g21(ω)は音源11から第2のマイク14までの伝達関数、g12(ω)は音源12から第1のマイク13までの伝達関数、g22(ω)は音源12から第2のマイク14までの伝達関数を示す。
なお、ノード1で生成するスペクトルv11(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード1で生成するスペクトルv12(ω,k)は、音源12から発信された信号スペクトルs2 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。また、ノード2で生成するスペクトルv21(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第1のマイク13で観測したときのスペクトル、ノード2で生成するスペクトルv22(ω,k)は、音源11から発信された信号スペクトルs1 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。
図2に示す4つのスペクトルv11(ω,k)、v12(ω,k)、v21(ω,k)、v22(ω,k)は、成分置換の有無に依存して対応する音源と伝達経路は異なるが、それぞれどれか1つの音源とどれか1つの伝達経路の排他的な組み合わせで一意に決まることが判る。更に、分離信号スペクトルUn (ω,k)には、式(13)、(16)のように振幅の曖昧さが残るが、分割スペクトルには、式(14)、(15)及び式(17)、(18)に示すように、もはや振幅の曖昧さの問題は生じていない。
そこで、図3(A)に示す音声に対応する分割スペクトルの実部、(B)に示す雑音に対応する分割スペクトルの実部に対してそれぞれ振幅分布の形状を求めた。その結果を図3(C)及び(D)に示す。図3(C)、(D)から判るように、周波数領域においても、音声がスーパーガウシアン分布に類似した形状を示し、雑音は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが確認できた。
従って、各周波数においてスペクトルv11及びスペクトルv22の各実部の振幅分布を調べ、スーパーガウシアン分布に類似した形状を示すスペクトルを目的音声に対応する推定スペクトルZ* とし、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すスペクトルを雑音に対応する推定スペクトルZとして当てはめることができる。
逆に、ΔHが正の場合、成分置換が起きていると判断して目的音声に対応する推定スペクトルZ* としてスペクトルv21を割り当て、雑音に対応する推定スペクトルZとしてスペクトルv12を割り当てる。すなわち、[Z* ,Z]=[v21,v12]と成分置換を是正する変換を行って、第1チャネルから目的音声が出力されるようにする。
従って、第1チャネルから出力される各推定スペクトルZ* から目的音声の復元スペクトル群{y(ω,k)|k=0,1,・・・,K−1}を生成して、フレーム毎に逆離散フーリエ変換(フーリエ逆変換)して時間領域に戻して、それをすべてのフレームにわたって式(21)のように総和を取れば、目的音声音源の復元信号y(t)が得られる。
縦747cm、横628cm、高さ269cmで、残響時間が約400msecのオフィス及び約800msecの会議室において、2つのマイクを10cm隔てて設置し、2つのマイクを結ぶ直線と垂直な方向を0°として、一方のマイクから10°外向きの方向に150cm離したスピーカから騒音が流れる下で、他方のマイクから10°外向きに30cm離れたところで、話者に発話してもらった。
マイクで集音されたデータは、サンプリング周波数8000Hz、分解能16Bitで離散化し、フーリエ変換は、フレーム長を32msec、フレーム周期を8msec、窓関数をハミング窓として行った。
先ず、FastICAアルゴリズムで求めた分離信号U1 、U2 から得られるスペクトルv11、スペクトルv22について、各周波数で成分置換の有無が判定できる程良好に分離されているか否かを目視により調べた。
従って、これらの分離の悪い周波数は除外して、従来法の一例である包絡法及び位置情報法(ゴタンダ、ノブ、コヤ、カネダ、イシバシ、ハラタニ(H.Gotannda,K.Nobu,T.Koya,K.Kaneda,T.Ishibashi,N.Haratani)、”パーミュテイション コレクション アンド スピーチ イクストラクション ベイスド オン スプリット スペクトラム スルー ファストアイシーエイ(Permutation Correction And Speech Extraction Based On Split Spectram Through FastICA)”、プロシーディング オブ インターナショナル シンポジウム オン インディペンデント コンポーネント アナリシス アンド ブラインド シグナル セパレイション(Proc.International Symposium on Independent Component Analisis and Blind Signal Separation)、2003年4月1日、p379−384)と、本発明の方法による成分置換の是正能力をそれぞれ評価し比較した。
特に、本発明の方法では、残響に影響されることなく安定して99%以上の高い是正能力を示している。また、位置情報法の場合、残響時間が長くなるにつれて是正能力が低下することが読み取れる。この方法は、話者がマイクと10cm程度と近接している場合、話者音声がマイクに強く入るので、残響時間が400msec程度の部屋でも有効に機能するが、実施例1のように、話者とマイクとの距離を30cmと離した場合、残響やマイク配置が伝達関数gi j (ω)の値に大きく影響するようになって、是正能力が劣化すると考えられる。
更に、成分置換解消率が9割以上の結果について、波形的な違いを目視により調べると各方法で若干の差が認められ、聴感上では本発明の方法による復元音声が最も明瞭であった。
窓を閉めて、エアコンを運転し、またロック音楽を前方の2つと側部の2つのスピーカから流しながら高速走行(90〜100km/h)している車内で、助手席話者からの発話をその正面上部の35cm離れた話者用マイクと、これから窓側もしくは中央寄りに15cm離れた雑音用マイクで集音した。なお、雑音レベルは73dBであった。また、発話者や発話内容、マイク、分離アルゴリズム、サンプリング周波数等は実施例1と同様に設定した。
先ず、FastICAアルゴリズムで求めた分離信号U1 、U2 から得られるスペクトルv11、スペクトルv22について、各周波数で成分置換の有無が判定できる程良好に分離されているか否かを目視により調べた。その結果、分離が悪く判定不能と判断された周波数は20%に上がった。
これは、音楽が4方向のスピーカから流れてくることに加えて、エンジンやエアコンの音等のマイク数を上回る音源が混合されたことにより、分離性能が劣化したためと考えられる。従って、これらの分離の悪かった周波数は除外して、包絡法、位置情報法、及び本発明の方法による成分置換の是正能力を実施例1と同様の成分置換解消率で評価した。その結果を表2に示す。
例えば、第1チャネル(ノード1)から目的音声が出力されるようにしたが、ΔHが負の場合は[Z,Z* ]=[v22,v11]の変換を行ない、ΔHが正の場合は[Z,Z* ]=[v12,v21]の変換を行って、第2チャネル(ノード2)から目的音声が出力されるようにしてもよい。
また、エントロピーH11の代りにエントロピーH12、エントロピーH22の代りにエントロピーH21を使用してもよい。
更に、複素数で表示された各スペクトルv11、v12、v21、v22の実部振幅分布に対してエントロピーHを求めたが、虚部振幅分布に対してエントロピーHを求めてもよい。また、複素数で表示された各スペクトルv11、v12、v21、v22の絶対値に関する変動波形に対してエントロピーHを求めるようにしてもよい。
Claims (5)
- 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号U1 、U2 に分解して、前記各音源から前記第1及び第2のマイクまでの各伝達経路特性に基づいて、前記分離信号U1 から生成され前記第1のマイクで受信された複数のスペクトルv11及び前記第2のマイクで受信された複数のスペクトルv12と、前記分離信号U2 から生成され前記第1のマイクで受信された複数のスペクトルv21及び前記第2のマイクで受信された複数のスペクトルv22とで構成される分割スペクトルを形成する第2工程と、
前記各スペクトルv11、v12、v21、v22に対して、前記第1及び第2のマイクと前記各音源との間の伝達特性を含む前記各スペクトルv11、v12、v21、v22の振幅分布の形状に基づいた判定基準を適用して、前記目的音声に対応する複数の推定スペクトルZ* 及び前記雑音に対応する複数の推定スペクトルZをそれぞれ抽出し、該各推定スペクトルZ* から前記目的音声の復元スペクトル群を生成して、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第3工程とを有することを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。 - 請求項1記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記形状を前記各スペクトルv11、v12、v21、v22の振幅分布のエントロピーHで評価することを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
- 請求項2記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーHは前記各スペクトルv11、v12、v21、v22を複素数で表示した際の実部の振幅分布に対して求めることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
- 請求項2記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーHは前記各スペクトルv11、v12、v21、v22を複素数で表示した際の絶対値の変動波形に対して求めることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
- 請求項2及び3のいずれか1項に記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記判定基準は、前記スペクトルv11のエントロピーH11と前記スペクトルv22のエントロピーH22との差ΔH=H11−H22を演算して、
(1)前記ΔHが負の場合、前記推定スペクトルZ* として前記スペクトルv11を抽出し、
(2)前記ΔHが正の場合、前記推定スペクトルZ* として前記スペクトルv21を抽出するように設定されていることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003324733A JP4496379B2 (ja) | 2003-09-17 | 2003-09-17 | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 |
US10/572,427 US7562013B2 (en) | 2003-09-17 | 2004-08-31 | Method for recovering target speech based on amplitude distributions of separated signals |
PCT/JP2004/012898 WO2005029467A1 (en) | 2003-09-17 | 2004-08-31 | A method for recovering target speech based on amplitude distributions of separated signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003324733A JP4496379B2 (ja) | 2003-09-17 | 2003-09-17 | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005091732A true JP2005091732A (ja) | 2005-04-07 |
JP4496379B2 JP4496379B2 (ja) | 2010-07-07 |
Family
ID=34372753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003324733A Expired - Fee Related JP4496379B2 (ja) | 2003-09-17 | 2003-09-17 | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7562013B2 (ja) |
JP (1) | JP4496379B2 (ja) |
WO (1) | WO2005029467A1 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193035A (ja) * | 2006-01-18 | 2007-08-02 | Sony Corp | 音声信号分離装置及び方法 |
JP2008039694A (ja) * | 2006-08-09 | 2008-02-21 | Toshiba Corp | 信号数推定システム及び信号数推定方法 |
JP2009217063A (ja) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | 信号分離装置及び信号分離方法 |
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
KR101197407B1 (ko) | 2005-01-26 | 2012-11-05 | 소니 주식회사 | 음성 신호 분리 장치 및 방법 |
US9159335B2 (en) | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
JP2019200259A (ja) * | 2018-05-15 | 2019-11-21 | 角元 純一 | 音声と非音声の度合いの検出方法 |
JP2020060612A (ja) * | 2018-10-05 | 2020-04-16 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
ATE492875T1 (de) * | 2005-06-24 | 2011-01-15 | Univ Monash | Sprachanalysesystem |
CN101322183B (zh) * | 2006-02-16 | 2011-09-28 | 日本电信电话株式会社 | 信号失真消除装置、方法 |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
JP4867516B2 (ja) * | 2006-08-01 | 2012-02-01 | ヤマハ株式会社 | 音声会議システム |
KR100891666B1 (ko) | 2006-09-29 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
WO2008044901A1 (en) | 2006-10-12 | 2008-04-17 | Lg Electronics Inc., | Apparatus for processing a mix signal and method thereof |
KR101100221B1 (ko) | 2006-11-15 | 2011-12-28 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
KR101100222B1 (ko) | 2006-12-07 | 2011-12-28 | 엘지전자 주식회사 | 오디오 처리 방법 및 장치 |
WO2008069584A2 (en) | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
JP4950733B2 (ja) * | 2007-03-30 | 2012-06-13 | 株式会社メガチップス | 信号処理装置 |
US8249867B2 (en) * | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US8073634B2 (en) * | 2008-09-22 | 2011-12-06 | University Of Ottawa | Method to extract target signals of a known type from raw data containing an unknown number of target signals, interference, and noise |
KR101233271B1 (ko) * | 2008-12-12 | 2013-02-14 | 신호준 | 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 |
JP5207479B2 (ja) * | 2009-05-19 | 2013-06-12 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
CN102447993A (zh) * | 2010-09-30 | 2012-05-09 | Nxp股份有限公司 | 声音场景操纵 |
FR2976111B1 (fr) * | 2011-06-01 | 2013-07-05 | Parrot | Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" |
CN102543098B (zh) * | 2012-02-01 | 2013-04-10 | 大连理工大学 | 一种分频段切换cmn非线性函数的频域语音盲分离方法 |
US10497381B2 (en) | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
EP2845191B1 (en) | 2012-05-04 | 2019-03-13 | Xmos Inc. | Systems and methods for source signal separation |
EP3042377B1 (en) | 2013-03-15 | 2023-01-11 | Xmos Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
CN113077808B (zh) * | 2021-03-22 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN113576527A (zh) * | 2021-08-27 | 2021-11-02 | 复旦大学 | 一种利用声控进行超声输入判断的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023776A (ja) | 2000-07-13 | 2002-01-25 | Univ Kinki | ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法 |
-
2003
- 2003-09-17 JP JP2003324733A patent/JP4496379B2/ja not_active Expired - Fee Related
-
2004
- 2004-08-31 US US10/572,427 patent/US7562013B2/en not_active Expired - Fee Related
- 2004-08-31 WO PCT/JP2004/012898 patent/WO2005029467A1/en active Application Filing
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101197407B1 (ko) | 2005-01-26 | 2012-11-05 | 소니 주식회사 | 음성 신호 분리 장치 및 방법 |
JP2007193035A (ja) * | 2006-01-18 | 2007-08-02 | Sony Corp | 音声信号分離装置及び方法 |
US7797153B2 (en) | 2006-01-18 | 2010-09-14 | Sony Corporation | Speech signal separation apparatus and method |
JP4556875B2 (ja) * | 2006-01-18 | 2010-10-06 | ソニー株式会社 | 音声信号分離装置及び方法 |
JP2008039694A (ja) * | 2006-08-09 | 2008-02-21 | Toshiba Corp | 信号数推定システム及び信号数推定方法 |
JP2009217063A (ja) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | 信号分離装置及び信号分離方法 |
US9159335B2 (en) | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
JP2019200259A (ja) * | 2018-05-15 | 2019-11-21 | 角元 純一 | 音声と非音声の度合いの検出方法 |
JP2020060612A (ja) * | 2018-10-05 | 2020-04-16 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4496379B2 (ja) | 2010-07-07 |
WO2005029467A1 (en) | 2005-03-31 |
US20070100615A1 (en) | 2007-05-03 |
US7562013B2 (en) | 2009-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4496379B2 (ja) | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 | |
US6266633B1 (en) | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus | |
EP1914727B1 (en) | Noise suppression methods and apparatuses | |
JP3950930B2 (ja) | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 | |
EP1891624B1 (en) | Multi-sensory speech enhancement using a speech-state model | |
JP6622159B2 (ja) | 信号処理システム、信号処理方法およびプログラム | |
JP6371516B2 (ja) | 音響信号処理装置および方法 | |
US7533017B2 (en) | Method for recovering target speech based on speech segment detection under a stationary noise | |
Liu et al. | VoiceFixer: Toward general speech restoration with neural vocoder | |
JP6482173B2 (ja) | 音響信号処理装置およびその方法 | |
KR102191736B1 (ko) | 인공신경망을 이용한 음성향상방법 및 장치 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4496378B2 (ja) | 定常雑音下における音声区間検出に基づく目的音声の復元方法 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
US6373953B1 (en) | Apparatus and method for De-esser using adaptive filtering algorithms | |
Al-Ali et al. | Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions | |
Kalamani et al. | Modified least mean square adaptive filter for speech enhancement | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
JP6524463B2 (ja) | 自動ミキシング装置およびプログラム | |
JP5113096B2 (ja) | 音源分離方法、装置およびプログラム | |
JP6519801B2 (ja) | 信号解析装置、方法、及びプログラム | |
KR101732399B1 (ko) | 스테레오 채널을 이용한 음향 검출 방법 | |
Ishibashi et al. | Blind source separation for human speeches based on orthogonalization of joint distribution of observed mixture signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060301 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060911 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100323 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |