JP3950930B2 - 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 - Google Patents
音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 Download PDFInfo
- Publication number
- JP3950930B2 JP3950930B2 JP2003117458A JP2003117458A JP3950930B2 JP 3950930 B2 JP3950930 B2 JP 3950930B2 JP 2003117458 A JP2003117458 A JP 2003117458A JP 2003117458 A JP2003117458 A JP 2003117458A JP 3950930 B2 JP3950930 B2 JP 3950930B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- difference
- sound source
- microphone
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 706
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000012880 independent component analysis Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims description 39
- 238000012546 transfer Methods 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000011084 recovery Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 16
- 238000000926 separation method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 20
- 238000006467 substitution reaction Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000007796 conventional method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
本発明は、実環境下で得られた目的音声を含んだ混合信号から、音源の位置情報を利用して目的音声を抽出し復元する方法に関する。
【0002】
【従来の技術】
近年、音声認識技術は著しく進展して、周囲に雑音のない理想的な環境下では認識能力の極めて高い音声認識エンジンが供給できるようになってきた。しかし、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの認識率を得ることは難しい。このような実環境下で音声認識エンジンのもつ本来の認識能力を引き出すには、雑音が混じった混合信号から雑音を除去して、目的音声(例えば、話者音声)のみを音声認識エンジンに受け渡すという前処理が不可欠と考えられる。
その観点から、近年、独立成分解析法(ICA法、Independent Component Analysis)が注目を集めている。この方法は、各音源が統計的に独立ならば、各音源や各音源からの伝達経路の特性が分からなくても、目的音声と雑音が重なり合って観測される混合信号より、目的音声を分離できる手法として期待されている。
【0003】
実際、目的音声と雑音が瞬時混合される場合、振幅の曖昧さ(原音源とは振幅が異なって出力されること)や成分置換(目的音声が雑音に、雑音が目的音声というように相互に入れ代わって出力されること)の問題を除けば、時間領域で各音源からの信号を完全に分離できる。しかし、実環境下では、個々のマイクで受信される音に時間差があったり、反射や残響の影響が畳み込まれて観測されるため、時間領域で目的音声を分離することは容易でない。
そのため、時間差や畳み込みがあるときの混合信号から目的音声と雑音を分離することは、例えば、混合信号を時間領域から周波数領域の信号(スペクトル)にフーリエ変換して行なわれている。
【0004】
【発明が解決しようとする課題】
しかしながら、周波数領域で処理を行なう場合でも、振幅の曖昧さや成分置換の問題は、個々の周波数で生じることになるため、これらの問題が未解決の状態で混合信号から目的音声と雑音の分離を行なって、周波数領域でフーリエ逆変換して時間領域に戻したとしても、瞬時混合のときと違って、目的音声として意味のある分離信号を得ることはできない。そのため、これまで幾つかの分離方法が提案されている。その中で、FastICA法は、混合信号を非ガウス性の高い順に逐次的に分離できるという特徴を持っている。この特徴は、雑音を除去して目的音声を抽出する場合、一般に音声は雑音に比べて非ガウス性が高いことから、最初に音声に対応した信号を分離して、次に雑音に対応した信号を分離することになって、結果的に成分置換の問題発生が緩和されることが期待できる。
【0005】
また、振幅の曖昧さについては、池田らが分割スペクトルの概念を導入して解決している(例えば、N.Murata,S.Ikeda and A.Ziehe,”A method of blind separation based on temporal structure of Signals”,Neurocomputing,vol.41,Issue 1−4,pp.1−24,2001、S.Ikeda and N.Murata,”A method of ICA in time frequency domain”,Proc. ICA ’99,pp.365−370,Aussois,France,Jan.1999)。
更に、成分置換については、類似度やある周波数での分離荷重の初期値として隣接する周波数の分離荷重の推定結果を利用する方法が提案されているが、本来、先験情報を利用しない立場からのアプローチであるため、実環境下での効果には限界がある。また、分離されて出力された信号のうち、どちらが目的音声に相当するのかは、事後に判断する必要があり即時選別に問題が生じている。
【0006】
本発明はかかる事情に鑑みてなされたもので、実環境下で得られた目的音声を含んだ混合信号から明瞭度の高い復元音声を得ることができると共に即時選別に優れた音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
前記目的に沿う第1の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号UA、UBに分解して、前記目的音声音源及び前記雑音源から前記第1及び第2のマイクまでの各伝達関数に基づいて、前記分離信号UAから前記第1のマイクで受信されたスペクトルvA1及び前記第2のマイクで受信されたスペクトルvA2で構成される分割スペクトルを、前記分離信号UBから前記第1のマイクで受信されたスペクトルvB1及び前記第2のマイクで受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、
前記各分割スペクトルに対して、前記第1及び第2のマイクと前記目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、該復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有し、
前記判定基準は、前記目的音声音源から前記第1及び第2のマイクまでの前記伝達関数のゲイン又は位相の差及び前記雑音源から前記第1及び第2のマイクまでの前記伝達関数のゲイン又は位相の差が、前記スペクトルv A1 とv A2 の差、若しくは前記スペクトルv B1 とv B2 の差に等しいことを利用して、前記目的音声音源及び雑音源を前記第1及び第2のマイクで受信した信号がそれぞれどの前記スペクトルv A1 、v A2 、v B1 、v B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されている。
【0008】
目的音声音源から発信される目的音声と、雑音源から発信される雑音を、目的音声音源及び雑音源に対してそれぞれ異なる位置に第1及び第2のマイクを設置して、各マイクで目的音声と雑音を受信する。このとき、各マイクでは、目的音声と雑音が重なり合って観測されるため、目的音声と雑音が混合した混合信号が形成される。
目的音声と雑音は、一般に統計的に独立であると考えられる。このため、混合信号を、独立した成分に分解する統計的手法、例えば、独立成分解析法を採用して、2つの独立した成分に分離すると、得られた一方の成分が目的音声に、他方の成分が雑音に対応する。
なお、混合信号は、目的音声と雑音が反射や到達時間の遅れを伴った状態で畳み込まれて形成されるので、混合信号を時間領域で2つの独立した成分に分離することは困難である。そのため、混合信号を時間領域から周波数領域にフーリエ変換して、独立成分解析法により目的音声信号と雑音信号に相当する分離信号UA 、UB に分離する。
【0009】
次いで、目的音声音源及び雑音源から第1及び第2のマイクまでの各伝達関数に基づいて、各分離信号UA、UBに対して、分離信号UAから、第1のマイクで受信された信号のスペクトルvA1及び第2のマイクで受信された信号のスペクトルvA2で構成される分割スペクトルを生成する。また、分離信号UBから、第1のマイクで受信された信号のスペクトルvB1及び第2のマイクで受信された信号のスペクトルvB2で構成される分割スペクトルを生成する。
【0010】
第1及び第2のマイクと目的音声音源及び雑音源との間の音の伝達特性、例えば、音の強弱を考慮すると、得られた各分割スペクトルvA1、vA2、vB1、vB2間に、スペクトル強度の差が生じる。従って、第1及び第2のマイクと目的音声音源との距離に明確な差を予め設けておくと、目的音声がどのマイクで受信されたか、すなわち、目的音声がどの分割スペクトルvA1、vA2、vB1、vB2に相当するかを判定することができる。このため、分割スペクトルvA1、vA2、vB1、vB2の中から判定された目的音声に相当するスペクトルを復元スペクトルとして抽出することができる。
そして、この復元スペクトルを周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。
その結果、復元された目的音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【0011】
第1の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第2のマイクよりも前記第1のマイクに接近し、前記雑音源が前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1と前記スペクトルvA2との差DA 、及び前記スペクトルvB1と前記スペクトルvB2との差DB をそれぞれ演算して、
(1)前記差DA が正かつ前記差DB が負のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(2)前記差DA が負かつ前記差DB が正のとき前記復元スペクトルとして前記スペクトルvB1を抽出するように設定されていることが好ましい。
【0012】
目的音声音源が第2のマイクよりも第1のマイクに接近して存在する場合、目的音声音源から第1のマイクまでの伝達関数のゲインは目的音声音源から第2のマイクまでの伝達関数のゲインより大きく、雑音源から第1のマイクまでの伝達関数のゲインは雑音源から第2のマイクまでの伝達関数のゲインより小さい。
そこで、差DA が正かつ差DB が負であれば、成分置換が発生していないと考えることができ、分割スペクトルvA1、vA2は、目的音声がそれぞれ第1のマイクと第2のマイクで受信された際の信号のスペクトルに相当し、分割スペクトルvB1、vB2は、雑音がそれぞれ第1のマイクと第2のマイクで受信された際の信号のスペクトルに相当する。従って、分割スペクトルvA1が復元スペクトルとなる。一方、差DA が負かつ差DB が正であれば、成分置換が発生していると考えることができ、分割スペクトルvA1、vA2は、雑音がそれぞれ第1のマイクと第2のマイクで受信された際の信号のスペクトルに相当し、分割スペクトルvB1、vB2は、目的音声がそれぞれ第1のマイクと第2のマイクで受信された際の信号のスペクトルに相当する。従って、分割スペクトルvB1が復元スペクトルとなる。これによって、復元された目的音声信号において、振幅の曖昧さの発生を防止すると共に、成分置換の発生をより厳密に防止することができる。
【0013】
第1の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DA を前記スペクトルvA1と前記スペクトルvA2との各絶対値の差として、前記差DB を前記スペクトルvB1と前記スペクトルvB2との各絶対値の差としてそれぞれ求めることが好ましい。
周波数領域における各成分毎に差DA 、差DB を求めることにより、各成分毎に成分置換の発生を厳密に判定することができる。
【0014】
第1の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DA を時間系列に対してそれぞれ演算した前記スペクトルvA1の強度の2乗和の平均値PA1と前記スペクトルvA2の強度の2乗和の平均値PA2との差として求め、前記差DB を時間系列に対してそれぞれ演算した前記スペクトルvB1の強度の2乗和の平均値PB1と前記スペクトルvB2の強度の2乗和の平均値PB2との差として求めることが好ましい。
目的音声信号成分、雑音信号成分の各強度として、時間系列に対して各信号成分の振幅の2乗和の平均値を採用することにより、成分置換の判定処理結果が正しいか否かの目視による照合作業が簡単になる。
【0015】
第1の発明係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第2のマイクよりも前記第1のマイクに接近し、前記雑音源が前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1の強度の2乗和の平均値PA1、前記スペクトルvA2の強度の2乗和の平均値PA2、前記スペクトルvB1の強度の2乗和の平均値PB1、及び前記スペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、前記平均値PA1と前記平均値PA2との差DA 、及び前記平均値PB1と前記平均値PB2との差DB をそれぞれ求めて、
(1)PA1+PA2>PB1+PB2かつ前記差DA が正のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(2)PA1+PA2>PB1+PB2かつ前記差DA が負のとき前記復元スペクトルとして前記スペクトルvB1を抽出し、
(3)PA1+PA2<PB1+PB2かつ前記差DB が負のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(4)PA1+PA2<PB1+PB2かつ前記差DB が正のとき前記復元スペクトルとして前記スペクトルvB1を抽出するように設定されていることが好ましい。
【0016】
目的音声が特定の周波数帯域でスペクトル強度が小さくなっている場合、周囲の暗騒音による成分が重畳して、スペクトル強度の大小関係が逆転することが考えられる。従って、各分割スペクトルvA1、vA2、vB1、vB2から復元スペクトルを抽出する際の判定基準として、スペクトル強度を採用している場合、スペクトル強度に逆転が発生すると、成分置換の問題が生じる。
このため、PA1+PA2とPB1+PB2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号UA から生成される分割スペクトルvA1、vA2と、分離信号UB から生成される分割スペクトルvB1、vB2のうちで、いずれが復元対象となる信号であるのかの判定を行なうことができる。
【0017】
ここで、目的音声音源が第2のマイクよりも第1のマイクに接近して存在する場合、PA1+PA2>PB1+PB2であれば、分離信号UA から生成される分割スペクトルvA1、vA2を意味のある信号と考えて、差DA が正のとき成分置換は生じていないと判断して、復元スペクトルとしてスペクトルvA1を抽出し、差DA が負のとき、成分置換が生じていると判断して、復元スペクトルとしてスペクトルvB1を抽出する。
一方、PA1+PA2<PB1+PB2であれば、分離信号UB から生成される分割スペクトルvB1、vB2を意味ある信号と考えて、差DB が負のとき成分置換が生じていると判断して、復元スペクトルとしてスペクトルvA1を抽出し、差DB が正のとき、成分置換が生じていないと判断して、復元スペクトルとしてスペクトルvB1を抽出する。
【0018】
前記目的に沿う第2の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、FastICA法により2つの分離信号UA、UBに分解して、前記各音源から前記第1及び第2のマイクまでの各伝達経路特性に基づいて、前記分離信号UAから前記第1のマイクで受信されたスペクトルvA1及び前記第2のマイクで受信されたスペクトルvA2で構成される分割スペクトルを、前記分離信号UBから前記第1のマイクで受信されたスペクトルvB1及び前記第2のマイクで受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、
前記各分割スペクトルに対して、該各分割スペクトルが前記第1及び第2のマイクで受信された信号と等価であることに基づく判定基準を適用し前記目的音声及び前記雑音に対応する各推定スペクトルを抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有し、
前記判定基準は、一方の音源から前記第1及び第2のマイクまでの伝達関数のゲイン又は位相の差及び他方の音源から前記第1及び第2のマイクまでの伝達関数のゲイン又は位相の差が、前記スペクトルv A1 とv A2 の差、若しくは前記スペクトルv B1 とv B2 の差に等しいことを利用して、前記2つの音源を前記第1及び第2のマイクで受信した信号がそれぞれどの前記スペクトルv A1 、v A2 、v B1 、v B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されている。
【0019】
FastICA法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことから、音源が目的音声、すなわち話者音声と雑音である場合、話者音声に対応する分割スペクトルは、分離信号UA に出力される頻度が高くなる。
ここで、第1及び第2のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルvA1、vA2、vB1、vB2間に、スペクトル強度の差が生じる。従って、第1及び第2のマイクと各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、2つの音源の信号がそれぞれどのスペクトルvA1、vA2、vB1、vB2に相当するかを判定することができる。このため、周波数毎に得られたスペクトルvA1、vA2、vB1、vB2の中から目的音声に相当するスペクトルを復元スペクトルとして抽出してすることができ、目的音声の復元スペクトル群を生成することができる。
そして、この復元スペクトル群を周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。その結果、復元された目的音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【0020】
第2の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記2つの音源の中で一方の音源は前記第2のマイクよりも前記第1のマイクに接近し、前記2つの音源の中で他方の音源は前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記フーリエ変換した際の各規格化周波数毎に、前記スペクトルvA1と前記スペクトルvA2との差DA 、及び前記スペクトルvB1と前記スペクトルvB2との差DB をそれぞれ演算し、
(1)前記差DA が正かつ前記差DB が負のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvA1を抽出し、
(2)前記差DA が負かつ前記差DB が正のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvB1を抽出して、抽出した該各推定スペクトルy1 を成分とする前記一方の音源の推定スペクトル群Y1 を形成し、
(3)前記差DA が負かつ前記差DB が正のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvA2を抽出し、
(4)前記差DA が正かつ前記差DB が負のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvB2を抽出して、抽出した該各推定スペクトルy2 を成分とする前記他方の音源の推定スペクトル群Y2 を形成すると共に、
前記差DA が正かつ前記差DB が負である場合の個数N+ 、及び前記差DA が負かつ前記差DB が正である場合の個数N- をそれぞれ求めて、
(a)前記個数N+ が前記個数N- より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y1 を抽出し、
(b)前記個数N- が前記個数N+ より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y2 を抽出するように設定されていることが好ましい。
【0021】
分割スペクトルは1つの音源に対して2つの候補となる推定値を有する。例えば、一方の音源に対して、成分置換がない場合はvA1とvA2が存在し、成分置換がある場合はvB1とvB2が存在する。ここで、成分置換がない場合は、一方の音源の推定スペクトルy1 としてスペクトルvA1を採用する。これは、一方の音源は第1のマイクに近接し、他方の音源は第2のマイクに近接しているので、スペクトルvA1はスペクトルvA2より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合は、一方の音源の推定スペクトルy1 としてスペクトルvB1をそれぞれ採用することができる。
同様に、他方の音源の推定スペクトルy2 は、成分置換がない場合はスペクトルvB2を採用し、成分置換がある場合はスペクトルvA2を採用する。
また、話者音声は、分離信号UA に出力される頻度が高いので、一方の音源が話者音声の音源であれば成分置換が発生しない頻度は高くなり、逆に他方の音源が話者音声の音源であれば成分置換が発生する頻度が高くなる。
従って、各推定スペクトル群Y1 、Y2 を生成する際に、成分置換の有無の頻度、すなわち個数N+ 、N- を求め、(a)個数N+ が個数N- より大きい場合、復元スペクトル群として推定スペクトル群Y1 を抽出し、(b)個数N- が個数N+ より大きい場合、復元スペクトル群として推定スペクトル群Y2 を抽出すると、復元スペクトル群から話者音声(目的音声)を復元することができる。
【0022】
第2の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DA を前記スペクトルvA1と前記スペクトルvA2との各絶対値の差として、前記差DB を前記スペクトルvB1と前記スペクトルvB2との各絶対値の差としてそれぞれ求めることが好ましい。
周波数領域における各成分毎に差DA 、差DB を求めることにより、各成分毎に成分置換の発生を厳密に判定することができる。その結果、各推定スペクトル群Y1 、Y2 を生成する際に、成分置換の有無の頻度を厳密に算出することができる。
【0023】
第2の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DA を時間系列に対してそれぞれ演算した前記スペクトルvA1の強度の2乗和の平均値PA1と前記スペクトルvA2の強度の2乗和の平均値PA2との差として求め、前記差DB を時間系列に対してそれぞれ演算した前記スペクトルvB1の強度の2乗和の平均値PB1と前記スペクトルvB2の強度の2乗和の平均値PB2との差として求めることが好ましい。
目的音声信号成分、雑音信号成分の各強度として、時間系列に対して各信号成分の振幅の2乗和の平均値を採用することにより、成分置換の判定処理結果が正しいか否かの目視による照合作業が簡単になる。その結果、各推定スペクトル群Y1 、Y2 を生成する際に、成分置換の有無の頻度の大小を容易に求めることができる。
【0024】
第2の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記2つの音源の中で一方の音源は前記第2のマイクよりも前記第1のマイクに接近し、前記2つの音源の中で他方の音源は前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1の強度の2乗和の平均値PA1、前記スペクトルvA2の強度の2乗和の平均値PA2、前記スペクトルvB1の強度の2乗和の平均値PB1、及び前記スペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、前記平均値PA1と前記平均値PA2との差DA 、及び前記平均値PB1と前記平均値PB2との差DB をそれぞれ求めて、PA1+PA2>PB1+PB2で、かつ
(1)前記差DA が正のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvA1を抽出し、
(2)前記差DA が負のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvB1を抽出して、該各推定スペクトルy1 を成分とする前記一方の音源の推定スペクトル群Y1 を形成し、
(3)前記差DA が負のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvA2を抽出し、
(4)前記差DA が正のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvB2を抽出して、該各推定スペクトルy2 から構成される前記他方の音源の推定スペクトル群Y2 を形成し、
PA1+PA2<PB1+PB2で、かつ
(5)前記差DB が負のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvA1を抽出し、
(6)前記差DB が正のとき前記一方の音源の推定スペクトルy1 として前記スペクトルvB1を抽出して、該各推定スペクトルy1 を成分とする前記一方の音源の推定スペクトル群Y1 を形成し、
(7)前記差DB が正のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvA2を抽出し、
(8)前記差DB が負のとき前記他方の音源の推定スペクトルy2 として前記スペクトルvB2を抽出して、該各推定スペクトルy2 から構成される前記他方の音源の推定スペクトル群Y2 を形成すると共に、前記差DA が正かつ前記差DB が負である場合の個数N+ 、及び前記差DA が負かつ前記差DB が正である場合の個数N- をそれぞれ求めて、
(a)前記個数N+ が前記個数N- より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y1 を抽出し、
(b)前記個数N- が前記個数N+ より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y2 を抽出するように設定されていることが好ましい。
【0025】
混合信号を時間領域から周波数領域にフーリエ変換した際に、特定の周波数帯域でスペクトル強度が小さくなっている場合、周囲の暗騒音による成分が重畳して、スペクトル強度の大小関係が逆転することが考えられる。従って、各分割スペクトルvA1、vA2、vB1、vB2から各推定スペクトルy1 、y2 を抽出する際の判定基準として、スペクトル強度を採用している場合、スペクトル強度に逆転が発生すると、成分置換の問題が生じる。
このため、PA1+PA2とPB1+PB2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号UA から生成される分割スペクトルvA1、vA2の中でいずれが推定スペクトルy1 となる信号であるのか、また、分離信号UB から生成される分割スペクトルvB1、vB2の中でいずれが推定スペクトルy2 となる信号であるのかの判定を行なうことができる。
【0026】
ここで、一方の音源が第2のマイクよりも第1のマイクに接近して存在する場合、PA1+PA2>PB1+PB2であれば、差DA が正のとき成分置換は生じていないと判断して、推定スペクトルy1 としてスペクトルvA1を抽出し、推定スペクトルy2 としてスペクトルvB2を抽出する。差DA が負のとき、成分置換が生じていると判断して、推定スペクトルy1 としてスペクトルvB1を抽出し、推定スペクトルy2 としてスペクトルvA2を抽出する。
一方、PA1+PA2<PB1+PB2であれば、差DB が負のとき成分置換が生じていると判断して、推定スペクトルy1 としてスペクトルvA1を抽出し、推定スペクトルy2 としてスペクトルvB2を抽出する。差DB が正のとき、成分置換が生じていると判断して、推定スペクトルy1 としてスペクトルvB1を抽出し、推定スペクトルy2 としてスペクトルvA2を抽出する。
そして、抽出した各推定スペクトルy1 、y2 から、それぞれ一方の音源の推定スペクトル群Y1 、及び他方の音源の推定スペクトル群Y2 をそれぞれ構成する。
【0027】
また、話者音声は、分離信号UA に出力される頻度が高いので、一方の音源が目的音声、すなわち話者音声の音源であれば成分置換が発生しない頻度は高くなり、逆に他方の音源が目的音声、すなわち話者音声の音源であれば成分置換が発生する頻度が高くなる。従って、各推定スペクトル群Y1 、Y2 を生成する際に、成分置換の有無の頻度、すなわち個数N+ 、N- を求め、(a)個数N+ が個数N- より大きい場合、復元スペクトル群として推定スペクトル群Y1 を抽出し、(b)個数N- が個数N+ より大きい場合、復元スペクトル群として推定スペクトル群Y2 を抽出すると、復元スペクトル群から目的音声(話者音声)を復元することができる。
【0028】
【発明の実施の形態】
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
ここに、図1は本発明の第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図2は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図3は本発明の第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図4は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図5は実施例1〜5における目的音声の復元方法の手順の概要を示す説明図、図6〜図8は実施例1〜5における目的音声の復元方法の各部分手順を示す説明図、図9は実施例1〜3における第1のマイク、第2のマイク、目的音声音源、及び雑音源の位置関係を示す説明図、図10(A)は実施例2における第1のマイクで受信された混合信号、(B)は実施例2における第2のマイクで受信された混合信号、(C)は実施例2で復元した目的音声の信号波形、(D)は実施例2で復元した雑音の信号波形、(E)は従来の復元方法を適用して復元した目的音声の信号波形、(F)は従来の復元方法を適用して復元した雑音の信号波形を示す説明図、図11(A)は実施例3における第1のマイクで受信された混合信号、(B)は実施例3における第2のマイクで受信された混合信号、(C)は実施例3で復元した目的音声の信号波形、(D)は実施例3で復元した雑音の信号波形、(E)は従来の復元方法を適用して復元した目的音声の信号波形、(F)は従来の復元方法を適用して復元した雑音の信号波形を示す説明図、図12は実施例4、5における第1のマイク、第2のマイク、及び各音源の位置関係を示す説明図、図13(A)は実施例5における第1のマイクで受信された混合信号、(B)は実施例5における第2のマイクで受信された混合信号、(C)、(D)は実施例5で復元した各音源の信号波形、(E)、(F)は従来の復元方法を適用して復元した各音源の信号波形を示す説明図である。
【0029】
図1に示すように、本発明の第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置10は、目的音声音源11、雑音源12からそれぞれ発信される目的音声、雑音を受信するために異なる位置に設けられた第1及び第2のマイク13、14と、各マイク13、14で受信されて得られた混合信号をそれぞれ増幅する第1及び第2の増幅器15、16と、各増幅器15、16から入力される混合信号から目的音声及び雑音を分離して復元信号として出力する復元装置本体17と、出力された復元信号を増幅する復元信号増幅器18と、増幅された復元信号を出力するスピーカ19を有している。以下、これらについて詳細に説明する。
【0030】
第1及び第2のマイク13、14としては、例えば、可聴音域(10〜20000Hz)の信号を集音するのに十分な周波数特性を有するマイクを使用することができる。ここで、第1のマイク13は、目的音声音源11に対して、第2のマイク14よりも接近して配置されている。
第1及び第2の増幅器15、16としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。
【0031】
復元装置本体17は、各増幅器15、16から入力される混合信号をデジタル化するためのA/D変換器20、21を有している。
また、復元装置本体17は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号UA 、UB に分離する分離信号作成演算回路と、目的音声音源11及び雑音源12から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号UA から第1のマイク13で受信された際の信号のスペクトルvA1及び第2のマイク14で受信された際の信号のスペクトルvA2で構成される分割スペクトルを生成し、分離信号UB から第1のマイク13で受信された際の信号のスペクトルvB1及び第2のマイク14で受信された際の信号のスペクトルvB2で構成される分割スペクトルを生成する分割スペクトル生成演算回路を備えた分割スペクトル生成器22を有している。
【0032】
更に、復元装置本体17は、分割スペクトル生成器22で生成させた各分割スペクトルに対して、第1及び第2のマイク13、14と目的音声音源11及び雑音源12との間の距離に基づく音の伝達特性を用いた判定基準を適用して、各分割スペクトルを目的音声及び雑音にそれぞれ対応させ、目的音声を復元するための復元スペクトルを抽出して出力する復元スペクトル抽出回路23と、出力された復元スペクトルを周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路24を有している。
【0033】
そして、分離信号作成演算回路及び分割スペクトル生成演算回路を備えた分割スペクトル生成器22と、復元スペクトル抽出回路23と、復元信号生成回路24は、各回路の機能を発現する各プログラムを、例えば、パーソナルコンピュータに搭載させることにより構成することができる。また、各プログラムをマイクロコンピュータに搭載させ、これらのマイクロコンピュータが連携動作可能なように回路を形成することにより構成することもできる。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにA/D変換器20、21を取付けることにより、復元装置本体17を一括して構成することができる。
また、復元信号増幅器18は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ19も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。
【0034】
次に、本発明の第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、図1に示すように、目的音声音源11並びに雑音源12からそれぞれ発信される目的音声信号s1 (t)及び雑音信号s2 (t)を、異なる位置に設けた第1及び第2のマイク13、14でそれぞれ受信して混合信号x1 (t)、x2 (t)を形成する第1工程と、各混合信号x1 (t)、x2 (t)を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号UA 、UB に分解して、目的音声音源11及び雑音源12から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号UA から第1のマイク13で受信されたスペクトルvA1及び第2のマイク14で受信されたスペクトルvA2で構成される分割スペクトルを、分離信号UB から第1のマイク13で受信されたスペクトルvB1及び第2のマイク14で受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、各分割スペクトルに対して、第1及び第2のマイク13、14と目的音声音源11との距離に基づく音の伝達特性を用いた判定基準を適用して復元スペクトルyを抽出し、復元スペクトルyを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有する。なお、tは時間を示す。以下、これらの各工程について詳細に説明する。
【0035】
(第1工程)
目的音声音源11から発信される目的音声信号s1 (t)と、雑音源12から発信される雑音信号s2 (t)は、一般に統計的に独立と考えることができる。そして、目的音声信号s1 (t)と雑音信号s2 (t)を、異なる位置に設置した第1及び第2のマイク13、14で受信して得られる各混合信号x1 (t)、x2 (t)は、式(1)のように表記できる。
ここで、s(t)=[s1 (t),s2 (t)]T 、x(t)=[x1 (t),x2 (t)]T 、*は畳み込み記号、G(t)は各音源11、12から各マイク13、14までのそれぞれの伝達関数である。
【0036】
【数1】
【0037】
(第2工程)
(1)式のように、各音源11、12からの信号が畳み込まれて観測される場合、各混合信号x1 (t)、x2 (t)から、目的音声信号s1 (t)と雑音信号s2 (t)を、時間領域で分離することは困難となる。そのため、混合信号x1 (t)、x2 (t)を式(2)のように短時間間隔(フレーム)、例えば数10msec程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。
【0038】
【数2】
【0039】
ここに、ω(=0,2π/Μ,・・・,2π(Μ−1)/Μ)は規格化周波数、Μはフレーム内のサンプル数、w(t)は窓関数、τはフレーム周期、Κはフレーム数を表す。
このとき混合信号スペクトルx(ω,k)と、目的音声信号s1 (t)及び雑音信号s2 (t)の各スペクトルは、周波数領域で式(3)のように関係づけられる。ここに、s(ω,k)はs(t)を窓掛けして離散フーリエ変換したもので、G(ω)はG(t)を離散してフーリエ変換して得られる複素定数行列である。
【0040】
ここで、目的音声信号スペクトルs1 (ω,k)及び雑音信号スペクトルs2 (ω,k)は本来独立であるので、独立成分解析法を用いて、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルUA (ω,k)、UB (ω,k)を求めると、これらのスペクトルが目的音声信号スペクトルs1 (ω,k)及び雑音信号スペクトルs2 (ω,k)に相当することになる。
すなわち、混合信号スペクトルx(ω,k)と分離信号スペクトルUA (ω,k)、UB (ω,k)の間に、式(4)の関係が成立するような分離行列H(ω)を求めることにより、混合信号スペクトルx(ω,k)から、互いに独立となる分離信号スペクトルUA (ω,k)、UB (ω,k)を決定することができる。ここで、u(ω,k)=[UA (ω,k),UB (ω,k)]T である。
【0041】
【数3】
【0042】
【数4】
【0043】
なお、周波数領域では、個々の周波数ωで、式(5)のように振幅の曖昧さや成分置換の問題が生じる。そのため、復元するのに意味ある分離信号を得るには、これらの問題を解決する必要がある。
ここにQ(ω)は白色化行列、Pは対角要素が0で非対角要素が1の成分置換を表す行列、D(ω)=diag[d1 (ω),d2 (ω)]は振幅の曖昧さを表す対角行列である。
【0044】
【数5】
【0045】
次に、周波数領域で、各音源信号スペクトルsi (ω,k)(i=1,2)を、その実部と虚部は平均がゼロで等しい分散をもち、実部と虚部は無相関という仮定の下で次のように定式化する。すなわち、周波数ωにおいて、分離荷重hn (ω)(n=1,2)を式(6)、式(7)に示す独立成分解析法のアルゴリズムの一例であるFastICAアルゴリズムに従って更新する。
ここに、f(・)は非線型関数で、f′(・)はf(・)の微分、 ̄は共役、Κはフレームのサンプル数である。
【0046】
【数6】
【0047】
【数7】
【0048】
このアルゴリズムは、式(8)に示す収束条件CCがほぼ1(例えば、CCが0.9999以上)を満たすまで、繰り返される。さらに、h2 (ω)については、式(9)のように、h1 (ω)と直交化させて再び(7)式により規格化する。
【0049】
【数8】
【0050】
【数9】
【0051】
上述のFastICAアルゴリズムを各周波数ωについて適用し、得られる分離荷重hn (ω)(n=1,2)を式(4)のH(ω)に対して、式(10)として代入すれば、各周波数での分離信号スペクトルu(ω,k)=[UA (ω,k),UB (ω,k)]T が求まる。
【0052】
【数10】
【0053】
図2に示すように、分離信号スペクトルUA (ω,k)、UB (ω,k)が出力される2つのノードをA、Bと表記する。
このとき、分割スペクトルvA (ω,k)=[vA1(ω,k),vA2(ω,k)]T 、vB (ω,k)=[vB1(ω,k),vB2(ω,k)]T は、分離信号スペクトルUn (ω,k)から、式(11)、(12)に示すように、各ノードn(=A,B)で対になって生成されるスペクトルとして定義する。
【0054】
【数11】
【0055】
【数12】
【0056】
ここで、成分置換は生じていないが、振幅の曖昧さが存在する場合、分離信号スペクトルUn (ω,k)は、式(13)として出力される。そして、この分離信号Un (ω,k)に対する分割スペクトルは、目的音声スペクトルs1 (ω,k)及び雑音スペクトルs2 (ω,k)と伝達関数との積として、式(14)、式(15)のように生成される。
なお、g11(ω)は目的音声音源11から第1のマイク13までの伝達関数、g21(ω)は目的音声音源11から第2のマイク14までの伝達関数、g12(ω)は雑音源12から第1のマイク13までの伝達関数、g22(ω)は雑音源12から第2のマイク14までの伝達関数を示す。
【0057】
【数13】
【0058】
【数14】
【0059】
【数15】
【0060】
また、成分置換と振幅の曖昧さの両方がある場合、分離信号スペクトルUn (ω,k)は、式(16)となって、ノードA、Bでの分割スペクトルは、式(17)、式(18)のように生成される。
なお、ノードAで生成するスペクトルvA1(ω,k)は、雑音源12から発信された雑音スペクトルs2 (ω,k)を第1のマイク13で観測したときのスペクトル、ノードAで生成するスペクトルvA2(ω,k)は、雑音源12から発信された雑音スペクトルs2 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。また、ノードBで生成するスペクトルvB1(ω,k)は、目的音声音源11から発信された目的音声スペクトルs1 (ω,k)を第1のマイク13で観測したときのスペクトル、ノードBで生成するスペクトルvB2(ω,k)は、目的音声音源11から発信された目的音声スペクトルs1 (ω,k)を第2のマイク14で観測したときのスペクトルを示す。
【0061】
【数16】
【0062】
【数17】
【0063】
【数18】
【0064】
(第3工程)
図2に示す4つのスペクトルvA1(ω,k),vA2(ω,k),vB1(ω,k),vB2(ω,k)は、成分置換の有無に依存して対応する音源と伝達経路は異なるが、それぞれどれか1つの音源とどれか1つの伝達経路の排他的な組み合わせで一意に決まることが判る。更に、分離信号スペクトルUn (ω,k)には、式(13)、(16)のように振幅の曖昧さが残るが、分割スペクトルには、式(14)、(15)及び式(17)、(18)に示すように、もはや振幅の曖昧さの問題は生じていない。
ここで、目的音声音源11は第2のマイク14に比べて第1のマイク13に近く、雑音源12は第1のマイク13に比べて第2のマイク14に近いと仮定する。このとき、目的音声音源11から各マイク13、14への信号の伝達特性を比較すると、式(19)なるゲインの大小関係が得られる。同様に、雑音源12から各マイク13、14への伝達特性についても、式(20)なるゲインの大小関係が得られる。
【0065】
【数19】
【0066】
【数20】
【0067】
このとき、式(19)、(20)のゲインの大小関係を念頭に、式(14)、(15)、もしくは式(17)、(18)を用いて、スペクトルvA1とスペクトルvA2との差DA 、及びスペクトルvB1とスペクトルvB2との差DB を求めると、成分置換がない場合、ノードAでの差DA は正、またノードBで差DB は負となることが導かれる。
一方、成分置換がある場合、同様にしてスペクトルvA1とスペクトルvA2との差DA 、及びスペクトルvB1とスペクトルvB2との差DB を考えると、ノードAでの差DA は負、またノードBでの差DB は正となることが導かれる。
従って、成分置換の有無については、分割スペクトルの差をそれぞれ調べて、ノードAでの差DA が正かつノードBでの差DB が負のとき、成分置換はないと判定し、ノードAでの差DA が負かつノードBでの差DB が正のとき、成分置換はあると判定する。
【0068】
ここで、差DA をスペクトルvA1とスペクトルvA2との各絶対値の差として、差DB をスペクトルvB1とスペクトルvB2との各絶対値の差としてそれぞれ求めた場合、差DA 、差DB はそれぞれ、式(21)、式(22)のように表される。そして、成分置換の有無と分割スペクトルの差の関係としてまとめると、表1のようになる。
【0069】
【数21】
【0070】
【数22】
【0071】
【表1】
【0072】
分割スペクトルは目的音声音源11に対して2つ得られるが、目的音声音源11との距離の近い第1のマイク13に入った信号に対する分割スペクトルを目的音声音源の復元スペクトルy(ω,k)として採択する。これは、目的音声は第2のマイク14より第1のマイク13に大きな信号として入るため、暗騒音が2つのマイク13、14に同程度の大きさで混入したとしても、その影響は第2のマイク14に比べて第1のマイク13の方が少ないと考えられるからである。
そして、この採択方針に従う場合、式(23)に示すように、目的音声音源に対する復元スペクトルy(ω,k)として、ノードAでの差DA が正かつノードBでの差DB が負のとき、成分置換はないと判定し、復元スペクトルy(ω,k)としてスペクトルvA1を抽出し、ノードAでの差DA が負かつノードBでの差DB が正のとき、成分置換はあると判定して復元スペクトルy(ω,k)としてスペクトルvB1を抽出するという判定基準が求まる。
更に、各周波数毎の復元スペクトルの系列{y(ω,k)|k=0,1,・・・,K−1}について、フレーム毎に逆離散フーリエ変換(フーリエ逆変換)して時間領域に戻して、それをすべてのフレームにわたって式(24)のように総和を取れば、目的音声音源の復元信号y(t)が得られる。
【0073】
【数23】
【0074】
【数24】
【0075】
第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第1の変形例として、ノードAでの差DA を時間系列に対してそれぞれ演算したスペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差として求め、ノードBでの差DB を時間系列に対してそれぞれ演算したスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差として求める。
ここで、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2は、式(25)で求められる。従って、目的音声音源に対する復元スペクトルy(ω,k)は、式(26)のように求められる。
【0076】
【数25】
【0077】
【数26】
【0078】
第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第2の変形例として、判定基準を以下のように求めることができる。
すなわち、目的音声音源11が第1のマイク13に第2のマイク14よりも接近して、雑音源12が第1のマイク13よりも第2のマイク14に接近して存在する場合、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2、スペクトルvB1の強度の2乗和の平均値PB1、及びスペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、スペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差DA 、及びスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差DB をそれぞれ求めて、PA1+PA2>PB1+PB2の場合は式(27)に示すように、差DA が正のとき復元スペクトルy(ω,k)としてスペクトルvA1を抽出し、差DA が負のとき復元スペクトルy(ω,k)としてスペクトルvB1を抽出するように判定基準が設定されている。また、PA1+PA2<PB1+PB2の場合は式(28)に示すように、差DB が負のとき復元スペクトルy(ω,k)としてスペクトルvA1を抽出し、差DB が正のとき復元スペクトルとしてスペクトルvB1を抽出するように判定基準が設定されている。
【0079】
【数27】
【0080】
【数28】
【0081】
このように、PA1+PA2とPB1+PB2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号UA から生成される分割スペクトルvA1、vA2と、分離信号UB から生成される分割スペクトルvB1、vB2で、いずれが復元対象となる信号であるのかの判定を行なうことができる。
その結果、例えば、目的音声スペクトルs(ω,k)の高周波領域(例えば、3.1〜3.4kHz)のスペクトルが元々少ししか存在しておらず、周囲の暗騒音による成分が重畳して、スペクトルの大小関係が逆転する場合(例えば、差DA が正かつ差DB が正、あるいは差DA が負かつ差DB が負の場合)に対しては、各々のノードで2つの分割スペクトルの和を求め、和の大きい方を有意なノードとして、そのノードでの分解スペクトルの差が、正であるか負であるかを調べることにより、成分置換の有無を判定する。
【0082】
図3に示すように、本発明の第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置25は、2つの音源26、27(一方が目的音声音源で他方が雑音源であるが、特定されていない)からそれぞれ発信される信号を受信する異なる位置に設けた2つのマイク(例えば、第1のマイク13、第2のマイク14)で収録して目的音声を出力するものである。
このため、本発明の第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置10と実質的に同一の構成とすることができるので、同一の構成要素については同一の符号を付して詳細な説明は省略する。
【0083】
本発明の第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、図4に示すように、音源26、27からそれぞれ発信される信号s1 (t)及び信号s2 (t)を、異なる位置に設けた第1及び第2のマイク13、14でそれぞれ受信して混合信号x1 (t)、x2 (t)を形成する第1工程と、各混合信号x1 (t)、x2 (t)を時間領域から周波数領域にフーリエ変換し、FastICA法により2つの分離信号UA 、UB に分解して、各音源26、27から第1及び第2のマイク13、14までの各伝達経路特性に基づいて、分離信号UA から第1のマイク13で受信されたスペクトルvA1及び第2のマイク14で受信されたスペクトルvA2で構成される分割スペクトルを、分離信号UB から第1のマイク13で受信されたスペクトルvB1及び第2のマイク14で受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程を有している。
また、この目的音声の復元方法は、目的音声及び雑音に対応する各推定スペクトルがそれぞれ分離信号UA 及び分離信号UB として出力されるというFastICA法に基づく信号の出力特性と、第1及び第2のマイク13、14と各音源26、27との距離に基づく音の伝達特性(すなわち、各規格化周波数毎のスペクトルの大小関係)とで構成される判定基準を各分割スペクトルvA1、vA2、vB1、vB2に対して適用して、目的音声及び雑音に対応する各推定スペクトルを抽出して目的音声の復元スペクトル群Y* を生成し、復元スペクトル群Y* を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程を有している。
【0084】
そして、本発明の第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、第1の実施の形態の目的音声の復元方法のように目的音声音源11は第2のマイク14に比べて第1のマイク13に近く、雑音源12は第1のマイク13に比べて第2のマイク14に近いという条件を仮定していないことが大きな特徴となっている。
このため、第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、第1の実施の形態の目的音声の復元方法と比較して、第3工程が異なる。従って、第3工程についてのみ説明する。
【0085】
分割スペクトルは1つの音源に対して2つの候補となる推定値を有している。例えば、一方の音源からの信号に対して成分置換がない場合にはvA1(ω,k)とvA2(ω,k)があり、成分置換がある場合にはvB1(ω,k)とvB2(ω,k)がある。
ここで、第1及び第2のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルvA1、vA2、vB1、vB2間に、スペクトル強度の差が生じる。従って、第1及び第2のマイク13、14と各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、2つの音源の信号がそれぞれどのスペクトルvA1、vA2、vB1、vB2に相当するかを判定することができる。
【0086】
ここで、成分置換がない場合には、一方の音源の信号の推定スペクトルy1 (ω,k)に、vA1(ω,k)を採用する。これは、vA1(ω,k)は第1のマイク13で観測されたスペクトルの推定値であり、第2のマイク14で観測されたスペクトルの推定値vA2(ω,k)より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合には、一方の音源の推定スペクトルy1 (ω,k)にvB1(ω,k)を採用する。以上のことから、一方の音源の推定スペクトルy1 (ω,k)は式(29)として表せる。
同様に、他方の音源の推定スペクトルy2 (ω,k)に、成分置換がない場合にはvB2(ω,k)を採用し、成分置換がある場合にはvA2(ω,k)を採用する。以上のことから、他方の音源の推定スペクトルy2 (ω,k)は式(30)として表せる。
なお、成分置換の有無は、第1の実施の形態における式(21)、(22)を使用した。
【0087】
【数29】
【0088】
【数30】
【0089】
いま、騒音環境下で話者が発生した場合を想定する。すなわち、2つの音源の内、いっぽうの音源は話者音声で、他方の音源は騒音であるとする。このとき、2つの音源の内、どちらが話者音声であるかという先験情報はない。つまり、話者音声が第1のマイク13側、あるいは第2のマイク14側にあるかは未知である。
ここで、FastICA法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことは、音源が話者音声と騒音である場合、話者音声に対応する分割スペクトルは、最初に出力される分離信号UA に出力される頻度が高くなる。
従って、一方の音源が話者音声であれば、成分置換のない頻度は高く、逆に、他方の音源が話者音声であれば、成分置換の生じる頻度は高くなる。このことから、フーリエ変換した際の各規格化周波数毎に、成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルy1 、y2 から、それぞれ構成された一方の音源の推定スペクトル群Y1 、及び他方の音源の推定スペクトル群Y2 の中で、どちらが復元スペクトル群(話者音声スペクトル群)Y* であるかが式(31)で判断できる。
そして、復元スペクトル群Y* を構成する推定スペクトル群Yi ={yi (ω,k)|k=0,1,・・・,K−1}(i=1、2)について、フレーム毎にフーリエ逆変換して時間領域に戻して、それをすべてのフレームにわたって式(24)のように総和を取れば、目的音声の復元信号y(t)が得られる。
そして、この復元スペクトル群Y* を周波数領域から時間領域にフーリエ逆変換することにより話者音声を復元することができる。その結果、復元された話者音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【0090】
【数31】
【0091】
第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第1の変形例として、ノードAでの差DA を時間系列に対してそれぞれ演算したスペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差として求め、ノードBでの差DB を時間系列に対してそれぞれ演算したスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差として求める。
ここで、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2の算出には、第1の実施の形態における式(25)を使用することができ、従って、一方の音源の推定スペクトルy1 (ω,k)は式(32)、他方の音源の推定スペクトルy2 (ω,k)は式(33)として表せる。
従って、式(32)、(33)に基づいてフーリエ変換した際の各規格化周波数毎に成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルy1 、y2 から、それぞれ構成された一方の音源の推定スペクトル群Y1 、及び他方の音源の推定スペクトル群Y2 の中で、どちらが復元スペクトル群Y* であるかが式(31)で判断できる。
【0092】
【数32】
【0093】
【数33】
【0094】
第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第2の変形例として、判定基準を以下のように求めることができる。
すなわち、一方の音源26が第1のマイク13に第2のマイク14よりも接近して、他方の音源27が第1のマイク13よりも第2のマイク14に接近して存在する場合、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2、スペクトルvB1の強度の2乗和の平均値PB1、及びスペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、スペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差DA 、及びスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差DB をそれぞれ求めて、PA1+PA2>PB1+PB2の場合は式(34)に示すように、差DA が正のとき一方の音源の推定スペクトルy1 (ω,k)としてスペクトルvA1を抽出し、差DA が負のとき一方の音源の推定スペクトルy1 (ω,k)としてスペクトルvB1を抽出する。また、式(35)に示すように、差DA が負のとき他方の音源の推定スペクトルy2 (ω,k)としてスペクトルvA2を抽出し、差DA が負のとき他方の音源の推定スペクトルy2 (ω,k)としてスペクトルvB2を抽出するように判定基準が設定されている。
【0095】
【数34】
【0096】
【数35】
【0097】
PA1+PA2<PB1+PB2の場合は式(36)に示すように、差DB が負のとき一方の音源の推定スペクトルy1 (ω,k)としてスペクトルvA1を抽出し、差DA が正のとき一方の音源の推定スペクトルy1 (ω,k)としてスペクトルvB1を抽出する。また、式(37)に示すように、差DB が負のとき他方の音源の推定スペクトルy2 (ω,k)としてスペクトルvA2を抽出し、差DA が負のとき他方の音源の推定スペクトルy2 (ω,k)としてスペクトルvB2を抽出するように判定基準が設定されている。
【0098】
【数36】
【0099】
【数37】
【0100】
従って、式(34)〜(37)に基づいて、フーリエ変換した際の各規格化周波数毎に成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルy1 、y2 から、それぞれ構成された一方の音源の推定スペクトル群Y1 、及び他方の音源の推定スペクトル群Y2 の中で、どちらが復元スペクトル群Y* であるかが式(31)で判断できる。
【0101】
【実施例】
データ収集は、サンプリング周波数8000Hz、分解能16Bit、フレーム長16msec、フレーム周期8msecで行ない、窓関数にはハミング窓を使用した。また、データ処理は、マイクの周波数特性を考慮して、電話音声の品質に相当する300〜3400Hzの周波数範囲とした。更に、分離信号については、非線型関数として式(38)を用いて、FastICAアルゴリズムにより、初期荷重を(−1,1)の範囲の乱数、繰り返し回数を最大1000回、収束判定条件CC>0.999999として推定した。
【0102】
【数38】
【0103】
次に、実施例1〜5で示す目的音声の復元方法は、例えば、図5に示すように、混合信号に対して独立成分解析法を適用するための前処理を行う第1の時間領域処理過程と、短時間間隔に分割された混合信号を周波数領域で処理してFastICA法により復元スペクトルを求める周波数領域処理過程と、得られた復元スペクトルを時間領域に戻して目的音声音源の復元信号を構成して出力する第2の時間領域処理過程から構成されている。
第1の時間領域処理過程では、図6に示すように、先ず、混合信号を読み込み(ステップS1)、混合信号を時間領域で短時間間隔(フレーム)に分割する処理条件を入力して(ステップS2)、フーリエ変換により混合信号を短時間間隔に分割する(ステップS3)。
この一連の処理によって、混合信号は各フレーム毎に時間領域から周波数領域に変換される。
【0104】
周波数領域処理過程では、図7に示すように、周波数領域に変換された混合信号を白色化して分離信号を形成し(ステップS4)、得られた分離信号に対してFastICAアルゴリズムを適用して分割スペクトルを形成して(ステップS5)、得られた分割スペクトルに対して予め設定した判定基準を適用して成分置換を解決し、更に予め設定した周波数制限の下で復元スペクトルを抽出する(ステップS6)。
この一連の処理によって、周波数領域において、目的音声音源の復元信号のみを出力することができる。
【0105】
第2の時間領域処理過程では、図8に示すように、抽出された各周波数毎の復元スペクトルをフレーム毎にフーリエ逆変換して各フレーム毎に周波数領域から時間領域に変換し(ステップS7)、それをすべてのフレームにわたって加えて時系列的な復元信号を形成して(ステップS8)、出力する(ステップS9)。
この一連の処理により、復元信号は目的音声として認識できるようになる。
【0106】
[実施例1]
縦7.3m、横6.5m、高さ2.9mで、残響時間が約500msec、暗騒音レベルが48.0dBである室で、目的音声を復元する実験を行った。
図9に示すように、第1のマイク13、第2のマイク14を10cmの距離に保って配置した。更に、目的音声音源11は、第1のマイク13を通り第1、第2のマイク13、14を結ぶ直線に対して垂直な直線Lに対して10°外向きの方向に、第1のマイク13からr1 cm離れた位置に配置した。また、雑音源12は、第2のマイク14を通り第1、第2のマイク13、14を結ぶ直線に垂直な直線Mに対して10°外向きの方向に、第2のマイク14からr2 cm離れた位置に配置した。使用したマイクは単一指向性コンデンサマイク(OLYMPUSME12)であり、その周波数特性は200〜5000Hzである。
【0107】
先ず、他人の音声が雑音源となる場合として、6名の話者(男性3名、女性3名)を対象に、目的音声(目的話者音声)を抽出する実験を行った。
図9で、目的話者が第1のマイク13からr1 =10cm、また雑音源12となる話者が第2のマイク14からr2 =10cm離れたところから、それぞれ異なる単語を発生するようにした。その際、各周波数での成分置換の目視による判定作業を容易にするため、発生単語を発話区間の短い単語と長い単語の組み合わせで3パターン、「東京、近畿大学」、「新飯塚、産業技術研究科」、「博多、五反田研究室」と発声し、引き続いて3パターンのそれぞれで単語を交代して発声した。更に、2人の位置を入れ替えて上記を繰り返して、計12パターンに対する混合信号をデータとして収録した。さらにペアの1人はそのままにして、残りの4人をペア相手として換えながら、上記と同様に発声した。以上により、総計180(=12×6 C2 )パターンに対する混合信号のデータを収得した。これらのデータ長は、短いもので2.3秒、長いもので4.1秒程度であった。
【0108】
以上のデータに対して、成分置換の問題がどの程度解決されたか目視による判定を行なった。その結果を表2に示す。先ず、比較例(従来法であるFastICA法)による分離信号に対する成分置換の解決率は平均で50.60%であった。これは、FastICA法が非ガウス性の高い順に分離する手法であり、非ガウス性の高い話者音声同士を対象にしていることから、当然の結果であり、成分置換の問題は全く解決されていない。
これに対して、式(26)の判定基準を適用した場合は、表2に示すように、平均で93.3%の成分置換を解決して、比較例による結果を4割程度改善させている。
【0109】
【表2】
【0110】
[実施例2]
実施例1と同様の条件でデータを収集し、式(26)の判定基準を適用すると共に、式(26)が適用外となる周波数については、式(27)、式(28)の判定基準を適用して目的音声の復元を行なった。
その結果を、表2に示す。解決率の平均は99.08%となり、極めて高い割合で成分置換を解決している。
この判定基準を適用して復元した復元信号を図10に示す。なお、図10は、目的音声音源として男性話者が「産業技術研究科」、雑音源として女性話者が「新飯塚」と発声したときの実験結果で、(A)は第1のマイク13で観測した混合信号、(B)は第2のマイク14で観測した混合信号、(C)及び(D)はそれぞれ式(26)、式(27)、式(28)の判定基準により抽出した復元スペクトルを用いて復元した男性話者音声「産業技術研究科」と女性話者音声「新飯塚」、(E)、(F)はそれぞれ従来法(FastICA法)により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と雑音「新飯塚」の各信号波形である。
【0111】
図10(C)、(D)には男性話者と女性話者の音声持続時間が異なることが反映されており、視覚的にも成分置換は殆どないことが読み取れるが、従来法による場合、図10(E)、(F)のように音声持続時間はほぼ同じとなっており、どちらがどの話者音声に対応するか明確でなかった。
また、復元信号に対する聴覚的な明瞭度を調べたところ、提案法による結果は他の音声が殆ど混じることがなく元の音声が明瞭に聞こえたのに対し、従来法による結果には2人の話者音声が混じったまま聞こえて、復元精度の違いは明らかであった。
【0112】
[実施例3]
図9で、雑音源12の位置にスピーカを置いて、このスピーカから駅構内の騒音が流れるもとで、目的音声音源11の位置(r1 =10cm)から、男性4名と女性4名の計8名に4種類の単語「東京」、「新飯塚」、「近畿大学」、「産業技術研究科」を発話させた。そして、雑音源12の位置をr2 =30、60cmと変えて実験を行ない、64組のデータを取得した。そのときの騒音レベルは、平均して、スピーカから1cmのところで99.5dB、30cmのところで82.1dB、60cmのところで76.3dBであった。なお、データ長は、短いもので2.3秒、長いもので6.9秒あった。
【0113】
このときの復元結果(r1 =10cm、r2 =30cm)を図11に示す。
図11は、男性話者(目的音声音源)が「産業技術研究科」と発声し、「駅構内の騒音」をスピーカから流したときの結果である。(A)は第1のマイク13で観測した混合信号、(B)は第2のマイク14で観測した混合信号、(C)及び(D)はそれぞれ式(27)、式(28)の判定基準により抽出した復元スペクトルを用いて復元された男性話者音声「産業技術研究科」と「駅構内の騒音」、(E)、(F)はそれぞれ従来法(FastICA法)により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と「駅構内の騒音」の各信号波形である。図11(C)と(E)の比較から、復元信号では騒音が良好に除去されているが、従来法の復元信号には騒音の影響が残っていることが読み取れる。
【0114】
表3に成分置換の解決率を示す。表3の結果より、従来法のみを適用したときでも、9割程度の解決率が得られていることが分かる。このことは、騒音に比べて、話者音声の非ガウス性が高いことから、従来法の利点でもある非ガウス性の高い順に分離を行うという特徴を反映した結果となっている。
一方、実施例3による解決率は、従来法より、平均で3〜8%程度上回る結果が得られている。
また、復元音声の明瞭度を調べたところ、実施例3による復元音声の場合、無音区間では騒音の影響が若干残ることが認められたが、音声区間では騒音の影響は殆ど感じられなかった。一方、従来法による場合、騒音の影響が強く残る結果となった。この違いを明らかにするために、成分置換がどの周波数帯域で起きているかを調べたところ、従来法の場合、成分置換の現れ方は周波数帯域に依存しないが、実施例3の場合では、スペクトルの強度の非常に小さな周波数にほぼ限定されることが確認された。従って、このことも聴覚による明瞭度の違いの一因となっていると思われる。
【0115】
【表3】
【0116】
[実施例4]
図12に示すように、第1のマイク13、第2のマイク14を10cmの距離に保って配置した。更に、音源26は、第1のマイク13を通り第1、第2のマイク13、14を結ぶ直線に対して垂直な直線Lに対して10°外向きの方向に、第1のマイク13からr1 cm離れた位置に配置した。また、音源27は、第2のマイク14を通り第1、第2のマイク13、14を結ぶ直線に垂直な直線Mに対して10°外向きの方向に、第2のマイク14からr2 cm離れた位置に配置した。なお、データ収集の条件は、実施例1と同様にした。
【0117】
図12で、音源27の位置にスピーカを置いて、このスピーカから駅構内の人声や発車音、発車の際の駅員の笛、電車の走行時に生じる音、電車の発車時案内音(メロディー)、拡声器によるアナウンスを含む騒音を流した。音源26の位置(r1 =10cm)から、男性4名と女性4名の計8名に4種類の単語「東京」、「新飯塚」、「近畿大学」、「産業技術研究科」を発話させた。そして、音源26の位置をr2 =30、60cmと変えて実験を行ない、64組のデータを取得した。
そのときの騒音レベルは、平均して、スピーカから1cmのところで99.5dB、30cmのところで82.1dB、60cmのところで76.3dBであった。なお、データ長は、短いもので2.3秒、長いもので6.9秒あった。
【0118】
以上の64組のデータに対して、図5に示す目的音声の復元方法を適用して、目的音声の抽出を行った。なお、式(34)〜(37)に基づいた成分置換の解決を行ってから式(31)を適用する判定基準を採用した。そのときの抽出率を表4に示す。
【0119】
【表4】
【0120】
ここで、抽出率は、目的音声が正確に抽出された数をCとして、C/64と定義した。
式(34)〜(37)に基づいた成分置換の解決を行ってから式(31)を適用する判定基準では、騒音源までの距離に関係なく、目的音声を100%確実に抽出している。
また、表4には、比較例として、式(26)の判定基準、式(26)が適用外となる周波数については、式(27)、式(28)の判定基準を適用して得られる復元スペクトルy(ω,k)のフーリエ逆変換によって求めた復元スペクトルy(t)の最頻値を計算し、最頻値の大きな信号を目的音声として抽出した結果を併せて示している。
比較例では、目的音声の抽出率はr2 が30cmのとき87.5%、r2 が60cmのとき96.88%という結果となった。このことは、抽出率がr2 (騒音源までの距離)により影響を受けること、すなわち、騒音レベルに対して影響を受けることを示している。従って、式(34)〜(37)に基づいた成分置換の解決を行ってから式(31)を適用する判定基準は、騒音レベルに対しても頑健であることが確認できた。
【0121】
[実施例5]
続いて、目的音声が順番通り正しく推定できるかを調べるため、2つの音源が共に話者音声であるとして、以下の方法でデータを収録した。
図12において、始めに、一方の話者にはr1 が10cmとなる音源26の位置で「ある単語」を、他方の話者にはr2 が10cmとなる音源27の位置で「別の単語」をそれぞれ発声してもらい、次いで、2人の話者の位置を変えてそれぞれ同一の単語を発生してもらって混合信号を収録するという手順を、6人の話者(男性3名、女性3名)と、3組の単語対(東京と近畿大学、新飯塚と産業技術研究科、博多と五反田研究室)に対して繰り返し適用した。収録された混合信号は180組であり、それらの発声時間は2.3〜4.1秒であった。
これらのデータを用いて成分置換の解決率を求めると、従来法(FastICA法)を適用した場合では解決率は50.6%であった。これに対して、図5に示す目的音声の復元方法を適用して、目的音声の抽出を行った。なお、式(34)〜(37)に基づいた成分置換の解決を行ってから式(31)を適用する判定基準を適用した。このときの成分置換の解決率は99.08%であった。従って、2つの音源が双方とも話者音声である場合でも、目的音声を有効に抽出できることが確認できた。
【0122】
また、全てのデータに対して、音源が順番通り正しく推定できたことが確認できた。その一例を図13示す。
図13は、r1 が10cmとなる音源26位置で男性話者が「産業技術研究科」と発声し、r2 が10cmとなる音源27の位置で女性話者が「新飯塚」と発声したときの復元結果を示している。(A)は第1のマイク13で観測した混合信号、(B)は第2のマイク14で観測した混合信号、(C)及び(D)はそれぞれ式(29)の判定基準により抽出した復元スペクトルを用いて復元された男性話者音声「産業技術研究科」と女性話者音声「新飯塚」、(E)、(F)はそれぞれ従来法(FastICA法)により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と「新飯塚」の各信号波形である。
図13(C)、(D)には2名の話者の音声持続時間が異なることが反映されており、視覚的にも成分置換はほとんどないことが読み取れる。
一方、従来法の復元信号である図13(E)、(F)では、音声持続時間はほぼ同じとなっている。このため、(E)、(F)の内のどちらがどの話者音声(「産業技術研究科」と「新飯塚」)に対応するのかが明確にならなかった。
【0123】
以上、本発明の実施の形態を説明したが、本発明は、この実施の形態に限定されるものではなく、発明の要旨を変更しない範囲での変更は可能であり、前記したそれぞれの実施の形態や変形例の一部又は全部を組み合わせて本発明の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を構成する場合にも本発明は適用される。例えば、音源位置に関する先験情報をゲインの大小関係で定式化し、これを前提条件として議論を展開したが、先験情報を利用する位置、方向、強弱に応じて、さらにはマイクの指向特性に応じて変化するゲイン及び位相情報を取り入れることも可能である。また、前提条件に重み付けを行なって利用することもできる。また、目視による成分置換の判定作業を容易にするため、時系列としての分割スペクトルの時系列を対象に成分置換の判定や修正を行なったが、例えば、ドアの閉まるときの衝撃音が雑音となる場合では、分割スペクトルを対象にする方が好ましい。
【0124】
【発明の効果】
請求項1〜5記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号UA、UBに分解して、目的音声音源及び雑音源から第1及び第2のマイクまでの各伝達関数に基づいて、分離信号UAから第1のマイクで受信されたスペクトルvA1及び第2のマイクで受信されたスペクトルvA2で構成される分割スペクトルを、分離信号UBから第1のマイクで受信されたスペクトルvB1及び第2のマイクで受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、各分割スペクトルに対して、第1及び第2のマイクと目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有するので、成分置換や振幅の曖昧さの問題を解消して、聴覚的に明瞭度が高い復元音声を得ることが可能となる。
【0125】
特に、請求項2記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源が第2のマイクよりも第1のマイクに接近し、雑音源が第1のマイクよりも第2のマイクに接近して存在する場合、判定基準は、スペクトルvA1とスペクトルvA2との差DA 、及びスペクトルvB1とスペクトルvB2との差DB をそれぞれ演算して、(1)差DA が正かつ差DB が負のとき復元スペクトルとしてスペクトルvA1を抽出し、(2)差DA が負かつ差DB が正のとき復元スペクトルとしてスペクトルvB1を抽出するように設定されているので、復元された目的音声信号において振幅の曖昧さの発生を防止すると共に成分置換の発生をより厳密に防止することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【0126】
請求項3記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差DA をスペクトルvA1とスペクトルvA2との各絶対値の差として、差DB をスペクトルvB1とスペクトルvB2との各絶対値の差としてそれぞれ求めるので、簡易な判定基準で各成分毎に成分置換の発生を厳密に判定することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【0127】
請求項4記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差DA を時間系列に対してそれぞれ演算したスペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差として求め、差DB を時間系列に対してそれぞれ演算したスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差として求めるので、成分置換の判定処理結果が正しいか否かを目視により容易に照合することが可能となる。
【0128】
請求項5記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源が第2のマイクよりも第1のマイクに接近し、雑音源が第1のマイクよりも第2のマイクに接近して存在する場合、判定基準は、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2、スペクトルvB1の強度の2乗和の平均値PB1、及びスペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、平均値PA1と平均値PA2との差DA 、及び平均値PB1と平均値PB2との差DB をそれぞれ求めて、(1)PA1+PA2>PB1+PB2かつ差DA が正のとき復元スペクトルとしてスペクトルvA1を抽出し、(2)PA1+PA2>PB1+PB2かつ差DA が負のとき復元スペクトルとしてスペクトルvB1を抽出し、(3)PA1+PA2<PB1+PB2かつ差DB が負のとき復元スペクトルとしてスペクトルvA1を抽出し、(4)PA1+PA2<PB1+PB2かつ差DB が正のとき復元スペクトルとしてスペクトルvB1を抽出するように設定されているので、復元するのに有意な分離信号を容易に選別でき、各分割スペクトルの強度が微弱な場合、すなわち混合信号中に含まれる目的音声信号が微弱な場合でも、目的音声の復元を行なうことが可能となる。
【0129】
請求項6〜10記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、各混合信号を時間領域から周波数領域にフーリエ変換し、FastICA法により2つの分離信号UA、UBに分解して、各音源から第1及び第2のマイクまでの各伝達経路特性に基づいて、分離信号UAから第1のマイクで受信されたスペクトルvA1及び第2のマイクで受信されたスペクトルvA2で構成される2つの音源の内の一方の音源の分割スペクトルを、分離信号UBから第1のマイクで受信されたスペクトルvB1及び第2のマイクで受信されたスペクトルvB2で構成される2つの音源の内の他方の音源の分割スペクトルをそれぞれ生成する第2工程と、各分割スペクトルに対して、該各分割スペクトルが前記第1及び第2のマイクで受信された信号と等価であることに基づく判定基準を適用し目的音声及び雑音に対応する各推定スペクトルを抽出して目的音声の復元スペクトル群を生成し、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有するので、目的音声に対応する分割スペクトルは分離信号UAとして出力される頻度が高く、目的音声音源と雑音源の位置に関する先験情報を使用せずに、目的音声の復元を行なうことが可能となる。
【0130】
特に、請求項7記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、2つの音源の中で一方の音源は第2のマイクよりも第1のマイクに接近し、2つの音源の中で他方の音源は第1のマイクよりも第2のマイクに接近して存在する場合、判定基準は、フーリエ変換した際の各規格化周波数毎に、スペクトルvA1とスペクトルvA2との差DA 、及びスペクトルvB1とスペクトルvB2との差DB をそれぞれ演算し、(1)差DA が正かつ差DB が負のとき一方の音源の推定スペクトルy1 としてスペクトルvA1を抽出し、(2)差DA が負かつ差DB が正のとき一方の音源の推定スペクトルy1 としてスペクトルvB1を抽出して、抽出した各推定スペクトルy1 を成分とする一方の音源の推定スペクトル群Y1 を形成し、(3)差DA が負かつ差DB が正のとき他方の音源の推定スペクトルy2 としてスペクトルvA2を抽出し、(4)差DA が正かつ差DB が負のとき他方の音源の推定スペクトルy2 としてスペクトルvB2を抽出して、抽出した各推定スペクトルy2 を成分とする他方の音源の推定スペクトル群Y2 を形成すると共に、差DA が正かつ差DB が負である場合の個数N+ 、及び差DA が負かつ差DB が正である場合の個数N- をそれぞれ求めて、(a)個数N+ が個数N- より大きい場合、復元スペクトル群として推定スペクトル群Y1 を抽出し、(b)個数N- が個数N+ より大きい場合、復元スペクトル群として推定スペクトル群Y2 を抽出するように設定されているので、一方の音源が目的音声音源であれば成分置換のない頻度が高く、他方の音源が目的音声音源であれば成分置換の生じる頻度が高くなり、成分置換の有無の頻度を求めることにより目的音声に対応する復元スペクトル群を抽出することが可能になる。その際、復元された目的音声信号においては振幅の曖昧さの防止と成分置換の防止を共に達成することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【0131】
請求項8記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差DA をスペクトルvA1とスペクトルvA2との各絶対値の差として、差DB をスペクトルvB1とスペクトルvB2との各絶対値の差としてそれぞれ求めるので、簡易な判定基準で各成分毎に成分置換の発生を厳密に判定することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【0132】
請求項9記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差DA を時間系列に対してそれぞれ演算したスペクトルvA1の強度の2乗和の平均値PA1とスペクトルvA2の強度の2乗和の平均値PA2との差として求め、差DB を時間系列に対してそれぞれ演算したスペクトルvB1の強度の2乗和の平均値PB1とスペクトルvB2の強度の2乗和の平均値PB2との差として求めるので、成分置換の判定処理結果が正しいか否かを目視により容易に照合することが可能となる。
【0133】
請求項10記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、2つの音源の中で一方の音源は第2のマイクよりも第1のマイクに接近し、2つの音源の中で他方の音源は第1のマイクよりも第2のマイクに接近して存在する場合、判定基準は、スペクトルvA1の強度の2乗和の平均値PA1、スペクトルvA2の強度の2乗和の平均値PA2、スペクトルvB1の強度の2乗和の平均値PB1、及びスペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、平均値PA1と平均値PA2との差DA 、及び平均値PB1と平均値PB2との差DB をそれぞれ求めて、PA1+PA2>PB1+PB2で、かつ、(1)差DA が正のとき一方の音源の推定スペクトルy1 としてスペクトルvA1を抽出し、(2)差DA が負のとき一方の音源の推定スペクトルy1 としてスペクトルvB1を抽出して、各推定スペクトルy1 を成分とする一方の音源の推定スペクトル群Y1 を形成し、(3)差DA が負のとき他方の音源の推定スペクトルy2 としてスペクトルvA2を抽出し、(4)差DA が正のとき他方の音源の推定スペクトルy2 としてスペクトルvB2を抽出して、各推定スペクトルy2 から構成される他方の音源の推定スペクトル群Y2 を形成し、PA1+PA2<PB1+PB2で、かつ、(5)差DB が負のとき一方の音源の推定スペクトルy1 としてスペクトルvA1を抽出し、(6)差DB が正のとき一方の音源の推定スペクトルy1 としてスペクトルvB1を抽出して、各推定スペクトルy1 を成分とする一方の音源の推定スペクトル群Y1 を形成し、(7)差DB が正のとき他方の音源の推定スペクトルy2 としてスペクトルvA2を抽出し、(8)差DB が負のとき他方の音源の推定スペクトルy2 としてスペクトルvB2を抽出して、各推定スペクトルy2 から構成される他方の音源の推定スペクトル群Y2 を形成すると共に、差DA が正かつ差DB が負である場合の個数N+ 、及び差DA が負かつ差DB が正である場合の個数N- をそれぞれ求めて、(a)個数N+ が個数N- より大きい場合、復元スペクトル群として推定スペクトル群Y1 を抽出し、(b)個数N- が個数N+ より大きい場合、復元スペクトル群として推定スペクトル群Y2 を抽出するように設定されているので、一方の音源が目的音声音源であれば成分置換のない頻度が高く、他方の音源が目的音声音源であれば成分置換の生じる頻度が高くなり、成分置換の有無の頻度を求めることにより目的音声に対応する復元スペクトル群を抽出することが可能になる。その際、復元するのに有意な分離信号を容易に選別でき、各分割スペクトルの強度が微弱な場合、すなわち混合信号中に含まれる目的音声信号が微弱な場合でも、目的音声の復元を行なうことが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。
【図2】同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図である。
【図3】本発明の第2の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。
【図4】同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図である。
【図5】実施例1〜5における目的音声の復元方法の手順の概要を示す説明図である。
【図6】実施例1〜5における目的音声の復元方法の各部分手順を示す説明図である。
【図7】実施例1〜5における目的音声の復元方法の各部分手順を示す説明図である。
【図8】実施例1〜5における目的音声の復元方法の各部分手順を示す説明図である。
【図9】実施例1〜3における第1のマイク、第2のマイク、目的音声音源、及び雑音源の位置関係を示す説明図である。
【図10】(A)は実施例2における第1のマイクで受信された混合信号、(B)は実施例2における第2のマイクで受信された混合信号、(C)は実施例2で復元した目的音声の信号波形、(D)は実施例2で復元した雑音の信号波形、(E)は従来の復元方法を適用して復元した目的音声の信号波形、(F)は従来の復元方法を適用して復元した雑音の信号波形を示す説明図である。
【図11】(A)は実施例3における第1のマイクで受信された混合信号、(B)は実施例3における第2のマイクで受信された混合信号、(C)は実施例3で復元した目的音声の信号波形、(D)は実施例3で復元した雑音の信号波形、(E)は従来の復元方法を適用して復元した目的音声の信号波形、(F)は従来の復元方法を適用して復元した雑音の信号波形を示す説明図である。
【図12】実施例4、5における第1のマイク、第2のマイク、及び各音源の位置関係を示す説明図である。
【図13】(A)は実施例5における第1のマイクで受信された混合信号、(B)は実施例5における第2のマイクで受信された混合信号、(C)、(D)は実施例5で復元した各音源の信号波形、(E)、(F)は従来の復元方法を適用して復元した各音源の信号波形を示す説明図である。
【符号の説明】
10:目的音声の復元装置、11:目的音声音源、12:雑音源、13:第1のマイク、14:第2のマイク、15:第1の増幅器、16:第2の増幅器、17:復元装置本体、18:復元信号増幅器、19:スピーカ、20、21:A/D変換器、22:分割スペクトル生成器、23:復元スペクトル抽出回路、24:復元信号生成回路、25:目的音声の復元装置、26、27:音源
Claims (10)
- 目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により2つの分離信号UA、UBに分解して、前記目的音声音源及び前記雑音源から前記第1及び第2のマイクまでの各伝達関数に基づいて、前記分離信号UAから前記第1のマイクで受信されたスペクトルvA1及び前記第2のマイクで受信されたスペクトルvA2で構成される分割スペクトルを、前記分離信号UBから前記第1のマイクで受信されたスペクトルvB1及び前記第2のマイクで受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、
前記各分割スペクトルに対して、前記第1及び第2のマイクと前記目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、該復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有し、
前記判定基準は、前記目的音声音源から前記第1及び第2のマイクまでの前記伝達関数のゲイン又は位相の差及び前記雑音源から前記第1及び第2のマイクまでの前記伝達関数のゲイン又は位相の差が、前記スペクトルv A1 とv A2 の差、若しくは前記スペクトルv B1 とv B2 の差に等しいことを利用して、前記目的音声音源及び雑音源を前記第1及び第2のマイクで受信した信号がそれぞれどの前記スペクトルv A1 、v A2 、v B1 、v B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。 - 請求項1記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第2のマイクよりも前記第1のマイクに接近し、前記雑音源が前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1と前記スペクトルvA2との差DA、及び前記スペクトルvB1と前記スペクトルvB2との差DBをそれぞれ演算して、
(1)前記差DAが正かつ前記差DBが負のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(2)前記差DAが負かつ前記差DBが正のとき前記復元スペクトルとして前記スペクトルvB1を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。 - 請求項2記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DAを前記スペクトルvA1と前記スペクトルvA2との各絶対値の差として、前記差DBを前記スペクトルvB1と前記スペクトルvB2との各絶対値の差としてそれぞれ求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
- 請求項2記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DAを時間系列に対してそれぞれ演算した前記スペクトルvA1の強度の2乗和の平均値PA1と前記スペクトルvA2の強度の2乗和の平均値PA2との差として求め、前記差DBを時間系列に対してそれぞれ演算した前記スペクトルvB1の強度の2乗和の平均値PB1と前記スペクトルvB2の強度の2乗和の平均値PB2との差として求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
- 請求項1記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第2のマイクよりも前記第1のマイクに接近し、前記雑音源が前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1の強度の2乗和の平均値PA1、前記スペクトルvA2の強度の2乗和の平均値PA2、前記スペクトルvB1の強度の2乗和の平均値PB1、及び前記スペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、前記平均値PA1と前記平均値PA2との差DA、及び前記平均値PB1と前記平均値PB2との差DBをそれぞれ求めて、
(1)PA1+PA2>PB1+PB2かつ前記差DAが正のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(2)PA1+PA2>PB1+PB2かつ前記差DAが負のとき前記復元スペクトルとして前記スペクトルvB1を抽出し、
(3)PA1+PA2<PB1+PB2かつ前記差DBが負のとき前記復元スペクトルとして前記スペクトルvA1を抽出し、
(4)PA1+PA2<PB1+PB2かつ前記差DBが正のとき前記復元スペクトルとして前記スペクトルvB1を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。 - 異なる2つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第1及び第2のマイクでそれぞれ受信して混合信号を形成する第1工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、FastICA法により2つの分離信号UA、UBに分解して、前記各音源から前記第1及び第2のマイクまでの各伝達経路特性に基づいて、前記分離信号UAから前記第1のマイクで受信されたスペクトルvA1及び前記第2のマイクで受信されたスペクトルvA2で構成される分割スペクトルを、前記分離信号UBから前記第1のマイクで受信されたスペクトルvB1及び前記第2のマイクで受信されたスペクトルvB2で構成される分割スペクトルをそれぞれ生成する第2工程と、
前記各分割スペクトルに対して、該各分割スペクトルが前記第1及び第2のマイクで受信された信号と等価であることに基づく判定基準を適用し前記目的音声及び前記雑音に対応する各推定スペクトルを抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第3工程とを有し、
前記判定基準は、一方の音源から前記第1及び第2のマイクまでの伝達関数のゲイン又は位相の差及び他方の音源から前記第1及び第2のマイクまでの伝達関数のゲイン又は位相の差が、前記スペクトルv A1 とv A2 の差、若しくは前記スペクトルv B1 とv B2 の差に等しいことを利用して、前記2つの音源を前記第1及び第2のマイクで受信した信号がそれぞれどの前記スペクトルv A1 、v A2 、v B1 、v B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。 - 請求項6記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記2つの音源の中で一方の音源は前記第2のマイクよりも前記第1のマイクに接近し、前記2つの音源の中で他方の音源は前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記フーリエ変換した際の各規格化周波数毎に、前記スペクトルvA1と前記スペクトルvA2との差DA、及び前記スペクトルvB1と前記スペクトルvB2との差DBをそれぞれ演算し、
(1)前記差DAが正かつ前記差DBが負のとき前記一方の音源の推定スペクトルy1として前記スペクトルvA1を抽出し、
(2)前記差DAが負かつ前記差DBが正のとき前記一方の音源の推定スペクトルy1として前記スペクトルvB1を抽出して、抽出した該各推定スペクトルy1を成分とする前記一方の音源の推定スペクトル群Y1を形成し、
(3)前記差DAが負かつ前記差DBが正のとき前記他方の音源の推定スペクトルy2として前記スペクトルvA2を抽出し、
(4)前記差DAが正かつ前記差DBが負のとき前記他方の音源の推定スペクトルy2として前記スペクトルvB2を抽出して、抽出した該各推定スペクトルy2を成分とする前記他方の音源の推定スペクトル群Y2を形成すると共に、
前記差DAが正かつ前記差DBが負である場合の個数N+、及び前記差DAが負かつ前記差DBが正である場合の個数N-をそれぞれ求めて、
(a)前記個数N+が前記個数N-より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y1を抽出し、
(b)前記個数N-が前記個数N+より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y2を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。 - 請求項7記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DAを前記スペクトルvA1と前記スペクトルvA2との各絶対値の差として、前記差DBを前記スペクトルvB1と前記スペクトルvB2との各絶対値の差としてそれぞれ求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
- 請求項7記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差DAを時間系列に対してそれぞれ演算した前記スペクトルvA1の強度の2乗和の平均値PA1と前記スペクトルvA2の強度の2乗和の平均値PA2との差として求め、前記差DBを時間系列に対してそれぞれ演算した前記スペクトルvB1の強度の2乗和の平均値PB1と前記スペクトルvB2の強度の2乗和の平均値PB2との差として求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
- 請求項6記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記2つの音源の中で一方の音源は前記第2のマイクよりも前記第1のマイクに接近し、前記2つの音源の中で他方の音源は前記第1のマイクよりも前記第2のマイクに接近して存在する場合、前記判定基準は、前記スペクトルvA1の強度の2乗和の平均値PA1、前記スペクトルvA2の強度の2乗和の平均値PA2、前記スペクトルvB1の強度の2乗和の平均値PB1、及び前記スペクトルvB2の強度の2乗和の平均値PB2を時間系列に対してそれぞれ求め、前記平均値PA1と前記平均値PA2との差DA、及び前記平均値PB1と前記平均値PB2との差DBをそれぞれ求めて、PA1+PA2>PB1+PB2で、かつ
(1)前記差DAが正のとき前記一方の音源の推定スペクトルy1として前記スペクトルvA1を抽出し、
(2)前記差DAが負のとき前記一方の音源の推定スペクトルy1として前記スペクトルvB1を抽出して、該各推定スペクトルy1を成分とする前記一方の音源の推定スペクトル群Y1を形成し、
(3)前記差DAが負のとき前記他方の音源の推定スペクトルy2として前記スペクトルvA2を抽出し、
(4)前記差DAが正のとき前記他方の音源の推定スペクトルy2として前記スペクトルvB2を抽出して、該各推定スペクトルy2から構成される前記他方の音源の推定スペクトル群Y2を形成し、
PA1+PA2<PB1+PB2で、かつ
(5)前記差DBが負のとき前記一方の音源の推定スペクトルy1として前記スペクトルvA1を抽出し、
(6)前記差DBが正のとき前記一方の音源の推定スペクトルy1として前記スペクトルvB1を抽出して、該各推定スペクトルy1を成分とする前記一方の音源の推定スペクトル群Y1を形成し、
(7)前記差DBが正のとき前記他方の音源の推定スペクトルy2として前記スペクトルvA2を抽出し、
(8)前記差DBが負のとき前記他方の音源の推定スペクトルy2として前記スペクトルvB2を抽出して、該各推定スペクトルy2から構成される前記他方の音源の推定スペクトル群Y2を形成すると共に、
前記差DAが正かつ前記差DBが負である場合の個数N+、及び前記差DAが負かつ前記差DBが正である場合の個数N-をそれぞれ求めて、
(a)前記個数N+が前記個数N-より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y1を抽出し、
(b)前記個数N-が前記個数N+より大きい場合、前記復元スペクトル群として前記推定スペクトル群Y2を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003117458A JP3950930B2 (ja) | 2002-05-10 | 2003-04-22 | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
US10/435,135 US7315816B2 (en) | 2002-05-10 | 2003-05-09 | Recovering method of target speech based on split spectra using sound sources' locational information |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002135772 | 2002-05-10 | ||
JP2003117458A JP3950930B2 (ja) | 2002-05-10 | 2003-04-22 | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004029754A JP2004029754A (ja) | 2004-01-29 |
JP3950930B2 true JP3950930B2 (ja) | 2007-08-01 |
Family
ID=31190238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003117458A Expired - Fee Related JP3950930B2 (ja) | 2002-05-10 | 2003-04-22 | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7315816B2 (ja) |
JP (1) | JP3950930B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108910177A (zh) * | 2018-08-01 | 2018-11-30 | 龙口味美思环保科技有限公司 | 一种给袋式食品全自动包装机的智能调控方法 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0228163D0 (en) * | 2002-12-03 | 2003-01-08 | Qinetiq Ltd | Decorrelation of signals |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
JP4525071B2 (ja) * | 2003-12-22 | 2010-08-18 | 日本電気株式会社 | 信号分離方法、信号分離システムおよび信号分離用プログラム |
JP2006084928A (ja) * | 2004-09-17 | 2006-03-30 | Nissan Motor Co Ltd | 音声入力装置 |
WO2006080149A1 (ja) * | 2005-01-25 | 2006-08-03 | Matsushita Electric Industrial Co., Ltd. | 音復元装置および音復元方法 |
JP4449871B2 (ja) * | 2005-01-26 | 2010-04-14 | ソニー株式会社 | 音声信号分離装置及び方法 |
JP4767247B2 (ja) * | 2005-02-25 | 2011-09-07 | パイオニア株式会社 | 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体 |
CN100449282C (zh) * | 2005-03-23 | 2009-01-07 | 江苏大学 | 基于独立分量的红外光谱去噪方法和装置 |
US20070135952A1 (en) * | 2005-12-06 | 2007-06-14 | Dts, Inc. | Audio channel extraction using inter-channel amplitude spectra |
WO2008001421A1 (fr) * | 2006-06-26 | 2008-01-03 | Panasonic Corporation | Procédé de mesure de la qualité de réception |
KR101182017B1 (ko) * | 2006-06-27 | 2012-09-11 | 삼성전자주식회사 | 휴대 단말기에서 복수의 마이크들로 입력된 신호들의잡음을 제거하는 방법 및 장치 |
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
US8131542B2 (en) * | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
JP4829184B2 (ja) * | 2007-07-23 | 2011-12-07 | クラリオン株式会社 | 車載装置および音声認識方法 |
JP5642339B2 (ja) * | 2008-03-11 | 2014-12-17 | トヨタ自動車株式会社 | 信号分離装置及び信号分離方法 |
KR101178801B1 (ko) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
KR20110065095A (ko) * | 2009-12-09 | 2011-06-15 | 삼성전자주식회사 | 디바이스를 제어하는 방법 및 그 장치 |
EP2509337B1 (en) * | 2011-04-06 | 2014-09-24 | Sony Ericsson Mobile Communications AB | Accelerometer vector controlled noise cancelling method |
CN103325383A (zh) | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 音频处理方法和音频处理设备 |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
JP6729186B2 (ja) * | 2016-08-30 | 2020-07-22 | 富士通株式会社 | 音声処理プログラム、音声処理方法及び音声処理装置 |
RU2763480C1 (ru) * | 2021-06-16 | 2021-12-29 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для восстановления речевого сигнала |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3355598B2 (ja) | 1996-09-18 | 2002-12-09 | 日本電信電話株式会社 | 音源分離方法、装置及び記録媒体 |
US6879952B2 (en) * | 2000-04-26 | 2005-04-12 | Microsoft Corporation | Sound source separation using convolutional mixing and a priori sound source knowledge |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
-
2003
- 2003-04-22 JP JP2003117458A patent/JP3950930B2/ja not_active Expired - Fee Related
- 2003-05-09 US US10/435,135 patent/US7315816B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108910177A (zh) * | 2018-08-01 | 2018-11-30 | 龙口味美思环保科技有限公司 | 一种给袋式食品全自动包装机的智能调控方法 |
Also Published As
Publication number | Publication date |
---|---|
US20040040621A1 (en) | 2004-03-04 |
JP2004029754A (ja) | 2004-01-29 |
US7315816B2 (en) | 2008-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3950930B2 (ja) | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 | |
JP4496379B2 (ja) | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 | |
WO2014153800A1 (zh) | 语音识别系统 | |
WO2013138747A1 (en) | System and method for anomaly detection and extraction | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
US7533017B2 (en) | Method for recovering target speech based on speech segment detection under a stationary noise | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN111312275B (zh) | 一种基于子带分解的在线声源分离增强系统 | |
JP4496378B2 (ja) | 定常雑音下における音声区間検出に基づく目的音声の復元方法 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
de-La-Calle-Silos et al. | Synchrony-based feature extraction for robust automatic speech recognition | |
Shao et al. | Robust speaker recognition using binary time-frequency masks | |
Vanjari et al. | Enhancement of Speech for Hearing Aid Applications Integrating Adaptive Compressive Sensing with Noise Estimation Based Adaptive Gain | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
Al-Ali et al. | Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions | |
Longueira et al. | A fully convolutional neural network approach to end-to-end speech enhancement | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
Minipriya et al. | Review of ideal binary and ratio mask estimation techniques for monaural speech separation | |
Shareef et al. | Comparison between features extraction techniques for impairments arabic speech | |
Muhsina et al. | Signal enhancement of source separation techniques | |
KR20100056859A (ko) | 음성 인식 장치 및 방법 | |
Hepsiba et al. | Computational intelligence for speech enhancement using deep neural network | |
JP2001249676A (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Heckmann et al. | Pitch extraction in human-robot interaction | |
Nirmaladevi et al. | Investigation of Denoising of Speech Signal using WaveShrink Method in Deaf Persons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040310 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20051228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070227 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070322 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110511 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |