JP6129316B2 - 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 - Google Patents

情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 Download PDF

Info

Publication number
JP6129316B2
JP6129316B2 JP2015528886A JP2015528886A JP6129316B2 JP 6129316 B2 JP6129316 B2 JP 6129316B2 JP 2015528886 A JP2015528886 A JP 2015528886A JP 2015528886 A JP2015528886 A JP 2015528886A JP 6129316 B2 JP6129316 B2 JP 6129316B2
Authority
JP
Japan
Prior art keywords
speech
probability
sound
speech probability
estimate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015528886A
Other languages
English (en)
Other versions
JP2015526767A (ja
Inventor
エマヌエル・ハベツ
マヤ・タセスカ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2015526767A publication Critical patent/JP2015526767A/ja
Application granted granted Critical
Publication of JP6129316B2 publication Critical patent/JP6129316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、オーディオ信号処理に関し、かつ具体的には、情報に基づいて多チャネル音声存在確率を推定するための装置および方法に関する。
オーディオ信号処理はますます重要となっている。具体的には、多くのヒューマン−マシンインタフェースおよび通信システムにおいて、音声のハンズフリーな捕捉が必要とされている。内蔵式の音響センサは、通常、望まれる音(例えば、音声)と、望まれていない音(例えば、周囲雑音、干渉話者、残響音およびセンサ雑音)とが混合したものを受信する。望まれていない音は、望まれる音の品質と了解度を低下させることから、音響センサの信号は、望まれる音源信号を抽出するために、又は言い替えれば、望まれていない音信号を減らすために、処理(例えば、フィルタ・アンド・サム)される場合がある。このようなフィルタを計算するために、通常、雑音の電力スペクトル密度(PSD)行列の正確な推定が必要とされる。実際には、雑音信号は観測不可であり、そのPSD行列は、雑音の多い音響センサ信号から推定する必要がある。
雑音PSDの推定(例えば、非特許文献[1−5]参照)および雑音低減と音声歪とのトレードオフの制御(例えば、非特許文献[6、7]参照)には、単チャネル音声存在確率(SPP)推定器が使用されてきた。最近では、雑音PSD行列を推定するために多チャネル事後SPPが使用されている(例えば、非特許文献[8]参照)。さらに、SPP推定は、デバイスの電力消費量を減じるために使用される場合もある。
以下、多チャネル音声処理における十分に確立された信号モデルについて考察する。そのモデルでは、M要素アレイの各音響センサが望まれる信号と望まれていない信号の加法混合を捕捉する。m番目の音響センサにおいて受信される信号は、時間−周波数領域において、次のように記述することができる。
m(k,n)=Xm(k,n)+Vm(k,n) (1)
但し、Xm(k,n)およびVm(k,n)は、各々、m番目の音響センサにおける望まれる音源信号、雑音成分の複素スペクトル係数を示し、nおよびkは各々時間指数および周波数指数である。
望まれる信号は、例えば、マイクロフォンを通じて空間的にコヒーレントであるとすることができ、雑音の空間的コヒーレンスは、例えば、理想的な球状等方性音場の空間的コヒーレンスに従うとすることができる。非特許文献[24]を参照されたい。
言い替えれば、例えば、Xm(k,n)はm番目の音響センサにおける望まれる音源信号の複素スペクトル係数を示し、Vm(k,n)はm番目の音響センサにおける雑音成分の複素スペクトル係数を示し、nは時間指数を示し、kは周波数指数を示すものとすることができる。
観測される雑音の多い音響センサ信号は、ベクトル表記法において、
y(k,n)=[Y1(k,n)...YM(k,n)]T (2)
と書くことができ、かつy(k,n)の電力スペクトル密度(PSD)行列は、
Φyy(k,n)=E{y(k,n)yH(k,n)}, (3)
と定義される。但し、上付き文字Hは、行列の共役転置行列を示す。ベクトルx(k,n)およびv(k,n)、並びに行列Φxx(k,n)およびΦvv(k,n)も、同様に定義される。望まれる信号および望まれていない信号は、無相関かつゼロ平均であることが想定され、よって、公式(3)を、
Φyy(k,n)=Φxx(k,n)+Φvv(k,n) (4)
と書くことができる。
所定の時間−周波数ビンにおける望まれる信号(例えば、音声信号)の存在に関しては、次の標準仮説を導入する。
0(k,n):y(k;n)=v(k;n) 音声の不在を示す、
1(k,n):y(k;n)=x(k;n)+v(k;n) 音声の存在を示す。
これは、例えば、条件付き事後SPP、即ち、p[H1(k,n)│y(k,n)]を推定するために評価できる。
アレイのi番目のマイクロフォンを基準にすれば、これは、例えば、望まれる信号Xi(n,k)を推定するために評価できる。
望まれる成分と望まれていない成分は複素多変量ガウス確率変数としてモデリングすることができるという仮定に基づけば、多チャネルSPP推定値は、
によって与えられる(非特許文献[9]参照)。但し、q(k,n)=p[H1(k,n)]は事前音声存在確率(SPP)を示し、
である。ここで、tr{・}はトレース演算子を示す。また、別のタイプの分布(例えば、ラプラス分布)を仮定する別の推定器も導出でき、使用できる。
この多チャネルSPPは、望まれる信号PSD行列の階数が1である[例えば、
但し、
φxixi(k,n)=E{|Xi(k,n)|2}
でありかつγiは、長さMの列ベクトルを示す]という仮定に基づく場合にのみ、単チャネルSPP推定器を最小分散無歪応答(MVDR:minimum variance distortionless response)ビームフォーマの出力へ適用することによって得ることができる。
従来技術の手法は、一定の事前SPP(非特許文献[4,9])、又は単チャネルもしくは多チャネルの事前信号対雑音比(SNR)に依存する値(非特許文献[2,8,10]参照)の何れかを用いる。Cohen他(非特許文献[10])は、推定される単チャネル事前SNRの時間−周波数分布に基づく3つの変数、Plocal(k,n),Pglobal(k,n),およびPframe(n)を用いて、次式により与えられる事前SPPを計算する。
q(k,n)=Plocal(k,n)Pglobal(k,n)Pframe(n) (8)
これらの変数は、連続する時間フレームの隣接する周波数ビンにおける音声存在の強い相関関係を利用している。従来技術による他の手法(非特許文献[11]参照)においては、これらの変数は対数エネルギー領域で計算される。従来技術によるさらに他の手法(非特許文献[8]参照)においては、代わりに多チャネル事前SNRを用いてPlocal(k,n),Pglobal(k,n)およびPframe(n)が計算されている。
従来技術によるSPP推定器の主たる欠点は、望まれる音と望まれていない音とを区別できないことにある。
[1] I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Process. Lett., vol. 9, no. 1, pp. 12-15, Jan. 2002. [2] I. Cohen, "Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging," IEEE Trans. Speech Audio Process., vol. 11, no. 5, pp. 466-475, Sep. 2003. [3] "Apparatus and method for computing speech absence probability, and apparatus and method removing noise using computation apparatus and method," U.S. Patent No. US 7,080,007 B2, Jul. 18, 2006. [4] T. Gerkmann and R. C. Hendriks, "Noise power estimation base on the probability of speech presence," in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY, 2011. [5] "Wind noise suppression," US Patent Application Publication Pub. No. US 2011/0103615 A1, May 5, 2011. [6] K. Ngo, A. Spriet, M. Moonen, J. Wouters, and S. Jensen, "Incorporating the conditional speech presence probability in multi-channel Wiener filter based noise reduction in hearing aids," EURASIP Journal on Applied Signal Processing, vol. 2009, p. 7, 2009. [7] T. Yu and J. Hansen, "A speech presence microphone array beamformer using model based speech presence probability estimation," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2009, pp. 213-216. [8] M. Souden, J. Chen, J. Benesty, and S. Affes, "An integrated solution for online multichannel noise tracking and reduction," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, pp. 2159 - 2169, 2011. [9] M. Souden, J. Chen, J. Benesty, and S. Affes, "Gaussian model-based multichannel speech presence probability," IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 1072-1077, July 2010. [10] I. Cohen and B. Berdugo, "Microphone array post-filtering for non-stationary noise suppression," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Orlando, Florida, USA, May 2002, pp. 901-904. [11] "Method for estimating priori SAPbased on statistical model," US Patent Application Publication Pub. No. US 2008/0082328 A1, Apr. 3, 2008. [12] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphones," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312. [13] I. Cohen, "Relative transfer function identification using speech signals," IEEE Trans. Speech Audio Process., vol. 12, no. 5, pp. 451{459, Sep. 2004. [14] S. Gannot and I. Cohen, "Adaptive beamforming and postfiltering," in Springer Handbook of Speech Processing, J. Benesty, M. M. Sondhi, and Y. Huang, Eds. Springer-Verlag, 2007, ch. 48. [15] A. Spriet, M. Moonen, and J. Wouters, "Spatially pre-processed speech distortion weighted multi-channel Wiener filtering for noise reduction," Signal Processing, vol. 84, no. 12, pp. 2367-2387, Dec. 2004. [16] J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing. Berlin, Germany: Springer-Verlag, 2008. [17] S. Mehrez, J. Benesty, and S. Affes, "On optimal frequency-domain multichannel linear filtering for noise reduction," IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 2, pp. 260-276, 2010. [18] J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011. [19] Henry Stark, John W. Woods: Probability and Random Processes with Applications to Signal Processing [20] A. Papoulis, U. Pillai: Probability, Random Variables and Stochastic Processes [21] E. A. P. Habets, I. Cohen, and S. Gannot, "Generating nonstationary multisensor signals under a spatial coherence constraint," Journal Acoust. Soc. of America, vol. 124, no. 5, pp. 2911-2917, Nov. 2008 [22] E. A. P. Habets, "Room impulse response generator," Tech. Rep., Technische Universiteit Eindhoven, 2006. [23] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, "Perceptual evaluation of speech quality (PESQ) - a new method for speech quality assessment of telephone networks and codecs," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2001, vol. 2, pp. 749-752. [24] G. W. Elko, "Spatial coherence functions," in Microphone Arrays: Signal Processing Techniques and Applications, M. Brandstein and D. Ward, Eds., chapter 4, pp. 61-85. Springer-Verlag, 2001.
本発明の目的は、情報に基づく多チャネル音声存在確率推定を提供するための改良された概念を提供することにある。
本発明のこの目的は、請求項1に記載の装置、請求項19に記載の方法および請求項20に記載のコンピュータプログラムによって解決される。
以下の説明では、「シーン」という用語を用いる。シーンは、音場が生成される環境である。シーンに関する空間的情報は、例えば、音場を生成する1つ以上の音源の位置に関する情報、音響センサの位置に関する情報、音源から音響センサまでの距離に関する情報、話者もしくは人間の口が検出されるかどうかに関する情報、および/又は話者もしくは人間の口が音響センサの近傍に存在するかどうかに関する情報を含むことができる。
音場は、例えば、ある環境、例えば音場が存在する環境、における各位置での音圧によって特徴づけることができる。例えば、音場は、ある環境、例えば音場が存在する環境、における各位置での音圧の振幅によって特徴づけることができる。又は、スペクトル領域もしくは時間−周波数領域が考察される場合、音場は、例えば、ある環境、例えば音場が存在する環境における各位置での複素音圧によって特徴づけることができる。例えば、音場を特徴づける環境における位置での音圧は、例えば1つ以上の音響センサによって、例えば1つ以上のマイクロフォンによって記録することができる。音場に関する空間的情報は、例えば、到来方向ベクトル、又は例えば、環境内の位置での音場を特徴づける音圧を記録する1つ以上の音響センサの記録によって決定される直接音と拡散音とのエネルギー比を含むことができる。
音声確率推定を提供するための装置を提供する。本装置は、あるシーンの音場が音声を含むかどうか又は前記音場が音声を含まないかどうかに関する第1の確率を示す音声確率情報を推定するための第1の音声確率推定器(事前音声存在確率推定器に等しいものであってもよい)を備えている。さらに、本装置は、音声確率情報に依存して音声確率推定を出力するための出力インタフェースを備えている。第1の音声確率推定器は、少なくとも音場に関する空間的情報又はシーンに関する空間的情報を基礎として第1の音声確率情報を推定するように構成されている。
条件付き事後SPPの計算において、音響センサ信号および恐らくは非音響センサ信号から導出される事前情報を活用することにより、従来技術の欠点を克服するための概念を提供する。具体的には、音場に関する空間的情報、例えば方向性、近接性およびロケーション等が利用される。
変数Pa、Pbおよび/又はPc、Plocal(k,n)、Pglobal(k,n)および/又はPframe(n)が決定されることがある。
コンバイナを用いて音声確率情報を得るために、変数Pa、Pbおよび/又はPcと、他の既知の変数、例えばPlocal(k,n)、Pglobal(k,n)および/又はPframe(n)とのあらゆる組合せ(例えば、積、和、加重和)を使用できる点に留意することは重要である。また、これは、変数Pa、Pb又はPcのみを用いて音声確率情報を得ることも可能であることも意味する。
以下、これらの変数の意味についてさらに説明する。
可能性のある変数の組合せ、例えば、
a)q=Pc(例えば、センサの近傍にオブジェクトが存在する場合をPc=0.7と仮定すると、何れのアクティブな音源も(近接性に関わらず)1−0.7=0.3の事前SPPをもつ望まれる音源とされる)
b)q=PaPc(例えば、センサの近くにオブジェクトが存在しかつDDRが十分に高ければ、音は望まれる音とされる)
c)q=PbPc(例えば、センサの近くにオブジェクトが存在しかつ音源のロケーションが対象エリア、例えば到来方向範囲、内であれば、音は望まれる音とされる)
d)q=PaPbPc(例えば、センサの近くにオブジェクトが存在し、観測される音のDDRが十分に高くかつ音源のロケーションが対象エリア内であれば、音は望まれる音とされる)、
は、何れも使用可能である。
ある実施形態によれば、本装置は、さらに、音場が音声を含むかどうか又はその音場が音声を含まないかどうかに関する第2の確率を示す音声確率を推定するための第2の音声確率推定器を備えることができる。第2の音声確率推定器は、第1の音声確率推定器により推定される音声確率情報に基づいて、かつ音場に依存する1つ以上の音響センサ信号に基づいて音声確率を推定するように構成することができる。
別の実施形態において、第1の音声確率推定器は、音声確率情報を、方向性情報に基づいて推定するように構成することができ、方向性情報は音場の方向性の音が如何なるものかを示す。他の方法として又はそれに加えて、第1の音声確率推定器は、音声確率情報を、ロケーション情報に基づいて推定するように構成してもよく、ロケーション情報はシーンの音源の少なくとも1つのロケーションを示す。さらに他の方法として又はそれに加えて、第1の音声確率推定器は、音声確率情報を、近接性情報に基づいて推定するように構成してもよく、近接性情報は少なくとも1つの近接センサに対する少なくとも1つの(可能な)音オブジェクトの少なくとも1つの近接性を示す。
さらなる実施形態によれば、第1の音声確率推定器は、音声確率を、直接音対拡散音比の直接音対拡散音比推定を空間的情報として決定することにより推定するように構成しててもよく、直接音対拡散音比は音響センサ信号に包含される拡散音に対する、音響センサ信号により包含される直接音の割合を示す。
別の実施形態において、第1の音声確率推定器は、直接音対拡散音比推定を、音響センサ信号の第1の音響信号と音響センサ信号の第2の音響信号との間の複素コヒーレンスのコヒーレンス推定を決定することにより決定するように構成してもよい。第1の音響信号は第1の音響センサpにより記録されるものであり、第2の音響信号は第2の音響センサqにより記録されるものである。第1の音声確率推定器は、さらに、直接音対拡散音比を、第1の音響信号と第2の音響信号との間の直接音の位相シフトの位相シフト推定に基づいて決定するように構成してもよい。
一実施形態によれば、第1の音声確率推定器は、第1の音響信号と第2の音響信号との間の直接音対拡散音比推定
を、公式、
を適用することにより決定するように構成してもよい。
は時間−周波数ビン(k,n)に対する第1の音響信号と第2の音響信号との間の複素コヒーレンスのコヒーレンス推定とすることができ、nは時間を示し、kは周波数を示す。
θ(k,n)は時間−周波数ビン(k,n)に対する第1の音響信号と第2の音響信号との間の直接音の位相シフトの位相シフト推定とすることができ、Γpq,diff(k)は純粋な拡散音場における音響センサpと音響センサqとの間の空間的コヒーレンスに対応することができる。
関数Γpq,diff(k)は、想定される拡散音場に依存して、測定されたものであってもよく、事前に計算されたものであってもよい。
別の実施形態において、第1の音声確率推定器は、音声確率情報を、
を決定することによって推定するように構成してもよい。ここで、
は直接音対拡散音比推定とすることができ、
は直接音対拡散音比推定を0から1までの間の値へマッピングすることを表すマッピング関数とすることができる。
別の実施形態において、マッピング関数
は、公式、
によって定義することができる。ここで、lminはマッピング関数の最小値、lmaxはマッピング関数の最大値、cはΓ軸に沿ったオフセットを制御するための値とすることができ、ρはlminとlmaxとの間の遷移の険しさを定義するものとすることができる。
さらなる実施形態によれば、第1の音声確率推定器はロケーション変数Pbを公式
を用いて決定するように構成してもよい。ここで、Ωは特定のロケーション、
は推定されたロケーション、
は条件付き確率密度関数、P(Ω)はΩの事前確率密度関数、

の確率密度関数であり、ΣΩはΩの推定に関連づけられる不確定性を示し、R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
別の実施形態において、第1の音声確率推定器は、音声確率情報q(k,n)を公式
を適用することにより決定するように構成してもよい。ここで、θは特定の到来方向、
は推定された到来方向、
は条件付き確率密度関数、p(θ)はθの事前確率密度関数、

の確率密度関数であり、σはθの推定に関連づけられる不確定性を示し、
は直接音対拡散音比推定
の0から1までの間の値へのマッピングを表し、R(θ)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
さらなる実施形態において、第1の音声確率推定器は近接変数を空間的情報として決定するように構成してもよい。そこでは、近接変数は、第1の音声確率推定器が近接センサから予め規定された距離内に1つ以上の音源の可能性を検出する場合に第1の変数値を有し、第1の音声確率推定器が近接センサに直近する音源の可能性を検出しない場合に第1の変数値より小さい第2の変数値を有する。第1の音声確率推定器は、近接変数が第1の変数値を有する場合に第1の音声確率値を音声確率情報として決定するように構成され、近接変数が第2の変数値を有する場合に第2の音声確率値を音声確率情報として決定するように構成される。第1の音声確率値は音場が音声を包含する第1の確率を示し、第1の確率は、音場が音声を包含する第2の確率より大きい。第2の確率は第2の音声確率値によって示される。
一実施形態では、雑音電力スペクトル密度推定を決定するための装置が提供され、本装置は、これまでに述べた実施形態のうちの1つによる装置と、雑音電力スペクトル密度推定ユニットとを備える。これまでに述べた実施形態のうちの1つによる装置は、音声確率推定を雑音電力スペクトル密度推定ユニットへ提供するように構成することができる。雑音電力スペクトル密度推定ユニットは、雑音電力スペクトル密度推定を、音声確率推定および複数の入力オーディオチャネルに基づいて決定するように構成される。
さらなる実施形態では、指向性ベクトルを推定するための装置が提供され、本装置は、これまでに述べた実施形態のうちの1つによる装置と、指向性ベクトル推定ユニットとを備える。これまでに述べた実施形態のうちの1つによる装置は、音声確率推定を指向性ベクトル推定ユニットへ提供するように構成することができる。指向性ベクトル推定ユニットは、指向性ベクトルを、音声確率推定および複数の入力オーディオチャネルに基づいて推定するように構成することができる。
別の実施形態によれば、多チャネル雑音を低減するための装置が提供され、本装置は、これまでに述べた実施形態のうちの1つによる装置と、フィルタユニットとを備える。フィルタユニットは、複数のオーディオ入力チャネルを受け入れるように構成することができる。これまでに述べた実施形態のうちの1つによる装置は、音声確率情報をフィルタユニットへ提供するように構成することができる。フィルタユニットは、音声確率情報および複数の入力オーディオチャネルに基づいてフィルタリングされたオーディオチャネルを取得するために、複数のオーディオ入力チャネルをフィルタリングするように構成することができる。
一実施形態において、第1の音声確率推定器は、トレードオフ変数を生成するように構成することができ、トレードオフ変数は音場に関する空間的情報又はシーンに関する空間的情報に依存する。
さらなる実施形態によれば、フィルタユニットはトレードオフ変数に依存して複数のオーディオ入力チャネルをフィルタリングするように構成することができる。
アレイに渡って強くコヒーレントである音を無条件に抽出するための概念を提案する。事後SPPに基づく多チャネル雑音PSD行列推定器を提供する。従来技術とは対照的に、事前SPPの決定にはDDRの推定が使用される。さらに、PMWFのトレードオフ変数を制御するために、推定されたDDRを用いることを提案する。さらに、提案するDDR制御式PWMFは、SNRの分節的改善およびPESQの改善に関して、MVDRビームフォーマおよびMWFを凌ぐことを実証する。
一実施形態では、音声確率推定を提供するための方法が提供される。本方法は、
音場が音声を包含するかどうか又はその音場が音声を包含しないかどうかに関する第1の確率を示す音声確率情報を推定することと、
前記音声確率情報に依存して音声確率推定を出力すること、を含む。
第1の音声確率情報の推定は、少なくとも音場に関する空間的情報又はシーンに関する空間的情報に基づいている。
さらに、コンピュータ又は信号プロセッサ上で実行される場合に上述の方法を実装するためのコンピュータプログラムも提供する。
実施形態は、従属請求項において規定されている。
以下、図面を参照して、本発明の実施形態をさらに詳細に述べる。
図1は、一実施形態による、音声確率推定を提供するための装置を示す。 図2は、別の実施形態による、音声確率推定を提供するための装置を示す。 図3は、一実施形態による、情報に基づく多チャネル事後SPP推定器を示すブロック図である。 図4は一実施形態による事前SPP推定器を示すブロック図である。 図5は、一実施形態による、DDR Γから変数Pa、即ちlmin=0.2、lmax=0.8、ρ=2、c=3、へのマッピングを示す。 図6は、一実施形態による、対象エリアを決定するためにユーザ/アプリケーション設定を用いる、Pbの推定器を示すブロック図である。 図7は、一実施形態による、対象エリアを決定するために音響および非音響データを用いる、Pbの推定器を示すブロック図である。 図8は、一実施形態による、雑音電力スペクトル密度推定を決定するための装置を示す。 図9は、さらなる実施形態による、提案する雑音PSD行列推定器を示すブロック図である。 図10Aは一実施形態による指向性ベクトルを推定するための装置を示す。 図10Bは一実施形態による指向性ベクトル推定器を示すブロック図である。 図11は、一実施形態による、多チャネル雑音を低減するための装置を示す。 図12はDDRからトレードオフ変数β=1−Pa(lmin=0、lmax=5、ρ=2、c=0)へのマッピングを示す。 図13は定常雑音(左)およびバブル雑音(右)のPESQの改善を示す。 図14は定常雑音(左)およびバブル雑音(右)のSNR利得を示す。 図15はバブル雑音(Si=11dB)の模範的なスペクトル写真を示す。 図16は推定されたDDRおよび対応するSPPを示す(Si=11dB)。
図1は、一実施形態による、音声確率推定を提供するための装置を示す。本装置は、あるシーンの音場が音声を包含するかどうか又はその音場が音声を包含しないかどうかについての第1の確率を示す音声確率情報を推定するための第1の音声確率推定器110を備えている。さらに、本装置は、音声確率情報に依存して音声確率推定を出力するための出力インタフェース120を備えている。第1の音声確率推定器110は、第1の音声確率情報を、少なくとも音場に関する空間的情報又はシーンに関する空間的情報に基づいて推定するように構成されている。
シーンは音場が生成される環境である。シーンに関する空間的情報は、例えば、音場を生成する1つ以上の音源の位置に関する情報、音響センサの位置に関する情報、音源から音響センサまでの距離に関する情報、話者もしくは人間の口が検出されるかどうかに関する情報、および/又は話者もしくは人間の口が音響センサの近傍に存在するかどうかに関する情報を含むことができる。
音場に関する空間的情報は、例えば、音場の方向性の音が如何なるものかを示す方向性情報とすることができる。例えば、方向性情報は、後述するような直接音対拡散音比(DDR)とすることができる。
図2は、別の実施形態による、音声確率推定を提供するための装置を示す。本装置は、第1の音声確率推定器210と、出力インタフェース220とを備えている。さらに、本装置は、音場が音声を包含するかどうか又はその音場が音声を包含しないかどうかについての第2の確率を示す音声確率推定を推定するための第2の音声確率推定器215を備えている。第2の音声確率推定器215は、音声確率推定を、第1の音声確率推定器により推定された音声確率情報に基づいて、かつ1つ以上の音響センサ信号に基づいて推定するように構成されている。音声確率情報と音響センサ信号は音場に依存する。
この目的のために、第1の音声確率推定器は、音場に関する空間的情報および/又はシーンに関する空間的情報を受信する。第1の音声確率推定器210は、次に、シーンの音場が音声を包含するかどうか又はその音場が音声を包含しないかどうかについての第1の確率を示す音声確率情報を推定する。第1の音声確率推定器210は、次に、音声確率情報を第2の音声確率推定器215へ供給することができる。その上、第2の音声確率推定器215は1つ以上の音響センサ信号をさらに受信することができる。第2の音声確率推定器215は、次に、音声確率推定を、第1の音声確率推定器210により推定された音声確率情報に基づいて、かつ1つ以上の音響センサ信号に基づいて推定する。音声確率情報と音響センサ信号は音場に依存する。
従来技術とは対照的に、とりわけ、音声確率の推定は、空間的情報に基づいて実行される。これは、音声確率の推定を著しく向上させる。
次に、所定の時間−周波数ビンにおける望まれる音声信号の存在に関する以下の仮定を導入する。
0(k,n):y(k,n)=v(k,n)は、望まれる音声の不在を示し、
1(k,n):y(k,n)=x(k,n)+v(k,n)は、望まれる音声の存在を示す。
言い替えれば、H0(k,n)は望まれる音声が存在しないことを示し、H1(k,n)は望まれる音声が存在することを示す。
図3は情報に基づく多チャネルSPP推定器を示すブロック図である。モジュール「条件付き事後SPPの計算」は、公式(5)を実装することができる。
図3において、モジュール310は、「事前SPPの計算」の実装を実現する。図3の実施形態において、「事前SPPの計算」モジュール310として、図2の第1の音声確率推定器210の特定の実施例を実装することができる。さらに、図3において、モジュール315は、「条件付き事後SPPの計算」の実装を実現する。図3の実施形態において、「条件付き事後SPPの計算」モジュール315として、図2の第2の音声確率推定器215の特定の実施例を実装することができる。
図4には、ある特定の実施形態による「事前SPPの計算」モジュール310の一実装が示されている。図4において、ユーザ/アプリケーション設定は、モジュール401、……、40Pにおける変数の計算に利用できる。ユーザ/アプリケーション設定は、コンバイナ411へも提供することができる。ここでは、音響センサデータおよび非音響センサデータ、ならびにユーザ/アプリケーション設定を用いてP個の変数が計算される。変数P1……PPは、事前SPPq(k,n)を計算するために、コンバイナ411によって結合(例えば、加重和、積、最大比コンバイナ)される。
以下の小項目では、情報に基づく多チャネルSPPに必要とされる事前SPPを計算するために使用可能な3つの変数を提示する。
以下、とりわけ、方向性に基づく変数Paを規定する。
望まれる音は方向性であり、望まれていない音は無方向性である、と仮定することは妥当である。したがって、観測される音の方向性の度合いを示すために変数が使用される。音場の方向性を測定する1つの可能性は、直接音対拡散音比(DDR)である。DDRの推定は、非特許文献[12]に示されているような複素コヒーレンス(CC)によって得ることができる。音響センサpおよびqで測定される2信号間の複素コヒーレンスは、時間−周波数領域において、
として定義される。ここで、φpq(k,n)は交差PSDであり、φpp(k,n)およびφqq(k,n)は2信号の自己PSDである。非特許文献[12]におけるDDR推定器は、任意の位置および時間−周波数ビンにおける音圧が、単一の単色平面波によって表される直接音と理想の拡散場との重畳としてモデリングされる音場モデルに基づいている。全方向性の音響センサを想定すると、CC関数は、
として表すことができる。ここで、θ(k,n)は2音響センサ間の直接音の位相シフトであり、Γ(k,n)はDDRを示し、Γpq,diff(k)=sin(κd)/κdは理想的な球状等方性音場のCCであって、κは周波数指数kにおける波数に相当し、dは音響センサpおよびq間の距離に相当する。関数Γpq,diff(k)は測定から生じることもあり得る。(9)式を用いてΓpq(k)を計算するために必要とされるPSDは時間的平均によって概算され、直接音の位相シフトθ(k,n)は推定された雑音の多いPSD、即ち
から得ることができる。
次に、DDRΓ(k,n)は、推定された
および推定された位相シフト
に関連して、次式のように表すことができる。
アプリケーション又は音響的シナリオ(屋内又は屋外)に依存して、CC関数Γpq,diff(k)は別の雑音場に相当する空間的コヒーレンスで置換することもできる。3つ以上の音響センサを利用できる場合は、区別可能な音響センサペアにより取得されるDDR推定を結合することができる。
明らかに、低値の
は方向性音源の不在を示し、高値の
は方向性音源の存在を示す。この観測に基づくと、
は、事前SPPを取得するために使用される、Paで示される変数を計算するために使用できる。一例示的なマッピング関数は、
によって与えられる。ここで、lminおよびlmaxは本関数が達成できる最小値および最大値を決定し、c(単位、dB)は、Γ軸に沿ったオフセットを制御し、ρはlminおよびlmax間の遷移の険しさを定義する。
図5は、DDRΓから変数Pa(lmin=0.2、lmax=0.8、ρ=2、c=3)へのマッピング(12)を示す。
最終的に、変数は、
によって与えられる。
事前SPPは、例えば、

によって、又は、
によって得ることができる。
マッピング関数の変数は、低DDRが低SPPに相当し、高DDRが高SPPに相当するように選定される。
以下では、とりわけ、ロケーションおよび不確定性に基づく変数Pbを規定する。
実施形態によれば、瞬間ロケーション推定および関連の不確定性により取得される変数が計算される。「ロケーション」という用語は、二次元および三次元ロケーションだけでなく、一次元ロケーション(DOAのみ)も指す。ロケーションはデカルト座標(即ち、x、yおよびz位置)又は球座標(即ち、方位角、仰角および距離)で記述することができる。
特定の条件下、例えば、DDR、SNR、DOA、アレイ形状、並びにロケーション変数およびDDR用に使用される推定器といった条件下では、特定のロケーションにおける音源の推定ロケーションの確率分布を記述する経験的な確率密度関数(PDF)を見出すことができる。この経験的PDFの計算には、トレーニング位相が使用される。次に、解析的PDF(例えば、一次元事例におけるガウスPDF、並びに二次元および三次元事例における多変量ガウスPDF)が、音源ロケーションおよび特定の条件毎に推定ロケーション変数へ当てはめられる。
この例において、PDFは
で示される。ここで、行列ΣはΩの推定に関連づけられる不確定性を記述する。このデータから、前述の条件を不確定性Σへマッピングする多次元マッピング関数fΣが導出される。さらに、周辺確率p(Ω)および
も、トレーニング位相において計算することができる。例えば、p(Ω)は可能な音源ロケーションに関する事前情報に基づいてモデリングすることができるのに対して、
はトレーニング位相の間に推定を観測することによって計算することができる。
さらに、対象エリアを関数R(Ω)によって定義する。ロケーション変数として距離が使用される場合、望まれる音源のロケーションを決定する最小および最大距離を定義することができる。あるいは、望まれる距離範囲は、深度センサ又は飛行時間センサから自動的に引き出すことができる。この場合、望まれる範囲は、予め規定された偏差およびユーザ/アプリケーションが規定する限度だけでなく、深度プロファイルの平均および変動に基づいても選定することができる。
提案する変数の計算は次の通りである。
1.観測される音響信号y(k,n)を用いて、条件(例えば、瞬間ロケーション変数
、瞬間方向性D(k,n)およびSNR)を推定する。
2.望まれる音源の対象エリアが、i)ユーザ/アプリケーションによって(図6参照)、又はii)音響センサデータおよび非音響センサデータを解析することによって(図7参照)決定される。後者の場合、R(Ω,n)で示される対象エリアは時変性である。画像は、例えば、話者の口のロケーションを決定するために解析することができる。話者の識別だけでなく、顔およびオブジェクトの検出も、望まれる音源と望まれていない音源を定義するために使用することができる。本アプリケーションは、望まれる音源/オブジェクトおよび望まれていない音源/オブジェクトをユーザインタフェースによりオンラインで選択することを可能にする。先行するp(Ω)は、ユーザ/アプリケーションによって、又は非音響センサを解析することによって決定することができる。
3.ステップ1で計算した条件および多次元マッピング関数fΣに基づいて、対象範囲のあらゆる点の不確定性指標ΣΩを決定する。
4.変数を、
によって計算する。ここで、Sは考慮される全ロケーションの可能性を規定し、R(Ω)は対象エリアを記述する多次元関数(0≦R(Ω)≦1)である。方程式(17)は、ベイズ規則(Bayes rule)に従って式(16)から直に得られ、かつトレーニング位相において推定されるPDFを用いるPbの計算を可能にする。
一次元事例において、
は推定される瞬間DOAを示し、σ(k,n)は関連の不確定性に比例する。例えば、線形的な音響センサアレイが使用されるのであれば、アレイの側面における推定DOAの精度は、アレイの縦方向における推定DOAの精度より高い。したがって、側面方向よりも縦方向で不確定性は大きく、故にσも大きい。また、DOA推定器の性能はSNRに依存することも知られており、低SNRレベルは高SNRレベルよりも大きい推定変動をもたらし、故に、より大きい不確定性をもたらす。この一次元事例において、対象エリアは、例えば、θminとθmaxとの間でアクティブである音源が何れも望まれるものとされるように、
として定義することができる。
事前SPPは、例えば、Pa(k,m)とPb(k,n)とを結合すること、即ち、
によって得ることができる。ここで、f(Γ)は式(12)によって与えられる。
図6は、対象エリアを決定するためにユーザ/アプリケーション設定を用いる、Pbの推定器を示すブロック図である。瞬間ロケーション推定モジュール610は瞬間的なロケーションを推定するように構成されている。不確定性計算モジュール620は不確定性の計算を実行するように構成されている。さらに、変数計算モジュール630は変数の計算を実行するように構成されている。
図7は、対象エリアを決定するために音響および非音響データを用いる、Pbの推定器を示すブロック図である。この場合もやはり、瞬間ロケーション推定モジュール710は瞬間的なロケーションを推定するように構成されている。不確定性計算モジュール720は不確定性の計算を実行するように構成されている。さらに、対象エリア決定モジュール725は対象となるエリアを決定するように構成されている。変数計算モジュール730は変数の計算を実行するように構成されている。
以下では、とりわけ、近接性を基礎とする変数Pcを規定する。
変数Pcはあるオブジェクトの近接センサへの近接性に基づいている。この場合、近接センサのデータは、近接センサの直近にオブジェクトが存在する場合がPc(n)=1であり、センサの近傍にオブジェクトが存在しない場合がPc(n)=Pminであるように、Pc(n)へマッピングされる。但し、Pminは予め定義された下限である。
近接性を示す変数Pcは、古典的な近接センサ(多くのスマートフォンに使用されるようなもの、http://en.wikipedia.org/wiki/Proximity_sensor参照)から導出することができる。あるいは、この変数は、センサからRメートル以内にオブジェクトが存在することを伝え得る深度センサ又は飛行時間センサの情報に基づくことができる。
ある特定の実施形態において、Pcは近接変数として実装することができる。第1の音声確率推定器は、近接変数Pcを音声確率情報を表す値、例えば音声確率値、へマップするためのマッピングを実装することができる。
近接変数Pcは、例えば、近接センサから予め規定された距離内に1つ以上の音源の可能性が存在する場合に、第1の変数値(例えば、Pc=0.60)をもつことができる。さらに、近接変数Pcは、近接センサから予め規定された距離内に音源の可能性が存在しない場合に、第1の変数値より小さい第2の変数値(例えば、Pc=0.40)をもつことができる。近接変数Pcは、0から1.0までの間の任意の値を、例えば、検出されるオブジェクトの近接性に依存してとることができる。
第1の音声確率推定器は、第1の音声確率値をPcに依存して決定するように構成することができる。
次に、音声確率情報の決定の概要を考察する。
コンバイナを用いて音声確率情報を入手する際に、変数Pa、Pbおよび/又はPcと、他の既知の変数、例えばPlocal(k,n)、Pglobal(k,n)および/又はPframe(n)との任意の組合せ(例えば、積、和、加重和)を使用できる点に留意することは重要である。また、これは、変数Pa、Pb又はPcのみを用いて音声確率情報を得ることも可能であることをも意味する。
可能性のある変数の組合せ、例えば、
a)q=Pc(例えば、センサの近傍にオブジェクトが存在する場合を、Pc=0.7と仮定すると、アクティブな音源(近接性に関わらず)は何れも事前SPPが1−0.7=0.3の望まれる音源とされる)、
b)q=PaPc(例えば、センサの近くにオブジェクトが存在し、かつDDRが十分に高ければ、音は望まれる音とされる)、
c)q=PbPc(例えば、センサの近くにオブジェクトが存在し、かつ音源のロケーションが対象エリア内、例えば到来方向範囲内であれば、音は望まれる音とされる)、
d)q=PaPbPc(例えば、センサの近くにオブジェクトが存在し、観測される音のDDRが十分に高く、かつ音源のロケーションが対象エリア内であれば、音は望まれる音とされる)、
は、何れも使用可能である。
以下では、これまでに述べた概念のアプリケーションの実施形態を提供する。
まず、雑音PSD行列推定について述べる。
非特許文献[2]では、単チャネル事後SPPに基づく軟判定更新規則(soft-decision update rule)を用いる最小制御再帰平均(MCRA:minima controlled recursive averaging)雑音PSD推定器が提案されている。ここでは、式(8)を用いて事前SPPを計算した。非特許文献[4]では類似のSPP推定器が提案されており、そこでは非特許文献[2]の場合のような信号依存の量ではなく一定の事前SPPおよび一定の事前SNRを用いている。Souden他は非特許文献[8]において、多チャネルSPP推定器(非特許文献[9])を用いる多チャネル雑音PSD行列推定器を提案している。非特許文献[8]において、著者らはMCRA雑音PSD推定器に類似する方法で事前SNRを用いて事前SPPを決定している。
従来技術による多チャネルSPP推定器の主たる欠点は、これらが、雑音PSD行列の推定に大きく依存することにある。例えば、空調にスイッチが入ったり、遠い話者が話し始めたりすれば、信号レベルは増大し、そしてSPP推定器は音声の存在を示すことになる。
この点に関し、実施形態は、従来技術とは対照的に、さらに、望まれるものと望まれていないものとの精確な判断を可能にする。
音声存在の不確定性を考慮して、非特許文献[8]により、所定の時間−周波数ビンにおける雑音PSD行列の最小平均二乗誤差(MMSE:minimum mean square error)推定が与えられる。
但し、p[H0(k,n)|y(k,n)]は望まれる音声が不在である条件付き確率を示し、p[H1(k,n)|y(k,n)]は望まれる音声が存在する条件付き確率を示す。
図8は、一実施形態による、雑音電力スペクトル密度推定を決定するための装置を示す。この雑音電力スペクトル密度推定を決定するための装置は、これまでに述べた実施形態のうちの1つによる、音声確率推定を提供するための装置910と、雑音電力スペクトル密度推定ユニット920とを備えている。音声確率推定を提供するための装置910は音声確率推定を雑音電力スペクトル密度推定ユニット920へ提供するように構成されている。雑音電力スペクトル密度推定ユニット920は、雑音電力スペクトル密度推定を、音声確率推定に基づき、かつ複数の入力オーディオチャネルに基づいて決定するように構成されている。
図9は、さらなる実施形態による、雑音PSD行列推定器を示すブロック図である。この雑音PSD行列推定器は、「事前SPPの計算」モジュール912を備えている。「事前SPPの計算」モジュール912は、音声確率推定を提供するための装置の第1の音声確率推定器とすることができる。さらに、この雑音PSD行列推定器は、「条件付き事後SPPの計算」モジュール914を備えている。「条件付き事後SPPの計算」モジュール914は、音声確率推定を提供するための装置の第2の音声確率推定器とすることができる。さらに、この雑音PSD行列推定器は「雑音PSD行列推定」ユニット920を備えている。
実施形態によれば、式(19)を近似する雑音推定技術は、単チャネル事例については非特許文献[2、4]に、多チャネル事例については非特許文献[9]に記述されているように、雑音の多い観測の再帰平均瞬間PSD行列(例えば、y(k,n)yH(k,n))と先行フレームの雑音PSDの推定との加重和を用いる。この推定技術は、次のように表すことができる。
但し、
は推定された雑音PSD行列であり、0≦αv(k,n)≦1は選定された平滑化変数である。式(20)を配列し直すと、次のような更新規則が得られる。
よって、
α'=p[H0(k,n)|y(k,n)][1−αv(k,n)]
である。
雑音PSD行列推定への望まれる音声の漏出をさらに減らすために、推定された変数P1……Ppに基づいてαv(k,n)を計算することを提案する。
非特許文献[4]におけるアルゴリズムとは対照的に、事前SPPは、変数P1……Ppに基づいて、かつ非音響データだけでなく音響データからも推測される時間的、分光的かつ空間的情報を活用する。提案する雑音PSD行列推定器は図10に概説されている。
次に、一実施形態による、雑音PSD行列を推定するための方法を提供する。一実施形態による雑音PSD行列推定器は、このような方法を実装するように構成することができる。
1.変数P1……Ppを計算する。
2.変数P1……Ppを用いて現行フレームの事前SPPq(k,n)を計算する。
3.変数P1……Ppに基づいて平滑化変数αv(k,n)を決定する。
4.式(5)によるp[H1(k,n)|y(k,n)]を、先行フレーム[例えば、
Φvv(k,n−1)]からの推定された雑音PSD行列およびΦyy(k,n)の現行推定を用いて推定する。
但し、αy(k,n)は、平滑化定数を示す。
5.再帰的に平滑化されるSPPを、次のように計算する。
但し、αpは平滑化定数を示す。
6.
であればいつでも、選定される最大値pmax
p[H1(k,n)|y(k,n)]を設定することによって雑音PSD行列更新の淀みを回避する。
7.p[H1(k,n)|y(k,n)]および式(22)を用いて雑音PSD行列を更新する。
以下では、指向性ベクトルの推定について考察する。
図10Aは指向性ベクトルを推定するための装置を示す。指向性ベクトルを推定するためのこの装置は、これまでに述べた実施形態のうちの1つによる、音声確率推定を提供するための装置1010と、指向性ベクトル推定ユニット1020とを備えている。音声確率推定を提供するための装置1010は、音声確率推定を指向性ベクトル推定ユニット1020へ提供するように構成されている。指向性ベクトル推定ユニット1020は、指向性ベクトルを、音声確率推定に基づいて、かつ複数の入力オーディオチャネルに基づいて推定するように構成されている。
図10Bは、さらなる実施形態による、指向性ベクトルを推定するための装置を示すブロック図である。指向性ベクトルを推定するためのこの装置は、「事前SPP推定」モジュール1012を備えている。「事前SPP推定」モジュール1012は、音声確率推定を提供するための装置の第1の音声確率推定器とすることができる。さらに、指向性ベクトルを推定するためのこの装置は、「条件付き事後SPP推定」モジュール1014を備えている。「条件付き事後SPP推定」モジュール1014は、音声確率推定を提供するための装置の第2の音声確率推定器とすることができる。さらに、指向性ベクトルを推定するためのこの装置は、「指向性ベクトル推定」ユニット1020を備えている。
アプリケーションによっては、雑音PSD行列に加えて、又は雑音PSD行列の代わりに、望まれる方向性音源の指向性ベクトルが必要とされる。非特許文献[13]では、単チャネルSPP推定器を用いて2つの音響センサの指向性ベクトルが計算されている。i番目の音響センサが受信する望まれる信号に関連する指向性ベクトルは、
として定義される。但し、(・)*は共役演算子を示し、
φxixi(k,n)=E{|Xi(k,n)|2}であり、かつ
である。
明らかに、指向性ベクトルは、
のi番目の列をとり、かつこれを
のi番目の要素により除することによって得ることができる。定義により、指向性ベクトルγi(k,n)のi番目の要素は1に等しい。
式(4)を用いれば、音源PSD行列を
Φxx(k,n)=Φyy(k,n)−Φvv(k,n)
として表すことができる。したがって指向性ベクトルγi(k,n)は、
として表すことができる。
分子における項は行列
および
のi番目の列として得ることができ、分母における項は列ベクトル
および
のi番目の要素として得ることができる。あるいは、指向性ベクトルγiは行列ペア(Φyy,Φxx)の一般化された固有値分解を計算することにより得ることができる。j番目の一般化された固有値および固有ベクトルペア(λj,bj)の場合、次式が成り立つ。
Φyy(k,n)bj=λjj (28)
これは、式(4)を用いて、
xx(k,n)+Φvv(k,n)]bj=λij (29)
と書くことができる。式(29)を配置し直し、かつΦxxの階数1特性(即ち、
Φxx=φxixiγiγi H)を想起すれば、
ということになり、これは、次式に等しい。
式(31)から、λj≠1であれば、指向性ベクトルγi(k,n)は固有ベクトルbjの回転およびスケーリングされたバージョンを表す、と結論することができる。しかしながら、ここでの階数1という仮定に起因して、一意の固有値λiは、1ではなく、故に、固有ベクトルbjは一意に決定される。最終的に、スケーリングの曖昧さを回避するために、γi(k,n)は、次式のように正規化することができる。
但し、[Φvv(k,n)bj]iは、ベクトルΦvv(k,n)bjのi番目の要素である。情報に基づく多チャネルSPP推定器を使用して、指向性ベクトルは次式のように再帰的に推定される。
但し、α'(k,n)=p[H1(k,n)|y(k,n)][1−αx(k,n)]であり、かつ0<αx(k,n)<1は、適切に選定された平滑化定数である。平滑化定数αxは、時間および周波数依存性であり、よって、例えばSNR又はDDRが低すぎる場合、指向性ベクトルの更新速度を最低限に抑えるために、P1,P2,……,Ppによって制御される。
以下では、多チャネル雑音低減について説明する。
図11は、一実施形態による、多チャネル雑音を低減するための装置を示す。多チャネル雑音を低減するためのこの装置は、これまでに述べた実施形態のうちの1つによる音声確率推定を提供するための装置1110と、フィルタユニット1120とを備えている。フィルタユニット1120は複数のオーディオ入力チャネルを受け入れるように構成されている。音声確率推定を提供するための装置1110は、音声確率情報をフィルタユニット1120へ提供するように構成されている。フィルタユニット1120は、音声確率情報に基づいて複数のオーディオ入力チャネルをフィルタリングしてフィルタリングされたオーディオチャネルを得るように構成されている。
次に、実施形態による多チャネル雑音低減について、さらに詳しく説明する。
SPP推定器は、多チャネル雑音低減ではしばしば使用される(非特許文献[6、7、14])。実施形態による情報に基づく多チャネルSPP推定器も同様に用いることができる。さらに、事前SPPの計算に使用される変数は、雑音低減と音声歪との間のトレードオフの制御に用いることができる。
i番目の音響センサを基準として考察すると、時間−周波数領域の変数多チャネルウィーナフィルタ(PMWF:time-frequency domain Parametric multichannel Wiener filter)は、非特許文献[15−17]によって与えられる。
但し、β(k,n)はトレードオフ変数である。
周知の(空間的)フィルタは、変数多チャネルウィーナフィルタ(PMWF)の特殊事例である。例えば、最小分散無歪応答(MVDR)フィルタはβ=0で得られ、多チャネルウィーナフィルタ(MWF)はβ=1で得られる。式(34)を異なる方法で表すことができ、かつMVDRフィルタおよび単チャネル変数ウィーナフィルタへ分解できることは留意されるべきである(例えば、非特許文献[14、18]およびこれらに記載されている引例参照)。さらに、空間フィルタは指向性ベクトルおよびPSD行列を用いて表すことができる。式(34)におけるフィルタの主たる優位点は、これが、望まれる音源に関連する指向性ベクトル(別名、アレイ・マニフォールド・ベクトル又は伝搬ベクトル)に依存しないことにある。
i番目の音響センサにより受信される望まれる信号の推定は、次式、
によって得られる。
音声存在の不確定下では、望まれる信号の推定を次式に従って得ることができる。
但し、右辺の第2項は、偽陰性決定の場合の音声歪を緩和するものである。利得係数Gmin(k)は、望まれる音声がアクティブでないことが想定される場合に雑音低減の最大量を決定する。
MMSE推定器が音声存在および音声不在の双方の事例に適用され、かつ音声存在事例においては望まれる音声の歪を最小限に抑えることを目的とし、音声不在事例においてはフィルタ出力における残留雑音を最小限に抑えることを目的とすることを望むのであれば、トレードオフ変数(非特許文献[6、7])、
を用いて、事後SPP p[H1(k,n)│y(k,n)]=1のとき、β=0(よって、PMWFはMVDRフィルタに等しい)であり、p[H1(k,n)│y(k,n)]=0.5のとき、β=1(よって、PMWFはMWFに等しい)であり、かつ事後SPP p[H1(k,n)│y(k,n)]がゼロに接近すると、βが無限大に接近するように、式(34)を計算して出す。故に、後者の事例では、残留雑音電力もゼロまで低減する。
図12はDDRからトレードオフ変数β=1−Pa(lmin=0、lmax=5、ρ=2、c=0)へのマッピングを示す。
事前SPPへの直接的適用は、望まれる信号の望ましくない可聴歪に繋がる場合も多くある。本発明は、トレードオフ変数が変数P1,Pp,……,Ppの組合せ(例えば、加重和、積、最大比コンバイナ、他)に依存するPMWFを包含する。変数の結合に使用されるマッピング関数として、事前SPPの計算に使用されるものとは異なるものを使用することができる。
例えば、トレードオフ変数は、観測される音の方向性を反映する変数Pa(k,n)を用いてβ(k,n)=1−Pa(k,n)であるように制御することができる。変数lmin、lmax、ρおよびcは、推定されるDDRが低ければ標準的なMWFより多い雑音低減量を達成すべくβ(k,n)>1を得るように、推定されるDDRが高ければ音声歪を回避すべくβ(k,n)≒0(例えば、MVDRフィルタ(非特許文献[16])に略等しい)を得るように選定される。図12には、トレードオフ変数βのマッピング関数の一例が、β=1−Pa(lmin=0、lmax=5、ρ=2、c=0)で描かれている。
より一般的な実施形態において、トレードオフ変数β(k,n)は、少なくとも音場に関する空間的情報又はシーンに関する空間的情報に依存する。
ある特定の実施形態において、トレードオフ変数β(k,n)は、β(k,n)=f[q(k,n)]によって定義される。但し、qは、第1の音声確率推定器の出力を示す。
特定の実施形態において、トレードオフ変数β(k,n)は、β(k,n)=1−f[Γ(k,n)]によって定義される。
以下では、PMWFの出力において達成される音声強調に関連して、提案するアルゴリズムの性能を評価する。まずは、構成と性能の基準について述べる。
解析は、異なるSNR毎に、かつ300ミリ秒の残響時間に渡って実行した。2種類の雑音を使用した。すなわち、音声の長期PSDに等しい長期PSDを有する定常雑音と非定常のバブル雑音である。双方の事例で、雑音信号のCCは、理想的な拡散場(非特許文献[21])のCCに一致している。
サンプリング周波数は16kHzであり、フレーム長さLは512サンプルであった。シミュレーションは、マイクロフォン間のスペーシングdが2.3cmである4個(M=4)のマイクロフォンよりなる均一な線形アレイについて実行した。望まれる信号は、クリーン音声に、画像音源モデル(非特許文献[22])の効率的な実装を用いて発生された室内インパルス応答(RIR:room impulse responses)を45秒間重畳させることによって得た。DDR推定に要するPSDを、15の時間フレームに渡って平均することにより概算する。これらの実験に、図5および図12Aに示されているような変数を用いたqおよびβのマッピングを用いた。αN、αyおよびαpの再帰平均に用いる平滑化変数αを、各々、0.75、0.8および0.9として選定した。推定される雑音PSD行列により向きを変えられる異なるビームフォーマの出力において、PESQ(音声品質の知覚的評価:Perceptual Evaluation of Speech Quality)スコアの改善(非特許文献[23])および分節的SNR利得を調べた。PESQの改善は、
の逆STFTとY1の逆STFTとのPESQ値の差として計算する。分節的SNRは、信号を10ミリ秒の重なり合わない分節に分割し、かつ得られたSNR値(単位dB)に渡って平均することによって得た。入力および出力における分節的SNRを、各々SiおよびSoで示す。標準的なMVDRおよびウィーナビームフォーマ、DDR制御式PMWF、並びにi=1としたときの式(36)による推定の性能を比較する。
次に、結果を提示する。図13には、ビームフォーマの出力におけるPESQの改善が、入力SNR Siの関数として示されている。提案するMMSE推定器は、標準的なビームフォーマより性能がよいことが分かる。さらに、DDR制御式PMWFは、トレードオフが一定である2つのビームフォーマより性能がよい。本アルゴリズムはバブル雑音の場合にPESQの著しい改善をもたらす。バブル雑音は、その非定常性に起因して多くのアルゴリズムにとって困難な問題を示すものである。その対応する分節的SNR利得が図14に示されている。
第1のマイクロフォンにおける望まれる音源信号、受信された雑音の多い信号、標準的なMWFおよびMMSEベースの推定のスペクトル写真が11秒間の抜粋で図15に示されている。推定されたDDRから事前SPPへの対応するマッピングが図16に示されている。SPPが高い周波数においても正しく推定され、よって、入力されるSNRが低値であるこれらの周波数において音声信号を保全することが分かる。
幾つかの態様を、装置について記述してきたが、これらの態様は対応方法の記述をも表すことは明らかである。方法では、ブロック又はデバイス装置が方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップについて記述された態様も、対応する装置の対応するブロック、アイテム又は特徴の記述を表す。
本発明の分解信号は、デジタル記憶媒体上へ格納することができ、又は無線伝送媒体等の伝送媒体上、又はインターネット等の有線伝送媒体上で伝送することができる。
所定の実装要件に依存して、本発明の実施形態は、ハードウェアにおいて又はソフトウェアにおいて実装することができる。実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(又は協働できる)電子読取り可能制御信号を格納したデジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリ、を用いて実行することができる。
本発明による実施形態の中には、本明細書に記述されている方法のうちの1つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを備えるものがある。
概して、本発明の実施形態はプログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができ、そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると、方法のうちの1つを実行するように作動する。プログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。
他の実施形態は、機械読取り可能キャリア上へ格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い替えれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行される場合に、本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録したデータキャリア(又は、デジタル記憶媒体又はコンピュータ読取り可能媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成又は適合化される処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
実施形態によっては、本明細書に記述されている方法の機能の幾つか又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと協働することができる。概して、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
これまでに述べた実施形態は、単に、本発明の原理を例示するものである。当業者には本明細書に記述されている配置および詳細の変更および変形が明らかとなるものといえる。したがって、意図していることは、本発明は本明細書において実施形態の記述および説明を通じて提示されている特有の詳細ではなく、添付の特許請求の範囲によってのみ限定されるということである。

Claims (19)

  1. 音声確率推定を提供するための装置であって、
    あるシーンの音場が音声を含むかどうかに関して、又はその音場が音声を含まないかどうかに関して、第1の確率を示す音声確率情報を推定するための第1の音声確率推定器(110;210;310)と、
    前記音場が音声を含むかどうかに関して、又は前記音場が音声を含まないかどうかに関して、第2の確率を示す前記音声確率推定を推定するための第2の音声確率推定器(215;315)と、を備え、
    前記第1の音声確率推定器(110;210;310)は、少なくとも前記音場に関する空間的情報又は前記シーンに関する空間的情報に基づいて前記第1の音声確率情報を推定するように構成され
    前記第2の音声確率推定器(215;315)は、前記第1の音声確率推定器(110;210;310)により推定され前記音場に依存する前記音声確率情報に基づいて、かつ前記音場に依存する1つ以上の音響センサ信号に基づいて前記音声確率推定を推定するように構成され、
    前記音声確率情報に依存して前記音声確率推定を出力するための出力インタフェース(120;220)を備えている装置。
  2. 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、前記音場の方向性の音が如何なるものかを示す方向性情報に基づいて推定するように構成されており、
    前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、前記シーンの音源の少なくとも1つのロケーションを示すロケーション情報に基づいて推定するように構成されており、又は、
    前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、少なくとも1つの近接センサに対する少なくとも1つの可能な音オブジェクトの少なくとも1つの近接性を示す近接性情報に基づいて推定するように構成されている請求項1に記載の装置。
  3. 前記第1の音声確率推定器(110;210;310)は、前記音声確率推定を、直接音対拡散音比の直接音対拡散音比推定を前記空間的情報として決定することにより推定するように構成されており、前記直接音対拡散音比は、前記音響センサ信号に包含される拡散音に対する、前記音響センサ信号に包含される直接音の割合を示すものである請求項1又は2に記載の装置。
  4. 前記第1の音声確率推定器(110;210;310)は、前記直接音対拡散音比推定を、前記音響センサ信号の第1の音響信号であって第1の音響センサpにより記録されたものと、前記音響センサ信号の第2の音響信号であって第2の音響センサqにより記録されたものとの間の複素コヒーレンスのコヒーレンス推定を決定することにより決定するように構成され、かつ、
    前記第1の音声確率推定器(110;210;310)は、さらに、前記直接音対拡散音比を、前記第1の音響信号と前記第2の音響信号との間の前記直接音の位相シフトの位相シフト推定に基づいて決定するように構成されている請求項に記載の装置。
  5. 前記第1の音声確率推定器(110;210;310)は、前記第1の音響信号と前記第2の音響信号との間の前記直接音対拡散音比推定
    を、公式
    を適用することにより決定するように構成されている請求項に記載の装置。
    ここで、
    は、時間−周波数ビン(k,n)に対する前記第1の音響信号と前記第2の音響信号との間の前記複素コヒーレンスの前記コヒーレンス推定であり、nは時間を示し、kは周波数を示し、
    θ(k,n)は、前記時間−周波数ビン(k,n)に対する前記第1の音響信号と前記第2の音響信号との間の前記直接音の前記位相シフトの前記位相シフト推定であり、かつ、
    Γpq,diff(k)は、純粋な拡散音場における前記音響センサpと前記音響センサqとの間の前記空間的コヒーレンスに対応する。
  6. 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、
    を決定することによって推定するように構成されている請求項からのいずれか一項に記載の装置。
    ここで、
    は前記直接音対拡散音比推定であり、かつ
    は前記直接音対拡散音比推定の0から1までの間の値へのマッピングを表すマッピング関数である。
  7. 前記マッピング関数
    は、公式、
    によって定義される請求項に記載の装置。
    ここで、lminは前記マッピング関数の最小値であり、lmaxは前記マッピング関数の最大値であり、cはΓ軸に沿ってオフセットを制御するための値であり、かつρはlminとlmaxとの間の遷移の険しさを定義するものである。
  8. 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を得るために、ロケーション変数Pbを、音源の推定されたロケーションの確率分布に基づいて、かつ対象エリアに基づいて決定するように構成される請求項1からのいずれか一項に記載の装置。
  9. 前記第1の音声確率推定器(110;210;310)はロケーション変数Pbを公式、
    を用いて決定するように構成されている請求項に記載の装置。
    ここで、Ωは特定のロケーションであり、
    は推定されたロケーションであり、
    は条件付き確率密度関数であり、
    p(Ω)はΩの事前確率密度関数であり、
    は、
    の前記確率密度関数であり、
    ΣΩはΩの推定に関連づけられる不確定性を示し、かつ、
    R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
  10. 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報としての前記事前音声存在確率q(k,n)を、公式、
    を適用することにより決定するように構成されている請求項からのいずれか一項に記載の装置。
    ここで、θは特定の到来方向であり、
    は推定された到来方向であり、
    は条件付き確率密度関数であり、
    p(θ)はθの前記事前確率密度関数であり、

    の前記確率密度関数であり、
    σはθの推定に関連づけられる前記不確定性を示し、
    は前記直接音対拡散音比推定
    の0から1までの間の値へのマッピングを表し、かつ、
    R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
  11. 前記第1の音声確率推定器(110;210;310)は近接変数を前記空間的情報として決定するように構成され、
    前記近接変数は、前記第1の音声確率推定器(110;210;310)が近接センサから予め規定された距離内に1つ以上の音源の可能性を検出する場合に第1の変数値を有し、前記第1の音声確率推定器(110;210;310)が前記近接センサに直近する音源の可能性を検出しない場合に、前記第1の変数値より小さい第2の変数値を有し、かつ、
    前記第1の音声確率推定器(110;210;310)は、前記近接変数が前記第1の変数値を有する場合に第1の音声確率値を前記音声確率情報として決定し、前記近接変数が前記第2の変数値を有する場合に第2の音声確率値を前記音声確率情報として決定するように構成され、前記第1の音声確率値は前記音場が音声を包含する第1の確率を示し、前記第1の確率は前記音場が音声を包含する第2の確率より大きく、前記第2の確率は、前記第2の音声確率値によって示される請求項1から10のいずれか一項に記載の装置。
  12. 雑音電力スペクトル密度推定を決定するための装置であって、
    請求項1から11のいずれか一項に記載の装置(910)と、
    雑音電力スペクトル密度推定ユニット(920)と、を備え、
    請求項1から11のいずれか一項に記載の前記装置(910)は、前記音声確率推定を前記雑音電力スペクトル密度推定ユニット(920)へ提供するように構成され、かつ、
    前記雑音電力スペクトル密度推定ユニット(920)は、前記雑音電力スペクトル密度推定を、前記音声確率推定および複数の入力オーディオチャネルに基づいて決定するように構成されている、装置。
  13. 請求項1から11のいずれか一項に記載の前記装置(910)は、前記音場に関する空間的情報を示す1つ以上の空間変数を計算するように構成されており、
    請求項1から11のいずれか一項に記載の前記装置(910)は、前記音声確率推定を、前記1つ以上の空間変数を用いて計算するように構成されており、かつ、
    前記雑音電力スペクトル密度推定ユニット(920)は、前記音声確率推定に依存して先行する雑音電力スペクトル密度行列を更新して更新された雑音電力スペクトル密度行列を前記雑音電力スペクトル密度推定として得ることにより前記雑音電力スペクトル密度推定を決定するように構成されている請求項12に記載の装置。
  14. 指向性ベクトルを推定するための装置であって、
    請求項1から11のいずれか一項に記載の装置(1010)と、
    指向性ベクトル推定ユニット(1020)と、を備え、
    請求項1から11のいずれか一項に記載の前記装置(1010)は、前記音声確率推定を前記指向性ベクトル推定ユニット(1020)へ提供するように構成されており、かつ、
    前記指向性ベクトル推定ユニット(1020)は、前記指向性ベクトルを、前記音声確率推定および複数の入力オーディオチャネルに基づいて推定するように構成されている、装置。
  15. 多チャネル雑音を低減するための装置であって、
    請求項1から11のいずれか一項に記載の装置(1110)と、
    フィルタユニット(1120)と、を備え、
    前記フィルタユニット(1120)は複数のオーディオ入力チャネルを受け入れるように構成され、
    請求項1から11のいずれか一項に記載の前記装置(1110)は、前記音声確率情報を前記フィルタユニット(1120)へ提供するように構成されており、かつ、
    前記フィルタユニット(1120)は、前記音声確率情報に基づいて複数のオーディオ入力チャネルをフィルタリングしてフィルタリングされたオーディオチャネルを取得するように構成されている、装置。
  16. 請求項1から11のいずれか一項に記載の前記装置(1110)の前記第1の音声確率推定器(110;210;310)は、前記音場に関する空間的情報又は前記シーンに関する空間的情報を示す少なくとも1つの空間変数に依存するトレードオフ変数を生成するように構成されている請求項15に記載の装置。
  17. 前記フィルタユニット(1120)は、前記トレードオフ変数に依存して前記複数のオーディオ入力チャネルをフィルタリングするように構成されている請求項16に記載の装置。
  18. 音声確率推定を提供するための方法であって、
    あるシーンの音場が音声を包含するかどうかに関して、又は前記音場が音声を包含しないかどうかにに関して第1の確率を示す音声確率情報を推定することであって、少なくとも前記音場に関する空間的情報又はシーンに関する空間的情報に基づいて前記第1の音声確率情報を推定することと、
    前記音場が音声を含むかどうかに関して、又は前記音場が音声を含まないかどうかに関して、第2の確率を示す前記音声確率推定を推定することであって、前記音場に依存する前記音声確率情報に基づいて、かつ前記音場に依存する1つ以上の音響センサ信号に基づいて前記音声確率推定を推定することと、
    前記音声確率情報に依存して前記音声確率推定を出力することと、を含む、方法。
  19. コンピュータ又は信号プロセッサ上で実行される場合に請求項18に記載の方法を実装するためのコンピュータプログラム。
JP2015528886A 2012-09-03 2012-09-03 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 Active JP6129316B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/067124 WO2014032738A1 (en) 2012-09-03 2012-09-03 Apparatus and method for providing an informed multichannel speech presence probability estimation

Publications (2)

Publication Number Publication Date
JP2015526767A JP2015526767A (ja) 2015-09-10
JP6129316B2 true JP6129316B2 (ja) 2017-05-17

Family

ID=46888395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015528886A Active JP6129316B2 (ja) 2012-09-03 2012-09-03 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法

Country Status (7)

Country Link
US (1) US9633651B2 (ja)
EP (1) EP2893532B1 (ja)
JP (1) JP6129316B2 (ja)
CN (1) CN104781880B (ja)
BR (1) BR112015004625B1 (ja)
RU (1) RU2642353C2 (ja)
WO (1) WO2014032738A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738532B (zh) * 2019-10-27 2021-09-01 英屬開曼群島商意騰科技股份有限公司 具多麥克風之語音增強裝置及方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449615B2 (en) 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
EP3230981B1 (en) 2014-12-12 2020-05-06 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
CN110493692B (zh) 2015-10-13 2022-01-25 索尼公司 信息处理装置
CN108141654B (zh) * 2015-10-13 2020-02-14 索尼公司 信息处理装置
CN108074582B (zh) * 2016-11-10 2021-08-06 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
US11417351B2 (en) * 2018-06-26 2022-08-16 Google Llc Multi-channel echo cancellation with scenario memory
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US12075210B2 (en) * 2019-10-04 2024-08-27 Soundskrit Inc. Sound source localization with co-located sensor elements
CN110830870B (zh) * 2019-11-26 2021-05-14 北京声加科技有限公司 一种基于传声器技术的耳机佩戴者语音活动检测系统
CN112951264B (zh) * 2019-12-10 2022-05-17 中国科学院声学研究所 一种基于混合式概率模型的多通道声源分离方法
US11270720B2 (en) * 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111192569B (zh) * 2020-03-30 2020-07-28 深圳市友杰智新科技有限公司 双麦语音特征提取方法、装置、计算机设备和存储介质
KR20210125846A (ko) 2020-04-09 2021-10-19 삼성전자주식회사 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US11380302B2 (en) 2020-10-22 2022-07-05 Google Llc Multi channel voice activity detection
US12119019B2 (en) * 2022-01-18 2024-10-15 Google Llc Privacy-preserving social interaction measurement
CN117275528B (zh) * 2023-11-17 2024-03-01 浙江华创视讯科技有限公司 语音存在概率的估计方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6374216B1 (en) * 1999-09-27 2002-04-16 International Business Machines Corporation Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
KR100400226B1 (ko) 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
EP1509065B1 (en) * 2003-08-21 2006-04-26 Bernafon Ag Method for processing audio-signals
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
US8788265B2 (en) * 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7518631B2 (en) * 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
US8218460B2 (en) * 2006-12-27 2012-07-10 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US7626889B2 (en) * 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
JP5215826B2 (ja) * 2008-11-28 2013-06-19 日本電信電話株式会社 複数信号区間推定装置とその方法とプログラム
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8600073B2 (en) 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
ES2643163T3 (es) * 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738532B (zh) * 2019-10-27 2021-09-01 英屬開曼群島商意騰科技股份有限公司 具多麥克風之語音增強裝置及方法

Also Published As

Publication number Publication date
JP2015526767A (ja) 2015-09-10
WO2014032738A1 (en) 2014-03-06
BR112015004625A2 (pt) 2017-07-04
EP2893532B1 (en) 2021-03-24
US20150310857A1 (en) 2015-10-29
RU2642353C2 (ru) 2018-01-24
BR112015004625B1 (pt) 2021-12-07
US9633651B2 (en) 2017-04-25
CN104781880B (zh) 2017-11-28
EP2893532A1 (en) 2015-07-15
RU2015112126A (ru) 2016-10-20
CN104781880A (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
JP6129316B2 (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
US9984702B2 (en) Extraction of reverberant sound using microphone arrays
Taseska et al. MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
Kjems et al. Maximum likelihood based noise covariance matrix estimation for multi-microphone speech enhancement
TWI530201B (zh) 經由自抵達方向估值提取幾何資訊之聲音擷取技術
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
Taseska et al. Informed spatial filtering for sound extraction using distributed microphone arrays
CN105165026A (zh) 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法
Braun et al. A multichannel diffuse power estimator for dereverberation in the presence of multiple sources
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
Transfeld et al. Acoustic event source localization for surveillance in reverberant environments supported by an event onset detection
Scharrer et al. Sound field classification in small microphone arrays using spatial coherences
Raikar et al. Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality.
Taseska et al. Minimum Bayes risk signal detection for speech enhancement based on a narrowband DOA model
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Ceolini et al. Speaker Activity Detection and Minimum Variance Beamforming for Source Separation.
Zheng et al. Statistical analysis and improvement of coherent-to-diffuse power ratio estimators for dereverberation
US11425495B1 (en) Sound source localization using wave decomposition
US11483644B1 (en) Filtering early reflections
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160926

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170411

R150 Certificate of patent or registration of utility model

Ref document number: 6129316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250