JP6129316B2 - 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 - Google Patents
情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 Download PDFInfo
- Publication number
- JP6129316B2 JP6129316B2 JP2015528886A JP2015528886A JP6129316B2 JP 6129316 B2 JP6129316 B2 JP 6129316B2 JP 2015528886 A JP2015528886 A JP 2015528886A JP 2015528886 A JP2015528886 A JP 2015528886A JP 6129316 B2 JP6129316 B2 JP 6129316B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- probability
- sound
- speech probability
- estimate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 239000013598 vector Substances 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 230000010363 phase shift Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 5
- 238000009792 diffusion process Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 30
- 238000004364 calculation method Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000009467 reduction Effects 0.000 description 11
- 238000009499 grossing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 101100462972 Mus musculus Pcdh8 gene Proteins 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
Ym(k,n)=Xm(k,n)+Vm(k,n) (1)
但し、Xm(k,n)およびVm(k,n)は、各々、m番目の音響センサにおける望まれる音源信号、雑音成分の複素スペクトル係数を示し、nおよびkは各々時間指数および周波数指数である。
y(k,n)=[Y1(k,n)...YM(k,n)]T (2)
と書くことができ、かつy(k,n)の電力スペクトル密度(PSD)行列は、
Φyy(k,n)=E{y(k,n)yH(k,n)}, (3)
と定義される。但し、上付き文字Hは、行列の共役転置行列を示す。ベクトルx(k,n)およびv(k,n)、並びに行列Φxx(k,n)およびΦvv(k,n)も、同様に定義される。望まれる信号および望まれていない信号は、無相関かつゼロ平均であることが想定され、よって、公式(3)を、
Φyy(k,n)=Φxx(k,n)+Φvv(k,n) (4)
と書くことができる。
H0(k,n):y(k;n)=v(k;n) 音声の不在を示す、
H1(k,n):y(k;n)=x(k;n)+v(k;n) 音声の存在を示す。
によって与えられる(非特許文献[9]参照)。但し、q(k,n)=p[H1(k,n)]は事前音声存在確率(SPP)を示し、
である。ここで、tr{・}はトレース演算子を示す。また、別のタイプの分布(例えば、ラプラス分布)を仮定する別の推定器も導出でき、使用できる。
但し、
φxixi(k,n)=E{|Xi(k,n)|2}
でありかつγiは、長さMの列ベクトルを示す]という仮定に基づく場合にのみ、単チャネルSPP推定器を最小分散無歪応答(MVDR:minimum variance distortionless response)ビームフォーマの出力へ適用することによって得ることができる。
q(k,n)=Plocal(k,n)Pglobal(k,n)Pframe(n) (8)
a)q=Pc(例えば、センサの近傍にオブジェクトが存在する場合をPc=0.7と仮定すると、何れのアクティブな音源も(近接性に関わらず)1−0.7=0.3の事前SPPをもつ望まれる音源とされる)
b)q=PaPc(例えば、センサの近くにオブジェクトが存在しかつDDRが十分に高ければ、音は望まれる音とされる)
c)q=PbPc(例えば、センサの近くにオブジェクトが存在しかつ音源のロケーションが対象エリア、例えば到来方向範囲、内であれば、音は望まれる音とされる)
d)q=PaPbPc(例えば、センサの近くにオブジェクトが存在し、観測される音のDDRが十分に高くかつ音源のロケーションが対象エリア内であれば、音は望まれる音とされる)、
は、何れも使用可能である。
を、公式、
を適用することにより決定するように構成してもよい。
を決定することによって推定するように構成してもよい。ここで、
は直接音対拡散音比推定とすることができ、
は直接音対拡散音比推定を0から1までの間の値へマッピングすることを表すマッピング関数とすることができる。
は、公式、
によって定義することができる。ここで、lminはマッピング関数の最小値、lmaxはマッピング関数の最大値、cはΓ軸に沿ったオフセットを制御するための値とすることができ、ρはlminとlmaxとの間の遷移の険しさを定義するものとすることができる。
を用いて決定するように構成してもよい。ここで、Ωは特定のロケーション、
は推定されたロケーション、
は条件付き確率密度関数、P(Ω)はΩの事前確率密度関数、
は
の確率密度関数であり、ΣΩはΩの推定に関連づけられる不確定性を示し、R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
を適用することにより決定するように構成してもよい。ここで、θは特定の到来方向、
は推定された到来方向、
は条件付き確率密度関数、p(θ)はθの事前確率密度関数、
は
の確率密度関数であり、σはθの推定に関連づけられる不確定性を示し、
は直接音対拡散音比推定
の0から1までの間の値へのマッピングを表し、R(θ)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。
音場が音声を包含するかどうか又はその音場が音声を包含しないかどうかに関する第1の確率を示す音声確率情報を推定することと、
前記音声確率情報に依存して音声確率推定を出力すること、を含む。
H0(k,n):y(k,n)=v(k,n)は、望まれる音声の不在を示し、
H1(k,n):y(k,n)=x(k,n)+v(k,n)は、望まれる音声の存在を示す。
として定義される。ここで、φpq(k,n)は交差PSDであり、φpp(k,n)およびφqq(k,n)は2信号の自己PSDである。非特許文献[12]におけるDDR推定器は、任意の位置および時間−周波数ビンにおける音圧が、単一の単色平面波によって表される直接音と理想の拡散場との重畳としてモデリングされる音場モデルに基づいている。全方向性の音響センサを想定すると、CC関数は、
として表すことができる。ここで、θ(k,n)は2音響センサ間の直接音の位相シフトであり、Γ(k,n)はDDRを示し、Γpq,diff(k)=sin(κd)/κdは理想的な球状等方性音場のCCであって、κは周波数指数kにおける波数に相当し、dは音響センサpおよびq間の距離に相当する。関数Γpq,diff(k)は測定から生じることもあり得る。(9)式を用いてΓpq(k)を計算するために必要とされるPSDは時間的平均によって概算され、直接音の位相シフトθ(k,n)は推定された雑音の多いPSD、即ち
から得ることができる。
および推定された位相シフト
に関連して、次式のように表すことができる。
は方向性音源の不在を示し、高値の
は方向性音源の存在を示す。この観測に基づくと、
は、事前SPPを取得するために使用される、Paで示される変数を計算するために使用できる。一例示的なマッピング関数は、
によって与えられる。ここで、lminおよびlmaxは本関数が達成できる最小値および最大値を決定し、c(単位、dB)は、Γ軸に沿ったオフセットを制御し、ρはlminおよびlmax間の遷移の険しさを定義する。
によって与えられる。
によって、又は、
によって得ることができる。
で示される。ここで、行列ΣはΩの推定に関連づけられる不確定性を記述する。このデータから、前述の条件を不確定性Σへマッピングする多次元マッピング関数fΣが導出される。さらに、周辺確率p(Ω)および
も、トレーニング位相において計算することができる。例えば、p(Ω)は可能な音源ロケーションに関する事前情報に基づいてモデリングすることができるのに対して、
はトレーニング位相の間に推定を観測することによって計算することができる。
、瞬間方向性D(k,n)およびSNR)を推定する。
によって計算する。ここで、Sは考慮される全ロケーションの可能性を規定し、R(Ω)は対象エリアを記述する多次元関数(0≦R(Ω)≦1)である。方程式(17)は、ベイズ規則(Bayes rule)に従って式(16)から直に得られ、かつトレーニング位相において推定されるPDFを用いるPbの計算を可能にする。
は推定される瞬間DOAを示し、σ(k,n)は関連の不確定性に比例する。例えば、線形的な音響センサアレイが使用されるのであれば、アレイの側面における推定DOAの精度は、アレイの縦方向における推定DOAの精度より高い。したがって、側面方向よりも縦方向で不確定性は大きく、故にσも大きい。また、DOA推定器の性能はSNRに依存することも知られており、低SNRレベルは高SNRレベルよりも大きい推定変動をもたらし、故に、より大きい不確定性をもたらす。この一次元事例において、対象エリアは、例えば、θminとθmaxとの間でアクティブである音源が何れも望まれるものとされるように、
として定義することができる。
によって得ることができる。ここで、f(Γ)は式(12)によって与えられる。
a)q=Pc(例えば、センサの近傍にオブジェクトが存在する場合を、Pc=0.7と仮定すると、アクティブな音源(近接性に関わらず)は何れも事前SPPが1−0.7=0.3の望まれる音源とされる)、
b)q=PaPc(例えば、センサの近くにオブジェクトが存在し、かつDDRが十分に高ければ、音は望まれる音とされる)、
c)q=PbPc(例えば、センサの近くにオブジェクトが存在し、かつ音源のロケーションが対象エリア内、例えば到来方向範囲内であれば、音は望まれる音とされる)、
d)q=PaPbPc(例えば、センサの近くにオブジェクトが存在し、観測される音のDDRが十分に高く、かつ音源のロケーションが対象エリア内であれば、音は望まれる音とされる)、
は、何れも使用可能である。
但し、p[H0(k,n)|y(k,n)]は望まれる音声が不在である条件付き確率を示し、p[H1(k,n)|y(k,n)]は望まれる音声が存在する条件付き確率を示す。
但し、
は推定された雑音PSD行列であり、0≦αv(k,n)≦1は選定された平滑化変数である。式(20)を配列し直すと、次のような更新規則が得られる。
よって、
α'=p[H0(k,n)|y(k,n)][1−αv(k,n)]
である。
Φvv(k,n−1)]からの推定された雑音PSD行列およびΦyy(k,n)の現行推定を用いて推定する。
但し、αy(k,n)は、平滑化定数を示す。
但し、αpは平滑化定数を示す。
であればいつでも、選定される最大値pmaxへ
p[H1(k,n)|y(k,n)]を設定することによって雑音PSD行列更新の淀みを回避する。
として定義される。但し、(・)*は共役演算子を示し、
φxixi(k,n)=E{|Xi(k,n)|2}であり、かつ
である。
のi番目の列をとり、かつこれを
のi番目の要素により除することによって得ることができる。定義により、指向性ベクトルγi(k,n)のi番目の要素は1に等しい。
Φxx(k,n)=Φyy(k,n)−Φvv(k,n)
として表すことができる。したがって指向性ベクトルγi(k,n)は、
として表すことができる。
および
のi番目の列として得ることができ、分母における項は列ベクトル
および
のi番目の要素として得ることができる。あるいは、指向性ベクトルγiは行列ペア(Φyy,Φxx)の一般化された固有値分解を計算することにより得ることができる。j番目の一般化された固有値および固有ベクトルペア(λj,bj)の場合、次式が成り立つ。
Φyy(k,n)bj=λjbj (28)
これは、式(4)を用いて、
[Φxx(k,n)+Φvv(k,n)]bj=λibj (29)
と書くことができる。式(29)を配置し直し、かつΦxxの階数1特性(即ち、
Φxx=φxixiγiγi H)を想起すれば、
ということになり、これは、次式に等しい。
但し、[Φvv(k,n)bj]iは、ベクトルΦvv(k,n)bjのi番目の要素である。情報に基づく多チャネルSPP推定器を使用して、指向性ベクトルは次式のように再帰的に推定される。
但し、α'(k,n)=p[H1(k,n)|y(k,n)][1−αx(k,n)]であり、かつ0<αx(k,n)<1は、適切に選定された平滑化定数である。平滑化定数αxは、時間および周波数依存性であり、よって、例えばSNR又はDDRが低すぎる場合、指向性ベクトルの更新速度を最低限に抑えるために、P1,P2,……,Ppによって制御される。
但し、β(k,n)はトレードオフ変数である。
によって得られる。
但し、右辺の第2項は、偽陰性決定の場合の音声歪を緩和するものである。利得係数Gmin(k)は、望まれる音声がアクティブでないことが想定される場合に雑音低減の最大量を決定する。
を用いて、事後SPP p[H1(k,n)│y(k,n)]=1のとき、β=0(よって、PMWFはMVDRフィルタに等しい)であり、p[H1(k,n)│y(k,n)]=0.5のとき、β=1(よって、PMWFはMWFに等しい)であり、かつ事後SPP p[H1(k,n)│y(k,n)]がゼロに接近すると、βが無限大に接近するように、式(34)を計算して出す。故に、後者の事例では、残留雑音電力もゼロまで低減する。
の逆STFTとY1の逆STFTとのPESQ値の差として計算する。分節的SNRは、信号を10ミリ秒の重なり合わない分節に分割し、かつ得られたSNR値(単位dB)に渡って平均することによって得た。入力および出力における分節的SNRを、各々SiおよびSoで示す。標準的なMVDRおよびウィーナビームフォーマ、DDR制御式PMWF、並びにi=1としたときの式(36)による推定の性能を比較する。
Claims (19)
- 音声確率推定を提供するための装置であって、
あるシーンの音場が音声を含むかどうかに関して、又はその音場が音声を含まないかどうかに関して、第1の確率を示す音声確率情報を推定するための第1の音声確率推定器(110;210;310)と、
前記音場が音声を含むかどうかに関して、又は前記音場が音声を含まないかどうかに関して、第2の確率を示す前記音声確率推定を推定するための第2の音声確率推定器(215;315)と、を備え、
前記第1の音声確率推定器(110;210;310)は、少なくとも前記音場に関する空間的情報又は前記シーンに関する空間的情報に基づいて前記第1の音声確率情報を推定するように構成され、
前記第2の音声確率推定器(215;315)は、前記第1の音声確率推定器(110;210;310)により推定され前記音場に依存する前記音声確率情報に基づいて、かつ前記音場に依存する1つ以上の音響センサ信号に基づいて前記音声確率推定を推定するように構成され、
前記音声確率情報に依存して前記音声確率推定を出力するための出力インタフェース(120;220)を備えている装置。 - 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、前記音場の方向性の音が如何なるものかを示す方向性情報に基づいて推定するように構成されており、
前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、前記シーンの音源の少なくとも1つのロケーションを示すロケーション情報に基づいて推定するように構成されており、又は、
前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、少なくとも1つの近接センサに対する少なくとも1つの可能な音オブジェクトの少なくとも1つの近接性を示す近接性情報に基づいて推定するように構成されている請求項1に記載の装置。 - 前記第1の音声確率推定器(110;210;310)は、前記音声確率推定を、直接音対拡散音比の直接音対拡散音比推定を前記空間的情報として決定することにより推定するように構成されており、前記直接音対拡散音比は、前記音響センサ信号に包含される拡散音に対する、前記音響センサ信号に包含される直接音の割合を示すものである請求項1又は2に記載の装置。
- 前記第1の音声確率推定器(110;210;310)は、前記直接音対拡散音比推定を、前記音響センサ信号の第1の音響信号であって第1の音響センサpにより記録されたものと、前記音響センサ信号の第2の音響信号であって第2の音響センサqにより記録されたものとの間の複素コヒーレンスのコヒーレンス推定を決定することにより決定するように構成され、かつ、
前記第1の音声確率推定器(110;210;310)は、さらに、前記直接音対拡散音比を、前記第1の音響信号と前記第2の音響信号との間の前記直接音の位相シフトの位相シフト推定に基づいて決定するように構成されている請求項3に記載の装置。 - 前記第1の音声確率推定器(110;210;310)は、前記第1の音響信号と前記第2の音響信号との間の前記直接音対拡散音比推定
を、公式
を適用することにより決定するように構成されている請求項4に記載の装置。
ここで、
は、時間−周波数ビン(k,n)に対する前記第1の音響信号と前記第2の音響信号との間の前記複素コヒーレンスの前記コヒーレンス推定であり、nは時間を示し、kは周波数を示し、
θ(k,n)は、前記時間−周波数ビン(k,n)に対する前記第1の音響信号と前記第2の音響信号との間の前記直接音の前記位相シフトの前記位相シフト推定であり、かつ、
Γpq,diff(k)は、純粋な拡散音場における前記音響センサpと前記音響センサqとの間の前記空間的コヒーレンスに対応する。 - 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を、
を決定することによって推定するように構成されている請求項3から5のいずれか一項に記載の装置。
ここで、
は前記直接音対拡散音比推定であり、かつ
は前記直接音対拡散音比推定の0から1までの間の値へのマッピングを表すマッピング関数である。 - 前記マッピング関数
は、公式、
によって定義される請求項6に記載の装置。
ここで、lminは前記マッピング関数の最小値であり、lmaxは前記マッピング関数の最大値であり、cはΓ軸に沿ってオフセットを制御するための値であり、かつρはlminとlmaxとの間の遷移の険しさを定義するものである。 - 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報を得るために、ロケーション変数Pbを、音源の推定されたロケーションの確率分布に基づいて、かつ対象エリアに基づいて決定するように構成される請求項1から7のいずれか一項に記載の装置。
- 前記第1の音声確率推定器(110;210;310)はロケーション変数Pbを公式、
を用いて決定するように構成されている請求項8に記載の装置。
ここで、Ωは特定のロケーションであり、
は推定されたロケーションであり、
は条件付き確率密度関数であり、
p(Ω)はΩの事前確率密度関数であり、
は、
の前記確率密度関数であり、
ΣΩはΩの推定に関連づけられる不確定性を示し、かつ、
R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。 - 前記第1の音声確率推定器(110;210;310)は、前記音声確率情報としての前記事前音声存在確率q(k,n)を、公式、
を適用することにより決定するように構成されている請求項3から6のいずれか一項に記載の装置。
ここで、θは特定の到来方向であり、
は推定された到来方向であり、
は条件付き確率密度関数であり、
p(θ)はθの前記事前確率密度関数であり、
は
の前記確率密度関数であり、
σはθの推定に関連づけられる前記不確定性を示し、
は前記直接音対拡散音比推定
の0から1までの間の値へのマッピングを表し、かつ、
R(Ω)は対象エリアを記述する多次元関数であって、0≦R(Ω)≦1である。 - 前記第1の音声確率推定器(110;210;310)は近接変数を前記空間的情報として決定するように構成され、
前記近接変数は、前記第1の音声確率推定器(110;210;310)が近接センサから予め規定された距離内に1つ以上の音源の可能性を検出する場合に第1の変数値を有し、前記第1の音声確率推定器(110;210;310)が前記近接センサに直近する音源の可能性を検出しない場合に、前記第1の変数値より小さい第2の変数値を有し、かつ、
前記第1の音声確率推定器(110;210;310)は、前記近接変数が前記第1の変数値を有する場合に第1の音声確率値を前記音声確率情報として決定し、前記近接変数が前記第2の変数値を有する場合に第2の音声確率値を前記音声確率情報として決定するように構成され、前記第1の音声確率値は前記音場が音声を包含する第1の確率を示し、前記第1の確率は前記音場が音声を包含する第2の確率より大きく、前記第2の確率は、前記第2の音声確率値によって示される請求項1から10のいずれか一項に記載の装置。 - 雑音電力スペクトル密度推定を決定するための装置であって、
請求項1から11のいずれか一項に記載の装置(910)と、
雑音電力スペクトル密度推定ユニット(920)と、を備え、
請求項1から11のいずれか一項に記載の前記装置(910)は、前記音声確率推定を前記雑音電力スペクトル密度推定ユニット(920)へ提供するように構成され、かつ、
前記雑音電力スペクトル密度推定ユニット(920)は、前記雑音電力スペクトル密度推定を、前記音声確率推定および複数の入力オーディオチャネルに基づいて決定するように構成されている、装置。 - 請求項1から11のいずれか一項に記載の前記装置(910)は、前記音場に関する空間的情報を示す1つ以上の空間変数を計算するように構成されており、
請求項1から11のいずれか一項に記載の前記装置(910)は、前記音声確率推定を、前記1つ以上の空間変数を用いて計算するように構成されており、かつ、
前記雑音電力スペクトル密度推定ユニット(920)は、前記音声確率推定に依存して先行する雑音電力スペクトル密度行列を更新して更新された雑音電力スペクトル密度行列を前記雑音電力スペクトル密度推定として得ることにより前記雑音電力スペクトル密度推定を決定するように構成されている請求項12に記載の装置。 - 指向性ベクトルを推定するための装置であって、
請求項1から11のいずれか一項に記載の装置(1010)と、
指向性ベクトル推定ユニット(1020)と、を備え、
請求項1から11のいずれか一項に記載の前記装置(1010)は、前記音声確率推定を前記指向性ベクトル推定ユニット(1020)へ提供するように構成されており、かつ、
前記指向性ベクトル推定ユニット(1020)は、前記指向性ベクトルを、前記音声確率推定および複数の入力オーディオチャネルに基づいて推定するように構成されている、装置。 - 多チャネル雑音を低減するための装置であって、
請求項1から11のいずれか一項に記載の装置(1110)と、
フィルタユニット(1120)と、を備え、
前記フィルタユニット(1120)は複数のオーディオ入力チャネルを受け入れるように構成され、
請求項1から11のいずれか一項に記載の前記装置(1110)は、前記音声確率情報を前記フィルタユニット(1120)へ提供するように構成されており、かつ、
前記フィルタユニット(1120)は、前記音声確率情報に基づいて複数のオーディオ入力チャネルをフィルタリングしてフィルタリングされたオーディオチャネルを取得するように構成されている、装置。 - 請求項1から11のいずれか一項に記載の前記装置(1110)の前記第1の音声確率推定器(110;210;310)は、前記音場に関する空間的情報又は前記シーンに関する空間的情報を示す少なくとも1つの空間変数に依存するトレードオフ変数を生成するように構成されている請求項15に記載の装置。
- 前記フィルタユニット(1120)は、前記トレードオフ変数に依存して前記複数のオーディオ入力チャネルをフィルタリングするように構成されている請求項16に記載の装置。
- 音声確率推定を提供するための方法であって、
あるシーンの音場が音声を包含するかどうかに関して、又は前記音場が音声を包含しないかどうかにに関して、第1の確率を示す音声確率情報を推定することであって、少なくとも前記音場に関する空間的情報又はシーンに関する空間的情報に基づいて前記第1の音声確率情報を推定することと、
前記音場が音声を含むかどうかに関して、又は前記音場が音声を含まないかどうかに関して、第2の確率を示す前記音声確率推定を推定することであって、前記音場に依存する前記音声確率情報に基づいて、かつ前記音場に依存する1つ以上の音響センサ信号に基づいて前記音声確率推定を推定することと、
前記音声確率情報に依存して前記音声確率推定を出力することと、を含む、方法。 - コンピュータ又は信号プロセッサ上で実行される場合に請求項18に記載の方法を実装するためのコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2012/067124 WO2014032738A1 (en) | 2012-09-03 | 2012-09-03 | Apparatus and method for providing an informed multichannel speech presence probability estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015526767A JP2015526767A (ja) | 2015-09-10 |
JP6129316B2 true JP6129316B2 (ja) | 2017-05-17 |
Family
ID=46888395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015528886A Active JP6129316B2 (ja) | 2012-09-03 | 2012-09-03 | 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9633651B2 (ja) |
EP (1) | EP2893532B1 (ja) |
JP (1) | JP6129316B2 (ja) |
CN (1) | CN104781880B (ja) |
BR (1) | BR112015004625B1 (ja) |
RU (1) | RU2642353C2 (ja) |
WO (1) | WO2014032738A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI738532B (zh) * | 2019-10-27 | 2021-09-01 | 英屬開曼群島商意騰科技股份有限公司 | 具多麥克風之語音增強裝置及方法 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US9554203B1 (en) | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US9449609B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Accurate forward SNR estimation based on MMSE speech probability presence |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US9449615B2 (en) | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
EP3230981B1 (en) | 2014-12-12 | 2020-05-06 | Nuance Communications, Inc. | System and method for speech enhancement using a coherent to diffuse sound ratio |
JP6592940B2 (ja) * | 2015-04-07 | 2019-10-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
CN110493692B (zh) | 2015-10-13 | 2022-01-25 | 索尼公司 | 信息处理装置 |
CN108141654B (zh) * | 2015-10-13 | 2020-02-14 | 索尼公司 | 信息处理装置 |
CN108074582B (zh) * | 2016-11-10 | 2021-08-06 | 电信科学技术研究院 | 一种噪声抑制信噪比估计方法和用户终端 |
US10219098B2 (en) * | 2017-03-03 | 2019-02-26 | GM Global Technology Operations LLC | Location estimation of active speaker |
CN106960672B (zh) * | 2017-03-30 | 2020-08-21 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
US11854566B2 (en) | 2018-06-21 | 2023-12-26 | Magic Leap, Inc. | Wearable system speech processing |
US11417351B2 (en) * | 2018-06-26 | 2022-08-16 | Google Llc | Multi-channel echo cancellation with scenario memory |
CN109616139B (zh) * | 2018-12-25 | 2023-11-03 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
WO2020180719A1 (en) | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
US12075210B2 (en) * | 2019-10-04 | 2024-08-27 | Soundskrit Inc. | Sound source localization with co-located sensor elements |
CN110830870B (zh) * | 2019-11-26 | 2021-05-14 | 北京声加科技有限公司 | 一种基于传声器技术的耳机佩戴者语音活动检测系统 |
CN112951264B (zh) * | 2019-12-10 | 2022-05-17 | 中国科学院声学研究所 | 一种基于混合式概率模型的多通道声源分离方法 |
US11270720B2 (en) * | 2019-12-30 | 2022-03-08 | Texas Instruments Incorporated | Background noise estimation and voice activity detection system |
US11917384B2 (en) * | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN111192569B (zh) * | 2020-03-30 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 双麦语音特征提取方法、装置、计算机设备和存储介质 |
KR20210125846A (ko) | 2020-04-09 | 2021-10-19 | 삼성전자주식회사 | 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법 |
US11380302B2 (en) | 2020-10-22 | 2022-07-05 | Google Llc | Multi channel voice activity detection |
US12119019B2 (en) * | 2022-01-18 | 2024-10-15 | Google Llc | Privacy-preserving social interaction measurement |
CN117275528B (zh) * | 2023-11-17 | 2024-03-01 | 浙江华创视讯科技有限公司 | 语音存在概率的估计方法及装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6374216B1 (en) * | 1999-09-27 | 2002-04-16 | International Business Machines Corporation | Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition |
US6609094B1 (en) * | 2000-05-22 | 2003-08-19 | International Business Machines Corporation | Maximum entropy and maximum likelihood criteria for feature selection from multivariate data |
KR100400226B1 (ko) | 2001-10-15 | 2003-10-01 | 삼성전자주식회사 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
KR100486736B1 (ko) * | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
CA2473195C (en) * | 2003-07-29 | 2014-02-04 | Microsoft Corporation | Head mounted multi-sensory audio input system |
EP1509065B1 (en) * | 2003-08-21 | 2006-04-26 | Bernafon Ag | Method for processing audio-signals |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
US8788265B2 (en) * | 2004-05-25 | 2014-07-22 | Nokia Solutions And Networks Oy | System and method for babble noise detection |
US7518631B2 (en) * | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
JP5088701B2 (ja) * | 2006-05-31 | 2012-12-05 | 日本電気株式会社 | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
KR100821177B1 (ko) * | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
US8218460B2 (en) * | 2006-12-27 | 2012-07-10 | Laura Laaksonen | Network entity, method and computer program product for mixing signals during a conference session |
US8005238B2 (en) * | 2007-03-22 | 2011-08-23 | Microsoft Corporation | Robust adaptive beamforming with enhanced noise suppression |
US7626889B2 (en) * | 2007-04-06 | 2009-12-01 | Microsoft Corporation | Sensor array post-filter for tracking spatial distributions of signals and noise |
US8005237B2 (en) * | 2007-05-17 | 2011-08-23 | Microsoft Corp. | Sensor array beamformer post-processor |
JP5642339B2 (ja) * | 2008-03-11 | 2014-12-17 | トヨタ自動車株式会社 | 信号分離装置及び信号分離方法 |
US8244528B2 (en) * | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
JP5215826B2 (ja) * | 2008-11-28 | 2013-06-19 | 日本電信電話株式会社 | 複数信号区間推定装置とその方法とプログラム |
KR101253102B1 (ko) * | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
US8600073B2 (en) | 2009-11-04 | 2013-12-03 | Cambridge Silicon Radio Limited | Wind noise suppression |
ES2643163T3 (es) * | 2010-12-03 | 2017-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para codificación de audio espacial basada en geometría |
FR2976710B1 (fr) * | 2011-06-20 | 2013-07-05 | Parrot | Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres" |
US8935164B2 (en) * | 2012-05-02 | 2015-01-13 | Gentex Corporation | Non-spatial speech detection system and method of using same |
-
2012
- 2012-09-03 WO PCT/EP2012/067124 patent/WO2014032738A1/en active Search and Examination
- 2012-09-03 JP JP2015528886A patent/JP6129316B2/ja active Active
- 2012-09-03 RU RU2015112126A patent/RU2642353C2/ru active
- 2012-09-03 EP EP12761927.8A patent/EP2893532B1/en active Active
- 2012-09-03 BR BR112015004625-8A patent/BR112015004625B1/pt active IP Right Grant
- 2012-09-03 CN CN201280076853.2A patent/CN104781880B/zh active Active
-
2015
- 2015-03-03 US US14/637,241 patent/US9633651B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI738532B (zh) * | 2019-10-27 | 2021-09-01 | 英屬開曼群島商意騰科技股份有限公司 | 具多麥克風之語音增強裝置及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2015526767A (ja) | 2015-09-10 |
WO2014032738A1 (en) | 2014-03-06 |
BR112015004625A2 (pt) | 2017-07-04 |
EP2893532B1 (en) | 2021-03-24 |
US20150310857A1 (en) | 2015-10-29 |
RU2642353C2 (ru) | 2018-01-24 |
BR112015004625B1 (pt) | 2021-12-07 |
US9633651B2 (en) | 2017-04-25 |
CN104781880B (zh) | 2017-11-28 |
EP2893532A1 (en) | 2015-07-15 |
RU2015112126A (ru) | 2016-10-20 |
CN104781880A (zh) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6129316B2 (ja) | 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法 | |
US9984702B2 (en) | Extraction of reverberant sound using microphone arrays | |
Taseska et al. | MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator | |
JP6636633B2 (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
EP2647221B1 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
KR101591220B1 (ko) | 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법 | |
EP3526979B1 (en) | Method and apparatus for output signal equalization between microphones | |
Kjems et al. | Maximum likelihood based noise covariance matrix estimation for multi-microphone speech enhancement | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
JP7041156B6 (ja) | ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 | |
Taseska et al. | Informed spatial filtering for sound extraction using distributed microphone arrays | |
CN105165026A (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
Braun et al. | A multichannel diffuse power estimator for dereverberation in the presence of multiple sources | |
EP3320311B1 (en) | Estimation of reverberant energy component from active audio source | |
Transfeld et al. | Acoustic event source localization for surveillance in reverberant environments supported by an event onset detection | |
Scharrer et al. | Sound field classification in small microphone arrays using spatial coherences | |
Raikar et al. | Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality. | |
Taseska et al. | Minimum Bayes risk signal detection for speech enhancement based on a narrowband DOA model | |
Gburrek et al. | On source-microphone distance estimation using convolutional recurrent neural networks | |
Ji et al. | Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment. | |
Ceolini et al. | Speaker Activity Detection and Minimum Variance Beamforming for Source Separation. | |
Zheng et al. | Statistical analysis and improvement of coherent-to-diffuse power ratio estimators for dereverberation | |
US11425495B1 (en) | Sound source localization using wave decomposition | |
US11483644B1 (en) | Filtering early reflections | |
CN117037836B (zh) | 基于信号协方差矩阵重构的实时声源分离方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160628 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160926 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20160926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20161005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6129316 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |