JP3677143B2 - 音声処理方法および装置 - Google Patents

音声処理方法および装置 Download PDF

Info

Publication number
JP3677143B2
JP3677143B2 JP20636697A JP20636697A JP3677143B2 JP 3677143 B2 JP3677143 B2 JP 3677143B2 JP 20636697 A JP20636697 A JP 20636697A JP 20636697 A JP20636697 A JP 20636697A JP 3677143 B2 JP3677143 B2 JP 3677143B2
Authority
JP
Japan
Prior art keywords
sound source
target sound
beamformer
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20636697A
Other languages
English (en)
Other versions
JPH1152977A (ja
Inventor
岳彦 井阪
仁史 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP20636697A priority Critical patent/JP3677143B2/ja
Publication of JPH1152977A publication Critical patent/JPH1152977A/ja
Priority to US10/101,205 priority patent/US20020138254A1/en
Application granted granted Critical
Publication of JP3677143B2 publication Critical patent/JP3677143B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力される音声信号の音声区間を検出したり雑音を抑圧し音声を強調する処理を行う音声処理処理方法/装置に関する。
【0002】
【従来の技術】
雑音環境下で音声区間を検出する方法としては、例えば文献1:新美康永著、「音声認識」共立出版に開示されているように、エネルギーと零交差回数を用いて音声区間を検出する方法がある。しかし、この方法ではSN比が大きく低下したときには音声区間を正確に検出することは難しい。
【0003】
そこで、SN比の低い環境で音声入力を行うことを可能とするために、マイクロホンアレイによる雑音抑圧処理が研究されており、例えば文献2:「音響システムとデジタル処理」電子情報通信学会編では、少数のマイクロホンによる適応マイクロホンアレイを用いてSN比を改善する方法が開示されている。しかしながら、雑音源が多数存在し雑音源の方向を特定できないような環境下では、この方法によりSN比を改善することは難しいため、マイクロホンアレイの出力パワーを用いて正確に音声区間を検出することは困難である。
【0004】
【発明が解決しようとする課題】
上述したように、少数のマイクロホンによるマイクロホンアレイを用いてSN比を改善する方法では、雑音源の方向を特定できないような雑音環境下の場合にSN比の改善が期待できないため、マイクロホンアレイの出力パワーを用いて正確に音声区間を検出することが難しいという問題があった。
【0005】
本発明は上記の問題点を解決するためになされたもので、その目的はSN比が低く、かつ雑音源の方向を特定できないような環境下で、少数のマイクロホンにより目的音源に対して音声区間を正確に検出できる音声処理方法および装置を提供することにある。
本発明の他の目的は、雑音を抑圧して音声のみを強調する処理を確実に行うことができる音声処理方法および装置を提供することにある。
【0006】
【課題を解決するための手段】
上記の課題を解決するため、本発明は複数のチャネルを介して入力される音声信号に対して、ビームフォーマにより目的音源から到来する信号を抑圧するためのディジタル演算処理、つまりビームフォーマ処理を施し、このビームフォーマ処理により得られたフィルタ係数から目的音源の方向を推定し、この目的音源の方向に基づいて音声信号の音声区間を決定することを基本的な特徴とする。
【0007】
雑音源の方向を特定できないような環境では、ビームフォーマによって目的音源のSN比を改善することは難しいが、目的音源からの音声は方向性を持っているため、音声区間では目的音源の方向をビームフォーマのフィルタ係数から推定することが可能であり、この推定された目的音源の方向に基づいて音声区間を検出することができる。
【0008】
また、本発明は目的音源から到来する信号を抑圧するためのビームフォーマ処理を行う第1のビームフォーマとは別に、雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第2のビームフォーマを設け、第2のビームフォーマにより得られたフィルタ係数から雑音源の方向を推定し、目的音源の方向と第1および第2のビームフォーマにより得られた出力のパワーとに基づいて第2のビームフォーマを制御すると共に、雑音源の方向と第1および第2のビームフォーマにより得られた出力のパワーとに基づいて第1のビームフォーマを制御することを特徴とする。
【0009】
このようにすると、方向性のある雑音源が存在する場合でも、第1のビームフォーマの入力方向を雑音源の方向に追随させることで、高精度に目的音源の方向を推定でき、もって音声区間をより確実に検出することが可能となる。
【0010】
音声区間の決定に際しては、推定された目的音源の方向に加えて、さらに音声信号のパワーを用いて行ってもよい。
また、本発明は第1のビームフォーマの出力および推定された目的音源の方向の少なくとも一方を用いて、第2のビームフォーマの出力中の雑音を抑圧して音声を強調することを特徴とする。
【0011】
すなわち、雑音源が非常に多いために雑音源の方向を特定できないような環境では、ビームフォーマによる雑音抑圧性能は低下するが、音声信号は方向性があるため、雑音源の方向に目的方向を設定した第1のビームフォーマにより、目的信号を抑圧した雑音のみの出力を抽出できるので、これを用いてスペクトルサブトラクションの手法により、第2のビームフォーマの出力に対して音声強調処理を行うことが可能である。
【0012】
ここで、目的音源と雑音源の方向が固定でかつ既知である場合には、目的音源方向の推定と第1および第2のビームフォーマの制御は不要であるから、第1のビームフォーマを最も強い雑音源方向に向け、第2のビームフォーマを目的音源方向に向けておけばよい。この場合は、第1のビームフォーマの出力に基づいて第2のビームフォーマの出力に対して音声強調処理を行うことができる。
【0013】
さらに、本発明では上記のようにして推定された目的音源方向と音声強調された信号を用いて音声区間の検出を行うことも可能であり、それによって音声区間の検出性能をさらに向上させることができる。
【0014】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
(第1の実施形態)
本実施形態では、複数のチャネルを介して入力された音声信号から目的音源の方向を推定し、音声区間を検出する機能を有する音声処理装置を説明する。
【0015】
本実施形態に係る音声処理装置は、図1に示されるように複数(n個)のチャネルch1〜chnを介して入力端子10−1〜10−nから音声信号を入力とする音声入力部10と、これらの音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を行うビームフォーマ20と、このビームフォーマ20から得られたフィルタ係数に基づいて目的音源の方向を推定する目的音源方向推定部30と、推定された目的音源の方向の時系列値と、音声入力部10から得られた信号のパワーの時系列値、音声入力部10から得られた信号のチャネル間の相関値の時系列値のいずれかあるいは両方に基づいて、音声信号の音声/非音声を決定する音声/非音声決定部40とにより構成される。
【0016】
ここでは簡単のため、チャネル数nが2の場合を例にとり説明する。
ビームフォーマ20は、音声入力部10からの信号に対して目的音源を抑圧するための適応ビームフォーマ処理と呼ばれるフィルタ演算処理を行う。ビームフォーマ20の内部の処理方法としては、種々の方法が知られており、例えば先の文献2や、文献3:Heykin著“Adaptive Filter Theory(Plentice Hall) ”に開示されているように、一般化サイドローブキャンセラ(GSC)、フロスト型ビームフォーマおよび参照信号法などがある。本実施形態は適応ビームフォーマであればどのようなものにも適用可能であるが、ここでは2チャネルのGSCを例にとり説明する。
【0017】
図2に、ビームフォーマ20の例として、2チャネルのGSCの中で一般的なJim-Griffith型のGSCの構成例を示す。これは例えば、文献2に示されているように、減算器21、加算器22、遅延器23、適応フィルタ24および減算器25からなるGSCである。適応フィルタ24はLMS、RLS、射影型LMSなどの種々のものが使用可能であり、フィルタ長Laは例えばLa=50を用いる。遅延器23の遅延量は例えばLa/2とする。
【0018】
ビームフォーマ20を構成する図2に示した2チャネルのJim-Griffith型GSCの適応フィルタ24にLMS適応フィルタを用いた場合、このフィルタの更新は、時刻をnとして適応フィルタ24の係数をW(n)、第iチャネルの入力信号をxi(n)、第iチャネルの入力信号ベクトルをXi(n)=(xi(n),xi(n−1),…,xi(n−La+1))とおくと、次式で表される。
【0019】
y(n)=x0(n)+xl(n) (1)
X′(n)=X1(n)−X0(n) (2)
e(n)=y(n)−W(n)X′(n) (3)
W(n+1)=W(n)一μX′(n)e(n) (4)
図2のGSCの入力方向を目的音源の方向以外の方向、例えば目的音源の方向を基準として90°に設定しておく。ここでは、2チャネルの信号に遅延を与えることにより、設定した入力方向からの信号が等価的にアレイに同時に到着するようにする。このため、図2の構成のビームフォーマ20に対して図3に示すように遅延器26をチャネル1側に挿入する。遅延器26の遅延時間は、入力方向を90°にする場合、τ=d/cである。ここでcは音速、dはマイクロホン間の距離である。
【0020】
目的音源の方向から信号が到来した場合、ビームフォーマ20内のフィルタは目的音源の方向に感度が低くなっているため、このフィイタのフィルタ係数から感度の方向依存性である指向性を調べることにより、目的音源の方向を推定することができる。
【0021】
図4に、目的音源方向推定部30において目的音源の方向を推定する手順を示す。まず、初期設定として目的方向の探索範囲θr、フィルタ長L、FFT長 (FFTポイント数)N、チャネル数Mなどを設定する(ステップS101)。例えばθr=20°、L=50、N=64、M=2とする。ビームフォーマは目的音源からの信号の到来方向範囲のみを探索するため、例えば目的音源の方向を基準として探索角度範囲は士θrの範囲とする。
【0022】
次に、ビームフォーマがGSCならば、フィルタ係数をトランスバーサル型のビームフォーマと等価な形に変換する(ステップS102)。例えば2チャネルのJim-Griffith型GSCの場合、GSC内の適応フィルタの係数を
wg=(w0 ,w1 ,w2 ,…,wL-2 ,wL-1
とおくと、第1チャネルch1の等価フィルタの係数は、
e1=(−W0 ,−W1 ,−W2 ,…,−WL/2 +1,…,−WL-2 ,−WL-1
第2チャネルch2の等価フィルタの係数は、
e2=(w0 ,w1 ,w2 ,…,wL/2 −1,…,wL-2 ,WL-1
とおけばよい。
【0023】
次に、チャネル毎にフィルタ係数のFFTを行い、その周波数成分Wei(k)を求める(ステップS103)。ここで、kは周波数成分の番号、iはチャネルの番号である。
【0024】
次に、探索範囲の中のある1つの方向をθとすると、θ方向から到来する信号に関する各チャネルの伝播位相遅れを表す方向ベクトルS(k,θ)を生成する(ステップS104)。方向ベクトルS(k,θ)は、例えば図5に示したマイクロホン配置の場合、第1チャネルch1を基準とすると、
S(k,θ)=(1,exp(−jk/N fs d sin(θ)))
となる。fsはサンプリング周波数、dはマイクロホン間の距離である。
【0025】
次に、FFTにより求めたフィルタの周波数成分We=(We1(k),We2 (k))と方向ベクトルS(k,θ)の内積の絶対値の2乗|S・W|2 を求める(ステップS105)。
【0026】
ステップS103〜S106の処理の全ての周波数、すなわちk=1からk=N/2までについて行い、求めた内積の2乗和を方向θ毎に周波数kについて加算し、全帯域についてまとめた方向毎の感度
D(θ)=Σ|W(k)・S(k,θ)|2
を求める(ステップS106)。このとき、方向を例えば1°ずつ変化させ、探索範囲の全ての方向について調べるようにする(ステップS107)。
次に、求めた方向毎の感度が最小となる方向θmin をD(θ)から求め、これを信号(目的音源からの信号または雑音源からの信号)の到来方向とする(ステップS108)。
【0027】
次に、音声/非音声決定部40の処理について説明する。
音声/非音声決定部40では、目的音源方向推定部30で推定された目的音源の方向の時系列値と、入力信号のパワーの時系列値のいずれかあるいは両方に基づいて音声/非音声の決定を行う。なお、2チャネルの相関値の時系列値を使うことも可能である。
【0028】
音声/非音声の決定は、例えば以下の2つの方法によって行うことが可能である。すなわち、(1)目的音源の方向の時間変動量を用いる方法、(2)目的音源の方向の時間変動量および入力信号のパワーを用いる方法である。
ここで、目的音源の方向を用いずにその時間変動量を用いて音声/非音声を決定するのは、目的音源から信号が到来していないときには入力信号中に方向性のある信号が含まれず、目的音源の方向の推定値はランダムな値をとり、目的音源から信号が到来しているときには目的音源の方向の推定値は一定の範囲内の値をとるので、目的音源の方向の時間変動量が一定範囲内のときに音声とみなせば検出が可能となるためである。
【0029】
まず、(1)の方法について音声/非音声の決定手順を図6を参照しながら説明する。図6は、音声/非音声の決定における処理の流れを状態遷移図で示したものであり、非音声状態を出発点とする。時刻nの目的音源の方向の時間変動量をΔθ(n)=|θ(n)一θ(n−1)|、音声の断片として認めるのに必要なθ(n)の最大時間変動量をθth(例えばθth=5°)として、Δθ(n)≦θthとなったとき、その時刻を音声の仮の始端とし、仮の始端を見つけた状態を表す仮音声状態に遷移する。
【0030】
仮音声状態では、音声の断片として認めるに必要な最小時間長をT1(例えばT1=20msec)とし、この時間長T1以内にΔθ(n)>θthとなれば非音声状態に戻り、そうでなければΔθ(n)>θthとなった時刻を音声の仮の終端とし、音声の終端が決定するのを待っている状態を表す終端待ち状態に遷移する。
【0031】
終端待ち状態では、音声終了の判断に必要な最小時間長をT2(例えばT2=100msec)とし、この時間長T2以内にΔθ(n)≦θthになれば、音声が継続している状態を表す仮音声継続状態に遷移する。そうでない場合は、最後に終端待ち状態に遷移したときの時刻を音声の仮の終端とし、仮の始端から仮の終端までの時間が音声として認めるのに必要な最小時間長T3(例えばT3=300msec)以下であれば非音声状態に戻り、そうでなければ仮の始端から仮の終端までを音声区間として終了状態に遷移する。
【0032】
仮音声継続状態では、時間長T1以内にΔθ(n)>θthになれば終端待ち状態に戻り、そうでなければ音声が継続している状態を表す音声継続状態に遷移する。
【0033】
一方、音声継続状態ではΔθ(n)>θthとなったとき終端待ち状態へ遷移する。
次に、(2)の方法について音声/非音声の決定手順を図7を参照しながら説明する。ここで、音声として認めるのに必要な入力信号のパワーの最小値としてPth1,Pth2の2つ設ける(Pth1>Pth2)。図7において、まず非音声状態を出発点とし、時刻nの目的音源の方向の時間変動量をΔθ(n)、音声の断片として認めるのに必要なθ(n)の最大時間変動量をθthとして、Δθ(n)≦θthまたはP(n)>Pth1となったとき、その時刻を音声の仮の始端とし、仮の始端を見つけた状態を表す仮音声状態に遷移する。
【0034】
仮音声状態では、「T1以内に、Δθ(n)>θthかつP(n)≦Pth1」または「Δθ(n)>θthかつP(n)≦Pth1、となるまでのP(n)の最大値が閾値Pth以下」であれば非音声状態に戻り、そうでなければ音声の終端が決定するのを待っている状態を表す終端待ち状態に遷移する。ここで、Pthは音声として受理するのに必要な入力信号のパワーの最小値である。
【0035】
終端待ち状態では、T2以内にΔθ(n)≦θthまたはP(n)>Pth1になれば、音声が継続している状態を表す仮音声継続状態に遷移する。そうでない場合は、最後に終端待ち状態に遷移したときの時刻を音声の仮の終端とし、仮の始端から仮の終端までの時間が音声として認めるのに必要な最小時間長T3(例えばT3=300msec)以下であれば非音声状態に戻り、そうでなければ仮の始端から仮の終端までを音声区間として終了状態に遷移する。
【0036】
仮音声継続状態では、「T1以内に、Δθ(n)>θthかつP(n)≦Pth1」または「Δθ(n)>θthかつP(n)≦Pth1、となるまでのP(n)の最大値が閾値Pth以下」であれば終端待ち状態に戻り、そうでなければ音声が継続している状態を表す音声継続状態に遷移する。
【0037】
音声継続状態では、Δθ(n)>θthかつP(n)≦Pth1となったとき終端待ち状態へ遷移する。
この(2)の音声/非音声決定方法では、以上の手順で得られた音声区間においてさらにP(n)>Pth2を満たす区間を音声区間とする。ここで、Pth2は前述したようにP(n)の第2の閾値である。
【0038】
(2)の方法では、SN比が低い場合、Pth、Pth2を大きい値に設定してしまうと、音声区間を検出できないおそれがある。従って、Pth,Pth2の値は、パワーのみによる検出の場合よりも小さい値に設定しておくようにする。Pth,Pth2が小さい値に設定されても求めた目的音源方向の値を優先して用いているので、音声検出性能は確実に向上できる。例えば、Pth,Pth1,Pth2の値は背景雑音レベルに対する相対値Pth=5dB,Pth1=2dB,Pth2=5dBとする。Pth,Pth1,Pth2の値は背景雑音レベルの状況に応じて実験的に決めることが望ましい。
【0039】
本実施形態によれば、ビームフォーマにより雑音を抑圧するのではなく、目的音源の方向をビームフォーマ内部のフィルタのフィルタ係数から得るようにしているので、雑音源の方向を特定できないような環境でも目的音源の音声区間を正確に検出することができる。
【0040】
次に、本発明の他の実施形態について説明する。なお、以下の実施形態で使用するブロック図において、名称が同一のブロックは基本的に同一機能を有するものとして詳細な説明を省略する。
【0041】
(第2の実施形態)
本実施形態では、方向性のある雑音源がある場合でも、高精度に目的音源の方向を抽出できるようにするため、目的音源の信号を抑圧するビームフォーマの入力方向を雑音の方向に追随させる場合について説明する。
【0042】
ビームフォーマで設定される雑音源の方向を実際の雑音源の方向に追随させるため、本実施形態においては目的音源から到来する信号を抑圧する第1のビームフォーマとは別に第2のビームフォーマを設け、この第2のビームフォーマ内のフィルタの指向性から雑音源の方向を推定し、その推定結果に基づいて第1のビームフォーマの制御を行う。
【0043】
図8に、本実施形態に係る音声区間検出機能を有する音声処理装置の構成を示す。本実施形態では、簡単のためチャネル数が2の場合の処理を例として述べるが、2チャネルに限定されるものではない。
【0044】
入力端子50−1、50−2からチャネルch1、ch2を介して音声入力部50に入力される音声信号は、第1および第2のビームフォーマ61、62にそれぞれ入力される。第1のビームフォーマ61内のフィルタのフィルタ係数から目的音源の方向を推定し、その推定結果を第1の制御部64に与える。雑音源方向推定部65は、第2のビームフォーマ62内のフィルタのフィルタ係数から雑音源の方向を推定し、その結果を第2の制御部66に与える。
【0045】
音声/非音声決定部70は、目的音源方向推定部63で推定された目的音源の方向の時系列と、音声入力部50から得られた信号のパワーの時系列値および音声入力部50から得られた信号のチャネル間の相関値の時系列値の少なくとも一方に基づいて音声/非音声を決定する。以降、第1および第2ビームフォーマ61、62において設定されている雑音源および目的音源の方向を入力方向と呼ぶことにする。
【0046】
第1の制御部64は、目的音源方向推定部63により推定された目的音源の方向が入力方向として設定されるように、第2のビームフォーマ62を制御する。第2の制御部66は、雑音源方向推定部65により推定された雑音源の方向が入力方向として設定されるように、第1のビームフォーマ61を制御する。第1のビームフォーマ61の入力方向を雑音源の方向に設定するのは、第1のビームフォーマ61により雑音源の方向が推定されるのを防ぐためであり、第2のビームフォーマ62の入力方向を目的音源の方向に設定するのは、第2のビームフォーマ62により目的音源の方向が推定されるのを防ぐためである。
【0047】
第1および第2のビームフォーマ61、62は、既に述べたようにGSCでもフロスト型でも参照信号型でもよい。この場合、第1のビームフォーマ61内のフィルタでは目的音源の方向に、第2のビームフォーマ62内のフィルタでは雑音源の方向にそれぞれ感度が低くなっているため、各々のフィルタのフィルタ係数からその感度の方向依存性である指向性を調べることにより、目的音源および雑音源の方向を推定することができる。
【0048】
目的音源方向推定部63と雑音源方向推定部65では、前述のように第1および第2のビームフォーマ61、62内のフィルタの指向性から目的音源および雑音源の方向を推定するため、図4に示したような手順で処理を行う。ここで、初期設定で設定される第1のビームフォーマ61の目的音源到来方向の探索範囲は20°、第2のビームフォーマ62の雑音到来方向の探索範囲は例えば90°とする。
【0049】
制御部64と制御部66では、推定された音源方向に対してビームフォーマの出力パワーにより重み付けを行い、過去の推定された音源方向との平均化を行いながら、入力方向を更新するようにする。例えば、特願平9−9794に開示されている式に従って計算を行う。このような更新により目的音源からの信号のパワーが大きく、雑音のパワーが小さいときには更新を速くし、それ以外では更新を遅くするように制御することができる。
【0050】
図9に、上述した推定処理を含む本実施形態の全体的な処理の流れを示す。まず、初期設定として目的音源の方向として許容する範囲Φを設定し、第1のビームフォーマ61の入力方向θ1を例えば0°に、第2のビームフォーマ62の入力方向θ2を例えば90°に、目的音源方向推定部63の探索範囲θr1を例えば20°に、雑音源方向推定部65の探索範囲θr2を例えば90°にそれぞれ設定する(ステップS201)。ここで、ある角度範囲に到来した信号を目的音源からの信号とみなすようにするために、目的音源方向に許容範囲Φを設ける。Φの値は、例えば第1のビームフォーマ61の探索範囲θr1と同じ値とし、Φ=θr1=20°とする。なお、方向の基準として、図5に示したように2つのマイクロホンを結ぶ直線に垂直な方向を0°としている。
【0051】
次に、第1のビームフォーマ61の入力方向を設定する(ステップS202)。ここでは、2チャネルの信号に遅延を与えることにより、設定した入力方向からの信号が等価的にアレイに同時に到着するようにする。このために、第1のビームフォーマ61において、図3に示す遅延器26により第1のチャネルch1の信号に与える遅延をτ=dsin(θ1)/cにより計算する。ここで、cは音速、dはマイクロホン間の距離である。
【0052】
次に、第1のビームフォーマ61の処理を行い(ステップS203)、得られたフィルタ係数から上述した方法により探索範囲±θr1内で目的音源の方向を推定する(ステップS204)。推定された目的音源の方向をθnとする。
【0053】
次に、ステップS204で推定された目的音源の方向θnが雑音源の方向の近傍(0°±Φ)にあるか否かを判断し(ステップS205)、近傍にある場合はそのままステップS207に進む。
【0054】
一方、ステップS204で推定された目的音源の方向θnが雑音源の方向の近傍でない場合は、推定された目的音源の方向を入力方向とするように第2のビームフォーマ62の入力方向を設定する(ステップS206)。すなわち、θ2の値を先に述べた平均化により更新する。ステップS202と同様に、第2チャネルch2の信号に遅延を与えて入力方向からの信号が等価的にアレイに同時に到達するようにするため、第2のビームフオーマ62において、図3に示すように遅延器26により第1チャネルch1に与える遅延をτ=d sin(θ2)/cにより計算する。
【0055】
次に、第2のビームフォーマ62の処理を行い(ステップS207)、探索範囲±θr2の中で雑音源の方向を推定し(ステップS208)、再びステップS202に戻って、推定された雑音源の方向を入力方向とするように第1のビームフォーマ61の入力方向を設定する。このときも、先に述べた平均化により入力方向を更新する。以降、以上の処理を繰り返す。
【0056】
音声/非音声決定部70では、図6および図7に示した処理手順によって音声/非音声が決定される。具体的な決定方法は、第1の実施形態に示した2つの方法が考えられるが、重複するので説明は避ける。
【0057】
このように本実施形態によれば、2つのビームフォーマを設け、一方のビームフォーマで目的音源の方向を推定し、他方のビームフォーマで雑音源の方向を推定するようにしたため、方向性のある雑音源がある場合でも目的音源の音声区間を正確に検出することができる。
【0058】
(第3の実施形態)
本実施形態では、第2の実施形態で述べた2つのビームフォーマを用いた構成において、音声区間を検出する代わりに音声強調を行い、目的とする音声を高精度に抽出する方法を説明する。本実施形態の構成を図10に示す。
【0059】
図10に示す音声処理装置は、複数チャネルを介して音声を入力する音声入力部80、入力音声をフィルタ処理し、目的音源からの信号を抑圧する第1のビームフォーマ91、入力音声をフィルタ処理し、雑音を抑圧して目的音声を抽出する第2のビームフォーマ92、第1のビームフォーマ91のフィルタ係数から目的音源方向を推定する目的音源方向推定部93、目的音源方向推定部により推定された目的音源方向に第2のビームフォーマ92の目的方向を設定する第1の制御部94、第2のビームフォーマのフィルタ92から雑音源方向を推定する雑音源方向推定部95、推定された雑音源方向に第1のビームフォーマ91の目的方向を設定する第2の制御部96、第2のビームフォーマ92の出力信号中の雑音成分を抑圧して音声を強調する処理を行う音声強調部100からなっている。
【0060】
この構成は、ほぼ図8に示した第2の実施形態の構成における音声/非音声決定部70が音声強調部100に入れ替わった形となっている。第2の実施形態ではビームフォーマ91の出力信号を用いていなかったが、本実施形態ではこれを音声強調の雑音参照用の信号として用いて音声強調処理を行っている。
【0061】
先に述べたように、雑音源が非常に多く、雑音源方向を特定できないような環境では、ビームフォーマによる雑音抑圧性能は低下するが、入力音声は方向性があるため、雑音方向に目的方向を設定したビームフォーマにより、目的音源からの信号を抑圧した雑音のみの出力を抽出できる。従って、ビームフォーマ91の出力は、雑音のみの信号であり、これを用いて従来からよく知られているスペクトルサブトラクション(SS)の手法を用いて音声を強調する。スペクトルサブトラクションの詳細については、例えば文献4:S.Boll著:“Suppression of acoustics noise in speech using spectral subtraction ”,IEEE Trans.,ASSP-27,No.2,pp.113-120,1979”に述べられている。
【0062】
スペクトルサブトラクションには、参照用の雑音信号と音声信号の2チャネルを用いる2chSSと、1チャネルの音声信号のみを用いる1chSSとがあるが、本実施形態では参照用雑音としてビームフォーマ91の出力を用いる2chSSにより音声強調を行う。通常、2chSSの雑音信号としては、目的音声が入力されないように目的音声収集用のマイクロホンと距離を隔てたマイクロホンの信号を使うが、雑音信号の性質が目的音声収集用マイクロホンに混入する雑音と異なってしまい、SSの精度が落ちるという問題がある。
【0063】
これに対し、本実施形態では雑音収集専用のマイクロホンは使わず、音声収集用のマイクロホンから雑音信号を抽出しているため、雑音の性質が異なってしまうという問題がなく、精度よくSSを行うことができる。第2の実施形態と異なるのは、この2chSSの部分だけであり、他の部分は同じなので、まず2chSSについて説明する。
【0064】
2chSSは例えば図13に示すような構成であり、この図の処理を入力データをブロック処理してブロック毎に行う。図13に示す2chSSは、雑音信号をフーリエ変換する第1のFFT101、第1のFFTにより得られた周波数成分を帯域パワーに変換する第1の帯域パワー変換部102、得られた帯域パワーを時間方向に平均化する雑音パワー計算部103、音声信号をフーリエ変換する第2のFFT104、第2のFFTにより得られた周波数成分を帯域パワーに変換する第2の帯域パワー変換部105、得られた帯域パワーを時間方向に平均化する音声パワー計算部106、得られた雑音パワーと音声パワーとから帯域毎の重みを計算する帯域重み計算部107、音声信号から第2のFFTにより得られた周波数スペクトルを帯域毎の重みにより重み付けする重み付け部108、重み付けされた周波数スペクトルを逆FFTして音声を出力する逆FFT部109からなっている。
【0065】
ブロック長は例えば256点とし、FFTの点数と一致させる。FFTの際には、例えばハニング窓により窓掛けを行い、ブロック長の半分の128点ずつシフトさせながら、同じ処理を繰り返す。最後に逆FFTして得られた処理結果の波形に、128点ずつオーバラップさせながら加算して窓掛けによる変形を復元し、出力するようにする。
【0066】
帯域パワーへの変換は、例えば表1に示すように周波数成分を分割して16の帯域にまとめ、帯域毎に周波数成分の2乗和を計算して帯域パワーとする。
雑音パワーと音声パワーの計算は、帯域毎に例えば、1次の回帰フィルタにより次式のように行う。
【0067】
k,n =a・ppk +(1−a)・pk,n-1 (5)
k,n =a・vvk +(1−a)・vk,n-1 (6)
ここで、kは、帯域の番号、nはブロックの香号、pは平均化された雑音チャネルの帯域パワー、ppは雑音チャネルの当ブロックの帯域パワー、vは音声チャネルの平均化された帯域パワー、vvは音声チャネルの当ブロックの帯域パワー、aは定数である。aの値は、例えば0.5を用いる。
【0068】
次に、帯域重み計算部では、得られた雑音と音声の帯域パワーを用いて、例えば次式により帯域毎の重みwk,n を計算する。
k,n =|vk,n −pk,n |/vk,n (7)
次に、帯域毎の重みを用い、例えば次式により音声チャネルの周波数成分に重み付けする。
i,n =Xi,n ・wk,n (8)
ここで、Yi,n は重み付けされた周波数成分、Xi,n は音声チャネルの第2のFFTにより得られた周波数成分、iは周波数成分の番号であり、表1において周波数成分番号iに対応する帯域kの重みwk,n を用いるようにする。
【0069】
【表1】
Figure 0003677143
【0070】
2chSSによる音声強調部の処理の流れを図14を参照して説明する。
まず、初期設定を行い、例えばブロック長=256、FFT点数=256、シフト点数=128、帯域数=16とする(ステップS301)。
次に、第1のFFTにおいて雑音チャネルのデータを読み込んで窓掛けおよびFFTを行い、雑音の周波数成分を求める(ステップS302)。
次に、第2のFFTにおいて音声チャネルのデータを読み込んで窓掛けおよびFFTを行い、音声の周波数成分を求める(ステップS303)。
次に、第1の帯域パワー変換部において、雑音の周波数成分から表1の対応に従って雑音の帯域パワーを計算する(ステップS304)。
次に、第2の帯域パワー変換部において、音声の周波数成分から表1の対応に従って音声の帯域パワーを計算する(ステップS305)。
次に、雑音パワー計算部において、式(5)に従って平均雑音パワーを求める(ステップS306)。
次に、音声パワー計算部において、式(6)に従って平均音声パワーを求める(ステップS307)。
次に、帯域重み計算部において、式(7)に従って帯域重みを求める(ステップS308)。
次に、重み付け部において音声の周波数成分に対して、ステップS308で求めた重み係数を式(8)に従って重み付けする(ステップS309)。
次に、逆FFT部において、ステップS309で重み付けされた周波数成分を逆FFTして波形を求め、前のブロックまでに求めた波形の最後の128ポイントに重畳させて出力する(ステップS310)。
【0071】
以上、ステップS302〜S310までを入力がなくなるまで繰り返す。
なお、この処理はビームフォーマの処理を含めた全体の処理と同期させてブロック処理すると都合がよく、その場合はビームフォーマのブロック長は、音声強調部のシフト長128点と一致させるようにする。
【0072】
(第4の実施形態)
図11に、本実施形態に係る音声処理装置を示す。
第3の実施形態では、2つのビームフォーマを用いてその目的方向を各々雑音源方向および目的音源方向に向けるように制御していたが、目的音源と雑音源が固定されていてその方向が既知である場合にはビームフォーマの目的方向を制御する必要がないので、本実施形態のように図10の目的音源方向推定部93と第1および第2の制御部94,96を省略した構成とすることも可能である。この場合、第1のビームフォーマ121は最も強い雑音源方向に向け、第2のビームフォーマ122は目的音源方向に向けておく。この場合の処理は、第2の実施形態において音源方向推定部とビームフォーマの目的方向制御部を省略するだけで容易に実施可能なので、詳細な説明は省略する。
【0073】
(第5の実施形態)
図12に、本実施形態に係る音声強調処理機能を有する音声処理装置の構成を示す。目的音声よりも強い雑音源がない場合には、本実施形態のように雑音を抑圧する第2のビームフォーマも省略することができる。この場合も、第2のビームフォーマの処理を省略するだけなので、容易に実施可能であり、改めて説明しない。
【0074】
(第6の実施形態)
図15に、本実施形態に係る音声区間検出機能を有する音声処理装置の構成を示す。
第2の実施形態では、目的音源からの信号を抑圧する第1のビームフォーマのフィルタから得られる目的音源方向を音声区間検出に用いることにより、雑音環境での音声区間検出性能を向上する方法について説明したが、本実施形態は目的音源方向と第3の実施形態で述べた音声強調処理の出力を併用して音声区間の検出を行うことにより、さらに音声区間検出性能を向上することができるようにしたものである。
【0075】
図15に示すように、本実施形態は第3の実施形態の構成に第2の実施形態で説明した音声/非音声決定部70を付け加えた形となっており、音声区間検出処理として、第2の実施形態で用いている第2のビームフォーマの出力の代わりに音声強調部190からの音声強調処理後の出力を用いた点が特徴となっている。
【0076】
このように、目的音源からの信号を抑圧する第1のビームフォーマの出力を雑音信号として2chSSによる音声強調処理を行うことにより、従来の2chSSよりも、精度よく雑音を抑圧することができ、さらに音声強調出力と目的音源方向に基づいて音声区間検出することにより、非定常雑音下の音声区間検出性能を大幅に向上することができる。
【0077】
なお、上記の音声区間検出において検出のために用いるパラメータはビームフォーマの出力パワーや目的音源方向だけに限らず、例えば零交差数、スペクトルの傾き、LPCケプストラム、Δ−ケプストラム、Δ2−ケプストラム、LPC残差、自己相関係数、反射係数、対数断面積比、ピッチ等のパラメータおよびこれらを組み合わせたものを用いることも可能である。
【0078】
【発明の効果】
以上説明したように、本発明によればSN比が低く雑音源の方向を特定できないような環境下で、目的音源の音声区間の正確な検出や、さらには音声強調処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図
【図2】同実施形態における適応ビームフォーマ処理部の構成を示すブロック図
【図3】一方のチャネルの入力側に遅延器を挿入したビームフォーマの構成を示すブロック図
【図4】同実施形態における音源方向の推定処理の手順を示すフローチャート
【図5】2のマイクロフォンからの信号間の時間遅れについての説明図
【図6】同実施形態において音声/非音声を決定する第1の方法における処理の流れを示す状態遷移図
【図7】同実施形態において音声/非音声を決定する第1の方法における処理の流れを示す状態遷移図
【図8】本発明の第2の実施形態に係る音声処理装置の構成を示すブロック図
【図9】同実施形態における処理間の流れを示すフローチャート
【図10】本発明の第3の実施形態に係る音声処理装置の構成を示すブロック図
【図11】本発明の第4の実施形態に係る音声処理装置の構成を示すブロック図
【図12】本発明の第5の実施形態に係る音声処理装置の構成を示すブロック図
【図13】2チャネルスペクトルサブトラクションによる音声強調部の構成を示すブロック図
【図14】2チャネルスペクトルサブトラクションによる音声強調部の処理手順を示すフローチャート
【図15】本発明の第6の実施形態に係る音声処理装置の構成を示すブロック図
【符号の説明】
10−1〜10−n…音声信号入力端子
10…音声入力部
20…ビームフォーマ処理部
21…減算器
22…加算器
23…遅延器
24…適応フィルタ
25…減算器
26…遅延器
27…ビームフォーマ本体
30…目的音源方向推定部
40…音声/非音声決定部
50−1〜50−n…音声信号入力端子
50…音声入力部
61…第1のビームフォーマ
62…第2のビームフォーマ
63…目的音源方向推定部
64…第1の制御部
65…雑音源方向推定部
66…第2の制御部
70…音声/非音声決定部
80−1〜80−n…音声信号入力端子
80…音声入力部
91…第1のビームフォーマ処理部
92…第2のビームフォーマ処理部
93…目的音源方向推定部
94…第1の制御部
95…雑音源方向推定部
96…第2の制御部
100…音声強調部
101…FFT部
102…帯域パワー変換部
103…雑音パワー計算部
104…FFT部
105…帯域パワー変換部
106…音声パワー計算部
107…帯域重み計算部
108…重み付け部
109…逆FFT部
110−1〜110−n…音声信号入力端子
110…音声入力部
121…第1のビームフォーマ処理部
122…第2のビームフォーマ処理部
130…音声強調部
140−1〜140−n…音声信号入力端子
140…音声入力部
150…第1のビームフォーマ処理部
160…音声強調部
170−1〜170−n…音声信号入力端子
170…音声入力部
181…第1のビームフォーマ処理部
182…第2のビームフォーマ処理部
183…目的音源方向推定部
184…第1の制御部
185…雑音源方向推定部
186…第2の制御部
190…音声強調部
200…音声/非音声決定部

Claims (10)

  1. 複数のチャネルを介して音声信号を入力する音声入力ステップと、
    前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施すビームフォーマ処理ステップと、
    前記ビームフォーマ処理ステップにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定ステップと、
    前記目的音源方向推定ステップにより推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定ステップ
    とを具備することを特徴とする音声処理方法。
  2. 複数のチャネルを介して音声信号を入力する音声入力ステップと、
    前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第1のビームフォーマ処理ステップと、
    前記第1のビームフォーマ処理ステップにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定ステップと、
    前記音声入力ステップにより入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第2のビームフォーマ処理ステップと、
    前記第2のビームフォーマ処理ステップにより得られたフィルタ係数から雑音源の方向を推定する雑音源方向推定ステップと、
    前記目的音源方向推定ステップにより推定された目的音源の方向と前記第1および第2のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第2のビームフォーマ処理ステップを制御する第1の制御ステップと、
    前記雑音源方向推定ステップにより推定された雑音源の方向と前記第1および第2のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第1のビームフォーマ処理ステップを制御する第2の制御ステップと、
    前記目的音源方向推定ステップにより推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定ステップ
    とを具備することを特徴とする音声処理方法。
  3. 前記音声区間決定ステップは、前記目的音源方向推定ステップにより推定された目的音源の方向と前記音声信号のパワーに基づいて前記音声信号の音声区間を決定することを特徴とする請求項1または2に記載の音声処理方法。
  4. 複数のチャネルを介して音声信号を入力する音声入力手段と、
    前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施すビームフォーマと、
    前記ビームフォーマにより得られたフィルタ係数から目的音源の方向を求める目的音源方向推定手段と、
    前記目的音源方向推定手段により推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定手段
    とを具備することを特徴とする音声処理装置。
  5. 複数のチャネルを介して音声を入力する音声入力手段と、
    前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第1のビームフォーマと、
    前記第1のビームフォーマにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定手段と、
    前記音声入力手段により入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第2のビームフォーマと、
    前記第2のビームフォーマにより得られたフィルタ係数から雑音源の方向を推定する雑音源方向推定手段と、
    前記目的音源方向推定手段により推定された目的音源の方向と前記第1および第2のビームフォーマの出力パワーとに基づいて前記第2のビームフォーマを制御する第1の制御手段と、
    前記雑音源方向推定手段により推定された雑音源の方向と前記第1および第2のビームフォーマの出力パワーとに基づいて前記第1のビームフォーマを制御する第2の制御手段と、
    前記目的音源方向推定手段により推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定手段
    とを具備することを特徴とする音声処理装置。
  6. 前記音声区間決定手段は、前記目的音源方向推定手段により推定された目的音源の方向と前記音声信号のパワーに基づいて前記音声信号の音声区間を決定することを特徴とする請求項4または5に記載の音声処理装置。
  7. 複数のチャネルを介して音声を入力する音声入力ステップと、
    前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第1のビームフォーマ処理ステップと、
    前記第1のビームフォーマ処理により得られたフィルタ係数から目的音源方向を推定する目的音源方向推定ステップと、
    前記音声入力ステップにより入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第2のビームフォーマ処理ステップと、
    前記第2のビームフォーマ処理により得られたフィルタ係数から雑音源方向を推定する雑音源方向推定ステップと、
    前記目的音源方向推定ステップにより推定された目的音源方向と前記第1および第2のビームフォーマ処理の出力パワーとに基づいて前記第2のビームフォーマ処理ステップを制御する第1の制御ステップと、
    前記雑音源方向推定ステップにより推定された雑音源方向と前記第1および第2のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第1のビームフォーマ処理ステップを制御する第2の制御ステップと、
    前記第1のビームフォーマ処理ステップにより得られた出力および目的音源方向の少なくとも一方に基づいて前記第2のビームフォーマ処理ステップにより得られた出力中の雑音を抑圧して音声を強調する音声強調ステップ
    とを具備することを特徴とする音声処理方法。
  8. 前記目的音源方向推定ステップにより推定された目的音源方向と、前記音声強調ステップにより音声が強調された音声信号に基づいて該音声信号の音声区間を検出する音声区間検出ステップをさらに有することを特徴とする請求項7に記載の音声処理方法。
  9. 複数のチャネルを介して音声信号を入力する音声入力手段と、
    前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第1のビームフォーマと、
    前記第1のビームフォーマにより得られたフィルタ係数から目的音源方向を推定する目的音源方向推定手段と、
    前記音声入力手段により入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第2のビームフォーマと、
    前記第2のビームフォーマにより得られたフィルタ係数から雑音源方向を推定する雑音源方向推定手段と、
    前記目的音源方向推定手段により推定された目的音源方向と前記第1および第2のビームフォーマの出力パワーとに基づいて前記第2のビームフォーマの処理を制御する第1の制御手段と、
    前記雑音源方向推定手段により推定された雑音源方向と前記第1および第2のビームフォーマの出力パワーとに基づいて前記第1のビームフォーマの処理を制御する第2の制御手段と、
    前記第1のビームフォーマの出力と前記目的音源方向推定手段により推定された目的音源方向の少なくとも一方に基づいて前記第2のビームフォーマの出力中の雑音を抑圧して音声を強調する音声強調手段
    とを具備することを特徴とする音声処理装置。
  10. 前記目的音源方向推定手段により推定された目的音源方向と、前記音声強調手段により音声が強調された信号に基づいて前記音声信号の音声区間を検出する音声区間検出手段をさらに有することを特徴とする請求項10に記載の音声処理装置。
JP20636697A 1997-07-18 1997-07-31 音声処理方法および装置 Expired - Fee Related JP3677143B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP20636697A JP3677143B2 (ja) 1997-07-31 1997-07-31 音声処理方法および装置
US10/101,205 US20020138254A1 (en) 1997-07-18 2002-03-20 Method and apparatus for processing speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20636697A JP3677143B2 (ja) 1997-07-31 1997-07-31 音声処理方法および装置

Publications (2)

Publication Number Publication Date
JPH1152977A JPH1152977A (ja) 1999-02-26
JP3677143B2 true JP3677143B2 (ja) 2005-07-27

Family

ID=16522145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20636697A Expired - Fee Related JP3677143B2 (ja) 1997-07-18 1997-07-31 音声処理方法および装置

Country Status (1)

Country Link
JP (1) JP3677143B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861746B2 (en) 2010-03-16 2014-10-14 Sony Corporation Sound processing apparatus, sound processing method, and program
KR101811716B1 (ko) * 2011-02-28 2017-12-28 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
JP3812887B2 (ja) 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
EP1473964A3 (en) 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
JP2006058395A (ja) * 2004-08-17 2006-03-02 Spectra:Kk 音響信号入出力装置
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
EP1901089B1 (en) * 2006-09-15 2017-07-12 VLSI Solution Oy Object tracker
JP4282704B2 (ja) 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP4891801B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 多信号強調装置、方法、プログラム及びその記録媒体
JPWO2008143142A1 (ja) * 2007-05-18 2010-08-05 東京エレクトロンデバイス株式会社 音源定位装置、音源定位方法、及び、プログラム
US8812309B2 (en) 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
JP4950930B2 (ja) 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR101103794B1 (ko) * 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
JP5635024B2 (ja) * 2012-02-24 2014-12-03 日本電信電話株式会社 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP6648377B2 (ja) * 2015-09-28 2020-02-14 本田技研工業株式会社 音声処理装置及び音声処理方法
DE112016007079T5 (de) 2016-07-21 2019-04-04 Mitsubishi Electric Corporation Störgeräuschbeseitigungseinrichtung, echolöscheinrichtung, anormales-geräusch-detektionseinrichtung und störgeräuschbeseitigungsverfahren

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861746B2 (en) 2010-03-16 2014-10-14 Sony Corporation Sound processing apparatus, sound processing method, and program
KR101811716B1 (ko) * 2011-02-28 2017-12-28 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치

Also Published As

Publication number Publication date
JPH1152977A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
JP3677143B2 (ja) 音声処理方法および装置
CN106782590B (zh) 基于混响环境下麦克风阵列波束形成方法
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP4455614B2 (ja) 音響信号処理方法及び装置
JP4163294B2 (ja) 雑音抑圧処理装置および雑音抑圧処理方法
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US20020138254A1 (en) Method and apparatus for processing speech signals
US9215527B1 (en) Multi-band integrated speech separating microphone array processor with adaptive beamforming
EP3566462B1 (en) Audio capture using beamforming
CN111161751A (zh) 复杂场景下的分布式麦克风拾音系统及方法
US10771894B2 (en) Method and apparatus for audio capture using beamforming
RU2759715C2 (ru) Звукозапись с использованием формирования диаграммы направленности
US20030097257A1 (en) Sound signal process method, sound signal processing apparatus and speech recognizer
JP3795610B2 (ja) 信号処理装置
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP2005514668A (ja) スペクトル出力比依存のプロセッサを有する音声向上システム
EP3566228B1 (en) Audio capture using beamforming
Even et al. Blind signal extraction based joint suppression of diffuse background noise and late reverberation
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
Chen et al. Filtering techniques for noise reduction and speech enhancement
CN112017684B (zh) 一种基于麦克风阵列的密闭空间混响消除方法
Denda et al. Speech enhancement with microphone array and fourier/wavelet spectral subtraction in real noisy environments.
HIOKA et al. DOA ESTIMATION OF SPEECH SIGNAL WITH A SMALL NUMBER OF MICROPHONE ARRAY IN REAL ACOUSTICAL ENVIRONMENT

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050506

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090513

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees