JP3522954B2 - マイクロホンアレイ入力型音声認識装置及び方法 - Google Patents

マイクロホンアレイ入力型音声認識装置及び方法

Info

Publication number
JP3522954B2
JP3522954B2 JP5982196A JP5982196A JP3522954B2 JP 3522954 B2 JP3522954 B2 JP 3522954B2 JP 5982196 A JP5982196 A JP 5982196A JP 5982196 A JP5982196 A JP 5982196A JP 3522954 B2 JP3522954 B2 JP 3522954B2
Authority
JP
Japan
Prior art keywords
sound source
band
source position
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5982196A
Other languages
English (en)
Other versions
JPH09251299A (ja
Inventor
仁史 永田
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to JP5982196A priority Critical patent/JP3522954B2/ja
Publication of JPH09251299A publication Critical patent/JPH09251299A/ja
Application granted granted Critical
Publication of JP3522954B2 publication Critical patent/JP3522954B2/ja
Anticipated expiration legal-status Critical
Application status is Expired - Fee Related legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、利用者の発声した
音声をマイクロホンアレイを通して入力して認識するマ
イクロホンアレイ入力型音声認識装置及び方法に関す
る。 【0002】 【従来の技術】音声認識においては、音声入力を行う周
囲の環境が大きく影響する。特に背景雑音や利用者の音
声の反射音が認識性能を劣化させるため、認識装置を使
用する上で大きな問題となっている。このため、一般的
には、ヘッドセットマイクやハンドマイクなど、利用者
の口元で使う近接マイクが用いられているが、ヘッドセ
ットマイクを頭に長時間セットするのは煩わしく、ま
た、ハンドマイクは手を占有するため不自由になるなど
の問題があり、もっと自由な入力法が望まれている。 【0003】マイクロホンアレイは、上述のような煩わ
しさを解消できる音声入力方法の一つとして検討されて
おり、最近認識装置への適用例も報告されれている。マ
イクロホンアレイとは空間的に異なった位置に置いた複
数のマイクロホン(の集合)であり、各マイクロホンの
出力を統合処理することにより雑音を低減することがで
きる。マイクロホンアレイを用いた従来の音声認識装置
の構成を図12に示す。 【0004】図12において、11は複数のマイクロホ
ンからなるマイクロホンアレイ(図示せず)を有する音
声入力部、12は音源方向推定部、13は音源波形推定
部、14は音声検出部、15は音声分析部、16はパタ
ン照合部、17は認識辞書である。 【0005】この構成の場合、マイクロホンアレイに入
力した音声は、各々のマイクロホンごとに音声入力部1
1でディジタル信号に変換され、全チャネルの音声波形
が音源方向推定部12に入力される。 【0006】音源方向推定部12では、例えば文献“音
響システムとディジタル処理:電子情報通信学会編、p
p.181-186”に詳述されている遅延和法や、文献“Knowi
ng Who to Listen to in Speech Recognition: Visuall
y Guided Beamforming,ICASSP' 95, pp.848-851”で実
験的に検討されているように相互相関関数に基づくマイ
クロホン間の信号の時間差から音源位置または方向が推
定される。 【0007】音源の方向を求めるか位置を求めるかの違
いは、音源がマイクロホンアレイから遠く位置し入射す
る音波が平面波とみなせる場合と、音源がマイクロホン
アレイに比較的近く音源から音波が球面波状に伝搬する
とみなせる場合とに対応している。 【0008】次に、音源方向推定部12により求められ
た音源位置あるいは音源方向に対し、音源波形推定部1
3にて、遅延和法によりマイクロホンアレイの焦点を合
わせ、目的の音源の音声波形を求める。 【0009】その後は従来の音声認識装置と同様にこの
音声波形に対して音声分析部15にて音声分析を行い、
そこで求められた分析パラメータに対し、パタン照合部
16にて認識辞書17とのパタン照合を行って認識結果
を求める。パタン照合の方法としては、HMM、複合類
似度法、DPマッチングなどの手法が知られており、例
えば文献“Rabiner 他: Fundamentals of Speech Recog
nition: PRENTICE HALL ”に開示されている。 【0010】 【発明が解決しようとする課題】音声認識装置には音声
波形を入力するのが一般的である。このため、上に述べ
たマイクロホンアレイを用いた従来の音声認識装置で
も、音声波形を少ない演算量で推定する必要上から、遅
延和法によってマイクロホンアレイ出力を処理し、音源
位置(あるいは音源方向)と音声波形を得るようにして
いた。遅延和法は音源波形を比較的少ない処理量で得ら
れるためよく使われているが、複数の音源が近接してい
る場合に分離能力が低下するなどの問題がある。 【0011】一方、音源位置(あるいは方向)を推定す
る方法としては、例えば文献“音源方向推定法の室内残
響下での性能評価:日本音響学会誌、50巻7号 pp.54
0-548,1994年”に、モデルを仮定したパラメトリックな
推定方法が述べられており、これらは遅延和法よりも高
い精度で音源位置を推定できるとされ、音源位置の推定
処理から同時に音声認識に必要なパワースペクトルも得
ることができる。 【0012】この技術の処理構成を図13に示す。図1
3の構成では、複数のマイクロホンからの信号を音声入
力部21にて入力して周波数分析部22で高速フーリエ
変換(FFT)により周波数分析し、パワー推定部23
にて周波数成分ごとに音源位置推定の処理を行った後、
音源方向判定部24で全ての周波数の結果を統合して最
終的な音源位置推定結果を得ている。 【0013】ここで、音源位置推定の処理は、音源が存
在し得る範囲に亙り、方向または位置を細かく変えてそ
の方向または位置ごとのパワーを推定するものであり、
計算量は非常に大きなものとなる。ことに、球面波状の
音波の伝播を仮定した場合、到来方向でなく、音源の位
置を推定することになり、2次元あるいは3次元的な走
査が必要なため処理量は膨大である。 【0014】しかし、上記文献“音源方向推定法の室内
残響下での性能評価”で開示されている方法では、音声
の高速フーリエ変換により得られた周波数成分の各々に
ついて上述の走査処理を行う必要があり、計算量が多く
なってしまうという問題があった。 【0015】本発明は上記事情を考慮してなされたもの
でその目的は、マイクロホンアレイからの入力信号より
周波数帯域ごとの波形であるバンドパス波形を得て、そ
のバンドパス波形から音源のバンドパスパワーを直接求
めることにより、音源位置または方向の推定が少ない演
算量で高精度に行え、しかも求めたバンドパスパワーを
音声パラメータとして用いて高精度の音声認識を行うこ
とができるマイクロホンアレイ入力型音声認識装置及び
方法を提供することにある。 【0016】本発明の他の目的は、低分解能の音源位置
推定と高分解能の位置推定を組み合わせた音源位置探索
処理により、演算量を一層削減して音源位置とそのバン
ドパスパワーの推定が高精度で行えるマイクロホンアレ
イ入力型音声認識装置及び方法を提供することにある。 【0017】 【課題を解決するための手段】上記の問題を解決するた
め、本発明の第1の観点に係るマイクロホンアレイ入力
型音声認識装置は、入力音声各々を分析して周波数帯域
ごとの波形であるバンドパス波形を各チャネル別に求め
る周波数分析手段と、上記バンドパス波形から音源の位
置または方向ごとのバンドパスパワー分布を周波数帯域
ごとに求めて、そのバンドパスパワー分布を複数の周波
数帯域について統合し、その統合したバンドパスパワー
分布から音源位置または方向を推定する音源位置探査手
段と、上記推定された音源位置または方向に基づき、上
記周波数帯域ごとに求められたバンドパスパワー分布か
ら音声認識のためのパラメータである音声パラメータを
抽出する音声パラメータ抽出手段と、上記抽出された音
声パラメータを認識辞書と照合して音声認識する音声認
識手段とを備えたことを特徴とする。 【0018】この音声認識装置においては、音声入力手
段により入力されるマイクロホンアレイからの入力信号
を、周波数分析手段にて周波数分析して、周波数帯域ご
との波形であるバンドパス波形が求められる。このバン
ドパス波形は、従来のようなFFTによる周波数分析で
はなく、バンドパスフィルタバンク(バンドパスフィル
タ群)を用いることで求められる。そして、得られたバ
ンドパス波形から音源のバンドパスパワーが音源位置探
査手段により直接求められる。 【0019】ここで、ある帯域幅を持った信号を一括し
て扱うためには、例えば、マイクロホンチャネルごとに
複数の遅延線タップを持つフィルタ構成を仮定して(フ
ィルタ機能を用意して)、各チャネルのフィルタ出力の
和として音源パワーを求めるようにし、その際に高精度
なスペクトル推定法として知られている最小分散法を適
用するとよい。 【0020】この最小分散法による音源のパワー推定処
理も先の文献(音源方向推定法の室内残響下での性能評
価)に示されているが、上記文献では、1タップの遅延
線を仮定しているため帯域パワーをまとめて求めること
はできない。 【0021】本発明では、複数タップを仮定した構成に
より、方向ごとあるいは位置ごとのパワーを周波数ごと
に求めずに、音声認識に必要な周波数帯域ごとに求めて
いるため、そのまま音声認識に使えると同時に計算量が
少なくできる。 【0022】たとえば、従来512点のFFTを使った
場合、方向ごとのパワーを256個の成分について繰り
返し求める必要があったが、本発明では、バンドパスフ
ィルタバンクのバンド数を16とすると上記の方向ごと
のパワー推定は16回で済む。また、このパワー(バン
ドパスパワー)は、従来の遅延和処理よりも高精度で推
定できるため高精度で音声認識が可能である。 【0023】この音声認識装置において適用した音声パ
ラメータ抽出技術、即ちマイクロホンアレイからの入力
信号より周波数帯域ごとの波形であるバンドパス波形を
得て、そのバンドパス波形から音源のバンドパスパワー
を直接求めて音声パラメータとする技術は、マイクロホ
ンアレイからの入力信号を分析して音声パラメータを抽
出する音声分析装置に適用可能である。 【0024】上記音源位置探査手段において、バンドパ
スパワー分布を複数の周波数帯域について統合するに
は、例えば帯域ごとのバンドパスパワー分布に重みを掛
けて、その全周波数帯域数分についての総和をとればよ
い。ここで、重みは全て同じ重み1としてもよいし、周
波数特性の既知の雑音源、例えば電源周波数の雑音など
がある場合はその周波数の重みを小さくすることにより
雑音の影響を小さくすることも可能である。 【0025】また音源位置探査手段において、統合処理
後の音源の位置または方向ごとのパワー分布から音源位
置または方向を推定するには、そのパワー分布のピーク
を検出し、その検出結果をもとに行えばよい。 【0026】本発明の第2の観点に係るマイクロホンア
レイ入力型音声認識装置は、上記第1の観点に係るマイ
クロホンアレイ入力型音声認識装置の音源位置探査手段
に、複数の方向または複数の位置に関するマイクロホン
アレイの応答を同時に一定にする制約のもとに当該アレ
イの出力パワーを最小化して音源の位置または方向を推
定する低分解能音源位置推定手段と、1つの位置または
1つの方向に関するマイクロホンアレイの応答を一定に
する制約のもとに当該アレイの出力パワーを最小化し
て、低分解能音源位置推定手段により推定された音源位
置または方向の近傍において音源の位置または方向を推
定する高分解能音源位置推定手段とを備えたことを特徴
とする。 【0027】この音声認識装置においては、演算量を減
らす目的で音源位置探査手段での探索を疎に行っても、
低分解能での探索であることから、音源位置または方向
(パワーのピーク位置)を見落とす虞を少なくできる。 【0028】この低分解能での探索だけでは、近接した
音源が分離できなかったり推定精度が低下する可能性が
あるが、低分解能の探索で求められた音源位置または方
向の近傍(検出されたピーク近傍)においてのみ高分解
能での探索が行われるため、より少ない演算量で高精度
な音源位置推定が可能となる。 【0029】 【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の一実施形態に係るマ
イクロホンアレイ入力型音声認識装置の基本構成を示す
ブロック図である。 【0030】図1の音声認識装置は、主として、音声入
力部1、周波数分析部2、音源位置探査部3、音声パラ
メータ抽出部4、及び音声認識部5から構成される。音
声入力部1は、N個、例えば8個のマイクロホンの集合
であるマイクロホンアレイ(図示せず)を有し、当該マ
イクロホンアレイからの音声をディジタル信号に変換す
る。 【0031】周波数分析部2は、音声入力部1により入
力されるN(=8)個のマイクロホン(のチャネル)ご
との入力音声をバンドパスフィルタバンク(バンドパス
フィルタ群)により分析して(周波数帯域ごとの波形で
ある)バンドパス波形を求める。 【0032】音源位置探査部3は、周波数分析部2によ
り各チャネルについて求められた周波数帯域ごとのバン
ドパス波形から、帯域ごとにある位置または方向から到
来するパワーがどれだけかを推定し、そのパワーを音源
位置判別の情報として求め、更に複数の周波数帯域に関
して求めた当該音源位置判別の情報を統合して音源方向
または位置を特定する。 【0033】音声パラメータ抽出部4は、音源位置探査
部3にて特定した音源方向または位置から到来した音声
信号のバンドパスパワーを当該音源位置探査部3で求め
た音源位置判別情報から抽出する。 【0034】音声認識部5は、音声パラメータ抽出部4
で抽出された音声パラメータを認識辞書と照合すること
で音声認識する。次に、図1の構成の動作の概略につき
説明する。 【0035】まず、N(=8)個のマイクロホンに入射
した音声を各々のマイクロホンのチャネルごとに音声入
力部1でサンプリング周波数例えば12KHzでAD変
換し、周波数分析部2で周波数分析してマイクロホンご
とに複数バンド(帯域)のバンドパス波形を求める。分
析のバンド数をMとすることにする。ここでは、Mは1
6であるとし、バンドパスフィルタの通過帯域の決め方
は、音声認識部5で必要とするものと同じになるように
する。バンドパスフィルタの作成方法は、例えば、先に
[従来の技術]の欄で挙げた文献“Rabiner 他: Fundam
entals of Speech Recognition: PRENTICE HALL ”に詳
述されている。 【0036】次に、音源位置探査部3において、周波数
分析部から出力される同じ帯域のバンドパス波形N(=
8)チャネル分から、位置または方向ごとの到来パワー
を帯域ごとに推定し、それを音源位置判別情報とする。
すなわち、バンド数M(=16)回繰り返してこの処理
を行う。この音源位置判別情報の計算は、仮定する音源
の位置または方向を少しずつずらしながら到来パワーを
計算するものであり、音源の存在する範囲に亙る到来パ
ワーの分布を求めるものである。 【0037】この後、M個の周波数帯域ごとに求められ
た上記のパワー分布を統合して音波の到来方向または音
源位置を推定する。ここでは、このパワー分布の値が大
きいところを音源と推定するようにしている。 【0038】更に、音声パラメータ推定部4において、
既に音源位置探査部3で帯域ごとに推定されている音源
位置判別情報から、音波の到来方向または音源位置にお
ける音源パワー(バンドパスパワー)を抽出し、音声認
識部5に渡して音声認識し結果を出力する。 【0039】以上の概略動作で述べたように、本実施形
態においては、音声認識で用いる周波数帯域ごとにパワ
ー分布を推定してから音源位置を決定し、その位置に基
づいて音声パラメータを推定しているので、音源位置が
未知の場合でも、少ない演算量で高精度に音声パラメー
タを直接求めて音声認識することができる。 【0040】なお、音源位置が既知の場合には、パワー
分布の計算範囲を既知の音源の方向または位置1点とし
て到来パワーの値を求めればよく、この構成のまま適用
することができる。これは、ある一定の場所に利用者が
近づいて音声入力することが仮定できる場合に有効であ
る。 【0041】次に、音源位置探査部3により複数のバン
ドパス波形からパワー分布を求める動作の詳細につき説
明する。音源位置探査部3では、複数(M個)のバンド
パス波形から、ある方向または位置に関するパワーを求
めるため、最小分散法により計算を行う。最小分散法
は、例えば文献(Haykin著:Adaptive Filter Theory,P
RENTICE HALL)に詳述されている。 【0042】本実施形態では、最小分散法による音源パ
ワーの推定に際し、狭帯域でなく、ある帯域幅をもった
信号に対処するため、図2に示すように、(周波数分析
部2により)N個のマイクロホン(i=1〜N)ごとに
得られた同じ周波数帯域のバンドパス波形を、それぞれ
各マイクロホン(i=1〜N)に対応する複数タップの
トランスバーサルフィルタ31-1,…,31-Nに通して
から加算器32で加算するようなフィルタ機能を計算に
より実現している。ここで、フィルタ31-1,…,31
-Nのフィルタ係数w11〜w1J,…,wN1〜wNJは帯域ご
とに切り替え設定され、これにより帯域数分のフィルタ
機能が実現される。 【0043】図2の構成では、フィルタのタップ数を
J,i番目のマイクロホン(No.iのマイクロホン)のフ
ィルタ係数をwij,(1≦i≦N,1≦j≦J)として
おり、Jは例えば10を用いるが、帯域幅により変えて
もよい。 【0044】この構成におけるフィルタの出力yは、次
のように表される。まず、i番目のマイクロホンの波形
から得られたk番目(1≦k≦M)の周波数帯域のバン
ドパス波形をxik(n) とし、時刻nにおけるJサンプル
過去から当該時刻nまでの各マイクロホン(N個)のバ
ンドパス波形サンプルの系列xik=(xik(n-J+1) ,x
ik(n-J+2) ,…,xik(n-1) ,xik(n) )を全マイクロ
ホンについて並べて、 xk =(x1k,x2k,…,xNkT (1) と、ベクトルで表す。 【0045】また、フィルタ係数wijを次式のように並
べてベクトルで表す。 wk =(w11,w12,…,w1j,w21,w22, …,w2J,…,wN1,wN2,…,wNJT (2) 上記の式(1),(2)を用いると、フィルタの出力y
は y=wk *k (3) と表される。ここで*はベクトルの複素共役転置を表す
ものとする。xk は一般にスナップショットと呼ばれ
る。 【0046】最小分散法による推定スペクトルは、E
[ ]が期待値をあらわすものとすると、次式 E[y2 ]=E[wk *kk *k ]=wk *kk (4) で表されるフィルタの出力パワーy2 の期待値を、目的
の方向または位置に関する応答を一定に保つという制約
条件下で最小にすることにより得られる。ここで、Rk
=E[xkk * ]はxの相関行列である。 【0047】制約条件は wk * A=g (5) と表される。 【0048】ここで、gは制約条件の数Lの大きさの定
数値の列ベクトルで、例えば[1,1,…,1]であ
る。また、Aは異なった周波数に関する方向制御ベクト
ルamを列ベクトルとする行列であり、 A=[a1 ,a2 ,…,aL ] (6) と表される。各方向制御ベクトルam (m=1,2,
…,L)は次のように表される。 【0049】 【数1】 【0050】ここで、τ2 ,…,τN は1番目のマイク
ロホンを基準としたときの各マイクロホン(2番目,
…,N番目のマイクロホン)に入射する音波の伝搬時間
差である。なお、1番目のマイクロホンに入射する音波
の伝搬時間差τ1 は0としてある。また、ωm は角周波
数、a2 ,…,aN は1番目のマイクロホンを基準とし
たときの各マイクロホン(2番目,…,N番目のマイク
ロホン)に入射する音波の振幅比である。Lは例えば1
0を用い、ωm は例えばωm =((ωa −ωb )/(L
−1))*m+ωb とする。ここでωa は帯域の上限の
角周波数、ωb は同じく下限の角周波数である。 【0051】式(4)を式(5)の制約のもとで最小化
する問題をラグランジュの未定係数法で解くと、音源方
向θまたは音源位置θ以外からの到来パワーを最小とす
るフィルタ係数wk は、 wk =Rk -1A(A*k -1A)-1g (8) と得られる。 【0052】このフィルタ係数wk を用いて、音源θか
らのk番目の帯域に関する到来パワー(到来バンドパス
パワー、音源パワー)Pk (θ)は、 Pk (θ)=g* (A*k -1A)-1g (9) と計算される。音源位置の推定の場合、θは座標を表す
ベクトルと考える。 【0053】ここで、各マイクロホンの伝搬時間差と振
幅の求め方につき図3を参照して説明する。なお、ここ
では簡略化のため2次元平面上で説明するが、3次元空
間への拡張は容易である。 【0054】まず、図3(a)のように、1番目(No.
1)のマイクロホンの座標を(x1 ,y1 )、i番目(N
o.i)のマイクロホンの座標を(xi ,yi )とする
と、平面波を仮定した場合には、θ方向から音波が入射
する際のi番目のマイクロホンと1番目のマイクロホン
に入射する音波の伝搬時間差τi は τi (θ)=((xi −x12 +(yi −y121/2 cos(θ−tan -1((yi −y1 )/(xi −x ))) (10) と表すことができる。また振幅は、 a =a2 =…aN =1 (11) とおくことができる。 【0055】一方、点音源を仮定した場合には、図3
(b)のように、仮想音源位置θを(xs ,ys )とお
くと、τi 及び振幅ai は、 τi =(((xi −xs2 +(yi −ys21/2 −((x1 −xs2 +(y1 −ys21/2 )/c (12) ai =((xi −xs2 +(yi −ys21/2 /((x1 −xs2 +(y1 −ys21/2 (13) となる。ただし、cは音速である。 【0056】式(9)のPk (θ)は、θが到来方向あ
るいは音源位置と一致した場合には大きく、一致しない
場合には小さな値となる。このため、Pk (θ)を方向
ごと、あるいは位置ごとに計算し、ピークとなるところ
を到来方向または音源位置と推定することができる。 【0057】そこで音源位置探査部3では、音源方向を
求める場合には、θを少しずつ、例えば、1°ずつ変え
てこのPk (θ)を求めるようにし、音源位置を求める
場合には、探索範囲において、例えば、2cmおきの格
子点上の値を計算するようにする。θの刻みの幅は波長
や仮定する音源位置の距離などにより適当な値に変える
ことも可能である。 【0058】次に音源位置探査部3では、帯域ごとに求
められた式(9)のPk (θ)を全帯域について統合し
音源位置または音源方向の推定を行う。統合の方法は、
例えば、帯域ごとの到来パワー分布Pk (θ)に次式の
ように重みWk を掛けてからk=1〜k=Mまでの全周
波数帯域数分について和をとることにより行い、この統
合処理後の分布(トータルの音源パワー分布)上のピー
クから音源を推定するようにしている。 【0059】 P(θ)total =ΣWkk (θ) (14) ここで重みWk は全て同じ重み1としてもよいし、周波
数特性の既知の雑音源、例えば電源周波数の雑音などが
ある場合はその周波数の重みを小さくすることにより雑
音の影響を小さくすることも可能である。 【0060】音源の検出は、先に述べたようにP(θ)
total のピークの大きさに基づいて行うが、最大のピー
クを1個とるようにしてもよいし、図4のように、統合
した(トータルの)音源パワー分布上のピークを除いた
ところの平均値を基準に、予め定めたしきい値、例えば
5dBを上回るピーク全てを音源とし、5dBを上回る
ピークがない場合は検出しないようにしてもよい。 【0061】このように、式(9)の帯域ごとの到来パ
ワー分布Pk (θ)は、複数のマイクロホンの位置を基
準とした方向ごとまたは位置ごとに音源の存在を仮定し
て音源が該仮定位置にあるか否かを判別するのに用いら
れることから、音源位置判別情報と呼ぶことができる。 【0062】次に、音声パラメータ抽出部4では、音源
位置探査部3で求めた音源の方向または位置の値に基づ
き、既に求めてある帯域ごとの到来パワー分布Pk
(θ)から、音源のk番目の周波数帯域のパワーが取り
出せる。したがって、k=1からMまでの各帯域のパワ
ーを取り出せば、音声パラメータであるバンドパスパワ
ーが求まる。 【0063】以上のようにして求めた音源のバンドパス
パワーを音声パラメータ抽出部4から音声認識部5へ送
り、音声認識処理を行う。音声認識部5は、例えば図5
に示すように、音声パワー計算部501と音声検出部5
02とパタン照合部503と認識辞書504とから構成
されている。 【0064】この音声認識部5では、音声パラメータ抽
出部4により抽出された音声パラメータ(バンドパスパ
ワー)から音声のパワーを計算し、該音声のパワーに基
づいて音声検出部502にて音声区間を検出し、その区
間の音声パラメータに関してパタン照合部503にて認
識辞書504とのパタン照合を行う。 【0065】なお、音声認識部5を、図6に示すよう
に、パタン照合部511と認識辞書512と音声検出部
513とから構成し、音声パラメータに対するパタン照
合を常に行って照合スコア最大の区間を音声区間と定め
るワードスポッティング方式を用いて認識してもよい。 【0066】音声パラメータ抽出部4で抽出された帯域
ごとのパワーを加算すると全音声パワーになることか
ら、例えば、文献“音声認識:情報科学講座E 新美康
永著pp.67-70 共立出版(1979)”に記載されているよう
な、音声パワーに基づいた音声区間の検出方法を適用で
きる。以上の処理は、入力音声波形のデータのフレーム
ごとに行って連続的に音声を認識する。 【0067】このように本実施形態においては、以上に
述べた構成のマイクロホンアレイ入力型の音声認識装置
により、音声パラメータであるバンドパスパワーを直接
求めて音声認識するようにしたため、高精度な音源方向
・音源位置推定手法の一つである最小分散法を少ない演
算量で適用できる。 【0068】以上に述べた処理の流れを図7のフローチ
ャートを参照して説明する。まず、処理開始に先立っ
て、方向推定か位置推定かの別、音源探索の範囲、探索
の刻み幅などを初期設定する(ステップS1)。図7の
例では、方向推定か位置推定かの別は方向推定、探索範
囲は−90°から90°、探索の刻みは1°である。 【0069】次に、N個のマイクロホンからの音声を音
声入力部1でNチャネル並列に例えばサンプリング周波
数12KHzでA/D(アナログ/ディジタル)変換し
て、その波形データをバッファ(図示せず)に記憶する
(ステップS2)。通常、ステップS2は他の処理とは
無関係に実時間で連続的に行うようにする。 【0070】次に、バッファの波形データを1チャネル
ずつフレームサイズ、例えば256ポイント読み出して
周波数分析部2でバンドパスフィルタバンクにかけてM
個(ここではM=16)の周波数帯域k(k=1〜M)
ごとのバンドパス波形を取り出す(ステップS3)。バ
ンドパスフィルタの演算は、各マイクロホン別に独立に
パラレルに行ってもよいし、シリアルに行ってもよい。 【0071】次に音源位置探査部3において、ステップ
S3で(周波数分析部2により)得られたNチャネルの
バンドパス波形データを用い、周波数帯域kごとに相関
行列Rk を求める(ステップS4)。相関行列Rk の計
算は、図8に示すように、例えば256サンプル(ポイ
ント)からなるフレームデータを2サンプルおきに20
フレーム分用いてサンプル自己相関行列の時間平均を求
めてRk とするようにする。 【0072】ステップS4では更に、上記のRk を用い
て仮想的な位置または方向ごとの音源位置判別情報であ
る到来パワー分布Pk (θ)=g* (A*k -1A)-1
gを求める。計算は対象とする全空間に亙って行い、到
来パワーの空間分布を求めることになる。帯域について
は、M=16の例であれば、k=1からk=16まで行
う。 【0073】次に音源位置探査部3では、周波数帯域ご
との到来パワー分布Pk (θ)をθ別に全周波数帯域に
亙って加算し、トータルの音源パワー分布P(θ)
total を求める。このP(θ)total から最も大きいピ
ークを抽出して音源位置θ0 を特定する(ステップS
5)。 【0074】次に、音声パラメータ抽出部4において、
音源位置探査部3により求められた周波数帯域ごとの到
来パワー分布(音源位置判別情報分布)Pk (θ)上の
音源位置θ0 における値を取り出し、これを各音源ごと
に全周波数帯域について行って音声パラメータPk (θ
0 )を求める(ステップS6)。 【0075】ステップS6では更に、音声認識部5の音
声パワー計算部501において音声パラメータPk (θ
0 )の帯域kごとのパワーを加算して音声帯域全体のパ
ワーを求める。 【0076】次に、ステップS6で求められた音声帯域
全体のパワーを用いて音声認識部5の音声検出部502
で音声区間を検出する(ステップS7)。次に、音声検
出部502で音声区間の終端が検出されたか否かを判定
し(ステップS8)、検出されない場合はステップS2
に戻って次の波形データのフレームの周波数分析を行
う。これに対し、音声区間の終端が検出された場合に
は、音声認識部5の照合部503において、その区間の
音声パラメータと認識辞書504との照合を行って認識
結果を出力する(ステップS9)。そして、再びステッ
プS2に戻って次の波形データのフレームの周波数分析
を行う。 【0077】以降、以上の処理を繰り返すことにより、
連続的に音声パラメータの推定と認識を行う。なお、以
上に述べた処理は、プロセッサを複数、例えばマイクロ
ホン数分並列動作させることにより、パイプライン化し
て高速に行うことも可能である。 [第2の実施形態]次に、音源位置推定の際の計算量を
更に減らすため、スペクトル推定の制約条件を変えて分
解能を制御し、分解能に合わせて探索の密度を変えて音
源探索の演算量を減らす方法を適用した音声認識装置の
第2の実施形態について説明する。なお、この音声認識
装置の基本構成は前記第1の実施形態における音声認識
装置と同様であるため、便宜上図1を参照する。 【0078】前記第1の実施形態では、最小分散法によ
るスペクトル推定の際の制約条件は、1つの方向または
位置に対する応答を一定値にするものであった。この場
合、推定の分解能は十分高いので、音源の探索範囲にお
いてθを例えば1°刻みで変えて到来パワーを求めるな
ど、密に探査してピークを求めていた。 【0079】このように分解能が高い場合は、図9
(a)の例に示すように、探索を密に行わないと正確な
ピークの頂点を検出できない可能性があるため、探索の
演算量は容易には減らせい。 【0080】これに対し、音源位置推定処理の分解能を
低下させることができるならば、図9(b)のように、
探索を疎に行ってもピーク位置を見落とす可能性は低く
できるため、演算量を減らすことができる。しかし、分
解能が低下した分、近接した音源が分離できなかった
り、推定精度が低下する可能性がある。 【0081】そこで本実施形態では、低い分解能で探査
した後、ピーク近傍のみ高い分解能で探索することによ
り、少ない演算量で高精度な音源位置推定が行える方法
を適用する。以下、この方法につき説明する。 【0082】音源位置推定の際の分解能は、式(5)の
制約条件として、1つの方向または位置に関する応答を
一定にするだけでなく、複数の方向または位置の応答を
同時に一定にすることにより制御できる。 【0083】例えば、θ1 ,θ2 の2つの角度に関する
時間遅れτ1 (θ1 ),τ1 (θ2)(式(10)参
照)を用いた、次式に示す方向制御ベクトルam (θ
1 ),am (θ2 )(m=1,2,…L)を用いる。 【0084】 【数2】 【0085】そして、上記の方向制御ベクトルam (θ
1 ),am (θ2 )を用いて A=[a1 (θ1 ),a2 (θ1 ),…,aL (θ1 ), a1 (θ2 ),a2 (θ2 ),…,aL (θ2 )] (17) とすることにより、同時に2つの方向に対して応答する
ようになる。 【0086】ここで、θ1 ,θ2 を近い値、例えばθ2
=θ1 +1°のように設定するならば、θ1 ,θ2 間を
含む幅のある1つの方向に対して応答するのと同等とな
るため、分解能を低くしたのと同等になる。同時に応答
させる方向は、2つに限る必要はない。 【0087】分解能を低くした場合、探索は高分解能の
ときと比べて疎にすることができるので演算量を削減で
きる。次に、以上のようにして求めた低分解能の音源位
置推定処理による探索の後、そのピークの近傍のみにお
いて前記第1の実施形態で述べた高分解能の探索を行う
ことにより、全体の演算量を減らして精度の高い音源位
置推定を行うことができる。 【0088】上記2つの音源位置推定処理を実現する本
実施形態における音源位置探査部3の構成を図10に示
す。図10において、301は位置または方向ごとの到
来パワーの分布を低分解能のスペクトル推定を用いて疎
に推定する低分解能音源位置探査部、302は低分解能
音源位置探査部301で求めた位置または方向に基づい
て、その近傍のみの到来パワーの分布を高分解能のスペ
クトル推定を用いて蜜に推定する高分解能音源位置探査
部である。 【0089】この図10の構成による音源位置探査部3
の処理の流れを図11のフローチャートを参照しながら
説明する。まず、各マイクロホンに対応したバンドパス
波形を入力とし、相関行列Rk を計算する(ステップS
11)。相関行列の求め方については前記第1の実施形
態で述べた。 【0090】次に、相関行列Rk を用いて低分解能の音
源位置探索を行う(ステップS12)。このとき、探索
の刻みθd は大きめの値、例えば5°とし、探索を探索
範囲全体に亘って疎に行うようにする。また、分解能を
低下させるため、式(13),(14)に示した2つの
方向または位置に関する方向制御ベクトルam
(θ1),am (θ2 )を列ベクトルとする行列(式
(15),(16)参照)を式(9)のAに代えて用い
る。図11ではこの行列をBで表している。この探索は
各帯域で行う。 【0091】次に、各帯域の低分解能の到来パワー分布
を統合し、そのピークから音源位置θ0 を求める(ステ
ップS13)。次に、ステップS13で求まった音源位
置の近傍において、高分解能の音源位置探索を行う。探
索範囲の設定は、例えばステップS13で求まった音源
位置の前後10°の範囲とするようにする。このとき、
到来パワー推定(到来パワー分布)の式は(9)と同じ
であり、探索の刻みは例えば1°と狭い幅に設定する
(ステップS14)。 【0092】次に、ステップS14で求めた各帯域の高
分解能の到来パワー分布を統合し、そのピークから音源
位置を求める(ステップS15)。音声パラメータ抽出
部4では、音源位置探査部3(内の高分解能音源位置探
査部302)での高分解能音源位置探索により得られた
到来パワーの分布から音源のパワー(音声パラメータ)
を抽出する。 【0093】このように本実施形態においては、以上に
述べた低分解能の音源位置推定と高分解能の位置推定を
組み合わせた音源位置探索処理により、演算量を大幅に
減らして音源位置とそのバンドパスパワーの推定が行え
る。 【0094】 【発明の効果】以上詳述したように本発明によれば、マ
イクロホンアレイからの入力信号より周波数帯域ごとの
波形であるバンドパス波形を得て、そのバンドパス波形
から音源のバンドパスパワーを直接求めることにより、
音源位置または方向の推定が少ない演算量で高精度に行
え、しかも求めたバンドパスパワーを音声パラメータと
して用いて高精度の音声認識を行うことができる。 【0095】また本発明によれば、低分解能の音源位置
推定と高分解能の位置推定を組み合わせた音源位置探索
処理により、演算量を一層削減して音源位置とそのバン
ドパスパワーの推定を高精度で行うことができる。

【図面の簡単な説明】 【図1】本発明の一実施形態に係るマイクロホンアレイ
入力型音声認識装置の基本構成を示すブロック図。 【図2】図1中の音源位置探査部3で適用されるフィル
タ機能を示す図。 【図3】音源位置とマイクロホン位置との関係を、方向
推定の場合と位置推定の場合について示す図。 【図4】統合処理後の音源パワー分布からのピーク検出
を説明するための図。 【図5】図1中の音声認識部5の構成を示すブロック
図。 【図6】図1中の音声認識部5の構成の変形例を示すブ
ロック図。 【図7】図1の構成の処理の流れを示すフローチャー
ト。 【図8】図1中の音源位置探査部3での相関行列の計算
に用いる波形データのフレームごとの読み出しを説明す
るための図。 【図9】音源位置推定の際の分解能と探索の刻みとの関
係を示す図。 【図10】低分解能の音源位置推定処理による探索の
後、そのピークの近傍のみにおいて高分解能の探索を行
う機能を実現するための音源位置探査部3の構成を示す
ブロック図。 【図11】図10の構成による音源位置探査部3の処理
の流れを示すフローチャート。 【図12】従来のマイクロホンアレイ入力型音声認識装
置の全体構成を示すブロック図。 【図13】従来のマイクロホンアレイ入力型音声認識装
置で適用される音源位置推定機能を実現するための構成
を示すブロック図。 【符号の説明】 1…音声入力部、 2…周波数分析部、 3…音源位置探査部、 4…音声パラメータ抽出部、 5…音声認識部、 31-1〜31-N…トランスバーサルフィルタ、 301…低分解能音源位置探査部(低分解能音源位置推
定手段)、 302…高分解能音源位置探査部(高分解能音源位置推
定手段)、 501…音声パワー計算部、 502,513…音声検出部、 503,511…パタン照合部、 504,512…認識辞書。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−13583(JP,A) 特開 平5−87903(JP,A) 特開 平7−28492(JP,A) 特開 平6−195097(JP,A) 特開 昭60−113295(JP,A) 田中, 金田, 小島,音源方向推定 法の案内残響下での性能評価,日本音響 学会誌,日本,1994年 7月,50巻, 7号,Pages 540−548 (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/02 G01S 3/808 H04R 3/00

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 複数のマイクロホンの集合であるマイク
    ロホンアレイを用いて複数チャネルの音声を並列に入力
    する音声入力手段と、 前記音声入力手段により入力された前記複数チャネルの
    入力音声各々を分析して周波数帯域ごとの波形であるバ
    ンドパス波形を前記各チャネル別に求める周波数分析手
    段と、 前記周波数分析手段により求められたバンドパス波形か
    ら音源の位置または方向ごとのバンドパスパワー分布を
    周波数帯域ごとに求めて、そのバンドパスパワー分布を
    複数の周波数帯域について統合し、その統合したバンド
    パスパワー分布から音源位置または方向を推定する音源
    位置探査手段であって、複数の方向または複数の位置に
    関する前記マイクロホンアレイの応答を同時に一定にす
    る制約のもとに前記アレイの出力パワーを最小化して音
    源の位置または方向を推定する低分解能音源位置推定手
    段と、1つの位置または1つの方向に関する前記マイク
    ロホンアレイの応答を一定にする制約のもとに前記アレ
    イの出力パワーを最小化して、前記低分解能音源位置推
    定手段により推定された音源位置または方向の近傍にお
    いて音源の位置または方向を推定する高分解能音源位置
    推定手段とを含む音源位置探査手段と、前記高分解能音源位置推定手段 により得られた音源位置
    または方向に基づき、前記音源位置探査手段により周波
    数帯域ごとに求められた前記バンドパスパワー分布から
    音声認識のためのパラメータである音声パラメータを抽
    出する音声パラメータ抽出手段と、 前記音声パラメータ抽出手段により抽出された音声パラ
    メータを認識辞書と照合して音声認識する音声認識手段
    とを具備することを特徴とするマイクロホンアレイ入力
    型音声認識装置。 【請求項2】 複数のマイクロホンの集合であるマイク
    ロホンアレイを用いて複数チャネルの音声を並列に入力
    する音声入力ステップと、 前記音声入力ステップで入力した複数チャネルの入力音
    声各々を分析して周波数帯域ごとの波形であるバンドパ
    ス波形を前記各チャネル別に求める周波数分析ステップ
    と、 前記周波数分析ステップで求めたバンドパス波形から音
    源の位置または方向ごとのバンドパスパワー分布を周波
    数帯域ごとに求めて、そのバンドパスパワー分布を複数
    の周波数帯域について統合し、その統合したバンドパス
    パワー分布から音源の位置または方向を推定する音源位
    置探査ステップであって、複数の位置または方向に関す
    る前記マイクロホンアレイの応答を同時に一定にする制
    約のもとに前記アレイの出力パワーを最小化して音源の
    位置または方向を推定する低分解能音源位置推定ステッ
    プと、1つの位置または方向に関する前記マイクロホン
    アレイの応答を一定にする制約のもとに前記アレイの出
    力パワーを最小化して、前記低分解能音源位置推定ステ
    ップで推定した音源位置または方向の近傍において音源
    の位置または方向を推定する高分解能音源位置推定ステ
    ップとを含む音源位置探査ステップと、 前記高分解能音源位置推定ステップにより得られた音源
    位置または方向に基づき、前記周波数帯域ごとに求めた
    バンドパスパワー分布から音声認識のためのパラメータ
    である音声パラメータを抽出する音声パラメータ抽出ス
    テップと、 前記音声パラメータ抽出ステップで抽出した音声パラメ
    ータを認識辞書と照合して音声認識する音声認識ステッ
    プとを具備することを特徴とする音声認識方法。 【請求項3】 複数のマイクロホンの集合であるマイク
    ロホンアレイを用いて複数チャネルの音声を並列に入力
    する音声入力手段と、 前記音声入力手段により入力された前記複数チャネルの
    入力音声各々を分析して周波数帯域ごとの波形であるバ
    ンドパス波形を前記各チャネル別に求める周波数分析手
    段と、 前記周波数分析手段により求められたバンドパス波形か
    ら音源の位置または方向ごとのバンドパスパワー分布を
    周波数帯域ごとに求めて、そのバンドパスパワー分布を
    複数の周波数帯域について統合し、その統合したバンド
    パスパワー分布から音源位置または方向を推定する音源
    位置探査手段であって、複数の方向または複数の位置に
    関する前記マイクロホンアレイの応答を同時に一定にす
    る制約のもとに前記アレイの出力パワーを最小化して音
    源の位置または方向を推定する低分解能音源位置推定手
    段と、1つの位置または1つの方向に関する前記マイク
    ホンアレイの応答を一定にする制約のもとに前記アレ
    イの出力パワーを最小化して、前記低分解能音源位置推
    定手段により推定された音源位置または方向の近傍にお
    いて音源の位置または方向を推定する高分解能音源位置
    推定手段とを含む音源位置探査手段と、 前記高分解能音源位置推定手段により得られた音源位置
    または方向に基づき、前記音源位置探査手段により周波
    数帯域ごとに求められた前記バンドパスパワー分布から
    音声認識のためのパラメータである音声パラメータを抽
    出する音声パラメータ抽出手段とを具備することを特徴
    とする音声分析装置。 【請求項4】 複数のマイクロホンの集合であるマイク
    ロホンアレイを用いて複数チャネルの音声を並列に入力
    する音声入力ステップと、 前記音声入力ステップで入力した複数チャネルの入力音
    声各々を分析して周波数帯域ごとの波形であるバンドパ
    ス波形を前記各チャネル別に求める周波数分析ステップ
    と、 前記周波数分析ステップで求めたバンドパス波形から音
    源の位置または方向ごとのバンドパスパワー分布を周波
    数帯域ごとに求めて、そのバンドパスパワー分布を複数
    の周波数帯域について統合し、その統合したバンドパス
    パワー分布から音源の位置または方向を推定する音源位
    置探査ステップであって、複数の位置または方向に関す
    る前記マイクロホンアレイの応答を同時に一定にする制
    約のもとに前記アレイの出力パワーを最小化して音源の
    位置または方向を推定する低分解能音源位置推定ステッ
    プと、1つの位置または方向に関する前記マイクロホン
    アレイの応答を一定にする制約のもとに前記アレイの出
    力パワーを最小化して、前記低分解能音源位置推定ステ
    ップで推定した音源位置または方向の近傍において音源
    の位置または方向を推定する高分解能音源位置推定ステ
    ップとを含む音源位置探査ステップと、 前記高分解能音源位置推定ステップにより得られた音源
    位置または方向に基づき、前記周波数帯域ごとに求めた
    バンドパスパワー分布から音声認識のためのパラメータ
    である音声パラメータを抽出する音声パラメータ抽出ス
    テップとを具備することを特徴とする音声分析方法。
JP5982196A 1996-03-15 1996-03-15 マイクロホンアレイ入力型音声認識装置及び方法 Expired - Fee Related JP3522954B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5982196A JP3522954B2 (ja) 1996-03-15 1996-03-15 マイクロホンアレイ入力型音声認識装置及び方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP5982196A JP3522954B2 (ja) 1996-03-15 1996-03-15 マイクロホンアレイ入力型音声認識装置及び方法
DE1997613647 DE69713647D1 (de) 1996-03-15 1997-03-14 Verfahren und System zur Sprachanalyse mit Eingabe über eine Mikrophonanordnung
US08/818,672 US6009396A (en) 1996-03-15 1997-03-14 Method and system for microphone array input type speech recognition using band-pass power distribution for sound source position/direction estimation
DE1997613647 DE69713647T2 (de) 1996-03-15 1997-03-14 Verfahren und System zur Sprachanalyse mit Eingabe über eine Mikrophonanordnung
EP19970104406 EP0795851B1 (en) 1996-03-15 1997-03-14 Method and system for microphone array input type speech analysis

Publications (2)

Publication Number Publication Date
JPH09251299A JPH09251299A (ja) 1997-09-22
JP3522954B2 true JP3522954B2 (ja) 2004-04-26

Family

ID=13124282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5982196A Expired - Fee Related JP3522954B2 (ja) 1996-03-15 1996-03-15 マイクロホンアレイ入力型音声認識装置及び方法

Country Status (4)

Country Link
US (1) US6009396A (ja)
EP (1) EP0795851B1 (ja)
JP (1) JP3522954B2 (ja)
DE (2) DE69713647T2 (ja)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
DE19741596A1 (de) * 1997-09-20 1999-03-25 Bosch Gmbh Robert Verfahren zur Optimierung des Empfangs akustischer Signale und elektrisches Gerät
DE19812697A1 (de) 1998-03-23 1999-09-30 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug
JP3863306B2 (ja) 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
JP3598932B2 (ja) * 2000-02-23 2004-12-08 日本電気株式会社 話者方向検出回路及びそれに用いる話者方向検出方法
US20020031234A1 (en) * 2000-06-28 2002-03-14 Wenger Matthew P. Microphone system for in-car audio pickup
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
JP4815661B2 (ja) * 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
AU9498901A (en) * 2000-10-04 2002-04-15 Clarity L L C Speech detection
US7092882B2 (en) * 2000-12-06 2006-08-15 Ncr Corporation Noise suppression in beam-steered microphone array
US20020082835A1 (en) * 2000-12-19 2002-06-27 Hewlett-Packard Company Device group discovery method and apparatus
US7092886B2 (en) * 2000-12-19 2006-08-15 Hewlett-Packard Development Company, L.P. Controlling the order of output of multiple devices
US6662137B2 (en) 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US6895098B2 (en) * 2001-01-05 2005-05-17 Phonak Ag Method for operating a hearing device, and hearing device
US7246058B2 (en) 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
AUPR612001A0 (en) * 2001-07-04 2001-07-26 Soundscience@Wm Pty Ltd System and method for directional noise monitoring
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US6959095B2 (en) * 2001-08-10 2005-10-25 International Business Machines Corporation Method and apparatus for providing multiple output channels in a microphone
US7274794B1 (en) * 2001-08-10 2007-09-25 Sonic Innovations, Inc. Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment
WO2003015459A2 (en) * 2001-08-10 2003-02-20 Rasmussen Digital Aps Sound processing system that exhibits arbitrary gradient response
JP4616529B2 (ja) * 2001-09-03 2011-01-19 クラリオン株式会社 ブラインド信号分離処理装置
JP2005525717A (ja) * 2001-09-24 2005-08-25 クラリティー リミテッド ライアビリティ カンパニー 選択的な音の増幅
US6801632B2 (en) 2001-10-10 2004-10-05 Knowles Electronics, Llc Microphone assembly for vehicular installation
KR101402551B1 (ko) * 2002-03-05 2014-05-30 앨리프컴 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 音声認識装置、その音声認識方法及びプログラム
EP1497823A1 (en) 2002-03-27 2005-01-19 Aliphcom Nicrophone and voice activity detection (vad) configurations for use with communication systems
GB2388001A (en) * 2002-04-26 2003-10-29 Mitel Knowledge Corp Compensating for beamformer steering delay during handsfree speech recognition
US8452023B2 (en) 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US7783061B2 (en) * 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US9174119B2 (en) 2002-07-27 2015-11-03 Sony Computer Entertainement America, LLC Controller for providing inputs to control execution of a program when inputs are combined
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US8073157B2 (en) * 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
US20110014981A1 (en) * 2006-05-08 2011-01-20 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US7885818B2 (en) 2002-10-23 2011-02-08 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
GB2397736B (en) * 2003-01-21 2005-09-07 Hewlett Packard Co Visualization of spatialized audio
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
TW200425763A (en) 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US8233642B2 (en) * 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
US8139793B2 (en) 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
US8160269B2 (en) * 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
JP4274418B2 (ja) * 2003-12-09 2009-06-10 株式会社フジテレビジョン 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
CA2621916C (en) * 2004-09-07 2015-07-21 Sensear Pty Ltd. Apparatus and method for sound enhancement
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US7813771B2 (en) * 2005-01-06 2010-10-12 Qnx Software Systems Co. Vehicle-state based parameter adjustment system
WO2007026691A1 (ja) 2005-09-02 2007-03-08 Nec Corporation 雑音抑圧の方法及び装置並びにコンピュータプログラム
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7697700B2 (en) * 2006-05-04 2010-04-13 Sony Computer Entertainment Inc. Noise removal for electronic device with far field microphone on console
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP4738284B2 (ja) * 2006-08-29 2011-08-03 日本電信電話株式会社 ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
JP5034469B2 (ja) * 2006-12-08 2012-09-26 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP5123595B2 (ja) * 2007-07-31 2013-01-23 独立行政法人情報通信研究機構 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2277326A4 (en) * 2008-04-17 2012-07-18 Cochlear Ltd Sound processor for a medical implant
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8213263B2 (en) * 2008-10-30 2012-07-03 Samsung Electronics Co., Ltd. Apparatus and method of detecting target sound
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5252639B2 (ja) * 2009-02-20 2013-07-31 国立大学法人茨城大学 センサ装置
JP5489531B2 (ja) * 2009-05-18 2014-05-14 株式会社小野測器 音源同定装置および音源同定プログラム
JP5595112B2 (ja) * 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
JP2011252853A (ja) * 2010-06-03 2011-12-15 Meijo University 音源方向検出装置
EP2565082A4 (en) * 2010-11-26 2014-01-22 Jvc Kenwood Corp Vehicle travel warning device
US8761412B2 (en) * 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
EP2831706B1 (en) 2012-03-26 2018-12-26 Tata Consultancy Services Limited A multimodal system and method facilitating gesture creation through scalar and vector data
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
JP6433903B2 (ja) * 2013-08-29 2018-12-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
JP6100655B2 (ja) * 2013-09-18 2017-03-22 株式会社小野測器 音源探査装置
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US10269343B2 (en) * 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινοσ Δημητριου Σπυροπουλοσ Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
KR101777302B1 (ko) * 2016-04-18 2017-09-12 충남대학교산학협력단 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008630A (en) * 1969-03-26 1991-04-16 The United States Of America As Represented By The Secretary Of The Navy Stationary probability integrator system
US4955003A (en) * 1984-06-04 1990-09-04 The United States Of America As Represented By The Secretary Of The Navy Phase accumulator-bearing tracker
US4741038A (en) * 1986-09-26 1988-04-26 American Telephone And Telegraph Company, At&T Bell Laboratories Sound location arrangement
US5581620A (en) * 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田中, 金田, 小島,音源方向推定法の案内残響下での性能評価,日本音響学会誌,日本,1994年 7月,50巻, 7号,Pages 540−548

Also Published As

Publication number Publication date
JPH09251299A (ja) 1997-09-22
EP0795851A3 (en) 1998-09-30
US6009396A (en) 1999-12-28
EP0795851B1 (en) 2002-07-03
DE69713647T2 (de) 2002-12-05
EP0795851A2 (en) 1997-09-17
DE69713647D1 (de) 2002-08-08

Similar Documents

Publication Publication Date Title
Lebart et al. A new method based on spectral subtraction for speech dereverberation
Sarikaya et al. Wavelet packet transform features with application to speaker identification
EP0886263B1 (en) Environmentally compensated speech processing
US7099821B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
US6266633B1 (en) Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6377637B1 (en) Sub-band exponential smoothing noise canceling system
US7283954B2 (en) Comparing audio using characterizations based on auditory events
US7295972B2 (en) Method and apparatus for blind source separation using two sensors
Shao et al. An auditory-based feature for robust speech recognition
EP2063419B1 (en) Speaker localization
CN100514856C (zh) 使用多重解相关方法的卷积盲源分隔
US5737485A (en) Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
Hassab et al. Optimum estimation of time delay by a generalized correlator
US20050240642A1 (en) Method and system for on-line blind source separation
Benesty Adaptive eigenvalue decomposition algorithm for passive acoustic source localization
US6792118B2 (en) Computation of multi-sensor time delays
JP4690072B2 (ja) マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
Asano et al. Combined approach of array processing and independent component analysis for blind separation of acoustic signals
CA2247364C (en) Method and recognizer for recognizing a sampled sound signal in noise
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
US9182475B2 (en) Sound source signal filtering apparatus based on calculated distance between microphone and sound source
JP4815661B2 (ja) 信号処理装置及び信号処理方法
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
EP0594098B1 (en) Method for the location of a speaker and the acquisition of a voice message, and related system
Omologo et al. Environmental conditions and acoustic transduction in hands-free speech recognition

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees