JP2010056763A

JP2010056763A - 音声認識装置

Info

Publication number: JP2010056763A
Application number: JP2008218399A
Authority: JP
Inventors: Keishin Nishiura; 敬信西浦
Original assignee: Murata Machinery Ltd; Ritsumeikan Trust
Current assignee: Murata Machinery Ltd; Ritsumeikan Trust
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2010-03-11
Anticipated expiration: 2028-08-27
Also published as: JP5270259B2

Abstract

【課題】例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる音声認識装置を提供する。
【解決手段】マイクロホンアレー１０は例えば正三角錐の各頂点に配置された４個のマイクロホン１〜４を備えて構成される。減算形アレー回路３０は、各マイクロホン１〜４からの音声信号に基づいて減算形アレー法を用いて各マイクロホンから各マイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する。信号評価及び選択回路５０は複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する。音声認識回路５２はカージオイド信号に基づいて音声認識を行って音声認識結果を出力する。
【選択図】図４

Description

本発明は、例えば所定の雑音環境下で音声認識率を向上させるために好適なマイクロホンアレーと、それを用いた音声認識装置に関する。

例えば、特許文献１において、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置が開示されている。

この従来例に係る音声認識装置では、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、方向推定部は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも１つの音源の方位角を推定し、ビームフォーミング部は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも１つの音源の方位角の方向に対応する少なくとも１つのビーム信号を生成する。次いで、音源判定部は各ビーム信号に基づいて音声のＨＭＭと雑音ＨＭＭとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部１７は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。

特開２００２−０９１４６９号公報。特開２００３−０４４０９２号公報。特開平１１−３２７５９３号公報。 S. E. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transaction on Acoustic Speech and Signal Processing, Vol. ASSP-27, pp.113-120, April 1979.

しかしながら、マイクロホンアレーを、例えば工場などの大きな雑音を発生する現場において用いて音声認識する場合、当該雑音により音声認識率が大幅に低下するという問題点があった。

本発明の目的は以上の問題点を解決し、例えば工場などの大きな雑音を発生する現場において信号対雑音電力比（以下、ＳＮＲという。）を従来技術に比較して向上させた音声信号を得ることができるマイクロホンアレーと、それを用いて音声認識することにより従来技術に比較して大きな音声認識率を得ることができる音声認識装置とを提供することにある。

本発明に係る音声認識装置は、
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第１のマイクロホンと、上記角錐の底面の少なくとも２つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第２のマイクロホンとを備えたマイクロホンアレーと、
上記各マイクロホンからの音声信号に基づいて減算形アレー法を用いて上記各マイクロホンから上記各第２のマイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する減算形アレー手段と、
上記複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する評価選択手段と、
上記評価選択手段から出力されるカージオイド信号に基づいて音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする。

上記音声認識装置において、上記評価選択手段と上記音声認識手段との間に挿入して設けられ、上記評価選択手段から出力されるカージオイド信号においてスペクトルサブトラクション法を用いて雑音を除去した後、上記音声認識手段に出力する雑音除去手段をさらに備えたことを特徴とする。

また、上記音声認識装置において、上記角錐は三角錐又は正三角錐であることを特徴とする。

さらに、上記音声認識装置において、上記正三角錐の底面の３つの頂点において、３つの第２のマイクロホンを設けたことを特徴とする。

本発明に係るマイクロホンアレーによれば、少なくとも３つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いＳＮＲを有する複数のカージオイド信号を加算し、その加算信号に対してスペクトルサブトラクション法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。

以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

図１は本発明の一実施形態に係るマイクロホンアレー１０の配置を示す斜視図であり、図２は図１のマイクロホンアレー１０を備えたマイクロホン筐体１１を示す側面図であり、図３は図２のマイクロホン筐体１１を示す正面図である。本実施形態に係るマイクロホンアレー１０は、各無指向性マイクロホン１，２，３，４を正三角錐の各頂点の位置に設けたことを特徴としている。図１及びそれ以降の配置図において、ＸＹＺの３次元座標系で各マイクロホン１，２，３，４の位置を示しており、各マイクロホン１〜４の配置座標は以下の通りである。

（Ａ）マイクロホン１のＸＹＺ座標＝（０，０，０）；正三角錐の上部頂点の位置であって、ＸＹＺの３次元座標系の原点に位置する。
（Ｂ）マイクロホン２のＸＹＺ座標＝（０，√（６）ｄ／３，√（３）ｄ／３）；正三角錐の底面の一頂点の位置であって、ＸＹ平面の０度及びＸＺ平面の５５度の方位に位置する。
（Ｃ）マイクロホン３のＸＹＺ座標＝（ｄ／２，√（６）ｄ／３，−√（３）ｄ／６）；正三角錐の底面の一頂点の位置であって、ＸＹ平面の３０度及びＸＺ平面の１１０度の方位に位置する。
（Ｄ）マイクロホン４のＸＹＺ座標＝（−ｄ／２，√（６）ｄ／３，−√（３）ｄ／６）；正三角錐の底面の一頂点の位置であって、ＸＹ平面の３００度及びＸＺ平面の１１０度の方位に位置する。

図１において、ＸＹＺの３次元座標系は、話者の口元先端部５から話者音声が矢印６の音声放射方向がＹ軸方向となるように配置されている。すなわち、Ｙ軸方向は話者の口元先端部５からの法線ベクトルの方向であり、Ｘ軸方向は水平方向であり、Ｚ軸方向は垂直方向である。そして、各マイクロホン１〜４の放射主軸（放射指向特性の主方向の軸であり、マイクロホンの筒形状の軸に対応する。）は音声放射方向６を向くようにかつそれに対して実質的に平行となるように配置されている。

図２及び図３において、４つのマイクロホン１〜４からなるマイクロホンアレー１０はマイクロホン筐体１１に収容され、当該マイクロホン筐体１１は話者のヘッドホンセットのフレキシブルアーム１２の先端部に取り付けられている。当該マイクロホン筐体１１を正面から見ると、図３から明らかなように、４つのマイクロホン１〜４の放射面が見えるが、上部頂点のマイクロホン１のみが話者の口元により近接するような配置となっている。また、マイクロホン１〜４のうちの各隣接する２つのマイクロホン間の間隔は、図２から明らかなように、１０ｍｍに設定されている。これについては、音声信号をサンプリングするサンプリング周波数１６ｋＨｚに対して、標本化定理と同様にマイクロホン間に許容される最大距離が音速÷サンプリング周波数により、３４００００／１６０００＝２１．２５ｍｍとなり、さらに詳細後述するカージオイドを用いた信号処理を行う場合は折り返しという減少を防ぐために、さらに半分にする必要があり、許容される最大距離が１０．６２５ｍｍとなることから決定されている。その中で、最大の位相差及び角度差が得られる形状として正三角錐を採用している。

図１乃至図３の実施形態においては、正三角錐の各頂点にマイクロホン１〜４を配置しているが、本発明はこれに限らず、正三角錐は三角錐、多角錐又は角錐でもよく、底面の各頂点に配置されるマイクロホン２〜４は少なくとも２つのみ配置してもよい。また、多角錐の場合は、底面の各頂点に配置されるマイクロホンの数は少なくとも２つ、すなわち複数配置すればよい。

図４は図１のマイクロホンアレー１０を用いた音声認識装置の構成を示すブロック図である。

図４において、マイクロホン１に入力された音声は音声信号に変換された後、低周波増幅器２１及びＡ／Ｄ変換器２６を介してディジタル信号Ｓ１に変換され、減算器４１，４２，４３に入力される。また、マイクロホン２に入力された音声は音声信号に変換された後、低周波増幅器２２及びＡ／Ｄ変換器２７を介してディジタル音声信号Ｓ２に変換され、次いで、当該ディジタル音声信号Ｓ２は、遅延器３１を介して減算器４１に入力され、減算器４４に入力され、遅延器３５を介して減算器４５に入力され、遅延器３８を介して減算器４８に入力され、減算器４９に入力される。マイクロホン３に入力された音声は音声信号に変換された後、低周波増幅器２３及びＡ／Ｄ変換器２８を介してディジタル音声信号Ｓ３に変換され、次いで、当該ディジタル音声信号Ｓ３は、遅延器３２を介して減算器４２に入力され、遅延器３４を介して減算器４４に入力され、減算器４５に入力され、減算器４６に入力され、遅延器３７を介して減算器４７に入力される。マイクロホン４に入力された音声は音声信号に変換された後、低周波増幅器２４及びＡ／Ｄ変換器２９を介してディジタル音声信号Ｓ４に変換され、次いで、当該ディジタル音声信号Ｓ４は、遅延器３３を介して減算器４３に入力され、遅延器３６を介して減算器４６に入力され、減算器４７に入力され、減算器４８に入力され、遅延器３９を介して減算器４９に入力される。なお、各遅延器３１〜３９は、隣接するマイクロホン間の音声信号の到来時間差を補償するために本実施形態では、２９．４マイクロ秒の遅延量を有する。

遅延形アレー回路３０は、９個の遅延器３１〜３９と、９個の減算器４１〜４９砥を備えて構成され、公知の減算形アレー法（例えば、非特許文献２参照。）を用いて、図５及び図６を参照して説明するように、雑音方向に対してゼロ点（指向性利得の最小点）を生成する所定のカージオイドＣ１〜Ｃ９を発生する。

減算器４１はディジタル音声信号Ｓ１から遅延されたディジタル音声信号Ｓ２を減算し減算結果のカージオイド音声信号ＳＣ１（後述するカージオイドＣ１の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４２はディジタル音声信号Ｓ１から遅延されたディジタル音声信号Ｓ３を減算し減算結果のカージオイド音声信号ＳＣ２（後述するカージオイドＣ２の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４３はディジタル音声信号Ｓ１から遅延されたディジタル音声信号Ｓ３を減算し減算結果のカージオイド音声信号ＳＣ３（後述するカージオイドＣ３の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。

減算器４４はディジタル音声信号Ｓ２から遅延されたディジタル音声信号Ｓ３を減算し減算結果のカージオイド音声信号ＳＣ４（後述するカージオイドＣ１の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４５はディジタル音声信号Ｓ３から遅延されたディジタル音声信号Ｓ２を減算し減算結果のカージオイド音声信号ＳＣ５（後述するカージオイドＣ５の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４６はディジタル音声信号Ｓ３から遅延されたディジタル音声信号Ｓ４を減算し減算結果のカージオイド音声信号ＳＣ６（後述するカージオイドＣ６の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４７はディジタル音声信号Ｓ４から遅延されたディジタル音声信号Ｓ３を減算し減算結果のカージオイド音声信号ＳＣ７（後述するカージオイドＣ７の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４８はディジタル音声信号Ｓ４から遅延されたディジタル音声信号Ｓ２を減算し減算結果のカージオイド音声信号ＳＣ８（後述するカージオイドＣ８の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。減算器４９はディジタル音声信号Ｓ２から遅延されたディジタル音声信号Ｓ４を減算し減算結果のカージオイド音声信号ＳＣ９（後述するカージオイドＣ９の指向特性で検出されたディジタル音声信号である。）を信号評価及び選択回路５０に出力する。

信号評価及び選択回路５０は、入力される９つのカージオイド音声信号ＳＣ１〜ＳＣ９について、ＶＡＤ（Voice Activity Detection）機能を用いて、音声区間と雑音区間とを検出し、それに基づいてＳＮＲを計算し、ＳＮＲが大きい上位２つ（変形例では、３つ）のカージオイド音声信号を選択し、選択したカージオイド音声信号を加算して加算結果のカージオイド音声信号を雑音除去回路５１に出力する。ここで、ＶＡＤ機能は、以下の条件で音声区間を検出する。
（１）所定のしきい値以上の信号レベルを有すること。
（２）所定のパワーレベル以上離れたカージオイド信号が存在しないこと。これは、口元方向に対応する３つのカージオイド信号と、顔平面方向に対応するカージオイド信号について、口元方向からの音声に対しては、前者３つのカージオイド音声信号はもちろん、後者６つのカージオイド音声信号も少しパワーが上がるのに対して、口元以外の方向からの音声信号は、１つ以上のカージオイドの死角に入る可能性が高く、９つの中で相対的にパワー差が開く傾向にあることを利用しようというものである。
（３）音声区間として検出されたフレームの前後５００ミリ秒を音声区間として扱う。

次いで、雑音除去回路５１は、入力されるカージオイド音声信号に対して、公知のスペクトルサブトラクション法（以下、ＳＳ法という。）を用いて音声信号中の雑音を除去し、処理後のディジタル音声信号を音声認識回路５２に出力する。ここで、ＳＳ法は周波数領域における雑音除去法として従来から用いられており、雑音が付加された音声信号のパワースペクトから、別途推定した雑音のパワースペクトルを差し引き、そのパワースペクトルをフーリエ逆変換することで雑音を除去した音声信号を復元するものである（例えば、特許文献３及び非特許文献１参照。）。ここで、ＳＳ法を用いた演算後のスペクトル成分Ｘ（ｆ）は次式で表される。

［数１］
Ｘ^２（ｆ）＝ｍａｘ｛ｘ（ｆ）−αＮ（ｆ），βＮ（ｆ）｝（１）

ここで、α，βは所定の定数であって、例えばα＝２．０，β＝０．００１である。また、Ｘ（ｆ）は雑音をスペクトル減算した結果のスペクトル成分であり、ｘ（ｆ）は収録音声データ（音声＋雑音）のスペクトル成分であり、Ｎ（ｆ）は雑音のスペクトル成分である。

音声認識回路５２は、入力されるディジタル音声信号に対して例えば所定の音声辞書又は音声モデル（例えばＨＭＭ）を用いて音声認識処理を実行して、音声認識結果のテキストデータを液晶ディスプレイ（ＬＣＤ）５３に表示出力し、もしくはパーソナルコンピュータなどの外部装置に出力する。

次いで、図３の音声認識装置において形成されるカージオイドＣ１〜Ｃ９について、図５及び図６を参照して以下に説明する。

図５は図４の音声認識装置において実現される口元方位に対応する３つのカージオイドＣ１，Ｃ２，Ｃ３を示す斜視図である。図５において、カージオイドＣ１はディジタル音声信号Ｓ１及びＳ２により形成されるものであり、マイクロホン２に向う方向にゼロ点を有する。また、カージオイドＣ２はディジタル音声信号Ｓ１及びＳ３により形成されるものであり、マイクロホン３に向う方向にゼロ点を有する。さらに、カージオイドＣ３はディジタル音声信号Ｓ１及びＳ３により形成されるものであり、マイクロホン３に向う方向にゼロ点を有する。

図６は図４の音声認識装置において実現される顔水平方位に対応する６つのカージオイドＣ４，Ｃ５，Ｃ６，Ｃ７，Ｃ８，Ｃ９を示す斜視図である。図６において、カージオイドＣ４，Ｃ５はディジタル音声信号Ｓ２及びＳ３により形成されるものであり、カージオイドＣ４はマイクロホン３に向う方向にゼロ点を有し、カージオイドＣ５はマイクロホン２に向う方向にゼロ点を有する。また、カージオイドＣ６，Ｃ７はディジタル音声信号Ｓ３及びＳ４により形成されるものであり、カージオイドＣ６はマイクロホン４に向う方向にゼロ点を有し、カージオイドＣ７はマイクロホン３に向う方向にゼロ点を有する。さらに、カージオイドＣ８，Ｃ９はディジタル音声信号Ｓ４及びＳ２により形成されるものであり、カージオイドＣ８はマイクロホン２に向う方向にゼロ点を有し、カージオイドＣ９はマイクロホン４に向う方向にゼロ点を有する。

図７は本発明者らによって実行された実施例１に係るシミュレーション実験（３つの定常雑音Ｎｓｔ１１，Ｎｓｔ１２，Ｎｓｔ１３）における雑音配置を示す斜視図である。図７において、スピーカの記号は３つの定常雑音Ｎｓｔ１１，Ｎｓｔ１２，Ｎｓｔ１３の配置位置及び放射方向を示している。ここで、定常雑音Ｎｓｔ１１は、ＸＹ平面６０度及びＸＺ平面９０度の方位から放射され、定常雑音Ｎｓｔ１２は、＋Ｙ軸から原点に向う方向で放射され、定常雑音Ｎｓｔ１３は、ＸＹ平面３００度及びＸＺ平面９０度の方位から放射される。このときに図４の音声認識装置により評価した各カージオイドＣｎ（ｎ＝１，２，…，９）に対するＳＮＲ（Ｃｎ）は以下の通りである。

［表１］
―――――――――――――――――
ＳＮＲ（Ｃ１）＝２５．８ｄＢ
ＳＮＲ（Ｃ２）＝２４．４ｄＢ
ＳＮＲ（Ｃ３）＝２４．１ｄＢ
ＳＮＲ（Ｃ４）＝１５．０ｄＢ
ＳＮＲ（Ｃ５）＝１４．８ｄＢ
ＳＮＲ（Ｃ６）＝１３．６ｄＢ
ＳＮＲ（Ｃ７）＝１３．８ｄＢ
ＳＮＲ（Ｃ８）＝１４．９ｄＢ
ＳＮＲ（Ｃ９）＝１４．９ｄＢ
―――――――――――――――――

この表１のＳＮＲ（Ｃｎ）のうち上位ｍ個（ｍ＝２，３，…，９）のカージオイド音声信号を加算したときのＳＮＲ_ＡＤＤ（Ｔｍ）を以下に示す。

［表２］
―――――――――――――――――
ＳＮＲ_ＡＤＤ（Ｔ２）＝２５．３ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ３）＝２５．９ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ４）＝２３．３ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ５）＝２１．６ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ６）＝２０．７ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ７）＝２０．０ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ８）＝１９．４ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ９）＝１８．７ｄＢ
――――――――――――――――――

表２から明らかなように、上位３個のカージオイド音声信号を加算することで最高のＳＮＲの音声信号を得ている。

図８は本発明者らによって実行された実施例２に係るシミュレーション実験（１つの突発性雑音Ｎｓｕ２１）における雑音配置を示す斜視図である。図８において、スピーカの記号は突発性雑音Ｎｓｕ２１の配置位置及び放射方向を示している。ここで、突発性雑音Ｎｓｕ２１は、ＸＹ平面６０度及びＸＺ平面９０度の方位から放射される。このときに図４の音声認識装置により評価した各カージオイドＣｎ（ｎ＝１，２，…，９）に対するＳＮＲ（Ｃｎ）は以下の通りである。

［表３］
―――――――――――――――――
ＳＮＲ（Ｃ１）＝５．２ｄＢ
ＳＮＲ（Ｃ２）＝０．８ｄＢ
ＳＮＲ（Ｃ３）＝１６．４ｄＢ
ＳＮＲ（Ｃ４）＝−６．５ｄＢ
ＳＮＲ（Ｃ５）＝１．３ｄＢ
ＳＮＲ（Ｃ６）＝１６．０ｄＢ
ＳＮＲ（Ｃ７）＝−８．６ｄＢ
ＳＮＲ（Ｃ８）＝−６．６ｄＢ
ＳＮＲ（Ｃ９）＝１．６ｄＢ
―――――――――――――――――

この表３のＳＮＲ（Ｃｎ）のうち上位ｍ個（ｍ＝２，３，…，９）のカージオイド音声信号を加算したときのＳＮＲ_ＡＤＤ（Ｔｍ）を以下に示す。

［表４］
―――――――――――――――――
ＳＮＲ_ＡＤＤ（Ｔ２）＝１６．２ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ３）＝９．５ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ４）＝７．１ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ５）＝６．５ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ６）＝５．０ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ７）＝２．７ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ８）＝１．３ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ９）＝−０．５ｄＢ
――――――――――――――――――

表４から明らかなように、上位２個のカージオイド音声信号を加算することで最高のＳＮＲの音声信号を得ている。

図９は本発明者らによって実行された実施例３に係るシミュレーション実験（１つの突発性雑音Ｎｓｕ３１及び１つの定常雑音Ｎｓｔ３２）における雑音配置を示す斜視図である。図９において、スピーカの記号は１つの突発性雑音Ｎｓｕ３１及び１つの定常雑音Ｎｓｔ３２の配置位置及び放射方向を示している。ここで、突発性雑音Ｎｓｕ３１は、ＸＹ平面６０度及びＸＺ平面９０度の方位から放射され、定常雑音Ｎｓｔ３２は、ＸＹ平面３００度及びＸＺ平面９０度の方位から放射される。このときに図４の音声認識装置により評価した各カージオイドＣｎ（ｎ＝１，２，…，９）に対するＳＮＲ（Ｃｎ）は以下の通りである。

［表５］
―――――――――――――――――
ＳＮＲ（Ｃ１）＝９．３ｄＢ
ＳＮＲ（Ｃ２）＝６．４ｄＢ
ＳＮＲ（Ｃ３）＝９．４ｄＢ
ＳＮＲ（Ｃ４）＝−１．５ｄＢ
ＳＮＲ（Ｃ５）＝０．８ｄＢ
ＳＮＲ（Ｃ６）＝−０．２ｄＢ
ＳＮＲ（Ｃ７）＝−２．９ｄＢ
ＳＮＲ（Ｃ８）＝−１．２ｄＢ
ＳＮＲ（Ｃ９）＝１．０ｄＢ
―――――――――――――――――

この表５のＳＮＲ（Ｃｎ）のうち上位ｍ個（ｍ＝２，３，…，９）のカージオイド音声信号を加算したときのＳＮＲ_ＡＤＤ（Ｔｍ）を以下に示す。

［表６］
―――――――――――――――――
ＳＮＲ_ＡＤＤ（Ｔ２）＝１０．０ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ３）＝７．６ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ４）＝７．０ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ５）＝６．４ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ６）＝５．６ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ７）＝４．９ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ８）＝４．３ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ９）＝−３．４ｄＢ
――――――――――――――――――

表６から明らかなように、上位２個のカージオイド音声信号を加算することで最高のＳＮＲの音声信号を得ている。

図１０は本発明者らによって実行された実施例４に係るシミュレーション実験（１つの定常雑音Ｎｓｔ４１）における雑音配置を示す斜視図である。図１０において、スピーカの記号は１つの定常雑音Ｎｓｔ４１の配置位置及び放射方向を示している。ここで、定常雑音Ｎｓｔ４１は、ＸＹ平面３０度及びＸＺ平面９０度の方位から背景雑音レベル９０ｄＢＡで放射される。このときに図４の音声認識装置により評価した各カージオイド音声信号ＳＣｎ（ｎ＝１，２，…，９）に基づいて、上位２個又は３個のカージオイド音声信号を加算したときのＳＮＲ_ＡＤＤ（Ｔｍ）を以下に示す。
［表７］
―――――――――――――――――
ＳＮＲ_ＡＤＤ（Ｔ２）＝８．０ｄＢ
ＳＮＲ_ＡＤＤ（Ｔ３）＝７．３ｄＢ
――――――――――――――――――

ここで、より高いＳＮＲを有する上位２個のカージオイド音声信号を加算したときに、ＳＳ法を用いる図４の雑音除去回路５１を用いた場合のＳＮＲｓｓを以下に示す。

［表８］
―――――――――――――――――――――――――――
ＳＮＲ_ＳＳ（α＝１．０；β＝０．００１）＝８．０ｄＢ
ＳＮＲ_ＳＳ（α＝２．０；β＝０．００１）＝１０．３ｄＢ
―――――――――――――――――――――――――――

表８から明らかなように、ＳＳ法を用いた雑音除去回路５１を用いることにより大幅にＳＮＲが改善されていることがわかる。

以上の実施例１乃至４において、定常雑音は例えばベルトコンベヤーなどから発生するホワイトノイズであり、突発性雑音は例えば金属材料のパンチングなどから発生する突発雑音である。

実施例５において、本発明者らは、各種の過酷な雑音環境下（出願人の犬山工場にて）で、以下の実験条件下で異なる１００個の数字４桁を話者により読み上げ、そのときの、音声認識率を測定した。

［表９］
―――――――――――――――――――――――――――――――――――――――
（Ａ）音声認識ソフトウエア：日本電気製音声認識テストアプリケーション
（Ｂ）認識辞書：数字認識辞書４桁
（Ｃ）使用マイクロホン：
（Ｃ１）日本電気製ヘッドセットマイクロホン（比較例１；単一性音声用マイクロホンと、無指向性雑音用マイクロホンとを備えて構成される）
（Ｃ２）ゼンハイザー製ＨＭＤ−２５型マイクロホン（比較例２）
（Ｃ３）本実施形態に係るマイクロホンアレー（実施形態；図１乃至図３に示すように、１個の無指向性音声用マイクロホン１と、３個の無指向性雑音用マイクロホン２，３，４とを備えて構成される。）
―――――――――――――――――――――――――――――――――――――――

図１１は本発明者らによって実行された実施例５に係る雑音下音声認識実験の実験結果（音声認識率）を示す表である。図１１から明らかなように、騒音レベルが８０ｄＢＡという非常に過酷な雑音環境下において、本実施形態に係るマイクロホンアレー１０を用いて収音することにより、従来技術に比較して大きく改善されたＳＮＲを有する音声信号を得ることができる。

また、実施例１乃至４の結果から明らかなように、本実施形態に係るマイクロホンアレー１０を用いて収音しかつ本実施形態に係る図４の音声認識装置を用いて音声認識することにより音声認識率を大幅に向上させることができる。

以上の実施形態においては、減算形アレー法とＳＳ法とを併用しているが、本発明はこれに限らず、前者のみを用いて信号処理した後、音声認識してもよい。

以上詳述したように、本発明に係るマイクロホンアレーによれば、少なくとも３つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いＳＮＲを有する複数のカージオイド信号を加算し、その加算信号に対してＳＳ法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。

本発明の一実施形態に係るマイクロホンアレー１０の配置を示す斜視図である。図１のマイクロホンアレー１０を備えたマイクロホン筐体１１を示す側面図である。図２のマイクロホン筐体１１を示す正面図である。図１のマイクロホンアレー１０を用いた音声認識装置の構成を示すブロック図である。図４の音声認識装置において実現される口元方位に対応する３つのカージオイドＣ１，Ｃ２，Ｃ３を示す斜視図である。図４の音声認識装置において実現される顔水平方位に対応する６つのカージオイドＣ４，Ｃ５，Ｃ６，Ｃ７，Ｃ８，Ｃ９を示す斜視図である。本発明者らによって実行された実施例１に係るシミュレーション実験（３つの定常雑音Ｎｓｔ１１，Ｎｓｔ１２，Ｎｓｔ１３）における雑音配置を示す斜視図である。本発明者らによって実行された実施例２に係るシミュレーション実験（１つの突発性雑音Ｎｓｕ２１）における雑音配置を示す斜視図である。本発明者らによって実行された実施例３に係るシミュレーション実験（１つの突発性雑音Ｎｓｕ３１及び１つの定常雑音Ｎｓｔ３２）における雑音配置を示す斜視図である。本発明者らによって実行された実施例４に係るシミュレーション実験（１つの定常雑音Ｎｓｔ４１）における雑音配置を示す斜視図である。本発明者らによって実行された実施例５に係る雑音下音声認識実験の実験結果（音声認識率）を示す表である。

符号の説明

１，２，３，４…マイクロホン、
５…口元先端部、
６…音声放射方向、
１０…マイクロホンアレー、
１１…マイクロホン筐体、
１２…フレキシブルアーム、
２１，２２，２３，２４…低周波増幅器、
２６，２７，２８，２９…Ａ／Ｄ変換器、
３０…遅延形アレー回路、
３１，３２，３３，３４，３５，３６，３７，３８，３９…遅延器、
４１，４２，４３，４４，４５，４６，４７，４８，４９…減算器、
５０…信号評価及び選択回路、
５１…雑音除去回路、
５２…音声認識回路、
５３…液晶ディスプレイ（ＬＣＤ）、
Ｃ１，Ｃ２，Ｃ３，Ｃ４，Ｃ５，Ｃ６，Ｃ７，Ｃ８，Ｃ９…カージオイド、
Ｎｓｔ１１，Ｎｓｔ１２，Ｎｓｔ１３，Ｎｓｔ３２，Ｎｓｔ４１…定常雑音、
Ｎｓｕ２１，Ｎｓｕ３１…突発性雑音。

Claims

角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第１のマイクロホンと、上記角錐の底面の少なくとも２つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第２のマイクロホンとを備えたマイクロホンアレーと、
上記各マイクロホンからの音声信号に基づいて減算形アレー法を用いて上記各マイクロホンから上記各第２のマイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する減算形アレー手段と、
上記複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する評価選択手段と、
上記評価選択手段から出力されるカージオイド信号に基づいて音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする音声認識装置。
上記評価選択手段と上記音声認識手段との間に挿入して設けられ、上記評価選択手段から出力されるカージオイド信号においてスペクトルサブトラクション法を用いて雑音を除去した後、上記音声認識手段に出力する雑音除去手段をさらに備えたことを特徴とする請求項１記載の音声認識装置。
上記角錐は三角錐であることを特徴とする請求項１又は２記載の音声認識装置。
上記角錐は正三角錐であることを特徴とする請求項１又は２記載の音声認識装置。
上記正三角錐の底面の３つの頂点において、３つの第２のマイクロホンを設けたことを特徴とする請求項４記載の音声認識装置。