JP2010056763A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2010056763A
JP2010056763A JP2008218399A JP2008218399A JP2010056763A JP 2010056763 A JP2010056763 A JP 2010056763A JP 2008218399 A JP2008218399 A JP 2008218399A JP 2008218399 A JP2008218399 A JP 2008218399A JP 2010056763 A JP2010056763 A JP 2010056763A
Authority
JP
Japan
Prior art keywords
cardioid
speech recognition
signal
noise
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008218399A
Other languages
English (en)
Other versions
JP5270259B2 (ja
Inventor
Keishin Nishiura
敬信 西浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Ritsumeikan Trust
Original Assignee
Murata Machinery Ltd
Ritsumeikan Trust
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd, Ritsumeikan Trust filed Critical Murata Machinery Ltd
Priority to JP2008218399A priority Critical patent/JP5270259B2/ja
Publication of JP2010056763A publication Critical patent/JP2010056763A/ja
Application granted granted Critical
Publication of JP5270259B2 publication Critical patent/JP5270259B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる音声認識装置を提供する。
【解決手段】マイクロホンアレー10は例えば正三角錐の各頂点に配置された4個のマイクロホン1〜4を備えて構成される。減算形アレー回路30は、各マイクロホン1〜4からの音声信号に基づいて減算形アレー法を用いて各マイクロホンから各マイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する。信号評価及び選択回路50は複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する。音声認識回路52はカージオイド信号に基づいて音声認識を行って音声認識結果を出力する。
【選択図】図4

Description

本発明は、例えば所定の雑音環境下で音声認識率を向上させるために好適なマイクロホンアレーと、それを用いた音声認識装置に関する。
例えば、特許文献1において、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置が開示されている。
この従来例に係る音声認識装置では、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、方向推定部は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも1つの音源の方位角を推定し、ビームフォーミング部は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角の方向に対応する少なくとも1つのビーム信号を生成する。次いで、音源判定部は各ビーム信号に基づいて音声のHMMと雑音HMMとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部17は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。
特開2002−091469号公報。 特開2003−044092号公報。 特開平11−327593号公報。 S. E. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transaction on Acoustic Speech and Signal Processing, Vol. ASSP-27, pp.113-120, April 1979.
しかしながら、マイクロホンアレーを、例えば工場などの大きな雑音を発生する現場において用いて音声認識する場合、当該雑音により音声認識率が大幅に低下するという問題点があった。
本発明の目的は以上の問題点を解決し、例えば工場などの大きな雑音を発生する現場において信号対雑音電力比(以下、SNRという。)を従来技術に比較して向上させた音声信号を得ることができるマイクロホンアレーと、それを用いて音声認識することにより従来技術に比較して大きな音声認識率を得ることができる音声認識装置とを提供することにある。
本発明に係る音声認識装置は、
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたマイクロホンアレーと、
上記各マイクロホンからの音声信号に基づいて減算形アレー法を用いて上記各マイクロホンから上記各第2のマイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する減算形アレー手段と、
上記複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する評価選択手段と、
上記評価選択手段から出力されるカージオイド信号に基づいて音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
上記音声認識装置において、上記評価選択手段と上記音声認識手段との間に挿入して設けられ、上記評価選択手段から出力されるカージオイド信号においてスペクトルサブトラクション法を用いて雑音を除去した後、上記音声認識手段に出力する雑音除去手段をさらに備えたことを特徴とする。
また、上記音声認識装置において、上記角錐は三角錐又は正三角錐であることを特徴とする。
さらに、上記音声認識装置において、上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする。
本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してスペクトルサブトラクション法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
図1は本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図であり、図2は図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図であり、図3は図2のマイクロホン筐体11を示す正面図である。本実施形態に係るマイクロホンアレー10は、各無指向性マイクロホン1,2,3,4を正三角錐の各頂点の位置に設けたことを特徴としている。図1及びそれ以降の配置図において、XYZの3次元座標系で各マイクロホン1,2,3,4の位置を示しており、各マイクロホン1〜4の配置座標は以下の通りである。
(A)マイクロホン1のXYZ座標=(0,0,0);正三角錐の上部頂点の位置であって、XYZの3次元座標系の原点に位置する。
(B)マイクロホン2のXYZ座標=(0,√(6)d/3,√(3)d/3);正三角錐の底面の一頂点の位置であって、XY平面の0度及びXZ平面の55度の方位に位置する。
(C)マイクロホン3のXYZ座標=(d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の30度及びXZ平面の110度の方位に位置する。
(D)マイクロホン4のXYZ座標=(−d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の300度及びXZ平面の110度の方位に位置する。
図1において、XYZの3次元座標系は、話者の口元先端部5から話者音声が矢印6の音声放射方向がY軸方向となるように配置されている。すなわち、Y軸方向は話者の口元先端部5からの法線ベクトルの方向であり、X軸方向は水平方向であり、Z軸方向は垂直方向である。そして、各マイクロホン1〜4の放射主軸(放射指向特性の主方向の軸であり、マイクロホンの筒形状の軸に対応する。)は音声放射方向6を向くようにかつそれに対して実質的に平行となるように配置されている。
図2及び図3において、4つのマイクロホン1〜4からなるマイクロホンアレー10はマイクロホン筐体11に収容され、当該マイクロホン筐体11は話者のヘッドホンセットのフレキシブルアーム12の先端部に取り付けられている。当該マイクロホン筐体11を正面から見ると、図3から明らかなように、4つのマイクロホン1〜4の放射面が見えるが、上部頂点のマイクロホン1のみが話者の口元により近接するような配置となっている。また、マイクロホン1〜4のうちの各隣接する2つのマイクロホン間の間隔は、図2から明らかなように、10mmに設定されている。これについては、音声信号をサンプリングするサンプリング周波数16kHzに対して、標本化定理と同様にマイクロホン間に許容される最大距離が音速÷サンプリング周波数により、340000/16000=21.25mmとなり、さらに詳細後述するカージオイドを用いた信号処理を行う場合は折り返しという減少を防ぐために、さらに半分にする必要があり、許容される最大距離が10.625mmとなることから決定されている。その中で、最大の位相差及び角度差が得られる形状として正三角錐を採用している。
図1乃至図3の実施形態においては、正三角錐の各頂点にマイクロホン1〜4を配置しているが、本発明はこれに限らず、正三角錐は三角錐、多角錐又は角錐でもよく、底面の各頂点に配置されるマイクロホン2〜4は少なくとも2つのみ配置してもよい。また、多角錐の場合は、底面の各頂点に配置されるマイクロホンの数は少なくとも2つ、すなわち複数配置すればよい。
図4は図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
図4において、マイクロホン1に入力された音声は音声信号に変換された後、低周波増幅器21及びA/D変換器26を介してディジタル信号S1に変換され、減算器41,42,43に入力される。また、マイクロホン2に入力された音声は音声信号に変換された後、低周波増幅器22及びA/D変換器27を介してディジタル音声信号S2に変換され、次いで、当該ディジタル音声信号S2は、遅延器31を介して減算器41に入力され、減算器44に入力され、遅延器35を介して減算器45に入力され、遅延器38を介して減算器48に入力され、減算器49に入力される。マイクロホン3に入力された音声は音声信号に変換された後、低周波増幅器23及びA/D変換器28を介してディジタル音声信号S3に変換され、次いで、当該ディジタル音声信号S3は、遅延器32を介して減算器42に入力され、遅延器34を介して減算器44に入力され、減算器45に入力され、減算器46に入力され、遅延器37を介して減算器47に入力される。マイクロホン4に入力された音声は音声信号に変換された後、低周波増幅器24及びA/D変換器29を介してディジタル音声信号S4に変換され、次いで、当該ディジタル音声信号S4は、遅延器33を介して減算器43に入力され、遅延器36を介して減算器46に入力され、減算器47に入力され、減算器48に入力され、遅延器39を介して減算器49に入力される。なお、各遅延器31〜39は、隣接するマイクロホン間の音声信号の到来時間差を補償するために本実施形態では、29.4マイクロ秒の遅延量を有する。
遅延形アレー回路30は、9個の遅延器31〜39と、9個の減算器41〜49砥を備えて構成され、公知の減算形アレー法(例えば、非特許文献2参照。)を用いて、図5及び図6を参照して説明するように、雑音方向に対してゼロ点(指向性利得の最小点)を生成する所定のカージオイドC1〜C9を発生する。
減算器41はディジタル音声信号S1から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC1(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器42はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC2(後述するカージオイドC2の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器43はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC3(後述するカージオイドC3の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
減算器44はディジタル音声信号S2から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC4(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器45はディジタル音声信号S3から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC5(後述するカージオイドC5の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器46はディジタル音声信号S3から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC6(後述するカージオイドC6の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器47はディジタル音声信号S4から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC7(後述するカージオイドC7の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器48はディジタル音声信号S4から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC8(後述するカージオイドC8の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器49はディジタル音声信号S2から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC9(後述するカージオイドC9の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
信号評価及び選択回路50は、入力される9つのカージオイド音声信号SC1〜SC9について、VAD(Voice Activity Detection)機能を用いて、音声区間と雑音区間とを検出し、それに基づいてSNRを計算し、SNRが大きい上位2つ(変形例では、3つ)のカージオイド音声信号を選択し、選択したカージオイド音声信号を加算して加算結果のカージオイド音声信号を雑音除去回路51に出力する。ここで、VAD機能は、以下の条件で音声区間を検出する。
(1)所定のしきい値以上の信号レベルを有すること。
(2)所定のパワーレベル以上離れたカージオイド信号が存在しないこと。これは、口元方向に対応する3つのカージオイド信号と、顔平面方向に対応するカージオイド信号について、口元方向からの音声に対しては、前者3つのカージオイド音声信号はもちろん、後者6つのカージオイド音声信号も少しパワーが上がるのに対して、口元以外の方向からの音声信号は、1つ以上のカージオイドの死角に入る可能性が高く、9つの中で相対的にパワー差が開く傾向にあることを利用しようというものである。
(3)音声区間として検出されたフレームの前後500ミリ秒を音声区間として扱う。
次いで、雑音除去回路51は、入力されるカージオイド音声信号に対して、公知のスペクトルサブトラクション法(以下、SS法という。)を用いて音声信号中の雑音を除去し、処理後のディジタル音声信号を音声認識回路52に出力する。ここで、SS法は周波数領域における雑音除去法として従来から用いられており、雑音が付加された音声信号のパワースペクトから、別途推定した雑音のパワースペクトルを差し引き、そのパワースペクトルをフーリエ逆変換することで雑音を除去した音声信号を復元するものである(例えば、特許文献3及び非特許文献1参照。)。ここで、SS法を用いた演算後のスペクトル成分X(f)は次式で表される。
[数1]
(f)=max{x(f)−αN(f),βN(f)} (1)
ここで、α,βは所定の定数であって、例えばα=2.0,β=0.001である。また、X(f)は雑音をスペクトル減算した結果のスペクトル成分であり、x(f)は収録音声データ(音声+雑音)のスペクトル成分であり、N(f)は雑音のスペクトル成分である。
音声認識回路52は、入力されるディジタル音声信号に対して例えば所定の音声辞書又は音声モデル(例えばHMM)を用いて音声認識処理を実行して、音声認識結果のテキストデータを液晶ディスプレイ(LCD)53に表示出力し、もしくはパーソナルコンピュータなどの外部装置に出力する。
次いで、図3の音声認識装置において形成されるカージオイドC1〜C9について、図5及び図6を参照して以下に説明する。
図5は図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。図5において、カージオイドC1はディジタル音声信号S1及びS2により形成されるものであり、マイクロホン2に向う方向にゼロ点を有する。また、カージオイドC2はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC3はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。
図6は図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。図6において、カージオイドC4,C5はディジタル音声信号S2及びS3により形成されるものであり、カージオイドC4はマイクロホン3に向う方向にゼロ点を有し、カージオイドC5はマイクロホン2に向う方向にゼロ点を有する。また、カージオイドC6,C7はディジタル音声信号S3及びS4により形成されるものであり、カージオイドC6はマイクロホン4に向う方向にゼロ点を有し、カージオイドC7はマイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC8,C9はディジタル音声信号S4及びS2により形成されるものであり、カージオイドC8はマイクロホン2に向う方向にゼロ点を有し、カージオイドC9はマイクロホン4に向う方向にゼロ点を有する。
図7は本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。図7において、スピーカの記号は3つの定常雑音Nst11,Nst12,Nst13の配置位置及び放射方向を示している。ここで、定常雑音Nst11は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst12は、+Y軸から原点に向う方向で放射され、定常雑音Nst13は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
[表1]
―――――――――――――――――
SNR(C1)=25.8dB
SNR(C2)=24.4dB
SNR(C3)=24.1dB
SNR(C4)=15.0dB
SNR(C5)=14.8dB
SNR(C6)=13.6dB
SNR(C7)=13.8dB
SNR(C8)=14.9dB
SNR(C9)=14.9dB
―――――――――――――――――
この表1のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表2]
―――――――――――――――――
SNRADD(T2)=25.3dB
SNRADD(T3)=25.9dB
SNRADD(T4)=23.3dB
SNRADD(T5)=21.6dB
SNRADD(T6)=20.7dB
SNRADD(T7)=20.0dB
SNRADD(T8)=19.4dB
SNRADD(T9)=18.7dB
――――――――――――――――――
表2から明らかなように、上位3個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
図8は本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。図8において、スピーカの記号は突発性雑音Nsu21の配置位置及び放射方向を示している。ここで、突発性雑音Nsu21は、XY平面60度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
[表3]
―――――――――――――――――
SNR(C1)=5.2dB
SNR(C2)=0.8dB
SNR(C3)=16.4dB
SNR(C4)=−6.5dB
SNR(C5)=1.3dB
SNR(C6)=16.0dB
SNR(C7)=−8.6dB
SNR(C8)=−6.6dB
SNR(C9)=1.6dB
―――――――――――――――――
この表3のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表4]
―――――――――――――――――
SNRADD(T2)=16.2dB
SNRADD(T3)=9.5dB
SNRADD(T4)=7.1dB
SNRADD(T5)=6.5dB
SNRADD(T6)=5.0dB
SNRADD(T7)=2.7dB
SNRADD(T8)=1.3dB
SNRADD(T9)=−0.5dB
――――――――――――――――――
表4から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
図9は本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。図9において、スピーカの記号は1つの突発性雑音Nsu31及び1つの定常雑音Nst32の配置位置及び放射方向を示している。ここで、突発性雑音Nsu31は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst32は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。
[表5]
―――――――――――――――――
SNR(C1)=9.3dB
SNR(C2)=6.4dB
SNR(C3)=9.4dB
SNR(C4)=−1.5dB
SNR(C5)=0.8dB
SNR(C6)=−0.2dB
SNR(C7)=−2.9dB
SNR(C8)=−1.2dB
SNR(C9)=1.0dB
―――――――――――――――――
この表5のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表6]
―――――――――――――――――
SNRADD(T2)=10.0dB
SNRADD(T3)=7.6dB
SNRADD(T4)=7.0dB
SNRADD(T5)=6.4dB
SNRADD(T6)=5.6dB
SNRADD(T7)=4.9dB
SNRADD(T8)=4.3dB
SNRADD(T9)=−3.4dB
――――――――――――――――――
表6から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。
図10は本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。図10において、スピーカの記号は1つの定常雑音Nst41の配置位置及び放射方向を示している。ここで、定常雑音Nst41は、XY平面30度及びXZ平面90度の方位から背景雑音レベル90dBAで放射される。このときに図4の音声認識装置により評価した各カージオイド音声信号SCn(n=1,2,…,9)に基づいて、上位2個又は3個のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表7]
―――――――――――――――――
SNRADD(T2)=8.0dB
SNRADD(T3)=7.3dB
――――――――――――――――――
ここで、より高いSNRを有する上位2個のカージオイド音声信号を加算したときに、SS法を用いる図4の雑音除去回路51を用いた場合のSNRssを以下に示す。
[表8]
―――――――――――――――――――――――――――
SNRSS(α=1.0;β=0.001)=8.0dB
SNRSS(α=2.0;β=0.001)=10.3dB
―――――――――――――――――――――――――――
表8から明らかなように、SS法を用いた雑音除去回路51を用いることにより大幅にSNRが改善されていることがわかる。
以上の実施例1乃至4において、定常雑音は例えばベルトコンベヤーなどから発生するホワイトノイズであり、突発性雑音は例えば金属材料のパンチングなどから発生する突発雑音である。
実施例5において、本発明者らは、各種の過酷な雑音環境下(出願人の犬山工場にて)で、以下の実験条件下で異なる100個の数字4桁を話者により読み上げ、そのときの、音声認識率を測定した。
[表9]
―――――――――――――――――――――――――――――――――――――――
(A)音声認識ソフトウエア:日本電気製音声認識テストアプリケーション
(B)認識辞書:数字認識辞書4桁
(C)使用マイクロホン:
(C1)日本電気製ヘッドセットマイクロホン(比較例1;単一性音声用マイクロホンと、無指向性雑音用マイクロホンとを備えて構成される)
(C2)ゼンハイザー製HMD−25型マイクロホン(比較例2)
(C3)本実施形態に係るマイクロホンアレー(実施形態;図1乃至図3に示すように、1個の無指向性音声用マイクロホン1と、3個の無指向性雑音用マイクロホン2,3,4とを備えて構成される。)
―――――――――――――――――――――――――――――――――――――――
図11は本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。図11から明らかなように、騒音レベルが80dBAという非常に過酷な雑音環境下において、本実施形態に係るマイクロホンアレー10を用いて収音することにより、従来技術に比較して大きく改善されたSNRを有する音声信号を得ることができる。
また、実施例1乃至4の結果から明らかなように、本実施形態に係るマイクロホンアレー10を用いて収音しかつ本実施形態に係る図4の音声認識装置を用いて音声認識することにより音声認識率を大幅に向上させることができる。
以上の実施形態においては、減算形アレー法とSS法とを併用しているが、本発明はこれに限らず、前者のみを用いて信号処理した後、音声認識してもよい。
以上詳述したように、本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してSS法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。
本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図である。 図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図である。 図2のマイクロホン筐体11を示す正面図である。 図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。 図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。 図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。 本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。 本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。 本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。 本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。 本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。
符号の説明
1,2,3,4…マイクロホン、
5…口元先端部、
6…音声放射方向、
10…マイクロホンアレー、
11…マイクロホン筐体、
12…フレキシブルアーム、
21,22,23,24…低周波増幅器、
26,27,28,29…A/D変換器、
30…遅延形アレー回路、
31,32,33,34,35,36,37,38,39…遅延器、
41,42,43,44,45,46,47,48,49…減算器、
50…信号評価及び選択回路、
51…雑音除去回路、
52…音声認識回路、
53…液晶ディスプレイ(LCD)、
C1,C2,C3,C4,C5,C6,C7,C8,C9…カージオイド、
Nst11,Nst12,Nst13,Nst32,Nst41…定常雑音、
Nsu21,Nsu31…突発性雑音。

Claims (5)

  1. 角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたマイクロホンアレーと、
    上記各マイクロホンからの音声信号に基づいて減算形アレー法を用いて上記各マイクロホンから上記各第2のマイクロホンに対する方向にゼロ点を生成するカージオイドを生成してそれらに対応する複数のカージオイド信号を発生する減算形アレー手段と、
    上記複数のカージオイド信号のうちより高い信号対雑音電力比を有する複数のカージオイド信号を検出して選択し、選択した複数のカージオイド信号を加算し、加算結果のカージオイド信号を出力する評価選択手段と、
    上記評価選択手段から出力されるカージオイド信号に基づいて音声認識を行って音声認識結果を出力する音声認識手段とを備えたことを特徴とする音声認識装置。
  2. 上記評価選択手段と上記音声認識手段との間に挿入して設けられ、上記評価選択手段から出力されるカージオイド信号においてスペクトルサブトラクション法を用いて雑音を除去した後、上記音声認識手段に出力する雑音除去手段をさらに備えたことを特徴とする請求項1記載の音声認識装置。
  3. 上記角錐は三角錐であることを特徴とする請求項1又は2記載の音声認識装置。
  4. 上記角錐は正三角錐であることを特徴とする請求項1又は2記載の音声認識装置。
  5. 上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする請求項4記載の音声認識装置。
JP2008218399A 2008-08-27 2008-08-27 音声認識装置 Expired - Fee Related JP5270259B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008218399A JP5270259B2 (ja) 2008-08-27 2008-08-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008218399A JP5270259B2 (ja) 2008-08-27 2008-08-27 音声認識装置

Publications (2)

Publication Number Publication Date
JP2010056763A true JP2010056763A (ja) 2010-03-11
JP5270259B2 JP5270259B2 (ja) 2013-08-21

Family

ID=42072236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008218399A Expired - Fee Related JP5270259B2 (ja) 2008-08-27 2008-08-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP5270259B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098672A (ja) * 2016-12-14 2018-06-21 株式会社東芝 電子装置、方法及びプログラム
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置
WO2020263754A1 (en) * 2019-06-27 2020-12-30 Amazon Technologies, Inc. Wireless earbud

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110824427A (zh) * 2019-10-21 2020-02-21 中国人民解放军陆军勤务学院 一种斜三棱锥声压测试装置及其空间次声源定向定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0286397A (ja) * 1988-09-22 1990-03-27 Nippon Telegr & Teleph Corp <Ntt> マイクロホンアレー
JP2006126424A (ja) * 2004-10-28 2006-05-18 Matsushita Electric Ind Co Ltd 音声入力装置
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0286397A (ja) * 1988-09-22 1990-03-27 Nippon Telegr & Teleph Corp <Ntt> マイクロホンアレー
JP2006126424A (ja) * 2004-10-28 2006-05-18 Matsushita Electric Ind Co Ltd 音声入力装置
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098672A (ja) * 2016-12-14 2018-06-21 株式会社東芝 電子装置、方法及びプログラム
WO2020263754A1 (en) * 2019-06-27 2020-12-30 Amazon Technologies, Inc. Wireless earbud
US11134329B2 (en) 2019-06-27 2021-09-28 Amazon Technologies, Inc. Wireless earbud
US11765495B2 (en) 2019-06-27 2023-09-19 Amazon Technologies, Inc. Wireless earbud
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置

Also Published As

Publication number Publication date
JP5270259B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
US9438985B2 (en) System and method of detecting a user&#39;s voice activity using an accelerometer
US9313572B2 (en) System and method of detecting a user&#39;s voice activity using an accelerometer
TWI307609B (en) Method and apparatus to detect and remove audio disturbances
KR101566649B1 (ko) 근거리 널 및 빔 형성
CN107039045B (zh) 用于语音增强的全局优化最小二乘后滤波
US9363596B2 (en) System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
US7995773B2 (en) Methods for processing audio input received at an input device
US20080175408A1 (en) Proximity filter
JP3789685B2 (ja) マイクロホンアレイ装置
KR101340215B1 (ko) 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체
US20100098266A1 (en) Multi-channel audio device
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US20080187152A1 (en) Apparatus and method for beamforming in consideration of actual noise environment character
JP2012058360A (ja) 雑音除去装置および雑音除去方法
JP5270259B2 (ja) 音声認識装置
JP2010056762A (ja) マイクロホンアレー
CN116110421B (zh) 语音活动检测方法、系统、语音增强方法以及系统
JP7248048B2 (ja) 収音装置、収音プログラム及び収音方法、並びに、キーボード
WO2011149969A2 (en) Separating voice from noise using a network of proximity filters
CN113132519B (zh) 电子设备、电子设备的语音识别方法及存储介质
JP4552034B2 (ja) ヘッドセット型マイクロフォンアレイ音声入力装置
KR102897449B1 (ko) 휴대용 노래방을 위한 저복잡도 하울링 억제
US20250141998A1 (en) Conference terminal and echo cancellation method
JP2011101407A (ja) ロボット、及び収音装置
JP2010256421A (ja) 集音エリア制御方法および音声入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130509

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees