JP2010056762A - Microphone array - Google Patents
Microphone array Download PDFInfo
- Publication number
- JP2010056762A JP2010056762A JP2008218398A JP2008218398A JP2010056762A JP 2010056762 A JP2010056762 A JP 2010056762A JP 2008218398 A JP2008218398 A JP 2008218398A JP 2008218398 A JP2008218398 A JP 2008218398A JP 2010056762 A JP2010056762 A JP 2010056762A
- Authority
- JP
- Japan
- Prior art keywords
- snr
- noise
- microphone
- cardioid
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本発明は、例えば所定の雑音環境下で音声認識率を向上させるために好適なマイクロホンアレーと、それを用いた音声認識装置に関する。 The present invention relates to a microphone array suitable for improving a speech recognition rate under, for example, a predetermined noise environment, and a speech recognition apparatus using the microphone array.
例えば、特許文献1において、話者の方向又は位置を推定して音声認識率を向上させることができる音声認識装置が開示されている。
For example,
この従来例に係る音声認識装置では、複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーを備えた音声認識装置において、方向推定部は、各マイクロホンから出力される電気信号に基づいてマイクロホンアレーで受信される少なくとも1つの音源の方位角を推定し、ビームフォーミング部は、各マイクロホンから出力される電気信号に基づいて推定された少なくとも1つの音源の方位角の方向に対応する少なくとも1つのビーム信号を生成する。次いで、音源判定部は各ビーム信号に基づいて音声のHMMと雑音HMMとを用いて各ビーム信号が音声であるか非音声であるかを判定し、音声認識部17は音声であると判定されたときに、当該ビーム信号に対して音声認識を行って音声認識結果を出力する。 In the speech recognition apparatus according to this conventional example, in the speech recognition apparatus provided with the microphone array in which a plurality of microphones are juxtaposed at a predetermined interval, the direction estimation unit is configured to use the microphone array based on the electrical signal output from each microphone. The beam forming unit estimates at least one beam corresponding to the direction of the azimuth angle of at least one sound source estimated based on the electrical signal output from each microphone. Generate a signal. Next, the sound source determination unit determines whether each beam signal is speech or non-speech using the speech HMM and the noise HMM based on each beam signal, and the speech recognition unit 17 determines that it is speech. When this occurs, speech recognition is performed on the beam signal and a speech recognition result is output.
しかしながら、マイクロホンアレーを、例えば工場などの大きな雑音を発生する現場において用いて音声認識する場合、当該雑音により音声認識率が大幅に低下するという問題点があった。 However, when speech recognition is performed using a microphone array at a site that generates a large amount of noise, such as in a factory, there is a problem that the speech recognition rate is significantly reduced due to the noise.
本発明の目的は以上の問題点を解決し、例えば工場などの大きな雑音を発生する現場において信号対雑音電力比(以下、SNRという。)を従来技術に比較して向上させた音声信号を得ることができるマイクロホンアレーと、それを用いて音声認識することにより従来技術に比較して大きな音声認識率を得ることができる音声認識装置とを提供することにある。 The object of the present invention is to solve the above-mentioned problems and obtain an audio signal having an improved signal-to-noise power ratio (hereinafter referred to as SNR) as compared with the prior art, for example, in a factory where a large noise is generated. An object of the present invention is to provide a microphone array that can be used and a speech recognition device that can obtain a speech recognition rate higher than that of the prior art by performing speech recognition using the microphone array.
本発明に係るマイクロホンアレーは、
角錐の各頂点のうち上部頂点において、放射主軸が話者の口元に実質的に向くように設けられた第1のマイクロホンと、
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とする。
The microphone array according to the present invention is:
A first microphone provided at a top vertex of each pyramid vertex such that the radiation main axis is substantially directed to the speaker's mouth;
A plurality of second microphones provided so that the main axis of radiation is substantially parallel to the direction of the speaker's mouth at at least two vertices of the bottom surface of the pyramid.
上記マイクロホンアレーにおいて、上記角錐は三角錐又は正三角錐であることを特徴とする。 In the microphone array, the pyramid is a triangular pyramid or a regular triangular pyramid.
また、上記マイクロホンアレーにおいて、上記正三角錐の底面の3つの頂点において、3つの第2のマイクロホンを設けたことを特徴とする。 In the microphone array, three second microphones are provided at three vertices on the bottom surface of the regular triangular pyramid.
さらに、上記マイクロホンアレーは音声認識用マイクロホンアレーであることを特徴とする。 Further, the microphone array is a voice recognition microphone array.
本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してスペクトルサブトラクション法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。 According to the microphone array of the present invention, it is possible to obtain a voice signal that is improved as compared with the prior art by collecting the voice of the speaker using at least three microphones. In addition, the microphone array is used to record an audio signal, a subtractive array method is used to generate a plurality of cardioid signals, and a plurality of cardioid signals having a higher SNR are added to the sum signal. On the other hand, by performing speech recognition after removing noise using the spectral subtraction method, the speech recognition rate can be improved as compared with the prior art in a site where large noise is generated, for example, in a factory.
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。 Hereinafter, embodiments according to the present invention will be described with reference to the drawings. In addition, in each following embodiment, the same code | symbol is attached | subjected about the same component.
図1は本発明の一実施形態に係るマイクロホンアレー10の配置を示す斜視図であり、図2は図1のマイクロホンアレー10を備えたマイクロホン筐体11を示す側面図であり、図3は図2のマイクロホン筐体11を示す正面図である。本実施形態に係るマイクロホンアレー10は、各無指向性マイクロホン1,2,3,4を正三角錐の各頂点の位置に設けたことを特徴としている。図1及びそれ以降の配置図において、XYZの3次元座標系で各マイクロホン1,2,3,4の位置を示しており、各マイクロホン1〜4の配置座標は以下の通りである。
FIG. 1 is a perspective view showing an arrangement of a
(A)マイクロホン1のXYZ座標=(0,0,0);正三角錐の上部頂点の位置であって、XYZの3次元座標系の原点に位置する。
(B)マイクロホン2のXYZ座標=(0,√(6)d/3,√(3)d/3);正三角錐の底面の一頂点の位置であって、XY平面の0度及びXZ平面の55度の方位に位置する。
(C)マイクロホン3のXYZ座標=(d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の30度及びXZ平面の110度の方位に位置する。
(D)マイクロホン4のXYZ座標=(−d/2,√(6)d/3,−√(3)d/6);正三角錐の底面の一頂点の位置であって、XY平面の300度及びXZ平面の110度の方位に位置する。
(A) XYZ coordinates of the
(B) XYZ coordinates of the
(C) XYZ coordinates of the
(D) XYZ coordinates of the
図1において、XYZの3次元座標系は、話者の口元先端部5から話者音声が矢印6の音声放射方向がY軸方向となるように配置されている。すなわち、Y軸方向は話者の口元先端部5からの法線ベクトルの方向であり、X軸方向は水平方向であり、Z軸方向は垂直方向である。そして、各マイクロホン1〜4の放射主軸(放射指向特性の主方向の軸であり、マイクロホンの筒形状の軸に対応する。)は音声放射方向6を向くようにかつそれに対して実質的に平行となるように配置されている。
In FIG. 1, the three-dimensional coordinate system of XYZ is arranged so that the voice emission direction of the speaker voice from the speaker's mouth tip 5 is the Y-axis direction. That is, the Y-axis direction is the direction of the normal vector from the speaker's mouth tip 5, the X-axis direction is the horizontal direction, and the Z-axis direction is the vertical direction. The main emission axes of the
図2及び図3において、4つのマイクロホン1〜4からなるマイクロホンアレー10はマイクロホン筐体11に収容され、当該マイクロホン筐体11は話者のヘッドホンセットのフレキシブルアーム12の先端部に取り付けられている。当該マイクロホン筐体11を正面から見ると、図3から明らかなように、4つのマイクロホン1〜4の放射面が見えるが、上部頂点のマイクロホン1のみが話者の口元により近接するような配置となっている。また、マイクロホン1〜4のうちの各隣接する2つのマイクロホン間の間隔は、図2から明らかなように、10mmに設定されている。これについては、音声信号をサンプリングするサンプリング周波数16kHzに対して、標本化定理と同様にマイクロホン間に許容される最大距離が音速÷サンプリング周波数により、340000/16000=21.25mmとなり、さらに詳細後述するカージオイドを用いた信号処理を行う場合は折り返しという減少を防ぐために、さらに半分にする必要があり、許容される最大距離が10.625mmとなることから決定されている。その中で、最大の位相差及び角度差が得られる形状として正三角錐を採用している。
2 and 3, a
図1乃至図3の実施形態においては、正三角錐の各頂点にマイクロホン1〜4を配置しているが、本発明はこれに限らず、正三角錐は三角錐、多角錐又は角錐でもよく、底面の各頂点に配置されるマイクロホン2〜4は少なくとも2つのみ配置してもよい。また、多角錐の場合は、底面の各頂点に配置されるマイクロホンの数は少なくとも2つ、すなわち複数配置すればよい。
In the embodiment of FIGS. 1 to 3, the
図4は図1のマイクロホンアレー10を用いた音声認識装置の構成を示すブロック図である。
FIG. 4 is a block diagram showing a configuration of a speech recognition apparatus using the
図4において、マイクロホン1に入力された音声は音声信号に変換された後、低周波増幅器21及びA/D変換器26を介してディジタル信号S1に変換され、減算器41,42,43に入力される。また、マイクロホン2に入力された音声は音声信号に変換された後、低周波増幅器22及びA/D変換器27を介してディジタル音声信号S2に変換され、次いで、当該ディジタル音声信号S2は、遅延器31を介して減算器41に入力され、減算器44に入力され、遅延器35を介して減算器45に入力され、遅延器38を介して減算器48に入力され、減算器49に入力される。マイクロホン3に入力された音声は音声信号に変換された後、低周波増幅器23及びA/D変換器28を介してディジタル音声信号S3に変換され、次いで、当該ディジタル音声信号S3は、遅延器32を介して減算器42に入力され、遅延器34を介して減算器44に入力され、減算器45に入力され、減算器46に入力され、遅延器37を介して減算器47に入力される。マイクロホン4に入力された音声は音声信号に変換された後、低周波増幅器24及びA/D変換器29を介してディジタル音声信号S4に変換され、次いで、当該ディジタル音声信号S4は、遅延器33を介して減算器43に入力され、遅延器36を介して減算器46に入力され、減算器47に入力され、減算器48に入力され、遅延器39を介して減算器49に入力される。なお、各遅延器31〜39は、隣接するマイクロホン間の音声信号の到来時間差を補償するために本実施形態では、29.4マイクロ秒の遅延量を有する。
In FIG. 4, the sound input to the
遅延形アレー回路30は、9個の遅延器31〜39と、9個の減算器41〜49砥を備えて構成され、公知の減算形アレー法(例えば、非特許文献2参照。)を用いて、図5及び図6を参照して説明するように、雑音方向に対してゼロ点(指向性利得の最小点)を生成する所定のカージオイドC1〜C9を発生する。
The delay type array circuit 30 includes nine
減算器41はディジタル音声信号S1から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC1(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器42はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC2(後述するカージオイドC2の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器43はディジタル音声信号S1から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC3(後述するカージオイドC3の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
The
減算器44はディジタル音声信号S2から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC4(後述するカージオイドC1の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器45はディジタル音声信号S3から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC5(後述するカージオイドC5の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器46はディジタル音声信号S3から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC6(後述するカージオイドC6の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器47はディジタル音声信号S4から遅延されたディジタル音声信号S3を減算し減算結果のカージオイド音声信号SC7(後述するカージオイドC7の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器48はディジタル音声信号S4から遅延されたディジタル音声信号S2を減算し減算結果のカージオイド音声信号SC8(後述するカージオイドC8の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。減算器49はディジタル音声信号S2から遅延されたディジタル音声信号S4を減算し減算結果のカージオイド音声信号SC9(後述するカージオイドC9の指向特性で検出されたディジタル音声信号である。)を信号評価及び選択回路50に出力する。
The
信号評価及び選択回路50は、入力される9つのカージオイド音声信号SC1〜SC9について、VAD(Voice Activity Detection)機能を用いて、音声区間と雑音区間とを検出し、それに基づいてSNRを計算し、SNRが大きい上位2つ(変形例では、3つ)のカージオイド音声信号を選択し、選択したカージオイド音声信号を加算して加算結果のカージオイド音声信号を雑音除去回路51に出力する。ここで、VAD機能は、以下の条件で音声区間を検出する。
(1)所定のしきい値以上の信号レベルを有すること。
(2)所定のパワーレベル以上離れたカージオイド信号が存在しないこと。これは、口元方向に対応する3つのカージオイド信号と、顔平面方向に対応するカージオイド信号について、口元方向からの音声に対しては、前者3つのカージオイド音声信号はもちろん、後者6つのカージオイド音声信号も少しパワーが上がるのに対して、口元以外の方向からの音声信号は、1つ以上のカージオイドの死角に入る可能性が高く、9つの中で相対的にパワー差が開く傾向にあることを利用しようというものである。
(3)音声区間として検出されたフレームの前後500ミリ秒を音声区間として扱う。
The signal evaluation and
(1) The signal level is not less than a predetermined threshold value.
(2) There is no cardioid signal that is more than a predetermined power level. This is because the three cardioid signals corresponding to the mouth direction and the cardioid signal corresponding to the face plane direction are not limited to the former three cardioid sound signals and the latter six carousoid signals for the sound from the mouth direction. While the power of the geoid audio signal is slightly increased, the audio signal from directions other than the mouth is likely to enter the blind spot of one or more cardioids, and the power difference tends to open relatively among the nine. It is intended to use what is in.
(3) Handles 500 milliseconds before and after the frame detected as the speech section as the speech section.
次いで、雑音除去回路51は、入力されるカージオイド音声信号に対して、公知のスペクトルサブトラクション法(以下、SS法という。)を用いて音声信号中の雑音を除去し、処理後のディジタル音声信号を音声認識回路52に出力する。ここで、SS法は周波数領域における雑音除去法として従来から用いられており、雑音が付加された音声信号のパワースペクトから、別途推定した雑音のパワースペクトルを差し引き、そのパワースペクトルをフーリエ逆変換することで雑音を除去した音声信号を復元するものである(例えば、特許文献3及び非特許文献1参照。)。ここで、SS法を用いた演算後のスペクトル成分X(f)は次式で表される。
Next, the
[数1]
X2(f)=max{x(f)−αN(f),βN(f)} (1)
[Equation 1]
X 2 (f) = max {x (f) −αN (f), βN (f)} (1)
ここで、α,βは所定の定数であって、例えばα=2.0,β=0.001である。また、X(f)は雑音をスペクトル減算した結果のスペクトル成分であり、x(f)は収録音声データ(音声+雑音)のスペクトル成分であり、N(f)は雑音のスペクトル成分である。 Here, α and β are predetermined constants, for example, α = 2.0 and β = 0.001. Further, X (f) is a spectral component obtained as a result of spectral subtraction of noise, x (f) is a spectral component of recorded voice data (voice + noise), and N (f) is a noise spectral component.
音声認識回路52は、入力されるディジタル音声信号に対して例えば所定の音声辞書又は音声モデル(例えばHMM)を用いて音声認識処理を実行して、音声認識結果のテキストデータを液晶ディスプレイ(LCD)53に表示出力し、もしくはパーソナルコンピュータなどの外部装置に出力する。
The
次いで、図3の音声認識装置において形成されるカージオイドC1〜C9について、図5及び図6を参照して以下に説明する。 Next, the cardioids C1 to C9 formed in the speech recognition apparatus of FIG. 3 will be described below with reference to FIGS.
図5は図4の音声認識装置において実現される口元方位に対応する3つのカージオイドC1,C2,C3を示す斜視図である。図5において、カージオイドC1はディジタル音声信号S1及びS2により形成されるものであり、マイクロホン2に向う方向にゼロ点を有する。また、カージオイドC2はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC3はディジタル音声信号S1及びS3により形成されるものであり、マイクロホン3に向う方向にゼロ点を有する。
FIG. 5 is a perspective view showing three cardioids C1, C2, and C3 corresponding to the mouth orientations realized in the speech recognition apparatus of FIG. In FIG. 5, the cardioid C <b> 1 is formed by the digital audio signals S <b> 1 and S <b> 2 and has a zero point in the direction toward the
図6は図4の音声認識装置において実現される顔水平方位に対応する6つのカージオイドC4,C5,C6,C7,C8,C9を示す斜視図である。図6において、カージオイドC4,C5はディジタル音声信号S2及びS3により形成されるものであり、カージオイドC4はマイクロホン3に向う方向にゼロ点を有し、カージオイドC5はマイクロホン2に向う方向にゼロ点を有する。また、カージオイドC6,C7はディジタル音声信号S3及びS4により形成されるものであり、カージオイドC6はマイクロホン4に向う方向にゼロ点を有し、カージオイドC7はマイクロホン3に向う方向にゼロ点を有する。さらに、カージオイドC8,C9はディジタル音声信号S4及びS2により形成されるものであり、カージオイドC8はマイクロホン2に向う方向にゼロ点を有し、カージオイドC9はマイクロホン4に向う方向にゼロ点を有する。
FIG. 6 is a perspective view showing six cardioids C4, C5, C6, C7, C8, and C9 corresponding to the horizontal face orientation realized in the speech recognition apparatus of FIG. In FIG. 6, cardioids C4 and C5 are formed by the digital audio signals S2 and S3. The cardioid C4 has a zero point in the direction toward the
図7は本発明者らによって実行された実施例1に係るシミュレーション実験(3つの定常雑音Nst11,Nst12,Nst13)における雑音配置を示す斜視図である。図7において、スピーカの記号は3つの定常雑音Nst11,Nst12,Nst13の配置位置及び放射方向を示している。ここで、定常雑音Nst11は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst12は、+Y軸から原点に向う方向で放射され、定常雑音Nst13は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。 FIG. 7 is a perspective view illustrating a noise arrangement in a simulation experiment (three stationary noises Nst11, Nst12, and Nst13) according to the first embodiment performed by the present inventors. In FIG. 7, the symbol of the speaker indicates the arrangement position and radiation direction of the three stationary noises Nst11, Nst12, Nst13. Here, the stationary noise Nst11 is radiated from the orientation of the XY plane 60 degrees and the XZ plane 90 degrees, the stationary noise Nst12 is radiated in the direction from the + Y axis toward the origin, and the stationary noise Nst13 is radiated from the XY plane 300 degrees and XZ. Radiated from a 90-degree plane. At this time, the SNR (Cn) for each cardioid Cn (n = 1, 2,..., 9) evaluated by the speech recognition apparatus of FIG. 4 is as follows.
[表1]
―――――――――――――――――
SNR(C1)=25.8dB
SNR(C2)=24.4dB
SNR(C3)=24.1dB
SNR(C4)=15.0dB
SNR(C5)=14.8dB
SNR(C6)=13.6dB
SNR(C7)=13.8dB
SNR(C8)=14.9dB
SNR(C9)=14.9dB
―――――――――――――――――
[Table 1]
―――――――――――――――――
SNR (C1) = 25.8 dB
SNR (C2) = 24.4 dB
SNR (C3) = 24.1 dB
SNR (C4) = 15.0 dB
SNR (C5) = 14.8 dB
SNR (C6) = 13.6 dB
SNR (C7) = 13.8 dB
SNR (C8) = 14.9 dB
SNR (C9) = 14.9 dB
―――――――――――――――――
この表1のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。 SNR ADD (Tm) when the upper m (m = 2, 3,..., 9) cardioid audio signals of the SNR (Cn) in Table 1 are added is shown below.
[表2]
―――――――――――――――――
SNRADD(T2)=25.3dB
SNRADD(T3)=25.9dB
SNRADD(T4)=23.3dB
SNRADD(T5)=21.6dB
SNRADD(T6)=20.7dB
SNRADD(T7)=20.0dB
SNRADD(T8)=19.4dB
SNRADD(T9)=18.7dB
――――――――――――――――――
[Table 2]
―――――――――――――――――
SNR ADD (T2) = 25.3 dB
SNR ADD (T3) = 25.9 dB
SNR ADD (T4) = 23.3 dB
SNR ADD (T5) = 21.6 dB
SNR ADD (T6) = 20.7 dB
SNR ADD (T7) = 20.0 dB
SNR ADD (T8) = 19.4 dB
SNR ADD (T9) = 18.7 dB
――――――――――――――――――
表2から明らかなように、上位3個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。 As is apparent from Table 2, the highest three SNR audio signals are obtained by adding the top three cardioid audio signals.
図8は本発明者らによって実行された実施例2に係るシミュレーション実験(1つの突発性雑音Nsu21)における雑音配置を示す斜視図である。図8において、スピーカの記号は突発性雑音Nsu21の配置位置及び放射方向を示している。ここで、突発性雑音Nsu21は、XY平面60度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。 FIG. 8 is a perspective view showing a noise arrangement in a simulation experiment (one sudden noise Nsu21) according to Example 2 performed by the present inventors. In FIG. 8, the symbol of the speaker indicates the arrangement position and radiation direction of the sudden noise Nsu21. Here, the sudden noise Nsu21 is radiated from the orientations of 60 degrees on the XY plane and 90 degrees on the XZ plane. At this time, the SNR (Cn) for each cardioid Cn (n = 1, 2,..., 9) evaluated by the speech recognition apparatus of FIG. 4 is as follows.
[表3]
―――――――――――――――――
SNR(C1)=5.2dB
SNR(C2)=0.8dB
SNR(C3)=16.4dB
SNR(C4)=−6.5dB
SNR(C5)=1.3dB
SNR(C6)=16.0dB
SNR(C7)=−8.6dB
SNR(C8)=−6.6dB
SNR(C9)=1.6dB
―――――――――――――――――
[Table 3]
―――――――――――――――――
SNR (C1) = 5.2 dB
SNR (C2) = 0.8 dB
SNR (C3) = 16.4 dB
SNR (C4) = − 6.5 dB
SNR (C5) = 1.3 dB
SNR (C6) = 16.0 dB
SNR (C7) = − 8.6 dB
SNR (C8) = − 6.6 dB
SNR (C9) = 1.6 dB
―――――――――――――――――
この表3のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。 SNR ADD (Tm) when the upper m (m = 2, 3,..., 9) cardioid audio signals of the SNR (Cn) in Table 3 are added is shown below.
[表4]
―――――――――――――――――
SNRADD(T2)=16.2dB
SNRADD(T3)=9.5dB
SNRADD(T4)=7.1dB
SNRADD(T5)=6.5dB
SNRADD(T6)=5.0dB
SNRADD(T7)=2.7dB
SNRADD(T8)=1.3dB
SNRADD(T9)=−0.5dB
――――――――――――――――――
[Table 4]
―――――――――――――――――
SNR ADD (T2) = 16.2 dB
SNR ADD (T3) = 9.5 dB
SNR ADD (T4) = 7.1 dB
SNR ADD (T5) = 6.5 dB
SNR ADD (T6) = 5.0 dB
SNR ADD (T7) = 2.7 dB
SNR ADD (T8) = 1.3 dB
SNR ADD (T9) = − 0.5 dB
――――――――――――――――――
表4から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。 As is apparent from Table 4, the highest two SNR audio signals are obtained by adding the top two cardioid audio signals.
図9は本発明者らによって実行された実施例3に係るシミュレーション実験(1つの突発性雑音Nsu31及び1つの定常雑音Nst32)における雑音配置を示す斜視図である。図9において、スピーカの記号は1つの突発性雑音Nsu31及び1つの定常雑音Nst32の配置位置及び放射方向を示している。ここで、突発性雑音Nsu31は、XY平面60度及びXZ平面90度の方位から放射され、定常雑音Nst32は、XY平面300度及びXZ平面90度の方位から放射される。このときに図4の音声認識装置により評価した各カージオイドCn(n=1,2,…,9)に対するSNR(Cn)は以下の通りである。 FIG. 9 is a perspective view showing a noise arrangement in a simulation experiment (one sudden noise Nsu31 and one stationary noise Nst32) according to Example 3 performed by the present inventors. In FIG. 9, the symbol of the speaker indicates the arrangement position and the radiation direction of one sudden noise Nsu31 and one stationary noise Nst32. Here, the sudden noise Nsu31 is radiated from the azimuth of 60 degrees of the XY plane and 90 degrees of the XZ plane, and the stationary noise Nst32 is radiated from the azimuth of 300 degrees of the XY plane and 90 degrees of the XZ plane. At this time, the SNR (Cn) for each cardioid Cn (n = 1, 2,..., 9) evaluated by the speech recognition apparatus of FIG. 4 is as follows.
[表5]
―――――――――――――――――
SNR(C1)=9.3dB
SNR(C2)=6.4dB
SNR(C3)=9.4dB
SNR(C4)=−1.5dB
SNR(C5)=0.8dB
SNR(C6)=−0.2dB
SNR(C7)=−2.9dB
SNR(C8)=−1.2dB
SNR(C9)=1.0dB
―――――――――――――――――
[Table 5]
―――――――――――――――――
SNR (C1) = 9.3 dB
SNR (C2) = 6.4 dB
SNR (C3) = 9.4 dB
SNR (C4) = − 1.5 dB
SNR (C5) = 0.8 dB
SNR (C6) = − 0.2 dB
SNR (C7) = − 2.9 dB
SNR (C8) = − 1.2 dB
SNR (C9) = 1.0 dB
―――――――――――――――――
この表5のSNR(Cn)のうち上位m個(m=2,3,…,9)のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。 The SNR ADD (Tm) when the upper m (m = 2, 3,..., 9) cardioid audio signals of the SNR (Cn) in Table 5 are added is shown below.
[表6]
―――――――――――――――――
SNRADD(T2)=10.0dB
SNRADD(T3)=7.6dB
SNRADD(T4)=7.0dB
SNRADD(T5)=6.4dB
SNRADD(T6)=5.6dB
SNRADD(T7)=4.9dB
SNRADD(T8)=4.3dB
SNRADD(T9)=−3.4dB
――――――――――――――――――
[Table 6]
―――――――――――――――――
SNR ADD (T2) = 10.0 dB
SNR ADD (T3) = 7.6 dB
SNR ADD (T4) = 7.0 dB
SNR ADD (T5) = 6.4 dB
SNR ADD (T6) = 5.6 dB
SNR ADD (T7) = 4.9 dB
SNR ADD (T8) = 4.3 dB
SNR ADD (T9) =-3.4 dB
――――――――――――――――――
表6から明らかなように、上位2個のカージオイド音声信号を加算することで最高のSNRの音声信号を得ている。 As is apparent from Table 6, the highest two SNR audio signals are obtained by adding the top two cardioid audio signals.
図10は本発明者らによって実行された実施例4に係るシミュレーション実験(1つの定常雑音Nst41)における雑音配置を示す斜視図である。図10において、スピーカの記号は1つの定常雑音Nst41の配置位置及び放射方向を示している。ここで、定常雑音Nst41は、XY平面30度及びXZ平面90度の方位から背景雑音レベル90dBAで放射される。このときに図4の音声認識装置により評価した各カージオイド音声信号SCn(n=1,2,…,9)に基づいて、上位2個又は3個のカージオイド音声信号を加算したときのSNRADD(Tm)を以下に示す。
[表7]
―――――――――――――――――
SNRADD(T2)=8.0dB
SNRADD(T3)=7.3dB
――――――――――――――――――
FIG. 10 is a perspective view showing a noise arrangement in a simulation experiment (one stationary noise Nst41) according to Example 4 performed by the present inventors. In FIG. 10, the symbol of the speaker indicates the arrangement position and radiation direction of one stationary noise Nst41. Here, the stationary noise Nst41 is radiated at a background noise level of 90 dBA from directions of 30 degrees on the XY plane and 90 degrees on the XZ plane. At this time, based on each cardioid speech signal SCn (n = 1, 2,..., 9) evaluated by the speech recognition apparatus of FIG. ADD (Tm) is shown below.
[Table 7]
―――――――――――――――――
SNR ADD (T2) = 8.0 dB
SNR ADD (T3) = 7.3 dB
――――――――――――――――――
ここで、より高いSNRを有する上位2個のカージオイド音声信号を加算したときに、SS法を用いる図4の雑音除去回路51を用いた場合のSNRssを以下に示す。
Here, SNRss when the
[表8]
―――――――――――――――――――――――――――
SNRSS(α=1.0;β=0.001)=8.0dB
SNRSS(α=2.0;β=0.001)=10.3dB
―――――――――――――――――――――――――――
[Table 8]
―――――――――――――――――――――――――――
SNR SS (α = 1.0; β = 0.001) = 8.0 dB
SNR SS (α = 2.0; β = 0.001) = 10.3 dB
―――――――――――――――――――――――――――
表8から明らかなように、SS法を用いた雑音除去回路51を用いることにより大幅にSNRが改善されていることがわかる。
As apparent from Table 8, it can be seen that the SNR is greatly improved by using the
以上の実施例1乃至4において、定常雑音は例えばベルトコンベヤーなどから発生するホワイトノイズであり、突発性雑音は例えば金属材料のパンチングなどから発生する突発雑音である。 In the first to fourth embodiments described above, the stationary noise is white noise generated from, for example, a belt conveyor, and the sudden noise is sudden noise generated from, for example, punching of a metal material.
実施例5において、本発明者らは、各種の過酷な雑音環境下(出願人の犬山工場にて)で、以下の実験条件下で異なる100個の数字4桁を話者により読み上げ、そのときの、音声認識率を測定した。 In Example 5, the present inventors read 100 different numbers of four digits by the speaker under various severe noise environments (at the applicant's Inuyama Factory) under the following experimental conditions. The speech recognition rate was measured.
[表9]
―――――――――――――――――――――――――――――――――――――――
(A)音声認識ソフトウエア:日本電気製音声認識テストアプリケーション
(B)認識辞書:数字認識辞書4桁
(C)使用マイクロホン:
(C1)日本電気製ヘッドセットマイクロホン(比較例1;単一性音声用マイクロホンと、無指向性雑音用マイクロホンとを備えて構成される)
(C2)ゼンハイザー製HMD−25型マイクロホン(比較例2)
(C3)本実施形態に係るマイクロホンアレー(実施形態;図1乃至図3に示すように、1個の無指向性音声用マイクロホン1と、3個の無指向性雑音用マイクロホン2,3,4とを備えて構成される。)
―――――――――――――――――――――――――――――――――――――――
[Table 9]
―――――――――――――――――――――――――――――――――――――――
(A) Voice recognition software: NEC voice recognition test application (B) Recognition dictionary:
(C1) NEC Headset Microphone (Comparative Example 1; comprising a single voice microphone and a non-directional noise microphone)
(C2) Sennheiser HMD-25 type microphone (Comparative Example 2)
(C3) Microphone array according to the present embodiment (embodiment; as shown in FIGS. 1 to 3, one
―――――――――――――――――――――――――――――――――――――――
図11は本発明者らによって実行された実施例5に係る雑音下音声認識実験の実験結果(音声認識率)を示す表である。図11から明らかなように、騒音レベルが80dBAという非常に過酷な雑音環境下において、本実施形態に係るマイクロホンアレー10を用いて収音することにより、従来技術に比較して大きく改善されたSNRを有する音声信号を得ることができる。
FIG. 11 is a table showing experimental results (speech recognition rate) of a speech recognition experiment under noise according to Example 5 performed by the present inventors. As is clear from FIG. 11, the SNR greatly improved as compared with the prior art by collecting sound using the
また、実施例1乃至4の結果から明らかなように、本実施形態に係るマイクロホンアレー10を用いて収音しかつ本実施形態に係る図4の音声認識装置を用いて音声認識することにより音声認識率を大幅に向上させることができる。
Further, as is clear from the results of Examples 1 to 4, the voice is collected by using the
以上の実施形態においては、減算形アレー法とSS法とを併用しているが、本発明はこれに限らず、前者のみを用いて信号処理した後、音声認識してもよい。 In the above embodiment, the subtractive array method and the SS method are used together. However, the present invention is not limited to this, and speech recognition may be performed after signal processing using only the former.
以上詳述したように、本発明に係るマイクロホンアレーによれば、少なくとも3つのマイクロホンを用いて話者の音声を収集することにより、従来技術に比較して向上させた音声信号を得ることができる。また、当該マイクロホンアレーを用いて音声信号を収録し、減算形アレー法を用いて複数のカージオイド信号を生成し、そのうちのより高いSNRを有する複数のカージオイド信号を加算し、その加算信号に対してSS法を用いて雑音除去をした後音声認識することにより、例えば工場などの大きな雑音を発生する現場において音声認識率を従来技術に比較して向上させることができる。 As described above in detail, according to the microphone array of the present invention, it is possible to obtain an improved audio signal as compared with the prior art by collecting the voice of the speaker using at least three microphones. . In addition, the microphone array is used to record an audio signal, a subtractive array method is used to generate a plurality of cardioid signals, and a plurality of cardioid signals having a higher SNR are added to the sum signal. On the other hand, by performing speech recognition after removing noise using the SS method, the speech recognition rate can be improved as compared with the prior art in a site where large noise is generated, such as in a factory.
1,2,3,4…マイクロホン、
5…口元先端部、
6…音声放射方向、
10…マイクロホンアレー、
11…マイクロホン筐体、
12…フレキシブルアーム、
21,22,23,24…低周波増幅器、
26,27,28,29…A/D変換器、
30…遅延形アレー回路、
31,32,33,34,35,36,37,38,39…遅延器、
41,42,43,44,45,46,47,48,49…減算器、
50…信号評価及び選択回路、
51…雑音除去回路、
52…音声認識回路、
53…液晶ディスプレイ(LCD)、
C1,C2,C3,C4,C5,C6,C7,C8,C9…カージオイド、
Nst11,Nst12,Nst13,Nst32,Nst41…定常雑音、
Nsu21,Nsu31…突発性雑音。
1, 2, 3, 4 ... microphones,
5 ... Mouth tip,
6 ... Sound radiation direction,
10 ... Microphone array,
11 ... Microphone housing,
12 ... Flexible arm,
21, 22, 23, 24 ... low frequency amplifiers,
26, 27, 28, 29 ... A / D converter,
30 ... Delay type array circuit,
31, 32, 33, 34, 35, 36, 37, 38, 39 ... delay devices,
41, 42, 43, 44, 45, 46, 47, 48, 49 ... subtractor,
50. Signal evaluation and selection circuit,
51. Noise removal circuit,
52. Voice recognition circuit,
53 ... Liquid crystal display (LCD),
C1, C2, C3, C4, C5, C6, C7, C8, C9 ... cardioid,
Nst11, Nst12, Nst13, Nst32, Nst41 ... stationary noise,
Nsu21, Nsu31 ... sudden noise.
Claims (5)
上記角錐の底面の少なくとも2つの頂点において、放射主軸が話者の口元方向に実質的に平行となるように設けられた複数の第2のマイクロホンとを備えたことを特徴とするマイクロホンアレー。 A first microphone provided at a top vertex of each pyramid vertex such that the radiation main axis is substantially directed to the speaker's mouth;
A microphone array comprising: a plurality of second microphones provided so that a principal axis of radiation is substantially parallel to a direction of a speaker's mouth at at least two vertices of the bottom surface of the pyramid.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218398A JP2010056762A (en) | 2008-08-27 | 2008-08-27 | Microphone array |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218398A JP2010056762A (en) | 2008-08-27 | 2008-08-27 | Microphone array |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010056762A true JP2010056762A (en) | 2010-03-11 |
Family
ID=42072235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218398A Pending JP2010056762A (en) | 2008-08-27 | 2008-08-27 | Microphone array |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010056762A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953647B2 (en) | 2015-01-19 | 2018-04-24 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN110238844A (en) * | 2019-04-30 | 2019-09-17 | 北京云迹科技有限公司 | Robot turns round processing method and processing device |
CN112373723A (en) * | 2020-11-20 | 2021-02-19 | 中国直升机设计研究所 | Rotor noise microphone array |
CN113348676A (en) * | 2019-02-14 | 2021-09-03 | 松下电器(美国)知识产权公司 | Microphone device |
-
2008
- 2008-08-27 JP JP2008218398A patent/JP2010056762A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953647B2 (en) | 2015-01-19 | 2018-04-24 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN113348676A (en) * | 2019-02-14 | 2021-09-03 | 松下电器(美国)知识产权公司 | Microphone device |
CN110238844A (en) * | 2019-04-30 | 2019-09-17 | 北京云迹科技有限公司 | Robot turns round processing method and processing device |
CN112373723A (en) * | 2020-11-20 | 2021-02-19 | 中国直升机设计研究所 | Rotor noise microphone array |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9438985B2 (en) | System and method of detecting a user's voice activity using an accelerometer | |
CN109599124B (en) | Audio data processing method and device and storage medium | |
US7613310B2 (en) | Audio input system | |
KR101566649B1 (en) | Near-field null and beamforming | |
CN107039045B (en) | Globally optimized least squares post-filtering for speech enhancement | |
US9313572B2 (en) | System and method of detecting a user's voice activity using an accelerometer | |
TWI307609B (en) | Method and apparatus to detect and remove audio disturbances | |
US20080175408A1 (en) | Proximity filter | |
JP5323995B2 (en) | System, method, apparatus and computer readable medium for dereverberation of multi-channel signals | |
KR101555416B1 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
JP6074263B2 (en) | Noise suppression device and control method thereof | |
JP5573517B2 (en) | Noise removing apparatus and noise removing method | |
CN110379439B (en) | Audio processing method and related device | |
KR20090037692A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
US20100098266A1 (en) | Multi-channel audio device | |
KR20080073936A (en) | Apparatus and method for beamforming reflective of character of actual noise environment | |
JP2010056762A (en) | Microphone array | |
JP5270259B2 (en) | Voice recognition device | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
CN116110421A (en) | Voice activity detection method, voice activity detection system, voice enhancement method and voice enhancement system | |
WO2011149969A2 (en) | Separating voice from noise using a network of proximity filters | |
TW201810252A (en) | Noise eliminating device, echo cancelling device, abnormal sound detection device, and noise elimination method | |
CN110858485A (en) | Voice enhancement method, device, equipment and storage medium | |
JP4552034B2 (en) | Headset microphone array voice input device | |
Ogawa et al. | Speech enhancement using a square microphone array in the presence of directional and diffuse noise |