JP2005303574A - Voice recognition headset - Google Patents
Voice recognition headset Download PDFInfo
- Publication number
- JP2005303574A JP2005303574A JP2004115185A JP2004115185A JP2005303574A JP 2005303574 A JP2005303574 A JP 2005303574A JP 2004115185 A JP2004115185 A JP 2004115185A JP 2004115185 A JP2004115185 A JP 2004115185A JP 2005303574 A JP2005303574 A JP 2005303574A
- Authority
- JP
- Japan
- Prior art keywords
- microphones
- signal
- voice
- sound
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、ハンズフリー通話や音声認識等で用いられるヘッドセットマイク技術の一つであり、複数のマイクロホンを用いて入力音響信号から目的とする音声信号を強調あるいは目的音声信号の方向を検出する技術に関するものである。 The present invention is one of headset microphone technologies used in hands-free calling, voice recognition, and the like, and uses a plurality of microphones to emphasize a target voice signal from an input acoustic signal or detect a direction of a target voice signal. It is about technology.
音声認識技術を実環境で利用する場合、周囲の雑音は認識率に大きな影響を及ぼす。例えば車の中で使う場合、車のエンジン音や、風切り音、対向車や追い越し車両の音、カーステレオの音など多くの雑音が存在する。また、オフィスなどの比較的静かな場所でも、足音やドアを閉める音など音声認識の妨げとなる雑音は多い。また、音声認識の音声入力部としてだけでなく、雑音環境下での電話等での音声通話などにも適用される。これらの雑音は、発声者の声に混ざって声認識装置へ入力され、認識率を大きく低下させる原因となる。このような雑音の問題を解決する方法の一つとして、マイクロホンアレーの利用があげられる。マイクロホンアレーは、複数のマイクロホンから入力された音声に対して信号処理を行ない、目的とする音声を強調した信号を出力する。具体的には、目的とする音声の方向に対し鋭い指向性を形成し、その他の方向の感度を下げることで目的音声の強調を実現している。 When speech recognition technology is used in a real environment, ambient noise has a large effect on the recognition rate. For example, when used in a car, there are many noises such as car engine noise, wind noise, oncoming and overtaking vehicle sounds, and car stereo sounds. Even in relatively quiet places such as offices, there are many noises that hinder voice recognition, such as footsteps and door closing sounds. Further, the present invention is applied not only to a voice input unit for voice recognition but also to a voice call in a telephone or the like in a noisy environment. These noises are mixed with the voice of the speaker and input to the voice recognition device, causing a significant reduction in the recognition rate. One method for solving such a noise problem is to use a microphone array. The microphone array performs signal processing on sound input from a plurality of microphones, and outputs a signal that emphasizes the target sound. Specifically, the target voice is emphasized by forming a sharp directivity in the direction of the target voice and lowering the sensitivity in other directions.
例えば遅延和型のマイクロホンアレー(例えば、非特許文献1を参照)の場合、その出力信号Se(t)は、 N本のマイクロホンで得られた信号 Sn(t) ( n= 1, ... , N )を、目的音声の到来方向に合わせた時間差τだけずらして加算することで得られる。つまり、強調された音声信号 Se(t)は、 For example, in the case of a delay-and-sum type microphone array (see, for example, Non-Patent Document 1), the output signal Se (t) is a signal Sn (t) (n = 1,...) Obtained by N microphones. , N) are shifted and added by a time difference τ that matches the direction of arrival of the target speech. In other words, the emphasized audio signal Se (t) is
N
Se(t) = ΣSn(t+nτ) (1)
n=1
と表される。ただし、マイクロホンは等間隔で添字 n の順で配置されているものとする。遅延和アレーは到来信号の位相差を利用することで目的音声の方向に指向性を形成している。つまり、目的信号は同相で重ね合わされ強められるのに対し、目的信号と異なる方向から到来した雑音は位相が互いにずれるために弱めあうという原理に基づいている。
N
Se (t) = ΣSn (t + nτ) (1)
n = 1
It is expressed. However, the microphones shall be arranged in the order of the subscript n at equal intervals. The delay-and-sum array forms directivity in the direction of the target voice by using the phase difference of the incoming signals. In other words, it is based on the principle that the target signal is superimposed and strengthened in the same phase, whereas noises coming from directions different from the target signal are weakened because the phases are shifted from each other.
また、音源方向を適応ビームフォーマを用いて検出する方法がある。(例えば、特許文献1を参照。)
ところで、話者がマイクロホンアレーに対して比較的近い距離で発話した場合、音声は球面波となってマイクロホンに到達する。したがって話者がマイクロホンアレーに対して、正面で発話したとしても、マイクロホンアレーを構成する中心部のマイクロホンに比べて、端のマイクは音波の到達時間が遅れることになる。(1)に示した方式は音源が無限遠方にあり、音波が平面波と近似できると仮定した場合の理論であり、この仮定が成り立たない場合、すなわち、音源がマイクロホンアレーの大きさに比べて近くにある場合には、音波を球面波として扱う必要がある。球面波として扱う場合は、平面波に比べて計算が煩雑になるという欠点のほかに、話者が奥行き方向に移動した場合にも、マイクロホン間の音波の到達時間差が変わるため、これを一定に保つためには、話者の発話位置が限られてしまうという問題がある。
There is also a method for detecting the sound source direction using an adaptive beamformer. (For example, see
By the way, when the speaker speaks at a relatively close distance to the microphone array, the voice reaches the microphone as a spherical wave. Therefore, even if the speaker speaks in front of the microphone array, the arrival time of the sound wave is delayed in the microphone at the end as compared with the microphone in the central part constituting the microphone array. The method shown in (1) is a theory when it is assumed that the sound source is at infinity and the sound wave can be approximated to a plane wave. In this case, it is necessary to treat the sound wave as a spherical wave. When handling as a spherical wave, in addition to the disadvantage that the calculation is more complicated than a plane wave, the difference in the arrival time of sound waves between microphones changes even when the speaker moves in the depth direction. Therefore, there is a problem that the speaker's utterance position is limited.
上記のようにマイクロホンアレーに音源が近い場合、平面波近似が成り立たず、球面波近似が必要になり、処理が煩雑となり、発話位置も限定されるなどの不都合があった。 When the sound source is close to the microphone array as described above, plane wave approximation is not established, spherical wave approximation is required, processing is complicated, and the utterance position is limited.
本発明は上記の問題を解決するためになされたものであり、音源がマイクロホンアレーに近い場合でも、球面波近似を必要とせず、また、話者の移動に関しても、マイクロホン間の到達時間差の補正を必要としない音声認識ヘッドセットを提供することを目的とする。 The present invention has been made to solve the above-described problem. Even when the sound source is close to the microphone array, the spherical wave approximation is not required, and the difference in arrival time between the microphones is also corrected with respect to the movement of the speaker. An object of the present invention is to provide a voice recognition headset that does not require a voice recognition.
上記の問題を解決するために、本発明は音声を検出して音声信号を生成する複数のマイクロホンと、前記複数のマイクロホンを配置するマイクロホン支持部と、前記複数のマイクロホンの音声信号を合成して強調音声信号を生成する強調音声信号生成手段と、前記強調音声信号を認識する音声認識手段とを具備することを特徴とする。 In order to solve the above problems, the present invention synthesizes a plurality of microphones for detecting a sound and generating a sound signal, a microphone support section for arranging the plurality of microphones, and a sound signal of the plurality of microphones. Emphasized speech signal generating means for generating the enhanced speech signal, and speech recognition means for recognizing the enhanced speech signal.
また、本発明は音声を検出して音声信号を生成する複数のマイクロホンと、口元を中心とする同一円周上に前記複数のマイクロホンを配置するマイクロホン支持部と、前記複数のマイクロホンの音声信号を合成して強調音声信号を生成する強調音声信号生成手段と、前記強調音声信号を認識する音声認識手段とを具備することを特徴とする。 The present invention also provides a plurality of microphones that detect sound and generate sound signals, a microphone support portion that arranges the plurality of microphones on the same circumference centered on the mouth, and sound signals of the plurality of microphones. Emphasized speech signal generating means for synthesizing and generating an enhanced speech signal; and speech recognition means for recognizing the enhanced speech signal.
また、音声を検出して音声信号を生成する複数のマイクロホンと、口元を中心とする同一球面上に前記複数のマイクロホンを配置するマイクロホン支持部と、前記複数のマイクロホンの音声信号を合成して強調音声信号を生成する強調音声信号生成手段と、前記強調音声信号を認識する音声認識手段とを具備することを特徴とする。 In addition, a plurality of microphones that detect sound and generate a sound signal, a microphone support unit that places the plurality of microphones on the same spherical surface centered on the mouth, and a sound signal of the plurality of microphones are combined and emphasized. It is characterized by comprising enhanced speech signal generating means for generating a speech signal and speech recognition means for recognizing the enhanced speech signal.
さらに、複数のマイクロホンの距離が一定に保たれるように支持されていることを特徴とする。 Further, the microphones are supported so that the distances between the plurality of microphones are kept constant.
本発明はマイクロホンアレーに音源が近い場合でも信号処理が容易にでき、かつ認識率を向上させることができる。また、話者位置が限定されずに音声認識率を保つことができる。 The present invention can easily perform signal processing and improve the recognition rate even when the sound source is close to the microphone array. Further, the speech recognition rate can be maintained without limiting the speaker position.
以下、本発明の実施形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1および図2は、本発明の実施例1に係る音声認識ヘッドセットの外観と、その概略システム構成を示す。図1(a)は音声認識ヘッドセットの正面図であり、図1(b)は図1(a)の矢印方向から見た側面図である。音声認識ヘッドセットは、支持フレーム1と、耳あて2、3と、スピーカ4、5と、アーム6と、ヘッドセットの装着者(ユーザ)の発する音声を検出して電気的な音声信号を生成するマイクロホン7A、7Bと、この音声信号をデジタル変換を経て音声認識する信号処理モジュール10を備える。図1では簡単のために、2個のマイクロホンを使用したが、3個以上のマイクロホンを配置して実施することも可能である。また、マイクロホンの指向性を口元に向けて配置してもよい。
FIG. 1 and FIG. 2 show the appearance of a voice recognition headset according to
この音声認識ヘッドセット(以下、場合に応じて単に「ヘッドセット」と称する)は、左右の耳あて2、3を柔軟な支持フレーム1で接続した形状をしており、ユーザの頭部に装着して使用する。一方の耳あて2からはアーム6が伸びており、そのアーム6にマイクロホン7A、7Bが配置されている。マイクロホン7A、7Bは、ユーザがヘッドセットを装着したときに、ユーザのほぼ口元8を中心とした同一円周上9Aに位置し、各マイクロホンは口元からの距離が等しくなるようにアーム6に固定する。
This voice recognition headset (hereinafter simply referred to as “headset” in some cases) has a shape in which left and
耳あて2の中には、スピーカ5(左右)、信号処理モジュール16が内蔵されている。なお、信号処理モジュール16は耳あて3に内蔵してもよく、図示はしないが各要素は必要に応じてケーブルで接続されている。
A speaker 5 (left and right) and a signal processing module 16 are built in the
図2に示したように、第1のマイクロホン7Aから入力された音声は第1のAD変換器11Aでアナログ−デジタル変換を行いマイクロホンアレー信号処理部12に入力される。同様に、第2のマイクロホン7Bから入力された音声は第2のAD変換器11Bでアナログ−デジタル変換を行いマイクロホンアレー信号処理部12に入力される。マイクロホンアレー信号処理部12は、複数のマイクロホンから入力された音声信号をマイクロホンアレー処理して、雑音を抑圧して音声を強調した音声信号が出力される。音声認識部13はこの音声出力を認識して、認識結果を出力する。
As shown in FIG. 2, the sound input from the first microphone 7 </ b> A undergoes analog-digital conversion by the first AD converter 11 </ b> A and is input to the microphone array
図3は、マイクロホンアレー信号処理部12の内部構造の一例を示した図である。デジタル変換されたマイクロホンの音声信号を加算器121により合成してそれぞれのマイクロホン7A、7Bの音声信号を強調した音声が出力される。これは、マイクロホン7A、7Bが口元8を中心とした同一円周上9Aに配置されているので、口元8の音源から等距離にあり、音源からの球面波による遅延を生じさせることなく音声が入力される。そのため、別途遅延器を必要とせず同位相の信号を加算することで、口元8から到来する音声は強調される。
FIG. 3 is a diagram illustrating an example of the internal structure of the microphone array
また図4は、他のマクロホンアレー信号処理部12の内部構造の一例を示した図である。これは適応ビームフォーマを用いて雑音を抑圧して音声を強調するもので、マイクロホンアレー信号処理部12は加算器121と、ビームフォーマ処理部122、音声強調部123とから構成される。
FIG. 4 is a diagram showing an example of the internal structure of another macrophone array
ここで、図5を用いてビームフォーマ処理部122の内部構成を用いて説明する。ビームフォーマ処理部122は、マイクロホン7A、7Bをアナログ−デジタル変換した音声信号に対して音源からの音声信号を抑圧するための適応ビームフォーマ処理と呼ばれるフィルタ演算処理を行う。ビームフォーマ処理部122の内部の処理方法としては、種々の方法が知られており、例えば一般化サイドローブキャンセラ(GSC)、フロスト型ビームフォーマおよび参照信号法などがある。本実施例では適応ビームフォーマであればどのようなものにも適用可能であるが、ここでは2チャネルのGSCを例にとり説明する。
Here, description will be made using the internal configuration of the
図5に、ビームフォーマ処理部122の例として、2チャネルのGSCの中で一般的なJim-Griffith型のGSCの構成例を示す。ビームフォーマ処理部122は、減算器1221、加算器1222、遅延器1223、適応フィルタ1224および減算器1225からなるGSCである。適応フィルタ1224はLMS、RLS、射影型LMSなどの種々のものが使用可能であり、フィルタ長Laは例えばLa=50を用いる。遅延器1223の遅延量は例えばLa/2とする。
FIG. 5 shows a configuration example of a general Jim-Griffith type GSC in a two-channel GSC as an example of the
ビームフォーマ122を構成する図5に示した2チャネルのJim-Griffith型GSCの適応フィルタ1224にLMS適応フィルタを用いた場合、このフィルタの更新は、時刻をnとして適応フィルタ24の係数をW(n)、第iチャネルの入力信号をxi(n)、第iチャネルの入力信号ベクトルをXi(n)=(xi(n),xi(n−1),…,xi(n−La+1))とおくと、次式で表される。
When an LMS adaptive filter is used as the
y(n)=x0(n)+xl(n) (2)
X′(n)=X1(n)−X0(n) (3)
e(n)=y(n)−W(n)X′(n) (4)
W(n+1)=W(n)一μX′(n)e(n) (5)
目的音源の方向から信号が到来した場合、ビームフォーマ処理部122内のフィルタは目的音源の方向に感度が低くなっているため、このフィイタのフィルタ係数から感度の方向依存性である指向性を調べることにより、目的音源の方向を推定される。
y (n) = x0 (n) + xl (n) (2)
X ′ (n) = X1 (n) −X0 (n) (3)
e (n) = y (n) -W (n) X '(n) (4)
W (n + 1) = W (n) 1 μX ′ (n) e (n) (5)
When a signal arrives from the direction of the target sound source, the sensitivity of the filter in the
ところで、雑音源が非常に多く、雑音源方向を特定できないような環境では、ビームフォーマによる雑音抑圧性能は低下するが、入力音声は方向性があるため、雑音方向に目的方向を設定したビームフォーマにより、目的音源からの信号を抑圧した雑音のみの出力を抽出できる。従って、ビームフォーマ処理部122の出力は、雑音のみの信号であり、音声強調部123ではこれを用いたスペクトルサブトラクション(SS)の手法により音声を強調する。
By the way, in an environment where there are too many noise sources and the noise source direction cannot be specified, the noise suppression performance by the beamformer is degraded, but the input speech has directionality, so that the beamformer with the target direction set as the noise direction. Thus, it is possible to extract only the output of noise with the signal from the target sound source suppressed. Accordingly, the output of the
スペクトルサブトラクションには、参照用の雑音信号と音声信号の2チャネルを用いる2chSSと、1チャネルの音声信号のみを用いる1chSSとがあるが、本実施例では参照用雑音としてビームフォーマ処理部122の出力を用いる2chSSにより音声強調を行う。通常、2chSSの雑音信号としては、目的音声が入力されないように目的音声収集用のマイクロホンと距離を隔てたマイクロホンの信号を使うが、雑音信号の性質が目的音声収集用マイクロホンに混入する雑音と異なってしまい、SSの精度が落ちるという問題がある。
Spectral subtraction includes 2chSS that uses two channels of a noise signal for reference and an audio signal and 1chSS that uses only an audio signal of one channel. In this embodiment, the output of the
これに対し、本実施例では雑音収集専用のマイクロホンは使わず、複数のマイクロホンを用いたマイクロホンアレー方式により雑音信号を抽出しているため、雑音の性質が異なってしまうという問題がなく、精度よくSSを行える。 On the other hand, in this embodiment, a noise signal is extracted by a microphone array method using a plurality of microphones without using a dedicated microphone for noise collection. Can perform SS.
2chSSは例えば図6に示すような構成であり、この図6の処理を入力データをブロック処理してブロック毎に行う。図6に示す2chSSは、雑音信号をフーリエ変換する第1のFFT1231、第1のFFTにより得られた周波数成分を帯域パワーに変換する第1の帯域パワー変換部1232、得られた帯域パワーを時間方向に平均化する雑音パワー計算部1233、音声信号をフーリエ変換する第2のFFT1234、第2のFFTにより得られた周波数成分を帯域パワーに変換する第2の帯域パワー変換部1235、得られた帯域パワーを時間方向に平均化する音声パワー計算部1236、得られた雑音パワーと音声パワーとから帯域毎の重みを計算する帯域重み計算部1237、音声信号から第2のFFTにより得られた周波数スペクトルを帯域毎の重みにより重み付けする重み付け部1238、重み付けされた周波数スペクトルを逆FFTして音声を出力する逆FFT1239から構成される。
2chSS has a configuration as shown in FIG. 6, for example, and the processing shown in FIG. 2chSS shown in FIG. 6 includes a
ブロック長は例えば256点とし、FFTの点数と一致させる。FFTの際には、例えばハニング窓により窓掛けを行い、ブロック長の半分の128点ずつシフトさせながら、同じ処理を繰り返す。最後に逆FFTして得られた処理結果の波形に、128点ずつオーバラップさせながら加算して窓掛けによる変形を復元し、出力するようにする。 The block length is, for example, 256 points and is matched with the FFT score. In the case of FFT, for example, windowing is performed using a Hanning window, and the same processing is repeated while shifting by 128 points, which is half the block length. Finally, the waveform resulting from the inverse FFT is added while being overlapped by 128 points to restore the deformation due to windowing and output.
帯域パワーへの変換は、例えば表1に示すように周波数成分を分割して16の帯域にまとめ、帯域毎に周波数成分の2乗和を計算して帯域パワーとする。雑音パワーと音声パワーの計算は、帯域毎に例えば、1次の回帰フィルタにより次式のように行う。 For conversion to band power, for example, as shown in Table 1, the frequency components are divided into 16 bands, and the sum of squares of the frequency components is calculated for each band to obtain band power. The calculation of noise power and voice power is performed for each band, for example, using the first-order regression filter as follows:
pk,n =a・ppk +(1−a)・pk,n-1 (6)
vk,n =a・vvk +(1−a)・vk,n-1 (7)
ここで、kは、帯域の番号、nはブロックの香号、pは平均化された雑音チャネルの帯域パワー、ppは雑音チャネルの当ブロックの帯域パワー、vは音声チャネルの平均化された帯域パワー、vvは音声チャネルの当ブロックの帯域パワー、aは定数である。aの値は、例えば0.5を用いる。
pk, n = a.ppk + (1-a) .pk, n-1 (6)
vk, n = a.vvk + (1-a) .vk, n-1 (7)
Where k is the number of the band, n is the scent of the block, p is the band power of the averaged noise channel, pp is the band power of this block of the noise channel, and v is the averaged band of the voice channel Power, vv is the band power of this block of the voice channel, and a is a constant. For example, 0.5 is used as the value of a.
次に、帯域重み計算部では、得られた雑音と音声の帯域パワーを用いて、例えば次式により帯域毎の重みwk,n を計算する。
wk,n =|vk,n −pk,n |/vk,n (8) 次に、帯域毎の重みを用い、例えば次式により音声チャネルの周波数成分に重み付けする。
Yi,n =Xi,n ・wk,n (9)
ここで、Yi,n は重み付けされた周波数成分、Xi,n は音声チャネルの第2のFFTにより得られた周波数成分、iは周波数成分の番号であり、表1において周波数成分番号iに対応する帯域kの重みwk,n を用いるようにする。
Next, the band weight calculation unit calculates the weight wk, n for each band, for example, by the following equation using the obtained noise and the band power of the voice.
wk, n = | vk, n−pk, n | / vk, n (8) Next, weights for each band are used, and for example, the frequency components of the voice channel are weighted by the following equation.
Yi, n = Xi, n .wk, n (9)
Here, Yi, n is a weighted frequency component, Xi, n is a frequency component obtained by the second FFT of the voice channel, i is a frequency component number, and corresponds to frequency component number i in Table 1. The weight wk, n of the band k is used.
2chSSによる音声強調部123の処理の流れを図7を参照して説明する。まず、初期設定を行い、例えばブロック長=256、FFT点数=256、シフト点数=128、帯域数=16とする(ステップS101)。次に、第1のFFT1231において雑音チャネルのデータを読み込んで窓掛けおよびFFTを行い、雑音の周波数成分を求める(ステップS102)。次に、第2のFFT1234において音声チャネルのデータを読み込んで窓掛けおよびFFTを行い、音声の周波数成分を求める(ステップS103)。次に、第1の帯域パワー変換部1232において、雑音の周波数成分から表1の対応に従って雑音の帯域パワーを計算する(ステップS104)。次に、第2の帯域パワー変換部1235において、音声の周波数成分から表1の対応に従って音声の帯域パワーを計算する(ステップS105)。次に、雑音パワー計算部1233において、式(6)に従って平均雑音パワーを求める(ステップS106)。次に、音声パワー計算部1236において、式(7)に従って平均音声パワーを求める(ステップS107)。次に、帯域重み計算部1237において、式(8)に従って帯域重みを求める(ステップS108)。次に、重み付け部1238において音声の周波数成分に対して、ステップS108で求めた重み係数を式(9)に従って重み付けする(ステップS109)。次に、逆FFT1239において、ステップS109で重み付けされた周波数成分を逆FFTして波形を求め、前のブロックまでに求めた波形の最後の128ポイントに重畳させて出力する(ステップS110)。
A processing flow of the
以上、ステップS102〜S110までを入力がなくなるまで繰り返す。なお、この処理はビームフォーマの処理を含めた全体の処理と同期させてブロック処理すると都合がよく、その場合はビームフォーマのブロック長は、音声強調部のシフト長128点と一致させるようにする。このように、音声強調部123により雑音を抑圧した音声が出力され、音声認識部13により音声認識される。
The steps S102 to S110 are repeated until there is no input. It is convenient to perform this block processing in synchronization with the entire processing including the beamformer processing. In this case, the block length of the beamformer is made to coincide with the shift length of 128 points in the speech enhancement unit. . In this way, the speech with noise suppressed is output by the
ここで、音声認識部13について図8を用いて説明する。図8は、音声認識部13の内部構成を示す。マイクロホンアレー信号処理部12の音声出力は、まず音響分析部131に入力される。音響分析部131は、入力された音声を特徴パラメータに変換する。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換で求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。音響分析部131は、一定時間ごとに入力音声を特徴パラメータに変換する。したがってその出力は特徴パラメータの時系列(特徴パラメータ系列)となる。この特徴パラメータ系列はモデル照合部132に供給される。
Here, the
一方、認識語彙記憶部133には、認識語彙を構成する各単語の音声モデルを作成するために必要な単語の読み情報と、各単語が認識されたときに認識結果に対応する識別子、たとえばコマンドIDが記憶されている。なお、本実施例では、ヘッドセット内の音声認識として、単語認識による音声制御を例にとって説明するが、本発明はこれに限定されるものではない。ヘッドセット内の音声認識部13は、連続単語認識、文認識、単語スポッティング、音声意図理解など、演算量、メモリ容量、消費電力が少ない音声認識を行い、その結果を音声認識結果として出力する。
On the other hand, the recognition
認識モデル作成・記憶部134は、認識語彙記憶部133に記憶された認識語彙にしたがって、各単語の音声モデルと、各単語が認識結果となったときに認識結果としてモデル照合部132から出力される識別信号としての単語IDをあらかじめ記憶しておく。もちろん、単語認識以外の認識を行う場合は、それに応じた識別信号を格納する。
The recognition model creation /
モデル照合部132は、音声モデル作成・記憶部134に記憶しておいた認識対象とする単語の各音声モデルと、上記入力音声の特徴パラメータ系列との類似度あるいは距離を求め、類似度が最大(あるいは距離が最小)の音声モデルと対応付けられた単語IDを認識結果として出力する。
The
モデル照合部132の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画法)で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める方法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。モデル照合部132から出力された単語IDは、そのまま音声認識部13の認識結果として出力される。
As a matching method of the
図9に本発明の音声認識ヘッドセットにより音声認識した時の認識実験の結果を示す。従来方式はヘッドセットの配置された1つのマイクロホンのみを使用して入力した音声を認識した場合で、本発明方式はヘッドセットに配置された2つのマイクロホンから入力された音声でマイクロホンアレー処理を行った強調音声を音声認識装置に入力した場合の結果である。電話ベルの雑音に対して誤りが約6%削減されていることがわかるように、音声認識の認識率が向上している。 FIG. 9 shows the result of a recognition experiment when speech recognition is performed using the speech recognition headset of the present invention. The conventional method recognizes the sound input using only one microphone with the headset, and the method of the present invention performs the microphone array processing with the sound input from the two microphones disposed on the headset. This is the result when the emphasized voice is input to the voice recognition device. The recognition rate of speech recognition is improved so that the error is reduced by about 6% with respect to the noise of the telephone bell.
また、本発明のヘッドセットのマイクロホンアレー信号処理部10による音源方向検出機能を音声認識対象外の音声や雑音の入力を棄却するために使用した場合の評価結果は、従来法では1分間当たり音声で3.3文字、電話ベルで1.0文字の湧き出し誤りが発生していたが、本発明のヘッドセットの音源方向検出機能を使用することで、いずれの湧き出し誤りも防止することができる。
The evaluation result when the sound source direction detection function by the microphone array
ここで、評価データは認識対象の話者の80cm隣りにいる人が、4種類の雑音を発生させて収集し、認識話者の音声に重畳させて使用した。雑音の種類は、声、電話ベル、紙めくり音、キーボード打鍵音の4種類である。 Here, the evaluation data was collected by a person 80 cm adjacent to the recognition target speaker by generating four types of noise and superimposing them on the speech of the recognition speaker. There are four types of noise: voice, telephone bell, paper turning sound, and keyboard keystroke sound.
このように、上記構成により口元を中心とした同一円周上に複数のマイクロホンを配置したため、音源である口元から各マイクロホンへの距離が等距離であるので、マイクロホンアレー方式の音声信号を強調する際に、遅延器を必要とせず簡単な構成で音声強調することができ、更に音声認識率を向上することができる。また、話者位置に限定されず音声認識率を保持することができる。また、ここでは特にマイクロホンの指向性について説明していないが、各マイクロホンの指向性を口元に向けて配置すると、更に音声認識する音声信号を強調することができ、認識率を向上することができる。 As described above, since a plurality of microphones are arranged on the same circumference centered on the mouth with the above configuration, the distance from the mouth, which is a sound source, to each microphone is equal, so that the microphone array audio signal is emphasized. In this case, voice enhancement can be performed with a simple configuration without the need for a delay device, and the voice recognition rate can be further improved. Further, the speech recognition rate can be maintained without being limited to the speaker position. Although the directivity of the microphone is not particularly described here, if the directivity of each microphone is arranged toward the mouth, the voice signal for voice recognition can be further enhanced, and the recognition rate can be improved. .
図10は、本発明の実施例2に係る音声認識ヘッドセットの外観と示したものである。図10(a)は音声認識ヘッドセットの正面図であり、図10(b)は図10(a)の矢印方向から見た側面図である。上述した実施例1と同じ構成には同じ番号を付した。音声認識ヘッドセットは、支持フレーム1と、耳あて2、3と、スピーカ4、5と、アーム6と、ヘッドセットの装着者(ユーザ)の発する音声を検出して電気的な音声信号を生成するマイクロホン7A、7Bと、この音声信号をデジタル変換を経て音声認識する信号処理モジュール10を備える。 図10では簡単のために、2個のマイクロホンを使用したが、3個以上のマイクロホンを配置して実施することも可能である。
FIG. 10 shows the appearance of a voice recognition headset according to
このヘッドセットは、左右の耳あて2、3を柔軟な支持フレーム1で接続した形状をしており、ユーザの頭部に装着して使用する。一方の耳あて2からはアーム6が伸びており、そのアーム6にマイクロホン7A、7Bが配置されている。マイクロホン7A、7Bは、ユーザがヘッドセットを装着したときに、ユーザのほぼ口元8を中心とした同一球面上9Bに位置し、各マイクロホンは口元からの距離が等しくなるようにアーム6に固定する。
This headset has a shape in which left and
耳あて2の中には、スピーカ5(左右)、信号処理モジュール16が内蔵されている。なお、信号処理モジュール16は耳あて3に内蔵してもよく、図示はしないが各要素は必要に応じてケーブルで接続されている。
A speaker 5 (left and right) and a signal processing module 16 are built in the
マイクロホン7A、7Bで検出した音声信号から音声認識するまでの信号処理モジュール10の構成は実施例1と同様なので、ここでは説明を省略する。
このように、口元を中心とした同一球面上に複数のマイクロホンを配置したので、実施例1と同様に口元から各マイクロホンまでの距離が等距離なので、マイクロホンアレー方式の音声信号を強調する際に、遅延器を必要とせず簡単な構成で音声強調することができ、更に音声認識率を向上することができる。また、話者位置に限定されず音声認識率を保持することができる。
Since the configuration of the
As described above, since the plurality of microphones are arranged on the same spherical surface with the mouth as the center, the distance from the mouth to each microphone is the same as in the first embodiment. Further, it is possible to perform speech enhancement with a simple configuration without requiring a delay device, and to further improve the speech recognition rate. Further, the speech recognition rate can be maintained without being limited to the speaker position.
1・・・支持フレーム
2,3・・・耳あて
4,5・・・スピーカ
6・・・アーム
7A,7B・・・マイクロホン
8・・・口元
10・・・信号処理モジュール
11A,11B・・・AD変換器
12・・・マイクロホンアレー信号処理部
13・・・音声認識部
DESCRIPTION OF
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004115185A JP2005303574A (en) | 2004-04-09 | 2004-04-09 | Voice recognition headset |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004115185A JP2005303574A (en) | 2004-04-09 | 2004-04-09 | Voice recognition headset |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005303574A true JP2005303574A (en) | 2005-10-27 |
Family
ID=35334600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004115185A Pending JP2005303574A (en) | 2004-04-09 | 2004-04-09 | Voice recognition headset |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005303574A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008042334A (en) * | 2006-08-02 | 2008-02-21 | National Institute Of Advanced Industrial & Technology | Head-set microphone-array audio input device |
JP2008311866A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Acoustic signal processing method and apparatus |
JP2009537087A (en) * | 2006-05-12 | 2009-10-22 | オーディオグラヴィティ ホールディングス リミテッド | Wind noise elimination device |
JP2012507046A (en) * | 2008-10-24 | 2012-03-22 | クゥアルコム・インコーポレイテッド | Audio source proximity estimation using sensor array for noise reduction |
JP2013175869A (en) * | 2012-02-24 | 2013-09-05 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic signal enhancement device, distance determination device, methods for the same, and program |
JP2014523679A (en) * | 2011-06-21 | 2014-09-11 | ロウルズ リミテッド ライアビリティ カンパニー | Signal-enhanced beamforming in an augmented reality environment |
JP2016206960A (en) * | 2015-04-23 | 2016-12-08 | 日本電信電話株式会社 | Voice video input/output device |
CN106409309A (en) * | 2016-10-21 | 2017-02-15 | 深圳市音络科技有限公司 | Tone quality enhancement method and microphone |
EP3413583A1 (en) | 2014-10-20 | 2018-12-12 | Sony Corporation | Voice processing system |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0483295A (en) * | 1990-07-26 | 1992-03-17 | Nec Corp | Voice signal input system |
JP2000276191A (en) * | 1999-03-23 | 2000-10-06 | Oki Electric Ind Co Ltd | Voice recognizing method |
-
2004
- 2004-04-09 JP JP2004115185A patent/JP2005303574A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0483295A (en) * | 1990-07-26 | 1992-03-17 | Nec Corp | Voice signal input system |
JP2000276191A (en) * | 1999-03-23 | 2000-10-06 | Oki Electric Ind Co Ltd | Voice recognizing method |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009537087A (en) * | 2006-05-12 | 2009-10-22 | オーディオグラヴィティ ホールディングス リミテッド | Wind noise elimination device |
JP2008042334A (en) * | 2006-08-02 | 2008-02-21 | National Institute Of Advanced Industrial & Technology | Head-set microphone-array audio input device |
JP4552034B2 (en) * | 2006-08-02 | 2010-09-29 | 独立行政法人産業技術総合研究所 | Headset microphone array voice input device |
JP2008311866A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Acoustic signal processing method and apparatus |
JP2012507046A (en) * | 2008-10-24 | 2012-03-22 | クゥアルコム・インコーポレイテッド | Audio source proximity estimation using sensor array for noise reduction |
JP2014523679A (en) * | 2011-06-21 | 2014-09-11 | ロウルズ リミテッド ライアビリティ カンパニー | Signal-enhanced beamforming in an augmented reality environment |
US9973848B2 (en) | 2011-06-21 | 2018-05-15 | Amazon Technologies, Inc. | Signal-enhancing beamforming in an augmented reality environment |
JP2013175869A (en) * | 2012-02-24 | 2013-09-05 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic signal enhancement device, distance determination device, methods for the same, and program |
EP3413583A1 (en) | 2014-10-20 | 2018-12-12 | Sony Corporation | Voice processing system |
US11172292B2 (en) | 2014-10-20 | 2021-11-09 | Sony Corporation | Voice processing system |
JP2016206960A (en) * | 2015-04-23 | 2016-12-08 | 日本電信電話株式会社 | Voice video input/output device |
CN106409309A (en) * | 2016-10-21 | 2017-02-15 | 深圳市音络科技有限公司 | Tone quality enhancement method and microphone |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7158645B2 (en) | Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same | |
JP5738020B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5573517B2 (en) | Noise removing apparatus and noise removing method | |
US8391507B2 (en) | Systems, methods, and apparatus for detection of uncorrelated component | |
WO2016027680A1 (en) | Voice processing device, voice processing method, and program | |
JP5519689B2 (en) | Sound processing apparatus, sound processing method, and hearing aid | |
CN111916101B (en) | Deep learning noise reduction method and system fusing bone vibration sensor and double-microphone signals | |
CN105493518A (en) | Headset with end-firing microphone array and automatic calibration of end-firing array | |
WO2015125567A1 (en) | Sound signal processing device, sound signal processing method, and program | |
US8639499B2 (en) | Formant aided noise cancellation using multiple microphones | |
WO2022027423A1 (en) | Deep learning noise reduction method and system fusing signal of bone vibration sensor with signals of two microphones | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
JP2005303574A (en) | Voice recognition headset | |
US20080120100A1 (en) | Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor | |
Grondin et al. | WISS, a speaker identification system for mobile robots | |
Nakadai et al. | Towards new human-humanoid communication: listening during speaking by using ultrasonic directional speaker | |
JP7383122B2 (en) | Method and apparatus for normalizing features extracted from audio data for signal recognition or modification | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
CN114127846A (en) | Voice tracking listening device | |
JP2005227511A (en) | Target sound detection method, sound signal processing apparatus, voice recognition device, and program | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments | |
JP6956929B2 (en) | Information processing device, control method, and control program | |
Tanaka et al. | Development of zonal beamformer and its application to robot audition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070831 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080509 |