JP4660740B2 - Voice input device for electric wheelchair - Google Patents
Voice input device for electric wheelchair Download PDFInfo
- Publication number
- JP4660740B2 JP4660740B2 JP2006248485A JP2006248485A JP4660740B2 JP 4660740 B2 JP4660740 B2 JP 4660740B2 JP 2006248485 A JP2006248485 A JP 2006248485A JP 2006248485 A JP2006248485 A JP 2006248485A JP 4660740 B2 JP4660740 B2 JP 4660740B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- microphone
- sound
- voice
- input device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、様々な環境騒音が存在する実環境下において、高齢者や障害者などが、マイクロフォンを身に付ける必要が無く、音声により操作可能な電動車椅子搭載の音声入力装置に関する。 The present invention relates to a voice input device mounted on an electric wheelchair that can be operated by voice without requiring a microphone to be worn by an elderly person or a handicapped person in an actual environment where various environmental noises exist.
音声により制御可能な電動車椅子に関する先行技術として特許文献1や特許文献2などがあるが、いずれも音声の入力装置としてシングルマイクロフォンの使用を前提としている。マイクロフォンアレイを音声入力装置として用いた先行技術として特許文献3があり、マイクロフォンアレイを用いて音源位置を推定し、それによって電動車椅子を制御する先行技術が特許文献4などに示されている。
Prior art relating to an electric wheelchair that can be controlled by voice includes Patent Document 1 and
様々な環境騒音が存在する実環境下で音声により電動車椅子を操作する場合、雑音に対して頑健な音声認識の実現が必要不可欠である。従来のシングルマイクロフォンから入力される音声で制御可能な電動車椅子では、雑音の混入を抑えるためにヘッドセットなどの接話型マイクロフォンを用いる必要がある。しかし、ヘッドセットマイクロフォンは、電動車椅子を使用する度に装着する必要があり、また使用中に位置がずれた場合は自分でその位置を修正する必要がある。これでは、例えば、ある程度発話はできるが、手を自由に動かすことが困難な障害者などにとっては、必ずしも実用的ではないという問題がる。この問題を避けるためには、マイクロフォンを電動車椅子に固定し、操作者はマイクロフォンを一切見につけずに操作出来る電動車椅子を提供する必要がある。しかし、この場合、操作者とマイクロフォン間の距離が広がるため、周囲雑音が混入し音声認識精度が劣化する問題、また周囲雑音により引き起こされる電動車椅子の誤動作などが問題となる。これを解決する手段の一つが、マイクロフォンを複数個用いて操作者の音声を受音し、音源位置推定(特願2006−045096)や妨害雑音の抑圧などの処理を行うことである。例えば、先行技術の特願2006−044711では、操作者の背後から両肩上を通って操作者の口元より先まで達する程度の長さを持つ支柱上に、複数のマイクロフォンを配置する音声入力装置について述べている。しかし、例えば、脳性麻痺で痙性があり不随意運動がある障害者にとって、高い位置にマイクロフォンを設置するのは安全性の面で問題があり、また、デザイン的にも操作者を閉じこめるようになってしまうという問題があった。 When operating an electric wheelchair by voice in an actual environment where various environmental noises exist, it is essential to realize voice recognition that is robust against noise. In a conventional electric wheelchair that can be controlled by voice input from a single microphone, it is necessary to use a close-talking microphone such as a headset in order to suppress the mixing of noise. However, the headset microphone needs to be worn every time the electric wheelchair is used, and if the position is shifted during use, the position needs to be corrected by itself. In this case, for example, there is a problem that it is not practical for a handicapped person who can speak to some extent but cannot move his / her hand freely. In order to avoid this problem, it is necessary to fix the microphone to the electric wheelchair and provide the electric wheelchair that allows the operator to operate without looking at the microphone at all. However, in this case, since the distance between the operator and the microphone is widened, there is a problem that ambient noise is mixed and voice recognition accuracy is deteriorated, and a malfunction of the electric wheelchair caused by the ambient noise. One means for solving this is to receive the operator's voice using a plurality of microphones, and perform processing such as sound source position estimation (Japanese Patent Application No. 2006-045096) and suppression of interference noise. For example, in Japanese Patent Application No. 2006-044711 of the prior art, a voice input device in which a plurality of microphones are arranged on a support column having a length that reaches from the back of the operator through both shoulders to beyond the mouth of the operator. About. However, for example, for a disabled person with cerebral palsy, spasticity, and involuntary movement, placing the microphone at a high position is problematic in terms of safety, and the operator can be confined in terms of design. There was a problem that.
本発明の目的は、操作者を限定せずに、広く一般的な使用を可能とする電動車椅子搭載用音声入力装置を提供することにある。 An object of the present invention is to provide a voice input device for mounting on an electric wheelchair that enables wide and general use without limiting operators.
本発明の電動車椅子搭載用音声入力装置は、それぞれマイクロフォンを複数個離間してマイクロフォンアレイとして設けたマイクロフォン取付体を、電動車椅子の肘掛の先端部分に前記マイクロフォンが位置するように取付け、前記車両に設けた制御手段により前記両マイクロフォンから取り込んだ信号に対して音源位置推定または音声認識をすることにより操作者の指示を特定する。さらには、操作者の指示を特定し、その指示に従って前記車両を走行制御する。
また、本発明の電動車椅子搭載用音声入力装置は、前記左右の肘掛先端に取付けた一対のマイクロフォン取付体上に、操作者から見て「ハ」の字になるようにマイクロフォンを傾斜して配置する。
According to the voice input device for mounting an electric wheelchair of the present invention, a microphone mounting body provided as a microphone array with a plurality of microphones spaced apart from each other is mounted so that the microphone is positioned at the tip of the armrest of the electric wheelchair. The operator's instruction is specified by estimating the sound source position or recognizing the signals taken from both the microphones by the provided control means. Furthermore, the operator's instruction is specified, and the vehicle is controlled to travel according to the instruction.
Further, the voice input device mounted on the electric wheelchair of the present invention is arranged on the pair of microphone attachment bodies attached to the left and right armrest tips so that the microphone is inclined so as to have a “C” shape when viewed from the operator. To do.
本発明の電動車椅子搭載用音声入力装置は、車椅子に固定されたマイクロフォンを用いることで、ある程度の発話はできるが、手を自由に動かすことが困難な障害者などが使用しても、マイクロフォンの装着やマイクロフォン位置の修正などの手続きを必要としない実用的な電動車椅子が実現される。また前述した構造を持つマイクロフォンスタンドを採用することで、マイクロフォンアレイ音声入力装置および音源の位置または到来方向推定手法と音源分離手法を組み合わせることで、周囲雑音が混入し認識精度が劣化する問題や、周囲雑音により引き起こされる車椅子の誤動作の問題などが解決される。更に、脳性麻痺で痙性があり不随意運動がある障害者が使用しても、マイクロフォンアレイと接触することがなく安全に電動車椅子を操作することができる。
また、本発明の電動車椅子搭載用音声入力装置は、左右の肘掛先端に取付けた一対のマイクロフォン取付体上に、操作者から見て「ハ」の字になるようにマイクロフォンを傾斜して配置するので、各マイクロフォンはシート中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができる。
また、マイクロフォンを操作者中心から「ハ」の字に配置したので、周囲から操作者に向かって集中する音声信号を、操作者を中心としたときの中心角を大きく取って集音することができる。このことは、従来のようにマイクロフォンを1個とした場合に、特定の方向の音声信号のみの集音になるのと対照的である。
マイクロフォンアレイを2本ある程度の間隔で配置することで、例えば、それぞれのマイクロフォンアレイで音波の到来方向を推定し、その交点として音源の座標を推定することが原理的に可能となる。
The voice input device mounted on an electric wheelchair according to the present invention can speak to some extent by using a microphone fixed to the wheelchair, but even if a handicapped person who cannot move his / her hand freely is used, A practical electric wheelchair that does not require procedures such as wearing and microphone position correction is realized. In addition, by adopting the microphone stand having the structure described above, by combining the microphone array voice input device and the sound source position or arrival direction estimation method and the sound source separation method, there is a problem that the recognition accuracy deteriorates due to ambient noise mixing, The problem of wheelchair malfunction caused by ambient noise is solved. Furthermore, even if a disabled person with cerebral palsy, spasticity and involuntary movement is used, the electric wheelchair can be operated safely without contacting the microphone array.
Further, the voice input device for mounting on an electric wheelchair according to the present invention is arranged on the pair of microphone attachment bodies attached to the left and right armrest tips so that the microphone is inclined so as to form a letter “C” when viewed from the operator. Therefore, each microphone is substantially equidistant from the seat center, and sounds around the operator can be collected at substantially the same level.
In addition, since the microphone is placed in the shape of the letter “C” from the center of the operator, it is possible to collect sound signals that are concentrated from the surroundings toward the operator with a large central angle when the operator is the center. it can. This is in contrast to the case where only one audio signal in a specific direction is collected when a single microphone is used as in the prior art.
By arranging two microphone arrays at a certain interval, for example, it is possible in principle to estimate the arrival direction of a sound wave with each microphone array and to estimate the coordinates of a sound source as the intersection.
本発明の実施の形態を図に基づいて詳細に説明する。 Embodiments of the present invention will be described in detail with reference to the drawings.
図1は本発明の音声入力装置を搭載した電動車椅子の外観図、図2は図1に示す音声入力装置のブロック回路図である。
図1に示す本発明の音声入力装置を搭載した電動車椅子は、音声入力装置等を備える電動車椅子からなる。
電動車椅子は、例えば、車椅子としての、2つの後輪23、2つの前輪22、後輪23の上方に設置されたシート20と背もたれ25、背もたれ25の両側に設置された肘掛21a,21b、前輪22の前方に設置された足置き24を有すると供に、肘掛21a、21bにはマイクロフォン取付体10a、10bがそれぞれ設けられている。
音声入力装置は、図2示されるように構成される。音声入力装置の主要構成部品はシート20内や背もたれ25に収納される。
FIG. 1 is an external view of an electric wheelchair equipped with the voice input device of the present invention, and FIG. 2 is a block circuit diagram of the voice input device shown in FIG.
The electric wheelchair equipped with the voice input device of the present invention shown in FIG. 1 is an electric wheelchair provided with a voice input device or the like.
The electric wheelchair includes, for example, two
The voice input device is configured as shown in FIG. The main components of the voice input device are accommodated in the
マイクロフォン11を複数個連設したマイクロフォンアレイ12を基板13上に設けたマイクロフォン取付体10a、10bを、左右の肘掛21a,21bの先端に配線を備えた支持体14により支持する。両側のマイクロフォンアレイ12は、シート20に座った人が見て「ハ」の字になるように配置する。このように配置することにより、各マイクロフォンはシート20中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができる。
マイクロフォン取付体10aおよび10bに設けたマイクロフォンアレイ12は、マイクロフォン11を任意数調節自在に設ける。マイクロフォンの数、配置間隔等は任意に設定する。
The
図2は本発明の電動車椅子の機能ブロック図である。
図2に示すように、電動車椅子の機能はブロックで表すと、音声入力装置の一部を構成する2個のマイクロフォンアレイ12、マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、表示手段となるディスプレイ31、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64、駆動手段となる駆動制御手段65と駆動モータ67、操作手段となるジョイスティックや緊急停止ボタンなどの操作スイッチ66を有する。CPU63と駆動制御手段65は、シリアルケーブル69で接続する。
マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64、駆動手段となる駆動制御手段65と駆動モータ67は、車椅子のシート20や背もたれ25中に収納してある。
制御手段は、マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64を有する。
FIG. 2 is a functional block diagram of the electric wheelchair of the present invention.
As shown in FIG. 2, when the function of the electric wheelchair is represented by a block, two
A
The control means includes a
(音声入力装置)
音声入力手段は、ユーザ音声を受音するために相互に離間して配置した複数のマイクロフォンアレイ12からなる受音手段を備える。
(Voice input device)
The voice input unit includes a sound receiving unit including a plurality of
(発声位置推定手段と制御手段)
CPU(中央演算処理装置)ボード63は、CPUを搭載したボードからなり、発声位置推定手段および制御手段を含む。発声位置推定手段および制御手段は、CPUボード63に接続される記憶装置64を備える。
図3はマイクロフォンアレイの機能説明図である。
発声位置推定手段は、図3に示すように、前記受音手段で受音したマルチチャネル音声データに基づきユーザの発声位置を推定し発声位置推定信号を出力する。
制御手段は、前記発声位置推定信号および前記補助操作信号に基づき前記駆動制御手段を制御する。
ADC61とCPUボード63はUSBケーブル68を介して接続し、マイクアンプおよびADC61の電源はCPUボード63から供給する。サンプリングレートは任意に設定でき、例えば8kHzとし、量子化ビット数は任意に設定でき、例えば16bitとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。
(Speech position estimation means and control means)
The CPU (central processing unit)
FIG. 3 is a functional explanatory diagram of the microphone array.
As shown in FIG. 3, the utterance position estimation means estimates the utterance position of the user based on the multi-channel audio data received by the sound reception means, and outputs a utterance position estimation signal.
The control means controls the drive control means based on the utterance position estimation signal and the auxiliary operation signal.
The ADC 61 and the
(補助入力手段)
補助操作手段は、図示されていないが、操作スイッチ66で代表され、例えばジョイスティック(図示省略)からなる座標位置指定手段、および、緊急停止ボタン(図示省略)により補助操作信号を出力する。
(Auxiliary input means)
Although not shown, the auxiliary operation means is represented by an
(画像表示手段)
画像表示手段は、ディスプレイ31を有し、前記発声位置推定信号および車椅子の状態等を視覚的に示す。
(Image display means)
The image display means has a
(駆動手段)
駆動手段は、駆動制御装置65を備え、車椅子の車輪の駆動源である駆動モータ67を駆動制御する。
(Driving means)
The drive means includes a
(発声位置検出)
上記発声位置推定手段により、複数の受音手段を備えた音声入力装置からの入力信号を用いて発声位置検出処理を行う。
音声で車椅子を制御するためには、マイクロフォンから入力された音が、ユーザ音声なのか、それとも環境騒音なのかを特定する必要がある。これはその音源の位置を推定することで判断できる。もし、車椅子の外に音源があればその音源は環境騒音と判断し、また車椅子内部に音源がある場合はユーザ音声と判断する。
例えば、マイクロフォンアレイを1本だけ使用する場合、音波の到来方向を推定することはできるが、マイクロフォン間隔を相当広げない限り、マイクロフォンアレイから音源までの距離を測定することは困難である。一方、図3に示すように、マイクロフォンアレイを2本ある程度の間隔で配置することで、例えば、それぞれのマイクロフォンアレイで音波の到来方向を推定し、その交点として音源の座標を推定することが原理的に可能となる。ある程度の間隔とは、2つのマイクロフォンアレイから到来波を観測したときに、球面波として観測できる程度の間隔を意味する。
以上の理由により、本発明では、図3に示すようなマイクロフォンアレイをある程度の間隔を置いて2本配置する構造を採用する。
(Speech position detection)
The utterance position estimation means performs utterance position detection processing using input signals from a voice input device having a plurality of sound reception means.
In order to control the wheelchair by voice, it is necessary to specify whether the sound input from the microphone is user voice or environmental noise. This can be determined by estimating the position of the sound source. If there is a sound source outside the wheelchair, the sound source is judged as environmental noise, and if there is a sound source inside the wheelchair, it is judged as user voice.
For example, when only one microphone array is used, the direction of arrival of sound waves can be estimated, but it is difficult to measure the distance from the microphone array to the sound source unless the microphone interval is considerably widened. On the other hand, as shown in FIG. 3, by arranging two microphone arrays at a certain interval, for example, the arrival direction of sound waves is estimated by each microphone array, and the coordinates of the sound source are estimated as intersections thereof. Is possible. A certain interval means an interval that can be observed as a spherical wave when arriving waves are observed from two microphone arrays.
For the reasons described above, the present invention employs a structure in which two microphone arrays as shown in FIG. 3 are arranged at a certain interval.
(音声認識装置)
図4は本発明の音声認識装置のブロック構成図である。この音声認識装置は図2においてCPUボード63と記憶装置64とから構成される。
音声認識装置40は、マイクロフォンアレイ処理部41と、音声認識処理部42から構成される。
マイクロフォンアレイ処理部41は、入力音声をひろうマイクロフォンアレイ音声入力装置43と、装置43の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段45と、装置43の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段46と、手段45および46の音源位置情報に基づいて装置43の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段44と、手段45および46の音源位置情報に基づいてユーザ(ヘッドセット型マイクロフォンアレイ音声入力装置装着者)の発話を検出するユーザの発話検出手段47と、ユーザの発話検出手段47からの検出信号に応じて音源分離処理手段44からの音声信号を切換出力する切換手段48から構成される。
音声認識処理部42は、切換手段48からの音声信号に対して特徴を補正処理する特徴補正処理手段49と、手段49からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段50から構成される。
(Voice recognition device)
FIG. 4 is a block diagram of the speech recognition apparatus of the present invention. This voice recognition device is composed of a
The voice recognition device 40 includes a microphone array processing unit 41 and a voice
The microphone array processing unit 41 estimates the direction of sound wave arrival of a sound source at a long distance, which estimates the sound wave arrival direction of the sound source at a long distance from the sound of the microphone array sound input device 43 and the sound output from the device 43. Based on the sound source position information of the
The voice
本発明のマイクロフォンアレイを用いる音声認識装置は、下記の5つの要素技術から構成される。
1.マイクロフォンアレイから近距離にある音源の位置推定
2.マイクロフォンアレイから遠距離にある音源の音波到来方向の推定
3.ユーザの発話検出
4.音源分離処理
5.音声認識処理(特願2003−320183)
これらの要素技術の詳細について以下で説明する。
The speech recognition apparatus using the microphone array of the present invention is composed of the following five elemental technologies.
1. 1. Estimation of the position of a sound source at a short distance from the
Details of these elemental technologies will be described below.
(音源位置推定)
図3は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォン1、2、3、4と、マイクロフォン5、6、7、8は、図3に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
(Sound source position estimation)
FIG. 3 is a functional explanatory diagram of the microphone array of the present invention.
The
A method for estimating the position of a sound source at a short distance within about 1 m from the microphone array using the microphone array will be described below.
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の任意の位置
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
Define the matrix Rn (ω) from the noise subspace basis vectors as
周波数帯域
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(30)の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
(周囲雑音の音波到来方向推定)
It is determined that there is a utterance in the coordinate vector Pl within N consecutive frame times.
In the sound source position estimation process, consecutive N frames are processed as one block. In order to more stably estimate the sound source position, the number N of frames is increased, and / or it is determined that there is a utterance when the condition of Expression (30) is satisfied in all of the consecutive Nb blocks. The number of blocks is set arbitrarily. When the sound source is moving at such a speed that the sound source can be seen to be approximately stationary within the time period of consecutive N frames, the moving miracle of the sound source can be captured by the above method.
(Estimation of sound direction of ambient noise)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。
A method for estimating the direction in which sound waves of a sound source at a long distance from the microphone array arrive will be described below.
The plurality of microphones can be arranged at arbitrary positions in the three-dimensional space. Sound waves coming from a long distance are considered to be observed as plane waves.
図5は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図5は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図5で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図5で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
FIG. 5 is an explanatory diagram for explaining a sound receiving function using the microphone array of the present invention.
FIG. 5 shows, as an example, a case in which three microphones m1, m2, and m3 arranged at arbitrary positions receive a sound wave that has arrived from a sound source. In FIG. 5, a point c indicates a reference point, and the arrival direction of the sound wave is estimated around the reference point. In FIG. 5, a plane s indicates a cross section of a plane wave including the reference point c. The normal vector n of the plane s is defined as follows, with the direction of the vector being opposite to the propagation direction of the sound wave.
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式(26)に従い求めた値を要素とするベクトルとして次式のように定義される。
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。式(15)で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。 The short-range sound source position estimation result and the long-distance sound source direction-of-arrival direction estimation result play an important role in the subsequent speech detection process and sound source separation process. When the power of the short-distance sound source is remarkably increased with respect to the sound wave coming from the long-distance sound source, the arrival direction estimation of the sound wave of the long-distance sound source may not be performed well. Such a case is dealt with by using the arrival direction estimation result of the sound wave of the long-distance sound source estimated immediately before the short-distance sound source is generated.
(発話検出処理)
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
(Speech detection processing)
When there are a plurality of sound sources, it is generally difficult to specify which sound source should be recognized. On the other hand, in a system that employs an interface using voice, a user utterance region that represents a position at which a user of the system utters relative to the system can be determined in advance. In this case, even if there are a plurality of sound sources around the system by the above-described method, if the position of each sound source and the arrival direction of the sound waves can be estimated, the sound source that enters the user utterance region that the system assumes in advance is selected. Thus, the user's voice can be easily identified.
式(20)や式(31)の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。 The presence of a sound source is detected when the conditions of Expression (20) and Expression (31) are satisfied, and further, the conditions of the position of the sound source and the arrival direction of the sound wave are satisfied, and the user's utterance is detected. This detection result plays an important role in the subsequent speech recognition process as the speech section information. When performing speech recognition, it is necessary to detect the start time and end time of an utterance section from an input signal. However, it is not always easy to detect an utterance section in a noise environment in which ambient noise exists. Generally, when the start time of the utterance section is shifted, the speech recognition accuracy is significantly deteriorated. On the other hand, even if there are a plurality of sound sources, the functions represented by Expression (18) and Expression (29) show a sharp peak at the position where the sound source is and the arrival direction of the sound waves. Therefore, the speech recognition apparatus of the present invention that performs speech segment detection using this information has the advantage that robust speech detection can be performed even when a plurality of ambient noises exist, and high speech recognition accuracy can be maintained. Have.
例えば、図6に示すようなユーザの発声領域を定義することができる。
図6は本発明による発話検出処理の機能説明図である。
この図では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができる。図6では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザの発声領域と定義している。従って、式(20)により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。
For example, a user's utterance area as shown in FIG. 6 can be defined.
FIG. 6 is a functional explanatory diagram of the speech detection processing according to the present invention.
In this figure, for the sake of simplicity, only the XY plane is shown, but in general, any user utterance region can be similarly defined in a three-dimensional space. In FIG. 6, assuming a process using eight microphones m1 to m8 arranged at arbitrary positions, a user utterance region is defined in each of a short-distance sound source search region and a long-distance sound source search region. Yes. The short-distance sound source search space is a rectangular region whose diagonal is a straight line connecting two points (PxL, PyL) and (PxH, PyH). Two rectangular areas whose diagonals are straight lines connecting two points of (PTxL2, PTyL2) and (PTxH2, PTyH2) are defined as user's utterance areas. Accordingly, by selecting the sound source positions determined to have been uttered according to the equation (20) and whose coordinate vectors are within the user utterance area, the user can select among the sound sources existing at a short distance. The voice can be specified.
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザの発声領域と定義している。従って、式(31)により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。 On the other hand, the search space for the long-distance sound source defines the direction from the angle θL to θH with the point C as a reference, and defines the region from the angles θTL1 to θTH1 as the user's utterance region. Therefore, by selecting the arrival directions of the sound waves determined to have been uttered according to the equation (31) within the user utterance area, the sound sources existing at a long distance can be selected. User voice can be specified.
(音源分離処理)
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式(8)と式(27)の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
(Sound source separation processing)
A sound source separation process for emphasizing a user's voice and suppressing ambient noise using a sound source position estimation result or a sound wave arrival direction estimation result detected by speech will be described below.
The utterance position or the arrival direction of the user voice is obtained by the utterance detection process. Further, the sound source position or direction of arrival of ambient noise has already been estimated. Using these estimation results, the sound source position vectors of Equations (8) and (27), and σ representing the variance of omnidirectional noise, the matrix V (ω) is defined as follows.
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
式(38)の分離フィルタに式(10)の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。
The emphasized user speech waveform signal is obtained by calculating the inverse Fourier transform of equation (37).
When the sound source is moving at such a speed that the sound source can be seen to be approximately stationary within the time of consecutive N frames, the emphasized voice of the moving user can be obtained by the above method.
(音声認識処理)
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
(Voice recognition processing)
The sound source separation processing is effective for directional noise, but noise remains to some extent for omnidirectional noise. In addition, a noise suppression effect cannot be expected even for noise that occurs in a short time such as sudden noise. Therefore, the feature correction method described in Japanese Patent Application No. 2003-320183, “Background Noise Distortion Correction Processing Method and Speech Recognition System Using the Same” is used for the recognition of user speech emphasized by the sound source separation processing. By using a built-in speech recognition engine, the effects of residual noise are reduced. Note that the present invention is not limited to Japanese Patent Application No. 2003-320183 as a speech recognition engine, and it is also possible to use a speech recognition engine in which various methods that are robust against noise are mounted.
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。 The feature correction method described in Japanese Patent Application No. 2003-320183 performs feature correction of noise superimposed speech based on a Hidden Markov Model (HMM) that a speech recognition engine has as a template model for speech recognition in advance. . The HMM is learned based on Mel-Frequency Cepstrum Coefficient (MFCC) obtained from clean speech with no noise. For this reason, it is not necessary to prepare a new parameter for feature correction, and there is an advantage that the feature correction method can be incorporated into an existing recognition engine relatively easily. In this method, noise is divided into a stationary component and a non-stationary component that shows a temporary change, and the stationary component of the noise is estimated from several frames immediately before the utterance.
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。 A copy of the distribution of the HMM is generated, and the estimated noise stationary component is added to generate a feature amount distribution of the stationary noise superimposed speech. The distortion due to the stationary noise component is absorbed by evaluating the posterior probability of the observed characteristic amount of the noise superimposed speech with the feature amount distribution of the stationary noise superimposed speech. However, since distortion due to the unsteady component of noise is not taken into account only by this processing, the posterior probability obtained by the above means is not accurate when the unsteady component of noise exists. On the other hand, by using the HMM for feature correction, the temporal structure of the feature amount time series and the accumulated output probability obtained along with it can be used. By assigning the weight calculated from the accumulated output probability to the above-mentioned posterior probability, the reliability of the posterior probability deteriorated due to the non-stationary component that temporarily changes the noise can be improved.
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
このように音声認識された結果の信号を用いて車いすの駆動機構を制御する。
When performing speech recognition, it is necessary to detect the start time and end time of an utterance section from an input signal. However, it is not always easy to detect an utterance section in a noise environment in which ambient noise exists. In particular, since the speech recognition engine incorporating the feature correction estimates a steady feature of ambient noise from several frames immediately before the start of speech, the recognition accuracy is significantly deteriorated when the start time of the speech section is shifted. On the other hand, even if there are a plurality of sound sources, the functions represented by Expression (18) and Expression (29) show a sharp peak at the position where the sound source is and the arrival direction of the sound waves. Therefore, the speech recognition apparatus of the present invention that performs speech segment detection using this information can robustly perform speech segment detection even when a plurality of ambient noises exist, and can maintain high speech recognition accuracy.
The wheelchair drive mechanism is controlled using the signal resulting from the speech recognition.
10a、10b マイクロフォン取付体
11 マイクロフォン
12 マイクロフォンアレイ
13 基板
14 支持体
20 シート
21a、21b 肘掛け
25 背もたれ
30a、30b 平行マイクロフォンアレイ
31 ディスプレイ
32 マイクロフォンアンプとADC
33 CPUボード
34 記憶装置
35 イヤホーンスピーカ
36 送受信装置
40 音声認識装置
41 マイクロフォンアレイ処理部
42 音声認識処理部
43 マイクロフォンアレイ音声入力装置
44 音源分離処理手段
45 遠距離にある音源の音波到来方向推定手段
46 近距離にある音源の位置推定手段
47 ユーザの発話検出手段
48 切換器
49 特徴補正処理手段
50 音声認識手段
m1、m2、m3、m4、m5、m6、m7、m8 マイクロフォン
10a, 10b
33 CPU board 34 Storage device 35 Earphone speaker 36 Transmission / reception device 40 Speech recognition device 41 Microphone
Claims (2)
該取付体上に、両方のマイクロフォンアレイが操作者から見てハの字になるようにマイクロフォンを傾斜して配置することを特徴とする音声入力装置。 And armrests with electric wheelchair, with mounting the microphone arrays spaced apart plurality of microphones, a microphone mount positioned to protrude from the armrest of the tip portion of the left and right electric wheelchair, from both microphone array A voice input device having a control means for performing sound source position estimation or voice recognition based on a captured signal ,
A voice input device, wherein the microphones are arranged on the attachment body so that both microphone arrays are formed in a C shape when viewed from the operator.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006248485A JP4660740B2 (en) | 2006-09-13 | 2006-09-13 | Voice input device for electric wheelchair |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006248485A JP4660740B2 (en) | 2006-09-13 | 2006-09-13 | Voice input device for electric wheelchair |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008067854A JP2008067854A (en) | 2008-03-27 |
JP4660740B2 true JP4660740B2 (en) | 2011-03-30 |
Family
ID=39289990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006248485A Expired - Fee Related JP4660740B2 (en) | 2006-09-13 | 2006-09-13 | Voice input device for electric wheelchair |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4660740B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
JP2010193323A (en) * | 2009-02-19 | 2010-09-02 | Casio Hitachi Mobile Communications Co Ltd | Sound recorder, reproduction device, sound recording method, reproduction method, and computer program |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58151796A (en) * | 1982-03-05 | 1983-09-09 | Matsushita Electric Ind Co Ltd | Microphone |
JPH10227849A (en) * | 1997-02-14 | 1998-08-25 | Fuji Xerox Co Ltd | Sound source position measuring device, camera image pick-up controller, sound source position recording device, and sound source position measurement method |
JP2000188795A (en) * | 1998-12-22 | 2000-07-04 | Matsushita Electric Ind Co Ltd | Microphone device and voice recognition device using same, car navigation system and automatic driving system for automobile |
JP2002355283A (en) * | 2001-05-31 | 2002-12-10 | Kyushu Hitachi Maxell Ltd | Massaging machine |
JP2003009268A (en) * | 2001-06-22 | 2003-01-10 | Sony Corp | Microphone device, seat and mobile body |
JP2003156552A (en) * | 2001-08-31 | 2003-05-30 | Hitachi Hybrid Network Co Ltd | Method for searching direction of sound source/ electromagnetic wave source, method for searching position of sound source/electromagnetic wave source and method for recognizing specific sound source/ electromagnetic wave source |
JP2003310665A (en) * | 2002-04-19 | 2003-11-05 | Tama Tlo Kk | Electric wheelchair |
JP2003337594A (en) * | 2002-03-14 | 2003-11-28 | Internatl Business Mach Corp <Ibm> | Voice recognition device, its voice recognition method and program |
JP2004313587A (en) * | 2003-04-18 | 2004-11-11 | Mikishii:Kk | Automatic traveling wheelchair, wheelchair automatic traveling system, and automatic traveling method for wheelchair |
-
2006
- 2006-09-13 JP JP2006248485A patent/JP4660740B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58151796A (en) * | 1982-03-05 | 1983-09-09 | Matsushita Electric Ind Co Ltd | Microphone |
JPH10227849A (en) * | 1997-02-14 | 1998-08-25 | Fuji Xerox Co Ltd | Sound source position measuring device, camera image pick-up controller, sound source position recording device, and sound source position measurement method |
JP2000188795A (en) * | 1998-12-22 | 2000-07-04 | Matsushita Electric Ind Co Ltd | Microphone device and voice recognition device using same, car navigation system and automatic driving system for automobile |
JP2002355283A (en) * | 2001-05-31 | 2002-12-10 | Kyushu Hitachi Maxell Ltd | Massaging machine |
JP2003009268A (en) * | 2001-06-22 | 2003-01-10 | Sony Corp | Microphone device, seat and mobile body |
JP2003156552A (en) * | 2001-08-31 | 2003-05-30 | Hitachi Hybrid Network Co Ltd | Method for searching direction of sound source/ electromagnetic wave source, method for searching position of sound source/electromagnetic wave source and method for recognizing specific sound source/ electromagnetic wave source |
JP2003337594A (en) * | 2002-03-14 | 2003-11-28 | Internatl Business Mach Corp <Ibm> | Voice recognition device, its voice recognition method and program |
JP2003310665A (en) * | 2002-04-19 | 2003-11-05 | Tama Tlo Kk | Electric wheelchair |
JP2004313587A (en) * | 2003-04-18 | 2004-11-11 | Mikishii:Kk | Automatic traveling wheelchair, wheelchair automatic traveling system, and automatic traveling method for wheelchair |
Also Published As
Publication number | Publication date |
---|---|
JP2008067854A (en) | 2008-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4982807B2 (en) | Operating method, operating device and program therefor | |
JP2008064892A (en) | Voice recognition method and voice recognition device using the same | |
Nakadai et al. | Real-time sound source localization and separation for robot audition. | |
JP2019008134A (en) | Sound source separation information detection device, robot, sound source separation information detection method and program | |
US9583119B2 (en) | Sound source separating device and sound source separating method | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP3780516B2 (en) | Robot hearing device and robot hearing system | |
JP5156260B2 (en) | Method for removing target noise and extracting target sound, preprocessing unit, speech recognition system and program | |
US10339949B1 (en) | Multi-channel speech enhancement | |
WO2016103709A1 (en) | Voice processing device | |
WO2016103710A1 (en) | Voice processing device | |
JP2005195895A (en) | Noise eliminating device, speech recognition device, and car navigation device | |
JP4682344B2 (en) | Utterance position estimation method, utterance position estimation apparatus using the same, and electric wheelchair | |
JP2009216835A (en) | Sound echo canceling device, in-vehicle device and sound echo canceling method | |
JP4330302B2 (en) | Audio input / output device | |
JP4660740B2 (en) | Voice input device for electric wheelchair | |
JP5451562B2 (en) | Sound processing system and machine using the same | |
JP2009073417A (en) | Apparatus and method for controlling noise | |
JP4953095B2 (en) | Information processing device | |
JP4552034B2 (en) | Headset microphone array voice input device | |
JP4822458B2 (en) | Interface device and interface method | |
Hu et al. | Robust speaker's location detection in a vehicle environment using GMM models | |
Shon et al. | Sudden noise source localization system for intelligent automobile application with acoustic sensors | |
JP4998761B2 (en) | Electric wheelchair | |
Togami et al. | Automatic speech recognition of human-symbiotic robot EMIEW |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100715 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101208 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140114 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140114 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |