JPH11338490A - Speech recognition unit for vehicle - Google Patents

Speech recognition unit for vehicle

Info

Publication number
JPH11338490A
JPH11338490A JP10149103A JP14910398A JPH11338490A JP H11338490 A JPH11338490 A JP H11338490A JP 10149103 A JP10149103 A JP 10149103A JP 14910398 A JP14910398 A JP 14910398A JP H11338490 A JPH11338490 A JP H11338490A
Authority
JP
Japan
Prior art keywords
voice
signal
image
voice recognition
dsp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10149103A
Other languages
Japanese (ja)
Inventor
Fumio Umeda
文雄 梅田
Takao Yamamoto
敬央 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokai Rika Co Ltd
Original Assignee
Tokai Rika Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokai Rika Co Ltd filed Critical Tokai Rika Co Ltd
Priority to JP10149103A priority Critical patent/JPH11338490A/en
Publication of JPH11338490A publication Critical patent/JPH11338490A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

PROBLEM TO BE SOLVED: To eliminate the operation of a switch for starting speech recognition processing, and to enhance a speech recognition rate even in a noisy cabin. SOLUTION: A DSP 12 for an image inputs an image signal from a CCD camera 3 to operate an actual lip pattern P. The DSP 12 outputs a starring terminal signal P1 corresponding to a starting terminal t1 to a speech processor 15, based on the pattern P. A DSP 16 for a speech starts, from the starting terminal t1, speech recognition processing for a sound signal from a microphone 6 in response to the signal P1.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、車両用音声認識装
置に係り、詳しくは音声認識処理における始端、音節端
及び終端の切り出しに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device for a vehicle, and more particularly to cutting out a start end, a syllable end and an end in voice recognition processing.

【0002】[0002]

【従来の技術】近年、カーナビゲーションの普及によ
り、目的地を設定するために車両用音声認識装置が使用
されるようになった。又、ハンズフリー電話等にも電話
番号の設定をするために車両用音声認識装置が使用され
ている。従って、その音声認識率のさらなる向上が求め
られている。
2. Description of the Related Art In recent years, with the spread of car navigation, a vehicle voice recognition device has been used to set a destination. Also, a voice recognition device for a vehicle is used for setting a telephone number in a hands-free telephone or the like. Therefore, further improvement in the voice recognition rate is required.

【0003】一般に、常に音声認識処理を開始するため
に、操縦者の音声の始端を走行中の車室内のノイズの中
から切り出すことはかなり難しい。そこで、従来、車両
用音声認識装置には音声の始端を切り出すために操作部
材が設けられ、この操作部材が音声認識処理を開始する
ために操作されていた。
In general, in order to always start the voice recognition processing, it is very difficult to cut out the starting point of the voice of the driver from the noise in the cabin during traveling. Therefore, conventionally, an operation member has been provided in a vehicle voice recognition device to cut out the beginning of voice, and this operation member has been operated to start voice recognition processing.

【0004】[0004]

【発明が解決しようとする課題】しかし、これらの音声
認識装置においては、音声認識処理を起動させるスイッ
チ操作が必要であるとともに、操作部材が操作されて音
声認識処理が開始されても、すぐに音声が入力されない
ことが頻繁に発生し、音声の始端を検出することが難し
かった。これは、音声の認識率を低下させる大きな原因
となっていた。
However, in these voice recognition devices, a switch operation for starting the voice recognition process is required, and even if the operation member is operated and the voice recognition process is started, the voice recognition process is immediately performed. Frequent occurrence of no voice input has made it difficult to detect the beginning of the voice. This has been a major cause of lowering the speech recognition rate.

【0005】さらに、走行中の車室内においては、かな
りのノイズが発生する。そのため、そのノイズの中でも
音声の認識率をさらに向上させることが要求されてい
る。また、真の音声認識装置を実現するためには、音声
認識処理を開始するために操作部材を操作する作業を取
り除くことも必要である。
[0005] Further, considerable noise is generated in the cabin during traveling. Therefore, it is required to further improve the speech recognition rate even in the noise. Also, in order to realize a true voice recognition device, it is necessary to eliminate the operation of operating the operation member to start the voice recognition process.

【0006】本発明の目的は、音声認識処理を開始する
ためのスイッチ操作を取り除き、更にノイズの多い車室
内においても音声認識率を向上させることができる車両
用音声認識装置を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to provide a vehicular speech recognition apparatus which eliminates a switch operation for starting speech recognition processing and can improve the speech recognition rate even in a noisy cabin. .

【0007】[0007]

【課題を解決するための手段】上記問題点を解決するた
めに、請求項1に記載の発明は、車内に設けられたマイ
クロフォンと、そのマイクロフォンが検出した操縦者の
音声を認識する音声認識手段とからなる車両用音声認識
装置において、車内に設けられ、前記操縦者の唇を含む
顔を撮像する撮像手段と、前記撮像手段からの画像信号
を入力し、その画像信号から前記操縦者の唇の画像領域
を切り出してその時々の唇パターンを演算し、その唇パ
ターンに基づいて操縦者の会話の開始を検出し、前記音
声認識手段に対してマイクロフォンから操縦者の音声を
入力し、音声認識処理動作を開始させるための始端信号
を出力する画像認識手段とからなることを要旨とする。
According to a first aspect of the present invention, there is provided a microphone provided in a vehicle and a voice recognition means for recognizing a driver's voice detected by the microphone. An image pickup means provided in the vehicle, for picking up a face including the lips of the driver, and an image signal from the image pickup means, and the lip of the driver is obtained from the image signal. Calculates the lip pattern of each time, detects the start of the conversation of the pilot based on the lip pattern, inputs the voice of the pilot from the microphone to the voice recognition means, and performs voice recognition. The gist of the invention is that it comprises an image recognition means for outputting a start signal for starting a processing operation.

【0008】請求項2に記載の発明は、請求項1に記載
の車両用音声認識装置において、前記画像認識手段は、
前記唇パターンに基づいて操縦者の会話の開始から終了
までの音節端を検出し、音節端信号を出力するものであ
り、前記音声認識手段は、その音節端信号に基づいて前
記始端信号に応答してから操縦者の音声について、その
音節端信号に基づいて音節区分して音声認識処理を行う
ようにしたことを要旨とする。
According to a second aspect of the present invention, in the vehicle speech recognition apparatus according to the first aspect, the image recognition means includes:
Based on the lip pattern, a syllable end from the start to the end of the conversation of the pilot is detected, and a syllable end signal is output.The voice recognition means responds to the start end signal based on the syllable end signal. After that, the gist of the present invention is that voice recognition processing is performed on the voice of the operator by categorizing the syllables based on the syllable end signal.

【0009】請求項1に記載の発明によれば、画像認識
手段により、撮像手段が撮像した顔から唇パターンを演
算し、その唇パターンに基づいて操縦者の会話の開始を
検出し、始端信号を音声認識手段に出力する。音声認識
手段は、この始端信号に応答してマイクロフォンから操
縦者の音声を入力し、音声認識処理動作を開始する。
According to the first aspect of the present invention, the image recognition means calculates a lip pattern from the face imaged by the imaging means, detects the start of the conversation of the pilot based on the lip pattern, and outputs a start signal. Is output to the voice recognition means. The voice recognition means inputs the voice of the driver from the microphone in response to the start signal, and starts the voice recognition processing operation.

【0010】従って、音声認識処理をする際の音声の始
端(会話の開始)を特定するための操作部材を操作する
ことなく、確実にしかも正確に音声の始端(会話の開
始)を特定することができ、音声認識を向上させること
ができる。
[0010] Therefore, it is possible to reliably and accurately identify the beginning of speech (start of conversation) without operating an operation member for identifying the beginning of speech (start of conversation) when performing speech recognition processing. Can improve speech recognition.

【0011】請求項2に記載の発明によれば、音声認識
手段は、画像認識手段からの音節端信号に基づいて操縦
者の音声を音節区分し、音声認識処理を音節毎の短い音
声について行うため、音声認識処理が容易になる。その
結果、音声の認識率を向上させることができる。
According to the second aspect of the present invention, the voice recognizing means divides the voice of the operator into syllables based on the syllable end signal from the image recognizing means, and performs voice recognition processing on the short voice of each syllable. Therefore, the voice recognition processing becomes easy. As a result, the voice recognition rate can be improved.

【0012】[0012]

【発明の実施の形態】以下、本発明を具体化した車両用
音声認識装置の一実施形態を図1〜図3に従って説明す
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of a vehicle voice recognition apparatus embodying the present invention will be described below with reference to FIGS.

【0013】図1に示すように、車室1内の運転席側の
前方にあるピラー(Aピラー)2には撮像手段としての
CCDカメラ3が操縦者の顔にその焦点を合わせて設け
られている。
As shown in FIG. 1, a CCD camera 3 as an image pickup means is provided on a pillar (A pillar) 2 in front of a driver's seat side in a vehicle cabin 1 so as to focus on a face of a pilot. ing.

【0014】ハンドル4のパッド5上にはマイクロフォ
ン6が設けられている。このマイクロフォン6の指向性
は操縦者の口に向けられている。次に、車両に装備した
車両用音声認識装置の電気的構成を図2に示す。
A microphone 6 is provided on the pad 5 of the handle 4. The directivity of the microphone 6 is directed to the operator's mouth. Next, FIG. 2 shows an electrical configuration of the vehicle voice recognition device mounted on the vehicle.

【0015】前記CCDカメラ3は、操縦者の唇を含む
顔のビデオ画像信号を微分した画像信号を出力する。こ
の画像信号は、画像処理装置11に入力される。この画
像処理装置11は、画像認識手段としての画像用デジタ
ルシグナルプロセッサ(画像用DSP)12、データを
一時記憶する読み出し及び書き込み専用メモリ(画像用
RAM)13、読み出し専用メモリ(画像用ROM)1
4から構成されている。画像用ROM14には画像用D
SP12による高速デジタル演算を行わせるための制御
プログラムが格納されている。この制御プログラムは、
画像用DSP12内の画像用RAM13に転送されて、
画像用DSP12内で所望の画像認識処理が行われる。
The CCD camera 3 outputs an image signal obtained by differentiating the video image signal of the face including the lips of the pilot. This image signal is input to the image processing device 11. The image processing apparatus 11 includes an image digital signal processor (image DSP) 12 as image recognition means, a read-only and write-only memory (image RAM) 13 for temporarily storing data, and a read-only memory (image ROM) 1.
4. The image ROM 14 has an image D
A control program for performing high-speed digital operation by SP12 is stored. This control program
Transferred to the image RAM 13 in the image DSP 12,
Desired image recognition processing is performed in the image DSP 12.

【0016】画像用DSP12は、CCDカメラ3から
画像信号を入力し、その画像信号から操縦者の顔の輪郭
を演算している。そして、画像用DSP12は前記顔の
輪郭に外接する4角形の中心位置を演算して鼻位置とし
ている。そして、画像用DSP12は、前記鼻位置に予
め設定した距離を加えた位置を演算して唇中心位置とし
ている。
The image DSP 12 receives an image signal from the CCD camera 3 and calculates an outline of the pilot's face from the image signal. Then, the image DSP 12 calculates the center position of the quadrilateral circumscribing the contour of the face and sets it as the nose position. Then, the image DSP 12 calculates a position obtained by adding a preset distance to the nose position and sets the calculated position as the lip center position.

【0017】画像用DSP12は、前記唇中心位置を中
心とし、予め設定した領域内の画像信号を取り込み、唇
パターン(実唇パターン)Pを演算している。画像用D
SP12は、予め設定した時間間隔でその時々の前記実
唇パターンPを演算し、その時演算した実唇パターンP
とその一つ前に演算した実唇パターンPとを比較してい
る。そして、予め設定した時間の間、両実唇パターンP
に相違がなく、且つその時演算した実唇パターンPとそ
の一つ前に演算した実唇パターンPとに相違がある時、
画像用DSP12は、音声認識処理の始端t1に相対す
る始端信号P1を音声処理装置15に出力している。
The image DSP 12 fetches an image signal in a predetermined area around the lip center position and calculates a lip pattern (actual lip pattern) P. D for image
SP12 calculates the actual lip pattern P at each time at a preset time interval, and calculates the actual lip pattern P calculated at that time.
Is compared with the actual lip pattern P calculated immediately before. Then, for a preset time, both real lip patterns P
When there is no difference between the actual lip pattern P calculated at that time and the actual lip pattern P calculated immediately before,
The image DSP 12 outputs the start signal P1 corresponding to the start t1 of the voice recognition processing to the voice processing device 15.

【0018】又、画像用DSP12はその時演算した実
唇パターンPとその一つ前に演算した実唇パターンPと
に相違がある時、音声認識処理の音節端t2に相対する
音節端信号P2を音声処理装置15に出力している。
When there is a difference between the actual lip pattern P calculated at that time and the actual lip pattern P calculated immediately before the image DSP 12, the image DSP 12 outputs the syllable end signal P2 corresponding to the syllable end t2 of the voice recognition processing. It is output to the audio processing device 15.

【0019】更に、画像用DSP12は予め設定した時
間の間、演算した前記実唇パターンPに相違がな時、音
声認識処理の終端t3に相対する終端信号P3を音声処
理装置15に出力している。
Further, when there is no difference between the calculated actual lip pattern P for a preset time, the image DSP 12 outputs a termination signal P3 corresponding to the termination t3 of the speech recognition processing to the speech processing unit 15. I have.

【0020】マイクロフォン6は、操縦者の音声を音声
処理装置15に出力している。音声処理装置15は、音
声用DSP16、音声用RAM17及び音声用ROM1
8から構成されている。音声用ROM18には音声用D
SP16による高速デジタル演算を行わせるための制御
プログラムが格納されている。この制御プログラムは、
音声用DSP16内の音声用RAM17に転送され、音
声用DSP16内で所望の音声認識処理が行われる。
又、音声用ROM18には予め設定した複数の音声命令
パターンからなる複数の標準音声命令パターンが格納さ
れている。
The microphone 6 outputs the voice of the operator to the voice processing device 15. The voice processing device 15 includes a voice DSP 16, a voice RAM 17, and a voice ROM 1.
8. The voice ROM 18 has a voice D
A control program for performing high-speed digital operation by SP16 is stored. This control program
The data is transferred to the audio RAM 17 in the audio DSP 16, and a desired audio recognition process is performed in the audio DSP 16.
The voice ROM 18 stores a plurality of standard voice command patterns including a plurality of voice command patterns set in advance.

【0021】音声用DSP16は、イグニッションスイ
ッチによる車両の始動とともに前記した複数の標準音声
命令パターンを音声用DSP16内の音声用RAM17
に読み込む。
The voice DSP 16 stores the plurality of standard voice command patterns in the voice RAM 17 in the voice DSP 16 when the vehicle is started by an ignition switch.
Read in.

【0022】図3に示すように、音声用DSP16は始
端信号P1が入力されるまで音声認識処理を開始しない
待機状態となっている。音声用DSP16は、画像用D
SP12からの始端信号P1が入力されると、操縦者の
会話が開始したとして、即ち音声用DSP16は音声認
識処理のための音声の始端t1がマイクロフォン6から
入力されると判断する。そして、音声用DSP16は始
端信号P1に応答してマイクロフォン6からの音声信号
をその始端t1から音声認識処理を開始する。
As shown in FIG. 3, the voice DSP 16 is in a standby state in which the voice recognition processing is not started until the start signal P1 is input. The DSP 16 for audio is
When the start signal P1 from the SP 12 is input, it is determined that the conversation of the operator has started, that is, the voice DSP 16 determines that the voice start t1 for the voice recognition processing is input from the microphone 6. Then, the voice DSP 16 responds to the start signal P1 to start the voice recognition processing of the voice signal from the microphone 6 from the start point t1.

【0023】又、音声用DSP16は、始端信号P1に
基づいて音声認識処理を開始した後、画像用DSP12
からの音節端信号P2が入力されると、操縦者の会話に
おいて1つの音節が終了(音節端t2)し、次の音節に
移るものと判断する。そして、音声用DSP16はマイ
クロフォン6からの音声信号を音節端信号P2に応答し
てその時々の1音節に相当する区間に区切り、その区切
った音声信号について音声認識処理を行い、操縦者が会
話した実音声パターンを作成していく。即ち、音節端信
号P2に基づいて操縦者の音声は音節区分されて、音声
認識処理はその音節毎の短い音声について行われる。音
声用DSP16は演算した実音声パターンが予め設定し
た複数の標準音声命令パターンのうちのいずれか一つに
一致した時、その一致した標準音声命令パターンに相対
する制御信号を出力している。
After the voice DSP 16 starts the voice recognition process based on the start signal P1, the voice DSP 16
When the syllable end signal P2 is input, one syllable is ended (syllable end t2) in the conversation of the pilot, and it is determined that the next syllable is to be transferred. Then, the voice DSP 16 divides the voice signal from the microphone 6 into sections corresponding to one syllable at each time in response to the syllable end signal P2, performs voice recognition processing on the separated voice signal, and the pilot has a conversation. Create real voice patterns. That is, the voice of the operator is classified into syllables based on the syllable end signal P2, and the voice recognition processing is performed on the short voice of each syllable. When the calculated actual voice pattern matches any one of a plurality of preset standard voice command patterns, the voice DSP 16 outputs a control signal corresponding to the matched standard voice command pattern.

【0024】更に、音声用DSP16は画像用DSP1
2から終端信号P3が入力されると、操縦者の会話が終
了したとして、即ち音声認識処理のための音声の終端t
3がマイクロフォン6から入力されると判断する。そし
て、音声用DSP16は終端信号P3に応答してマイク
ロフォン6からその終端t3までの音声信号を入力した
後、マイクロフォン6から音声信号を入力せずに音声認
識処理を行わない待機状態となる。そして、音声用DS
P16は次の新たな始端信号P1の入力を待つ。
Further, the audio DSP 16 is an image DSP 1
When the terminal signal P3 is input from the terminal 2, it is determined that the conversation of the operator has ended, that is, the terminal t of the voice for the voice recognition process
3 is determined to be input from the microphone 6. Then, after the voice DSP 16 receives the voice signal from the microphone 6 to the terminal t3 in response to the terminal signal P3, the voice DSP 16 does not receive the voice signal from the microphone 6 and enters a standby state in which the voice recognition process is not performed. And DS for audio
P16 waits for the input of the next new start signal P1.

【0025】尚、本実施形態では、画像用DSP12が
会話開始、音節端及び会話終了をそれぞれ認識し、始端
信号P1、音節端信号P2、終端信号P3を音声用DS
P16に出力するタイミングは、マイクロフォン6から
音声用DSP16に入力される会話の開始、音節端及び
会話の終了を示す音声信号のタイミングより若干速いも
のとした。従って、音声用DSP16は遅れることなく
操縦者の音声の音声信号を入力して音声認識処理を行う
ことができる。
In this embodiment, the image DSP 12 recognizes the conversation start, the syllable end, and the conversation end, respectively, and converts the start signal P1, the syllable end signal P2, and the end signal P3 into the audio DS.
The timing of the output to P16 is slightly earlier than the timing of the audio signal indicating the start, end of the syllable, and end of the conversation input from the microphone 6 to the voice DSP 16. Therefore, the voice DSP 16 can input the voice signal of the voice of the operator without delay and perform the voice recognition process.

【0026】また、始端信号P1、音節端信号P2、終
端信号P3を音声用DSP16に出力するタイミングが
音声信号の入力するタイミングより非常に速く音声認識
処理に支障がある場合には、音声用DSP16は始端信
号P1、音節端信号P2、終端信号P3を入力した後、
一定の時間後に音声認識処理のための動作を開始しても
よい。
If the timing at which the start signal P1, the syllable end signal P2, and the end signal P3 are output to the voice DSP 16 is much faster than the timing at which the voice signal is input, and there is a problem in voice recognition processing, the voice DSP 16 After inputting the start signal P1, the syllable end signal P2, and the end signal P3,
The operation for the voice recognition process may be started after a certain time.

【0027】本実施形態の車両用音声認識装置によれ
ば、以下のような特徴を得ることができる。 (1)本実施形態では、画像用DSP12によってCC
Dカメラ3が撮像した顔から唇パターンを演算し、その
唇パターンに基づいて操縦者の会話の開始を検出し、そ
の会話の開始を示す始端信号P1を音声用DSP16に
出力する。そして、音声用DSP16はこの始端信号P
1に応答してマイクロフォン6から操縦者の音声を入力
し音声認識処理動作を開始する。
According to the voice recognition device for a vehicle of the present embodiment, the following features can be obtained. (1) In the present embodiment, the image DSP 12
The lip pattern is calculated from the face imaged by the D camera 3, the start of the conversation of the pilot is detected based on the lip pattern, and the start signal P1 indicating the start of the conversation is output to the DSP 16 for voice. Then, the DSP 16 for audio outputs the start signal P
In response to 1, the voice of the operator is input from the microphone 6 and the voice recognition processing operation is started.

【0028】従って、音声認識処理をする際の音声の始
端(会話の開始)を特定するための操作部材を操作する
ことなく、確実にしかも正確に音声の始端(会話の開
始)を特定することができ、音声の認識率を向上させこ
とができる。
Therefore, it is possible to reliably and accurately specify the beginning of the voice (start of conversation) without operating an operation member for specifying the start of voice (start of conversation) when performing voice recognition processing. And the voice recognition rate can be improved.

【0029】(2)本実施形態では、画像用DSP12
によってCCDカメラ3が撮像した顔から唇パターンを
演算し、その唇パターンに基づいて操縦者の会話におい
て1つの音節端t2を検出し、その音節端t2を示す音
節端信号P2を音声用DSP16に出力する。そして、
音声用DSP16はこの音節端信号P2に応答してマイ
クロフォン6からの操縦者の音声を音節区分し、その音
声認識処理をその音節毎の短い音声について行ってい
る。従って、音声の認識率を更に向上させることができ
る。
(2) In this embodiment, the image DSP 12
The lip pattern is calculated from the face imaged by the CCD camera 3, and one syllable end t2 is detected in the conversation of the pilot based on the lip pattern, and a syllable end signal P2 indicating the syllable end t2 is sent to the voice DSP 16. Output. And
The voice DSP 16 responds to the syllable end signal P2 to classify the voice of the operator from the microphone 6 into syllables, and performs the voice recognition processing on the short voice of each syllable. Therefore, the voice recognition rate can be further improved.

【0030】(3)本実施形態では、画像用DSP12
によってCCDカメラ3が撮像した顔から唇パターンを
演算し、操縦者の会話の終了を検出し、その会話の終了
を示す終端信号P3を音声用DSP16に出力する。そ
して、音声用DSP16はこの終端信号P3に応答して
操縦者の音声の始端t1から終端t3までの音声信号に
ついて音声認識処理を行っている。従って、音声用DS
P16は操縦者の会話の開始から終了までの音声認識の
みを行うため、音声認識率を更に向上させることができ
る。
(3) In this embodiment, the image DSP 12
A lip pattern is calculated from the face imaged by the CCD camera 3 to detect the end of the conversation of the pilot, and an end signal P3 indicating the end of the conversation is output to the DSP 16 for voice. Then, the voice DSP 16 performs voice recognition processing on the voice signal from the start t1 to the end t3 of the driver's voice in response to the end signal P3. Therefore, DS for audio
P16 performs only the voice recognition from the start to the end of the conversation of the operator, so that the voice recognition rate can be further improved.

【0031】(4)本実施形態では、音声用DSP16
は始端信号P1を入力してから終端信号P3を入力する
まで音声認識処理を行い、それ以外では音声認識処理を
行わない待機状態となる。従って、第三者の音声や車外
からのノイズ等で音声用DSP16が音声認識処理をし
てしまうことはない。その結果、第三者の音声や車外か
らのノイズ等による音声の誤認識を未然に防止すること
ができる。
(4) In this embodiment, the audio DSP 16
Performs a speech recognition process from the input of the start signal P1 to the input of the end signal P3, and otherwise enters a standby state in which the speech recognition process is not performed. Therefore, the voice DSP 16 does not perform voice recognition processing due to voice of a third party, noise from the outside of the vehicle, or the like. As a result, it is possible to prevent erroneous recognition of a voice caused by a voice of a third party or noise from outside the vehicle.

【0032】なお、本発明の実施形態は以下のように変
更してもよい。 ○ 画像処理装置11の画像用DSP12に代えて画像
用中央演算装置(CPU)に変更してもよい。
The embodiment of the present invention may be modified as follows. The image DSP 12 of the image processing apparatus 11 may be replaced with an image central processing unit (CPU).

【0033】○ 音声処理装置15の音声用DSP16
に代えて音声用中央演算装置(CPU)に変更してもよ
い。 ○ CCDカメラ3に代えて撮像管カメラを使用しても
よい。
The audio DSP 16 of the audio processor 15
May be changed to a central processing unit for voice (CPU). ○ An imaging tube camera may be used instead of the CCD camera 3.

【0034】○ 1個のCCDカメラ3に代えて複数の
CCDカメラ3を用いてもよい。この場合、複数のCC
Dカメラ3から操縦者の唇を的確にとらえている一つの
CCDカメラ3を選択し、その選択したCCDカメラ3
の画像信号を用いて唇パターンが演算される。
A plurality of CCD cameras 3 may be used instead of one CCD camera 3. In this case, multiple CCs
One CCD camera 3 that accurately captures the lips of the driver is selected from the D cameras 3 and the selected CCD camera 3
The lip pattern is calculated using the image signal of.

【0035】○ 1個のマイクロフォン6に代えて複数
のマイクロフォンを用いてもよい。この場合、各マイク
ロフォンからの音声は音声用DSP16に入力されて合
成される。
A plurality of microphones may be used instead of one microphone 6. In this case, the sound from each microphone is input to the sound DSP 16 and synthesized.

【0036】○ CCDカメラ3をAピラー2に設けた
が、インナーミラー支持部7に設けてもよい。 ○ CCDカメラ3のビデオ画像信号を微分した画像信
号を画像処理装置11に入力することに代えて、前記ビ
デオ画像信号を画像処理装置11に入力してもよい。こ
の場合、画像処理装置11内において入力した前記ビデ
オ画像信号を微分する。
Although the CCD camera 3 is provided on the A pillar 2, it may be provided on the inner mirror support 7. Instead of inputting an image signal obtained by differentiating the video image signal of the CCD camera 3 to the image processing device 11, the video image signal may be input to the image processing device 11. In this case, the video image signal input in the image processing device 11 is differentiated.

【0037】上記各別例のように構成した場合にも、前
記実施形態とほぼ同様な特徴を得ることができる。次
に、前記実施形態及び別例から把握できる請求項に記載
した発明以外の技術的思想について、それらの効果と共
に以下に記載する。
Even in the case of the configuration of each of the above-mentioned different examples, substantially the same features as those of the above embodiment can be obtained. Next, technical ideas other than the inventions described in the claims that can be grasped from the embodiment and other examples will be described below together with their effects.

【0038】(1)請求項1に記載の車両用音声認識装
置において、前記画像認識手段(12)は、前記唇パタ
ーンに基づいて操縦者の会話の終了を検出し、終端信号
(P3)を出力するものであり、音声認識手段(16)
は、その終端信号(P3)を入力し、前記始端信号(P
1)に応答してから終端信号(P3)までの間の操縦者
の音声について音声認識処理を行うようにした車両用音
声認識装置。
(1) In the voice recognition apparatus for a vehicle according to claim 1, the image recognition means (12) detects the end of the conversation of the pilot based on the lip pattern, and generates an end signal (P3). Output, voice recognition means (16)
Receives the end signal (P3) and receives the start signal (P3).
A voice recognition device for a vehicle, which performs voice recognition processing on a voice of a driver during a period from responding to 1) to an end signal (P3).

【0039】従って、この(1)に記載の発明によれ
ば、音声の認識率を向上させることができる。 (2)請求項1に記載の車両用音声認識装置において、
前記音声認識手段(16)は、画像認識手段(12)の
始端信号(P1)から終端信号P3までの間を除いて音
声認識処理を行わない待機状態であることを特徴とする
車両用音声認識装置。
Therefore, according to the invention described in (1), the speech recognition rate can be improved. (2) The vehicle voice recognition device according to claim 1,
The voice recognition means for a vehicle, wherein the voice recognition means (16) is in a standby state in which voice recognition processing is not performed except for a period from a start signal (P1) to an end signal P3 of the image recognition means (12). apparatus.

【0040】従って、この(2)に記載の発明によれ
ば、音声の誤認識を防止することができる。 (3)車内に設けられたマイクロフォン(6)と、その
マイクロフォン(6)が検出した操縦者の音声を認識す
る音声認識手段(16)とからなる車両用音声認識装置
の音声認識方法において、前記操縦者の唇を含む顔を撮
像してその画像信号から前記操縦者の唇の画像領域を切
り出し、その時々の唇パターンを演算し、その唇パター
ンに基づいて操縦者の会話の開始を検出し、その開始時
点に基づいて前記音声認識手段(16)に対してマイク
ロフォン(6)から操縦者の音声を入力し、音声認識処
理動作を行わせる車両用音声認識装置の音声認識方法。
Therefore, according to the invention described in (2), erroneous recognition of voice can be prevented. (3) A voice recognition method for a vehicular voice recognition device, comprising: a microphone (6) provided in a vehicle; and voice recognition means (16) for recognizing a driver's voice detected by the microphone (6). An image of the face including the lips of the pilot is imaged, the image area of the lips of the pilot is cut out from the image signal, the lip pattern at each time is calculated, and the start of the conversation of the pilot is detected based on the lip pattern. A voice recognition method for a vehicular voice recognition device for inputting a voice of a driver from a microphone (6) to the voice recognition means (16) based on a start time thereof and performing a voice recognition processing operation.

【0041】[0041]

【発明の効果】以上詳述したように、請求項1に記載の
発明によれば、音声の開始を特定するための操作部材を
操作することなく、音声認識手段は確実にマイクロフォ
ンからの音声を捕らえて音声認識処理を行うことができ
るため、音声の認識率を向上させることができる。
As described above in detail, according to the first aspect of the present invention, the voice recognition means can reliably output the voice from the microphone without operating the operation member for specifying the start of the voice. Since the voice recognition processing can be performed by capturing the voice, the voice recognition rate can be improved.

【0042】請求項2に記載の発明によれば、音声認識
処理が容易になる。その結果、音声の認識率を向上させ
ることができる。
According to the second aspect of the present invention, the voice recognition processing is facilitated. As a result, the voice recognition rate can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本実施形態におけるCCDカメラ及びマイク
ロフォンの配置を説明する車室の概略図。
FIG. 1 is a schematic diagram of a passenger compartment illustrating an arrangement of a CCD camera and a microphone according to an embodiment.

【図2】 本実施形態における車両用音声認識装置の電
気的構成図。
FIG. 2 is an electrical configuration diagram of the vehicle voice recognition device according to the embodiment.

【図3】 本実施形態における音声波形のタイミングチ
ャート。
FIG. 3 is a timing chart of an audio waveform in the embodiment.

【符号の説明】[Explanation of symbols]

P1…始端信号、P2…音節端信号、t2…音節端、3
…撮像手段としてのCCDカメラ、6…マイクロフォ
ン、12…画像認識手段としての画像用DSP、16…
音声認識手段としての音声用DSP。
P1: start signal, P2: syllable end signal, t2: syllable end, 3
... CCD camera as imaging means, 6 ... Microphone, 12 ... Image DSP as image recognition means, 16 ...
DSP for voice as voice recognition means.

フロントページの続き (51)Int.Cl.6 識別記号 FI G06T 1/00 G06F 15/62 380 Continuation of the front page (51) Int.Cl. 6 Identification code FI G06T 1/00 G06F 15/62 380

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 車内に設けられたマイクロフォン(6)
と、そのマイクロフォン(6)が検出した操縦者の音声
を認識する音声認識手段(16)とからなる車両用音声
認識装置において、 車内に設けられ、前記操縦者の唇を含む顔を撮像する撮
像手段(3)と、 前記撮像手段(3)からの画像信号を入力し、その画像
信号から前記操縦者の唇の画像領域を切り出してその時
々の唇パターンを演算し、その唇パターンに基づいて操
縦者の会話の開始を検出し、前記音声認識手段(16)
に対してマイクロフォン(6)から操縦者の音声を入力
し、音声認識処理動作を開始させるための始端信号(P
1)を出力する画像認識手段(12)とからなる車両用
音声認識装置。
1. A microphone (6) provided in a vehicle
And a voice recognition means (16) for recognizing the driver's voice detected by the microphone (6). An image pickup device provided in the vehicle for capturing a face including the pilot's lips. Means (3), an image signal from the image pickup means (3) is input, an image area of the lips of the pilot is cut out from the image signal, and a lip pattern at each time is calculated, based on the lip pattern. Detecting the start of the conversation of the pilot, and recognizing said voice recognition means (16)
, A pilot's voice is input from the microphone (6), and a start signal (P) for starting a voice recognition processing operation is input.
1. A vehicle voice recognition device comprising: an image recognition means (12) for outputting 1).
【請求項2】 請求項1に記載の車両用音声認識装置に
おいて、 前記画像認識手段(12)は、前記唇パターンに基づい
て操縦者の会話の開始から終了までの音節端(t2)を
検出し、音節端信号(P2)を出力するものであり、 前記音声認識手段(16)は、その音節端信号(P2)
に基づいて前記始端信号(P1)に応答してから操縦者
の音声について、その音節端信号(P2)に基づいて音
節区分して音声認識処理を行うようにした車両用音声認
識装置。
2. The vehicle speech recognition device according to claim 1, wherein the image recognition means detects a syllable end (t2) from the start to the end of the conversation of the pilot based on the lip pattern. And outputs a syllable end signal (P2). The voice recognition means (16) outputs the syllable end signal (P2).
A voice recognition device for a vehicle, which responds to the start signal (P1) based on the syllable end signal (P2) and classifies the syllable based on the syllable end signal (P2) to perform voice recognition processing.
JP10149103A 1998-05-29 1998-05-29 Speech recognition unit for vehicle Pending JPH11338490A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10149103A JPH11338490A (en) 1998-05-29 1998-05-29 Speech recognition unit for vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10149103A JPH11338490A (en) 1998-05-29 1998-05-29 Speech recognition unit for vehicle

Publications (1)

Publication Number Publication Date
JPH11338490A true JPH11338490A (en) 1999-12-10

Family

ID=15467770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10149103A Pending JPH11338490A (en) 1998-05-29 1998-05-29 Speech recognition unit for vehicle

Country Status (1)

Country Link
JP (1) JPH11338490A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264473A (en) * 2006-03-29 2007-10-11 Toshiba Corp Voice processor, voice processing method, and voice processing program
JP2017054065A (en) * 2015-09-11 2017-03-16 株式会社Nttドコモ Interactive device and interactive program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264473A (en) * 2006-03-29 2007-10-11 Toshiba Corp Voice processor, voice processing method, and voice processing program
US7801726B2 (en) 2006-03-29 2010-09-21 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for speech processing
JP2017054065A (en) * 2015-09-11 2017-03-16 株式会社Nttドコモ Interactive device and interactive program

Similar Documents

Publication Publication Date Title
CN106782585B (en) Pickup method and system based on microphone array
US6707921B2 (en) Use of mouth position and mouth movement to filter noise from speech in a hearing aid
CN108146360A (en) Method, apparatus, mobile unit and the readable storage medium storing program for executing of vehicle control
JP6531776B2 (en) Speech dialogue system and speech dialogue method
EP1493993A1 (en) Method and device for controlling a speech dialog system
CN108780644A (en) The system and method for means of transport, speech pause length for adjusting permission in voice input range
JPH1152976A (en) Voice recognition device
JP2004354930A (en) Speech recognition system
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP4410378B2 (en) Speech recognition method and apparatus
JPH11338490A (en) Speech recognition unit for vehicle
JP2017068359A (en) Interactive device and interaction control method
JPH11352987A (en) Voice recognition device
JP5377442B2 (en) System that separates speech from noise by reference information
JP2019197964A (en) Microphone control device
CN111724793A (en) Vehicle-mounted video call method and system
CN113489843A (en) Audio channel switching method and device, vehicle and storage medium
JP2000010589A (en) Onboard voice recognition device
JP6775897B2 (en) In-car conversation support device
JP7172120B2 (en) Speech recognition device and speech recognition method
JP2020122861A (en) Robot and voice processing method for robot
JP2019174757A (en) Speech recognition apparatus
JP7410754B2 (en) Audio input/output device, audio input/output method, and audio input/output program
JP2018198093A (en) Drive recorder and program for drive recorder
WO2023119771A1 (en) Voice command acceptance device, voice command acceptance method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061107