JP3919337B2 - Voice recognition device for vehicle - Google Patents
Voice recognition device for vehicle Download PDFInfo
- Publication number
- JP3919337B2 JP3919337B2 JP17341098A JP17341098A JP3919337B2 JP 3919337 B2 JP3919337 B2 JP 3919337B2 JP 17341098 A JP17341098 A JP 17341098A JP 17341098 A JP17341098 A JP 17341098A JP 3919337 B2 JP3919337 B2 JP 3919337B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- delay time
- microphones
- audio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、車両用音声認識装置に係り、詳しくは操縦者の音声検出に関するものである。
【0002】
【従来の技術】
近年、カーナビゲーションの普及に伴って目的地の設定するため等に車両用音声認識装置が使われるようになった。また、ハンズフリー電話機などにおいても車両用音声認識装置が電話番号の設定等に使用されている。
【0003】
一般に、走行中の車室内おいては、助手席や後部席の会話、カーオーディオからの音又は窓を開けた場合の車外からの騒音などよるノイズが存在するため、音声認識装置の音声認識率はあまりよくないのが現状である。
【0004】
そこで、これらのノイズを取り除いて、操縦者の音声だけを検出する装置の改善が行われている。
従来の車両用音声認識装置において、ステアリングパッドには操縦者の音声を認識するためにマイクロフォンが設けられている。このマイクロフォンは、操縦者のみの音声を検出するためにかなり鋭い指向性を備えているとともに、その指向性の方向は操縦者の唇に向けられている。
【0005】
【発明が解決しようとする課題】
ところが、指向性が鋭いために操縦者の姿勢によっては、その指向性の方向が操縦者の唇位置から容易に外れてしまい、安定した音声が入力されないのが現状である。
【0006】
そこで、車室内のノイズの中でも、操縦者の音声を安定して音声認識装置に入力できることが要求されている。
本発明の目的は、ノイズの多い車室内において、操縦者の音声を安定して入力することができる車両用音声認識装置を提供することにある。
【0007】
【課題を解決するための手段】
上記問題点を解決するために、請求項1に記載の発明は、車内に設けられた複数のマイクロフォンと、その複数のマイクロフォンが検出した音声信号に基づいて操縦者の音声を認識する音声認識手段を備えた車両用音声認識装置において、前記複数のマイクロフォンは、ステアリングホイールに設けられるとともに、複数のマイクロフォンの音声信号を合成した合成音声信号を最大とする遅延時間をステアリング遅延時間と規定し、予め設定した操縦者の唇位置において、ステアリングホイールの回動位置に相対するステアリング遅延時間を記憶する記憶手段と、前記ステアリングホイールの回動位置を検出する回動位置検出手段の出力信号に基づいてステアリングホイールの回動位置を演算し、前記記憶手段の記憶内容を参照してその時のステアリングホイールの回動位置に相対するステアリング遅延時間を設定する遅延時間演算手段と、前記複数のマイクロフォンの少なくともいずれか一つの音声信号を、前記遅延時間演算手段により設定されたステアリング遅延時間だけ他のマイクロフォンの音声信号より遅延して前記複数のマイクロフォンの音声信号を合成する遅延音声合成手段とを備えたことを要旨とする。
【0015】
請求項1に記載の発明によれば、遅延時間演算手段は、ステアリングホイールの回動位置を検出するための回動位置検出手段の出力信号に基づいてステアリングホイールの回動位置を演算し、その時のステアリングホイールの回動位置において、複数のマイクロフォンの少なくとも一つの音声信号を予め設定した操縦者の唇位置において遅延し、前記マイクロフォンの音声信号と他のマイクロフォンの音声信号を合成した合成音声信号を最大にする遅延時間をステアリング遅延時間に設定している。
【0016】
そして、遅延音声合成手段は、前記複数のマイクロフォンの少なくともいずれか一つの音声信号を前記ステアリング遅延時間だけ他のマイクロフォンの音声信号より遅延し、前記複数のマイクロフォンの音声信号を合成しているので、その合成された音声信号は操縦者の唇位置の方向からの音声を最もよく抽出することができる。
【0017】
従って、ステアリングホイールが回動されても、音声認識手段には操縦者の音声が常に安定して供給される。その結果、音声認識手段は前記合成音声信号に基づいて音声認識を行うため、音声認識率を向上させることができる。
【0021】
【発明の実施の形態】
(第1の実施形態)
以下、本発明を具体化した車両用音声認識装置の一実施形態を図1〜図4に従って説明する。
【0022】
図1に示すように、車室1内の運転席側の前方にあるピラー(Aピラー)2には撮像手段としてのCCDカメラ3が操縦者の顔にその焦点を合わせて設けられている。
【0023】
図2は、運転席から見た左右方向に回動操作されていない状態(中立状態)のステアリングホイール4を示す。ステアリングホイール4の周縁部には第1及び第2マイクロフォン5,6が離間して設けられている。そして、本実施形態では両マイクロフォン5,6はその間隔が34センチメートルとなるようにステアリングホイール4に設置されている。
図3は、上記のように構成された車両用音声認識装置の電気的構成を示す。
【0024】
CCDカメラ3は、操縦者の顔の唇を含んだ画像信号(ビデオ信号)を出力する。この画像信号は、画像処理装置11に入力される。この画像処理装置11は、唇位置演算手段としての画像用デジタルシグナルプロセッサ(画像用DSP)12、データを一時記憶する読み出し及び書き込み専用メモリ(画像用RAM)13、読み出し専用メモリ(画像用ROM)14及び高域フィルタ15から構成されている。画像用ROM14には画像用DSP12による高速デジタル演算を行わせるための制御プログラムが格納されている。この制御プログラムは、画像用DSP12内の画像用RAM13に転送されて、画像用DSP12内で所望の画像認識処理が行われる。
【0025】
高域フィルタ15は、入力した画像信号を微分して微分画像信号を出力する。画像用DSP12は、高域フィルタ15から微分画像信号を入力し、操縦者の顔の輪郭を演算している。画像用DSP12は、前記顔の輪郭に外接する4角形の中心位置を演算して鼻位置としている。そして、画像用DSP12は前記鼻位置に予め設定した距離を加えて唇位置を演算している。画像用DSP12は、前記唇位置に相対する唇位置信号P1を音声処理装置16に出力する。
【0026】
第1及び第2マイクロフォン5,6は、操縦者の音声を音声処理装置16に出力する。音声処理装置16は、遅延時間演算手段、遅延音声合成手段及び音声認識手段としての音声用DSP17、音声用RAM18及び音声用ROM19から構成されている。音声用ROM19には音声用DSP17による高速デジタル演算を行わせるための制御プログラムが格納されている。この制御プログラムは、音声用DSP16内の音声用RAM17に転送され、音声用DSP16内で所望の音声認識処理が行われる。又、音声用ROM19には予め設定した複数の音声命令パターンからなる複数の標準音声命令パターンが格納されている。更に、音声用ROM19には、運転席に座った時の操縦者の各唇位置(唇位置信号P1)に対する遅延時間τのデータが格納されている。
【0027】
前記遅延時間τは、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より遅延させるための時間である。そして、第2マイクロフォン6の音声信号は音声用DSP17内でこの遅延時間τだけ遅延される。第1マイクロフォン5の音声信号は前記遅延時間τだけ遅延した第2マイクロフォン6の音声信号と音声用DSP17内で合成されて合成音声信号となる。つまり、第1マイクロフォン5と第2マイクロフォン6を1つのマイクロフォンとして考えた場合の指向性は、第1マイクロフォン5と第2マイクロフォン6のいずれか一方の音声信号を遅延させて合成させることによって変化することが知られている。従って、操縦者の音声を最も感度のよく集音することのできるマイクロフォンの指向性は、第2マイクロフォン6の音声信号を操縦者のその時々の唇位置にあわせた遅延時間τで遅延させることによって設定することができる。
【0028】
図4(a)は、音声信号の周波数1000ヘルツのときの周期をT(=0.001秒)、その波長をλ、第1及び第2マイクロフォン5,6間の距離をλ/2(=34センチメートル)とした場合の遅延時間τ(=T/2=0.0005秒)における前記合成音声信号の指向性特性を示す。遅延時間τをT/2とすると、図4(a)に示すように、前記遅延時間τ(=T/2=0.0005秒)における前記合成音声信号は0度及び180度の方向からの操縦者の音声を最もよく抽出している。つまり、このT/2の遅延時間τは、図2に示す状態にあるステアリングホイール4に対して操縦者の唇位置が真正面にある時、第1及び第2マイクロフォン5,6が操縦者の音声に対して最も優れた指向性を得る時間である。
【0029】
同様に、図4(b)は遅延時間τ(=T/3≒0.0003秒)における前記合成音声信号の指向性特性を示す。遅延時間τをT/3とすると、図4(b)に示すように、前記遅延時間τ(=T/3≒0.0003秒)における前記合成音声信号は340度及び200度の方向からの操縦者の音声を最もよく抽出している。つまり、このT/3の遅延時間τは、図2に示す状態にあるステアリングホイール4に対して操縦者の唇位置が真正面から左側に20度傾けた位置にある時、第1及び第2マイクロフォン5,6が操縦者の音声に対して最も優れた指向性を得る時間である。
【0030】
同様に、図4(c)は遅延時間τ(=3T/5=0.0006秒)における前記合成音声信号の指向性特性を示す。遅延時間τを3T/5とすると、図4(c)に示すように、前記遅延時間τ(=3T/5=0.0006秒)における前記合成音声信号は10度及び170度の方向からの操縦者の音声を最もよく抽出している。つまり、この3T/5の遅延時間τは、図2に示す状態にあるステアリングホイール4に対して操縦者の唇位置が真正面から右側に10度傾けた位置にある時、第1及び第2マイクロフォン5,6が操縦者の音声に対して最も優れた指向性を得る時間である。
【0031】
従って、音声用ROM19に記憶された各マイクロフォン5,6に対する各唇位置の遅延時間τは、合成音声信号がその時々の唇位置で操縦者が音声を発した時における最も優れた指向性特性で得られるようにした時間である。
【0032】
音声用DSP17は、イグニッションスイッチによる車両の始動とともに前記した複数の標準音声命令パターン及び遅延時間τデータを音声用DSP17内の音声用RAM18に読み込む。
【0033】
音声用DSP17は、画像用DSP12から唇位置信号P1を入力し、前記唇位置信号P1に基づいてその時の唇位置に対する遅延時間τを音声用RAM17から読み出す。
【0034】
音声用DSP17は、第1及び第2マイクロフォン5,6からの音声信号を入力し、音声用DSP17は前記遅延時間τに基づいて第2マイクロフォン6の音声信号を遅延する。
【0035】
音声用DSP17は、第1及び第2マイクロフォン5,6からのそれぞれの音声信号を合成する。音声用DSP17は、両マイクロフォン5,6のその合成音声信号に基づいて音声認識を開始し、音声パターン(実音声パターン)を演算する。そして、音声用DSP17は前記実音声パターンが予め設定した複数の標準音声命令パターンのうちのいずれか一つに一致した時、その一致した標準音声命令パターンに相対する制御信号を出力する。
【0036】
今、例えば操縦者の唇位置が0度の位置にある場合、画像用DSP12は唇位置(=0度)に相対する唇位置信号P1を出力する。音声用DSP17はその唇位置信号P1に基づいてその時の唇位置に対する遅延時問τ(=T/2)を音声用RAM17から読み出す。そして、音声用DSP17は第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より前記遅延時間τ(=T/2)だけ遅延させて第1及び第2マイクロフォン5,6の音声信号を合成する。従って、図4(a)に示すように、その合成音声信号は、操縦者の唇位置の方向(=0度)からの音声が最もよく抽出している。
【0037】
上記実施形態の車両用音声認識装置によれば、以下のような特徴を得ることができる。
(1)本実施形態においては、音声用DSP17は、各マイクロフォン5,6に対する操縦者の唇位置に基づいて第2マイクロフォン6の音声信号を遅延させる遅延時間τを演算している。そして、音声用DSP17は第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より前記遅延時間τだけ遅延して第1及び第2マイクロフォン5,6の音声信号を合成している。このように合成した合成音声信号においては、操縦者の唇位置からの方向からの音声が最もよく抽出されている。
【0038】
従って、音声用DSP17には操縦者の唇位置が変化しても操縦者の音声が常に安定して供給される。その結果、音声用DSP17は前記合成音声信号に基づいて音声認識を行うため、音声認識率を向上させることができる。
【0039】
(2)本実施形態においては、運転席に座って音声を発する操縦者の顔をCCDカメラ3で撮像し、画像用SDP12にてその操縦者の唇位置を認識するようにした。従って、操縦者が常にどちらに向いて音声を発しているか正確に検出することができる。
【0040】
(第2の実施形態)
以下、本発明を車両用音声認識装置に具体化した第2の実施形態を図5に従って説明する。
【0041】
本実施形態の構成は、第1の実施形態の車両用音声認識装置のCCDカメラ3及び画像処理装置11に代えてステアリング角度センサ20を設けた点において第1の実施形態と異なる。
【0042】
図示しないステアリングシャフトにはステアリングホイール4の回動位置を検出する回動位置検出手段としての図示しないステアリング角度センサ20が設けられている。前記ステアリング角度センサ20は、光学式のロータリエンコーダより構成されている。
【0043】
図5は、その車両用音声認識装置の電気的構成を示す。
第1及び第2マイクロフォン5,6は、操縦者の音声を音声処理装置16に出力する。
【0044】
音声処理装置16は、遅延時間演算手段、遅延音声合成手段及び音声認識手段としての音声用DSP17、音声用RAM18及び音声用ROM19から構成されている。音声用ROM19には音声用DSP17による高速デジタル演算を行わせるための制御プログラムが格納されている。この制御プログラムは、音声用DSP17内の音声用RAM18に転送され、音声用DSP17内で所望の音声認識処理が行われる。又、音声用ROM19には予め設定した複数の音声命令パターンからなる複数の標準音声命令パターンが格納されている。更に、音声用ROM19には予め設定した操縦者の一つの唇位置において、ステアリングホイール4の複数の回動位置にそれぞれ関連付けて予め設定した複数のステアリング遅延時間τsのデータが格納されている。
【0045】
前記ステアリング遅延時間τsは、第2マイクロフォン6の音声信号を遅延させるための時間である。又、前記複数のステアリング遅延時間τsはその時々のステアリングホイール4の回動位置において、第1及び第2マイクロフォン5,6の音声信号を合成した合成音声信号を最大にする遅延時間である。
【0046】
イグニッションスイッチによる車両の始動とともに前記した複数の標準音声命令パターン及び前記遅延時間τのデータが音声用DSP17内の音声用RAM18に読み込まれる。
【0047】
前記ステアリング角度センサ20は、ステアリングホイール4の回動位置に相対する信号を出力する。
音声用DSP17は、前記ステアリング角度センサ20からの信号を入力して、ステアリングホイール4の回動位置を演算してその回動位置に相対するステアリング遅延時間τsを音声用RAM18から読み込む。そして、音声用DSP17は前記回動位置において両マイクロフォン5,6の音声信号を入力し、音声用DSP17内において第2マイクロフォン6の音声信号を前記遅延時間τsを用いて第1マイクロフォン5の音声信号より遅延し、両マイクロフォン5,6の音声信号を合成して合成音声信号を生成する。
【0048】
そして、音声用DSP17は両マイクロフォン5,6の前記合成音声信号に基づいて音声認識を開始し、実音声パターンを演算し、前記実音声パターンが予め設定した複数の標準音声命令パターンのうちのいずれか一つに一致した時、その一致した標準音声命令パターンに相対する制御信号を出力する。
【0049】
今、操縦者の予め定めた一つの唇位置において、音声用DSP17はステアリング角度センサ20からの信号を入力して、ステアリングホイール4の回動位置を演算している。音声用DSP17は、前記回動位置に相対するステアリング遅延時間τsを音声用RAM18から読み出す。そして、音声用DSP17は前記回動位置において、両マイクロフォン5,6の音声信号を入力し、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より前記遅延時間τsだけ遅延して両マイクロフォン5,6の音声信号を合成して合成音声信号を生成している。
【0050】
従って、前記合成音声信号は前記回動位置において、操縦者の唇位置の方向からの音声を最もよく抽出している。
次に、ステアリングホイール4が回動させられると、音声用DSP17はステアリング角度センサ20からの信号を入力して、その時のステアリングホイール4の回動位置を演算している。音声用DSP17は、前記回動位置に相対するステアリング遅延時間τsを音声用RAM18から読み出す。そして、音声用DSP17は前記回動位置において、両マイクロフォン5,6の音声信号を入力し、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より前記遅延時間τsだけ遅延して両マイクロフォン5,6の音声信号を合成して合成音声信号を生成している。
【0051】
従って、前記合成音声信号はステアリング操作時の前記回動位置においても、操縦者の唇位置の方向からの音声を最もよく抽出している。つまり、音声用DSP17はステアリングホイール4が回動したときにも操縦者の唇位置の方向からの音声を最もよく抽出することができる。
【0052】
本実施形態によれば、以下のような特徴を得ることができる。
(1)音声用DSP17は、ステアリング角度センサ20からの信号を入力して、ステアリングホイール4の回動位置を演算している。音声用DSP17は、前記回動位置に相対するステアリング遅延時間τsを音声用RAM18から読み込む。そして、音声用DSP17は前記回動位置において、両マイクロフォン5,6の音声信号を入力し、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より前記遅延時間τsだけ遅延して両マイクロフォン5,6の音声信号を合成して合成音声信号を生成している。
【0053】
このように生成された前記合成音声信号は、予め設定した操縦者の一つの唇位置において、ステアリングホイール4のその時々の回動位置で操縦者の唇位置の方向からの音声を最もよく抽出している。
【0054】
従って、音声用DSP17にはステアリングホイール4が回動しても操縦者の音声が常に安定して供給される。その結果、音声用DSP17は音声認識率を向上させることができる。
【0055】
(2)本実施形態では、第1の実施形態のようなCCDカメラ3及び画像用DSP12が不要なため、コストダウンを図ることができる。
(第3の実施形態)
以下、本発明を車両用音声認識装置に具体化した第3の実施形態を図6に従って説明する。
【0056】
本実施形態の構成は、第2の実施形態の車両用音声認識装置からステアリング角度センサ20を取り除いたものである。
第1及び第2マイクロフォン5,6は、操縦者の音声を音声処理装置16に出力する。
【0057】
音声処理装置16は、遅延時間演算手段、遅延音声合成手段及び音声認識手段としての音声用DSP17、音声用RAM18及び音声用ROM19から構成されている。音声用ROM19には音声用DSP17による高速デジタル演算を行わせるための制御プログラムが格納されている。この制御プログラムは、音声用DSP17内の音声用RAM18に転送され、音声用DSP17内で所望の音声認識処理が行われる。又、音声用ROM19には予め設定した複数の音声命令パターンからなる複数の標準音声命令パターンが格納されている。
【0058】
操縦者の音声を出力する第1マイクロフォン5の音声信号と遅延時間τで遅延した第2マイクロフォン6の音声信号を合成すると、第1及び第2マイクロフォンの合成音声信号は指向性を備え、その指向性は前記遅延時間τの値によって変化するため、その合成音声信号も変化することが知られている。従って、前記合成音声信号が最大となる遅延時間τを演算してその遅延時間τを第2マイクロフォン6の遅延時間τに設定することによって操縦者の唇位置からの音声を最もよく抽出することができる。
【0059】
イグニッションスイッチによる車両の始動とともに前記した複数の標準音声命令パターンが音声用DSP17内の音声用RAM18に読み込まれる。
音声用DSP17は、第1及び第2マイクロフォン5,6の音声信号を入力し、遅延時間τを予め設定した範囲内で順次変化させ、音声用DSP17内において第2マイクロフォン6の音声信号を種々の遅延時間τで第1マイクロフォン5の音声信号より遅延する。そして、音声用DSP17はそれぞれの遅延時間τにおいて、両マイクロフォン5,6の音声信号を合成して合成音声信号を生成する。そして、音声用DSP17はそれらの合成音声信号をそれぞれ比較して、前記合成音声信号が最大となる時の遅延時間τ(=τm)を演算する。
【0060】
音声用DSP17は、遅延時間τを演算した前記遅延時間τmに設定して第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より遅延時間τmだけ遅延し、両マイクロフォン5,6の音声信号を合成して合成音声信号を生成する。
【0061】
そして、音声用DSP17は両マイクロフォン5,6の前記合成音声信号に基づいて音声認識を開始し、実音声パターンを演算し、前記実音声パターンが予め設定した複数の標準音声命令パターンのうちのいずれか一つに一致した時、その一致した標準音声命令パターンに相対する制御信号を出力する。
【0062】
本実施形態によれば、以下のような特徴を得ることができる。
(1)本実施形態においては、音声用DSP17は第1及び第2マイクロフォン5,6から音声信号を入力し、遅延時間τを予め設定した範囲内で順次変化させ、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より遅延時間τだけ遅延して第1及び第2マイクロフォン5,6の音声信号を合成して合成音声信号を生成している。そして、音声用DSP17は前記合成音声信号が最大となる遅延時間τmを演算している。即ち、前記遅延時間τmは操縦者の音声を最もよく抽出する値に設定される。
【0063】
そして、音声用DSP17は、第2マイクロフォン6の音声信号を第1マイクロフォン5の音声信号より遅延時間τmだけ遅延して両マイクロフォン5,6の音声信号を合成しているので、操縦者の音声は操縦者の唇位置に関わらず、その唇位置の方向からの音声を最もよく抽出することができる。
【0064】
従って、両マイクロフォン5,6の指向性は、常に操縦者の唇位置の方向を向くため、操縦者の音声が常に安定して供給される。その結果、音声用DSP17は前記合成音声信号に基づいて音声認識を行うため、音声認識率を向上させることができる。
【0065】
(2)本実施形態では、第3の実施形態のようなCCDカメラ3及び画像用DSP12や第2の実施形態のようなステアリング角度センサ20が不要なため、コストダウンを図ることができる。
【0066】
尚、本発明の実施形態は以下のように変更してもよい。
○第1の実施形態において、CCDカメラ3に代えて撮像管を用いてもよい。○第1の実施形態において、一つのCCDカメラ3に代えて複数のCCDカメラ3を用いてもよい。この場合、複数のCCDカメラ3のうち操縦者の唇を的確にとらえている一つのCCDカメラ3の画像信号が、画像用DSP12内において選択され、画像用DSP12はその選択された画像信号に基づいて操縦者の唇位置を演算する。
【0067】
○第1の実施形態において、Aピラー2にCCDカメラ3を設けたが、操縦者の顔の画像を得られる車室1内ならCCDカメラ3をどこに設けてもよい。
○第1の実施形態において、周期Tは0.001秒としたが、音声周波数の領域(数ヘルツ〜20キロヘルツ)の周波数の周期であればどの数値でもよい。
【0068】
○第2の実施形態において、ステアリングホイール4の回動位置を検出するために光学式のロータリエンコーダを用いたが、これを磁気式のロータリエンコーダに変更してもよい。
【0069】
○第2の実施形態において、音声用ROM19には予め設定した操縦者の一つの唇位置におけるステアリングホイール4の複数の回動位置に関連付け、予め設定した複数のステアリング遅延時間τsからなる遅延時間τのデータを格納したが、操縦者の複数の唇位置において、ステアリングホイール4の複数の回動位置に関連付け、予め設定した複数のステアリング遅延時間τsからなる遅延時間τのデータを格納してもよい。
【0070】
○第1から第3の実施形態において、第1及び第2マイクロフォン5,6に加えて、ステアリングパッド4に更に一つ以上のマイクロフォンを設けてもよい。
このように構成した場合、音声用DSP17は追加されたマイクロフォンの音声信号を遅延させるための各遅延時間τを演算し、前記各遅延時間τだけ各マイクロフォンの音声信号を遅延させた後、各マイクロフォンの音声信号を合成する。
【0071】
○前記各実施形態では、第1マイクロフォン5と第2マイクロフォン6の2個用いて実施したが、3個、4個又はそれ以上用いて実施してもよい。
○前記各実施形態では、第1及び第2マイクロフォン5,6は、ステアリングホイール4に設置したが、ステアリングホイール4以外の例えばインパネ等のその他の箇所に設置してもよい。
【0072】
○上記各実施形態において、画像用DSP12又は音声用DSP17の少なくともいずれか一方を中央演算処理装置(CPU)に代えてもよい。
上記各別例のように構成した場合にも、前記各実施形態にほぼ同様の特徴を得ることができる。
【0073】
次に、前記各実施形態及び別例から把握できる請求項に記載した発明以外の技術的思想について、それらの効果と共に以下に記載する。
(1)車内に設けられた複数のマイクロフォンと、その複数のマイクロフォンが検出した操縦者の音声を認識する音声認識手段とからなる車両用音声認識装置の音声検出方法において、
前記操縦者の唇位置に基づいて前記複数のマイクロフォンの少なくともいずれか一つの音声信号を遅延するための遅延時間(τ)を演算し、前記複数のマイクロフォンの少なくともいずれか一つの音声信号を前記遅延時間(τ)だけ他のマイクロフォンの音声信号より遅延し、前記複数のマイクロフォンの音声信号を合成して操縦者の音声を検出する車両用音声認識装置の音声検出方法。
【0074】
この場合、音声認識手段には操縦者の音声が常に安定して供給される。その結果、音声認識手段は前記合成音声信号に基づいて音声認識を行うため、音声認識率を向上させることができる。
【0075】
【発明の効果】
以上詳述したように、請求項1に記載の発明によれば、ステアリングホイールが回動されても、音声認識手段には操縦者の音声が常に安定して供給される。その結果、音声認識手段は前記合成音声信号に基づいて音声認識を行うため、音声認識率を向上させることができる。
【図面の簡単な説明】
【図1】 CCDカメラ及びマイクロフォンの配置を説明するための車室内の概略図。
【図2】 マイクロフォンの配置を説明するステアリングパッドの概略図。
【図3】 第1の実施形態における車両用音声認識装置の電気的構成図。
【図4】 両マイクロフォンの合成音声信号の指向性特性図であり、(a)は遅延時間(=T/2)の場合、(b)は遅延時間(=T/3)の場合、(c)は遅延時間(=3T/5)場合を示す。
【図5】 第2の実施形態における車両用音声認識装置の電気的構成図。
【図6】 第3の実施形態における車両用音声認識装置の電気的構成図。
【符号の説明】
τ,τm…遅延時間、τs…ステアリング遅延時間、P1…唇位置信号、3…撮像手段、4…ステアリングホイール、5…マイクロフォンとしての第1マイクロフォン、6…マイクロフォンとしての第2マイクロフォン、12…唇位置演算手段としての画像用DSP、17…音声認識手段、遅延音声合成手段、遅延時間演算手段としての音声用DSP、20…回動位置検出手段としてのステアリング角度センサ。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a vehicle voice recognition apparatus, and more particularly to detection of a driver's voice.
[0002]
[Prior art]
In recent years, with the spread of car navigation, a vehicle voice recognition device has been used to set a destination. Further, in a hands-free telephone or the like, a vehicular voice recognition device is used for setting a telephone number.
[0003]
In general, in a running vehicle interior, there are noises such as conversations in the front passenger seat and rear seats, sound from car audio, or noise from outside the vehicle when a window is opened. Is currently not good.
[0004]
In view of this, improvements have been made to devices that remove these noises and detect only the voice of the operator.
In a conventional vehicle voice recognition device, the steering pad is provided with a microphone for recognizing the voice of the driver. This microphone has a fairly sharp directivity for detecting the voice of the driver only, and the direction of the directivity is directed to the pilot's lips.
[0005]
[Problems to be solved by the invention]
However, since the directivity is sharp, the direction of the directivity easily deviates from the position of the lips of the pilot depending on the attitude of the pilot, and stable voice is not input at present.
[0006]
So, in the noise in the passenger compartment Also, It is required that the voice of the operator can be stably input to the voice recognition device.
It is an object of the present invention to be installed in a noisy vehicle interior. And An object of the present invention is to provide a vehicle voice recognition device capable of stably inputting a voice of a driver.
[0007]
[Means for Solving the Problems]
In order to solve the above problem, the invention according to claim 1 is a voice recognition means for recognizing a driver's voice based on a plurality of microphones provided in the vehicle and a voice signal detected by the plurality of microphones. In the vehicle speech recognition apparatus comprising: the plurality of microphones. Is , Steering wheel Le As well as Steering delay time is defined as the maximum delay time of the synthesized speech signal composed of multiple microphones, and the steering delay time relative to the turning position of the steering wheel is stored at the preset lip position of the driver. Storage means for Based on the output signal of the rotational position detecting means for detecting the rotational position of the steering wheel, the rotational position of the steering wheel is calculated, With reference to the storage contents of the storage means At the turning position of the steering wheel at that time Opposite Steering delay time The Delay time calculation to set Stepped Delayed voice for synthesizing voice signals of the plurality of microphones by delaying at least one voice signal of the plurality of microphones from a voice signal of another microphone by a steering delay time set by the delay time calculation means Synthetic hand Stepped The main point is that
[0015]
According to the invention of claim 1, The delay time calculation means calculates the rotation position of the steering wheel based on the output signal of the rotation position detection means for detecting the rotation position of the steering wheel, and at the rotation position of the steering wheel at that time, a plurality of At least one audio signal from the microphone In the pilot's lip position set in advance A delay time for maximizing a synthesized voice signal that is delayed and synthesized from the voice signal of the microphone and the voice signal of another microphone is set as the steering delay time.
[0016]
And The delayed speech synthesizer is configured to add at least one speech signal of the plurality of microphones to the steering delay time. The ma Since the voice signals of the plurality of microphones are synthesized after being delayed from the voice signal of the microphone, the synthesized voice signal can best extract the voice from the direction of the lip position of the pilot.
[0017]
Therefore, even if the steering wheel is rotated, the voice of the driver is always stably supplied to the voice recognition means. As a result, since the speech recognition means performs speech recognition based on the synthesized speech signal, the speech recognition rate can be improved.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
DESCRIPTION OF EMBODIMENTS Hereinafter, an embodiment of a vehicle voice recognition device embodying the present invention will be described with reference to FIGS.
[0022]
As shown in FIG. 1, a pillar (A pillar) 2 in front of a driver's seat in a passenger compartment 1 is provided with a
[0023]
FIG. 2 shows the steering wheel 4 in a state where it is not rotated in the left-right direction as viewed from the driver seat (neutral state). First and
FIG. 3 shows an electrical configuration of the vehicle speech recognition apparatus configured as described above.
[0024]
The
[0025]
The high-
[0026]
The first and
[0027]
The delay time τ is a time for delaying the audio signal of the
[0028]
FIG. 4 (a) shows the period when the frequency of the audio signal is 1000 Hz as T (= 0.001 second), its wavelength as λ, and the distance between the first and
[0029]
Similarly, FIG. 4B shows the directivity characteristics of the synthesized speech signal at the delay time τ (= T / 3≈0.0003 seconds). Assuming that the delay time τ is T / 3, as shown in FIG. 4B, the synthesized speech signal at the delay time τ (= T / 3≈0.0003 seconds) is from 340 degrees and 200 degrees. The voice of the pilot is extracted best. That is, the delay time τ of T / 3 is the first and second microphones when the operator's lip position is tilted 20 degrees from the front to the left with respect to the steering wheel 4 in the state shown in FIG.
[0030]
Similarly, FIG. 4C shows the directivity characteristics of the synthesized speech signal at the delay time τ (= 3T / 5 = 0.006 seconds). Assuming that the delay time τ is 3T / 5, as shown in FIG. 4C, the synthesized speech signal in the delay time τ (= 3T / 5 = 0.006 seconds) is from 10 degrees and 170 degrees. The voice of the pilot is extracted best. That is, the delay time τ of 3T / 5 is the first and second microphones when the operator's lip position is tilted 10 degrees from the front to the right with respect to the steering wheel 4 in the state shown in FIG.
[0031]
Therefore, the delay time τ of each lip position with respect to each of the
[0032]
The
[0033]
The
[0034]
The
[0035]
The
[0036]
Now, for example, when the lip position of the driver is at a 0 degree position, the
[0037]
According to the vehicle voice recognition apparatus of the above embodiment, the following features can be obtained.
(1) In the present embodiment, the
[0038]
Therefore, the voice of the pilot is always stably supplied to the
[0039]
(2) In the present embodiment, the face of the driver who sits in the driver's seat and emits sound is imaged by the
[0040]
(Second Embodiment)
A second embodiment in which the present invention is embodied in a vehicle voice recognition device will be described below with reference to FIG.
[0041]
The configuration of this embodiment is different from that of the first embodiment in that a
[0042]
A steering shaft (not shown) is provided with a steering angle sensor 20 (not shown) as a turning position detecting means for detecting the turning position of the steering wheel 4. The
[0043]
FIG. 5 shows the electrical configuration of the vehicle speech recognition apparatus.
The first and
[0044]
The
[0045]
The steering delay time τs is a time for delaying the audio signal of the
[0046]
As the vehicle is started by the ignition switch, the plurality of standard voice command patterns and the data of the delay time τ are read into the
[0047]
The
The
[0048]
The
[0049]
Now, the
[0050]
Therefore, the synthesized voice signal best extracts the voice from the direction of the lips position of the driver at the turning position.
Next, when the steering wheel 4 is rotated, the
[0051]
Therefore, the synthesized voice signal best extracts the voice from the direction of the operator's lip position even at the turning position during the steering operation. That is, the
[0052]
According to this embodiment, the following features can be obtained.
(1) The
[0053]
The synthesized voice signal generated in this way best extracts the voice from the direction of the operator's lip position at the occasional turning position of the steering wheel 4 at one preset lip position of the operator. ing.
[0054]
Therefore, the
[0055]
(2) In this embodiment, since the
(Third embodiment)
A third embodiment in which the present invention is embodied in a vehicle voice recognition device will be described below with reference to FIG.
[0056]
The configuration of the present embodiment is obtained by removing the
The first and
[0057]
The
[0058]
When the voice signal of the
[0059]
As the vehicle is started by the ignition switch, the plurality of standard voice command patterns are read into the
The
[0060]
The
[0061]
The
[0062]
According to this embodiment, the following features can be obtained.
(1) In the present embodiment, the
[0063]
The
[0064]
Accordingly, the directivity of the
[0065]
(2) In this embodiment, since the
[0066]
In addition, you may change embodiment of this invention as follows.
In the first embodiment, an imaging tube may be used instead of the
[0067]
In the first embodiment, the
In the first embodiment, the period T is set to 0.001 seconds, but any numerical value may be used as long as it is a frequency period in the audio frequency range (several hertz to 20 kilohertz).
[0068]
In the second embodiment, an optical rotary encoder is used to detect the rotational position of the steering wheel 4, but this may be changed to a magnetic rotary encoder.
[0069]
In the second embodiment, the
[0070]
In the first to third embodiments, one or more microphones may be further provided on the steering pad 4 in addition to the first and
In this configuration, the
[0071]
In each of the above embodiments, the
In each of the above embodiments, the first and
[0072]
In each of the above embodiments, at least one of the
Even when configured as in each of the above examples, substantially the same features can be obtained in the above embodiments.
[0073]
Next, technical ideas other than the invention described in the claims that can be grasped from the respective embodiments and other examples will be described below together with their effects.
(1) In a voice detection method for a vehicle voice recognition device comprising a plurality of microphones provided in a vehicle and voice recognition means for recognizing a voice of a driver detected by the plurality of microphones.
A delay time (τ) for delaying at least one audio signal of the plurality of microphones is calculated based on the lip position of the driver, and at least one of the audio signals of the plurality of microphones is delayed. A speech detection method for a vehicle speech recognition apparatus that detects a driver's speech by synthesizing speech signals of a plurality of microphones, delayed by time (τ) from a speech signal of another microphone.
[0074]
In this case, the voice of the driver is always stably supplied to the voice recognition means. As a result, since the speech recognition means performs speech recognition based on the synthesized speech signal, the speech recognition rate can be improved.
[0075]
【The invention's effect】
As described above in detail, according to the first aspect of the present invention, even if the steering wheel is rotated, Is Longitudinal voice is always supplied stably. As a result, since the speech recognition means performs speech recognition based on the synthesized speech signal, the speech recognition rate can be improved.
[Brief description of the drawings]
FIG. 1 is a schematic view of a passenger compartment for explaining the arrangement of a CCD camera and a microphone.
FIG. 2 is a schematic diagram of a steering pad for explaining the arrangement of microphones.
FIG. 3 is an electrical configuration diagram of the vehicle voice recognition device according to the first embodiment.
FIGS. 4A and 4B are directivity characteristics diagrams of a synthesized voice signal of both microphones, where FIG. 4A is a delay time (= T / 2), FIG. 4B is a delay time (= T / 3), and FIG. ) Shows the case of delay time (= 3T / 5).
FIG. 5 is an electrical configuration diagram of a vehicle voice recognition device according to a second embodiment.
FIG. 6 is an electrical configuration diagram of a vehicle voice recognition device according to a third embodiment.
[Explanation of symbols]
τ, τm ... delay time, τs ... steering delay time, P1 ... lip position signal, 3 ... imaging means, 4 ... steering wheel, 5 ... 1st microphone as a microphone, 6 ... 2nd microphone as a microphone, 12 ... Image DSP as lip position calculating means, 17 ... Speech recognition means, A voice DSP as a delay voice synthesis means, a delay time calculation means, 20... A steering angle sensor as a rotation position detection means.
Claims (1)
前記複数のマイクロフォン(5,6)は、ステアリングホイール(4)に設けられるとともに、
複数のマイクロフォン(5,6)の音声信号を合成した合成音声信号を最大とする遅延時間をステアリング遅延時間(τs)と規定し、予め設定した操縦者の唇位置において、ステアリングホイール(4)の回動位置に相対するステアリング遅延時間(τs)を記憶する記憶手段(19)と、
前記ステアリングホイール(4)の回動位置を検出する回動位置検出手段(20)の出力信号に基づいてステアリングホイール(4)の回動位置を演算し、前記記憶手段(19)の記憶内容を参照してその時のステアリングホイール(4)の回動位置に相対するステアリング遅延時間(τs)を設定する遅延時間演算手段(17)と、
前記複数のマイクロフォン(5,6)の少なくともいずれか一つの音声信号を、前記遅延時間演算手段(17)により設定されたステアリング遅延時間(τs)だけ他のマイクロフォンの音声信号より遅延して前記複数のマイクロフォン(5,6)の音声信号を合成する遅延音声合成手段(17)とを備えた車両用音声認識装置。A vehicle equipped with a plurality of microphones (5, 6) provided in the vehicle and voice recognition means (17) for recognizing the voice of the driver based on the voice signals detected by the plurality of microphones (5, 6). In a speech recognition device,
The plurality of microphones (5, 6) are provided on the steering wheel (4),
The delay time that maximizes the synthesized voice signal obtained by synthesizing the voice signals of the plurality of microphones (5, 6) is defined as the steering delay time (τs). Storage means (19) for storing the steering delay time (τs) relative to the rotational position;
Based on the output signal of the rotation position detecting means (20) for detecting the rotation position of the steering wheel (4), the rotation position of the steering wheel (4) is calculated, and the storage contents of the storage means (19) are stored. referring to the delay time calculating means for setting the relative steering delay (.tau.s) the rotational position of the steering wheel (4) at that time (17),
At least one audio signal of the plurality of microphones (5, 6) is delayed from the audio signals of other microphones by a steering delay time (τs) set by the delay time calculating means (17). A speech recognition apparatus for a vehicle, comprising delay speech synthesis means (17) for synthesizing speech signals of the microphones (5, 6).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17341098A JP3919337B2 (en) | 1998-06-19 | 1998-06-19 | Voice recognition device for vehicle |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17341098A JP3919337B2 (en) | 1998-06-19 | 1998-06-19 | Voice recognition device for vehicle |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010589A JP2000010589A (en) | 2000-01-14 |
JP3919337B2 true JP3919337B2 (en) | 2007-05-23 |
Family
ID=15959925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17341098A Expired - Fee Related JP3919337B2 (en) | 1998-06-19 | 1998-06-19 | Voice recognition device for vehicle |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919337B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131683A (en) * | 2001-10-22 | 2003-05-09 | Sony Corp | Device and method for voice recognition, and program and recording medium |
JP2004240154A (en) * | 2003-02-06 | 2004-08-26 | Hitachi Ltd | Information recognition device |
JP2007241304A (en) * | 2007-04-20 | 2007-09-20 | Sony Corp | Device and method for recognizing voice, and program and recording medium therefor |
CN108674344B (en) * | 2018-03-30 | 2024-04-02 | 斑马网络技术有限公司 | Voice processing system based on steering wheel and application thereof |
CN113183969B (en) * | 2021-04-29 | 2022-11-11 | 联友智连科技有限公司 | Intelligent automobile starting and braking management system and method based on voice interaction and face recognition |
CN113593572A (en) * | 2021-08-03 | 2021-11-02 | 深圳地平线机器人科技有限公司 | Method and apparatus for performing sound zone localization in spatial region, device and medium |
-
1998
- 1998-06-19 JP JP17341098A patent/JP3919337B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010589A (en) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4226214B2 (en) | Method and apparatus for operating a microphone device in an automobile, for example | |
US20090055178A1 (en) | System and method of controlling personalized settings in a vehicle | |
US20090055180A1 (en) | System and method for optimizing speech recognition in a vehicle | |
WO2001095314A1 (en) | Robot acoustic device and robot acoustic system | |
JP2006030447A (en) | Voice recognition system and moving body and vehicle having the system | |
JP6284331B2 (en) | Conversation support device, conversation support method, and conversation support program | |
JP2012025270A (en) | Apparatus for controlling sound volume for vehicle, and program for the same | |
WO2016103710A1 (en) | Voice processing device | |
JP3919337B2 (en) | Voice recognition device for vehicle | |
JP2016167645A (en) | Voice processing device and control device | |
JP4410378B2 (en) | Speech recognition method and apparatus | |
JP3654045B2 (en) | Voice recognition device | |
JP2004354930A (en) | Speech recognition system | |
KR20130046759A (en) | Apparatus and method for recogniting driver command in a vehicle | |
JPH11352987A (en) | Voice recognition device | |
JP2001352595A (en) | Voice input device | |
JP6332072B2 (en) | Dialogue device | |
JP2002171587A (en) | Sound volume regulator for on-vehicle acoustic device and sound recognition device using it | |
JP2010245950A (en) | In-vehicle image control apparatus | |
JP2019197964A (en) | Microphone control device | |
JP6978888B2 (en) | Sensitivity adjustment device, in-vehicle system, car headrest and signal processing device | |
JP2017044852A (en) | Vocalization direction specification device | |
JPH05216495A (en) | Speech signal input device | |
JP2003044092A (en) | Voice recognizing device | |
JP6358987B2 (en) | In-vehicle information equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100223 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140223 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |