JP2004184715A - Speech recognition apparatus - Google Patents
Speech recognition apparatus Download PDFInfo
- Publication number
- JP2004184715A JP2004184715A JP2002351960A JP2002351960A JP2004184715A JP 2004184715 A JP2004184715 A JP 2004184715A JP 2002351960 A JP2002351960 A JP 2002351960A JP 2002351960 A JP2002351960 A JP 2002351960A JP 2004184715 A JP2004184715 A JP 2004184715A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- standby time
- maximum standby
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声を認識する音声認識装置に関する。
【0002】
【従来の技術】
【特許文献1】特開2001−166794号公報
従来、音声認識装置として特開2001−166794号公報記載のようなものがある。この音声認識装置を車載ナビゲーションシステムに適用した場合、音声認識に先立ち、乗員が1名であるか否かを判断し、乗員が2名以上である場合には非利用者すなわち同乗者への注意喚起を行うことで、車両内で音声認識装置の利用者のみが発話する環境を作り、より音声認識率を高くし、かつ使い勝手をよくしている。
【0003】
【発明が解決しようとする課題】
このような上記従来の音声認識装置にあっては、音声認識装置の非利用者すなわち同乗者が注意喚起を聞き逃した場合、あるいは注意喚起を聞いたとしても意味を理解できなかった場合などは、音声認識処理中すなわち利用者の発話終了以前に同乗者が発話してしまい、音声認識率が低下してしまうといった問題があった。また、同乗者以外の原因により音声認識に適切な環境を維持できなくなった場合にも、音声認識率が低下してしまうといった問題があった。
【0004】
そこで本発明はこのような問題点に鑑み、より精度よく音声認識を行うことができる音声認識装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、音声の取り込み開始から、音声取り込み可能状態終了までの間の最大待受け時間を設定する最大待受け時間設定手段と、音声取り込み開始から、最大待受け時間設定手段によって設定された最大待受け時間終了までの間に入力された音声を認識する信号処理部とを有する音声認識装置において、認識対象とする音声以外の音が取り込まれる可能性がある場合に、最大待受け時間設定手段は、最大待受け時間を短縮するものとした。
【0006】
【発明の効果】
本発明によれば、認識対象とする音声以外の音が取り込まれる可能性がある場合に、最大待受け時間を短縮することにより、信号処理部によって取り込まれた音声中に、認識対象とする音声以外の音が占める割合を少なくすることができる。よって音声認識率の悪化を低減することができる。
【0007】
【発明の実施の形態】
次に本発明の実施の形態を実施例により説明する。
以下に示す各実施例は、本発明における音声認識装置を車両のナビゲーションシステムに適用したものである。
図1に、第一の実施例における車両のナビゲーションシステムの全体構成を示す。
図示しないGPS(Global Positioning System)アンテナによって受信された信号より自車両の位置を演算し、使用者に各種の情報を提示するナビゲーション制御部2が信号処理部3に接続される。
【0008】
信号処理部3はCPUおよびメモリなどから構成され、音声の認識処理を行う。信号処理部3には、音声認識対象となる単語の階層構造からなる文法(後述)を記憶している記憶部6が接続される。また信号処理部3には、発話スイッチ13と訂正スイッチ14とを備えた入力部12と、同乗者の有無を検出する同乗者検出部15が接続されている。
【0009】
さらに信号処理部3には、D/Aコンバータ7、出力アンプ8を介してスピーカ9が接続され、信号処理部3から出力されたデジタルの音声信号がD/Aコンバータ7によってアナログの音声信号に変換され、出力アンプ8によって増幅されてスピーカ9から音声として出力される。
信号処理部3には、A/Dコンバータ10を介してマイク11が接続され、マイク11から入力されたアナログの音声信号がA/Dコンバータ10によってデジタルの音声信号に変換されて信号処理部3に伝達される。
【0010】
ナビゲーション制御部2は表示部16およびスピーカ9に接続されており、表示部16およびスピーカ9を通じて車両のドライバ等に位置情報等を提示する。信号処理部3、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1が構成される。
また音声認識部1、ナビゲーション制御部2、表示部16、スピーカ9、マイク11、入力部12および同乗者検出部15よりナビゲーションシステム20が構成される。
【0011】
次に図2のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ100において、信号処理部3はナビゲーションシステム20の使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ101へ進む。
【0012】
ステップ101において、信号処理部3は記憶部6に記憶された単語の階層構造からなる文法を認識対象語として設定する。ここで単語の階層構造からなる文法とは地名の配列を指し、図3にその一例を示す。まずはじめに、文頭に都道府県名を設定し、次に各都道府県に対応する市町村名のように順次地名を設定する。
【0013】
ステップ102において、信号処理部3はステップ101において設定した認識対象語にもとづいて、最大待受け時間を設定する。この最大待受け時間は、音声を検出できないまま待受け状態を継続し続けることを避けるために設けるものである。最大待受け時間Tmの長さは、設定した認識対象語に含まれる最長の文が発話された場合の推定発話時間Twに、余裕時間Txを加えたものであり、次式によって表される。
Tm=Tw+Tx (1)
余裕時間Txは、音声認識装置付のナビゲーションシステム20に不慣れな場合、あるいは個人差によって発生する発話開始の遅れ、および発話の長さのばらつきを吸収するために通常は推定発話時間Twと同程度の値が設定される。
【0014】
ステップ103において、信号処理部3は同乗者検出部15を用いて同乗者の有無を検出する。同乗者検出部15は、座席に取り付けた感圧センサを用いることによって同乗者の有無を検出する。同乗者が検出された場合ステップ104へ進み、同乗者が検出されなかった場合はステップ105へ進む。
【0015】
ステップ104において、信号処理部3は式(1)で算出された最大待受け時間Tmを短く変更し、次に示すように最大待受け時間Tm’の算出を行う。
図4に示すように、時刻Aにおいて発話スイッチ13が操作されて信号処理部3よる音声取り込みが開始された場合、使用者の発話は通常、音声の最大待受け時間Tmが終了する時刻Cより以前の時刻Bの時点で終了する。
【0016】
しかし図5に示すように、使用者の発話が終了する時刻Bの時点以前の時刻Dにおいて、途中から同乗者の発話Eがあった場合は音声取り込み処理はその影響を大きく受ける。このように信号処理部3は、使用者の発話の終端を検出することが不可能であり、使用者の発話の途中から同乗者の発話を継続して音声取り込みを行ってしまう。
【0017】
その結果、ステップ102において設定された最大待受け時間Tmが終了する時刻Cまで音声取り込みが継続される。よって取り込まれた音声には同乗者の音声が広範囲に含まれており、使用者の音声の認識率が悪化する。これを防ぐために次式を用いて最大待受け時間Tm’の算出を行う。
Tm’=Tw+Tx’ (2)
ここでTx’=k×Tx、 0<k<1.0とする。
【0018】
これにより図6に示すように、時刻Dから同乗者の発話があったとしても、最大待受け時間Tm’が終了する時刻C’において音声取り込みが終了するので、信号処理部3に取り込まれた音声中に同乗者の発話が含まれる範囲を少なくすることができる。
【0019】
図2のフローチャートに戻りステップ105において、信号処理部3は音声取り込み処理を開始した旨を使用者に知らせるために、記憶部6に記憶されている告知音声をD/Aコンバータ7および出力アンプ8を通じて、スピーカ9から出力する。
【0020】
音声取り込み開始を知らせる告知音声を聞いた使用者は、認識対象語に含まれる単語の発話を行う。なお本実施例において、認識対象は図3に示した住所とする。
マイク11から入力された音声信号は、A/Dコンバータ10によってデジタル信号に変換されて信号処理部3に入力される。
【0021】
発話スイッチ13が操作されるまでの間、信号処理部3はA/Dコンバータ10によって変換された音声のデジタル信号の平均パワーを演算している。発話スイッチ13が操作された後、演算していた平均パワーに比べてデジタル信号の瞬間パワーが所定値以上大きくなったときに、ステップ106において、使用者が発話したと判断して音声の取り込みを開始する。
【0022】
音声取り込みが開始されると、ステップ107において信号処理部3は記憶部6に記憶された認識対象語との一致度演算を開始する。一致度とは取り込まれた音声部分と個々の認識対象語とがどの程度似ているかを指し、さらにこの一致度はスコアとして得られる。本実施例において、スコアの値が大きいほど一致度が高いとする。
なお、このステップの処理を行う間も、並列して信号処理部3による音声取り込みは継続されている。
【0023】
ステップ108において、発話の終端が検出されたかどうかの判断を行う。この終端の検出は、音声のデジタル信号の瞬間パワーが所定時間以上、かつ所定値以下となったときに使用者の発話が終了したと判断するものである。発話の終端を検出した場合はステップ109へ進み、終了していない場合はステップ113へ進む。
【0024】
ステップ113において、音声取り込み開始後、最大待受け時間Tm、または最大待受け時間Tm’を経過したかどうかの判断を行い、経過していない場合はステップ106へ戻る。また、最大待受け時間を経過しているときはステップ109へ進む。
【0025】
ステップ109において、音声の取り込み処理を終了し、ステップ110において、信号処理部3は一致度の最も大きい認識対象語を認識結果として、D/Aコンバータ7および出力アンプ8を通じてスピーカ9から出力する。本実施例においては、使用者が発話した「神奈川県横須賀市夏島町」が正しく認識され、信号処理部3は認識結果である「神奈川県横須賀市夏島町」をスピーカ9を通して出力する。
【0026】
ステップ111では、ステップ110における認識結果の出力後、所定時間内に入力部12に備えられた訂正スイッチ14が操作されたかどうかの判断を行う。訂正スイッチ14の操作があった場合は、使用者がナビゲーションシステム20の音声認識結果に対して修正ありと判断してステップ101へ戻り、上述の音声取り込みをやり直す。
【0027】
一方、所定時間内に訂正スイッチ14の操作がない場合はステップ112へ進み、使用者がナビゲーションシステム20の認識結果を容認したと判断して、認識結果に応じた処理を行う。本実施例においては、信号処理部3は認識結果である住所をナビゲーション制御部2へ出力する。ナビゲーション制御部2は認識された住所を目的地として設定し、表示部16やスピーカ9を通じて使用者に道案内等の情報提示を行う。
なお本実施例において、図2におけるステップ102およびステップ104が本発明における最大待受け時間設定手段を構成する。また本実施例における同乗者検出部15が、本発明における同席者検出部を構成する。
【0028】
本実施例は以上のように構成され、同乗者検出部15によって同乗者が検出された場合に、最大待受け時間Tmを短縮して最大待受け時間Tm’を算出し、音声の取り込み時間幅を短くすることにより、使用者の発話が終了する前に同乗者の発話があったとしても、信号処理部3によって取り込まれた音声中に同乗者の音声が占める割合を少なくすることができる。よって信号処理部3による使用者の音声認識率の悪化を低減することができる。
【0029】
なお本実施例では、同乗者検出部15は座席に取り付けた感圧センサを用いることによって同乗者の有無を検出するものとしたが、これに限定されず、たとえば座席近傍に設けられ、人が座ると遮られる赤外線センサや超音波センサなどを用いて同乗者の有無を検出してもよい。またシートベルト着用センサを用い、運転席以外でシートベルトが着用されているかどうかによって同乗者の有無を検出するようにしてもよく、さらにドアスイッチの状況やドアの開閉状況によって同乗者の有無を検出するようにしてもよい。
【0030】
次に、第二の実施例について説明する。
図7に、第二の実施例における車両のナビゲーションシステムの全体構成を示す。
本実施例の構成は、第一の実施例における同乗者検出部15を削除し、雑音保持部18を追加したものである。
CPUおよびメモリより構成される信号処理部3Aが、自車両の位置を演算するナビゲーション制御部2に接続される。
【0031】
信号処理部3Aの内部には、音声や音声に近い音などの雑音情報を保持する雑音保持部18を備える。
信号処理部3A、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Aが構成される。
また音声認識部1A、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Aが構成される。
なお、上記第一の実施例と同じ作用を持つ構成物については、同じ番号を付して説明を省略する。
【0032】
次に本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
断続して騒音が起きるような環境下を車両が走行している場合や、使用者と同乗者が会話をしている場合は、図8に示すように信号処理部3Aによって、音声取り込みが開始される時刻Aよりも以前に、音声あるいはそれに近い音が雑音Gとして検出される。
このような場合、音声取り込み開始以降においても音声やそれに近い音が雑音Hとして検出される可能性が高くなる。
【0033】
図9のフローチャートを用いて、音声取り込み開始の時刻Aよりも以前の雑音Gの検出処理について説明する。
この検出処理は、信号処理部3Aに内蔵された図示しないタイマの割り込み処理によって定期的に実行される。
ステップ200において、信号処理部3Aは所定時間内に雑音の始点を検出したかどうかの判断を行う。この雑音の始点検出は、第一の実施例におけるステップ106と同様に、雑音のデジタル信号の平均パワーを演算し、平均パワーに比べて瞬間パワーが所定値以上大きくなったときに雑音を検出したと判断するものである。
【0034】
ステップ200において雑音の始点が検出されると、ステップ201において信号処理部3Aは雑音の取り込みを開始する。ステップ202において、雑音の終端が検出されると雑音の取り込みを終了する。この雑音の終端の検出は、第一の実施例におけるステップ108と同様に行う。
【0035】
ステップ203において、信号処理部3Aは雑音を取り込んだ時刻、および継続時間を雑音データとして雑音保持部18に記憶する。
なおステップ200において雑音の始点を検出できなかった場合は処理を終了する。
【0036】
次に図10のフローチャートを用いて、ナビゲーションシステム20Aが行う音声認識の流れについて説明する。
ステップ300〜302は、上記第一の実施例におけるステップ100〜102と、また図10のステップ304〜313は、第一の実施例におけるステップ104〜113と同様であり説明を省略する。
【0037】
ステップ303において、信号処理部3Aは使用者の音声入力開始以前に、雑音を検出していたかどうかの判断を行う。この判断は、図9のフローチャートに示した雑音の検出処理によって記憶された雑音データを用いて、発話スイッチ13が操作された時刻から所定時間前まで間に発生した雑音の継続時間を積算し、その積算値が所定値以上となった場合に雑音を検出したと判断するものである。雑音が検出されるとステップ304へ進み、最大待受け時間Tmの短縮を行う。一方雑音が検出されなかった場合はステップ305へ進む。
なお本実施例において、図10におけるステップ302およびステップ304が本発明における最大待受け時間設定手段を構成する。
【0038】
本実施例は以上のように構成され、使用者のナビゲーションシステム20Aに対する音声の入力開始以前に、信号処理部3Aが雑音を検出している場合は、図8に示すように最大待受け時間Tmを短縮して最大待受け時間Tm’を算出し、時刻C’の時点で音声取り込みを終了することにより、使用者の発話以外の雑音入力があったとしても、信号処理部3Aによって取り込まれた音声中に雑音が占める割合を少なくすることができる。よって信号処理部3Aによる使用者の音声認識率の悪化を低減することができる。
【0039】
次に第三の実施例について説明する。
図11に、第三の実施例における車両のナビゲーションシステムの全体構成を示す。
本実施例の構成は、第一の実施例における同乗者検出部15を削除して、車両の後方および側方の監視を行う後側方監視部17を追加し、さらに自車両位置の検出を行う自車両位置検出部19および環境音増大予測部23を追加したものである。
ナビゲーション制御部2Bの内部に、図示しないGPSアンテナからの信号より自車両の位置を演算する自車両位置検出部19を備える。ナビゲーション制御部2Bは、CPUおよびメモリより構成される信号処理部3Bに接続される。
【0040】
車両の後側方を監視する後側方監視部17が、信号処理部3Bに接続される。また信号処理部3Bの内部には、環境音の増大を予測する環境音増大予測部23を備えている。
信号処理部3B、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Bが構成される。
【0041】
また音声認識部1B、ナビゲーション制御部2B、表示部16、スピーカ9、マイク11、入力部12および後側方監視部17よりナビゲーションシステム20Bが構成される。
なお、上記第一の実施例と同じ作用を持つ構成物については、同じ番号を付して説明を省略する。
【0042】
次に図12のフローチャートを用いて、ナビゲーションシステム20Bが行う音声認識処理の流れについて説明する。
ステップ400〜402は、上記第一の実施例におけるステップ100〜102と、またステップ404〜413は第一の実施例におけるステップ104〜113と同様であり説明を省略する。
【0043】
ステップ403において、環境音が増大するか否かの予測処理を行う。この環境音としては、追い越し車両等の出現に伴う環境音や、トンネルへの侵入によって発生する環境音がある。
追い越し車両の出現に伴う環境音の増大は、車両の後側方を監視する後側方監視部17によって、自車に近づく車両が検出された場合に環境音が増大するものとして予測することができる。
【0044】
車両の後側方を監視する後側方監視部17として、CCDカメラを用いる事ができる。このようなCCDカメラを用いて車両の後側方を監視する方法として、たとえば特開2000−259998号公報に開示された車両用後側方監視装置がある。また、CCDカメラ以外では、車載用後側方レーダ等を用いることもできる。
【0045】
また、トンネルへの侵入によって発生する環境音の増大は、ナビゲーション制御部2の自車両位置検出部19によって得られた自車両の位置情報をもとに、自車両が環境音が増大するトンネル等に侵入したかどうかを判断することによって、予測を行うことができる。このようなナビゲーション装置を用いたトンネルへの進入検知方法として、たとえば特開2002−236023号公報に開示されたナビゲーション装置および付属機器制御方法に詳細に記述されている。
【0046】
ステップ403において、環境音の増大が予想される場合はステップ404へ進み、最大待受け時間Tmの短縮し、最大待受け時間Tm’の算出を行う。一方、環境音の増大が予想されない場合は、ステップ405へ進む。
なお本実施例において、後側方監視部17が本発明における車両監視部を構成する。また図12におけるステップ402およびステップ404が本発明における最大待受け時間設定手段を構成する。
【0047】
本実施例は以上のように構成され、自車両がトンネル内に進入する場合や、自車両に近づく車両等が後側方監視部17によって検出された場合には、環境音が増大すると予測して最大待受け時間Tmを短縮する。これにより、図13に示すように時刻Aから音声の取り込みが開始され、使用者の音声発話中に環境音Iが発生し、使用者の発話と環境音Iとが重なってしまったとしても、最大待受け時間Tm’の終了する時刻C’において音声取り込みを終了することにより、信号処理部3Bによって取り込まれた音声中に環境音Iが占める割合を少なくすることができる。よって信号処理部3Bによる使用者の音声認識率の悪化を低減することができる。
なお本実施例において、後側方監視部17を用いて車両の後側方を監視するものとしたがこれに限定されず、車両の前側方など車両周囲を監視するようにしてもよい。
【0048】
次に、第四の実施例について説明する。
図14に、第四の実施例における車両のナビゲーションシステムの全体構成を示す。
本実施例の全体構成は、第一の実施例における同乗者検出部15を削除して、音声認識処理の実行回数を計数する使用経験記憶部21を追加したものである。CPUおよびメモリより構成される信号処理部3Cの内部に、音声認識処理の実行回数を計数する使用経験記憶部21を備える。
【0049】
信号処理部3C、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Cが構成される。
また音声認識部1C、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12より、ナビゲーションシステム20Cが構成される。他の構成および動作は第一の実施例と同様であり、同じ番号を付して説明を省略する。
【0050】
次に、本実施例における音声認識装置を適用したナビゲーションシステムの動作について説明する。
図15のフローチャートを用いて、ナビゲーションシステム20Cが行う音声認識処理の流れについて説明する。
ステップ500〜502は、上記第一の実施例におけるステップ100〜102と、また図15のステップ504〜513は、第一の実施例におけるステップ104〜113と同様であり説明を省略する。
【0051】
ステップ503において、信号処理部3Cは、音声認識装置を適用したナビゲーションシステムの使用経験が十分か否かの判断を行う。信号処理部3Cは、使用経験記憶部21によって計数された音声認識処理の実行回数値を用いて、実行回数値が所定値以上である場合に、使用経験が十分であるとの判断を行うものである。
【0052】
ステップ503において、使用経験が十分あると判断された場合にはステップ504へ進み、最大待受け時間Tmの短縮を行う。一方、使用経験が十分でないと判断された場合はステップ505へ進む。
なお本実施例において、図15におけるステップ502およびステップ504が本発明における最大待受け時間設定手段を構成する。
【0053】
本実施例は以上のように構成され、使用者は音声認識装置の使用経験が多くなると、音声の取り込み開始から速やかに発話を開始した場合に音声の認識率が高くなることを認知するようになる。よって、音声認識装置の使用経験が浅い使用者と比べて、使用経験の多い使用者は発話終了時が早くなる。この発話時間幅の短縮に合わせて最大待受け時間Tmの短縮を行うことにより、信号処理部3Cに取り込まれた音声中に、使用者以外の音声等が占める割合を少なくすることができる。よって信号処理部3Cによる使用者の音声認識率の悪化を低減することができる。
【図面の簡単な説明】
【図1】本発明における第一の実施例を示す図である。
【図2】第一の実施例における音声認識処理の流れを示す図である。
【図3】単語の階層構造からなる文法を示す図である。
【図4】最大待受け時間と発話の関係を示す図である。
【図5】最大待受け時間と発話の関係を示す図である。
【図6】最大待受け時間と発話の関係を示す図である。
【図7】第二の実施例を示す図である。
【図8】最大待受け時間と発話の関係を示す図である。
【図9】雑音の取り込み処理の流れを示す図である。
【図10】第二の実施例における音声認識処理の流れを示す図である。
【図11】第三の実施例を示す図である。
【図12】第三の実施例における音声認識処理の流れを示す図である。
【図13】最大待受け時間と発話の関係を示す図である。
【図14】第四の実施例を示す図である。
【図15】第四の実施例における音声認識処理の流れを示す図である。
【符号の説明】
1、1A、1B、1C 音声認識部
2、2B ナビゲーション制御部
3、3A、3B、3C 信号処理部
6 記憶部
7 D/Aコンバータ
8 出力アンプ
9 スピーカ
10 A/Dコンバータ
11 マイク
12 入力部
13 発話スイッチ
14 訂正スイッチ
15 同乗者検出部
16 表示部
17 後側方監視部
18 雑音保持部
19 自車両位置検出部
20、20A、20B、20C ナビゲーションシステム
21 使用経験記憶部
23 環境音増大予測部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition device that recognizes voice.
[0002]
[Prior art]
[Patent Document 1] Japanese Patent Application Laid-Open No. 2001-166794 Conventionally, there is a speech recognition device as described in Japanese Patent Application Laid-Open No. 2001-166794. When this voice recognition device is applied to an in-vehicle navigation system, it is determined whether or not there is only one occupant before voice recognition. If there are two or more occupants, attention is given to a non-user, ie, a passenger. By evoking, an environment in which only the user of the voice recognition device speaks is created in the vehicle, and the voice recognition rate is increased and the usability is improved.
[0003]
[Problems to be solved by the invention]
In the above-described conventional voice recognition device, when a non-user of the voice recognition device, that is, a passenger, misses the alert, or does not understand the meaning even after hearing the alert, etc. However, there is a problem that the fellow passenger utters during the voice recognition process, that is, before the user's utterance ends, thereby lowering the voice recognition rate. There is also a problem that the speech recognition rate is reduced when an environment suitable for speech recognition cannot be maintained due to a cause other than a passenger.
[0004]
In view of the above problems, an object of the present invention is to provide a speech recognition device that can perform speech recognition with higher accuracy.
[0005]
[Means for Solving the Problems]
The present invention provides a maximum standby time setting means for setting a maximum standby time from the start of audio capture to the end of the audio capture enabled state, and an end of the maximum standby time set by the maximum standby time setting means from the start of audio capture. In a speech recognition device having a signal processing unit for recognizing a voice input before, when there is a possibility that a sound other than the voice to be recognized may be captured, the maximum standby time setting means sets the maximum standby time to Was shortened.
[0006]
【The invention's effect】
According to the present invention, when there is a possibility that a sound other than the speech to be recognized may be captured, the maximum standby time is reduced so that the voice other than the voice to be recognized is included in the voice captured by the signal processing unit. Sound can be reduced in proportion. Therefore, deterioration of the voice recognition rate can be reduced.
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to examples.
In each of the embodiments described below, the speech recognition device according to the present invention is applied to a vehicle navigation system.
FIG. 1 shows the overall configuration of a vehicle navigation system according to the first embodiment.
A
[0008]
The signal processing unit 3 includes a CPU, a memory, and the like, and performs a voice recognition process. The signal processing unit 3 is connected to a
[0009]
Further, a
A
[0010]
The
The
[0011]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In
[0012]
In
[0013]
In step 102, the signal processing unit 3 sets the maximum standby time based on the recognition target word set in
Tm = Tw + Tx (1)
The allowance time Tx is usually about the same as the estimated utterance time Tw in order to absorb delays in utterance start and utterance length variations caused by individual differences if the user is unfamiliar with the
[0014]
In
[0015]
In
As shown in FIG. 4, when the
[0016]
However, as shown in FIG. 5, at time D before time B, at which the user's speech ends, if the fellow passenger's speech E is present halfway, the voice capturing process is greatly affected. As described above, the signal processing unit 3 cannot detect the end of the utterance of the user, and continues to utter the fellow passenger from the middle of the utterance of the user to capture the voice.
[0017]
As a result, voice capture is continued until time C when the maximum standby time Tm set in step 102 ends. Therefore, the captured voice includes the voice of the passenger in a wide range, and the recognition rate of the voice of the user deteriorates. To prevent this, the maximum standby time Tm 'is calculated using the following equation.
Tm '= Tw + Tx' (2)
Here, Tx ′ = k × Tx, and 0 <k <1.0.
[0018]
As a result, as shown in FIG. 6, even if there is an utterance of a passenger from time D, voice capture ends at time C ′ at which the maximum standby time Tm ′ ends. The range in which the utterance of the fellow passenger is included can be reduced.
[0019]
Returning to the flowchart of FIG. 2, in
[0020]
The user who hears the notification voice that notifies the start of voice capture utters a word included in the recognition target word. In this embodiment, the recognition target is the address shown in FIG.
The audio signal input from the
[0021]
Until the
[0022]
When the voice capture is started, the signal processing unit 3 starts calculating the degree of coincidence with the recognition target word stored in the
It should be noted that during the processing of this step, the voice capturing by the signal processing unit 3 is continued in parallel.
[0023]
In
[0024]
In
[0025]
In
[0026]
In
[0027]
On the other hand, if the
In this embodiment, steps 102 and 104 in FIG. 2 constitute the maximum standby time setting means in the present invention. Further, the
[0028]
The present embodiment is configured as described above, and when a passenger is detected by the
[0029]
In this embodiment, the
[0030]
Next, a second embodiment will be described.
FIG. 7 shows the overall configuration of a vehicle navigation system according to the second embodiment.
In the configuration of the present embodiment, the
A
[0031]
The signal processing unit 3 </ b> A includes a
The
A
The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0032]
Next, a flow of the voice recognition processing of the navigation system in the present embodiment will be described.
When the vehicle is traveling in an environment where noise occurs intermittently, or when the user and the passenger are talking, the
In such a case, there is a high possibility that a sound or a sound close thereto is detected as the noise H even after the start of the sound capturing.
[0033]
With reference to the flowchart of FIG. 9, a description will be given of a process of detecting the noise G before the time A at which the voice capturing starts.
This detection processing is periodically executed by interruption processing of a timer (not shown) incorporated in the
In
[0034]
When the start point of the noise is detected in
[0035]
In
If the start point of the noise cannot be detected in
[0036]
Next, the flow of voice recognition performed by the
[0037]
In
In this embodiment, steps 302 and 304 in FIG. 10 constitute the maximum standby time setting means in the present invention.
[0038]
This embodiment is configured as described above. If the
[0039]
Next, a third embodiment will be described.
FIG. 11 shows an overall configuration of a vehicle navigation system according to the third embodiment.
In the configuration of the present embodiment, the
The
[0040]
A rear side monitoring unit 17 that monitors the rear side of the vehicle is connected to the
The
[0041]
The
The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0042]
Next, the flow of the voice recognition process performed by the
[0043]
In
The increase of the environmental sound accompanying the appearance of the overtaking vehicle can be predicted by the rear side monitoring unit 17 that monitors the rear side of the vehicle as an increase in the environmental sound when the vehicle approaching the own vehicle is detected. it can.
[0044]
As the rear side monitoring unit 17 for monitoring the rear side of the vehicle, a CCD camera can be used. As a method of monitoring the rear side of a vehicle using such a CCD camera, there is, for example, a rear side monitoring device for a vehicle disclosed in JP-A-2000-259998. In addition, other than the CCD camera, a rear-side radar for vehicle use may be used.
[0045]
In addition, the increase of the environmental sound caused by the intrusion into the tunnel is based on the position information of the own vehicle obtained by the own vehicle
[0046]
In
In this embodiment, the rear side monitoring unit 17 forms a vehicle monitoring unit according to the present invention.
[0047]
The present embodiment is configured as described above, and predicts that the environmental sound will increase when the own vehicle enters the tunnel or when a vehicle approaching the own vehicle is detected by the rear side monitoring unit 17. To reduce the maximum standby time Tm. As a result, as shown in FIG. 13, the capture of the voice starts at time A, the environmental sound I is generated during the voice utterance of the user, and even if the utterance of the user overlaps with the environmental sound I, By ending the audio capture at the time C ′ at which the maximum standby time Tm ′ ends, the ratio of the environmental sound I to the audio captured by the
In the present embodiment, the rear side monitoring unit 17 is used to monitor the rear side of the vehicle. However, the present invention is not limited to this, and the surroundings of the vehicle such as the front side of the vehicle may be monitored.
[0048]
Next, a fourth embodiment will be described.
FIG. 14 shows the overall configuration of a vehicle navigation system according to the fourth embodiment.
The overall configuration of the present embodiment is obtained by deleting the fellow
[0049]
The
A navigation system 20C includes the
[0050]
Next, the operation of the navigation system to which the voice recognition device according to the present embodiment is applied will be described.
The flow of the voice recognition process performed by the navigation system 20C will be described with reference to the flowchart of FIG.
[0051]
In
[0052]
If it is determined in
In this embodiment, steps 502 and 504 in FIG. 15 constitute the maximum standby time setting means in the present invention.
[0053]
The present embodiment is configured as described above, and the user recognizes that when the use experience of the voice recognition device increases, the voice recognition rate increases when the utterance starts immediately after the start of voice capture. Become. Therefore, compared to a user who has little experience using the voice recognition device, a user who has a lot of experience has a shorter end time of the utterance. By reducing the maximum standby time Tm in accordance with the reduction in the utterance time width, it is possible to reduce the proportion of voices other than the user occupying in the voices captured by the signal processing unit 3C. Therefore, it is possible to reduce the deterioration of the user's voice recognition rate by the signal processing unit 3C.
[Brief description of the drawings]
FIG. 1 is a diagram showing a first embodiment of the present invention.
FIG. 2 is a diagram showing a flow of a voice recognition process in the first embodiment.
FIG. 3 is a diagram showing a grammar having a hierarchical structure of words.
FIG. 4 is a diagram showing the relationship between the maximum standby time and speech.
FIG. 5 is a diagram showing the relationship between the maximum standby time and speech.
FIG. 6 is a diagram showing the relationship between the maximum standby time and speech.
FIG. 7 is a diagram showing a second embodiment.
FIG. 8 is a diagram showing the relationship between the maximum standby time and speech.
FIG. 9 is a diagram showing a flow of a noise capturing process.
FIG. 10 is a diagram showing a flow of a voice recognition process in the second embodiment.
FIG. 11 is a diagram showing a third embodiment.
FIG. 12 is a diagram showing a flow of a voice recognition process in the third embodiment.
FIG. 13 is a diagram showing the relationship between the maximum standby time and speech.
FIG. 14 is a diagram showing a fourth embodiment.
FIG. 15 is a diagram showing a flow of a voice recognition process in the fourth embodiment.
[Explanation of symbols]
1, 1A, 1B, 1C
Claims (7)
音声取り込み開始から、前記最大待受け時間設定手段によって設定された最大待受け時間終了までの間に入力された音声を認識する信号処理部とを有する音声認識装置において、
認識対象とする音声以外の音が取り込まれる可能性がある場合に、前記最大待受け時間設定手段は、前記最大待受け時間を短縮することを特徴とする音声認識装置。Maximum standby time setting means for setting a maximum standby time from the start of voice capture to the end of the voice capture enabled state,
A voice recognition device having a signal processing unit that recognizes voice input from the start of voice capture to the end of the maximum standby time set by the maximum standby time setting unit.
The speech recognition apparatus according to claim 1, wherein the maximum standby time setting means shortens the maximum standby time when a sound other than the voice to be recognized may be captured.
該同席者検出部によって同席者が検出されたときを、前記認識対象とする音声以外の音が取り込まれる可能性がある場合とすることを特徴とする請求項1記載の音声認識装置。Equipped with an attendee detection unit that detects the presence of an attendee,
The voice recognition device according to claim 1, wherein when the co-located person is detected by the co-located person detection unit, there is a possibility that a sound other than the voice to be recognized is taken in.
前記音信号が所定値以上あったときを、前記認識対象とする音声以外の音が取り込まれる可能性がある場合とすることを特徴とする請求項1記載の音声認識装置。A noise holding unit that holds a sound signal before the start of capturing the sound,
2. The speech recognition apparatus according to claim 1, wherein when the sound signal is equal to or more than a predetermined value, there is a possibility that a sound other than the speech to be recognized may be captured.
前記環境音増大予測部によって環境音の増大が予測されたときを、前記認識対象とする音声以外の音が取り込まれる可能性がある場合とすることを特徴とする請求項1記載の音声認識装置。An environmental sound increase prediction unit that predicts an increase in ambient environmental sound is provided,
2. The speech recognition apparatus according to claim 1, wherein a time when an increase in environmental sound is predicted by the environmental sound increase prediction unit is a case where a sound other than the voice to be recognized is likely to be captured. .
該車両の位置を検出する自車両位置検出部を備え、
前記環境音増大予測部は、前記自車両位置検出部によって検出された位置情報をもとに、環境音の増大が既知である領域に前記車両が進入した場合に、環境音が増大すると予測することを特徴とする請求項4記載の音声認識装置。Mounted on the vehicle,
A vehicle position detecting unit that detects a position of the vehicle,
The environmental sound increase prediction unit predicts that the environmental sound increases when the vehicle enters an area where the increase in the environmental sound is known, based on the position information detected by the host vehicle position detection unit. The speech recognition device according to claim 4, wherein:
該車両の周囲の車両を検出する車両監視部を備え、
前記環境音増大予測部は、前記車両監視部によって車両が検出された場合に、環境音が増大すると予測することを特徴とする請求項4記載の音声認識装置。Mounted on the vehicle,
A vehicle monitoring unit that detects vehicles around the vehicle,
The voice recognition device according to claim 4, wherein the environmental sound increase predicting unit predicts that environmental sound increases when the vehicle is detected by the vehicle monitoring unit.
音声取り込み開始から、前記最大待受け時間設定手段によって設定された最大待受け時間終了までの間に入力された音声を認識する信号処理部とを有する音声認識装置において、
前記信号処理部による音声認識処理の実行回数を計数する使用経験記憶部を備え、
該使用経験記憶部による係数値が所定値以上となった場合に、前記最大待受け時間設定手段は、前記最大待受け時間を短縮することを特徴とする音声認識装置。Maximum standby time setting means for setting a maximum standby time from the start of voice capture to the end of the voice capture enabled state,
A voice recognition device having a signal processing unit that recognizes voice input from the start of voice capture to the end of the maximum standby time set by the maximum standby time setting unit.
A use experience storage unit that counts the number of executions of the voice recognition process by the signal processing unit,
The speech recognition apparatus according to claim 1, wherein the maximum standby time setting means shortens the maximum standby time when the coefficient value stored in the use experience storage unit is equal to or greater than a predetermined value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351960A JP2004184715A (en) | 2002-12-04 | 2002-12-04 | Speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351960A JP2004184715A (en) | 2002-12-04 | 2002-12-04 | Speech recognition apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004184715A true JP2004184715A (en) | 2004-07-02 |
Family
ID=32753708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002351960A Withdrawn JP2004184715A (en) | 2002-12-04 | 2002-12-04 | Speech recognition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004184715A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251545A (en) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | Speech interaction system and computer program |
JP2009104020A (en) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | Voice recognition device |
JP2012037301A (en) * | 2010-08-05 | 2012-02-23 | Clarion Co Ltd | Inclination angle detection device for road and current position calculation device |
WO2019017715A1 (en) * | 2017-07-19 | 2019-01-24 | Samsung Electronics Co., Ltd. | Electronic device and system for deciding duration of receiving voice input based on context information |
-
2002
- 2002-12-04 JP JP2002351960A patent/JP2004184715A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251545A (en) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | Speech interaction system and computer program |
JP4667085B2 (en) * | 2005-03-11 | 2011-04-06 | 富士通株式会社 | Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method |
JP2009104020A (en) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | Voice recognition device |
JP2012037301A (en) * | 2010-08-05 | 2012-02-23 | Clarion Co Ltd | Inclination angle detection device for road and current position calculation device |
WO2019017715A1 (en) * | 2017-07-19 | 2019-01-24 | Samsung Electronics Co., Ltd. | Electronic device and system for deciding duration of receiving voice input based on context information |
US11048293B2 (en) | 2017-07-19 | 2021-06-29 | Samsung Electronics Co., Ltd. | Electronic device and system for deciding duration of receiving voice input based on context information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6515764B2 (en) | Dialogue device and dialogue method | |
US9230538B2 (en) | Voice recognition device and navigation device | |
WO2017081960A1 (en) | Voice recognition control system | |
US7280852B2 (en) | In-vehicle hands-free apparatus | |
US20090167516A1 (en) | Look-away detecting device, method and program | |
JP2007266754A (en) | Voice i/o device for vehicle and program for voice i/o device | |
JP2007279975A (en) | On-vehicle device, voice information providing system, and speaking speed adjusting method | |
JP2007219207A (en) | Speech recognition device | |
US7751796B2 (en) | In-vehicle emergency report device | |
EP1257146B1 (en) | Method and system of sound processing | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
KR20220041831A (en) | Activation of speech recognition | |
JP2016009202A (en) | Drive recorder and program for drive recorder | |
JP2010023639A (en) | In-cabin conversation assisting device | |
JP2004184715A (en) | Speech recognition apparatus | |
JP4438583B2 (en) | Driving assistance device | |
JP2019092077A (en) | Recording control device, recording control method, and program | |
JP3897946B2 (en) | Emergency information transmission system | |
JP2010179875A (en) | Information presentation system and mobile terminal | |
JP2009196528A (en) | Sound control device and sound control program | |
JP6332072B2 (en) | Dialogue device | |
JP2009098217A (en) | Speech recognition device, navigation device with speech recognition device, speech recognition method, speech recognition program and recording medium | |
JP2004198832A (en) | Speech recognition device | |
JP4178931B2 (en) | Voice recognition device | |
JP2014143594A (en) | Audio device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060207 |