JP2005300989A

JP2005300989A - 音声認識システム

Info

Publication number: JP2005300989A
Application number: JP2004118153A
Authority: JP
Inventors: Masaharu Nishikawa; 正治西川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-04-13
Filing date: 2004-04-13
Publication date: 2005-10-27

Abstract

【課題】音声認識に要する時間の短縮が可能であり、しかも、ユーザが期待するナビゲーション処理が実行される確率を向上させることのできる音声認識システムを提供する。
【解決手段】現在時刻を検出する現在時刻検出部１６と、現在位置を検出する現在位置検出部１５と、過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて時間帯および場所毎に格納した音声コマンドテーブル記憶部５と、発話された語彙を推定して文字列を生成する認識処理部３と、現在時刻検出部で検出された現在時刻が属する時間帯と現在位置検出部で検出された現在位置により決定される場所に対応する時間場所音声コマンドテーブルの部分を検索することにより認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部７と、音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部２０とを備えている。
【選択図】図１

Description

この発明は、例えばナビゲーション装置を音声で操作するために使用される音声認識システムに関する。

従来、ナビゲーション装置を音声で操作するために使用される音声認識システムが知られている。このような音声認識システムでは、ユーザの音声を良好に認識するために種々の工夫がなされている。例えば、自車の走行状況や地図データベースの情報を用いて音声認識対象語彙の絞り込みを行うことにより音声認識率を高めることが行われている。

このような音声認識対象語彙の絞り込みを行って音声認識率を高めた装置として、車両の進行方向、車両が走行中の道路の種別（一般道や高速道路）および地図の縮尺を検知して、認識対象とする地点名称や施設名称の絞り込みを行い、以て認識能力を向上させたナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置が知られている（例えば、特許文献１参照）。

特開平１１−１８３１９０号公報

しかしながら、上述した特許文献１に記載の技術では、認識対象語彙の絞り込みは十分とは言えず、ユーザの車両の日常的な利用方法を考慮してさらに認識対象語彙の絞り込みを行い、音声認識を効率よく実行させることが望まれている。

この発明は、上述した要請に応えるためになされたものであり、音声認識に要する時間の短縮が可能であり、しかも、ユーザが期待するナビゲーション処理が実行される確率を向上させることのできる音声認識システムを提供することを目的とする。

この発明に係る音声認識システムは、現在時刻を検出する現在時刻検出部と、現在位置を検出する現在位置検出部と、過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて時間帯および場所毎に格納した時間場所音声コマンドテーブルと、発話された語彙を推定して文字列を生成する認識処理部と、現在時刻検出部で検出された現在時刻が属する時間帯と現在位置検出部で検出された現在位置により決定される場所に対応する時間場所音声コマンドテーブルの部分を検索することにより認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部と、音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部とを備えているものである。

この発明によれば、過去に認識された音声コマンドを該音声コマンドが実行された時間帯と場所を用いて管理する時間場所音声コマンドテーブルを備え、この時間場所音声コマンドテーブルの、現在時刻が属する時間帯と現在位置により決定される場所に対応する部分を検索することにより、推定された文字列に対応する音声コマンドを決定するように構成したので、時間場所音声コマンドテーブルの全体を検索する必要がなく、特定の時間帯および場所において多く使用される音声コマンド、つまりユーザが常習的に使用する音声コマンドの検索時間を短縮できる。また、過去に認識された音声コマンドが格納された時間場所音声コマンドテーブルを検索することにより、発話された語彙に対応する音声コマンドが決定されるので、ナビゲーション装置においてユーザが期待する処理が実行される確率を向上させることができる。

以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識システムの構成を示すブロック図である。この音声認識システムは、ナビゲーション装置２２に音声認識装置２１が接続されることにより構成されている。

まず、ナビゲーション装置２２について説明する。このナビゲーション装置２２には、発話スイッチ８、スピーカ９、ディスプレイ１０およびＧＰＳ受信機１９が接続されている。

発話スイッチ８は、ユーザが、音声認識を開始する旨を手動操作によって指示するために使用される。この発話スイッチ８が操作されることによって発生されたアナログの発話開始信号はナビゲーション装置２２に送られる。ユーザは、音声によってナビゲーション装置２２を操作する場合は、発話スイッチ８を操作することにより、任意のタイミングで音声認識装置２１を起動することができる。

スピーカ９は、ナビゲーション装置２２から送られてくる音声信号に従って音声を発生し、ナビゲーション装置２２の状態や案内メッセージをユーザに通知する。ディスプレイ１０は、ナビゲーション装置２２から送られてくる映像信号に従って画像を表示し、ナビゲーション装置２２の状態や地図、案内メッセージなどをユーザに通知する。ＧＰＳ受信機１９は、ＧＰＳ衛星（図示しない）から送られてくる測位信号を受信し、ナビゲーション装置２２に送る。

ナビゲーション装置２２は、入力制御部１１、音声出力制御部１２、表示制御部１３、方位センサ１４、現在位置検出部１５、現在時刻検出部１６、地図データ記憶部１７、車速センサ１８およびナビゲーション処理実行部２０から構成されている。

入力制御部１１は、発話スイッチ８から送られてくるアナログの発話開始信号をデジタル信号に変換し、ナビゲーション処理実行部２０に送る。音声出力制御部１２は、ナビゲーション処理実行部２０から送られてくるデジタルの音声データをアナログの音声信号に変換し、スピーカ９に送る。

表示制御部１３は、ナビゲーション処理実行部２０から送られてくるデジタルの表示データをアナログの映像信号に変換し、ディスプレイ１０に送る。方位センサ１４は、自車の進行方位を検出する。この方位センサ１４で検出された方位は、方位データとしてナビゲーション処理実行部２０に送られる。

現在位置検出部１５は、ＧＰＳ受信機１９から送られてくる測位信号を解析し、自車の現在位置を検出する。現在位置検出部１５で検出された現在位置は緯度と経度とによって表されており、現在位置データとしてナビゲーション処理実行部２０に送られる。

現在時刻検出部１６は、ＧＰＳ受信機１９から送られてくる測位信号を解析し、該測位信号に含まれる日付および時刻のデータに基づいて現在の年号月日および時刻を検出する。この現在時刻検出部１６で検出された現在の年号月日および時刻は、日時データとしてナビゲーション処理実行部２０に送られる。

地図データ記憶部１７は、例えばＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＨＤＤといった大容量記憶装置から構成されており、道路、建物に関するデータや地図を構成する地図データを格納している。この地図データ記憶部１７の内容は、ナビゲーション処理実行部２０によって読み出される。

車速センサ１８は、自車の移動速度を検出する。この車速センサ１８で検出された移動速度は、速度データとしてナビゲーション処理実行部２０に送られる。

ナビゲーション処理実行部２０は、ナビゲーション装置２２の全体を制御する。具体的には、発話スイッチ８から入力制御部１１を介して送られてくる発話開始信号に応答して、音声認識処理の開始要求を音声認識装置２１に送る。この際、その時点における自車位置の日時データおよび背景データが併せて音声認識装置２１に送られる。背景データの詳細については後述する。

また、ナビゲーション処理実行部２０は、現在位置検出部１５から送られてくる現在位置データで示される地点を中心とする所定範囲の地図データを地図データ記憶部１７から読み出し、地図描画用の表示データを生成する。この表示データは、表示制御部１３を介してディスプレイ１０に送られる。これにより、ディスプレイ１０の画面上に、自車の現在位置を中心とする地図が表示される。

また、ナビゲーション処理実行部２０は、現在位置検出部１５から送られてくる現在位置データ、方位センサ１４から送られてくる方位データおよび車速センサ１８から送られてくる速度データとに基づき、地図描画用の表示データ上に自車マークを描画する。この自車マークは、地図上で方位データに応じた方向を向き、速度データに応じた速度で移動するように制御される。

次に、音声認識装置２１について説明する。音声認識装置２１は、音声入力制御部２３、音響処理部２、認識処理部３、音声コマンド辞書記憶部４、音声コマンドテーブル記憶部５、音声コマンド決定部７および音声認識制御部２４から構成されている。この音声認識装置２１にはマイクロフォン（以下、「マイク」と略する）１が接続されている。マイク１は、ユーザが発生した音声を電気信号に変換し、音声信号として音声認識装置２１に送る。

音声入力制御部２３は、音声認識制御部２４から送られてくる発話許可信号（後述する）に応答して起動され、マイク１から送られてくる音声信号を取り込み可能な音声取込許可状態に設定される。音声入力制御部２３は、音声取込許可状態で音声信号が取り込まれた場合は、その音声信号を音響処理部２に送る。一方、音声取込許可状態であるにも拘わらず音声信号が取り込まれなかった場合は、音声が検知されなかった旨の信号を音声認識制御部２４に送る。

音響処理部２は、音声入力制御部２３から送られてくるアナログの音声信号をデジタルの音声信号に変換する。この音響処理部２でデジタル信号に変換された音声信号は、認識処理部３に送られる。

認識処理部３は、音響処理部２から送られてくる音声信号に基づいて、ユーザによって発話された言葉（語彙）を推定し、文字列データに置き換える。この認識処理部３によって推定された文字列データは音声コマンド決定部７に送られる。

音声コマンド辞書記憶部４は、例えばフラッシュメモリといった不揮発性メモリから構成されており、一般辞書を記憶している。一般辞書は、予め登録された複数の音声コマンドから構成されており、これら複数の音声コマンドが音声認識対象語彙になる。各音声コマンドは、例えば半角カタカナの文字列データから構成されている。音声コマンド辞書記憶部４の内容は、音声コマンド決定部７によって読み出される。なお、音声コマンド辞書記憶部４としては、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＨＤＤといった大容量記憶装置から構成することもできる。

音声コマンドテーブル記憶部５は、書換可能なメモリから構成されており、時間場所音声コマンドテーブルを記憶している。この時間場所音声コマンドテーブルには、後述する音声認識処理の中で行われる学習処理によって得られる音声コマンドが格納される。この時間場所音声コマンドテーブルの詳細は後述する。

音声コマンド決定部７は、認識処理部３から送られてくる文字列データと音声コマンド辞書記憶部４または音声コマンドテーブル記憶部５から読み出した音声コマンドとを比較照合することにより、該文字列データに対応する音声コマンドを決定する。この音声コマンドの決定は、ナビゲーション処理実行部２０から送られてくる日時データと背景データとを用いて、後述するアルゴリズムに従って行われる。この音声コマンド決定部７で決定された音声コマンドは、音声認識制御部２４に送られる。

音声認識制御部２４は、音声認識装置２１の全体を制御するとともにナビゲーション装置２２との間のデータの送受を制御する。具体的には、音声認識制御部２４は、ナビゲーション装置２２のナビゲーション処理実行部２０から送られてくる音声認識処理の開始要求に応答して、発話許可信号を生成して音声入力制御部２３に送る。

また、音声認識制御部２４は、音声コマンド決定部７から送られてくる、学習処理によって得られた音声コマンドを音声コマンドテーブル記憶部５内の時間場所音声コマンドテーブルに格納する。

さらに、音声認識制御部２４は、音声コマンド決定部７で決定された音声コマンドに該当するナビゲーション処理をナビゲーション処理実行部２０に依頼する。ユーザは、音声認識処理の結果を、ナビゲーション処理実行部２０の処理結果に基づいてスピーカ９またはディスプレイ１０に出力される情報によって受け取ることになる。

次に、地図データ記憶部１７に格納される背景データについて説明する。図２は、ある地点でナビゲーション処理実行部２０が生成する地図描画用の表示データの模式図である。この図２は、２つの道路の交差点にファミリーレストランの店舖が位置している例を示している。店舗の区画は地図上ではポリゴンとして表現され、ポリゴンは地図データ上では１組の点列で表現される。図２に示した例では、点Ｐ１〜Ｐ４で囲まれる部分がポリゴンとなる。

このポリゴンには、その区画を表現するための識別子が付けられる。この識別子を「背景種別コード」と呼ぶ。このナビゲーションシステムで用いられる地図データでは、背景種別コードとして、ファミリーレストランやコンビニエンスストアといった建物を表すカテゴリの他、道路、工場、住宅地などが用いられるものとする。このような地図データの構造により、ナビゲーション処理実行部２０は、現在位置検出部１５から取得した現在位置データを元に、自車位置が属するポリゴンに関連付けられた背景種別コードを地図データ記憶部１７から取得可能になっている。

次に、音声コマンドテーブル記憶部５に格納されている時間場所音声コマンドテーブルについて説明する。図３は、時間場所音声コマンドテーブルの概念図である。縦軸の「場所」は背景種別コードを表し、横軸の「時間」は音声認識が実行された時間帯を表している。この音声認識装置２１では、音声認識操作が実施された時刻と、その時点で自車が属している背景種別コードが検出できるので、場所別および時間別の音声コマンドの管理が可能になっている。なお、図３に示した例では、時間帯は１時間毎に区切られているが任意の時間毎に区切ることができる。

この時間場所音声コマンドテーブルで管理されている音声コマンドには「認識ポイント」と呼ばれる情報が関連付けられている。この認識ポイントは、同じ時間帯且つ同じ場所で同じ音声コマンドが実行された時にインクリメントされるパラメータである。高い認識ポイントが関連付けられた音声コマンドは、その時間帯および場所において多く利用される音声コマンドであることを意味する。音声コマンド決定部７において、音声コマンドテーブル記憶部５から音声コマンドを検索する際には、認識ポイントの高い音声コマンドから検索が開始されるので、検索がヒットしやすくなっている。時間場所音声コマンドテーブルを実現するためのデータ構造の一例を図４に示す。

次に、上記のように構成される、この発明の実施の形態１に係る音声認識システムの動作を、図５に示すフローチャートを参照しながら説明する。

電源が投入されると、ナビゲーション装置２２が起動され、引き続いて、音声認識装置２１が起動されて各種処理変数の初期化が行われる。この初期化が完了すると、まず、発話スイッチ８が押下されたかどうかが調べられる（ステップＳＴ１０）。即ち、ナビゲーション装置２２のナビゲーション処理実行部２０は、発話スイッチ８から入力制御部１１を介して送られてくる発話開始信号を調べることにより、発話スイッチ８が押下されたかどうかを判断する。このステップＳＴ１０で、発話スイッチ８が押下されていないことが判断されると、このステップＳＴ１０を繰り返し実行しながら待機状態に入る。

この待機状態において、発話スイッチ８が押下されたことが判断されると、次いで、一定時間だけ音声信号が読み込まれる（ステップＳＴ１１）。即ち、ナビゲーション処理実行部２０は、受け取った発話開始信号を音声認識処理の開始要求を音声認識制御部２４に送る。この際、その時点の自車位置の日時データと背景データとが併せて音声認識制御部２４に送られる。音声認識制御部２４は、この音声認識処理の開始要求に応答して、発話許可信号を生成して一定時間だけ音声入力制御部２３に送る。これにより、音声入力制御部２３は、一定時間だけ音声信号を取り込む。そして、音声が検知されなかった場合は、その旨を表す信号を音声認識制御部２４に送る。

次いで、音声入力があったかどうかが調べられる（ステップＳＴ１２）。ナビゲーション処理実行部２０は、音声入力制御部２３から音声認識制御部２４を介して、音声が検知されなかった旨の信号が送られてきているかどうかを調べる。ここで、音声入力がないことが判断されると、シーケンスはステップＳＴ１０に戻り、上述したステップＳＴ１１〜ＳＴ１２の処理が繰り返し実行される。

このステップＳＴ１１〜ＳＴ１２の繰り返し実行の途中で、ステップＳＴ１２において音声入力があったことが判断されると、次いで、音声認識処理が実行される（ステップＳＴ１３）。即ち、音声入力制御部２３は、取り込んだ音声信号を音響処理部２に送る。音響処理部２は、音声入力制御部２３から受け取った音声信号をデジタル信号に変換して認識処理部３に送る。認識処理部は、認識処理部３から受け取ったデジタル信号に対応する文字列データを推定し、この推定により得られた文字列データを音声コマンド決定部７に送る。

次いで、音声認識実行日時の計測および背景種別コードの検出が行われる（ステップＳＴ１４）。即ち、音声認識制御部２４は、音声認識処理の開始要求と同時に受け取った日時データと背景データとに基づき時間帯および背景種別コードを生成して音声コマンド決定部７に送る。

次いで、時間場所音声コマンドテーブルから文字列データに対応する音声コマンドが検索される（ステップＳＴ１５）。具体的には、音声コマンド決定部７は、認識処理部３から送られてきた文字列データと、時間場所音声コマンドテーブルの中のステップＳＴ１４で取得された時間帯および背景種別コードに対応する場所を有する音声コマンドとを、高い認識ポイントに関連付けられた音声コマンドから順番に比較照合し、認識処理部３から送られてきた文字列データに対応する音声コマンドを検索する。

次いで、ステップＳＴ１５における検索の結果、該当する音声コマンドが検索されたかどうかが調べられる（ステップＳＴ１６）。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップＳＴ３０へ進み、学習処理（ステップＳＴ３０〜ＳＴ３６）が実行される。この学習処理の詳細は後述する。

上記ステップＳＴ１６において、該当する音声コマンドが検索されたことが判断されると、次いで、認識処理部３で推定された音声コマンドが時間場所音声コマンドテーブルに登録された音声コマンドであると認識され、検索結果の提示が行われる（ステップＳＴ１７）。具体的には、音声コマンド決定部７は、検索された音声コマンドを、音声認識制御部２４を介してナビゲーション処理実行部２０に送る。ナビゲーション処理実行部２０は、受け取った音声コマンドを音声出力制御部１２を介してスピーカ９に送るとともに表示制御部１３を介してディスプレイ１０に送る。これにより、音声案内と画面表示とによって、音声コマンドに対応したナビゲーション処理を実行してよいかどうの問い合わせがユーザに対して行われ、入力操作が促がされる。ユーザは、この問い合わせに応答して、図示しない操作パネルを操作して、ナビゲーション処理の実行の可否を指示する。

次いで、提示結果が正しいかどうかが調べられる（ステップＳＴ１８）。即ち、ナビゲーション処理の実行がユーザによって許可されたかどうかが調べられる。ここで、提示結果が正しくない、つまりナビゲーション処理の実行が許可されなかったことが判断されると、シーケンスはステップＳＴ１０に戻り、音声認識処理のやり直しが行われる。

一方、ステップＳＴ１８で、提示結果が正しいことが判断されると、認識ポイントの加算が行われる（ステップＳＴ１９）。即ち、音声コマンド決定部７から音声コマンドを受け取った音声認識制御部２４は、その音声コマンドに対応する認識ポイントをインクリメントする。次いで、音声コマンドの実行が行われる（ステップＳＴ２０）。即ち、音声認識制御部２４は、音声コマンドに対応するナビゲーション処理をナビゲーション処理実行部２０に依頼する。これにより、ナビゲーション装置２２は、音声コマンドに応じた動作を実現するためのナビゲーション処理を実行する。

次いで、電源がオフにされたかどうかが調べられる（ステップＳＴ２１）。ここで、電源がオフにされていないことが判断されると、シーケンスはステップＳＴ１０に戻り、再び音声認識操作の待機状態に遷移する。従って、電源がオフにされない限りは、音声認識機能はアクティブの状態にされている。一方、ステップＳＴ２１で、電源がオフにされたことが判断されると、一連の音声認識処理用に確保されていたメモリ領域が開放され、処理が終了する。

次に、学習処理について説明する。学習処理は、図５に示すフローチャートのステップＳＴ３０〜ＳＴ３６の処理によって実現されている。

上述したように、ステップＳＴ１６において、該当する音声コマンドが検索されなかったことが判断されると、一般辞書から音声コマンドが検索がされる（ステップＳＴ３０）。即ち、音声コマンド決定部７は、認識処理部３から送られてきた文字列データに対応する音声コマンドを取得するために、音声コマンド辞書記憶部４に格納されている一般辞書を検索する。次いで、該当する音声コマンドが検索されたかどうかが調べられる（ステップＳＴ３１）。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップＳＴ１０に戻り、音声認識処理のやり直しが行われる。

一方、ステップＳＴ３１で、該当する音声コマンドが検索されたことが判断されると、音声コマンドの生成が行われる（ステップＳＴ３２）。具体的には、音声コマンド決定部７は、認識処理部３から送られてきた文字列データが検索された音声コマンドであると推定し、この推定した音声コマンドとステップＳＴ１５で取得された実行時刻および背景種別コードとを関連付けた音声コマンドを生成する。このステップＳＴ３２で生成された音声コマンド、実行時刻および背景種別コードは、音声認識制御部２４に送られる。

次いで、検索結果の提示が行われる（ステップＳＴ３３）。この処理は、上述したステップＳＴ１７の処理と同じである。次いで、提示結果が正しいかどうかが調べられる（ステップＳＴ３４）。この処理はステップＳＴ１８の処理と同じである。ここで、提示結果が正しいことが判断されると、ステップＳＴ３２で生成された音声コマンドが時間場所音声コマンドテーブルに追加される（ステップＳＴ３５）。具体的には、音声認識制御部２４は、ステップＳＴ３２で音声コマンド決定部７から受け取った音声コマンド、実行時刻および背景種別コードを、時間場所音声コマンドテーブルの該実行時刻および背景種別コードに対応する位置に追加する。この場合、認識ポイントは「１」に設定される。その後、シーケンスはステップＳＴ２０に進み、音声コマンドの実行が行われる。以後は、上述した処理が繰り返される。

一方、ステップＳＴ３４で提示結果が正しくない、つまり、ナビゲーション処理の実行が許可されなかったことが判断されると、ステップＳＴ３２で生成された音声コマンドは破棄される（ステップＳＴ３６）。その後、シーケンスはステップＳＴ１０に戻り、音声認識操作の待機状態へ遷移する。

以上説明したように、この発明の実施の形態１に係る音声認識システムによれば、特定の時間帯および場所において多く使用される音声コマンドが絞り込まれるため、ユーザが通常使用する音声コマンドを検索する場合は、一般辞書の全ての音声コマンドを検索する場合に比べて、検索時間を大幅に短縮できる。また、音声コマンドの認識においては、過去に認識された音声コマンドが優先的に検索されるので、ユーザが期待するナビゲーション処理が実行される確率を向上させることができる。

実施の形態２．
この発明の実施の形態２に係る音声認識システムは、抽象的な音声コマンドを認識して時間と場所で音声コマンドに対応するナビゲーション処理を切り換えるものである。

日常の会話では、「仕事に行く」、「食事に行く」、「ちょっと出かける」といった抽象約な表現が用いられる。また、このような語句の意味は、それが使用される状況によって目的地が変わるものである。一方、ナビゲーション装置へ目的地を設定する場合には具体的な目的地をユーザが指示する必要がある。そこで、実施の形態２に係る音声認識装置は、一般辞書に登録されている抽象的な音声コマンド（例えば「食事に行く」、「ちょっと出かける」など）を編集する機能を有し、抽象的な音声コマンドを認識した時の状況（時間および場所）によって目的地の設定先を変更するように構成されている。

この実施の形態２に係る音声認識システムの構成は、図１に示した実施の形態１に係る音声認識システムの構成と同じである。

この実施の形態２に係る音声認識装置２１では、音声コマンド辞書記憶部４に格納されている音声コマンドには抽象的な音声コマンド（以下、「抽象音声コマンド」という）が含まれており、他の音声コマンドとは区別できるようになっている。

抽象音声コマンドと、その抽象音声コマンドに対応したナビゲーション処理で必要なパラメータとを関連付けて管理するための時間場所音声コマンドテーブルのデータ構造の一例を図６に示す。抽象音声コマンドは、目的地設定を主目的とするため、これに必要なパラメータとして「目的地」が設けられている。

次に、上記のように構成される、この発明の実施の形態２に係る音声認識システムの動作を、図７に示すフローチャートを参照しながら説明する。なお、以下の説明では、図５に示した実施の形態１に係る音声認識システムの処理と同一部分には同一の符号を付して説明を省略または簡略化する。

学習処理を除く通常の音声認識処理（ステップＳＴ１０〜ＳＴ２１）は、実施の形態１のそれと同じであるので説明を省略する。

初期状態で抽象音声コマンドが発話された場合、音声コマンドテーブル記憶部５に格納された時間場所音声コマンドテーブルには過去に用いられた抽象音声コマンドは存在しない。従って、ステップＳＴ１６では、該当する音声コマンドは存在しないと判断されるのでシーケンスはステップＳＴ３０に進み、一般辞書から音声コマンドが検索がされる。次いで、該当する音声コマンドが検索されたかどうかが調べられる（ステップＳＴ３１）。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップＳＴ１０に戻り、音声認識処理のやり直しが行われる。

一方、ステップＳＴ３１で、該当する音声コマンドが検索されたことが判断されると、その検索された音声コマンドは、抽象音声コマンドであるかどうかが調べられる（ステップＳＴ４０）。ここで、抽象音声コマンドでないことが判断されると、シーケンスはステップＳＴ３２に進む。一方、抽象音声コマンドであることが判断されると、次いで、目的地パラメータの追加が行われる（ステップＳＴ４１）。具体的には、その抽象音声コマンドで目的地設定処理を行った時に設定される目的地をユーザに選択させる処理が行われる。選択の方法は、詳細な説明は省略するが、通常のナビゲーション処理でサポートされている地点検索機能を用いて行うことができる。これにより、抽象音声コマンドに対応する目的地が決定される。その後、シーケンスはステップＳＴ３２に進む。

ステップＳＴ３２では、時間場所音声コマンドテーブルに登録する音声コマンドが生成される。具体的には、音声コマンド決定部７は、認識処理部３から送られてきた文字列データが検索された音声コマンドであると推定し、この推定した音声コマンドとステップＳＴ１５で取得された実行時刻および背景種別コードと、さらにステップＳＴ４１で決定された目的地を関連付けた音声コマンドを生成する。このステップＳＴ３２で生成された音声コマンド、実行時刻、背景種別コードおよび目的地は、音声認識制御部２４に送られる。

次いで、検索結果の提示が行われる（ステップＳＴ３３）。次いで、提示結果が正しいかどうかが調べられる（ステップＳＴ３４）。ここで、提示結果が正しいことが判断されると、ステップＳＴ３２で生成された音声コマンドが時間場所音声コマンドテーブルに追加される（ステップＳＴ３５）。具体的には、音声認識制御部２４は、ステップＳＴ３２で音声コマンド決定部７から受け取った音声コマンド、実行時刻、背景種別コードおよび目的地を、時間場所音声コマンドテーブルの該実行時刻および背景種別コードに対応する位置に追加する。この場合、認識ポイントは「１」に設定される。その後、シーケンスはステップＳＴ２０に進み、音声コマンドの実行が行われる。時間場所音声コマンドテーブルに格納された目的地は、ステップＳＴ２０で音声コマンドが実行される際に、目的地設定要求と共にナビゲーション処理実行部２０へ通知され、ナビゲーションシステムの目的地設定処理に利用される。

次に、時間場所音声コマンドテーブルに登録された抽象音声コマンドが検索された場合について説明する。

ステップＳＴ１６において、認識処理部３で推定された音声コマンドが時間場所音声コマンドテーブルに登録された抽象音声コマンドであると認識されると、検索結果の提示が行われる（ステップＳＴ１７）。次いで、提示結果が正しいかどうかが調べられる（ステップＳＴ１８）。ここで、提示結果が正しくない、つまりナビゲーション処理の実行が許可されなかった（換言すれば設定される目的地が所望の場所ではなかった）ことが判断されると、検索された音声コマンドは、抽象音声コマンドであるかどうかが調べられる（ステップＳＴ５０）。ここで、抽象音声コマンドでないことが判断されると、シーケンスはステップＳＴ１０に戻り、音声認識処理のやり直しが行われる。

一方、ステップＳＴ５０において、抽象音声コマンドであることが判断されると、目的地パラメータの変更が行われる（ステップＳＴ５１）。具体的には、その抽象音声コマンドで目的設定処理を行った時に設定される目的地をユーザに変更させる処理が行われる。変更の方法は、通常のナビゲーション処理でサポートされている地点検索機能（図示は省略する）を用いて行うことができる。これにより、抽象音声コマンドに対応する目的地が変更される。その後、シーケンスはステップＳＴ３２に進む。

以上の処理が繰り返し実行されることにより、同一の音声コマンドに対して時間と場所によってユーザヘの応答を変化させることが可能になる。例えば、「晩飯を食べに行く」という日常でよく使われる抽象的な言葉が音声コマンドとして一般辞書に登録されているとする。過去に土曜日の１７：３０に自宅周辺で目的地を「高級レストランＡ」に設定して音声認識操作を完了したとする。次に、金曜日の１７：１５に勤め先周辺で「晩飯を食べに行く」という音声認識処理で「ファミリーレストランＡ」に目的地を設定したとする。このような操作がなされた以後は、抽象的な言葉である「晩飯を食べに行く」と発話するだけで、時間と場所に関する過去の条件を考慮して、目的地を「高級レストランＡ」や「ファミリーレストランＡ」に自動的に設定できる。

以上説明したように、この発明の実施の形態２に係る音声認識システムによれば、通常行われるナビゲーション操作を抽象的な語彙を用いて操作できる。例えば、職場で「ちょっと行ってくる」と発話することにより目的地を得意先に設定したり、自宅で「ちょっと行ってくる」と発話することにより目的地を娯楽施設に設定したりすることが可能になる。

なお、上述した実施の形態１および実施の形態２に係る音声認識システムでは、音声コマンドテーブル記憶部５に格納する音声コマンドテーブルとして、「時間帯」と背景種別コードから成る「場所」とで音声コマンドを分類して登録するように構成したが、「場所」には、背景種別コードと背景データの位置（緯度、経度）を含めるように構成することもできる。この場合、音声コマンドの詳細な分類が可能になる。

この発明の実施の形態１に係る音声認識システムの構成を示すブロック図である。この発明の実施の形態１に係る音声認識システムで使用される地図描画用の表示データの模式図である。この発明の実施の形態１に係る音声認識システムで使用される時間場所音声コマンドテーブルの概念図である。この発明の実施の形態１に係る音声認識システムで使用される時間場所音声コマンドテーブルのデータ構造の一例を示す図である。この発明の実施の形態１に係る音声認識システムの動作を説明するためのフローチャートである。この発明の実施の形態２に係る音声認識システムで使用される時間場所音声コマンドテーブルのデータ構造の一例を示す図である。この発明の実施の形態２に係る音声認識システムの動作を説明するためのフローチャートである。

符号の説明

１マイクロフォン、２音響処理部、３認識処理部、４音声コマンド辞書記憶部、５音声コマンドテーブル記憶部、７音声コマンド決定部、８発話スイッチ、９スピーカ、１０ディスプレイ、１１入力制御部、１２音声出力制御部、１３表示制御部、１４方位センサ、１５現在位置検出部、１６現在時刻検出部、１７地図データ記憶部、１８車速センサ、１９ＧＰＳ受信機、２０ナビゲーション処理実行部、２１音声認識装置、２２ナビゲーション装置。

Claims

現在時刻を検出する現在時刻検出部と、
現在位置を検出する現在位置検出部と、
過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて前記時間帯および場所毎に格納した時間場所音声コマンドテーブルと、
発話された語彙を推定して文字列を生成する認識処理部と、
前記現在時刻検出部で検出された現在時刻が属する時間帯と前記現在位置検出部で検出された現在位置により決定される場所に対応する前記時間場所音声コマンドテーブルの部分を検索することにより前記認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部と、
前記音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部
とを備えた音声認識システム。
場所は、地図の構成要素を表す背景種別コードからなることを特徴とする請求項１記載の音声認識システム。
時間場所音声コマンドテーブルに格納されている音声コマンドには、該音声コマンドが実行される毎にインクリメントされる認識ポイントがさらに関連付けられており、
音声コマンド決定部は、前記時間場所音声コマンドテーブルを検索する際に、高い認識ポイントが関連付けられた音声コマンドから順番に検索を行うことを特徴とする請求項１記載の音声認識システム。
複数の音声コマンドを含む一般辞書をさらに備え、
音声コマンド決定部は、認識処理部で推定された文字列に対応する音声コマンドを時間場所音声コマンドテーブルから検索できなかった場合は、前記一般辞書を検索することにより前記認識処理部で推定された文字列に対応する音声コマンドを決定し、該決定された音声コマンドを前記時間場所音声コマンドテーブルに登録することを特徴とする請求項１記載の音声認識システム。
時間場所音声コマンドテーブルに格納されている音声コマンドには、該音声コマンドが実行された際の処理内容を表す情報がさらに関連付けられており、
ナビゲーション処理実行部は、音声コマンド決定部で決定された音声コマンドを実行する際は、該音声コマンドに関連付けられた処理内容を表す情報に従って該音声コマンドを実行することを特徴とする請求項１記載の音声認識システム。
時間場所音声コマンドテーブルに格納されている音声コマンドに関連付けられた処理内容を表す情報は、ナビゲーション処理実行部による処理によって設定される目的地を表す情報であることを特徴とする請求項５記載の音声認識システム。