JP2005300989A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2005300989A
JP2005300989A JP2004118153A JP2004118153A JP2005300989A JP 2005300989 A JP2005300989 A JP 2005300989A JP 2004118153 A JP2004118153 A JP 2004118153A JP 2004118153 A JP2004118153 A JP 2004118153A JP 2005300989 A JP2005300989 A JP 2005300989A
Authority
JP
Japan
Prior art keywords
voice command
voice
time
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004118153A
Other languages
English (en)
Inventor
Masaharu Nishikawa
正治 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004118153A priority Critical patent/JP2005300989A/ja
Publication of JP2005300989A publication Critical patent/JP2005300989A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

【課題】 音声認識に要する時間の短縮が可能であり、しかも、ユーザが期待するナビゲーション処理が実行される確率を向上させることのできる音声認識システムを提供する。
【解決手段】 現在時刻を検出する現在時刻検出部16と、現在位置を検出する現在位置検出部15と、過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて時間帯および場所毎に格納した音声コマンドテーブル記憶部5と、発話された語彙を推定して文字列を生成する認識処理部3と、現在時刻検出部で検出された現在時刻が属する時間帯と現在位置検出部で検出された現在位置により決定される場所に対応する時間場所音声コマンドテーブルの部分を検索することにより認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部7と、音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部20とを備えている。
【選択図】 図1

Description

この発明は、例えばナビゲーション装置を音声で操作するために使用される音声認識システムに関する。
従来、ナビゲーション装置を音声で操作するために使用される音声認識システムが知られている。このような音声認識システムでは、ユーザの音声を良好に認識するために種々の工夫がなされている。例えば、自車の走行状況や地図データベースの情報を用いて音声認識対象語彙の絞り込みを行うことにより音声認識率を高めることが行われている。
このような音声認識対象語彙の絞り込みを行って音声認識率を高めた装置として、車両の進行方向、車両が走行中の道路の種別(一般道や高速道路)および地図の縮尺を検知して、認識対象とする地点名称や施設名称の絞り込みを行い、以て認識能力を向上させたナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置が知られている(例えば、特許文献1参照)。
特開平11−183190号公報
しかしながら、上述した特許文献1に記載の技術では、認識対象語彙の絞り込みは十分とは言えず、ユーザの車両の日常的な利用方法を考慮してさらに認識対象語彙の絞り込みを行い、音声認識を効率よく実行させることが望まれている。
この発明は、上述した要請に応えるためになされたものであり、音声認識に要する時間の短縮が可能であり、しかも、ユーザが期待するナビゲーション処理が実行される確率を向上させることのできる音声認識システムを提供することを目的とする。
この発明に係る音声認識システムは、現在時刻を検出する現在時刻検出部と、現在位置を検出する現在位置検出部と、過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて時間帯および場所毎に格納した時間場所音声コマンドテーブルと、発話された語彙を推定して文字列を生成する認識処理部と、現在時刻検出部で検出された現在時刻が属する時間帯と現在位置検出部で検出された現在位置により決定される場所に対応する時間場所音声コマンドテーブルの部分を検索することにより認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部と、音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部とを備えているものである。
この発明によれば、過去に認識された音声コマンドを該音声コマンドが実行された時間帯と場所を用いて管理する時間場所音声コマンドテーブルを備え、この時間場所音声コマンドテーブルの、現在時刻が属する時間帯と現在位置により決定される場所に対応する部分を検索することにより、推定された文字列に対応する音声コマンドを決定するように構成したので、時間場所音声コマンドテーブルの全体を検索する必要がなく、特定の時間帯および場所において多く使用される音声コマンド、つまりユーザが常習的に使用する音声コマンドの検索時間を短縮できる。また、過去に認識された音声コマンドが格納された時間場所音声コマンドテーブルを検索することにより、発話された語彙に対応する音声コマンドが決定されるので、ナビゲーション装置においてユーザが期待する処理が実行される確率を向上させることができる。
以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識システムの構成を示すブロック図である。この音声認識システムは、ナビゲーション装置22に音声認識装置21が接続されることにより構成されている。
まず、ナビゲーション装置22について説明する。このナビゲーション装置22には、発話スイッチ8、スピーカ9、ディスプレイ10およびGPS受信機19が接続されている。
発話スイッチ8は、ユーザが、音声認識を開始する旨を手動操作によって指示するために使用される。この発話スイッチ8が操作されることによって発生されたアナログの発話開始信号はナビゲーション装置22に送られる。ユーザは、音声によってナビゲーション装置22を操作する場合は、発話スイッチ8を操作することにより、任意のタイミングで音声認識装置21を起動することができる。
スピーカ9は、ナビゲーション装置22から送られてくる音声信号に従って音声を発生し、ナビゲーション装置22の状態や案内メッセージをユーザに通知する。ディスプレイ10は、ナビゲーション装置22から送られてくる映像信号に従って画像を表示し、ナビゲーション装置22の状態や地図、案内メッセージなどをユーザに通知する。GPS受信機19は、GPS衛星(図示しない)から送られてくる測位信号を受信し、ナビゲーション装置22に送る。
ナビゲーション装置22は、入力制御部11、音声出力制御部12、表示制御部13、方位センサ14、現在位置検出部15、現在時刻検出部16、地図データ記憶部17、車速センサ18およびナビゲーション処理実行部20から構成されている。
入力制御部11は、発話スイッチ8から送られてくるアナログの発話開始信号をデジタル信号に変換し、ナビゲーション処理実行部20に送る。音声出力制御部12は、ナビゲーション処理実行部20から送られてくるデジタルの音声データをアナログの音声信号に変換し、スピーカ9に送る。
表示制御部13は、ナビゲーション処理実行部20から送られてくるデジタルの表示データをアナログの映像信号に変換し、ディスプレイ10に送る。方位センサ14は、自車の進行方位を検出する。この方位センサ14で検出された方位は、方位データとしてナビゲーション処理実行部20に送られる。
現在位置検出部15は、GPS受信機19から送られてくる測位信号を解析し、自車の現在位置を検出する。現在位置検出部15で検出された現在位置は緯度と経度とによって表されており、現在位置データとしてナビゲーション処理実行部20に送られる。
現在時刻検出部16は、GPS受信機19から送られてくる測位信号を解析し、該測位信号に含まれる日付および時刻のデータに基づいて現在の年号月日および時刻を検出する。この現在時刻検出部16で検出された現在の年号月日および時刻は、日時データとしてナビゲーション処理実行部20に送られる。
地図データ記憶部17は、例えばDVD−ROM、DVD−RAM、HDDといった大容量記憶装置から構成されており、道路、建物に関するデータや地図を構成する地図データを格納している。この地図データ記憶部17の内容は、ナビゲーション処理実行部20によって読み出される。
車速センサ18は、自車の移動速度を検出する。この車速センサ18で検出された移動速度は、速度データとしてナビゲーション処理実行部20に送られる。
ナビゲーション処理実行部20は、ナビゲーション装置22の全体を制御する。具体的には、発話スイッチ8から入力制御部11を介して送られてくる発話開始信号に応答して、音声認識処理の開始要求を音声認識装置21に送る。この際、その時点における自車位置の日時データおよび背景データが併せて音声認識装置21に送られる。背景データの詳細については後述する。
また、ナビゲーション処理実行部20は、現在位置検出部15から送られてくる現在位置データで示される地点を中心とする所定範囲の地図データを地図データ記憶部17から読み出し、地図描画用の表示データを生成する。この表示データは、表示制御部13を介してディスプレイ10に送られる。これにより、ディスプレイ10の画面上に、自車の現在位置を中心とする地図が表示される。
また、ナビゲーション処理実行部20は、現在位置検出部15から送られてくる現在位置データ、方位センサ14から送られてくる方位データおよび車速センサ18から送られてくる速度データとに基づき、地図描画用の表示データ上に自車マークを描画する。この自車マークは、地図上で方位データに応じた方向を向き、速度データに応じた速度で移動するように制御される。
次に、音声認識装置21について説明する。音声認識装置21は、音声入力制御部23、音響処理部2、認識処理部3、音声コマンド辞書記憶部4、音声コマンドテーブル記憶部5、音声コマンド決定部7および音声認識制御部24から構成されている。この音声認識装置21にはマイクロフォン(以下、「マイク」と略する)1が接続されている。マイク1は、ユーザが発生した音声を電気信号に変換し、音声信号として音声認識装置21に送る。
音声入力制御部23は、音声認識制御部24から送られてくる発話許可信号(後述する)に応答して起動され、マイク1から送られてくる音声信号を取り込み可能な音声取込許可状態に設定される。音声入力制御部23は、音声取込許可状態で音声信号が取り込まれた場合は、その音声信号を音響処理部2に送る。一方、音声取込許可状態であるにも拘わらず音声信号が取り込まれなかった場合は、音声が検知されなかった旨の信号を音声認識制御部24に送る。
音響処理部2は、音声入力制御部23から送られてくるアナログの音声信号をデジタルの音声信号に変換する。この音響処理部2でデジタル信号に変換された音声信号は、認識処理部3に送られる。
認識処理部3は、音響処理部2から送られてくる音声信号に基づいて、ユーザによって発話された言葉(語彙)を推定し、文字列データに置き換える。この認識処理部3によって推定された文字列データは音声コマンド決定部7に送られる。
音声コマンド辞書記憶部4は、例えばフラッシュメモリといった不揮発性メモリから構成されており、一般辞書を記憶している。一般辞書は、予め登録された複数の音声コマンドから構成されており、これら複数の音声コマンドが音声認識対象語彙になる。各音声コマンドは、例えば半角カタカナの文字列データから構成されている。音声コマンド辞書記憶部4の内容は、音声コマンド決定部7によって読み出される。なお、音声コマンド辞書記憶部4としては、DVD−ROM、DVD−RAM、HDDといった大容量記憶装置から構成することもできる。
音声コマンドテーブル記憶部5は、書換可能なメモリから構成されており、時間場所音声コマンドテーブルを記憶している。この時間場所音声コマンドテーブルには、後述する音声認識処理の中で行われる学習処理によって得られる音声コマンドが格納される。この時間場所音声コマンドテーブルの詳細は後述する。
音声コマンド決定部7は、認識処理部3から送られてくる文字列データと音声コマンド辞書記憶部4または音声コマンドテーブル記憶部5から読み出した音声コマンドとを比較照合することにより、該文字列データに対応する音声コマンドを決定する。この音声コマンドの決定は、ナビゲーション処理実行部20から送られてくる日時データと背景データとを用いて、後述するアルゴリズムに従って行われる。この音声コマンド決定部7で決定された音声コマンドは、音声認識制御部24に送られる。
音声認識制御部24は、音声認識装置21の全体を制御するとともにナビゲーション装置22との間のデータの送受を制御する。具体的には、音声認識制御部24は、ナビゲーション装置22のナビゲーション処理実行部20から送られてくる音声認識処理の開始要求に応答して、発話許可信号を生成して音声入力制御部23に送る。
また、音声認識制御部24は、音声コマンド決定部7から送られてくる、学習処理によって得られた音声コマンドを音声コマンドテーブル記憶部5内の時間場所音声コマンドテーブルに格納する。
さらに、音声認識制御部24は、音声コマンド決定部7で決定された音声コマンドに該当するナビゲーション処理をナビゲーション処理実行部20に依頼する。ユーザは、音声認識処理の結果を、ナビゲーション処理実行部20の処理結果に基づいてスピーカ9またはディスプレイ10に出力される情報によって受け取ることになる。
次に、地図データ記憶部17に格納される背景データについて説明する。図2は、ある地点でナビゲーション処理実行部20が生成する地図描画用の表示データの模式図である。この図2は、2つの道路の交差点にファミリーレストランの店舖が位置している例を示している。店舗の区画は地図上ではポリゴンとして表現され、ポリゴンは地図データ上では1組の点列で表現される。図2に示した例では、点P1〜P4で囲まれる部分がポリゴンとなる。
このポリゴンには、その区画を表現するための識別子が付けられる。この識別子を「背景種別コード」と呼ぶ。このナビゲーションシステムで用いられる地図データでは、背景種別コードとして、ファミリーレストランやコンビニエンスストアといった建物を表すカテゴリの他、道路、工場、住宅地などが用いられるものとする。このような地図データの構造により、ナビゲーション処理実行部20は、現在位置検出部15から取得した現在位置データを元に、自車位置が属するポリゴンに関連付けられた背景種別コードを地図データ記憶部17から取得可能になっている。
次に、音声コマンドテーブル記憶部5に格納されている時間場所音声コマンドテーブルについて説明する。図3は、時間場所音声コマンドテーブルの概念図である。縦軸の「場所」は背景種別コードを表し、横軸の「時間」は音声認識が実行された時間帯を表している。この音声認識装置21では、音声認識操作が実施された時刻と、その時点で自車が属している背景種別コードが検出できるので、場所別および時間別の音声コマンドの管理が可能になっている。なお、図3に示した例では、時間帯は1時間毎に区切られているが任意の時間毎に区切ることができる。
この時間場所音声コマンドテーブルで管理されている音声コマンドには「認識ポイント」と呼ばれる情報が関連付けられている。この認識ポイントは、同じ時間帯且つ同じ場所で同じ音声コマンドが実行された時にインクリメントされるパラメータである。高い認識ポイントが関連付けられた音声コマンドは、その時間帯および場所において多く利用される音声コマンドであることを意味する。音声コマンド決定部7において、音声コマンドテーブル記憶部5から音声コマンドを検索する際には、認識ポイントの高い音声コマンドから検索が開始されるので、検索がヒットしやすくなっている。時間場所音声コマンドテーブルを実現するためのデータ構造の一例を図4に示す。
次に、上記のように構成される、この発明の実施の形態1に係る音声認識システムの動作を、図5に示すフローチャートを参照しながら説明する。
電源が投入されると、ナビゲーション装置22が起動され、引き続いて、音声認識装置21が起動されて各種処理変数の初期化が行われる。この初期化が完了すると、まず、発話スイッチ8が押下されたかどうかが調べられる(ステップST10)。即ち、ナビゲーション装置22のナビゲーション処理実行部20は、発話スイッチ8から入力制御部11を介して送られてくる発話開始信号を調べることにより、発話スイッチ8が押下されたかどうかを判断する。このステップST10で、発話スイッチ8が押下されていないことが判断されると、このステップST10を繰り返し実行しながら待機状態に入る。
この待機状態において、発話スイッチ8が押下されたことが判断されると、次いで、一定時間だけ音声信号が読み込まれる(ステップST11)。即ち、ナビゲーション処理実行部20は、受け取った発話開始信号を音声認識処理の開始要求を音声認識制御部24に送る。この際、その時点の自車位置の日時データと背景データとが併せて音声認識制御部24に送られる。音声認識制御部24は、この音声認識処理の開始要求に応答して、発話許可信号を生成して一定時間だけ音声入力制御部23に送る。これにより、音声入力制御部23は、一定時間だけ音声信号を取り込む。そして、音声が検知されなかった場合は、その旨を表す信号を音声認識制御部24に送る。
次いで、音声入力があったかどうかが調べられる(ステップST12)。ナビゲーション処理実行部20は、音声入力制御部23から音声認識制御部24を介して、音声が検知されなかった旨の信号が送られてきているかどうかを調べる。ここで、音声入力がないことが判断されると、シーケンスはステップST10に戻り、上述したステップST11〜ST12の処理が繰り返し実行される。
このステップST11〜ST12の繰り返し実行の途中で、ステップST12において音声入力があったことが判断されると、次いで、音声認識処理が実行される(ステップST13)。即ち、音声入力制御部23は、取り込んだ音声信号を音響処理部2に送る。音響処理部2は、音声入力制御部23から受け取った音声信号をデジタル信号に変換して認識処理部3に送る。認識処理部は、認識処理部3から受け取ったデジタル信号に対応する文字列データを推定し、この推定により得られた文字列データを音声コマンド決定部7に送る。
次いで、音声認識実行日時の計測および背景種別コードの検出が行われる(ステップST14)。即ち、音声認識制御部24は、音声認識処理の開始要求と同時に受け取った日時データと背景データとに基づき時間帯および背景種別コードを生成して音声コマンド決定部7に送る。
次いで、時間場所音声コマンドテーブルから文字列データに対応する音声コマンドが検索される(ステップST15)。具体的には、音声コマンド決定部7は、認識処理部3から送られてきた文字列データと、時間場所音声コマンドテーブルの中のステップST14で取得された時間帯および背景種別コードに対応する場所を有する音声コマンドとを、高い認識ポイントに関連付けられた音声コマンドから順番に比較照合し、認識処理部3から送られてきた文字列データに対応する音声コマンドを検索する。
次いで、ステップST15における検索の結果、該当する音声コマンドが検索されたかどうかが調べられる(ステップST16)。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップST30へ進み、学習処理(ステップST30〜ST36)が実行される。この学習処理の詳細は後述する。
上記ステップST16において、該当する音声コマンドが検索されたことが判断されると、次いで、認識処理部3で推定された音声コマンドが時間場所音声コマンドテーブルに登録された音声コマンドであると認識され、検索結果の提示が行われる(ステップST17)。具体的には、音声コマンド決定部7は、検索された音声コマンドを、音声認識制御部24を介してナビゲーション処理実行部20に送る。ナビゲーション処理実行部20は、受け取った音声コマンドを音声出力制御部12を介してスピーカ9に送るとともに表示制御部13を介してディスプレイ10に送る。これにより、音声案内と画面表示とによって、音声コマンドに対応したナビゲーション処理を実行してよいかどうの問い合わせがユーザに対して行われ、入力操作が促がされる。ユーザは、この問い合わせに応答して、図示しない操作パネルを操作して、ナビゲーション処理の実行の可否を指示する。
次いで、提示結果が正しいかどうかが調べられる(ステップST18)。即ち、ナビゲーション処理の実行がユーザによって許可されたかどうかが調べられる。ここで、提示結果が正しくない、つまりナビゲーション処理の実行が許可されなかったことが判断されると、シーケンスはステップST10に戻り、音声認識処理のやり直しが行われる。
一方、ステップST18で、提示結果が正しいことが判断されると、認識ポイントの加算が行われる(ステップST19)。即ち、音声コマンド決定部7から音声コマンドを受け取った音声認識制御部24は、その音声コマンドに対応する認識ポイントをインクリメントする。次いで、音声コマンドの実行が行われる(ステップST20)。即ち、音声認識制御部24は、音声コマンドに対応するナビゲーション処理をナビゲーション処理実行部20に依頼する。これにより、ナビゲーション装置22は、音声コマンドに応じた動作を実現するためのナビゲーション処理を実行する。
次いで、電源がオフにされたかどうかが調べられる(ステップST21)。ここで、電源がオフにされていないことが判断されると、シーケンスはステップST10に戻り、再び音声認識操作の待機状態に遷移する。従って、電源がオフにされない限りは、音声認識機能はアクティブの状態にされている。一方、ステップST21で、電源がオフにされたことが判断されると、一連の音声認識処理用に確保されていたメモリ領域が開放され、処理が終了する。
次に、学習処理について説明する。学習処理は、図5に示すフローチャートのステップST30〜ST36の処理によって実現されている。
上述したように、ステップST16において、該当する音声コマンドが検索されなかったことが判断されると、一般辞書から音声コマンドが検索がされる(ステップST30)。即ち、音声コマンド決定部7は、認識処理部3から送られてきた文字列データに対応する音声コマンドを取得するために、音声コマンド辞書記憶部4に格納されている一般辞書を検索する。次いで、該当する音声コマンドが検索されたかどうかが調べられる(ステップST31)。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップST10に戻り、音声認識処理のやり直しが行われる。
一方、ステップST31で、該当する音声コマンドが検索されたことが判断されると、音声コマンドの生成が行われる(ステップST32)。具体的には、音声コマンド決定部7は、認識処理部3から送られてきた文字列データが検索された音声コマンドであると推定し、この推定した音声コマンドとステップST15で取得された実行時刻および背景種別コードとを関連付けた音声コマンドを生成する。このステップST32で生成された音声コマンド、実行時刻および背景種別コードは、音声認識制御部24に送られる。
次いで、検索結果の提示が行われる(ステップST33)。この処理は、上述したステップST17の処理と同じである。次いで、提示結果が正しいかどうかが調べられる(ステップST34)。この処理はステップST18の処理と同じである。ここで、提示結果が正しいことが判断されると、ステップST32で生成された音声コマンドが時間場所音声コマンドテーブルに追加される(ステップST35)。具体的には、音声認識制御部24は、ステップST32で音声コマンド決定部7から受け取った音声コマンド、実行時刻および背景種別コードを、時間場所音声コマンドテーブルの該実行時刻および背景種別コードに対応する位置に追加する。この場合、認識ポイントは「1」に設定される。その後、シーケンスはステップST20に進み、音声コマンドの実行が行われる。以後は、上述した処理が繰り返される。
一方、ステップST34で提示結果が正しくない、つまり、ナビゲーション処理の実行が許可されなかったことが判断されると、ステップST32で生成された音声コマンドは破棄される(ステップST36)。その後、シーケンスはステップST10に戻り、音声認識操作の待機状態へ遷移する。
以上説明したように、この発明の実施の形態1に係る音声認識システムによれば、特定の時間帯および場所において多く使用される音声コマンドが絞り込まれるため、ユーザが通常使用する音声コマンドを検索する場合は、一般辞書の全ての音声コマンドを検索する場合に比べて、検索時間を大幅に短縮できる。また、音声コマンドの認識においては、過去に認識された音声コマンドが優先的に検索されるので、ユーザが期待するナビゲーション処理が実行される確率を向上させることができる。
実施の形態2.
この発明の実施の形態2に係る音声認識システムは、抽象的な音声コマンドを認識して時間と場所で音声コマンドに対応するナビゲーション処理を切り換えるものである。
日常の会話では、「仕事に行く」、「食事に行く」、「ちょっと出かける」といった抽象約な表現が用いられる。また、このような語句の意味は、それが使用される状況によって目的地が変わるものである。一方、ナビゲーション装置へ目的地を設定する場合には具体的な目的地をユーザが指示する必要がある。そこで、実施の形態2に係る音声認識装置は、一般辞書に登録されている抽象的な音声コマンド(例えば「食事に行く」、「ちょっと出かける」など)を編集する機能を有し、抽象的な音声コマンドを認識した時の状況(時間および場所)によって目的地の設定先を変更するように構成されている。
この実施の形態2に係る音声認識システムの構成は、図1に示した実施の形態1に係る音声認識システムの構成と同じである。
この実施の形態2に係る音声認識装置21では、音声コマンド辞書記憶部4に格納されている音声コマンドには抽象的な音声コマンド(以下、「抽象音声コマンド」という)が含まれており、他の音声コマンドとは区別できるようになっている。
抽象音声コマンドと、その抽象音声コマンドに対応したナビゲーション処理で必要なパラメータとを関連付けて管理するための時間場所音声コマンドテーブルのデータ構造の一例を図6に示す。抽象音声コマンドは、目的地設定を主目的とするため、これに必要なパラメータとして「目的地」が設けられている。
次に、上記のように構成される、この発明の実施の形態2に係る音声認識システムの動作を、図7に示すフローチャートを参照しながら説明する。なお、以下の説明では、図5に示した実施の形態1に係る音声認識システムの処理と同一部分には同一の符号を付して説明を省略または簡略化する。
学習処理を除く通常の音声認識処理(ステップST10〜ST21)は、実施の形態1のそれと同じであるので説明を省略する。
初期状態で抽象音声コマンドが発話された場合、音声コマンドテーブル記憶部5に格納された時間場所音声コマンドテーブルには過去に用いられた抽象音声コマンドは存在しない。従って、ステップST16では、該当する音声コマンドは存在しないと判断されるのでシーケンスはステップST30に進み、一般辞書から音声コマンドが検索がされる。次いで、該当する音声コマンドが検索されたかどうかが調べられる(ステップST31)。ここで、該当する音声コマンドが検索されなかったことが判断されると、シーケンスはステップST10に戻り、音声認識処理のやり直しが行われる。
一方、ステップST31で、該当する音声コマンドが検索されたことが判断されると、その検索された音声コマンドは、抽象音声コマンドであるかどうかが調べられる(ステップST40)。ここで、抽象音声コマンドでないことが判断されると、シーケンスはステップST32に進む。一方、抽象音声コマンドであることが判断されると、次いで、目的地パラメータの追加が行われる(ステップST41)。具体的には、その抽象音声コマンドで目的地設定処理を行った時に設定される目的地をユーザに選択させる処理が行われる。選択の方法は、詳細な説明は省略するが、通常のナビゲーション処理でサポートされている地点検索機能を用いて行うことができる。これにより、抽象音声コマンドに対応する目的地が決定される。その後、シーケンスはステップST32に進む。
ステップST32では、時間場所音声コマンドテーブルに登録する音声コマンドが生成される。具体的には、音声コマンド決定部7は、認識処理部3から送られてきた文字列データが検索された音声コマンドであると推定し、この推定した音声コマンドとステップST15で取得された実行時刻および背景種別コードと、さらにステップST41で決定された目的地を関連付けた音声コマンドを生成する。このステップST32で生成された音声コマンド、実行時刻、背景種別コードおよび目的地は、音声認識制御部24に送られる。
次いで、検索結果の提示が行われる(ステップST33)。次いで、提示結果が正しいかどうかが調べられる(ステップST34)。ここで、提示結果が正しいことが判断されると、ステップST32で生成された音声コマンドが時間場所音声コマンドテーブルに追加される(ステップST35)。具体的には、音声認識制御部24は、ステップST32で音声コマンド決定部7から受け取った音声コマンド、実行時刻、背景種別コードおよび目的地を、時間場所音声コマンドテーブルの該実行時刻および背景種別コードに対応する位置に追加する。この場合、認識ポイントは「1」に設定される。その後、シーケンスはステップST20に進み、音声コマンドの実行が行われる。時間場所音声コマンドテーブルに格納された目的地は、ステップST20で音声コマンドが実行される際に、目的地設定要求と共にナビゲーション処理実行部20へ通知され、ナビゲーションシステムの目的地設定処理に利用される。
一方、ステップST34で提示結果が正しくない、つまり、ナビゲーション処理の実行が許可されなかったことが判断されると、ステップST32で生成された音声コマンドは破棄される(ステップST36)。その後、シーケンスはステップST10に戻り、音声認識操作の待機状態へ遷移する。
次に、時間場所音声コマンドテーブルに登録された抽象音声コマンドが検索された場合について説明する。
ステップST16において、認識処理部3で推定された音声コマンドが時間場所音声コマンドテーブルに登録された抽象音声コマンドであると認識されると、検索結果の提示が行われる(ステップST17)。次いで、提示結果が正しいかどうかが調べられる(ステップST18)。ここで、提示結果が正しくない、つまりナビゲーション処理の実行が許可されなかった(換言すれば設定される目的地が所望の場所ではなかった)ことが判断されると、検索された音声コマンドは、抽象音声コマンドであるかどうかが調べられる(ステップST50)。ここで、抽象音声コマンドでないことが判断されると、シーケンスはステップST10に戻り、音声認識処理のやり直しが行われる。
一方、ステップST50において、抽象音声コマンドであることが判断されると、目的地パラメータの変更が行われる(ステップST51)。具体的には、その抽象音声コマンドで目的設定処理を行った時に設定される目的地をユーザに変更させる処理が行われる。変更の方法は、通常のナビゲーション処理でサポートされている地点検索機能(図示は省略する)を用いて行うことができる。これにより、抽象音声コマンドに対応する目的地が変更される。その後、シーケンスはステップST32に進む。
以上の処理が繰り返し実行されることにより、同一の音声コマンドに対して時間と場所によってユーザヘの応答を変化させることが可能になる。例えば、「晩飯を食べに行く」という日常でよく使われる抽象的な言葉が音声コマンドとして一般辞書に登録されているとする。過去に土曜日の17:30に自宅周辺で目的地を「高級レストランA」に設定して音声認識操作を完了したとする。次に、金曜日の17:15に勤め先周辺で「晩飯を食べに行く」という音声認識処理で「ファミリーレストランA」に目的地を設定したとする。このような操作がなされた以後は、抽象的な言葉である「晩飯を食べに行く」と発話するだけで、時間と場所に関する過去の条件を考慮して、目的地を「高級レストランA」や「ファミリーレストランA」に自動的に設定できる。
以上説明したように、この発明の実施の形態2に係る音声認識システムによれば、通常行われるナビゲーション操作を抽象的な語彙を用いて操作できる。例えば、職場で「ちょっと行ってくる」と発話することにより目的地を得意先に設定したり、自宅で「ちょっと行ってくる」と発話することにより目的地を娯楽施設に設定したりすることが可能になる。
なお、上述した実施の形態1および実施の形態2に係る音声認識システムでは、音声コマンドテーブル記憶部5に格納する音声コマンドテーブルとして、「時間帯」と背景種別コードから成る「場所」とで音声コマンドを分類して登録するように構成したが、「場所」には、背景種別コードと背景データの位置(緯度、経度)を含めるように構成することもできる。この場合、音声コマンドの詳細な分類が可能になる。
この発明の実施の形態1に係る音声認識システムの構成を示すブロック図である。 この発明の実施の形態1に係る音声認識システムで使用される地図描画用の表示データの模式図である。 この発明の実施の形態1に係る音声認識システムで使用される時間場所音声コマンドテーブルの概念図である。 この発明の実施の形態1に係る音声認識システムで使用される時間場所音声コマンドテーブルのデータ構造の一例を示す図である。 この発明の実施の形態1に係る音声認識システムの動作を説明するためのフローチャートである。 この発明の実施の形態2に係る音声認識システムで使用される時間場所音声コマンドテーブルのデータ構造の一例を示す図である。 この発明の実施の形態2に係る音声認識システムの動作を説明するためのフローチャートである。
符号の説明
1 マイクロフォン、2 音響処理部、3 認識処理部、4 音声コマンド辞書記憶部、5 音声コマンドテーブル記憶部、7 音声コマンド決定部、8 発話スイッチ、9 スピーカ、10 ディスプレイ、11 入力制御部、12 音声出力制御部、13 表示制御部、14 方位センサ、15 現在位置検出部、16 現在時刻検出部、17 地図データ記憶部、18 車速センサ、19 GPS受信機、20 ナビゲーション処理実行部、21 音声認識装置、22 ナビゲーション装置。

Claims (6)

  1. 現在時刻を検出する現在時刻検出部と、
    現在位置を検出する現在位置検出部と、
    過去に認識された音声コマンドを、該音声コマンドが実行された時間帯および場所に関連付けて前記時間帯および場所毎に格納した時間場所音声コマンドテーブルと、
    発話された語彙を推定して文字列を生成する認識処理部と、
    前記現在時刻検出部で検出された現在時刻が属する時間帯と前記現在位置検出部で検出された現在位置により決定される場所に対応する前記時間場所音声コマンドテーブルの部分を検索することにより前記認識処理部で推定された文字列に対応する音声コマンドを決定する音声コマンド決定部と、
    前記音声コマンド決定部で決定された音声コマンドを実行するナビゲーション処理実行部
    とを備えた音声認識システム。
  2. 場所は、地図の構成要素を表す背景種別コードからなることを特徴とする請求項1記載の音声認識システム。
  3. 時間場所音声コマンドテーブルに格納されている音声コマンドには、該音声コマンドが実行される毎にインクリメントされる認識ポイントがさらに関連付けられており、
    音声コマンド決定部は、前記時間場所音声コマンドテーブルを検索する際に、高い認識ポイントが関連付けられた音声コマンドから順番に検索を行うことを特徴とする請求項1記載の音声認識システム。
  4. 複数の音声コマンドを含む一般辞書をさらに備え、
    音声コマンド決定部は、認識処理部で推定された文字列に対応する音声コマンドを時間場所音声コマンドテーブルから検索できなかった場合は、前記一般辞書を検索することにより前記認識処理部で推定された文字列に対応する音声コマンドを決定し、該決定された音声コマンドを前記時間場所音声コマンドテーブルに登録することを特徴とする請求項1記載の音声認識システム。
  5. 時間場所音声コマンドテーブルに格納されている音声コマンドには、該音声コマンドが実行された際の処理内容を表す情報がさらに関連付けられており、
    ナビゲーション処理実行部は、音声コマンド決定部で決定された音声コマンドを実行する際は、該音声コマンドに関連付けられた処理内容を表す情報に従って該音声コマンドを実行することを特徴とする請求項1記載の音声認識システム。
  6. 時間場所音声コマンドテーブルに格納されている音声コマンドに関連付けられた処理内容を表す情報は、ナビゲーション処理実行部による処理によって設定される目的地を表す情報であることを特徴とする請求項5記載の音声認識システム。
JP2004118153A 2004-04-13 2004-04-13 音声認識システム Pending JP2005300989A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004118153A JP2005300989A (ja) 2004-04-13 2004-04-13 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004118153A JP2005300989A (ja) 2004-04-13 2004-04-13 音声認識システム

Publications (1)

Publication Number Publication Date
JP2005300989A true JP2005300989A (ja) 2005-10-27

Family

ID=35332587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004118153A Pending JP2005300989A (ja) 2004-04-13 2004-04-13 音声認識システム

Country Status (1)

Country Link
JP (1) JP2005300989A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011522331A (ja) * 2008-05-27 2011-07-28 クゥアルコム・インコーポレイテッド 地理的ロケーションに関連するデータを集約して提示する方法及び装置
WO2015133142A1 (ja) * 2014-03-06 2015-09-11 株式会社デンソー 報知装置
JP2016081513A (ja) * 2014-10-15 2016-05-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報取得方法、情報取得システム及び情報取得プログラム
JP2017173530A (ja) * 2016-03-23 2017-09-28 富士通株式会社 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置
CN113424255A (zh) * 2019-02-12 2021-09-21 谷歌有限责任公司 引导车辆客户端设备使用设备上的功能
CN115223563A (zh) * 2021-09-16 2022-10-21 广州汽车集团股份有限公司 一种车辆导航语音交互方法、装置及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06347279A (ja) * 1993-06-10 1994-12-20 Zanabui Infuomateikusu:Kk 車載用地図表示装置
JPH09134496A (ja) * 1996-04-26 1997-05-20 Aqueous Res:Kk 車両制御装置
JP2000259180A (ja) * 1999-03-05 2000-09-22 Nec Corp 連続音声文章入力装置及び連続音声文章入力方法
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2001051694A (ja) * 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
JP2001229008A (ja) * 2000-02-16 2001-08-24 Yogi Communications Kk 電話発信者の音声指示の認識によるインターネットホームページ自動表示装置及び方法、また、インターネットホームページ自動表示機能の基本データとなるホームページ情報の管理技術、並びにインターネットホームページ自動表示プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002024212A (ja) * 2000-07-12 2002-01-25 Mitsubishi Electric Corp 音声対話システム
JP2002092029A (ja) * 2000-09-20 2002-03-29 Denso Corp ユーザ情報推定装置
JP2002139332A (ja) * 2000-11-01 2002-05-17 Matsushita Electric Ind Co Ltd ナビゲーション方法および装置
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2003329474A (ja) * 2002-05-08 2003-11-19 Mitsubishi Electric Corp 車載装置、情報端末装置及び車載情報システム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06347279A (ja) * 1993-06-10 1994-12-20 Zanabui Infuomateikusu:Kk 車載用地図表示装置
JPH09134496A (ja) * 1996-04-26 1997-05-20 Aqueous Res:Kk 車両制御装置
JP2000259180A (ja) * 1999-03-05 2000-09-22 Nec Corp 連続音声文章入力装置及び連続音声文章入力方法
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2001051694A (ja) * 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
JP2001229008A (ja) * 2000-02-16 2001-08-24 Yogi Communications Kk 電話発信者の音声指示の認識によるインターネットホームページ自動表示装置及び方法、また、インターネットホームページ自動表示機能の基本データとなるホームページ情報の管理技術、並びにインターネットホームページ自動表示プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002024212A (ja) * 2000-07-12 2002-01-25 Mitsubishi Electric Corp 音声対話システム
JP2002092029A (ja) * 2000-09-20 2002-03-29 Denso Corp ユーザ情報推定装置
JP2002139332A (ja) * 2000-11-01 2002-05-17 Matsushita Electric Ind Co Ltd ナビゲーション方法および装置
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2003329474A (ja) * 2002-05-08 2003-11-19 Mitsubishi Electric Corp 車載装置、情報端末装置及び車載情報システム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11720608B2 (en) 2008-05-27 2023-08-08 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
US9646025B2 (en) 2008-05-27 2017-05-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
JP2011522331A (ja) * 2008-05-27 2011-07-28 クゥアルコム・インコーポレイテッド 地理的ロケーションに関連するデータを集約して提示する方法及び装置
US10942950B2 (en) 2008-05-27 2021-03-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
JP2015169529A (ja) * 2014-03-06 2015-09-28 株式会社デンソー 報知装置
WO2015133142A1 (ja) * 2014-03-06 2015-09-11 株式会社デンソー 報知装置
JP2016081513A (ja) * 2014-10-15 2016-05-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報取得方法、情報取得システム及び情報取得プログラム
JP2017173530A (ja) * 2016-03-23 2017-09-28 富士通株式会社 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置
JP2022519478A (ja) * 2019-02-12 2022-03-24 グーグル エルエルシー オンデバイス機能性を使うように車両クライアントデバイスに指令すること
JP7155439B2 (ja) 2019-02-12 2022-10-18 グーグル エルエルシー オンデバイス機能性を使うように車両クライアントデバイスに指令すること
JP2022185077A (ja) * 2019-02-12 2022-12-13 グーグル エルエルシー オンデバイス機能性を使うように車両クライアントデバイスに指令すること
CN113424255A (zh) * 2019-02-12 2021-09-21 谷歌有限责任公司 引导车辆客户端设备使用设备上的功能
US11727934B2 (en) 2019-02-12 2023-08-15 Google Llc Directing a vehicle client device to use on-device functionality
JP7412499B2 (ja) 2019-02-12 2024-01-12 グーグル エルエルシー オンデバイス機能性を使うように車両クライアントデバイスに指令すること
CN115223563A (zh) * 2021-09-16 2022-10-21 广州汽车集团股份有限公司 一种车辆导航语音交互方法、装置及存储介质
CN115223563B (zh) * 2021-09-16 2023-09-15 广州汽车集团股份有限公司 一种车辆导航语音交互方法、装置及存储介质

Similar Documents

Publication Publication Date Title
KR102691541B1 (ko) 음성 인식 방법 및 장치
EP1450349A1 (en) In-vehicle controller and program for instructing computer to execute operation instruction method
WO2000047951A1 (fr) Procede, appareil et support de traitement de l'information
US20070156331A1 (en) Navigation device
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
EP1273887A2 (en) Navigation system
JP2006012081A (ja) コンテンツ出力装置、ナビゲーション装置、コンテンツ出力プログラム、及びコンテンツ出力方法
JP4930486B2 (ja) 音声認識システム及びナビゲーション装置
JP2001117584A (ja) 音声処理装置
JP2005300989A (ja) 音声認識システム
JP2007286358A (ja) ナビゲーション装置及びその住所入力方法
JP2007271277A (ja) ナビゲーション装置、方法及びプログラム
JPH08202386A (ja) 音声認識方法、音声認識装置、およびナビゲーション装置
JP5265234B2 (ja) 地点検索装置、端末装置、地点検索方法、地点検索プログラム、および記録媒体
JP3500948B2 (ja) 音声認識装置
JPH11249689A (ja) 音声認識装置および地図表示装置
JP4705398B2 (ja) 音声案内装置、音声案内装置の制御方法及び制御プログラム
JP2000020086A (ja) 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JPWO2006028171A1 (ja) データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
JP2002062893A (ja) 車載ナビゲーション装置
JP2003005783A (ja) ナビゲーションシステムおよびその目的地入力方法
JP2000089782A (ja) 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP2001306089A (ja) 音声処理装置およびナビゲーション装置
JPH11325946A (ja) 車載用ナビゲーション装置
JPWO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071015

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316