JP5925313B2

JP5925313B2 - 音声認識装置

Info

Publication number: JP5925313B2
Application number: JP2014523470A
Authority: JP
Inventors: 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-07-03
Filing date: 2012-07-03
Publication date: 2016-05-25
Anticipated expiration: 2032-07-03
Also published as: JPWO2014006690A1; CN104428766A; CN104428766B; US20150120300A1; US9269351B2; WO2014006690A1; DE112012006652T5

Description

この発明は、ユーザが発話した音声を認識して情報を検索する音声認識装置に関するものである。

カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者（ユーザ）が発話の開始をシステムに対して明示（指示）するのが一般的である。そのために、音声認識開始を指示するボタン（以下、音声認識開始指示部と記載する）が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者（ユーザ）により音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者（ユーザ）が発話した内容に該当する音声区間を検出し、音声認識処理を行う。

しかし、搭乗者（ユーザ）による音声認識開始指示がなくても、常に、搭乗者（ユーザ）が発話した内容を認識する音声認識装置も存在する。すなわち、音声認識部は、音声認識開始信号を受けなくても、音声取得部により取得された音声データから、搭乗者（ユーザ）が発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。または、その文字列をもとにデータベースを検索して検索結果を表示する。

例えば特許文献１には、ユーザが発した音声を常時入力して音声認識を行い、その認識結果を表示し、その後にユーザが操作ボタンにより決定操作を行うことにより、認識結果に基づく処理を実行する音声認識装置が開示されている。

特開２００８−１４８１８号公報

しかしながら、例えば特許文献１のような従来の音声認識装置では、同じ発話を認識した場合、常に同じレベルの検索結果が表示されるだけである、という問題があった。すなわち、例えば、ユーザが「ガソリンスタンド」を発話した場合、常に近傍のガソリンスタンドの店名と位置を表示するだけであり、ユーザがガソリンスタンド毎の価格を知るためには、毎回さらに所定の操作を別途行わなければならない、という課題があった。

この発明は、上記のような課題を解決するためになされたものであり、ユーザが求めるレベルの情報を即座に提示できる音声認識装置を提供することを目的とする。

上記目的を達成するため、この発明の音声認識装置は、ユーザにより発話された音声を検知して取得する音声取得部と、前記音声取得部により取得された音声データを認識してキーワードを抽出する音声認識部と、前記ユーザからの操作入力を受け付ける操作入力部と、前記ユーザに情報を提示する表示部と、前記操作入力部により受け付けられた情報および前記表示部に表示された情報に基づいて、前記ユーザの操作を特定する操作応答解析部と、前記音声認識部により抽出されたキーワード毎に、前記操作応答解析部により特定された操作により前記表示部に表示された表示内容とその表示回数を、前記表示内容に応じた階層に分類された履歴情報として記憶する操作表示履歴記憶部と、前記操作表示履歴記憶部に記憶されている履歴情報に応じて、前記音声認識部により抽出されたキーワードの、どの階層の情報まで取得するかを表わす指標である検索レベルを設定する検索レベル設定部と、前記検索レベル設定部により設定された検索レベルにしたがって、前記音声認識部により抽出されたキーワードを検索キーとして情報を検索して、前記検索レベルが設定された履歴情報の階層までの情報を検索結果として取得する情報検索制御部と、前記情報検索制御部により取得された検索結果を、前記表示部に表示させる指示を行う情報提示制御部と、を備え、前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、前記検索レベルを変更することを特徴とする。

この発明の音声認識装置によれば、ユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、ユーザの利便性が向上する。

ナビゲーション装置の表示画面例を示す図である。実施の形態１による音声認識装置の一例を示すブロック図である。検索レベルの定義例を示す図である。情報検索制御部に設定されているキーワード毎の検索レベルの例を示す図である。操作表示履歴記憶部に記憶されているキーワード毎のユーザによる操作履歴および表示履歴を示す図である。実施の形態１における音声認識装置の動作を示すフローチャートである。操作表示履歴記憶部に記憶されている一のキーワード（ガソリンスタンド）について操作履歴および表示履歴が更新される例を示す図である。検索結果の表示例を示す図である。実施の形態２による音声認識装置の一例を示すブロック図である。実施の形態２における音声認識装置の動作を示すフローチャートである。実施の形態３による音声認識装置の一例を示すブロック図である。実施の形態３における音声認識装置の動作を示すフローチャートである。実施の形態４による音声認識装置の一例を示すブロック図である。実施の形態４における音声認識装置の動作を示すフローチャートである。

以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
まず初めに、この発明の前提となる音声認識装置が組み込まれたナビゲーション装置について説明する。図１は、一般的なナビゲーション装置の表示画面例を示す図である。

例えば、当該ナビゲーション装置が搭載されている車内において、ナビゲーション装置の画面７０には、通常の道案内のための地図および自車マーク７１が表示されている状態で、次のような会話が行われたとする。
ユーザＡ：「そろそろガソリンがなくなるなぁ」
ユーザＢ：「近くにガソリンスタンドはないかなぁ」

すると、その発話内容に含まれるジャンル名（この例では「ガソリンスタンド」）に対応するジャンル名アイコン７２がナビゲーション装置の画面７０に表示される（図１（ａ））。ユーザが当該アイコン７２を押下すると、現在地周辺のガソリンスタンドが検索され、検索結果としてガソリンスタンドの例えば名称と住所等が検索結果リスト７３のように表示される（図１（ｂ））。

続いて、ユーザが表示された検索結果の一つを選択すると、選択されたガソリンスタンドの位置情報が施設マーク７４のように表示されるとともに、当該ガソリンスタンドの詳細情報、例えば、営業時間やガソリン価格等を表示するための詳細ボタン７５（例えば「営業時間」ボタン７５ａと「価格」ボタン７５ｂ）が表示される（図１（ｃ））。ここで、ユーザが「営業時間」のボタン７５ａを押下すると、そのガソリンスタンドの営業時間が表示される（図１（ｄ））。

なお、以下の実施の形態ではいずれも、上述したガソリンスタンドのような、ジャンルによる施設検索を例に説明を行うが、この発明において検索する情報はこの施設情報に限られるものではなく、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報、番組情報などであってもよい。

実施の形態１．
図２は、この発明の実施の形態１による音声認識装置の一例を示すブロック図である。この音声認識装置は、車両（移動体）に搭載されたナビゲーション装置に組み込まれて使用されるものであり、音声取得部１、音声認識部２、音声認識辞書３、情報データベース４、情報検索制御部５、情報提示制御部６、表示部７、操作入力部８、操作応答解析部９、操作表示履歴記憶部１０、検索レベル設定部１１を備えている。

音声取得部１は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取込み、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換する。

音声認識部２は、音声取得部１によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書３を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよい。

ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示（指示）するのが一般的である。そのために、音声認識開始を指示するボタン（以下、音声認識開始指示部と記載する）が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、上述した認識処理を行う。

しかし、この実施の形態１における音声認識部２は、上述したようなユーザによる音声認識開始指示がなくても、常に、ユーザが発話した内容を認識する。すなわち、音声認識部２は、音声認識開始信号を受けなくても、この音声認識装置が組み込まれたナビゲーション装置が起動されている場合は常時、音声取得部１により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書３を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。以下の実施の形態においても同様である。

情報データベース４は、施設情報や住所情報や曲情報等のうち少なくとも一つ以上を記憶している。施設情報には、例えば、施設名称、施設が属するジャンル、位置データ、営業時間、駐車場の有無等が、住所情報には、例えば、住所、位置データ等が、曲情報には、例えば、アルバム名、アーティスト名、曲名、年代等の情報が含まれる。なお、ここでは、情報データベース４には施設情報が記憶されているものとして説明するが、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報、番組情報などであってもよい。なお、情報データベース４は、例えば、ＨＤＤやフラッシュメモリに格納されているものでもよく、また、ネットワーク上にあり通信手段（図示せず）を介してアクセスするものであってもよい。

情報検索制御部５は、後述する検索レベル設定部１１により設定された検索レベルに従って音声認識部２により出力されたキーワードを検索キーとして情報データベース４を検索し、情報を取得する。ここで、検索レベルとは、情報データベース４からどの程度（どの階層）の詳細情報まで取得するかを表す指標であり、キーワード毎に定義されている。

図３に、検索レベルの定義例を示す。例えば、キーワード「ガソリンスタンド」を検索キーとして検索する場合、設定された検索レベルが「１」であれば施設名称と住所情報までを取得し、検索レベルが「２」である場合は、施設名称と住所情報に加え、営業時間かガソリン価格の少なくとも一つ以上の指定された項目の情報を取得する。検索レベルが設定されていない場合は、情報検索制御部５は検索処理を行わない。なお、検索レベル「０」を設定することで検索レベルが設定されていないものとしてもよい。

図４は、後述する検索レベル設定部１１により情報検索制御部５に設定されたキーワード毎の検索レベルの例を示したものである。ここで、図３のキーワード「ガソリンスタンド」のように、同じ検索レベルに複数の項目がある場合は、図４（ａ）に示すように、付加情報として一の項目が設定されてもよい。この場合、施設名称と住所情報に加え営業時間情報を取得する。また、図４（ｂ）に示すように、付加情報として複数の項目が設定されてもよい。また、検索レベルのみが設定された場合は、当該レベルの項目すべてについて情報を取得するようにしてもよい。

情報提示制御部６は、検索レベルに応じてアイコンや情報検索制御部５により取得された検索結果を、後述する表示部７に表示させる指示を行う。具体的には、検索レベルが設定されていない場合は、図１（ａ）のようなジャンル名アイコン７２を表示させ、検索レベルが設定されている場合は、情報検索制御部５により取得された検索結果を、図１（ｂ）に示す検索結果リスト７３のように表示させる。

表示部７は、表示一体型のタッチパネルであり、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）とタッチセンサから構成されており、情報提示制御部６からの指示に応じて検索結果を表示する。また、ユーザが表示部（タッチパネル）７に直接触れることにより、操作することが可能である。

操作入力部８は、ユーザからの操作入力を受け付けて車載用ナビゲーション装置にその指示を入力する操作キー、操作ボタン、タッチパネル等である。ユーザによる諸々の指示は、車載用ナビゲーション複合装置に設けられたハードウエアのスイッチ、ディスプレイに設定され表示されるタッチスイッチ、あるいはハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置などによるものが挙げられる。

操作応答解析部９は、操作入力部８により受け付けられた情報および表示部７に表示された画面の情報等に基づいて、ユーザの操作を特定する。なお、ユーザの操作の特定に関しては、この発明の本質的な事柄ではなく、公知の技術を用いればよいため説明を省略する。

操作表示履歴記憶部１０は、音声認識部２により抽出されたキーワード毎に、操作応答解析部９により特定されたユーザの操作により表示部７に表示された表示内容とその表示回数を、履歴情報として記憶する記憶部である。図５は、操作表示履歴記憶部１０に記憶されているキーワード毎のユーザによる履歴情報を示している。例えば、図５のようにキーワード毎にユーザの操作により表示した内容と当該内容を表示した回数を対にして記憶しており、操作応答解析部９によりユーザの操作が特定されると、その操作により表示された内容に対する回数がインクリメントされて保存される。

検索レベル設定部１１は、操作表示履歴記憶部１０に記憶されている履歴情報を参照して、当該履歴情報に応じて情報検索制御部５において検索キーとされるキーワード毎の検索レベルを設定する。ここで、情報検索制御部５に設定する検索レベルは、所定の表示回数以上の表示内容（または所定の表示回数を超える表示内容）に対応するレベルであるとする。そして、音声認識部２により抽出されたキーワードについて、操作表示履歴記憶部１０に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、検索レベルを変更するものであり、表示回数が所定回数以上になるたびに、検索レベルを上げていく。

例えば、閾値となる所定回数を３回とした場合、図５に示すキーワード「ガソリンスタンド」においては、階層１の名称・住所表示が６回であり、階層２の営業時間表示が２回、価格表示が０回であるため、所定回数３回以上に該当する名称・住所を検索する検索レベル「１」（図３参照）を設定する。また、この時にユーザにより営業時間を表示する操作が行われると、営業時間表示の回数が３回に更新されるので、次にキーワード「ガソリンスタンド」が抽出された場合には、営業時間の表示回数が所定回数３回以上になっているので、検索レベルが「２」に上げられる。

また、表示回数が所定回数を超えているものが複数ある場合は、例えば、最も階層が深い表示内容に対する検索レベルを設定するようにすればよい。例えば、閾値となる所定回数を同じく３回とした場合、図５に示すキーワード「コンビニエンスストア」においては、階層１の名称・住所表示が５回、階層２の営業時間表示とおすすめ商品表示が共に４回であるため、所定回数３回以上に該当し、かつ、最も階層が深い表示内容である営業時間とお勧め商品を検索する検索レベル「２」（図３参照）を設定する。

ここで、閾値とする所定回数については、いずれも３回ということで説明したが、すべてのキーワードについて同じ値を用いるようにしてもよいし、キーワード毎に異なる値を用いるようにしてもよい。
なお、ここに示した検索レベルの設定方法は一例であって、他の方法で決定された検索レベルを設定するようにしてもよい。

次に、図６に示すフローチャートを用いて、実施の形態１の音声認識装置の動作を説明する。
まず、音声取得部１は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取込み、例えばＰＣＭによりＡ／Ｄ変換する（ステップＳＴ０１）。
次に、音声認識部２は、音声取得部１によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書３を用いて認識処理を行い、キーワードとなる文字列抽出し、出力する（ステップＳＴ０２）。

そして、情報検索制御部５は、検索レベル設定部１１により検索レベルが設定されている場合（ステップＳＴ０３のＹＥＳの場合）は、当該検索レベルに従って音声認識部２により出力されたキーワードを検索キーとして情報データベース４を検索し、情報を取得する（ステップＳＴ０４）。その後、情報提示制御部６が、情報検索制御部５により取得された検索結果を表示部７に表示するよう指示を行う（ステップＳＴ０５）。

一方、検索レベルが設定されていない場合（ステップＳＴ０３のＮＯの場合）は、当該キーワードに対応するアイコンを表示する（ステップＳＴ０６）。
続いて、ユーザにより操作入力部８を介して表示画面が操作されると、操作応答解析部９が当該操作を解析し、ユーザの操作を特定し（ステップＳＴ０７）、当該検索キーワードについて、特定されたユーザの操作により表示された内容に対する回数をインクリメントして、操作表示履歴記憶部１０に保存されている操作履歴、表示履歴を更新する（ステップＳＴ０８）。

検索レベル設定部１１は、ステップＳＴ０２において抽出されたキーワードについて、操作表示履歴記憶部１０に保存されている表示内容の回数が、予め設定された閾値である所定回数以上であるものがあるか否かを判定する（ステップＳＴ０９）。所定回数以上である表示内容がないと判定された場合（ステップＳＴ０９のＮＯの場合）は、ステップＳＴ０１に戻る。一方、所定回数以上である表示内容があると判定された場合（ステップＳＴ０９のＹＥＳの場合）は、その内容に基づいて検索レベルを決定し、情報検索制御部５に対して検索レベルを設定する（ステップＳＴ１０）。

次に、具体例を挙げて説明する。なお、説明のため、初期状態は、情報検索制御部５において検索レベルは未設定、各キーワードにおける画面表示の回数はすべて０であるものとする。また、検索レベル設定部１１における判定の際の閾値とする「所定回数」は２回とする。

例えば、ナビゲーション装置が搭載されている車内において、ナビゲーション装置の画面７０には、通常の道案内のための地図および自車マーク７１が表示されている状態で、
ユーザＡ：「そろそろガソリンがなくなるなぁ」
ユーザＢ：「近くにガソリンスタンドはないかなぁ」
上記のような会話がなされたとすると、音声取得部１によりデジタル化された音声信号が音声認識部２により認識され、キーワード「ガソリンスタンド」が抽出されて出力される（ステップＳＴ０１、ステップＳＴ０２）。

ここで、上述したとおり初期状態では、情報検索制御部５においてキーワード「ガソリンスタンド」に対する検索レベルは未設定であるため、情報検索制御部５による情報データベース４の検索は行われない（ステップＳＴ０３のＮＯの場合）。そして、検索レベル未設定に対応する表示、すなわち「ガソリンスタンド」のジャンル名アイコン７３が、例えば図１（ａ）に示すように表示部７の画面７０に表示される（ステップＳＴ０６）。

そして、ユーザにより図１（ａ）（ｂ）（ｃ）に示す操作が行われ、図１（ｄ）のような画面が表示されると、操作応答解析部９によりそれら図１（ａ）（ｂ）（ｃ）の操作により名称・住所表示と営業時間表示がなされたことが特定され、キーワード「ガソリンスタンド」について、名称・住所表示と営業時間表示の回数がインクリメントされて操作表示履歴記憶部１０の内容が更新される（ステップＳＴ０７、ステップＳＴ０８）。この結果、操作表示履歴記憶部１０には、キーワード「ガソリンスタンド」について、名称・住所表示の回数「１」、営業時間表示の回数「１」、価格表示の回数「０」という履歴が保存される。

また、別のときにユーザが上記のような会話を行い、名称・住所表示まで行ったとすると、操作表示履歴記憶部１０に記憶されている情報は、図７（ａ）に示すように、キーワード「ガソリンスタンド」について、名称・住所表示の回数「２」、営業時間表示の回数「１」、価格表示の回数「０」という内容になり、名称・住所表示回数が閾値である所定回数「２」以上となるため、情報検索制御部５に対して検索レベル「１」が設定される（ステップＳＴ０９、ステップＳＴ１０）。

さらに、別のときにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部５において検索レベル「１」が設定されているので、情報データベース４から名称・住所情報が取得され、検索結果として図８（ａ）のように検索結果リスト７３が表示される（ステップＳＴ０３のＹＥＳの場合、ステップＳＴ０４、ステップＳＴ０５）。ここで、ユーザが検索結果の一つを選択すると、図１（ｃ）に示す画面が表示される。また、操作表示履歴記憶部１０に記憶されている情報は、図７（ｂ）に示すように、名称・住所表示の回数「３」、営業時間表示の回数「２」、価格表示の回数「０」という内容になり、営業時間表示回数が閾値である所定回数「２」以上となるため、情報検索制御部５に対して検索レベル「２」、付加情報「営業時間」が設定される。

同様にして、操作表示履歴記憶部１０で記憶されている情報が図７（ｂ）のような場合に、さらに別のときにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部５において検索レベル「２」、付加情報「営業時間」が設定されているので、情報データベース４から営業時間まで取得され、検索結果として図８（ｂ）のような営業時間を含めた検索結果リスト７３が表示される。ここで、ユーザが検索結果の一つを選択すると、図１（ｄ）に示す画面が表示される。

また、操作表示履歴記憶部１０で記憶されている情報が図７（ｃ）に示すように、名称・住所表示の回数「４」、営業時間表示の回数「２」、価格表示の回数「２」という場合には、すべての項目が検索レベル設定部１１における判定に使用する閾値である所定回数「２」以上となるため、情報検索制御部５に対して検索レベル「２」、付加情報「営業時間」および「価格」（または、付加情報なし）が設定される。

この状態で、さらにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部５において検索レベル「２」、付加情報「営業時間」と「価格」（または付加情報なし）が設定されているため、情報データベース４から営業時間および価格まで取得され、検索結果として図８（ｃ）のような営業時間と価格まで含めて検索結果リスト７３が表示される。

以上のように、この実施の形態１によれば、ユーザの発話内容から音声認識部により抽出されたキーワードについて、ユーザの操作によって表示が行われた内容と回数を履歴情報として記憶しておき、ユーザが「ガソリンスタンド」の情報を見る時には毎回営業時間の確認をしているなど、所定回数以上同じ操作および表示を行っているか否かを判定して検索レベルを設定することにより、次に同じキーワードが抽出された際に、ユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、ユーザの利便性が向上する。

実施の形態２．
図９は、この発明の実施の形態２による音声認識装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態２では、実施の形態１と比べると、鳴動設定部１２をさらに備えており、音声認識部２により認識されたキーワードに対するユーザの情報表示回数が所定回数以上である（または所定回数を超えている）場合に、ユーザに注意を促すものである。

情報検索制御部５は、音声認識部２により認識されたキーワードに対するユーザの情報表示回数に基づいて、検索レベル設定部１１により検索レベル「１」以上が設定された場合（または所定の値より大きい検索レベルが設定された場合）に、鳴動設定部１２に対して出力の指示を行う。
鳴動設定部１２は、情報検索制御部５からの指示を受けると、所定の出力を行うようナビゲーション装置の設定を変更する。ここで、所定の出力とは、例えば、シートの振動、報知音の出力、当該キーワードが認識された旨の音声出力など、予め定められた振動または音声による鳴動出力をいう。

次に、図１０に示すフローチャートを用いて実施の形態２の音声認識装置の動作を説明する。
ステップＳＴ１１〜ＳＴ１９までの処理については、実施の形態１における図６のフローチャートのステップＳＴ０１〜ＳＴ０９と同じであるため、説明を省略する。
そして、音声認識部２により抽出されたキーワードについて、操作履歴、表示履歴が所定回数以上である表示内容があると判定された場合（ステップＳＴ１９のＹＥＳの場合）は、実施の形態１と同様に検索レベルを設定し（ステップＳＴ２０）、その後、鳴動設定部１２が鳴動設定を変更して所定の出力を行う（ステップＳＴ２１）。

以上のように、この実施の形態２によれば、ユーザの発話内容から音声認識部により抽出されたキーワードについて、過去にユーザが所定回数以上（または所定回数を超えて）そのキーワードに関する情報表示を行っていると判定された場合、すなわち、そのキーワードの検索レベルに応じて、鳴動設定部により振動または音声による所定の出力を行ってユーザに注意を促すようにしたので、ユーザが、その検索レベルに合わせた詳細情報が即座に提示されている状態である、ということを適切に認識することができる。

実施の形態３．
図１１は、この発明の実施の形態３による音声認識装置の一例を示すブロック図である。なお、実施の形態１，２で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態３では、実施の形態２と比べると、検索レベル初期化部１３をさらに備えており、操作表示履歴記憶部１０に記憶されている履歴情報を、ユーザが初期化したい場合に発話により初期化することができる。

音声認識辞書３は、さらに「初期化」「リセット」等の、操作表示履歴記憶部１０に記憶されている履歴情報を初期状態に戻すコマンドを意味するキーワードも認識可能なように構成されており、音声認識部２は、当該キーワードを認識結果として出力する。
検索レベル初期化部１３は、音声認識部２により「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードが抽出されると、操作表示履歴記憶部１０に記憶されている履歴情報を初期化する。

次に、図１２に示すフローチャートを用いて実施の形態３の音声認識装置の動作を説明する。
ステップＳＴ３１〜３２およびステップＳＴ３５〜４２は実施の形態２における図１０のフローチャートのステップＳＴ１１〜１２およびステップＳＴ１３〜２０と同じであるため、説明を省略する。

そして、ステップＳＴ３２において音声認識部２により抽出されたキーワードが「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードである場合（ステップＳＴ３３のＹＥＳの場合）は、操作表示履歴記憶部１０に記憶されている情報を初期化、すなわち、初期状態に戻す（ステップＳＴ３４）。また、それ以外のキーワードである場合は、ステップＳＴ３５以降の処理を行う。

以上のように、この実施の形態３によれば、ユーザの発話内容から音声認識部により抽出されたキーワードが、「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードであった場合には、操作表示履歴記憶部に記憶されている履歴情報を初期化するようにしたので、検索レベルに応じた詳細情報の表示が期待どおりのものでなくなった場合や、ユーザが変わった場合など、ユーザが初期化したい場合にこのコマンドを意味するキーワードを発話するだけで、操作表示履歴記憶部の内容を初期状態に戻すことができる。

実施の形態４．
図１３は、この発明の実施の形態４による音声認識装置の一例を示すブロック図である。なお、実施の形態１〜３で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態４では、実施の形態１と比べると、話者識別部１４をさらに備えており、発話者（発話したユーザ）毎に参照する履歴情報を変更するものである。

話者識別部１４は、音声取得部１によりデジタル化された音声信号を解析し、発話者（発話したユーザ）を識別する。ここで、発話者の識別方法に関しては、この発明の本質的な事項ではなく、公知の技術を用いればよいため、ここでは説明を省略する。

操作表示履歴記憶部１０は、ユーザ毎に図５に示すような履歴情報を保持している。そして、話者識別部１４により発話者（発話したユーザ）が識別されると、当該識別されたユーザに対応する履歴情報を有効にする。その他の処理については、実施の形態１と同じであるため説明を省略する。なお、話者識別部１４により識別された発話者が操作入力部８を操作したユーザであるとする。

検索レベル設定部１１は、操作表示履歴記憶部１０に記憶されている履歴情報であって有効になっているものを参照し、当該履歴情報に応じて情報検索制御部５において検索キーとするキーワード毎の検索レベルを設定する。

次に、図１４に示すフローチャートを用いて実施の形態４の音声認識装置の動作を説明する。
まず、音声取得部１は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばＰＣＭによりＡ／Ｄ変換する（ステップＳＴ５１）。
次に、話者識別部１４は、音声取得部１により取り込まれた音声信号を解析し、発話者を識別する（ステップＳＴ５２）。

そして、操作応答解析部９は、操作表示履歴記憶部１０の中から話者識別部１４により識別された発話者に対応する履歴情報を有効化する（ステップＳＴ５３）。
その後のステップＳＴ５４〜ＳＴ６２の処理については、実施の形態１における図６に示すフローチャートのステップＳＴ０２〜ＳＴ１０と同じであるため、説明を省略する。

以上のように、この実施の形態４によれば、ユーザの発話により発話者を識別し、発話者毎に記憶されている履歴情報を参照して検索レベルを設定してそれに応じた詳細情報を表示するようにしたので、この音声認識装置が組み込まれたナビゲーション装置を使用するユーザが変わっても、それぞれのユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、よりユーザの利便性が向上する。

なお、以上の実施の形態では、ユーザの発話内容を常に認識するものとしているが、所定の期間（例えば、ユーザが音声認識を行うためのボタンを押下し、そのボタンが押下されている間、または、そのボタン押下後所定の時間）のみ音声認識を行うようにしてもよい。また、常に認識するか、所定の期間のみ認識するかを、ユーザが設定できるようにしてもよい。

ただし、以上の実施の形態のように、ユーザが意識しなくても音声認識装置が組み込まれたナビゲーション装置が起動している場合は常時、音声取得および音声認識を行うようにすることにより、何らかの発話があれば自動的に音声取得および音声認識を行ってその音声認識結果からキーワードを抽出し、検索レベルを設定して、ユーザが求めるレベルの情報を即座に表示してくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要とせず、常にユーザにとって必要な詳細情報を効率よく提供することができる。

また、以上の実施の形態では、この音声認識装置が車載用のナビゲーション装置に組み込まれるものとして説明したが、この発明の音声認識装置が組み込まれる装置は車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、携帯型のナビゲーション装置、携帯型の情報処理装置等、ユーザと装置との対話により情報を検索して表示することが可能な装置であれば、どのような形態のものにも適用することができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明の音声認識装置が組み込まれる装置は車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、携帯型のナビゲーション装置、携帯型の情報処理装置等、ユーザと装置との対話により情報を検索して表示することが可能な装置であれば、どのような形態のものにも適用することができる。

１音声取得部、２音声認識部、３音声認識辞書、４情報データベース、５情報検索制御部、６情報提示制御部、７表示部、８操作入力部、９操作応答解析部、１０操作表示履歴記憶部、１１検索レベル設定部、１２鳴動設定部、１３検索レベル初期化部、１４話者識別部、７０ナビゲーション装置の画面、７１自車マーク、７２ジャンル名アイコン、７３検索結果リスト、７４施設マーク、７５詳細ボタン。

Claims

ユーザにより発話された音声を検知して取得する音声取得部と、
前記音声取得部により取得された音声データを認識してキーワードを抽出する音声認識部と、
前記ユーザからの操作入力を受け付ける操作入力部と、
前記ユーザに情報を提示する表示部と、
前記操作入力部により受け付けられた情報および前記表示部に表示された情報に基づいて、前記ユーザの操作を特定する操作応答解析部と、
前記音声認識部により抽出されたキーワード毎に、前記操作応答解析部により特定された操作により前記表示部に表示された表示内容とその表示回数を、前記表示内容に応じた階層に分類された履歴情報として記憶する操作表示履歴記憶部と、
前記操作表示履歴記憶部に記憶されている履歴情報に応じて、前記音声認識部により抽出されたキーワードの、どの階層の情報まで取得するかを表わす指標である検索レベルを設定する検索レベル設定部と、
前記検索レベル設定部により設定された検索レベルにしたがって、前記音声認識部により抽出されたキーワードを検索キーとして情報を検索して、前記検索レベルが設定された履歴情報の階層までの情報を検索結果として取得する情報検索制御部と、
前記情報検索制御部により取得された検索結果を、前記表示部に表示させる指示を行う情報提示制御部と、を備え、
前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、前記検索レベルを変更する
ことを特徴とする音声認識装置。
前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が前記所定回数以上になるたびに、前記検索レベルを上げる
ことを特徴とする請求項１記載の音声認識装置。
前記情報検索制御部が前記音声認識部により抽出されたキーワードを検索キーとして検索する情報は、施設情報、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報または番組情報のいずれかである
ことを特徴とする請求項１記載の音声認識装置。
前記音声取得部により取得された音声を発話したユーザを特定する話者識別部をさらに備え、
前記操作表示履歴記憶部は、ユーザ毎に履歴情報を記憶しており、前記話者識別部により特定されたユーザの履歴情報を有効にし、
前記検索レベル設定部は、前記操作表示履歴記憶部において有効にされた履歴情報を参照して、前記検索レベルを設定する
ことを特徴とする請求項１記載の音声認識装置。
前記検索レベルに応じて、振動または音声により前記ユーザに注意を促す鳴動設定部をさらに備える
ことを特徴とする請求項１記載の音声認識装置。
前記音声認識部により抽出されたキーワードが、初期状態に戻すコマンドを意味するキーワードであった場合に、前記操作表示履歴記憶部に記憶されている履歴情報を初期状態に戻す検索レベル初期化部をさらに備える
ことを特徴とする請求項１記載の音声認識装置。