JP5851740B2

JP5851740B2 - ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラム

Info

Publication number: JP5851740B2
Application number: JP2011149488A
Authority: JP
Inventors: 高橋　久; 久高橋; 浩明小窪; 本間　健; 健本間; 宏明高月; 隆昭石井
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2016-02-03
Anticipated expiration: 2031-07-05
Also published as: JP2013015732A

Description

本発明は、ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラムに関する。

ナビゲーション装置の中には、音声認識機能を有するものがある。音声認識機能を用いた音声の認識率は、近年めざましく向上してきている（例えば、特許文献１）。

しかし、音声認識が行われる環境によっては、誤認識してしまう場合がある。そして、入力された音声が誤認識されると、ユーザは発話によって音声の再入力を行わなければならない。

一般的には、このような音声の再入力では、ユーザは、一度入力した音声（言葉）の全内容を入力（発話）し直す必要がある。

特開２００８−２０８７２号

しかし、入力した音声のうち一部分だけが誤認識されている場合には、全内容を入力し直すことは、ユーザにとって負担となる。

本発明は、入力した音声のうちの一部分が誤認識された場合に、音声の再入力にかかるユーザの手間を軽減する技術を提供することを目的とする。

上記課題を解決するための本願発明は、複数の選択ボタンを備えるナビゲーション装置であって、複数の構成要素に分割可能であって前記構成要素が階層構造を有する言語系列を格納する記憶部と、音声を入力する音声入力部と、前記記憶部に格納されている言語系列の中から、前記音声入力部から入力された音声に対応する言語系列の候補を特定する音声認識部と、前記音声認識部によって特定された言語系列の候補の全体を前記選択ボタン数の構成要素に分割し、分割した前記言語系列の候補の全体を表示する表示部と、を備え、前記表示部は、前記構成要素の各々を前記選択ボタンと対応させて表示し、前記音声認識部は、表示された言語系列に含まれる１つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について、前記音声入力部から改めて入力された前記音声を用いて変更した言語系列の候補を再度特定する。

本発明の一実施形態が適用されたナビゲーション装置の概略構成図である。（Ａ）地図データの概略データ構造を示す図である。（Ｂ）施設情報の詳細なデータ構造を示す図である。住所情報の詳細なデータ構造（階層構造）を示す図である。（Ａ）ステアリングの概観図である。（Ｂ）ステアリングスイッチの詳細について示す図である。演算処理部の機能ブロック図である。音声認識処理の概要を示すフロー図である。（Ａ）〜（Ｅ）音声認識処理中の画面遷移図である。

以下、本発明の実施形態の一例を図面を参照して説明する。

図１は、本発明の一実施形態が適用されたナビゲーション装置１００の概略構成図である。図示するようにナビゲーション装置１００は、演算処理部１と、ディスプレイ２と、記憶装置３と、音声入出力装置４（マイクロフォン４１、スピーカ４２）と、入力装置５（タッチパネル５１、ダイヤルスイッチ５２、ステアリングスイッチ５３）と、車速センサ６と、ジャイロセンサ７と、ＧＰＳ受信装置８と、を備えている。ナビゲーション装置１００は、車両に載置されている車載用ナビゲーション装置としてもよいし、携帯電話やＰＤＡなどの携帯端末としてもよい。

演算処理部１は、様々な処理を行う中心的ユニットである。例えば、演算処理部１は、数値演算及び各デバイスを制御するといった様々な処理を実行するＣＰＵ（Central Processing Unit）２１と、記憶装置３から読み出した地図データ、演算データなどを格納するＲＡＭ（Random Access Memory）２２と、プログラムやデータを格納するＲＯＭ（Read Only Memory）２３と、各種ハードウェアを演算処理部１に接続するためのＩ／Ｆ（インタフェース）２４と、を有する。そして、演算処理部１は、各デバイスをバス２５で相互に接続した構成からなる。そして、後述する各機能部（１０１〜１０４）は、ＣＰＵ２１がＲＡＭ２２などのメモリに読み出したプログラムを実行することで実現される。

例えば、演算処理部１は、車速センサ６、ジャイロセンサ７、ＧＰＳ受信装置８から出力される情報を基にして現在地を算出する。また、得られた現在地情報に基づいて、表示に必要な地図データを記憶装置３から読み出す。また、読み出した地図データをグラフィック展開し、そこに現在地マーク（或いは、移動体の位置を示す移動体マーク）を重ねてディスプレイ２に表示する。また、記憶装置３に記憶されている地図データを用いて、ユーザから指示された出発地、又は演算処理部１で算出された現在地と、目的地と、を結ぶ最適な経路（以下では「推奨経路」という）を探索する。また、音声入出力装置４のスピーカ４２やディスプレイ２を用いてユーザを誘導する。

ディスプレイ２は、文字や画像の表示を行うための画面を備え、演算処理部１等で生成されたグラフィックス情報を前記画面上に表示するユニットである。ディスプレイ２は、液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイなどで構成される。

記憶装置３は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭやＨＤＤやＩＣカードといった記憶媒体で構成される。この記憶媒体には、例えば、地図データ３１０、辞書データ、音声データ、動画データ、等が記憶されている。また、記憶媒体は、電源供給が停止した場合でも必要なデータを保持可能なフラッシュメモリなどで構成されていてもよい。

図２（Ａ）は、地図データ３１０の概略データ構造を示す図である。図示するように、地図データ３１０は、地図上の区画された領域であるメッシュの識別コード（メッシュＩＤ）３１１ごとに、そのメッシュ領域に含まれている道路を構成する各リンクのリンクデータ３２０を含んでいる。

リンクデータ３２０は、リンクの識別コード（リンクＩＤ）３２１ごとに、リンクを構成する２つのノード（開始ノード、終了ノード）の座標情報３２２、リンクを含む道路の種別情報を示す道路種別３２３、リンクの長さを示すリンク長情報３２４、リンク旅行時間３２５、２つのノードにそれぞれ接続するリンクの識別コード（接続リンクＩＤ）３２６、リンクの周辺に位置する施設情報３２７、などを含んでいる。なお、ここでは、リンクを構成する２つのノードについて開始ノードと終了ノードを区別することで、道路の上り方向と下り方向を、それぞれ別のリンクとして管理することができる。また、地図データ３１０には、地図表示における道路や施設を表示するための描画データが格納されている。

図２（Ｂ）は、施設情報３２７の詳細なデータ構造を示す図である。図示するように、施設情報３２７は、施設位置３２７１と、施設名称３２７２と、電話番号３２７３と、住所情報３２７４と、を少なくとも含んでいる。

施設位置３２７１は、施設の位置を示す情報を含み、例えば、座標データからなる。

施設名称３２７２は、施設の名称を示す情報を含み、例えば「大阪第一ホテル」等の文字列からなる。

電話番号３２７３は、施設の電話番号を示す情報を含み、例えば、数字列からなる。

住所情報３２７４は、施設の所在地を示す情報を含み、例えば「東京都文京区白山○−○○−○」等の一般的な住所データからなる。

図３は、住所情報３２７４の詳細なデータ構造（階層構造）を示す図である。図示するように、住所情報３２７４は、階層構造を有するデータである。

例えば、住所情報３２７４は、図示するように、「県名」を示す上位データ（階層１）と、「市区町村名」を示す中位データ（階層２）と、「町・字、番地」を示す下位データ（階層３）と、を含む。

住所情報３２７４は、複数の上位データを有し、上位データ（図示する例では「東京都」）ごとに、複数の中位データ（図示する例では「文京区」や「新宿区」）を有する。また、住所情報３２７４は、中位データ（図示する例では「文京区」）ごとに、複数の下位データ（図示する例では「白山○−○○−○」や「白山○−○○−△」等）を有する。

なお、図示する例では、住所情報３２７４の階層数は、後述するステアリングスイッチ５３に備わる選択ボタン５３Ａ〜Ｃの個数となるように設定されている。

また、住所情報３２７４を各階層に分割する方法は、これに限定されず、例えば、中位データ（階層２）を「市区町村名」を示すデータに変更し、下位データ（階層３）を「町・字、番地」を示すデータ等に変更してもよい。

図１に戻り、音声入出力装置４は、音声入力装置としてマイクロフォン４１と、音声出力装置としてスピーカ４２と、を備える。マイクロフォン４１は、運転手やその他の搭乗者から発された音声などを取得する。スピーカ４２は、演算処理部１で生成された音声信号を出力する。これらのマイクロフォン４１とスピーカ４２は、車両の所定の部位に、別個に配置されている。

入力装置５は、ユーザからの指示を受け付けるユニットである。入力装置５は、タッチパネル５１と、ダイヤルスイッチ５２と、ステアリングスイッチ５３と、その他のハードスイッチ（図示せず）であるスクロールキー、縮尺変更キーなどで構成される。また、入力装置５には、ナビゲーション装置１００に対して遠隔で操作指示を行うことができるリモートコントローラが含まれる。リモートコントローラは、ダイヤルスイッチやスクロールキー、縮尺変更キーなどを備え、各キーやスイッチが操作された情報をナビゲーション装置１００に送出することができる。

タッチパネル５１は、ディスプレイ２の表示面に貼られた透過性のある操作パネルである。タッチパネル５１は、ディスプレイ２に表示された画像のＸＹ座標と対応したタッチ位置を特定し、タッチ位置を座標に変換して出力する。タッチパネル５１は、感圧式または静電式の入力検出素子などにより構成される。

ダイヤルスイッチ５２は、時計回り及び反時計回りに回転可能に構成され、所定の角度の回転ごとにパルス信号を発生し、演算処理部１に出力する。演算処理部１では、パルス信号の数から、ダイヤルスイッチ５２の回転角度を求める。

ステアリングスイッチ５３は、車両の進行方向を変更するためのステアリング２００に配置され、ユーザ（ドライバー）がステアリング２００を操作しながらタッチ可能なボタン群で構成される。

図４（Ａ）は、ステアリング２００の概観図である。図示するように、ステアリングスイッチ２００は、例えば、ステアリング２００の操作時においてユーザ（ドライバー）が左手を添える部分（点線で囲まれた部分）に配置される。

また、図４（Ｂ）は、ステアリングスイッチ５３の詳細について示す図である。図示するように、ステアリングスイッチ５３は、複数（例えば、３つ）の選択ボタン５３Ａ〜Ｃと、確定ボタン５３Ｄと、修正ボタン５３Ｅと、を備える。

選択ボタン５３Ａ〜Ｃは、ディスプレイ２に選択可能に表示された複数の候補の中から、１つの候補を選択する指示を行うためのボタンである。例えば、ナビゲーション装置１００で行われた音声認識について複数の結果（候補）がディスプレイ２に表示された場合には、ユーザ（ドライバー）は、いずれか１つの選択ボタン５３Ａ〜Ｃをタッチすることによって、１つの音声認識結果（候補）を選択することができる。

確定ボタン５３Ｄは、選択ボタン５３Ａ〜Ｃを用いて選択された１つの候補に確定する指示を行うためのボタンである。例えば、選択ボタン５３Ａ〜Ｃを用いて１つの音声認識結果（候補）が選択された後に、ユーザ（ドライバー）は、確定ボタン５３Ｄをタッチすることによって、選択された１つの音声認識結果（候補）が正しいものとして確定することができる。

修正ボタン５３Ｅは、選択ボタン５３Ａ〜Ｃを用いて選択された１つの候補について修正する指示を行うためのボタンである。例えば、選択ボタン５３Ａ〜Ｃを用いて１つの音声認識結果（候補）が選択された後に、ユーザ（ドライバー）は、修正ボタン５３Ｅをタッチすることによって、選択された１つの音声認識結果（候補）について修正することができる。

図１に戻り、車速センサ６、ジャイロセンサ７、及び、ＧＰＳ受信装置８は、移動体（ナビゲーション装置１００）の現在地（自車位置）などを算出するために使用される。車速センサ６は、車速を算出するために用いる車速データを出力するセンサである。ジャイロセンサ７は、光ファイバジャイロや振動ジャイロ等で構成され、移動体の回転による角速度を検出するものである。ＧＰＳ受信装置８は、ＧＰＳ衛星からの信号を受信し、移動体とＧＰＳ衛星間の距離とその距離の変化率を３個以上の衛星に対して測定することで、移動体の現在地や進行速度を測定する。

図５は、演算処理部１の機能ブロック図である。図示するように、演算処理部１は、基本制御部１０１と、入力受付部１０２と、出力処理部１０３と、音声認識部１０４と、を有する。

基本制御部１０１は様々な処理を行う中心的な機能部であり、処理内容に応じて、他の機能部を制御する。例えば、基本制御部１０１は、各種センサ６、７、ＧＰＳ受信装置８等の情報を取得し、マップマッチング処理等を行って現在地を特定する。また、基本制御部１０１は、随時、走行した日付および時刻と、位置と、を対応付けて、リンクごとに走行履歴を記憶装置３に記憶する。さらに、基本制御部１０１は、各機能部からの要求に応じて、ＧＰＳ受信装置８によって受信したＧＰＳ情報に含まれる現在時刻を出力する。また、基本制御部１０１は、他の機能部から推奨経路の情報を要求されると、当該情報を出力する。

また、基本制御部１０１は、地図データ３１０を用いて、出発地又は現在地と、目的地と、を結ぶ最適な経路（推奨経路）を探索する。当該経路探索においては、ダイクストラ法等の経路探索ロジックを用いて、道路の所定の区間（例えば、リンク）に対して予め設定されたリンクコスト（図２のリンク旅行時間３２５でもよい）に基づいて経路を探索する。なお、基本制御部１０１は、現在の日時に基づいて予測した到着日時・日の種類に対応する統計情報に含まれるリンクコストを用いて、推奨経路を探索してもよい。

また、基本制御部１０１は、車両の現在地が推奨経路から逸脱しないように、推奨経路に基づいて誘導情報を生成し、出力処理部１０３へ出力する。

入力受付部１０２は、入力装置５またはマイクロフォン４１を介して入力されたユーザ（搭乗者）からの指示を受け付け、他の機能部に出力する。例えば、入力受付部１０２は、ステアリングスイッチ５３のいずれかのボタン（選択ボタン５３Ａ〜Ｃ、確定ボタン５３Ｄ、修正ボタン５３Ｅ、等）がタッチされると、タッチされたボタンを特定する情報を、後述する音声認識部１０４へ出力する。また、入力受付部１０２は、マイクロフォン４１を介して音声（ユーザから発された音声）が入力されると、入力された音声を電気信号（或いはデータ）に変換し、後述する音声認識部１０４へ出力する。また、入力受付部１０２は、入力装置５を介して電源の投入や切断等が指示されると、その指示を基本制御部１０１へ出力する。

出力処理部１０３は、ディスプレイ２に、地図、推奨経路、ユーザに通知する各種メッセージ、等を表示させる。具体的には、表示処理部１０３は、他の機能部からの指示に基づき、ディスプレイ２の画面上に表示させるためのグラフィックス情報を生成してディスプレイ２に送信する。また、出力処理部１０３は、ディスプレイ２に表示させた地図上に、車両の位置を示す車両マークや各種設定画面などを表示するグラフィック情報を生成してディスプレイ２へ送信する。また、出力処理部１０３は、基本制御部１０１から出力された誘導情報に基づく音声信号を、スピーカ４２から音声出力させる。

音声認識部１０４は、例えば、目的地となる施設を検索する場合に音声認識処理を行う。具体的には、音声認識部１０４は、ユーザから発された音声に対応する言語系列の候補を特定する。なお、音声認識部１０４は、地図データ３１０の施設情報３２７に含まれる施設名称３２７２、電話番号３２７３、住所情報３２７４の中から、ユーザから発された音声に対応する言語系列の候補を検索するようにする。

また、音声認識部１０４は、ユーザから発された音声に対応する言語系列の候補のうち、ユーザに選択された候補を、部分的に修正することができる。例えば、音声認識部１０４は、ユーザに選択された候補を、複数の構成要素に分割する。そして、分割された複数の構成要素の中から、修正する１つの構成要素が選択されると、選択された構成要素について音声の再入力をユーザに対して促す。それから、音声認識部１０４は、再入力された音声に対応する構成要素の候補を特定し、修正する構成要素として選択されたものと入れ替える。

なお、上記した各構成要素は、ナビゲーション装置１００の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。ナビゲーション装置１００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、各機能部（１０１〜１０４）は、ハードウェア（ＡＳＩＣなど）により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

次に、上記構成からなるナビゲーション装置１００の特徴的な動作について説明する。

＜音声認識処理＞
図６は、ナビゲーション装置１００が行う音声認識処理の概要を示すフローチャートである。

図示するように、入力受付部１０２は、音声認識処理の開始の指示を受け付けるまで待機する（ステップＳ１０１；Ｎｏ）。

そして、入力受付部１０２は、音声認識処理の開始の指示を受け付けると（ステップＳ１０１；Ｙｅｓ）、音声認識処理（本フローのステップＳ１０２以降の処理）を開始する。例えば、入力受付部１０２は、目的地を設定する指示が入力装置５を介して入力されると、処理をステップＳ１０２に移行する。ただし、音声認識処理を開始するタイミングは、これに限定されない。

処理がステップＳ１０２に移行すると、入力受付部１０２は、マイクロフォン４１を介して音声（ユーザから発された音声）が入力されるのを待機する。そして、入力受付部１０２は、マイクロフォン４１を介して音声が入力されると、入力された音声を電気信号（或いはデータ）に変換し、音声認識部１０４へ出力する（ステップＳ１０２）。

次に、音声認識部１０４は、入力受付部１０２から入力された電気信号（或いはデータ）に基づき、ユーザから発された音声に対応する言語系列の候補を特定する（ステップＳ１０３）。具体的には、音声認識部１０４は、入力受付部１０２から入力された電気信号（或いはデータ）と、記憶装置３に格納されている辞書データと、を比較しながら、ユーザから発せられた音声の特徴に近い言語系列（例えば、施設名称３２７２、電話番号３２７３、住所情報３２７４）の上位数個を、候補として特定する。

なお、記憶装置３に格納されている辞書データには、地図データ３１０に含まれる施設情報３２７（例えば、施設名称３２７２、電話番号３２７３、住所情報３２７４）ごとに、当該施設情報３２７について発話するときの音声の特徴データが格納されている。

また、本実施形態では、音声認識部１０４は、ステップＳ１０３で特定する言語系列の候補の個数を、ステアリングスイッチ５３に備わる選択ボタン５３Ａ〜Ｃの個数（すなわち、３個）とする。

それから、音声認識部１０４は、ステップＳ１０３で特定された言語系列の候補を、ディスプレイ２に表示する（ステップＳ１０４）。具体的には、音声認識部１０４は、出力処理部１０３に対して、ディスプレイ２の画面上にステップＳ１０３で特定された言語系列の候補を表示させる指示を出力する。そして、出力処理部１０３は、音声認識部１０４からの指示に基づき、ステップＳ１０３で特定された言語系列の候補を、選択可能に表示するためのグラフィックス情報を生成してディスプレイ２に送信する。これにより、ディスプレイ２の画面上には、ステップＳ１０３で音声認識部１０４によって特定された言語系列の候補が選択可能に表示される。

図７（Ａ）は、ステップＳ１０３で特定された言語系列の候補の表示例を示す図である。図示する例では、ディスプレイ２の画面上には、ステップＳ１０３で特定された言語系列の候補として、第１の候補「神奈川県座間市広野台○−○○−△」と、第２の候補「東京都新宿区西新宿○−○○−○」と、第３の候補「神奈川県座間市広野台○−△△−△」と、の文字列が表示されている。これとともに、各候補を選択可能に表示するために、各候補に並べて各選択ボタン５３Ａ〜Ｃを連想させる文字列が表示される。例えば、第１の候補「神奈川県座間市広野台○−○○−△」には、第１の選択ボタン５３Ａを連想させる文字列「Ａ」が並べて表示される。同様に、第２の候補「東京都新宿区西新宿○−○○−○」には、第２の選択ボタン５３Ｂを連想させる文字列「Ｂ」が並べて表示される。また、第３の候補「神奈川県座間市広野台○−△△−△」には、第３の選択ボタン５３Ｃを連想させる文字列「Ｃ」が並べて表示される。

入力受付部１０２は、図７（Ａ）に示すような画面がディスプレイ２に表示されている状態で、いずれか１つの選択ボタン５３Ａ〜Ｃがタッチされるまで待機する。そして、入力受付部１０２は、いずれか１つの選択ボタン５３Ａ〜Ｃがユーザによってタッチされると、タッチされた選択ボタン５３Ａ〜Ｃを特定する情報を、音声認識部１０４へ通知する。

そして、音声認識部１０４は、ユーザに選択された候補に対して、修正せずに確定するのか、修正を加えるのか、を指示するための画面をディスプレイ２に表示する（ステップＳ１０５）。具体的には、音声認識部１０４は、出力処理部１０３に対して、ディスプレイ２の画面上に、確定を指示するための確定アイコンと、修正を指示するための修正アイコン「修正」と、を表示させる指示を出力する。そして、出力処理部１０３は、音声認識部１０４からの指示に基づき、確定を指示するための確定アイコンと、修正を指示するための修正アイコンと、を選択可能に表示するためのグラフィックス情報を生成してディスプレイ２に送信する。これにより、ディスプレイ２の画面上には、確定を指示するための確定アイコンと、修正を指示するための修正アイコンと、が選択可能に表示される。

図７（Ｂ）は、ユーザに選択された候補に対して、修正せずに確定するのか、修正を加えるのか、を指示するための画面の表示例を示す図である。図示する例では、ディスプレイ２の画面上には、確定アイコンと、修正アイコンと、が表示されている。これとともに、各アイコンを選択可能に表示するために、各アイコンに並べて、ステアリングボタン５３内の確定ボタン５３Ｄと修正ボタン５３Ｅを連想させる文字列が表示される。例えば、確定アイコンには、確定ボタン５３Ｄを連想させる文字列「確定」が並べて表示される。同様に、修正アイコンには、修正ボタン５３Ｅを連想させる文字列「修正」が並べて表示される。

入力受付部１０２は、図７（Ｂ）に示すような画面がディスプレイ２に表示されている状態で、確定ボタン５３Ｄ又は修正ボタン５３Ｅがタッチされるまで待機する。そして、入力受付部１０２は、確定ボタン５３Ｄ又は修正ボタン５３Ｅがユーザによってタッチされると、タッチされたボタン５３Ｄ、Ｅを特定する情報を、音声認識部１０４へ通知する。

ここで、音声認識部１０４は、確定ボタン５３Ｄを特定する情報が入力受付部１０２から通知された場合には、修正の指示はないと判定する（ステップＳ１０５；Ｎｏ）。この場合には、音声認識部１０４は、図７（Ａ）に示す画面がディスプレイ２に表示されている状態でユーザに選択された候補を、目的地として設定する施設として確定する。そのために、音声認識部１０４は、まず、ステップＳ１０４で入力受付部１０２から通知された情報（選択ボタン５３Ａ〜Ｃを特定する情報）に基づいて、ユーザにタッチされた選択ボタン５３Ａ〜Ｃを特定する。それから、音声認識部１０４は、特定した選択ボタン５３Ａ〜Ｃに対応する候補を、目的地として設定する施設として確定する。なお、本実施形態では、第１の選択ボタン５３Ａと第１の候補が対応し、第２の選択ボタン５３Ｂと第２の候補が対応し、第３の選択ボタン５３Ｃと第３の候補が対応しているものとする。

目的地として設定する施設を確定後、音声認識部１０４は、処理をステップＳ１１１に移行する。

そして、基本制御部１０１は、ステップＳ１０５で確定された施設に基づく各種処理を実行する（ステップＳ１１１）。例えば、基本制御部１０１は、処理がステップＳ１１１に移行すると、ステップＳ１０５で特定された施設の施設情報３２７を記憶装置３から読み出し、読み出した施設情報３２７に含まれる施設位置３２７１で特定される位置を目的地として設定する。

ステップＳ１１１の処理を終了後、基本制御部１０１は、本フローを終了する。

一方、ステップＳ１０５において、音声認識部１０４は、修正ボタン５３Ｅを特定する情報が入力受付部１０２から通知された場合には、修正の指示があると判定する（ステップＳ１０５；Ｙｅｓ）。

この場合には、音声認識部１０４は、図７（Ａ）に示す画面がディスプレイ２に表示されている状態でユーザに選択された候補に対して、構成要素への分割を行う（ステップＳ１０６）。具体的には、音声認識部１０４は、ユーザに選択された候補（例えば、第２の候補が選択された場合には「東京都新宿区西新宿○−○○−○」という言語系列）を、住所情報３７２４で設定されている「県名」「市区町村名」「町・字、番地」という各階層に分割する。すなわち、この例では、「東京都」「新宿区」「西新宿○−○○−○」という３要素に分割される。

なお、本実施形態の説明では、住所の選択を例として挙げているが、住所以外のものであっても、階層構造が定義できる選択対象であれば、構成要素への分割を行うことができる。例えば、楽曲を選択する場合を挙げる。１個の楽曲は「アーティスト名」「アルバム名」「楽曲名」という３層の階層構造の中に分類することができる。よって、楽曲名を選択する操作に本実施形態を適用する場合、「アーティスト名」「アルバム名」「楽曲名」という３要素に分割すればよい。

また、住所情報３７２４に示すような各階層の内訳を示すデータが利用できない場合であっても、形態素解析を使用すれば、構成要素へ分割することが可能である。具体的には、音声認識部１０４は、ユーザに選択された候補（例えば、第２の候補が選択された場合には「東京都新宿区西新宿○−○○−○」という言語系列）を、記憶装置３に格納されている形態素解析用の辞書データを用いて複数の構成要素（単語）に分割する。このような形態素解析については、汎用プログラム（例えば、「茶筌システム」http://chasen.naist.jp/hiki/ChaSen/）等を使用すればよい。

なお、本実施形態では、ステップＳ１０６において、音声認識部１０４は、ユーザに選択された候補についての分割数（構成要素の個数）を、ステアリングスイッチ５３に備わる選択ボタン５３Ａ〜Ｃの個数となるようにする。

そして、音声認識部１０４は、ステップＳ１０６で複数の構成要素に分割された候補（言語系列）を、ディスプレイ２に表示する（ステップＳ１０７）。具体的には、音声認識部１０４は、出力処理部１０３に対して、ユーザに選択された候補（言語系列）を、ステップＳ１０６で分割された構成要素ごとに区切って表示させる指示を出力する。そして、出力処理部１０３は、音声認識部１０４からの指示に基づき、分割された構成要素ごとに選択可能となるように表示するためのグラフィックス情報を生成してディスプレイ２に送信する。これにより、ディスプレイ２の画面上には、ステップＳ１０６で分割された構成要素が選択可能に表示される。

図７（Ｃ）は、分割された構成要素のうち、修正する構成要素を指示するための画面の表示例を示す図である。図示する例では、ディスプレイ２の画面上には、分割された３つの構成要素（「東京都」、「新宿区」、「西新宿○−○○−○」）が表示されている。これとともに、各構成要素を選択可能に表示するために、各構成要素に並べて各選択ボタン５３Ａ〜Ｃを連想させる文字列が表示される。例えば、先頭の構成要素「東京都」には、第１の選択ボタン５３Ａを連想させる文字列「Ａ」が並べて表示される。同様に、中間の構成要素「新宿区」には、第２の選択ボタン５３Ｂを連想させる文字列「Ｂ」が並べて表示される。また、末尾の構成要素「西新宿○−○○−○」には、第３の選択ボタン５３Ｃを連想させる文字列「Ｃ」が並べて表示される。

なお、図示する例では、階層構造を有する住所情報３２７４が複数の構成要素に分割されているが、もちろん、階層構造を有さない施設名称３２７２や電話番号３２７３が複数の構成要素に分割されてもよい。

入力受付部１０２は、図７（Ｃ）に示すような画面がディスプレイ２に表示されている状態で、いずれか１つの選択ボタン５３Ａ〜Ｃがタッチされるまで待機する。そして、入力受付部１０２は、いずれか１つの選択ボタン５３Ａ〜Ｃがユーザによってタッチされると、タッチされた選択ボタン５３Ａ〜Ｃを特定する情報を、音声認識部１０４へ通知する。

そして、音声認識部１０４は、ユーザに選択された構成要素について、音声（発話）の再入力をユーザに対して促す画面を、ディスプレイ２に表示する（ステップＳ１０８）。具体的には、音声認識部１０４は、出力処理部１０３に対して、ユーザに選択された構成要素と、当該構成要素より下位の構成要素をハイライト表示させるとともに、音声（発話）の再入力を促すメッセージを表示させる指示を出力する。そして、出力処理部１０３は、音声認識部１０４からの指示に基づき、ユーザに選択された構成要素と、当該構成要素より下位の構成要素について音声（発話）の再入力を促す画面を表示するためのグラフィックス情報を生成してディスプレイ２に送信する。これにより、ディスプレイ２の画面上には、修正する構成要素について音声（発話）の再入力を促す画面が表示される。

図７（Ｄ）は、修正対象としてユーザに選択された構成要素と、当該構成要素より下位の構成要素について、音声（発話）の再入力をユーザに促す画面の表示例を示す図である。図示する例では、ディスプレイ２の画面上には、ユーザに選択された構成要素（図示する例では「新宿区」）と、当該構成要素より下位の構成要素（図示する例では「西新宿○−○○−○」）がハイライト表示されている。これとともに、音声（発話）の再入力を促すメッセージ（例えば、「修正部分を正しく発音して下さい！」）が表示されている。

それから、入力受付部１０２は、マイクロフォン４１を介して修正対象の構成要素と、当該構成要素より下位の構成要素について音声（ユーザから発された音声）が再入力されるのを待機する。そして、入力受付部１０２は、マイクロフォン４１を介して音声が再入力されると、再入力された音声を電気信号（或いはデータ）に変換し、音声認識部１０４へ出力する。

次に、音声認識部１０４は、入力受付部１０２から再入力された電気信号（或いはデータ）に基づき、ユーザから発された音声に対応する構成要素と、当該構成要素より下位の構成要素の候補を特定する（ステップＳ１０９）。具体的には、音声認識部１０４は、入力受付部１０２から再入力された電気信号（或いはデータ）と、記憶装置３に格納されている辞書データと、を比較しながら、ユーザから発せられた音声の特徴に近い構成要素と、当該構成要素より下位の構成要素（住所情報３２７４に部分的に含まれる文字列）の上位数個を、候補として特定する。

ただし、音声認識部１０４は、ステップＳ１０９においては、記憶装置３に格納されている辞書データのうち、ステップＳ１０７で修正する構成要素として選択された構成要素より上位の構成要素（図示する例では「東京都」）を、上位データに有する住所情報３２７４に絞って検索を行う。そのため、本実施形態の音声認識処理では、不要なデータ（すなわち、上位データに「東京都」以外のデータを有する住所情報３２７４）を検索対象から除外できる。そのため、ユーザから発せられた音声の特徴に近い構成要素を検索する速度が高速化し、音声認識の精度も向上する。

それから、音声認識部１０４は、修正する構成要素としてユーザに選択された構成要素（ステップＳ１０７で選択された構成要素）と、当該構成要素より下位の構成要素を、ステップＳ１０９で特定された構成要素で置き換える。そして、音声認識部１０４は、この置き換えによって生成される言語系列の候補を、ディスプレイ２に表示する（ステップＳ１１０）。具体的には、音声認識部１０４は、出力処理部１０３に対して、ディスプレイ２の画面上にステップＳ１０９で特定された構成要素で置き換えられた言語系列の候補を表示させる指示を出力する。そして、出力処理部１０３は、音声認識部１０４からの指示に基づき、ステップＳ１０９で特定された構成要素で置き換えられた言語系列の候補を、選択可能に表示するためのグラフィックス情報を生成してディスプレイ２に送信する。これにより、ディスプレイ２の画面上には、ステップＳ１０９で音声認識部１０４によって特定された構成要素で置き換えられた言語系列の候補が選択可能に表示される。

図７（Ｅ）は、一部の構成要素が修正された言語系列の候補の表示例を示す図である。図示する例では、ディスプレイ２の画面上には、ステップＳ１０９で特定された構成要素と、当該構成要素より下位の構成要素で置き換えられた言語系列の候補として、第１の候補「東京都文京区白山○−○○−○」と、第２の候補「東京都文京区白山○−○△−△」と、第３の候補「東京都文京区白山△−△△−△」と、の文字列が表示されている。これとともに、各候補を選択可能に表示するために、各候補に並べて各選択ボタン５３Ａ〜Ｃを連想させる文字列が表示される。例えば、第１の候補「東京都文京区白山○−○○−○」には、第１の選択ボタン５３Ａを連想させる文字列「Ａ」が並べて表示される。同様に、第２の候補「東京都文京区白山○−○△−△」には、第２の選択ボタン５３Ｂを連想させる文字列「Ｂ」が並べて表示される。また、第３の候補「東京都文京区白山△−△△−△」には、第３の選択ボタン５３Ｃを連想させる文字列「Ｃ」が並べて表示される。

なお、音声認識部１０４は、ステップＳ１０７で修正する構成要素として選択された構成要素より上位の構成要素（図示する例では「東京都」）の部分については、正しく音声認識できているものとして変更しない。そのため、図７（Ｅ）に示す第１〜第３の候補には、共通して「東京都」の文字列が含まれている。

入力受付部１０２は、図７（Ｅ）に示すような画面がディスプレイ２に表示されている状態で、いずれか１つの選択ボタン５３Ａ〜Ｃがタッチされるまで待機する。そして、入力受付部１０２は、いずれか１つの選択ボタン５３Ａ〜Ｃがユーザによってタッチされると、タッチされた選択ボタン５３Ａ〜Ｃを特定する情報を、音声認識部１０４へ通知する。

それから、音声認識部１０４は、処理をステップＳ１０５に戻し、修正箇所がなくなるまで（ステップＳ１０５；Ｎｏ）、ステップＳ１０５からステップＳ１１０までの処理を繰り返し実行する。

こうして、本実施形態の音声認識処理では、入力した音声のうちの一部分が誤認識された場合において、誤認識された一部分についてのみ音声を再入力して音声認識をやり直すことができる。そのため、長文となる音声の再入力が不要となり、音声の再入力にかかる手間が軽減される。

特に、本実施形態の住所情報３２７４のように階層構造を有するデータの音声認識処理においては、修正する構成要素としてユーザに選択された構成要素と、当該構成要素より下位の構成要素について音声を再入力して音声認識をやり直すことができる。そして、再度、音声認識を行う際には、上述した通り、不要なデータ（すなわち、上位データに「東京都」以外のデータを有する住所情報３２７４）を検索対象から除外できるため、ユーザから発せられた音声の特徴に近い構成要素を検索（特定）する速度が高速化し、音声認識の精度も向上する。

なお、上記したフローの各処理単位は、ナビゲーション装置１００の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理ステップの分類の仕方やその名称によって、本願発明が制限されることはない。ナビゲーション装置１００が行う処理は、さらに多くの処理ステップに分割することもできる。また、１つの処理ステップが、さらに多くの処理を実行してもよい。

また、上記の実施形態は、本発明の要旨を例示することを意図し、本発明を限定するものではない。多くの代替物、修正、変形例は当業者にとって明らかである。

以下に、上記実施形態の変形例を挙げる。

例えば、音声認識の結果（すなわち、ユーザから入力された音声に基づいて予測（特定）された言語系列）の一部を削除したい場合にも適用できる。

この場合には、例えば、上記ステップＳ１０７において、図７（Ｃ）に示すように「※長押しで削除」等のメッセージを追加して表示すればよい。そして、この画面がディスプレイ２に表示されている状態で、削除したい構成要素がある場合には、ユーザは、複数の選択ボタン５３Ａ〜Ｃを長く（１秒以上）タッチすればよい。そして、入力受付部１０２は、いずれか１つの選択ボタン５３Ａ〜Ｃがユーザによって長くタッチされると、長くタッチされた選択ボタン５３Ａ〜Ｃを削除する指示を、音声認識部１０４へ通知する。

それから、音声認識部１０４は、上記のステップＳ１０８、Ｓ１０９の処理を省略し、処理をステップＳ１１０へ移行する。ステップＳ１１０では、音声認識部１０４は、削除する構成要素としてユーザに選択された構成要素（ステップＳ１０７で選択された構成要素）を削除する。そして、音声認識部１０４は、一部の構成要素が削除されて生成される言語系列（１つの言語系列）を、ディスプレイ２に表示し、処理をステップＳ１０５に戻す。

このように、音声認識の結果の一部を削除したい場合には、音声の再入力を省略して該当箇所を削除できるため、誤認識された箇所を効率良く修正することができる。

また、上記実施形態では、ステアリングスイッチ５３には、３つの選択ボタン５３Ａ〜Ｃと、１つの確定ボタン５３Ｄと、１つの修正ボタン５３Ｅと、が設けられている。しかし、本発明はこれに限定されない。例えば、選択ボタン５３Ａ〜Ｃは、２つ、或いは、４つ以上設けられてもよい。また、確定ボタン５３Ｄと修正ボタン５３Ｅを別個に設けず、１つのボタンで兼用するようにしてもよい。この場合には、当該ボタンが１回タッチされれば、上記で説明した確定ボタン５３Ｄがタッチされたものとみなし、当該ボタンが長く（１秒以上）タッチされれば、上記で説明した修正ボタン５３Ｅがタッチされたものとみなせばよい。

また、選択ボタン５３Ａ〜Ｃ、確定ボタン５３Ｄ、修正ボタン５３Ｅは、それぞれ、車両のステアリング５３以外の位置に配置されてもよく、車両内の任意の位置に配置可能である。また、選択ボタン５３Ａ〜Ｃ、確定ボタン５３Ｄ、修正ボタン５３Ｅは、ディスプレイ２の画面上にアイコンとして表示されてもよい。

１・・・演算処理部、２・・・ディスプレイ、３・・・記憶装置、４・・・音声入出力装置、５・・・入力装置、６・・・車速センサ、７・・・ジャイロセンサ、８・・・ＧＰＳ受信装置、２１・・・ＣＰＵ、２２・・・ＲＡＭ、２３・・・ＲＯＭ、２４・・・インタフェース（Ｉ／Ｆ）、４１・・・マイクロフォン、４２・・・スピーカ、５１・・・タッチパネル、５２・・・ダイヤルスイッチ、５３・・・ステアリングスイッチ、５３Ａ〜Ｃ・・・選択ボタン、５３Ｄ・・・確定ボタン、５３Ｅ・・・修正ボタン、１００・・・ナビゲーション装置、１０１・・・基本制御部、１０２・・・入力受付部、１０３・・・表示処理部、１０４・・・音声認識部、３１０・・・地図データ、３１１・・・メッシュＩＤ、３２０・・・リンクデータ、３２１・・・リンクＩＤ、３２２・・・開始ノード・終了ノード、３２３・・・道路種別、３２４・・・リンク長、３２５・・・リンク旅行時間、３２６・・・開始接続リンク・終了接続リンク、３２７・・・施設情報、３２７１・・・施設位置、３２７２・・・施設名称、３２７３・・・電話番号、３２７４・・・住所情報。

Claims

複数の選択ボタンを備えるナビゲーション装置であって、
複数の構成要素に分割可能であって前記構成要素が階層構造を有する言語系列を格納する記憶部と、
音声を入力する音声入力部と、
前記記憶部に格納されている言語系列の中から、前記音声入力部から入力された音声に対応する言語系列の候補を特定する音声認識部と、
前記音声認識部によって特定された言語系列の候補の全体を前記選択ボタン数の構成要素に分割し、分割した前記言語系列の候補の全体を表示する表示部と、を備え、
前記表示部は、前記構成要素の各々を前記選択ボタンと対応させて表示し、
前記音声認識部は、
表示された言語系列に含まれる１つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について、前記音声入力部から改めて入力された前記音声を用いて変更した言語系列の候補を再度特定する、
ことを特徴とするナビゲーション装置。
請求項１に記載のナビゲーション装置であって、
前記音声認識部は、
再度特定された言語系列に含まれる１つの構成要素について、前記選択ボタンを用いてさらに選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について、前記音声入力部から改めて入力された前記音声を用いて変更した言語系列の候補を再度特定する、
ことを特徴とするナビゲーション装置。
請求項２に記載のナビゲーション装置であって、
前記表示部は、
再度特定された言語系列に含まれる構成要素のうち、前記選択された構成要素と当該構成要素より下位の構成要素とに相当する変更後の構成要素をさらに前記選択ボタン数の構成要素に分割し、前記構成要素の各々を前記選択ボタンと対応させて表示する、
ことを特徴とするナビゲーション装置
請求項１乃至３のいずれか１項に記載のナビゲーション装置であって、
前記選択ボタンは、車両のステアリングに設けられる、
ことを特徴とするナビゲーション装置。
請求項１乃至４のいずれか１項に記載のナビゲーション装置であって、
前記言語系列には、少なくとも住所情報が含まれる、
ことを特徴とするナビゲーション装置。
複数の選択ボタンを備えるナビゲーション装置を用いた音声認識方法であって、
前記ナビゲーション装置は、複数の構成要素に分割可能であって前記構成要素が階層構造を有する言語系列を格納する記憶部を備えており、
音声を入力する音声入力ステップと、
前記記憶部に格納されている言語系列の中から、前記音声入力ステップで入力された音声に対応する言語系列の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された言語系列の候補の全体を前記選択ボタン数の構成要素に分割し、分割した前記言語系列の候補の全体を表示する表示ステップと、
前記表示ステップで表示された言語系列に含まれる１つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について、前記音声入力ステップで改めて入力された前記音声を用いて変更した言語系列の候補を再度特定する音声再認識ステップと、を行い、
前記表示ステップでは、前記構成要素の各々を前記選択ボタンと対応させて表示する、
ことを特徴とする音声認識方法。
複数の選択ボタンを備えるコンピューターを、ナビゲーション装置として機能させるためのプログラムであって、
前記ナビゲーション装置は、複数の構成要素に分割可能であって前記構成要素が階層構造を有する言語系列を格納する記憶部を備えており、
音声を入力する音声入力ステップと、
前記記憶部に格納されている言語系列の中から、前記音声入力ステップで入力された音声に対応する言語系列の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された言語系列の候補の全体を前記選択ボタン数の構成要素に分割し、分割した前記言語系列の候補の全体を表示する表示ステップと、
前記表示ステップで表示された言語系列に含まれる１つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について、前記音声入力ステップで改めて入力された前記音声を用いて変更した言語系列の候補を再度特定する音声再認識ステップと、を行い、
前記表示ステップでは、前記構成要素の各々を前記選択ボタンと対応させて表示する、
を前記コンピューターに実行させる、
ことを特徴とするプログラム。