JP4802522B2 - 音声入力装置および音声入力方法 - Google Patents

音声入力装置および音声入力方法 Download PDF

Info

Publication number
JP4802522B2
JP4802522B2 JP2005067020A JP2005067020A JP4802522B2 JP 4802522 B2 JP4802522 B2 JP 4802522B2 JP 2005067020 A JP2005067020 A JP 2005067020A JP 2005067020 A JP2005067020 A JP 2005067020A JP 4802522 B2 JP4802522 B2 JP 4802522B2
Authority
JP
Japan
Prior art keywords
poi
information
user
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005067020A
Other languages
English (en)
Other versions
JP2006251298A (ja
Inventor
大介 斎藤
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005067020A priority Critical patent/JP4802522B2/ja
Publication of JP2006251298A publication Critical patent/JP2006251298A/ja
Application granted granted Critical
Publication of JP4802522B2 publication Critical patent/JP4802522B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、車両用ナビゲーション装置等に付随する音声入力装置に関する。
近年、自動車において、音声を入力し認識する装置(以下、音声入力装置と称す)を備え、ナビゲーション装置、オーディオ装置あるいは空調装置等の操作を音声で行うことが可能なものがある。こうした音声入力装置は下記「特許文献1」に記載されているように、一般に、音声信号を取込むマイクロフォンを備え、ユーザの発話音声を入力・認識処理するように構成されている。
一般的な音声入力装置では、例えば常に音声入力を待受け、入力音声のパワー値(入力信号の振幅の二乗値)等を用いてユーザの発話音声区間を検出し、認識を行うような構成が以前から記述されている。自動車の室内でこうした構成を用いると、音声信号のみならず、車両のエンジンやエアコンの稼働音、オーディオ音、走行に伴う風音、タイヤと路面の接触に伴うロードノイズ等、多くの雑音が同時に入力される為、認識誤りが多くなる。
このため、車両に搭載される音声入力装置は、使用者が発声の直前に例えばPTT(Push−To−Talk)スイッチ、PTA(Push−To−Activate)スイッチ等の手段により音声入力装置側へ入力開始の信号を送り、認識対象となる音声区間を正確に特定させる方式がよく用いられる(例えば、「特許文献2」)。PTT方式は、ボタンが押下されている時間区間についての入力音声が音声認識の対象になる。PTA方式では、ボタンが押下された時刻から所定の時間以上にポーズ(無音声区間)が継続されるまでの区間を音声認識の対象とする。これに類似した手法としては、特定のキーワードの入力を前記PTAスイッチの押下操作と同等の機能として用いる手法も提案されている。
また、前記「特許文献1」においては、可変適応フィルタを用いて背景雑音を抑圧する方法も開示されている。
なお、以下では音声入力開始をシステムに伝達する手段を「発話スイッチ」と呼ぶ。
特開2001−195085号公報 特開平11−38995号公報
前記のような発話スイッチを用いた音声入力装置では、音声入力を行う度に使用者がスイッチを押下する等の操作を行わなければならず、操作が煩わしいという問題がある。さらに、使用者が発話を意思決定してから発話を開始する前に、発話スイッチの押下操作あるいはキーワード発話入力等が行われるため、操作完了までの所要時間が増加し、使用者にとって使い勝手が悪いという問題もある。また、発話操作時に、発話語彙の意識とともに、発話ボタンを押下するための意識も必要となることから、心的負荷も増加してしまう。
こうした問題を解消する方法として、常時入力を待受けるタイプのものがある。雑音の少ない環境では音声発話区間を正確に切り分けることが可能であり、有効である。しかしながら、常時雑音入力が大きく、更にこれら雑音の性質(雑音環境)が刻々と変化する自動車の室内においては、誤認識が著しく増加してしまい、その結果、使用者の意思とは異なる語彙が認識され、使用者に不都合を与えてしまうという問題がある。
このため、本発明においては、発話開始のタイミングに意識を払う必要がなく、また、雑音環境が刻々と変化する条件下でも誤認識の生じ難い音声入力装置の実現を目的としている。
前記目的を達成するために、本発明の音声入力装置においては、発話されるタイミングを予測することで発話時における発話スイッチの操作を必要とせず、また、発話される可能性の高い語彙を予測することにより、認識語彙の範囲を予め絞っておくことによって誤認識の確率を低減するようにした。この発話タイミングを予測する方法としては、使用者にとって注目する対象又は目的地となるPOI(Point of Interest)に所定の範囲内に接近したところで自動的に音声入力待受けの状態に入るようにした。また、この待受け状態になったところで、認識辞書の内容を、対象とするPOIに関連した語彙の認識順位優先度を上げておく構成を基本形とした。
また、上記所定の範囲内における自動入力状態以外の範囲においては、手動で発話スイッチを入れ通常入力状態とし、ナビゲーション情報からPOIに関する情報を求めるようにしている。なお、ここで言う上記POIの注目する対象とは、ナビゲーション装置に記録された各種施設(ランドマーク)や道路上の分岐・合流地点等を指す。
このため、本発明による音声入力装置においては、マイクロフォン等の
音入力手段を介して音声を取得し、この音声を音声認識手段で情報信号に変換し、認識処理が行われた後に情報信号に変換し、この情報信号は操作命令発行部で認識された語彙内容を解釈し、POI情報を取得するためのナビゲーション部に操作命令を送出する。ナビゲーション部からのPOI情報はPOI情報抽出部で必要情報が記憶され、待受け領域判断部でPOIの上記所定の範囲内にあるか否かの判定が行われ、所定の範囲内にあれば発話待受けの状態となり、辞書変更部により認識辞書の優先順位の変更等を行うことを基本動作としている。
以上述べた本発明の構成により、使用者の注目対象となるPOIからの距離が所定の距離以内に接近すると、発話スイッチとは関係なく自動入力状態になるため、使用者は発話スイッチのありかを探したり、スイッチを押下する等の操作が不要となる。また、この自動入力状態になった時に、認識辞書における当該POIに関連した語彙の認識順位優先度を上げることにより、誤認識の確率を抑制することが出来た。これら効果により、POI探索時の使用者の負担を軽減することが出来る。
<POIの種類と発話可能語彙について>
本発明は、車両の移動に伴い接近してきた各種POI(Point of Interest)に基づき、使用者が注目するPOIに対応する情報取得に関した語彙を優先して認識対象にすると共に、接近しつつあるPOIに対して予め定められている区間においては、発話スイッチを押すこと無しに発話入力が可能な環境を提供するものである。ここで対象となるPOIの種類とそのPOIに対し要求される取得情報(対応する要求情報)の組み合わせとしては、例えば下記の表1のようなものが考えられる。
Figure 0004802522
従って、発話スイッチを押すこと無しに音声入力を待受ける場合には、上記POIの種類に対応する要求情報を取得するための語彙が認識語彙として認識辞書内の言語辞書に登録されている必要がある。本発明ではこれを注目する対象POIに対応して言語辞書を変更することによって実現している。この処理過程の詳細については後述する。
以下では便宜的に、発話スイッチを用いず、POIの接近情報に基づいて音声入力待受け可能となる状態を「自動入力状態」と表記し、これに対し発話スイッチの操作によって音声入力待ちうけ可能となる状態を「通常入力状態」と表記する。
(実施の形態1)
<基本機能と実現手段>
本実施の形態1においてはPOIの種類を特に限定するものではなく、ともかく所定の範囲内にある任意のPOIを全て対象としている。ここで所定の範囲とは、使用者が或るPOIに接近し、使用者の音声入力の待受け可能となる地理的領域を指す。このようなPOIを対象とする本発明に係る音声入力装置は、使用者の現在位置周辺に存在する任意のPOIの情報をPOI情報抽出部により抽出し、このPOI情報と使用者の現在位置との位置関係から音声信号の自動入力状態にあるか否かを判定する待受け領域判断部と、これにより音声信号の自動入力が可能と判断されたところで、音声信号は音声入力部を経由して自動入力を行い、認識動作の開始を認識動作制御部により音声認識部に命令し、これにより、音声認識部において認識処理を行う構成を基本構成としている。この構成により使用者が周辺のPOIと所定の位置関係になっておれば発話スイッチを操作することなく、音声入力を行うことが可能となる。
図1にこの構成を含む本発明による実施の形態1の構成を示し、図2に本発明に係る音声入力装置のハードウエアの構成を示す。
図1において、待受け領域判断部102ではPOI情報抽出部101が抽出するPOIと使用者の現在位置との関係を監視する。そして、所定の位置関係、すなわち使用者がPOIに対して予め定められた地理的領域以内に接近したことを示す条件のPOIが検出された場合に音声入力待受け可能と判断し、認識動作制御部103に対し発話スイッチ107を使用しない自動入力状態に遷移するよう命令を出す。ここで、待受け領域判断部102は図2に示す演算装置204、記憶装置205、センサ206、タイマ208において実行される。センサ206はGPSセンサやジャイロセンサであり、現在位置を検出し決定するものである。
また、POI情報抽出部101は、図2の演算装置204と記憶装置205とから構成され、後述のナビゲーション部110が保持するPOI情報を参照し、当該POIに関する情報を抽出し記憶する。演算装置204としては、CPU、MPU、DSP、FPGA等の一般的な動作回路を組み合わせたものが使用される。記憶装置205としては、キャッシュメモリ、メインメモリ、HDD、CD、MD、DVD、光ディスク、FDDなど、一般的な記憶媒体が使用される。
なお、本実施の形態1では抽出するPOI情報について特に制限を設けていない。したがって、POI情報抽出部101に記憶する内容はナビゲーション部110が保持するPOI情報のコピーであってもよい。なお、使用者の入力によって抽出されたPOIを限定する方法を実施の形態2で、使用者の運転履歴の分析から限定する方法を実施の形態3において説明する。
以上の過程で、使用者が或るPOIに接近したことを待受け領域判断部102が判断し、認識動作制御部103が自動入力状態に遷移するよう命令を出した所で、認識動作制御部103においては、音入力部106から入力音声信号が入力されたタイミングにあわせて音声認識部108で認識動作の開始を自動入力状態か通常入力状態かの情報と共に音声認識部108に伝達する。なお、認識動作制御部103の機能は図2における演算装置204で実行される。
本実施の形態1においてはPOIの種類は問わず、接近したPOIに対して音声認識動作を開始する自動入力状態にしているため、発話スイッチ107は不要であるが、前記の通常入力状態の場合は必要である。発話スイッチ107は、音声入力開始をシステムに伝える為に使用者が押下するスイッチであり、図2におけるスイッチ207で実現され、使用者がこのスイッチ207を押下すると通常入力状態として音声入力を待つ。すなわち、発話スイッチ107は自動入力状態を終了して通常入力状態に移行するための手段であり、使用者が該スイッチ207を押下したことを発話スイッチ107が検出すると、音声認識部108に対し、入力音声信号の認識開始を命令する。
ただし、この発話スイッチ107に対しては、誤操作対策及び周囲騒音による誤認識発生予防の意味も含め、発話スイッチ107が押下された時刻から所定の期間が過ぎたら認識処理は実行しないようにしておく。ただし、使用者と任意のPOIとが所定の地理的領域内、すなわち、待受け領域判断部102が自動入力状態にあると判断した領域内であれば、発話スイッチ107が押下された時刻から所定の期間を経過した時間(所定の期間以外の期間)であっても入力された時刻から入力された音声信号の認識処理を行うものとしておく。この発話スイッチの利用法とすることにより、使用者の現在位置が特定の地理的領域内に存在する場合に、発話スイッチの押下の有無にかかわらず入力音声を認識することが出来るようになり、適用範囲のより広い音声入力装置を構成とすることが出来る。
前述のように、待受け領域判断部102では、ナビゲーション部110から抽出したPOI情報を、POI情報抽出部101を経由して使用者の現在位置監視を行っている。したがって、使用者の移動と共にPOIが変われば、そのPOIの変化と共に音声認識を行う語彙も変化してくる。このため、本発明においては、音声認識部108で使用する言語辞書105に記録されている語彙の優先順位をPOIにあわせて変更するようにしている。
このため、待受け領域判断部102が判断した対象POI(現在位置から所定距離内のPOI)に基づき、発話される可能性の高い語彙を次発話語彙として予測し、この予測された語彙を優先語彙として認識辞書105内の言語辞書部分における当該語彙の優先順位を辞書変更部104により変更する。
この構成とすることにより、発話可能性の高い語彙を認識対象語とすることが出来るため、雑音等による誤認識を低減した音声入力機能を提供することが出来る。
ここで、辞書変更部104は、図2の演算装置204および記憶装置205で構成され、図示しないが記憶テーブルを備えており、前出の表1のように、POIの種類とそのPOIに対応する要求情報(実際には情報を取得するための語彙=優先語彙)の組み合わせをこの記憶テーブルに記憶させることになる。この変更された言語辞書を含む認識辞書105を用いて音声認識部108で認識された語彙は操作命令発行部109に送出される。このようにして発話可能性の高い語彙を認識対象語とすることが出来るため雑音等による誤認識を低減した音声入力機能を提供することが出来る。
認識辞書105は図2の記憶装置205に対応しており、音響辞書と言語辞書とから構成されている。前者の音響辞書は前述の時系列ベクトルデータと照合を行う対象となる言語の音響的特徴量を、例えば隠れマルコフモデル(HMM:Hidden Markov Model)等の形式で記録したものであり、後者の言語辞書は、音声入力システムが受理可能な語彙を、例えば単語のつながり(単語ネットワーク)として記録したものである。前記辞書変更部104においては、この言語辞書を変更して、前記の優先語彙として選択した語彙が優先して認識されるように言語辞書部分を変更する。変更方法の具体例は後述する。
音入力部106は、図2のマイクロフォン201と増幅装置202、AD変換装置203、演算装置204から構成されており、使用者の発話音声 (図1の矢印a)をデジタル音声信号(情報信号)に変換して音声認識部108へ入力する。マイクロフォン201としては一般的なマイクロフォンを用いることができる。
尚、音入力部106からは、音声の他、車両内外で発生している雑音やオーディオ、ナビゲーションシステム等から出力される音信号も同時に入力される。従って、マイクロフォン201とAD変換装置203の間、もしくはAD変換装置203と音声認識装置204との間に
・音声中の非目的成分を弱めるためのフィルタ(アンチエイリアシングフィルタ)を設ける
・利得調整機構を設けて入力信号のパワー(ゲイン)が適切となるよう増幅量を調整する
・入力信号のパワー変化等に基づき、入力信号中で音声の含まれる区間を正確に切り出す音声抽出(Voice Activity Detection : VADと呼ばれる)機構を設ける
・オーディオやナビゲーションシステムから出力される音信号を打ち消すエコーキャンセリング機構を設ける
といった構成を持つことが望ましい。
音声認識部108における処理は、図2の演算装置204、記憶装置205において実行され、音入力部106において取得し、情報信号に変換された音声信号を認識辞書105に記憶された音響的特徴(音響辞書)、及び言語的特徴(言語辞書)を用いて比較・照合を行い、尤もらしい(尤度の高い)語彙を一つあるいは複数、認識結果を音声認識部108において取得する。一般的な音響的特徴量としては、線形予測分析を用いたLPC(Linear Predictive Coding)ケプストラム、LPCデルタケプストラム、メルケプストラム、対数パワー等を組み合わせた時系列ベクトルデータが用いられる。
ここで、音声認識部108の認識区間は、待受け領域判断部102により決定され
1)認識動作制御部103が認識命令を発行している期間、すなわち「自動入力状態」と判定されている期間、
2)発話スイッチ107が押されてから所定の期間、
を対象とする。すなわち、待受け領域判断部102が使用者の音声入力を待受け可能な地理的領域にあることの判断が基本となっている。また、図示していないが音声信号検出手段を備え、前記認識区間のうち、音声信号が検出されてから無音区間が所定時間継続するまでを実際の認識対象区間としてもよい。
操作命令発行部109は、図2の演算装置204、記憶装置205から構成されており、音声認識部108で認識された語彙内容を解釈して、ナビゲーション部110へ操作命令を送出する(図1:矢印b)。操作対象であるナビゲーション部110は音声以外の操作手段(例えばボタンやタッチパネル等)によっても操作可能であり、これら操作手段からの情報(ボタン押下情報等)も、音声認識結果と同様、操作命令発行部109にて操作命令に変換され、ナビゲーション部110へ向けて送出される。
ナビゲーション部110は、図2の演算装置204、記憶装置205から構成され、地図データ、この地図に関連付けられたPOIデータテーブル、目的地・経由地等POIの情報が設定されている経路誘導機能等を併せ持つ。ここでPOIデータテーブルは、個々のPOIに関する複数の情報を記憶している。前記のPOI情報抽出部101は、ナビゲーション部110に内蔵されている経路誘導機能に設定されている目的地、経由地に関する情報に基づき抽出すべきPOI情報を決定する。これにより、使用者の注目するPOIを適切に抽出することが出来、当該POIに対するスイッチを用いない音声操作機能を提供することが出来る。
例えば、
・レストランや遊園地などの施設:施設名称、営業時間、駐車場有無、混雑状況、サービスクーポン情報、各種イベント情報等、
・IC(インターチェンジ)やJC(ジャンクション)、主要道路の分岐点:
料金情報、利用可否情報(通行止め等)、方面案内情報等
等の情報がこれに相当する。
以上述べたように、POI情報抽出部101が抽出したPOIの位置と、使用者の現在位置との地理的関係が予め定められた関係を満たす区間内(地理的範囲内)の任意の位置において、待受け領域判断部102は音声入力待ち受け可能と判断する構成としている。この構成により、使用者の注目するPOIとの位置関係に基づいて、発話スイッチを用いない音声入力機能を提供することが出来る。
上記情報には、時刻により変化する情報も含まれる。したがって、外部との通信機能を有し、該変化の含まれる情報を定期的に更新する機能を備えることが望ましい。
また、本発明においては、走行経路上の分岐・合流地点、放送局等の放送は発信地点である情報発信地点、道路状況変化地点、気候変化予測地点、情報取得可能地点等もPOI情報に含む。これら各地点に関する情報の少なくとも一つに基づいてPOI情報抽出部101抽出すべきPOI情報を決定する。ここで、走行状況変化地点とは、渋滞地点や幅員変化地点、路面状態変化地点等に相当し、情報取得可能地点とは、VICSビーコン等の路車間通信が確立される地点、ラジオ・テレビ等の放送波の受信が可能となる地点に相当する。この構成により、使用者の注目するPOIを適切に抽出することが出来、このPOIに対するスイッチを用いない音声操作機能を提供することが出来る。
<待受け領域判断方法について>
以下、前記待受け領域判断部102の待受け領域判断方法について説明する。待受け領域とは、自動入力状態となる地理的領域であり、対象とするPOIと現在位置との位置関係(地理的関係)から決定される。その地理的関係としては、例えば
A.現在位置と該POIと直線距離が所定距離内
B.現在位置と該POIとの経路距離が所定距離内
C.現在位置から該POIまでの推定所要時間が所定以内となる距離以内
等とすればよい。A、B,Cはそれぞれ、方向的な距離の接近度合い、実際の距離の接近度合い、時間的な接近度合いから自動入力状態、すなわち音声入力可能と判断するものである。これにより、使用者にとって親和性の高い発話タイミングによる音声入力機能を提供することが出来る。
図3に上記Aの方法を用いた場合の待受け領域判断結果を示した。図3中に記載のアイコンはそれぞれ以下の通りである。
301:現在位置
302,303:インターチェンジ(IC)
304:ジャンクション(JC)
305:駐車場
306:ガソリンスタンド
307:レストラン
308:スーパー
309:遊園地
310:ゴルフ場
311:温泉街
312:放送波発信地点
図3において、インターチェンジ302を中心とする所定のエリア(Area302)が示されているが、これは待受け領域判定部102が自動入力状態を判定する領域、すなわち自動入力が可能な領域であり、現在位置がこの領域内にある場合にインターチェンジ302の情報取得に関する語彙の入力が可能な自動入力状態となる。インターチェンジ303からスーパー308も同様にそれぞれのPOIから所定の距離を満たす領域が自動入力領域となる。尚、ジャンクション304とレストラン307とスーパー308の自動入力領域には一部重なる領域がある。こうした領域では、それぞれの情報取得に関する語彙を全て入力可能な自動入力状態とする。ただし、一般道走行中にJCの方面案内操作を行う可能性は低いこと等を鑑み、走行中の道路から到達困難なPOIについては自動入力領域から除外することが好ましい。
自動入力領域の広さはPOIの種類によって変更することも可能である。例えば遊園地309やゴルフ場310といった大型施設では、スーパーやレストランよりも大きな距離を設定することで、現在位置から少し離れた距離から自動入力状態とすることができる。また、Area309のように、施設中心部から所定距離の円を自動入力領域とする方法のほか、ゴルフ場310の自動入力領域Area310のように、施設の敷地外周からの所定距離としてもよい。更に、温泉街311のように、同種の施設が密接するような地域では、たとえばArea311に示す領域のように、複数の同種POIを包含する領域を自動入力領域としても良い。
[複数POIが同時に対象となる場合の表示、対話方法]
以上述べたように、現在位置から所定範囲内に複数のPOIが存在する場合には、発話入力の認識結果として、対象POIに関する情報を順列に表示あるいは音声出力する。例えば、「混雑具合」についての情報問い合わせ操作が行われた場合に、空いている順、あるいは混んでいる順に上位数個のPOIを選択して情報を提示する。更には、該複数POIから一意のPOIを特定できるような発話入力を受け付けるよう、音声認識部108の認識辞書および対話制御を構成するようにしてもよい。すなわち、現在位置から所定範囲内に複数のレストランが存在し、POI情報抽出部にてこれらレストランが抽出されている場合に、「空いている方のレストランに行く」「一番近いレストランの混み具合」といった発話を受理可能とする。
[放送波等、広域で対象となりうるPOIへの対処]
一方、放送波発信地点(情報発信地点)312からの発信情報(ラジオ、テレビ等)を取得可能な地域を、半径R1の円領域Area312として示している。ただし本実施の形態1では、この発信されている放送波の取得境界、すなわちこの放送波が捕捉不可能な地域から可能な地域に入った地点の付近でのみ自動入力状態を提供する構成としている。放送波取得可能領域は広範であるため、該領域を全て自動入力領域とすると、長時間自動入力状態となり、誤認識の可能性が増加するためである。情報取得可能領域に進入してから所定時間(例えば30秒間など)に限って自動入力可能状態とすることが望ましい。この構成としたことにより、情報(電波)到達範囲内に進入した場合の所定期間について、スイッチを用いずにこの発信情報を入手するための音声操作機能を提供することが出来る。
図4は前記Cの方法、すなわちPOIまでの時間的な接近具合から自動入力領域を判定する例を示している。図4中の道路上の斜線領域がPOI「S」の自動入力領域である。所定の時間内でこのPOIに到達できる領域であり、道路の規模や制限速度、混雑具合によって決定される。これによって、「あとt秒で通りかかる」というタイミングで自動入力状態を提供できる。同様にして、Bの手法を用い、「あとDkmで通りかかる」という領域を自動入力領域とすることも可能である。
尚、上記方法に、進行方向の情報を加え、POIから遠ざかる方向に進んでいる場合には自動入力状態を解除するようにしても良い。図5(a)は走行予定経路上にA,B二つのPOIが存在している場合の自動入力状態の遷移を示している。図5(a)では進行方向に関する情報を用いていない。よってA、Bそれぞれについて現在位置から所定距離の期間に渡り、自動入力状態となる。すなわち、501から503までの領域がPOI=(A)に基づく自動入力領域であり、502から504までの領域がPOI=(B)に基づく自動入力領域となる。結果としてArea(A)と示された領域ではPOI(A)を対象とする自動入力状態となり、同様にPOI=Bのための領域がArea(B)そして、POI=(A&B)となる領域がArea(A,B)となる。
これに対し、進行方向の情報から、通り過ぎたPOIに関する自動入力状態を解除する例を図5(b)に示す。この場合、POI=(A)の自動入力領域は505から507、POI=(B)では506から508となる。通り過ぎたPOIに関する情報取得要求は少ないと考えられるため、こうした手段により自動入力領域を限定することで、より使用者の意図に近い自動入力状態が提供できると考える。ただし、例外として、DSRCやビーコン等の路車間通信機器の設置地点を対象POIとする場合には、通過してからの所定期間についても自動入力状態を保持することが好ましい。これは、路車間通信を行う領域は一般に数mから十数mの領域であり、音声操作中に該領域を通過してしまう可能性が高いためである。
受信したデータは所定期間ナビゲーション部にて保持される構造とし、この所定保持期間については、このPOIに関する情報取得の語彙を自動入力できる状態とする。図5(c)には上記路車間通信機器を対象POIとした場合の自動入力領域を示している。実際に通信を行う領域は510から511の区間であるが、自動入力領域は509から512となっている(Area(c))。尚、図5(c)の例において、自動入力領域の開始点509は、POI=(c)に対する最初の発話入力及び認識処理に要する時間を考慮し、通信領域の始点510より手前の地点としている。これにより、通信区間を通過した後も暫くの期間について受信した情報の再表示や音声出力等の操作を行うことが可能である。
<辞書変更手段について>
[通常入力状態での辞書構成と認識動作例]
次に、待受け領域判断部102の判断に基づく辞書変更部104の具体的な辞書変更方法について説明する。まず、本実施の形態1における言語辞書(通常入力状態すなわち変更処理前)の例を図6に示す。図6(a)の言語辞書は、ネットワーク型の言語辞書であり、階層構造で語彙のつながりを表現している。下位階層の単語は、上位階層の単語カテゴリを詳細化する関係となっており、上位階層と下位階層の単語を1単語毎、あるいは連結して入力することが可能である。例えば図6(a)の辞書では、「行き先」や、「行き先、神奈川県横浜市金沢区」、「施設情報、ジャンル別、レストラン、Aレストランの営業時間」等を認識することが可能である。こうした階層構造を持つ言語辞書では、先の語彙の認識結果に応じて後に来る認識対象語彙を絞り込むことができ、認識性能を向上させやすいという利点がある。
一方ネットワークの階層に自由度を持たせ、語順の変更に対応する構成とすることで、例えば「行き先、横須賀駅」と「横須賀駅を行き先にする」双方を認識可能な辞書を提供することも可能である。
また、図6(b)のように、語彙カテゴリ毎に辞書をもち、これらを独立、あるいは並列に照合対象として認識を行う構成としてもよい。この場合も認識可能語彙は図6(a)と同様であるが、言語辞書図6(b)では、辞書301乃至305から何れか単独の辞書のみを有効にすることもでき、また辞書全てを有効にし、各辞書に含まれる語彙を並列に待受けることも可能である。
上述の語順に自由度を与える辞書構造や、複数辞書を並列に待受ける構成では同時に認識できる語彙数が増加するため、使用者にとってより自然な音声入力が可能になるが、対象語彙の増加に伴い認識率は低下する傾向がある為、用いる環境での認識性能に基づき辞書構成を適宜選択することが望ましい。また、受理対象の語彙のほかに、間投詞や咳払いなどを吸収して認識対象から除外するためのガベージモデルを各語彙の前後に挿入することが望ましい。
また、一括入力を除く場合(数単語ずつ区切って入力する場合)では、使用者に対し適宜音声や表示等によるフィードバックがなされることが望ましい。
以下に、図6(a)の辞書構造を用いた場合のシステムと使用者の対話例を示す。ただし、この例は通常入力状態の対話例である。したがって、発話の前に使用者が発話スイッチ108を押下する操作を行っている。(U:は使用者の発話、S:はシステム応答を示す)
「対話例1:目的地設定入力」
U:(発話スイッチ107を押下)
S:お話しください
U:行き先
S:行き先の住所をどうぞ
U:神奈川県横浜市
S:横浜市のどこですか
U:金沢区六浦
S:神奈川県横浜市金沢区六浦を行き先にします。よろしいですか。
U:はい
S:国道RX号を通るルートです。交通規制に従い走行してください。
「対話例2:レストランの営業時間問い合わせ」
U:(発話スイッチ107を押下)
U:施設情報
S:検索方法をどうぞ
U:ジャンル選択
S:ジャンルを選択してください
U:レストラン
S:以下のようなレストランがあります
U:AAレストランの営業時間
S:AAレストランの営業時間は10時から21時です。
<自動入力状態での辞書の変更と認識動作について>
次に、待受け領域判断部102の判断に基づく認識辞書105における言語辞書の変更処理について説明する。待受け領域判断部102では、POI情報抽出部101にて抽出されたPOIが現在位置と所定の位置関係を満たす区間内、すなわち地理的領域内において、自動入力状態となる。そしてこの自動入力状態となっている区間において、認識動作制御部103は音声認識部108に対し、認識処理の実行を命令するが、これと同期して、辞書変更部104は、対象となるPOIの情報取得に使用される音声操作用の語彙を次発話候補語彙すなわち優先認識語彙として予測選択し、この語彙が認識されやすくなるよう認識辞書105中の言語辞書の内容を変更する。
対象となるPOIは現在位置の変化とともに刻々と変化するため、言語辞書もこれに従い動的に変更される。尚、所定の位置関係を満たすPOIが存在しない場合、すなわち待受け領域判断部が自動入力状態と判断していない期間では、発話スイッチが操作されない限り認識処理は行われず、言語辞書も初期状態が保持される。以上述べた構成としたことにより、発話可能性の高い語彙を認識対象語彙とすることが出来るため、雑音等による誤認識を低減した音声入力機能を提供することが出来る。
図6(a)の言語辞書に対して優先認識語彙に基づく変更を加えた例を図7から図9に示す。この例では「Xレストラン」及び「Yスーパー」が所定の位置関係を満たすPOIとして抽出され、自動入力状態となっている場合を示している。
図7は、図6(a)の辞書に対し、優先認識語彙を上位階層に追加した辞書とすることで、該語彙については深い階層構造をたどる必要が無く、少ない発話数で操作を完了することが可能である。図7においては、下の階層にあるPOI情報(Xレストラン、Yスーパー)を第1階層に移動させて本目的を達成している。
図8は、図7と同様の動的変更に加え、優先認識語彙を除く全ての語彙を無効化する例を示している。これにより、優先認識語彙以外の語彙は一時的に認識対象から除外されるため、認識性能が向上する。
図9は、図6(a)の辞書に対し、優先認識語彙の発生確率・遷移確率にボーナスを与えて、尤度が高くなるように変更した場合を示している。操作完了のための発話回数は図6(a)と同等であるが、優先認識語彙は相対的に他の語彙より尤度が高くなるため、認識性能が向上する。
以下に図7及び図8の辞書変更手法を施した場合の対話例を示す。この場合は、自動入力状態になっていることを前提としている。
「上記対話例2の場合:レストランの営業時間問い合わせ」
S:(自動入力状態に移行 (画面や音による報知))
U:Xレストランの営業時間
S:Xレストランの営業時間は10時から21時です。
上記の対話例から、自動入力状態では、発話スイッチを使用せずに発話が可能なことに加え、少ない発話数で操作を完了できることがわかる。尚、対話例にも記したように、自動入力状態の開始時刻または終了時刻の何れか、または両方のタイミングにおいて、画面表示や報知音(ガイダンス音)出力等を行い、使用者に対して自動入力状態であることを報知する手段を備えることが望ましい。あるいは、自動入力状態を保持している期間中表示を継続してもよい。この構成により、使用者に対し、発話スイッチを用いない音声入力の好適なタイミングを教示することが出来、親和性の高い音声操作機能を提供することが出来る。
図10に画面表示による報知の例を示す。図10(a)は通常入力状態の画面であり、POIは捕捉されていない。図10(a)の状態から暫く移動した状態が図10(b)である。所定範囲内にPOI(A)=「○×レストラン」が捕捉され、該POIアイコンの点滅、及び補助情報の付与(吹き出しの表示、画面下部のメッセージ表示等)がなされている。また、マイクアイコンの表示と、入力可能な語彙(ボイスコマンド)も表示されている。この時、次に補足される予定のPOIを図10(b)中のPOI(B)のように表示しても良い。こうした報知により、使用者は現在○×レストランの情報に関する語彙について入力可能であることを容易に知ることができる。
<基本的な動作例(音声入力有効化と辞書変更フロー)>
図11のフローチャートにより、本実施の形態1の主要な動作を説明する。
ステップS101:図2のセンサ206を介し演算装置204において自車現在位置Pnowを取得する。
ステップS102:おいて自車現在位置Pnowの情報を基にナビゲーション部110に記憶されたPOI情報を参照する。
ステップS103:現在位置Pnowから所定範囲Area(POItype)に特定のPOI(POI)が存在するかを検索する。この検索は現在位置Pnowと特定のPOI(POI)との距離が所定範囲Area(POItype)に存在するか否かを求めることになる。本実施の形態1では検索範囲をPOIの種別(POItype)毎に異なる値Area(POItype)として設定している。
ここで、POIが検出されない場合(S103でNO)はステップS104へ進み、POIが検出される場合(S103でYES)はステップS107へ進む。
ステップS104:発話スイッチが押下された場合(S104でYES)はステップS105へ進み、押下されない場合はステップS101へ戻る。
ステップS105:発話スイッチが押下された状態であるから、音声認識部(図1:105)による音声認識処理可能となる。この場合、言語辞書に変更を受けていない「通常入力状態」での認識動作となる。
ステップS106:上記の認識結果に基づき、操作命令(コマンド)発行部(図1:109)によって、操作命令が発行される。
ステップS107:上記検索の結果、所定範囲内に見つかったPOIに基づき、該POIの情報取得に関連する語彙が認識されやすくなるよう辞書変更部(図1:104)によって認識辞書105の言語辞書を変更する。
ステップS108:音入力部(図1:103)による音声入力を有効化し、音声認識部(図1:108)への入力を開始する。
ステップS109:タイマを0に初期化し、ステップ108で音声入力を有効化した時刻からの経過カウントを開始する。
ステップS110:発話スイッチの押下が検出される場合(S110:YES)、すなわち自動的に音声入力が有効になっている状態で更に発話スイッチが押された場合は、ステップS111へ進む。発話スイッチが押下されない場合は(S110:NO)ステップS112へ進む。
ステップS111:言語辞書の変更を解除して元の通常入力状態の辞書構成に戻し、音声認識処理(S105)に移る。
ステップS112:音声入力の有無を音声認識部108で検出する。検出方法としては、入力信号のパワーを監視する等の方法を取ることができる。
音声入力が検出される場合(S112:YES)はステップS114へ進み、音声入力が検出されない場合(S112:NO)はステップS113へ進む。
ステップS113:タイマ時刻すなわち音声入力を有効化してからの経過時間と期間変数βを比較し、タイマ時刻<βならばステップS110へ戻り、タイマ時刻≧βならばステップS116へ進む。ここで期間変数βは、機器の変化を検出してから何秒間にわたって、音声入力を有効化するかを決定する変数であり、予め所定の値(例えば5秒間等)に決定する。あるいは使用者によって調整可能としても良い。更には、自動入力状態下での使用履歴から、使用者の発話タイミングを学習し、この傾向に適合するように調整するとしてもよい。
ステップS114:上記ステップS112:YESの出力により音声認識処理を行う。この場合、言語辞書が機器動作変化に基づく変更を受けており、自動入力状態での認識動作となる。
ステップS115:S114出力の認識結果に基づき、操作命令(コマンド)発行部(図1:107)によって、対象POIの情報取得に関する操作命令が発行される。
ステップS116:上記操作コマンドが発行されたところで一連の認識処理を終了させるため音声入力を無効化し、音声認識部への信号の入力を停止する。
ステップS117:さらに言語辞書の変更を解除し、通常入力状態の辞書へ戻す。
この一連の処理により、通常入力状態では発話スイッチを押した後、入力された音声を認識するよう機能する一方、所定範囲内に特定POIが検出された場合に、所定期間(β)において自動入力状態となり、発話スイッチを押さずに操作目的となる機器の操作音声の入力を行うことが可能となる。
上記例では、所定時間をタイマで計時して自動入力状態とする場合について述べたが、図4、図5で示したような、すなわち自車(使用者)と特定POIが所定範囲内に位置する期間について継続的に自動入力状態とする場合には、上記フローチャートのステップS113を
If(Distannce(Pnow,POI)> Area(POItype))
とすればよい。
<熟練者と未熟練者による使い方の違い>
また、上記フロー図では、自動入力状態下において発話スイッチが押された場合は前記のように通常入力状態に移行するため、この場合は認識動作制御部103において自動入力による認識動作を解除し、通常入力状態へ切り替えたと見做される。これにより辞書の変更を解除する(言語辞書を通常状態の辞書に戻す)構成とした。これは、本実施形態の動作を理解している使用者(熟練者)に対する対応である。すなわち、自動入力状態で敢えて発話スイッチを押していることから、使用者が通常入力時の操作を行う意思があるとみなしている。従って、周辺POIに関する音声操作以外を行う意思があるとみなして、該POIに関連する語彙以外が有効となるように言語辞書を変更するようにしても良い。
一方、非熟練者、すなわち、自動入力が可能な機能を知らない使用者では、自動入力状態において発話ボタンを押してしまう可能性がある。こうした使用者への対応として、例えば「通常入力状態」での認識処理、命令発行を行い、この時の認識結果が現在対象となっている周辺POIに関する情報問い合わせの操作であった場合に、事後的に音声や映像の出力によって、本発明の「自動入力状態」について教示することが望ましい。これによって使用者は次回から該機器の動作変化に伴う入力をより円滑に行うことができる。
(実施の形態2)
実施の形態1では、ナビゲーション部110に記憶されたPOI情報を対象とする場合について述べた。本実施の形態2では、これらPOI情報のうち、使用者の意図に沿ったPOIを絞り込んで抽出し、自動入力状態を提供する方法について説明する。本実施の形態2では、使用者の意図を検出するために、使用者による目的とする目的とする施設のジャンル、すなわちPOIの種類の選択操作、使用者の嗜好に関する情報の入力、使用者の過去の目的地その他設定に関する操作履歴等を利用する。
本実施の形態2の構成を図12のブロック図に示す。基本的な構成は実施の形態1(図1)と共通であり、更に利用者嗜好記憶部211及び情報入力部212を加えた構成となっている。以下では実施の形態1との相違部分について説明する。
使用者の嗜好記憶部211は図2の演算装置204、記憶装置205から構成され、使用者が注目するPOI、興味の無いPOIについての情報をPOI情報抽出部101へ伝送する機能を持つ。以下、具体的な嗜好分析方法について説明する。
・使用者に直接興味のあるPOIに含まれるジャンルの入力を促す
すなわち複数のPOIジャンルを提示し、興味の有無を入力してもらい、その結果興味の強い対象ジャンルとそうでないジャンルとを分類する。この結果として、例えば遊園地等のアミューズメント施設に興味があり、寺社仏閣等への興味が薄いという事前情報が抽出される。この結果、例えば図13に示す地域を走行している場合では、寺社1307は抽出対象POIとならず、遊園地1306の所定距離内に進入した場合のみ自動入力状態とすることができる。
・過去の操作履歴を分析する
すなわち過去に目的地としたPOI、過去に情報を問い合わせたPOIなどの操作(設定)履歴情報を記憶し、この結果、所定の頻度を超えて操作されたPOIジャンルを自動入力対象とする。更には同一ジャンル内でも特に操作頻度の高いPOIを自動入力対象としてもよい。また、初期値として全POIを自動入力対象とし、操作頻度の低いPOIから順に対象から除外するようにしても良い。本構成によるPOI抽出例を図14に示す。この地域において、使用者の過去3ヶ月の操作履歴が以下の通りだとする。
レストラン1301:5回
スーパー 1302:4回
レストラン1303:0回
レストラン1304:3回
スーパー 1305:0回
この履歴を該履歴から過去3ヶ月の操作頻度が、1回以上のレストラン1301、スーパー1302、レストラン1304が抽出POIとしてPOI情報抽出部101へ伝送される。そして結果的に、該3つのPOIを対象とし、現在位置が所定距離以内となった機関について、自動入力状態となる。
尚、上記操作履歴の他の、例えばクレジットカード利用履歴やインターネットのアクセス履歴などの外部情報を用い、これに基づき興味のあるPOIジャンルを抽出するようにしてもよい。
情報入力部212は図12の演算装置204、記憶装置205から構成され、使用者からの入力により直接注目POIジャンルの限定を受け付け、該POIジャンル情報をPOI情報抽出部へ伝送する機能を持つ。すなわち、レストランに対して自動入力状態とする「レストラン自動待受けモード」や、交差点において自動入力状態とする「交差点方面案内待受けモード」等を予め用意し、使用者の操作により該モードの有効無効を決定する。この機能により、注目したいジャンルのPOIが接近する度に自動入力状態となる。
図15は、図13と同じ地域を走行中に、上記「レストラン自動待受けモード」を有効にした場合の自動入力状態となる領域を示している。すなわちこの地域を走行中には、レストラン1301及びレストラン1303及びレストラン1304の所定距離内において、自動入力機能によって情報を問い合わせが可能になる。
以上述べたように、図12に示した利用者嗜好記憶部211および情報入力部212を介して取り込まれた情報はPOI情報抽出部101において、
・予め設定された施設のジャンルに関する情報
・予め設定された使用者の嗜好に関する情報
・目的地もしくは経由地の設定履歴情報
・POIに関する情報取得操作を行った情報取得履歴情報
の何れかに基づき抽出するPOIを決定する。この構成とすることにより、使用者の注目するPOIを適切に抽出することが出来、このPOIに対するスイッチを用いない音声操作機能を提供することが出来る。
(実施の形態3)
本実施の形態3では、使用者の注目するPOIを「運転履歴」から推定する方法をとる。本実施の形態3の構成を図16のブロック図に示す。基本的な構成は実施の形態1(図1)と共通であり、更に運転履歴記録・分析部を加えた構成となっている。以下では第一実施形形態との相違部分について説明する。
運転履歴記録分析部311は図2の演算装置204、記憶装置205から構成され、使用者の運転履歴(日時と走行位置)を随時記録し、これを基に、例えば、
使用ルート(出発地、使用道路、到着地)
走行時間帯、
曜日(平日、休日等)、
の「走行状態パラメータ」に基づくPOIへの立ち寄り回数を蓄積する。立ち寄りPOIは例えば運転履歴上の所定時間以上停車した位置から最も近いPOIと定義する。従って、各POIに対して、立ち寄った回数と、該立ち寄り時の走行状態パラメータが「立ち寄り履歴分析データ」として記録される。このデータと、現在の運転における「走行状態パラメータ」とを比較することで、類似度の高くなるPOIが存在するかを検索する。この結果、現在の運転から経由地の可能性の高いPOIを抽出することができる。
以下、図17を用いて上記処理の具体例を説明する。
図17は、ある使用者の会社から自宅までの運転履歴を示している。自宅から会社の間には過去に立ち寄ったPOIとしてA,B,C,D,E,F,Gが存在している。帰宅ルート履歴として、1702(実線ルート)、1703(破線ルート)、1704(点線ルート)の3種類が蓄積されており、各POIは立ち寄り履歴分析データ1701を持ち、ルート種別、曜日、時間帯毎の立ち寄り回数を記憶している。ここから、各ルートにおける「立ち寄り可能性」を推定する。例えば、
ルート1702を利用した場合にPOI(E)に立ち寄る可能性が高い。
ルート1703を利用した場合にPOI(B)に立ち寄る可能性が高い。
ルート1704を利用した場合にPOI(A)及びPOI(G)に立ち寄る可能性が高い、と分析される。
この結果を用いて、現在の状態から立ち寄り可能性の高いPOIを推定する。例えば、使用者が1709の方向へ移動し始めた場合、ルート1702もしくはルート1703を利用する可能性が高いと判断して、POI情報抽出部101に対し、POI(E)及びPOI(B)を抽出対象とするよう命令する。また、1710の位置にて直進した場合にはPOI(B)への立ち寄り可能性が低くなったと判断し、抽出対象から除外し、POI(E)のみを抽出対象とする。
待受け領域判断部102は現在位置が領域1706にいる期間に渡り、POI(E)に関する自動入力状態とする。1710の位置にて南に進路を変更した場合、POI情報抽出部101はPOI(E)を抽出対象から除外し、POI(B)のみを対象とする。そして待受け領域判断部102は領域1705に存在する期間にわたりPOI(B)に関する自動入力状態とする。
同様にして、使用者が1710の方向へ移動を開始した場合には、POI(A)、POI(G)を対象とし、領域1707及び1708において自動入力状態となる。
以上の処理により、使用者の過去の運転履歴の分析から、経由地となる可能性の高いPOIを予測し、これにより得られたPOIに関する情報をPOI情報抽出部101により抽出する。この構成により、使用者が立ち寄るい経由地となる可能性の高いPOIを適切に抽出することが出来、このPOIに対するスイッチを用いない音声操作機能を提供することが出来る。
本発明による基本構成である実施の形態1の処理系統図。 本発明実施の形態1のハードウエア構成図。 自動入力状態となる領域を示す地図。 自動入力状態となる領域を示す他の地図。 走行車線上に2つのPOIが存在する場合の、自動入力状態の設定法を示す領域図で、(a)進行方向の情報を使用しない場合、(b)通過したPOIの自動入力状態を解除する場合、(c)路車間通信機器を対象POIとした場合の自動入力状態となる範囲を示す地図。 :言語辞書の基本構成図。 :言語辞書の動的変更法を示す構成図。 :言語辞書の他の動的変更法を示す構成図。 :言語辞書の更に他の動的変更法を示す構成図。 :自動入力状態での報知画面の表示図。 :本発明の基本動作を示すフロー図。 :実施の形態2の動作を説明するフロー図。 :実施の形態2における利用者嗜好によるPOI抽出法説明の地図。 :実施の形態2における利用者操作履歴利用によるPOI抽出法説明の地図。 :実施の形態2における情報入力部の入力結果に基づくPOI抽出法説明の地図。 :実施の形態3におけるPOI抽出精度向上法説明のフロー図。 :実施の形態3の運転履歴分析結果に基づくPOI抽出法説明の地図。

Claims (8)

  1. 入力された音声情報を認識する音声入力装置であって、
    音声信号を取得する音入力手段と、
    該音入力手段によって取得された音声を認識し、かつ対応する情報信号に変換する音声認識手段と、
    指定した目的地または経由地であるPOIまでの経路を誘導する経路誘導機能を内蔵するナビゲーション手段と、
    使用者の現在位置周辺に存在する前記POIの関連情報から、特定のPOIに関する情報を抽出するPOI情報抽出手段と、
    使用者の音声入力の待受けが可能な地理的領域にあるか否かを判断し、前記POI情報抽出手段が抽出した前記POI位置と、前記現在位置との地理的関係が所定の関係を満たす区間内における任意の位置において、音声入力待受け可能と判断する待受け領域判断手段と、
    使用者の現在位置が、前記待受け領域判断手段によって音声入力可能と判断される所定の地理的領域内に存在する場合には、前記取得された音声信号に対して認識処理実行の命令を前記音声認識手段に出す認識動作制御手段と、を備え、
    前記POI情報抽出手段は、
    前記使用者の、走行位置情報を含む過去の運転履歴を記録する手段と、
    前記過去の運転履歴に基づき各POIへの立ち寄り回数を使用ルート毎に計測しこれを記録する手段と、
    前記使用者の移動方向から使用者が利用しようとしているルートを予測する手段と、
    予測したルートに対応する前記使用ルートを用いたときの前記POIへの立ち寄り回数をもとに経由地となる可能性の高いPOIを予測する手段と、を有し、
    前記予測したPOIを前記特定のPOIとして当該POIに関する情報を抽出することを特徴とする音声入力装置。
  2. 入力された音声情報を認識する音声入力装置であって、
    音声信号を取得する音入力手段と、
    該音入力手段によって取得された音声を情報信号に変換する音声認識手段と、
    指定した目的地または経由地であるPOIまでの経路を誘導する経路誘導機能を内蔵するナビゲーション手段と、
    使用者の現在位置周辺に存在する前記POIの関連情報から、特定のPOIに関する情報を抽出するPOI情報抽出手段と、
    使用者の音声入力を待受け可能な地理的領域を判断し、前記POI情報抽出手段が抽出した前記POI位置と、前記現在位置との地理的関係が所定の関係を満たす区間内における任意の位置において、音声入力待受け可能と判断する待受け領域判断手段と、
    使用者の現在位置が、前記待受け領域判断手段によって判断される所定の地理的領域内に存在する場合には、取得された音声信号に対して認識処理を行う認識動作制御手段と、
    使用者によってスイッチが押下された時刻から所定の期間内において取得された音声信号に対して認識処理を行う発話スイッチ手段とを備え、
    前記認識動作制御手段は、前記発話スイッチ手段が押下された時刻から所定の期間以外の期間であっても、使用者の現在位置が前記待受け領域判断手段によって判断される所定の地理的領域内に存在する場合には、取得された音声信号に対して認識処理を行い、
    前記POI情報抽出手段は、
    前記使用者の、走行位置情報を含む過去の運転履歴を記録する手段と、
    前記過去の運転履歴に基づき各POIへの立ち寄り回数を使用ルート毎に計測しこれを記録する手段と、
    前記使用者の移動方向から使用者が利用しようとしているルートを予測する手段と、
    予測したルートに対応する前記使用ルートを用いたときの前記POIへの立ち寄り回数をもとに経由地となる可能性の高いPOIを予測する手段と、を有し、
    前記予測したPOIを前記特定のPOIとして当該POIに関する情報を抽出することを特徴とする音声入力装置。
  3. 入力された音声情報を認識する音声入力装置であって、
    音声信号を取得する音入力手段と、
    該音入力手段によって取得された音声を情報信号に変換する音声認識手段と、
    指定した目的地または経由地であるPOIまでの経路を誘導する経路誘導機能を内蔵するナビゲーション手段と、
    使用者の現在位置周辺に存在する前記POIの関連情報から、特定のPOIに関する情報を抽出するPOI情報抽出手段と、
    該音声認識手段において前記音声信号と比較し評価するための言語辞書を含む認識辞書と、
    使用者の音声入力を待受け可能な地理的領域を判断し、前記POI情報抽出手段が抽出した前記POI位置と、前記現在位置との地理的関係が所定の関係を満たす区間内における任意の位置において、音声入力待受け可能と判断する待受け領域判断手段と、
    使用者の現在位置が前記待受け領域判断手段によって判断される所定の地理的領域内に存在する場合には、発話される可能性の高い語彙を該地理的領域の関連情報に基づいて予測し、該語彙に基づき前記言語辞書を変更する辞書変更手段と、を備え、
    前記POI情報抽出手段は、
    前記使用者の、走行位置情報を含む過去の運転履歴を記録する手段と、
    前記過去の運転履歴に基づき各POIへの立ち寄り回数を使用ルート毎に計測しこれを記録する手段と、
    前記使用者の移動方向から使用者が利用しようとしているルートを予測する手段と、
    予測したルートに対応する前記使用ルートを用いたときの前記POIへの立ち寄り回数をもとに経由地となる可能性の高いPOIを予測する手段と、を有し、
    前記予測したPOIを前記特定のPOIとして当該POIに関する情報を抽出することを特徴とする音声入力装置。
  4. 請求項3に記載の音声入力装置であって、
    前記辞書変更手段は、
    前記POI情報抽出手段の抽出したPOI位置と前記現在位置との地理的関係が所定の関係を満たす区間内の任意の位置において、該POIの情報取得に関連する音声操作用の語彙を次発話候補語彙と予測し、該次発話候補語彙に基づいて言語辞書を変更することを特徴とする音声入力装置。
  5. 請求項3または請求項4に記載の音声入力装置であって、
    前記POI情報抽出手段は、
    各種施設、走行路上の分岐・合流地点、情報発信地点、道路状況変化地点、気候変化予測地点、情報取得可能地点の少なくとも一つに関する情報のいずれかに基づき、抽出すべきPOI情報を決定することを特徴とする音声入力装置。
  6. 請求項3乃至請求項5の何れかに記載の音声入力装置であって、
    前記POI情報抽出手段は、
    前記ナビゲーション手段に含まれる経路誘導手段に設定された目的地・経由地に関する情報に基づき抽出するPOI情報を決定することを特徴とする音声入力装置。
  7. 請求項3乃至請求項6の何れかに記載の音声入力装置であって、
    前記POI情報抽出手段は、
    予め設定された施設のジャンルに関する情報、
    あるいは予め設定された使用者の嗜好に関する情報、
    あるいは目的地もしくは経由地の設定履歴情報、
    あるいはPOIに関する情報取得操作を行った情報取得履歴情報、の少なくとも一つに基づき抽出するPOI情報を決定することを特徴とする音声入力装置。
  8. 入力された音声情報を認識する音声入力方法であって、
    音声信号を音入力手段により取得し、
    該音入力手段によって取得された音声を音声認識手段により認識し、かつ対応する情報信号に変換し、
    指定した目的地または経由地であるPOIまでの経路を誘導する経路誘導機能をナビゲーション手段に内蔵し、
    使用者の現在位置周辺に存在する前記POIの関連情報から、特定のPOIに関する情報をPOI情報抽出手段により抽出し、
    待受け領域判断手段により、使用者の音声入力の待受けが可能な地理的領域にあるか否かを判断し、前記POI情報抽出手段が抽出した前記POI位置と、前記現在位置との地理的関係が所定の関係を満たす区間内における任意の位置において、音声入力待受け可能と判断し、
    使用者の現在位置が、前記待受け領域判断手段によって音声入力可能と判断される所定の地理的領域内に存在する場合には、前記取得された音声信号に対して認識動作制御手段が前記音声認識手段に認識処理実行の命令を出し
    前記POI情報抽出手段は、前記使用者の、走行位置情報を含む過去の運転履歴に基づき各POIへの立ち寄り回数を使用ルート毎に計測し、
    使用者の移動方向から予測した、使用者が利用しようとしているルートに対応する前記使用ルートを用いたときの前記POIへの立ち寄り回数をもとに経由地となる可能性の高いPOIを予測し、予測したPOIを前記特定のPOIとして当該POIに関する情報を抽出することを特徴とする音声入力方法。
JP2005067020A 2005-03-10 2005-03-10 音声入力装置および音声入力方法 Expired - Fee Related JP4802522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005067020A JP4802522B2 (ja) 2005-03-10 2005-03-10 音声入力装置および音声入力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005067020A JP4802522B2 (ja) 2005-03-10 2005-03-10 音声入力装置および音声入力方法

Publications (2)

Publication Number Publication Date
JP2006251298A JP2006251298A (ja) 2006-09-21
JP4802522B2 true JP4802522B2 (ja) 2011-10-26

Family

ID=37091884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005067020A Expired - Fee Related JP4802522B2 (ja) 2005-03-10 2005-03-10 音声入力装置および音声入力方法

Country Status (1)

Country Link
JP (1) JP4802522B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9973885B2 (en) 2014-11-21 2018-05-15 Hyundai Motor Company AVN terminal and control method thereof
CN110322587A (zh) * 2018-03-28 2019-10-11 广州汽车集团股份有限公司 驾驶过程中的评价记录方法、装置、设备及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8689203B2 (en) 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
JP5810759B2 (ja) * 2011-08-31 2015-11-11 アイシン・エィ・ダブリュ株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP5906615B2 (ja) * 2011-08-31 2016-04-20 アイシン・エィ・ダブリュ株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
KR102003267B1 (ko) * 2011-12-30 2019-10-02 삼성전자주식회사 전자 장치 및 그의 제어 방법
DE112012006997B4 (de) * 2012-10-10 2019-05-23 Mitsubishi Electric Corporation Navigationsvorrichtung
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
WO2014068788A1 (ja) * 2012-11-05 2014-05-08 三菱電機株式会社 音声認識装置
US9484025B2 (en) * 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
CN106662918A (zh) * 2014-07-04 2017-05-10 歌乐株式会社 车载交互式系统以及车载信息设备
JP6011584B2 (ja) 2014-07-08 2016-10-19 トヨタ自動車株式会社 音声認識装置及び音声認識システム
JP6695096B2 (ja) * 2015-01-16 2020-05-20 クラリオン株式会社 Poi情報提供サーバ、poi情報提供装置、poi情報提供システムおよびプログラム
WO2016125341A1 (ja) * 2015-02-06 2016-08-11 Necソリューションイノベータ株式会社 割当決定装置、制御方法、及びプログラム
CN107532914A (zh) * 2015-05-05 2018-01-02 纽昂斯通讯公司 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法
KR101893768B1 (ko) 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN112397062A (zh) 2019-08-15 2021-02-23 华为技术有限公司 语音交互方法、装置、终端及存储介质
JPWO2021149594A1 (ja) * 2020-01-21 2021-07-29
KR20230088086A (ko) * 2021-12-10 2023-06-19 삼성전자주식회사 오인식된 음성 신호를 처리하는 방법 및 이를 위한 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338995A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 音声認識装置及び音声認識用プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3764302B2 (ja) * 1999-08-04 2006-04-05 株式会社東芝 音声認識装置
JP2002215186A (ja) * 2001-01-12 2002-07-31 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム
JP2002228471A (ja) * 2001-02-05 2002-08-14 Nippon Telegr & Teleph Corp <Ntt> ナビゲーション方法
JP4497748B2 (ja) * 2001-04-27 2010-07-07 パイオニア株式会社 ナビゲーション装置、ナビゲーションシステム用のサーバ装置、目的地推定処理プログラムおよび目的地推定処理プログラムを記録した記録媒体
JP2003014670A (ja) * 2001-06-29 2003-01-15 Sony Corp 蛍光x線分析方法及び蛍光x線分析装置
JP3963698B2 (ja) * 2001-10-23 2007-08-22 富士通テン株式会社 音声対話システム
JP2003195890A (ja) * 2001-12-25 2003-07-09 Nippon Seiki Co Ltd 音声操作装置
JP2004037953A (ja) * 2002-07-04 2004-02-05 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム
JP3948441B2 (ja) * 2003-07-09 2007-07-25 松下電器産業株式会社 音声認識方法及び、車載装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9973885B2 (en) 2014-11-21 2018-05-15 Hyundai Motor Company AVN terminal and control method thereof
CN110322587A (zh) * 2018-03-28 2019-10-11 广州汽车集团股份有限公司 驾驶过程中的评价记录方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2006251298A (ja) 2006-09-21

Similar Documents

Publication Publication Date Title
JP4802522B2 (ja) 音声入力装置および音声入力方法
US10347248B2 (en) System and method for providing in-vehicle services via a natural language voice user interface
JP5315289B2 (ja) オペレーティングシステム及びオペレーティング方法
US8756000B2 (en) Navigation apparatus and method of detection that a parking facility is sought
US7848927B2 (en) Speech recognition device and method of recognizing speech using a language model
KR20180086718A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
JP3948441B2 (ja) 音声認識方法及び、車載装置
KR20190041569A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 서비스 처리 방법
JP2006317573A (ja) 情報端末
KR20190011458A (ko) 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법
JP3919527B2 (ja) ナビゲーション装置、目的地検索・ナビゲーション方法、及び、プログラム
KR102448719B1 (ko) 대화 시스템과 이를 포함하는 차량 및 모바일 기기와 대화 처리 방법
JP2006215418A (ja) 音声入力装置及び音声入力方法
JP4985505B2 (ja) 音出力装置及びプログラム
JP4665459B2 (ja) ナビゲーション装置
JP4412102B2 (ja) ナビゲーション装置
JP2006064440A (ja) ナビゲーション装置
WO2024072392A1 (en) Providing inverted directions and other information based on a current or recent journey
JP2020180950A (ja) ナビゲーションシステム、ナビゲーション方法、及び、ナビゲーションプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100824

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110725

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees