JP3948441B2

JP3948441B2 - 音声認識方法及び、車載装置

Info

Publication number: JP3948441B2
Application number: JP2003272278A
Authority: JP
Inventors: 貴弘工藤; 順小澤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2003-07-09
Filing date: 2003-07-09
Publication date: 2007-07-25
Anticipated expiration: 2023-07-09
Also published as: JP2005030982A

Description

本発明は、ユーザの機器への入力を支援する入力支援方法、例えば機器への入力を利用してナビゲーションを行う車載装置に関する。

近年、ユーザの発声する音声を認識する技術の完成度が高まり、カーナビゲーションシステムなどの車載装置では、発声された目的地の名称に基づいて自動的に目的地を設定してナビゲーションを行うことで、運転中でも、複雑なボタン操作をせずに所望の目的を達成することができるようになっている。

ところが、音声認識技術は完成度が高まったとは言え、誤認識の可能性は多分に残されている。その理由のひとつは、認識の対象となる語彙の数が非常に膨大であることがあげられ、対象語彙を絞りこむ技術が開示されている（例えば特許文献１参照）。

特許文献１では、ユーザにより経路設定がなされた後、ユーザにより発生される語彙は、設定された経路の近辺にある地名や交差点名である可能性が高いという事実に基づき、認識の対象となる語彙を経路情報に基づいて絞り込むことで、認識精度を高めることが可能となる。

また、特許文献２では認識が誤った場合にユーザから修正を受け付けて、認識に利用するモデルを修正することで、その後の認識率を向上させる技術が開示されている。

一方、このように音声を発することがなくても、リモコンを用いて車載装置の検索機能を利用することで目的地となる施設を検索することもできる。この場合、メニューから「周辺の施設を探す」という項目をまず選択する。すると目的地となる施設のジャンル名称に関するリストが表示される。ジャンルの数は非常に多く１画面におさまらないため、スクロールしながら所望の施設のジャンルを手動で検索する。所望のジャンルを見つけてそのジャンルの項目を選択すると、次にそのジャンルに属する施設の一覧が表示されるが、施設の数も非常に多く、ユーザはスクロールしながら所望の施設を手動で検索する。
特開平８−２０２３８６号公報（全文）特開２０００−２８４７９５号公報（全文）特開２００３−３４１８９２号公報（全文）

しかしながら特許文献１に記載の技術は、経路設定がなされて初めて認識対象となる語彙を絞り込むことができるため、そもそも経路設定のために目的地となる名称を音声で入力しようとする際には利用することができないという問題がある。また、経路近辺に存在する語彙に絞り込んだだけでは不十分であり、認識率を高めるためには、真に必要な語彙のみに絞り込みを行う必要がある。

また、特許文献２に記載の技術は、認識誤りに対してユーザが明示的に正しい発声内容を入力する必要があるが、認識誤りの原因が多種多様であり同じ入力動作を再度行っても認識誤りが改善されるとは限らず、また車載装置のように走行中の操作が制限される機器では、認識誤りがあった場合であっても、修正する手段が乏しく困難であり、そもそも自ら修正すること自体が手間となる。

また、車載装置の検索機能を利用する場合は、ユーザに提示されるジャンルや施設は、その検索時のユーザのニーズを反映しているわけはなく、あらかじめ定められた順序で表示されることになる。それ故ユーザは、数多くのジャンル、施設の中から所望のジャンルや施設を手動で検索するのに非常に手間がかかる。

例えば、１画面に表示できるジャンルの数が８つであり、車載装置が記憶しているジャンルの中で「レストラン」が１８番目であれば、ユーザが「レストラン」を検索したい場合でも、何度もスクロールを繰り返さなければ「レストラン」という項目は表示されないことになる。

本発明は、かかる問題に鑑み、ユーザの発声に対する認識候補となる語彙を絞り込むことを可能にし、また、認識誤りに対してユーザに負担をかけることなく認識に利用するモデルを修正することを可能にすることで、認識率を向上させ、ユーザの入力の負担を軽減する車載装置を提供することを目的としている。

本発明は、音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行う音声認識方法であって、目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておき、前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得し、前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、前記判断の結果に基づいて、音声認識用語彙データを修正するものである。

また、音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行う音声認識方法であって、目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておき、前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得し、前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、前記判断の結果に基づいて、以後の音声入力の信頼度を設定するものである。

以上、述べてきたことから明らかなように、本願発明は、音声認識された結果の語彙と、実際にユーザが訪れた目的地の名称とを比較することで、認識結果の成否の判断を自動的に行うことが可能となるため、認識に利用する語彙を修正し、それにより今後のユーザの音声入力に対して高精度な音声認識を実現することが可能となる。これにより、入力の際のユーザの負担を軽減することが可能となる。

本願の他の実施形態は、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、当該認識結果に基づいて対象制御機器に対して音声による入力指令を行う音声入力方法であって、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により決定される音声認識語彙データを用いて音声認識を行うものである。

本願の他の実施形態は、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、当該認識結果に基づいて対象制御機器に対して音声による入力指令を行う音声入力方法であって、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により音声認識用語彙データの優先度を決定し、前記優先度に基づいて音声認識を行うものである。

本願の他の実施形態は、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、当該認識結果に基づいて対象制御機器に対して音声による入力指令を行う音声入力方法であって、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により音声認識用語彙データの優先度を決定し、前記優先度が付与された音声認識用語彙データ、および、人の発声の統計的な特徴を記憶しておく音響モデルに基づいて音声認識を行うものである。

ここで行動事象とは、ユーザの行動に関する事象、例えば移動、食事、入浴、余暇の行動など、ユーザが行う行動を定義可能な出来事や事柄のことである。

そして、好ましくは、予測する行動事象は、ユーザの移動に関する行動事象（例えば通勤、旅行、デートなど移動に関する事象）である。

具体的には、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、対象制御機器に対して音声による入力指令を行う音声入力方法であって、ユーザの移動に関する履歴を蓄積して管理した移動履歴情報に基づいて、目的地、走行経路の候補の候補を１つ以上予測し、前記予測された目的地、または走行経路候補に基づいて、認識対象となる音声認識用語彙の優先度を決定し、前記決定した音声認識用語彙データを利用して音声認識を行うものである。

上記実施形態によればユーザがこれから向かう目的地を予測することで、ユーザが発声すると考えられる語彙の候補に対して優先度を付与することで、語彙の絞り込みと音声認識率の向上を実現することが可能となる。

また、ユーザがこれから走行する可能性のある経路を予測することで、ユーザが発声すると考えられる語彙の候補を、予測された経路上または経路付近に存在する施設の名称に限定することができ、限定された語彙の候補に対して優先度を付与することで、語彙の絞り込みと音声認識率の向上を実現することが可能となる。

本発明の一実施形態は、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、対象制御機器に対して音声による入力指令を行う音声入力方法であって、目的地名称を音声入力して音声認識された認識結果の語彙を記憶しておき、前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したと分かるイベントが検出されたときの目的地の位置情報に対応する名称により取得し、前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、前記判断の結果に基づいて、認識対象となる語彙を修正するものである。認識結果に対してユーザの入力がなくても自動的に成否の判断が可能になるので、ユーザの負担なく、音声認識率の向上を実現することが可能となる。

また、音声入力された音声に対して、音声認識用語彙データを利用して音声認識を行い、対象制御機器に対して音声による入力指令を行う音声入力方法であって、目的地名称を音声入力して音声認識された認識結果の語彙を記憶しておき、前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したと分かるイベントが検出されたときの目的地の位置情報に対応する名称により取得し、前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、前記判断の結果に基づいて、以後の音声入力の信頼度を設定するものである。また当該信頼度に基づき今後の音声入力に際して、ユーザの発声に対して再度音声入力させたり、その際に「ゆっくりと発音してください」などの認識向上のための発声のガイドを行ったり、認識アルゴリズムを精度の高いものを活用するなどの使用を行っても良い。あるいはタッチパネルなどの他の入力手段を用意して、音声認識の信頼度の低いものは、音声入力に代えて当該他の入力手段による入力を実行させるようにしてもよい。

本願の他の実施形態は、施設の検索要求に対して、検索のための提示対象となる施設やジャンルの優先度を決定し、決定内容を提示する方法であって、ユーザの移動に関する履歴情報に基づいて、目的地の名称、目的地が属するジャンルの少なくともいずれかの候補を１つ以上予測し、検索要求を受理すると、前記予測された名称、ジャンルの少なくともいずれかを優先的にユーザに提示するものである。ユーザが施設検索の要求を入力した際に、ユーザがこれから向かう可能性の高い施設、またはそのジャンルを予測することで、ユーザにとって必要となる施設の名称やジャンルを、優先的にユーザに提示でき、ユーザは効率的な施設検索が可能となる。

本願の他の実施形態は、音声認識によるナビゲーション機能を有する車載装置であって、センサにより検出された車内外の状況の履歴を蓄積する手段と、前記状況の履歴と、現在の状況に基づいて目的地の候補を１つ以上予測する手段と、前記予測された目的地候補に基づいて、認識対象となる音声認識用語彙の優先度を決定する手段と、前記優先度に基づいて音声認識を行う手段と、前記決定した音声認識用語彙データを利用して音声認識を行うものである。

好ましくは予測手段が、目的地が属するジャンルの候補を１つ以上予測するものである。

本発明の他の実施形態は、音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行い、前記音声認識によるナビゲーション機能を有する車載装置であって、目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておく手段と、前記音声認識が行われた際の、ユーザの移動における目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得する手段と、前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断する手段と、前記判断に基づいて、認識対象となる語彙を修正する手段とを有するものである。

好ましくは、さらに、入力された音声の、音響特性に関する発声データを記憶しておき、認識対象となる語彙の発声データに、前記記憶した発声データを追加する手段とを有するものである。

本願の他の実施形態は、施設検索機能を有する車載装置であって、センサにより検出された車内外の状況の履歴を蓄積する手段と、前記車内外の状況の履歴と現在の状況とに基づいて、目的地の名称、目的地が属するジャンルの少なくともいずれかの候補を１つ以上予測する手段と、前記予測された候補に基づいて、ユーザに提示する目的地の名称、目的地が属するジャンルの少なくともいずれかの優先度を決定する手段と、前記決定した優先度に基づいて検索すべき目的地に関する情報を検索するものである。

本願の他の実施形態は、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により決定される音声認識語彙データを用いて音声認識を行う音声認識方法である。

本願の他の実施形態は、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により音声認識用語彙データの優先度を決定し、前記優先度に基づいて音声認識を行うことを特徴とする音声認識方法である。

本願の他の実施形態は、音声入力された音声に対して、ユーザの行動履歴情報に基づいて予測した行動事象により音声認識用語彙データの優先度を決定し、前記優先度が付与された音声認識用語彙データおよび、人の発声の統計的な特徴を記憶しておく音響モデルに基づいて音声認識を行うものである。

以下、本発明の実施の形態について図面を参照しながら説明する。
本実施形態では、対象制御機器としてカーナビゲーションシステムなどの車載装置を例に説明する。ただし、対象制御機器としてはカーナビゲーションシステムに限らず音声による入力制御が可能な機器であればよい。

（実施の形態１）
以下、本発明の第一の実施の形態における車載装置について、図面を参照しながら説明する。車載装置は、経路案内などのナビゲーション機能を有し、ユーザが目的地の名称やジャンル（レストラン、公園など）を音声で入力すると、音声認識により目的地設定を行うことができる。

図１は、本発明の第一の実施形態における車載装置の構成を示す図である。

車載装置は、車内外の状況を検出する状況検出部１０１と、状況の履歴を蓄積する履歴蓄積部１０２と、ユーザの目的地を予測する目的地予測部１０３と、音声認識の対象となる語彙を記憶しておく認識対象語彙データ１０４と、目的地予測部１０３の目的地の予測結果により認識対象語彙の優先度を決定する優先度決定部１０５と、音声認識のために発声に関する音響的な特徴を記憶しておく音響モデル１０８と、ユーザの音声入力を受け付ける音声入力部１０６と、音声入力部１０６から入力された入力音声を認識する音声認識部１０７と、音声認識部１０７にて認識された結果とユーザの意図した目的地が整合しているかどうかを判定する認識結果判断部１０９と、認識結果判断部１０９に基づいて認識対象語彙データ１０４を修正するモデル修正部１１０により構成される。

状況検出部１０１は、車外、車内の状況として、自車の位置情報や、ある地点からの出発、ある地点への到着、日時、天気、運転者、同行者などの情報を検出する。

検出方法として次のようなものが考えられる。自車の位置情報や日時に関する情報は、GPSにより取得される情報より検出が可能であり、また出発や到着というイベントは、エンジンのON／OFFにより検出が可能となる。

天気の検出方法としては、車外に設置された雨滴センサにより雨量を計測したり、車載カメラにより空模様を撮影し画像処理によって判断したり、ネットワークを利用して天候に関する情報を取得したりする方法が考えられる。

さらに、運転者や同乗者に関する情報は、例えば個々人の有する携帯端末などと車載機が通信を行うことで、個々人を特定する情報を取得することにより搭乗者が誰であるのかを検出することが可能であるし、また、エンジンキーにID情報が付与されていれば運転者を特定することができる。さらに、座席に荷重センサを設けることにより、同乗者の数を検出可能であるし、あらかじめユーザ毎の体重を登録しておくことで検出された荷重によりユーザを特定することが可能となる。

履歴蓄積部１０２は、状況検出部１０１により検出された状況を蓄積する。蓄積されるデータの一例を図２に示す。図では、検出された状況の中で、エンジンを起動した日時、エンジンを起動した出発地名称、走行が終了してエンジンを停止したときの場所、つまり目的地名称、運転者、同乗者、天気、に関する情報が蓄積されている。

一例を説明すると、図２のデータの２行目は、２００３年４月１８日７時３０分（日時）に出発地として自宅を出発し、目的地として会社に到着した。運転者はID１であり、同行者はおらず、そのときの天気は曇であることを示している。

なお、蓄積される情報はこれに限るものではなく、目的地に到着した時刻や、走行の所要時間、走行経路に関する情報など様々に蓄積することが可能である。また、出発地や目的地の名称は特定することが困難な場合がある。車載装置が参照可能な地図情報に登録されているランドマークやユーザによりラベル付けされた場所や施設（自宅や職場など）であれば、状況検出部により検出された自車位置情報と位置を比較することで名称を特定可能であるが、それ以外のケースでは特定が難しい。また、ある地点に駐車したことが検出されても、そこに複数の店舗や施設が存在すれば、ユーザがどの施設を目的地としたのかの特定が困難になる。そのような場合は、図のような名称ではなく、状況検出部により検出されるＧＰＳによる緯度、経度情報を蓄積するようにしてもよい。

目的地予測部１０３は、状況検出部１０１により検出された現在の状況と、履歴蓄積部１０２を参照して、ユーザがこれから向かうと考えられる目的地点を予測する。

予測方法の一例を示す。履歴蓄積部１０２を解析すると、過去にユーザが平日の朝自宅を出発した頻度が２０回あり、その時の目的地は、会社が1６回、安心銀行が3回、Ｆマートが１回である、というような規則を抽出することができる。そして、状況検出部１０１により現在の状況が平日の朝、自宅を出発する、と検出されると、目的地として、会社、銀行（安心銀行）、コンビニエンスストア（Ｆマート）に向かう確率が、それぞれ８０％、１５％、５％と予測されることになる。

なお、「平日の朝に自宅を出発したという条件における、目的地への走行頻度」などの規則の抽出は、あらかじめ履歴蓄積部１０２を解析しておき様々な条件に対して頻度に関する規則を抽出しておき、状況検出部１０１により状況が検出されると現在の状況に適合する規則を検索するのでもよいし、状況検出部１０１により状況が検出されるタイミングで履歴蓄積部１０２の解析を行い、現在の状況に適合する条件における目的地への走行頻度を算出するのでもよい。

優先度決定部１０５は、目的地予測部１０３により予測された目的地の候補を参照して、認識対象語彙データ１０４から、ユーザが目的地として音声入力する可能性の高い語彙に対して優先度を決定する。目的地予測部１０３により、ユーザがこれから向かおうとしている目的地への走行確率が算出されるため、その目的地の名称は、目的地設定をするためにユーザが音声入力する可能性が高くなる。そこで、可能性の高い語彙に対して優先度をつけ、認識の精度を向上させたり、処理時間を短縮したりすることを目的としている。

優先度決定部１０５により認識対象語彙の優先度が決定される例を、図３を参照して述べる。

図中、３０１は認識対象語彙データに記憶されている語彙の一部を示している。目的地予測部１０３により目的地候補が３０２のように予測されると、認識対象語彙データ１０４の中で予測された目的地の候補に該当する語彙が抽出され、予測確率に応じて順に優先度を付与する。そして、それ以外の認識対象語彙には予測された目的地候補よりも低い優先度を付与する。３０３は、各語彙に優先度が付与された認識候補を表している。本実施形態では目的地候補の確率として会社、安心銀行、Ｆマートについて、それぞれ８０％、１５％、５％と予測され、その順に語彙の認識候補の優先度が付与されている。このとき、目的地候補に対する優先度は、順位付けされるのではなく、単に他の語彙よりも優先度を高め目的地候補は同列に扱うだけでもよいし、目的地候補語彙のみを認識対象候補とするのでもよい。

また、上述したように、履歴蓄積において目的地の名称ではなく緯度・経度などの位置情報が蓄積されている場合には、目的地予測部１０３は名称ではなく、緯度・経度情報の候補を予測することになる。この場合は、予測された緯度・経度を基に所定の範囲に含まれる目的地の候補に対して優先度を高める、あるいはそれらのみを認識対象にするようにしてもよい。例えば履歴を参照して緯度、経度が（Ｎ１、Ｅ1）と予測された場合、この位置を中心とした半径５０ｍの領域を含む範囲を目的地領域として設定し、その目的地領域に存在する地域の目的地を特定する目的地特定情報（目的地に関する名称、あるいはジャンル）をナビゲーション情報として格納してある地図情報データベースなどから抽出し、その目的地特定情報に関して認識対象語彙データから認識候補の語彙を抽出し、また優先度を付与する。

なお、認識対象語彙データ１０４には、図３に示すテキスト情報の他に、テキストの発音に関するデータ（例えば、「会社」というテキストの発声として、／ｋａｉｓｊａ／という発音記号）も共に記憶されている。

音声認識部１０７は、入力された音声に対して、優先度決定部１０５により優先度が付与された認識対象語彙候補と、音響モデル１０８を参照して音声認識処理を行う。

ここで音響モデル１０８には、人が発声する基本的な音の単位（母音、子音など）の特徴が統計的なデータとして記憶されている。

音声認識部１０７の処理として図４に示すようなものも考えることができる。すなわち、目的地予測部１０３の予測結果に従い、候補を絞られた語彙の優先度情報を用いて認識を行うのではなく、音声認識がなされた結果の認識語彙候補に対して、目的地予測部１０３により予測された目的地候補の優先度情報を利用して認識結果を特定するという処理である。

認識結果判断部１０９は、音声認識部１０７により認識された認識目的地がユーザの意図した目的地と同一であるかどうかの判断を行う。

判断は次のように行われる。音声認識部１０７により認識処理が行われると、認識結果判断部１０９は認識目的地に関するテキスト情報とユーザの発声に関する情報を保持する。例えば、ユーザにより発声された音声に対して、発声情報を／ｋａｉｃｈａ／、語彙として「会茶」と認識すると、これらの情報を記憶しておく。その後、状況検出部１０１によりエンジンが停止するなど、ユーザが目的地に到着したと分かるイベントが検出されると、その目的地の位置情報に対応する名称を取得する。そして、保持している認識目的地と、実際の目的地の名称を比較し、同一であるか否かの判断がなされる。例えば、到着した目的地の名称が「会社」である場合は、同一でないと判断される。

モデル修正部１１０は、認識結果判断部１０９の判断を受けて、同一でなければ認識対象語彙データ１０４の修正を行う。修正の例としては、認識対象語彙データ１０４中の、実際の目的地である語彙の発声データに、認識結果判断部１０９に保持されているユーザの発声データを追加する方法がある。上述した例では、「会社」という語彙に対してユーザは／ｋａｉｃｈａ／という発声をしていることが分かるので、語彙「会社」の発声データとして／ｋａｉｃｈａ／を追加することになる。このような修正は、ユーザ毎に行ってもよい。すなわち、語彙「会社」に対して／ｋａｉｃｈａ／と発声するユーザに対してのみこのように修正された（発声データの追加された）モデルを利用することで、このユーザに対する音声認識率を向上させると共に、語彙「会社」に対して／ｋａｉｓｊａ／と発声する別のユーザに対しては修正のないモデルを利用することで認識率の低下を防ぐことができる。

その他の修正の例として、次のようなものも考えられる。車載装置に図５に示すような語彙と、そのスコアを記憶しておく構成を設ける。スコアは、認識の信頼度を示す指標として定義されるものであり、これはユーザ毎に設けられるものである。そして、認識結果が「会社」、実際の目的地も「会社」というように認識が正しければ、語彙「会社」のスコアを加算し、認識結果が「便利（べんり）ストア」、実際の目的地が「へんみストア」というように認識が誤りであれば、語彙「便利ストア」のスコアを減算する、というものである。

次に、このように構成される車載装置の一連の動作について、図６を参照して説明する。

図６は、車載装置の動作を示すフローチャートである。

状況検出部１０１により現在の状況が検出されると（ステップＳ６０１）、目的地予測部１０３は、検出された状況と履歴蓄積部１０２に蓄積された履歴を参照して、ユーザがこれから向かおうとしている目的地の候補を予測する（ステップＳ６０２）。

それに伴い、優先度決定部１０５は認識対象語彙データ１０４の語彙に対して、上記予測した結果に基づき認識候補としての優先度を付与する（ステップＳ６０３）。

ユーザにより、目的地を設定するための音声入力があると（ステップＳ６０４）、音声認識部１０７は音声認識を行い、その目的地に対する経路案内など所定の動作が行われ、認識された認識目的地に関する情報は認識結果判断部１０９において保持される（ステップＳ６０５）。

状況検出部１０１により走行の終了が検知されると（ステップＳ６０６）、認識結果判断部１０９において目的地の名称に関する情報を取得し、保持している認識目的地の名称との比較を行う（ステップＳ６０７）。

認識目的地と実際の目的地が一致していないと判断された場合（ステップＳ６０８でＮｏ）は、モデル修正部１１０は認識対象語彙データ１０４の修正を行う（ステップＳ６０９）。

なお、本実施の形態のように、予測された目的地の名称で認識対象語彙データ１０４の優先度を決定するほかに、次のような形態も考えることができる。

図７に示すように、認識対象となる語彙に、属するジャンルに関する情報を参照できる場合に、履歴蓄積部１０２における出発地や目的地に、ジャンルに関する情報を付与して記憶しておく。その場合、目的地予測部１０３は、目的地の名称や位置情報を予測するのと同様の手法で、ユーザがこれから向かおうとしている目的地のジャンルを予測することが可能となる。そして、優先度決定部１０５は、認識対象語彙データ１０４から予測されたジャンルに属する目的地の候補を、認識の候補として優先度を高めるようにしてもよい。

また、履歴蓄積部１０２は、名称や位置に関する情報と、そのジャンルに関する情報のいずれか一方を蓄積しておくのでもよい。

また、本実施の形態ではユーザの走行に関する位置を表す情報として出発地と目的地のみを蓄積しておき目的地の候補を予測する例について述べたが、出発地、目的地以外に目的地に至る経路に関する情報を蓄積しておくことで、目的地だけではなく走行する経路を予測することもでき、認識対象として予測された目的地候補だけではなく、予測された経路上に存在する目的地という観点で優先度を決定することも可能となる。

図８に経路に関する情報が蓄積された一例を示す。図中の経路は、『Ｃ２』、『Ｃ８』、『Ｃ５』など交差点、分岐点に割り振られたノードとなるＩＤ情報を利用してＩＤの遷移系列で記憶されている。この遷移系列は、地図情報として予め設定された交差点位置情報及び分岐点位置情報とそのＩＤとが記憶されたデータと、ユーザの走行により得られる位置情報の系列とのマッチングをとることで得ることができる。このように蓄積しておくことで、目的地だけでなくユーザが走行する可能性の高い経路を予測することができる。

そして、図９に認識対象語彙データ１０４の例を示す。図のように認識対象語彙は、その対象が隣接する道路を２つの交差点を用いて表現されている。このように記憶しておくことで、例えば、ユーザの走行経路が「Ｃ１→Ｃ３→Ｃ１０→Ｃ２１→Ｃ３５→Ｃ３７→Ｃ４８→Ｃ４５→Ｃ５１」であると予測された場合には、この経路上に存在する目的地の候補として、「Ｃ１０→Ｃ２１」に関しては「ファミリーフレンチ」、「Ｃ４８→Ｃ４５」に関しては「Ｆマート」が、ユーザの発声する可能性の高い語彙として、高い優先度を付与されることになる。

また、本実施の形態においては、図１に示すすべての構成要素が車載端末内部に存在する実施例について述べたが、ネットワーク接続可能、あるいは半導体メモリなどを利用可能な車載装置であれば、構成はこの限りではない。

すなわち、少なくともユーザの音声入力を受け付ける音声入力部１０６と、状況検出部１０１のうちユーザの現在位置情報、同乗者情報などユーザが利用する端末でしか取得し得ない情報を取得する構成が備わっているのであれば、それ以外の構成要素は、端末内部にあっても、外部の機器やネットワーク上のサーバなどで実現されるのであれば構わない。

（実施の形態２）
以下、本発明の第二の実施の形態における車載装置について、図面を参照しながら説明する。車載装置は、経路案内などのナビゲーション機能を有し、ユーザが施設のジャンルを指定することで施設検索を行うことが可能である。

図１０は、本発明の第二の実施の形態における車載装置の構成を示す図である。図中、第一の実施の形態における図１の構成と同様の機能を有するものは同一番号を付与し、詳細な説明を省略する。

車載装置は、車内外の状況を検出する状況検出部１０１と、状況の履歴を蓄積する履歴蓄積部１０２と、ユーザの目的地を予測する目的地予測部１０３と、ユーザからの入力を受け付けるユーザ入力部１００２と、ユーザの入力を解釈する入力解釈部１００３と、施設の名称や属するジャンルを記憶しておく地図データ１００１と、ユーザに提示する情報を決定する提示内容決定部１００４と、情報をユーザに提示する提示部１００５により構成される。

地図データ１００１には、図１１に示すように施設の名称と、施設が属するジャンルとなるカテゴリに関する情報が対として記憶されている。
（ジャンル予測）
目的地予測部１０３は、状況検出部１０１により検出された現在の状況と、履歴蓄積部１０２に蓄積された図２に示す情報、および地図データ１００１を参照して、ユーザがこれから向かうと考えられる目的地の施設名称や施設のジャンルを予測する。予測方法としては第一の実施の形態に示したような方法が挙げられ、目的地予測部１０３により目的地のジャンルが予測された結果の一例を図１２に示す。

図１２は、一例として状況検出部１０１により検出される現在の状況が「休日の夕方に自宅を出発する」というものであった場合に、履歴蓄積部１０２に蓄積されている過去の履歴の中で休日の夕方に自宅を出発した事例を、そのときの目的地のジャンルごとに頻度を集計したものである。ここで履歴情報から休日の夕方（日時）に自宅（出発地）を出発した場合、目的地としては「Ｆマート」、「Ｃコープ」などの施設名称を抽出し、地図データを参照して「Ｆマート」、「Ｃコープ」が「スーパー」のカテゴリに区分する。そしてこのような管理を行うことで、例えば図に示すようにユーザは「休日の夕方に自宅を出発する」という状況において、過去にジャンル「スーパー」に属する施設へ２１回、ジャンル「ショッピング」に属する施設へ１３回、ジャンル「レジャー」に属する施設へ５回、いったことがあることが分かり、ユーザはジャンル「スーパー」へ行く確率が高いことが分かる。

ユーザ入力部１００２は、「現在の自車位置の周辺の施設を検索したい」というようなユーザの要求を受け付ける。これは、リモコンによる操作、音声による入力、タッチパネルなど様々に考えることができる。

入力解釈部１００３は、ユーザ入力部１００２への入力が「現在の自車位置の周辺の施設を検索したい」であった場合、これを「周辺施設のジャンルリストの表示要求である」と解釈する。

提示内容決定部１００４は、入力解釈部１００３、目的地予測部１０３、地図データ１００１を参照してユーザに対して提示する内容を決定する。具体的には次のように動作する。まず目的地予測部１０３により予測された、現在の状況において、ユーザが目的地とするジャンルをその予測確率（過去の走行頻度）順に並べる。そして、地図データ１０１を参照して、目的地予測部１０３により予測された以外のジャンルの名称を適当な順序で並べる。そして、目的地予測部１０３により予測されたジャンルを上位とし、その他のジャンルを下位に続けたリストを作成する。

提示部１００５は、表示内容決定部１００４により決定された表示順序に従ってジャンルの名称のリストをユーザに提示する。提示の一例としてリストを画面出力する場合を図１３に示す。図のように、目的地予測部１０３により予測されたジャンルは、その確率が高いほどより上位に位置づけられており、これによりユーザは下位の方まで見ることなく選択することが可能となる。このように車内外の状況の履歴と現在の状況とに基づいて、目的地の名称、目的地が属するジャンルの少なくともいずれかの候補を１つ以上予測し、
前記予測された候補に基づいて、ユーザに提示する目的地の名称、目的地が属するジャンルの少なくともいずれかの優先度を決定し、決定した優先度に基づいて検索すべき目的地に関する情報をユーザに提示して選択または優先度を付した上位から順に検索するものである。

なお本実施の形態では、提示方法として予測確率が高いものほど、リストの上位に位置づける例について述べたが、これ以外にも表示の文字の大きさを大きくしたり、太字や異なる色で表示したりするなど、予測確率の低い、もしくは予測されないジャンルよりもユーザが選択しやすいような表示の仕方であればよい。

また、提示方法としては図１３のような画面表示以外にも音声出力によりユーザに提示するようにしてもよい。

提示部１００５により図１３に示す提示がなされると、ユーザはユーザ入力部１００２よりジャンルとして「スーパー」を選択したとする。

入力解釈部１００３は、ユーザ入力部１００２への入力を「ジャンルスーパーに属する施設の名称のリストの表示要求である」と解釈する。

提示内容決定部１００４は、入力解釈部１００３、目的地予測部１０３、地図データ１００１を参照してユーザに対して提示する内容を決定する。具体的には次のように動作する。図１２に示す内容の予測処理の結果の中で、入力解釈部１００３により指定されたジャンル「スーパー」に属する施設の名称をその予測確率（過去の走行頻度）順に並べる。一例を図１４に示す。図のように、ジャンル「スーパー」へ走行した頻度２１回のうち、「Ｆマート」へ１０回、「Ｃコープ」へ５回、「便利ストア」へ３回走行したことが分かる。そして、地図データ１０１のジャンル「スーパー」の中で、目的地予測部１０３により予測された以外の施設の名称を適当な順序で並べる。そして、目的地予測部１０３により予測された施設を上位とし、その他の施設を下位に続けたリストを作成する。

提示部１００５は、表示内容決定部１００４により決定された表示順序に従って施設の名称のリストをユーザに提示する。提示の一例としてリストを画面出力する場合を図１５に示す。図のように、目的地予測部１０３により予測された施設は、その確率が高いほどより上位に位置づけられており、これによりユーザは下位の方まで見ることなく選択することが可能となる。

次に、このように構成される車載装置の一連の動作について、図１６を参照して説明する。

図１６は、車載装置の動作を示すフローチャートである。

目的地予測部１０３により目的地の名称やジャンルについての予測がなされると（ステップＳ１６０１）、施設検索に対するユーザからの要求がユーザ入力部１００２へあるかどうかが判断される（ステップＳ１６０２）。

ユーザからの入力があると（ステップＳ１６０２でＹｅｓ）、入力解釈部１００３はユーザの入力内容を解釈する（ステップＳ１６０３）。

提示内容決定部１００４は、入力解釈部１００３、地図データ１００１、目的地予測部１０３を参照して、ユーザに対して提示する内容を決定し（ステップＳ１６０４）、提示部１００５により、その内容が提示される（ステップＳ１６０５）。

なお、本実施の形態では、まず施設のジャンルを予測し、ユーザにより選択されたジャンルに含まれる施設に対してさらに予測を行う例を示したが、これ以外にも、ユーザにより音声入力などでジャンルが指定された場合にそのジャンルに属する候補の中で施設を予測したり、ジャンルにとらわれずにユーザの訪れそうな施設を予測したりするのでもよい。

本発明に係る入力支援方法によれば、音声認識された結果の語彙と、実際にユーザが訪れた目的地の名称とを比較することで、認識結果の成否の判断を自動的に行うことが可能となるため、認識に利用する語彙を修正し、それにより今後のユーザの音声入力に対して高精度な音声認識を実現することが可能となる。

第一の実施の形態における車載装置の構成を示す図履歴蓄積部に蓄積される状況の履歴を示す図認識対象語彙の優先度が決定される一例を示す図音声認識処理の一例を示す図認識対象語彙データが修正される一例を示す図第一の実施の形態において、車載装置の一連の動作を示すフローチャート認識対象語彙データの一例を示す図履歴蓄積部に蓄積される状況の履歴を示す図認識対象語彙の一例を示す図第二の実施の形態における車載装置の構成を示す図地図データの一例を示す図目的地予測部の出力を示す図ユーザに提示される画面を示す図目的地予測部の出力を示す図ユーザに提示される画面を示す図第二の実施の形態において、車載装置の一連の動作を示すフローチャート

符号の説明

１０１状況検出部
１０２履歴蓄積部
１０３目的地予測部
１０４認識対象語彙データ
１０５優先度決定部
１０６音声入力部
１０７音声認識部
１０８音響モデル
１０９認識結果判断部
１１０モデル修正部
３０１認識対象語彙データの一部
３０２目的地予測結果
３０３認識対象語彙に付与された優先度
１００１地図データ
１００２ユーザ入力部
１００３入力解釈部
１００４提示内容決定部
１００５提示部

Claims

音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行う音声認識方法であって、
目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておき、
前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得し、
前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、
前記判断の結果に基づいて、音声認識用語彙データを修正する、
ことを特徴とする音声認識方法。
音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行う音声認識方法であって、
目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておき、
前記音声認識が行われた際の、ユーザの移動の目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得し、
前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断し、
前記判断の結果に基づいて、以後の音声入力の信頼度を設定することを特徴とする音声認識方法。
請求項１又は２記載の音声認識方法であって、さらに、入力された音声の音響特性に関する発声データを記憶しておき、認識対象となる語彙の発声データに、前記記憶した発声データを追加することを特徴とする音声認識方法。
音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行い、前記音声認識によるナビゲーション機能を有する車載装置であって、
目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておく手段と、
前記音声認識が行われた際の、ユーザの移動における目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得する手段と、
前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断する手段と、
前記判断に基づいて、認識対象となる語彙を修正する手段と、
を有することを特徴とする車載装置。
音声入力された音声に対して、音声認識の対象となる語彙を記憶する音声認識用語彙データを利用して音声認識を行い、前記音声認識によるナビゲーション機能を有する車載装置であって、
目的地に関する音声入力に対し音声認識された認識結果の語彙を記憶しておく手段と、
前記音声認識が行われた際の、ユーザの移動における目的地の名称に関する情報を、ユーザが目的地に到着したことを示すイベントが検出されたときの目的地の位置情報に対応する名称により取得する手段と、
前記認識結果の語彙と前記目的地の名称に関する情報とを比較して認識の成否を判断する手段と
前記判断に基づいて、以後の音声入力の信頼度を設定する手段と、
を有することを特徴とする車載装置。
請求項４又は５記載の車載装置であって、さらに、入力された音声の音響特性に関する発声データを記憶しておき、認識対象となる語彙の発声データに前記記憶した発声データを追加する手段とを有することを特徴とする車載装置。