JP2007187975A

JP2007187975A - 音声認識装置および音声認識方法

Info

Publication number: JP2007187975A
Application number: JP2006007253A
Authority: JP
Inventors: Daisuke Saito; 大介斎藤; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野; Keiko Katsuragawa; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-01-16
Filing date: 2006-01-16
Publication date: 2007-07-26

Abstract

【課題】音声認識手段としては、幾つかの認識手段が提案されているが、これら何れにおいてもユーザの要求を満たす認識語彙を備え、且つ効率よく目的とする語彙を検索することが出来る認識辞書の実現に難点があった。本発明においては、少ない発話回数でユーザの必要とするタスクを実行出来る音声認識装置およびその方法の提供を目的とした。
【解決手段】本発明においては、認識辞書に年間行事を含むカレンダーデータベースを記録しておき、このデータベースに記憶された行事に関連する語彙を優先語彙と決定し、この語彙を優先的に認識処理を行うように、例えば階層構造に割り当てる語彙の順序を変える等、認識辞書での語彙配列の内容を更新する構成としている。
【選択図】図１

Description

本発明は、カーナビゲーション等に適用する対話型音声認識装置および方法に関するものであって、特に、目的地設定等タスクの実行を容易にする音声認識装置および方法に係る。

近年、音声認識により装置側とユーザ側との間で音声対話を行う音声認識装置が数多く提供されている。音声対話の基本フローでは、ユーザがある目的を達成するために音声認識装置に向かって音声を入力し、音声認識装置はこの入力された音声を認識した結果、対応する応答をユーザに音声あるいは表示手段を介して提示する。一度のユーザ発話でタスク達成のための十分な情報が得られた場合には、その情報に基づき機器操作等の処理を実行する。一方、十分な情報が得られない場合には十分な情報が得られるまで質問応答、ユーザ発話を繰り返す対話によりタスク達成を目論む。例えばこのような音声認識装置を適用したものとして、目的地の入力を主タスクとしたカーナビゲーションシステムがある。

カーナビゲーションシステム（以下、ナビゲーションと略記する）での認識辞書に使用される言語モデルは一般にネットワーク型言語モデルと呼ばれるものが使用される。このネットワーク型言語モデルに用いられる認識語彙は、目的地を含む地域名あるいは目的施設のジャンル等から最終の目的地に至る階層構造で表現されている。ユーザはこの階層構造に従い、上位（地域名等）から順次認識を確定させることにより、最終的な目的地入力を可能としている。尚、上位階層の語彙と下位階層の語彙を繋げて発話することが可能なものもある。

このような階層構造を持つ辞書では、階層毎に語彙数を制限できるため認識性能が高くできる。ただし語順の自由度が低いため、より自由な語順の発話を許容する手法も提案されている。これは一般的にキーワードスポッティングと呼ばれる単語抽出技術と認識スコアと呼ばれる認識した語彙の確からしさ(競合単語との間違え易さ)とを示した指標を用いる技術である。尚、認識スコアとしては、例えば単語事後確率やＮ−ｂｅｓｔリストから競合単語との近さを評価した「信頼度(Confidence Measure)」という指標で表現されることもある。キーワードスポッティングに関しては下記「特許文献１」に開示されている方法が、また、信頼度の計算方法に関しては例えば「非特許文献1」のような方法がある。

キーワードスポッティングで使用される言語辞書においては、キーワードは例えば県名、駅名、公園等複数のジャンル毎にグルーピングして記憶されており、入力信号に対してこれらキーワードが並列的に待受けられる。入力言語に対する言語モデルは、「キーワードモデル+ガベージモデル」とで構成されている。ガベージモデルは「の」「と」「えー」といったキーワード以外の間投詞を吸収するためのモデルであり、これにより発話文から認識すべきキーワードを抽出することを可能としている。
認識処理では発話語彙とこれらキーワードとを照合することにより無数のキーワードが認識候補として抽出されるが、認識処理の後段には対話・理解処理があるため、システムはこれら候補語彙群から、整合性のある候補へ絞込まれた結果を理解結果として受け取ることが出来る。例えば県名と施設名の整合性を考慮すれば、対象となる施設名称のキーワードは大幅に絞り込むことが可能となる。また、キーワードとして施設名称だけが複数認識され、「県名」など、前記施設名称を絞り込む語彙群が得られなかった場合には、対話・理解処理において適切な聞き返し(例えば県名を聞き返す)を行うことにより、絞込み処理を行い、タスクを達成する。

具体的な対話例としては、「神奈川県の横須賀ゴルフ場に行く」という発話から「神奈川（認識スコア“高”）「県（認識スコア“高”）「横須賀（認識スコア“低”）」「ゴルフ（場認識スコア“高”）」のようなキーワードが認識候補語彙として、認識スコア（“高”、“低”）が付与された形で算出されたとする。ここで、「横須賀」についての認識スコアが低い、もしくは該スコアと近いスコアの競合単語が大量に出現する場合には、対話・理解処理にて質問応答「神奈川県の何ゴルフ場ですか？」(ゴルフ場の名前に関する質問)を生成し、ユーザに提示し、再度情報の取得を試みる。これに対するユーザの返答「横須賀ゴルフ場」の認識結果として「横須賀」および「ゴルフ場」いずれも認識スコア“高”が得られた場合に、装置側から「神奈川県の横須賀ゴルフ場ですね。目的地に設定します」と応答音声を発話してタスクを達成することができる。
特許３０１１４２１ Akinobu Lee, Kiyohiso Shikano, and Tatsuya Kawahara, "Real time word confidence scoring using local posterior probabilities on tree trellis search,"InProc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004), Vol. I, pp.793--796, May 2004

前記の階層構造辞書を用いた認識方法では、ユーザが最終的な操作を終了するまでの発話回数が多くなり易いと言う問題がある。この発話回数を減らすためには一つの階層に含まれる語彙数を増やさなければならないが、これに伴う認識性能の低下が考えられる。一部の有名施設についてのみ上位階層での認識を可能とするものや、ユーザの利用履歴やユーザ自身の設定に基づき、特定の語彙を上位階層で認識可能とする「ショートカット」を設ける方法も提案されているが、こうした方法では、必ずしもユーザが発話する可能性の高い語彙を反映した辞書を用意することができない、あるいはユーザ自身に登録作業を要求しなければならないため、ユーザにとって負担が大きいという問題があった。

一方、後者のキーワードスポッティングおよび認識スコア計算法を用いた認識方法では、発話に自由度を与えるためにより多くの語彙を一時に待受ける構成となるが、待受けの語彙数が増えるほど他の単語にマッチングしてしまう「湧き出し誤り」が発生し易くなるため、これを抑制するために、発話可能性の高い語彙に絞り込むことが望まれるが、効果的な絞込みの方法は現在のところ提案されていない。

本発明は上述したような問題に鑑みて成されたものであり、ユーザ側と装置側とで出来るだけ少ないステップ数でタスクを完了することが出来る音声認識装置およびその方法を提供することを目的とした。

前記目的を達成するために、本発明における音声信号認識処理を行う部分は、ユーザの発話音声を入力し、離散化してディジタル信号に変換する音声入力部と、この変換された音声信号の特徴を抽出する特徴抽出部と、この抽出された特徴を認識辞書に登録されている語彙と比較して音声信号の認識を行う音声認識部とを有する構成としている。
本発明の第１の特徴とするところは、この認識辞書の内容として年間行事を記録したカレンダーデータベースを使用するところにある。すなわち、カレンダーデータベースに記憶された行事に関連する認識辞書の特定の語彙を優先語彙と決定し、この語彙を優先的に認識するように認識辞書の内容を辞書更新部を介して更新する構成としたことにある。
また、第２の特徴とするところは、ユーザの過去の操作履歴を時刻情報と共に記録しておき、この操作設定情報の頻度解析を行うことにより優先語彙を決定しているところにある。

本発明においては、ユーザの発話音声を入力する音声入力部と、該音声に対応する文字列を照合し、認識文字列として抽出するための認識辞書が接続されている音声認識部とを有する音声認識装置において、年間の行事に関するカレンダーデータベースおよび辞書更新部を併せ持つ構成とした。この辞書更新部は、前記カレンダーデータベースに記憶された行事に関連する認識辞書の特定の語彙を優先語彙として決定し、該語彙を優先して認識するよう認識辞書を更新する構成とした。これら構成としたことにより、年間行事に連動した認識辞書を提供するため、ユーザにとって発話可能性の高い語彙を優先して認識することができ、少ないステップでタスクを完了することが出来るようになり、ユーザの利便性を向上することができるようになった。

本発明においては、年間の行事を網羅、記憶したカレンダーデータベースの情報、および多くのユーザの発話実態の頻度解析結果を利用し、認識対象語彙の時系列の発話局所性、すなわち認識対象語彙がどの時期（期日、時間帯、季節帯）によく発話されるのかを精度よく抽出し、更にこの局所性を反映するように認識辞書を更新することを特徴とするものである。

これは音声操作の利用実態には、年間行事への強い関連性、および多くのユーザ間での共通のトレンドが存在する点に着目したものである。例えば前記のナビゲーション用音声認識装置の場合、ユーザの目的地設定には時期的な局所性（偏り）がある可能性が高い。実際に発明者らが複数のモニタユーザの目的地設定対話を解析した結果、以下のような傾向が抽出された例がある。
2005年３月第４週〜４月第2週：関東圏で桜の名所への目的地設定が集中
・連続休日中の早朝(5時〜8時)：ゴルフ場への目的地設定が集中
・９月１５日〜９月１７日の午前（午前6時〜10時）：あるコンベンションホールへの目的地設定が集中
1番目は季節により目的地とされる傾向が異なる施設（ＰＯＩ：ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ）種別の典型といえる。2番目は休日のレジャーの傾向と、該施設種別の利用時間（プレー開始時刻）との兼ね合いから時間的局所性が生まれるものと言える。3番目は特定の施設を個別に見ても、大型のイベント発生の有無に関連して目的地設定頻度が顕著に増減することを示している。

この事実は、こうした年間行事を知識として利用することで、目的地の発話傾向を予測することが可能であることを示している。また、これとは別に、実際のユーザの利用実態を解析、利用すれば、実態に即した発話傾向を抽出することができ、高頻度な発話語彙を正確に把握することが可能である。こうした方法で発話可能性の高い語彙を抽出し、音声操作時に該語彙を優先して認識するように辞書を構成することで、ユーザにとってより利便性の高い音声認識装置を提供することが期待できる。

尚、後者の利用実態の解析にあたっては、従来から提案されているクライアントサーバ型の音声認識装置を用いることが好ましい。すなわち、大量のユーザの音声操作設定履歴をサーバ側に蓄積し、これを頻度解析することで、認識語彙の時間的局所性が判断できる。クライアントサーバ型音声認識装置に関しては特開２００１−１４２４８８号公報に記載されたものが知られている。

（実施の形態１）
本実施の形態１は、カレンダーデータベースの情報を反映した辞書の構成方法および装置構成を示した基本的な実施の形態である。
図１にその基本的な構成を示す。すなわち、音声入力部１１０、特徴抽出部１２０、音声認識部１３０、認識辞書１４０、対話管理部１５０、操作設定部１６０、出力部１３０、カレンダーデータベース１８０、辞書更新部１９０から構成される。
先ず、各部の基本的な機能および具体的な実現手段について、図２を参照しながら説明する。

音声入力部１１０は使用者の発話音声を入力し、離散音声信号に変換するものであり、例えば、図２におけるマイクロフォン２０１とＡＤ変換部２０４を組み合わせることで実現される。特徴抽出部１２０は、この変換された離散音声信号から音声認識に必要な特徴量を抽出するものであり、演算装置２０５および記憶装置２０６を組み合わせることで実現できる。ここで特徴量としては例えばＭＦＣＣ（メル周波数ケプストラム係数）等を用いることができる。尚、後段の音声認識部１３０における音声認識の性能を向上するため、特徴抽出部１２０の段階において、加法性雑音や乗法性雑音を抑圧する処理を行うことが好ましい。前者の方法としてはスペクトルサブトラクション（ＳＳ）、後者の方法としてはケプストラム平均正規化（ＣＭＮ）等が知られている。

音声認識部１３０および認識辞書１４０は、前記音声入力部１１０から得られた音声の特徴量と、認識辞書１４０に登録された語彙との類似度を比較することにより、該音声に対応する単語列を選択する機能を持つもので、図２における演算装置２０５および記憶装置２０６を組み合わせることで実現される。音声認識処理はＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）を用いた尤度計算手法等が一般に用いられる。

認識辞書１４０は音声認識を行うための語彙に関する情報が予め登録されており、具体的には音響モデルおよび言語モデルから構成され、音響モデルとしては、トライフォンモデル等を、言語モデルとしては、ネットワーク型言語モデルもしくは統計的言語モデル等を用いることができる。本実施の形態１においてはナビゲーションシステムにおける目的地設定を主タスクとするため、目的地を認識語彙として登録し、これを階層的に繋げたネットワーク型言語モデルを用いることが好ましい。尚、以下に述べる認識辞書の更新処理とは、このネットワーク型言語モデルを適用することを指すこととする。

図３はネットワーク型言語モデルの構成例で、階層構造となっている。図３によりネットワーク型言語モデルの場合の目的地設定の手順を説明する。（以下で、ＳＰはシステム応答発話、ＵＳはユーザ発話を示し、数字は発話順を示す）
ＳＰ１：「入力方法を選択してください」
と音声で問いかけると共に、ナビゲーション画面上に「住所」、「ジャンル」の選択肢を文字等で表示する。
ＵＳ１：「ジャンルで指定」
とユーザは音声で答える。
ＳＰ２：「施設のジャンルをどうぞ」
とシステム応答発話音声で問いかけると共に、「レストラン」、「ゴルフ場」、「スーパ」等の選択肢を表示する。これに対しユーザは
ＵＳ２：「ゴルフ場」
と音声で答える。
このようなやり取りを繰り返し、最終的に例えば「Ｂゴルフ場」を目的地に設定する。

対話管理部１５０は、音声認識結果を受けて現在の理解状態、すなわち目的地を設定するために必要な情報がどれだけ得られているかを評価するものであり、図２における演算装置２０５および記憶装置２０６を組み合わせることで実現される。ここで十分な情報が得られたと判断される場合、すなわちそれまでの音声認識の結果から得られた語彙群から目的地が一意に決定できる場合には後述する操作設定部１６０へ目的地設定操作の実行を許可し、十分な情報が得られなかったと判断される場合、すなわち認識結果の語彙群からは一意に目的地が決まらない場合、あるいは雑音やユーザ発音の影響で、十分な一致度（認識スコア）をもった語彙が取得できない場合、またはユーザからの訂正、否定が入力された場合等は、対応する質問応答文を生成し、これを後述する出力部１７０へ送信することで、ユーザに対し追加の発話を促す。

操作設定部１６０は、前記対話管理部１５０において目的地が一意に決まったと判断された場合に、該目的地設定操作を実行するものであり、演算装置２０５および記憶装置２０６を組み合わせることで実現される。具体的な目的地設定操作としては、図示しない経路演算部に対し、目的地名称あるいは該名称に対応するインデックスを送信する処理などが相当する。この結果を受け、この経路演算部では現在地からのルート演算を行う。

出力部１７０は、前記対話管理部１５０からの質問応答、｛図１における経路（ｂ）の質問応答｝、もしくは操作設定部１６０の指示により図示しない経路演算部で計算されたルート情報｛図１の経路（ａ）操作情報｝を受信し、これをユーザに画面表示あるいは音声にて提示するもので、図２において、演算装置２０５からの上記出力情報の画面表示信号は表示装置２０３で提示され、音声信号はＤＡ変換部２０７を経由してスピーカ２０２から出力される。

カレンダーデータベース１８０は、年間の行事をその期間と開催施設名称あるいは開催施設種別と共に記憶したものであり、記憶装置２０６で構成される。

辞書更新部１９０は、前記カレンダーデータベース１８０の情報を参照し、時間的局在性の高い語彙で、行事が開催される所定の期間について、その行事の開催施設種別名称、あるいは開催施設名称に対応する認識辞書１４０の目的地名称を優先語彙と決定し、この語彙を優先して認識するように認識辞書１４０を更新するものであり、図２における演算装置２０５および記憶装置２０６を組み合わせることで実現される。すなわち、カレンダーデータベース１８０と辞書更新部１９０とは両者併せ持つ構成であり、辞書更新部１９０は、カレンダーデータベース１８０に記憶された行事に関連する認識辞書１４０に登録されている特定の語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書１４０を更新する構成としている。尚、本実施の形態１では、カレンダーデータベース１８０は定期的あるいは不定期的に更新されるのが好ましい。従って、図示しない外部記憶媒体入力装置や、外部通信装置を具備することが好ましい。

以下、本実施の形態１の具体的内容について説明する。図４にカレンダーデータベース１８０の記憶状態の例を示す。図４では、各月毎の行事の期間（開始、終了日）、行事名と、開催施設（施設名）、施設種別（施設ジャンル）が格納されている（開催施設である施設名と施設種別である施設ジャンルについてはインデックス番号あるいはＩＤ番号も付与している）。尚、地図データ上の施設名称等を含めた注目座標点はＰＯＩ（ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ）とも呼ばれる。カレンダーデータベースは、一般に公表されているイベントデータベースを利用することが出来る。例えば祝祭日データや国民行事、祭事データ等が相当する。また、前記地図データ上の各種施設が公表しているイベントカレンダー等を利用することも可能である。こうした行事は大小含めて無数にあるため、全てを網羅することは記憶容量的にも限界がある。そこで、例えば各イベント主催者が発表する来場者数データ、あるいはイベント名称のインターネット上関連サイト数等のデータを参考に、予め定めておいた基準数を上回る行事について、大規模イベントと定義し、これら行事についてカレンダーデータベース１８０の格納対象とするなどの方策をとることが望ましい。また、ユーザの地域属性に基づき、近距離のイベントに関してはマイナーなイベントも含め、遠距離のイベントについては大規模イベントに絞り込むなどの方策をとっても良い。

カレンダーデータベース１８０を利用した辞書更新の流れを図５のフロー図により説明する。先ず、音声認識システムの起動を行う（ステップＳ１０１）。ここで、システムに電源が供給され、アプリケーションの実行コマンドが発行される処理が開始される。電源投入により装置が実働状態になったところで現在の時刻情報を取得する（ステップＳ１０２）。例えばＧＰＳ付きのナビゲーション装置であれば、ＧＰＳ信号から直接現在時刻を取得することが可能である。

ここで、カレンダーデータベース１８０の読み込みが行われる（ステップＳ１０３）。読み込んだカレンダーデータベース１８０の行事開催期間情報（開始日、終了日）を参照し、時刻情報（Today）に開催期間が該当している行事の施設名称ＩＤ、あるいは施設種別ＩＤを取得する（ステップＳ１０４）。取得した施設名称ＩＤ、施設種別ＩＤに対応する語彙を優先語彙と定義し、これら語彙を優先して認識するように、認識辞書１４０の更新を行う（ステップＳ１０６）。更新手法については後述する。更新した認識辞書１４０を、現在日時の認識辞書１４０としてメモリにロードし、音声認識待受け体勢に移行する（ステップＳ１０７）。

以下、図５記載の「辞書変更処理」（ステップＳ１０６）について辞書更新方法を例について述べる。
図６に示す階層構造を持つ辞書を保持している例について考える。ここで、カレンダーデータベース１８０を参照した結果、当日の行事開催地として「ＡＢメッセ」（第４階層）が抽出されたとする。この時、図６中の語彙「ＡＢメッセ」を優先語彙と決定し、この語彙およびその親階層（第３階層）である「展示場」に注目し、図７のように辞書を更新する。すなわち図７矢印（ａ）のように、親階層「展示場」以下のデータ構造を保持しつつ（第３階層／第４階層）、上の階層にコピーする（第２階層／第３階層）と同時に、図７矢印（ｂ）に示すように、優先語彙「ＡＢメッセ」を親階層と同じ階層（第２階層）まで上位にコピーを行う。

この更新により、例えば更新前であれば「ＡＢメッセ」を入力するためには、「目的地設定」→「ジャンルから」→「展示場」→「ＡＢメッセ」と発話しなければならないのに対し、更新後は、「目的地設定」→「展示場」→「ＡＢメッセ」か、あるいは「目的地設定」→「ＡＢメッセ」の発話でタスクを完了することが可能になる。ここで、本処理により階層を上位に移動した項目（例えば、展示場、ＡＢメッセ等）に対してはさらにその上の階層（第１階層）に「目的地設定」の代わりに「おすすめ」を設けておくことも良い。これにより、「目的地設定」よりも最初の発話で検索する語彙を少なくすることが出来、システム動作上負担を軽くすることが出来る。

上記のように、「展示場」の階層を図７の矢印（ａ）に沿って上位の階層（第二階層）に上げることは、「ＡＢメッセ」の他に「○○ビックサイト」「○○アリーナ」等複数の展示場名が優先語彙とされている場合、優先語彙の上位の階層である「展示場」を選択肢として示すことで、この時期にユーザが目的地として設定する可能性の高い優先語彙を複数選択可能とすることが出来ることを示しており、これにより設定の効率化を図ることが出来る。

また、上位の階層（第二階層）に直接「ＡＢメッセ」上げることは、ある時期に目的地として設定される頻度が高い複数の施設の中でも「ＡＢメッセ」が突出して高いような場合には、優先語彙となる「ＡＢメッセ」そのものを第二階層に上げても、その時期はユーザが「ＡＢメッセ」を選択する可能性が高いので、対話回数を減らすことが出来る。

さらに、上位の階層（第二階層）に直接「ＡＢメッセ」等の優先語彙を上げる場合、他の優先語彙も同時に上げる。この図７の場合、例えば、第二階層の選択肢としてナビゲーション画面上に「住所」、「ジャンル」、「ＡＢメッセ」、「優先語２」、「優先語彙３」のように選択肢を表示することになるので、見易さを考慮して上位の優先語彙は３〜５個程度が望ましい。

続いてキーワードスポッティング１８０を利用した認識辞書構造を持つ例における辞書更新方法について述べる。図８は更新前の辞書構造を示すもので、この辞書からキーワードスポッティングによって抽出された複数の単語（ｎ−ベストと呼ばれる）の認識スコア（尤度や信頼度）を用いて語彙を決定する方法である。この辞書に対し、辞書更新部１９０が、語彙「ＡＢメッセ」を優先語彙として決定した場合の辞書更新結果を図９に示す。この例では、キーワード辞書に含まれる語彙のうち、「ＡＢメッセ」が含まれるジャンル「展示場」にグルーピングされた部分辞書（斜線部領域）全体に対し、認識スコア＋１０％のボーナスを与える。これとは別に、優先語彙「ＡＢメッセ」自身に対して＋５％のボーナスを与える。結果「ＡＢメッセ」は認識スコア＋１５％のボーナスを受けることになる。

この辞書を用いた対話例を図１０に示す。（ａ）は更新前の対話例、（ｂ）は更新後の対話例である。図１０（ａ）では、ユーザ発話ＵＳ１「ＡＢメッセに行く」に対し、十分なスコアが得られない（ＳＹ１／スコア低）ため、県名から絞り込むための対話「何県の施設ですか」の質問応答が返される（ＳＰ１）。この質問に対する返答の結果（ＵＳ２−ＳＹ２−ＳＰ２）、「ＡＢメッセ」が十分な認識スコアとなり（スコア高）、目的地へと決定される（ＵＳ３−ＳＹ３−ＳＰ３）。

一方、更新後の辞書でも同様に十分な認識スコアが得られないが、対話例（ｂ）のように、語彙「ＡＢメッセ」が優先語彙であるため、ボーナスを取得した結果、認識スコアが十分な値となる。この結果、県名の絞込みのステップを実行することなく「ＡＢ」メッセを目的地に決定することができ、図１０（ａ）の９ステップから図１０（ｂ）の７ステップに処理ステップ数を低減することが可能となっている。すなわち、辞書更新部１９０は、認識対象となる語彙を、該語彙の出現確率と共に保持する構造を持ち、優先語彙と判断された語彙、あるいはこの語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算する構成としたことにより、操作設定頻度が多く、優先語彙と判断された語彙について、認識結果として出力される可能性が向上する。

上述の一連の構成により、カレンダーデータベース１８０に基づき、ユーザが発話する可能性の高い語彙を少ない対話回数で認識させるよう認識辞書１４０を更新するため、ユーザにとっての利便性を向上することができる。
この他、図示しないが、優先語彙を考慮した辞書更新の方法として、「略語、別称」の発話を可能にする方法を用いても良い。通常の認識辞書においては、略称や別称を登録すると、競合単語が増加するため、認識性能の低下が懸念される。しかし、本手法を用いて優先語彙と決定された語彙に関してのみ、期間を限定して「略称、別称」を発話可能にすることで、語彙の大幅な増加を抑制しつつ、ユーザの使い勝手を大幅に番向上することが期待される。
例えば、「○○国際空港」⇒「○○空港」
「○○の丘、△△記念公園」⇒△△記念公園ＯＲ △△公園
等のようにして省略語を定義、登録する。すなわち、辞書更新部１９０は、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録する構成としているため、設定頻度が多く、優先語彙と判断された語彙について、その略称や別称を発話しても認識が可能になる。

（実施の形態２）
本実施の形態２は、ユーザの実際の音声認識装置の利用実態を記録し、この頻度解析結果を利用して優先語彙を決定し、辞書を更新する技術に関する。そこで、本実施の形態２では、利用実態の記録のために、クライアントサーバ型を有する音声認識システムを利用するものとし、タスクは実施の形態１同様、目的地設定を主タスクとする道案内(ナビゲーション)とする。ただし、音声認識に用いられる発話語彙の時間的局所性(時期的に発話頻度に偏りのある語彙)をユーザの使用実態の解析結果から検出することが本実施の形態２の特徴であるので、発話語彙の時間的局所性を収集して統計解析する仕組みを有するシステムであればクライアントサーバ型に限らず実現可能であり、タスクに関しても発話語彙に時間的局所性を持つタスク全般に対し適用可能である。

図１１にその基本的な構成を示す。本実施の形態２はクライアント（図１１：ＣＬ１００ａ〜ＣＬ１００ｎ）とサーバ（ＳＶ２００）から構成される。図１１の矢印（ａ）はクライアントＣＬ１００ａ〜ＣＬ１００ｎからサーバＳＶ２００へ送信される音声情報の伝送方向を、矢印（ｂ）はサーバからクライアントＣＬ１００ａ〜ＣＬ１００ｎ送信される音声情報や出力情報の伝送方向を示す。
更にクライアントＣＬ１００ａ〜ＣＬ１００ｎはそれぞれ音声入力部ＣＬ１１０、特徴抽出部ＣＬ１２０、出力部ＣＬ１３０から構成され、一方、サーバＳＶ２００は音声認識部ＳＶ２１０、認識辞書ＳＶ２２０、対話管理部ＳＶ２３０、操作設定部ＳＶ２４０、操作設定履歴蓄積部ＳＶ２５０、頻度解析部ＳＶ２６０、辞書更新部ＳＶ２７０から構成される。

次に、上記各部の基本的な機能および具体的な実現手段について、図１２のハードウエア構成図を用いて説明する。
音声入力部ＣＬ１１０は使用者の発話音声を入力するものであり、例えばマイクロフォン３０１とＡＤ変換部３０４とを組み合わせることで実現される。音声入力部ＣＬ１１０でディジタル化された入力信号は、特徴抽出部ＣＬ１２０に入力され、入力の音声信号から音声認識に必要な特徴量が抽出される。この処理は図１２においてクライアント側の演算装置３０５および記憶装置３０６を組み合わせることで実現できる。

音声認識部ＳＶ２１０は、音入力部ＣＬ１１０および特徴抽出部ＣＬ１２０から得られた音声の特徴量と、認識辞書ＳＶ２２０に登録された語彙との類似度を比較することにより、入力音声に対応する単語列を選択する機能を持つもので、図１２における演算装置３０９および記憶装置３１０を組み合わせることで実現される。

対話管理部ＳＶ２３０は、音声認識部ＳＶ２１０における音声認識結果を受けて現在の理解状態、すなわち目的地を設定するために必要な情報がどれだけ得られているかを評価するものであり、図１２における演算装置３０９および記憶装置３１０を組み合わせることで実現される。ここで十分な情報が得られたと判断される場合、すなわち、それまでの音声認識の結果から得られた語彙群から目的地が一意に決定できる場合には後述する操作設定部ＳＶ２４０へ目的地設定操作の実行を許可し、十分な情報が得られなかったと判断される場合、すなわち認識結果の語彙群からは一意に目的地が決まらない場合、あるいは雑音やユーザ発音が不明瞭で十分な一致度（認識スコア）をもった語彙が取得できない場合、またはユーザからの訂正、否定が入力された場合等は、対応する質問応答をこの対話管理部ＳＶ２３０で生成し、これを後述するクライアント側の出力部ＣＬ１３０へ送信することで、ユーザに対し追加の発話を促す。

操作設定部ＳＶ２４０は、前記対話管理部ＳＶ２３０において目的地が一意に決まったと判断された場合に、該目的地設定操作を実行すると同時に、該目的地設定情報を時刻情報と共に後述する操作設定履歴蓄積部ＳＶ２５０に対し送信する。この操作設定履歴蓄積部ＳＶ２５０に送信され記憶された目的地設定情報の利用頻度解析は頻度解析部ＳＶ２６０で行われ、この頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、この発話可能性の高い語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書ＳＶ２２０を、辞書変更部ＳＶ２７０を介して更新するもので、図１２における演算装置３０９および記憶装置３１０を組み合わせることで実現される。具体的な目的地設定操作としては、図示しない経路演算部に対し、目的地名称あるいは該名称に対応するインデックスを送信する処理などが相当する。この結果を受け、この経路演算部では現在地からのルート演算を行う。

これにより、目的地設定機能を有する音声認識装置において、複数のユーザの目的設定値の傾向を反映した認識辞書ＳＶ２２０の更新を行うことができる。

操作設定履歴蓄積部ＳＶ２５０は、前記操作設定部ＳＶ２４０から受信した少なくとも１人以上のユーザ、すなわち一つ以上のクライアントからの複数の操作設定情報すなわち目的地情報を、現在の時刻情報であるタイムスタンプと共に記憶、蓄積していくものであり、図１２における記憶装置３１０を用いて実現される。なお、この操作設定履歴蓄積部ＳＶ２５０は音声操作による設定操作、あるいは音声以外の操作手段の少なくとも何れかを用いて設定履歴を記憶することができる。すなわち音声による操作、音声以外の操作何れかの操作手段による設定履歴を記憶することが出来るため、例えば、音声による操作機能と、スイッチあるいはタッチパネルによる操作機能の双方で同様の機器操作が可能な操作系を有するシステムにおいて、双方の操作から設定履歴を収集し、頻度解析に用いることができる。

頻度解析部ＳＶ２６０は、操作設定履歴蓄積部ＳＶ２５０に記憶された目的地情報に関する操作設定情報の頻度分布の解析を行い、各目的地に関する操作設定の時間的局所性を判断するものである。頻度解析部ＳＶ２６０は操作設定履歴の時系列頻度を解析し、所定期間内にて操作設定頻度が高い操作設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、辞書更新部ＳＶ２７０は、操作設定頻度が高い所定期間について、この優先語彙が優先して認識されるように認識辞書ＳＶ２２０を更新するものであり、図１２における演算装置３０９および記憶装置３１０を組み合わせることで実現される。この頻度解析方法の具体例については後述する。

このため、多くのユーザの聞き操作設定頻度を解析することで、適切に、認識辞書に含まれる語彙の発話可能性を判断することが出来、この発話可能性の高い語彙が認識され易いように認識辞書ＳＶ２２０の更新を行うことが出来る。

辞書更新部ＳＶ２７０は、頻度解析部ＳＶ２６０の頻度解析結果を受け、所定の期間について時間的局所性の認められた特定語彙の時系列の発話可能性を推定し、この発話可能性の高い語彙をこの所定の期間における優先語彙とみなし、この語彙を優先して認識するように認識辞書ＳＶ２２０を更新するものであり、図１２におけるサーバ側の演算装置３０９および記憶装置３１０を組み合わせることで実現される。最後に、出力部ＣＬ１３０は、前記対話管理部ＳＶ２３０からの質問応答、もしくは操作設定部ＳＶ２４０の指示により図示しない経路演算部で計算されたルート情報を受信し、これをユーザに提供する。すなわち、画面表示情報は表示装置３０３により、音声情報はＤＡ変換部３１１を介してスピーカ３０２から出力される。

これにより、ユーザの操作利用実態に基づいた発話可能性の適切な予測ができ、その予測結果に基づいた認識辞書ＳＶ２２０を提供できるため、ユーザにとって発話可能性の高い語彙を優先して認識することができ、利便性を大幅に向上することが可能になる。

尚、本実施の形態２では、クライアント側の特徴抽出部ＣＬ１２０にて抽出した特徴量をサーバの音声認識部ＳＶ２１０に送信する処理、およびサーバの対話管理部ＳＶ２３０からの質問応答または図示しない前記経路演算部からの経路演算結果をクライアントに送信する処理が発生する。この情報送受信の処理を行うために、クライアント側、サーバ側双方に通信装置３０７および３０８が具備されている。

また、本実施の形態２では特徴量をクライアント側で抽出し、サーバ側で認識する例を示しているが、この他の構成例としては、例えばクライアント側は音声入力部ＣＬ１１０および出力部ＣＬ１３０のみを有し、音声信号をサーバへ送信し、サーバ側で特徴抽出以降を行う構成としてもよいし、クライアント側で音声認識処理、操作設定処理、経路演算処理、そして辞書更新処理までを全て行い、操作設定情報のみをサーバの操作設定履歴蓄積部ＳＶ２５０へ送信し、サーバ側はこの履歴情報を蓄積したデータを用いた頻度解析を行い、優先語彙情報をクライアントに送信する構成としてもよい。前者であればクライアント側での処理能力を小さくできるため、例えば携帯電話などに適する。この場合、認識辞書ＳＶ２２０をサーバ側で保持するため、更新処理および更新後の辞書展開がサーバ側で完結することが出来る。また後者であれば高性能な処理機能を持つ車載用音声認識機能付きナビゲーション装置などに適する。この場合は認識辞書ＳＶ２２０をクライアント側が持つため、サーバからは優先語彙のフラグデータを送信し、受信したクライアントがこのフラグ情報に基づいて辞書の更新を行う機構とすることが好ましい。

以降では、上記構成における頻度解析部ＳＶ２６０における処理および辞書更新部ＳＶ２７０における処理について具体的に説明する。
操作設定履歴蓄積部ＳＶ２５０には、対話によって決定された目的地設定情報が記憶されている。例えば、図１３に示すような一連の対話が行われた場合、「横須賀ゴルフ場」というＰＯＩ（ＰｏｉｎｔｏｆＩｎｔｅｒｅｓｔ）が目的地と設定され、この施設名称がＰＯＩの種別名称、タイムスタンプ等と共に蓄積される。このようにして蓄積されたデータ例を図１４に示す。

頻度解析部ＳＶ２６０は、蓄積された履歴データに対し、頻度解析を実行する。例えば最初は過去数年分のデータを一括で解析し、以降は例えば1週間毎に差分を解析し、追加すればよい。また、時間の経過と共に目的地へのトレンドが変化することを考慮し、常に過去２年分等として、古い情報を排除したデータで解析し直すようにしても良い。実際の解析は、異なる時系列単位の頻度解析として行う。例えば、３ヶ月（四半期）単位、月単位、週単位、曜日単位、日単位、時間単位などの時系列単位に対し、ＰＯＩ種別毎、ＰＯＩ名称毎の頻度カウントを行う。

図１５には頻度解析の結果例を示した。実際にはこうしたＰＯＩ毎の頻度解析結果がデータベースとして頻度解析部ＳＶ２６０に記憶されることとなる。図１５（ａ）は月単位でＰＯＩ種別（ジャンル）「特定公園」を頻度解析した結果例である。４月および１０月前後に頻度が上昇している。図１５（ｂ）は月毎の日単位でＰＯＩ名称「○○メッセ」を解析した結果例である。特定月の特定期間について、顕著に設定頻度が上昇している。図１５（ｃ）はＰＯＩ種別「ゴルフ場」を２４時間単位で1年分解析した結果例である。早朝６時前後にかけて頻度が上昇している。こうした頻度解析を各単位時間、各ＰＯＩ種別、各ＰＯＩ名称に対し行うことで、ある特定の期間について目的地設定頻度の高低を抽出することが可能である。

続いて，この頻度解析結果が閾値を越えるＰＯＩ種別、ＰＯＩ名称を抽出する。例えば図１５（ａ）〜（ｃ）のように、時系列単位毎に、頻度の閾値を用意する。図１５の例では、（ａ）の場合に１０００カウント、（ｂ）では２００カウント、（ｃ）では２０００カウントを設定している。実際には頻度を解析した結果に鑑みて閾値の範囲を適宜決定することが好ましい。

上記頻度解析および辞書更新の処理を図１６のフローチャートを用いて以下に説明する。先ず、サーバシステムを起動し、メモリ内の各変数をクリアし、辞書更新処理準備状態へと移行する（ステップＳ２０１）。次いで、頻度解析の有無を判定し、頻度解析を行うと判定された場合（ステップＳ２０２／ＹＥＳ）はステップＳ２０３へ、行わないと判定された場合（ステップＳ２０２／ＮＯ）はステップＳ２０８へ移行する。この頻度解析の有無を判定するのに、例えば、所定の期間間隔で更新を行う場合は、時刻情報を利用すればよい。あるいは、前回更新時からの操作設定履歴蓄積データ量で判断する場合は、前回更新時からのデータ差分を監視する判断機構を設ければよい。

前ステップで頻度解析を実行すると判断された場合は、操作設定履歴蓄積部ＳＶ２５０の履歴蓄積データを読み込み、データの先頭からそのＰＯＩのＩＤ(履歴ＰＯＩＩＤ)およびＰＯＩ種別ＩＤ（履歴ＰＯＩ種別ＩＤ）および対応するタイムスタンプを順次取得する（ステップＳ２０３）。続いて、ＰＯＩＩＤの頻度カウントを行う。具体的には、抽出されたＰＯＩＩＤのタイムスタンプを参照し、対応する解析変数の頻度カウント値（ＰＯＩＩＤ[タイムスタンプ]）を加算する（ステップＳ２０４）。この時[タイムスタンプ]は解析する単位時間に応じて必要部分を切り出す。例えば図１４の一番目のデータ例であれば、タイムスタンプは２００２年１２月３１日１８：１０
であるが、これを月単位で頻度解析する場合には、「１２月」の部分を抽出し、変数、ＸＹ神社[１２月]に対してカウントを加算する。同様に週単位の解析であれば、ＸＹ神社[第４週]に対してカウント、時間単位であれば、ＸＹ神社[１８時]に対してカウントを行う。

次に、操作設定履歴蓄積データ全てを精査したかどうかを確認し、全てを完了していれば（ステップＳ２０５／ＹＥＳ）ステップＳ２０６へ、完了していない場合（ステップＳ２０５／ＮＯ）には残りのデータについて、ステップＳ２０３に戻り以降の頻度解析処理を繰り返し続行する（ステップＳ２０５）。頻度解析結果のそれぞれに対して図１５のように閾値と比較し、閾値を越えるＰＯＩを、優先語彙としてこの閾値を越える期間と共に抽出する（ステップＳ２０６）。

上記ステップＳ２０６で抽出された優先語彙とその期間について、当該語彙に「優先語彙情報」として認識辞書に付加する（ステップＳ２０７）。例えば、「ＡＢメッセ」について、期間「１０月２７日から１１月６日」で高い頻度で現れるとし、施設ジャンル「ゴルフ場」に対しては「○月○日のａｍ６：００〜ａｍ９：００」で頻度が高いとした場合、この時間帯における優先語彙となるデータを付して認識辞書に辞書更新部ＳＶ２７０を介して埋め込み更新される。

この状態で音声操作発生を待ち受ける状態となるが、音声操作が発生しない限りは（ステップＳ２０８／ＮＯ）ステップＳ２０３に戻り、辞書更新のループを繰り返す。なお、頻度解析を行わない場合（ステップＳ２０２／ＮＯ）は、装置はステップＳ２０８の音声操作発生待ちの状態となる。ここで、ユーザが発話スイッチを押して発話動作に入ったら、この時点で、音声認識システムが起動され（ステップＳ２０９）、上記の更新された認識辞書がＨＤＤ等の主記憶装置からキャッシュメモリ等のメモリ装置にロードされる。このメモリへロードする段階で、更新され埋め込まれた優先語彙情報を見ながらメモリに辞書を構築する。

換言すれば、ステップＳ２１０では、音声認識システムの起動に伴い、認識辞書をメモリ上に展開する際に、ステップＳ２０７にて埋め込まれた優先語情報を考慮する。すなわち、辞書展開中に、現在時刻に合致する優先語彙情報が存在する場合に、当該語彙が優先して認識されるように変更しつつ辞書を展開する。この変更の方法としては、実施の形態１で述べたように、当該語彙を上位階層で発話できるようにする、あるいは認識スコアにボーナスを与える等の方法が考えられる。このような方法は、通信機能および音声認識機能を有するクライアント（例えばカーナビ）と頻度解析を行うサーバの構成で実現可能である。

以上説明した実施の形態２においては、優先語彙情報を認識辞書に埋め込み更新する方法をベースとしているが、この認識辞書への埋め込み更新の代わりに優先語彙データベースを作成する方法も可能である。この場合は、頻度解析結果を反映したデータベースが必要となり、また「辞書変更処理（ステップＳ２０７）」は「優先語彙データベース更新処理」となる。

また、本実施の形態２において、車両が走行している当日に、その周辺地域で他のクライアントが設定した頻度の高い目的地を、優先語彙として限定するだけでもよい。この実現方法としては、音声認識処理をサーバ側で全て行うクライアントサーバ型の音声認識装置が最も妥当な構成となる。すなわち、全てのユーザの目的地設定情報を音声操作が発生するたびに収集し、この最新頻度情報を利用して抽出された「優先語彙情報」を常に更新し続けるというものである。これは高性能な演算性能を有するサーバであれば容易に実現できる。認識動作が発生した時にはその最新優先語彙情報を反映した辞書を構築して音声認識処理を行う。例えば、ある日のある時間帯に「ゴルフ場の設定頻度が連続した」と判断されたら即座に当該ゴルフ場を優先語彙に設定して、以降のユーザには当該ゴルフ場が設定し易くすることが出来る。

上記の構成により、多くのユーザの操作設定頻度をフィードバックした優先語彙の決定および辞書の更新ができるため、ユーザの操作利用実態に基づいた発話可能性の適切な予測ができ、その予測結果に基づいた認識辞書を提供できるため、ユーザにとって発話可能性の高い語彙を優先して認識することができるようになり、利用実態を適切に反映した、使い勝手のよい認識システムを提供することができる。

（実施の形態３）
本実施の形態３は、実施の形態1で用いたカレンダーデータベースを参照した辞書更新方法と、実施の形態２で用いた、ユーザの操作設定履歴を利用した辞書更新方法を組み合わせ、双方のデータを加味してデータマイニングから精度の高い優先語彙の選定を行うものである。更に本実施の形態３では、ユーザ属性をも同時に蓄積、管理し、属性ごとの解析、辞書更新を提供する構成とする。また、更新方法についても、データマイニングの結果を利用したより高度な更新手法を提案する。システム構成としては、実施の形態２同様、クライアントサーバ型とする。

図１７にその基本的な構成を示す。本実施の形態３はその構成の大部分が実施の形態２と共通であるため、以下、異なる部分についてのみ述べる。
図１７において、操作設定履歴蓄積部ＳＶ３１０は、実施の形態２同様、操作設定部ＳＶ２４０から受信した操作設定情報すなわち目的地情報を、現在時刻のタイムスタンプと共に記憶、蓄積していく。

上記のように、設定履歴とカレンダーデータベース双方を利用して優先語彙を決定するため、優先語彙の決定精度が向上すると共に、頻度解析時点以降に開催される定期的行事について、その最新の日程を反映した認識辞書の更新を行うことができる。

更に本実施の形態３では、ユーザの属性情報を同時に記録するものとする。ユーザ属性とは、例えば居住地域、車両区分(車両サイズまたは乗車人数、商用車、乗用車の別)、家族構成(ライフステージ)等のことであり、例えば車両用のナビゲーション装置であれば、装着時に初期設定で上記ユーザ属性を設定することが好ましい。図１８には蓄積されたデータ例を示す。実施の形態２の操作設定履歴蓄積データ（図１４）と比較して、ユーザ属性に関するデータが追加されている。図１８においてユーザ属性欄のＡ１、Ａ２、Ｂ１等は上記ユーザ属性の項目に対応するものである。

カレンダーデータベースＳＶ３２０は、実施の形態１同様、各種行事の発生地(開催ＰＯＩ名称)と発生時期とを組み合わせて記憶する。データマイニング部ＳＶ３３０は、実施の形態２の頻度解析部をより高度化したものである。すなわち、実施の形態２では単純に履歴に含まれるＰＯＩ毎の設定頻度をカウントして閾値と比較するものとしたが、本実施の形態３では、履歴が蓄積されている期間のカレンダーデータベースを同時に参照し、行事の開催期間とその設定頻度数を関連付けて解析する。この解析には、外部知識データを利用する場合と、ユーザ属性を利用する場合との２通りがある。

外部知識データを利用する場合としては、例えば図４のカレンダーデータベースと図１８の操作設定履歴蓄積部ＳＶ３１０の操作蓄積データとを参照すると、１１月３日〜１１月９日のイベント「○○モーターショー」に関する「ＡＢ」メッセへの目的地設定頻度を抽出することができる。例えば、この解析の結果、期間中の少なくとも1日について閾値を上回っている場合には、「○○モーターショー」の期間中について、「ＡＢ」メッセを優先語彙に設定する等の方策をとることができる。また、上記の操作蓄積データは過去のデータであるため、行事の開催日程が年によって前後に移動する可能性があるが、過去のカレンダーデータと操作蓄積データとを関連付けて解析することで、「○○モーターショー」期間中について、「ＡＢメッセ」を優先語彙とすることを決定できれば、その後、今年のカレンダーデータベースを参照し、最新の日程について該優先語彙を設定することができる。

また、データマイニング部ＳＶ３３０では、カレンダーに明確に明記されていないようなトレンドや、カレンダーデータ以外の知識データベースを利用したトレンド理解なども行う。例えば、
春や秋等、季節に起因する大きなトレンドの抽出
ＰＯＩの利用時間帯に起因するトレンドの抽出
等が考えられる。前者は例えば花見や紅葉狩りといった時期に関連する特定のＰＯＩ設定トレンドのことであり、後者であれば例えばゴルフ場をＰＯＩとする場合は早朝出発が大勢を占めるといったトレンドである。前者については、各施設の説明情報を知識データとして組み合わせて解析することで、該施設群が「花見場所」として利用頻度が高いことを理解できる。後者については、ゴルフ場の利用時間帯(プレイ開始時間の制限)などの知識データを利用することで、出発時間帯が偏る理由を理解することができる。各種知識データを組み合わせてデータ解析を行うことで、より詳細なトレンドが抽出できる。

上記のユーザ属性についても考慮することで、よりユーザに適合した優先語彙の選択が可能となる。すなわち、図１８のユーザ属性（Ａ１，Ａ２・・・Ｂ１，Ｂ２・・・）毎に頻度解析等を行い、抽出されたトレンドは、当該ユーザ属性に含まれるユーザにのみ適用する。つまり更新辞書をユーザ属性毎に用意する、あるいはユーザ属性毎に生成した優先語彙フラグデータを、ユーザ属性が一致するユーザに対して送信し、辞書更新処理を実行する。すなわち、操作設定履歴蓄積部ＳＶ３１０は、ユーザの目的地設定情報と、このユーザの居住地域、あるいは年齢層、あるいは家族構成、車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、頻度解析部であるデータマイニング部ＳＶ３３０は、操作設定履歴の時系列頻度をユーザ属性毎に解析し、辞書更新部ＳＶ３４０は、この頻度解析結果から特定語彙の時系列の発話可能性を推定し、この発話可能性の高い語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書ＳＶ２２０を更新する構成としている。これにより、ユーザの地域性、ライフステージ、車両の種類（乗車人数、商用車／乗用車の別）といったユーザ属性毎に操作設定頻度を分析し、優先語彙と決定することが出来、ユーザ属性毎の操作設定傾向を反映した認識辞書ＳＶ２２０を提供することが出来る。

辞書更新部ＳＶ３４０は、基本的には実施の形態２と同様に、優先語彙と判定された語彙について優先的に認識するように辞書を更新するが、前記データマイニング部ＳＶ３３０の解析結果を受け、より高度な認識辞書の変更を行うことも可能である。この例を図１９に示す。花見等の季節依存性の強い施設については、通常図１９に示すようにそれぞれ静的なカテゴリ分類である、公園、寺社・仏閣、城址、湖沼、河川敷などのカテゴリに配置されている。これに対し、データマイニング部ＳＶ３３０が花見場所として利用頻度の高いＰＯＩを複数抽出した場合に、図１９の矢印（ａ）のように、新たなカテゴリ「桜の名所」（第２階層）を頻度の高い所定期間について限定的に生成し、対応するＰＯＩ(図中太枠のＰＯＩ)をこのカテゴリに配置することで、期間限定的に辞書を変更することが可能である。すなわち、辞書更新部ＳＶ３４０は、認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録する構成としているため優先語彙を発話入力する際に必要な対話数（システムとユーザとの対話ターン数）を削減することが可能となる。

図２０は、本実施の形態３における処理のフロー図を示す。本フロー図においてはデータマイニング部ＳＶ３３０の処理関連として「カレンダーデータベース参照」Ｓ３０３の処理が挿入されている以外は実施の形態２の処理フローである図１６と同じである。実施の形態２では単純に操作設定履歴に含まれるＰＯＩ毎の設定頻度をカウントして閾値と比較するものとしたが、本実施の形態３では設定履歴が蓄積されている期間のカレンダーデータベースを同時に参照し、行事に開催期間とその設定頻度数を関連付けて解析する。これにより、設定頻度の多いイベントを抽出し、そのイベントの最新の実施期間を反映して、当該イベントの実施施設を優先して設定し易くすることができる。

すなわち、本実施の形態３においては、前記音声認識装置において、少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部ＳＶ３１０と、年間行事を記録したカレンダーデータベースＳＶ３２０と、操作設定履歴蓄積部ＳＶ３１０に記憶された時系列の操作設定頻度情報と同じ時系列のカレンダー情報とを対応付けて頻度解析を行うデータマイニング部と、この頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部とを有する音声認識装置としている。

これにより、実施の形態１および実施の形態２の効果に加え、互いの予測結果を統合した結果を用いた高精度な優先語彙の決定が可能になる。

以上の構成により、本実施の形態３は、実施の形態１および実施の形態２双方の特徴を組み合わせることにより、上記カレンダーデータベースと前記頻度解析部双方を併せ持ち、この情報を組み合わせて発話可能性の高い語彙を予測することができるため、請求項１および請求項２の効果に加え、互いの予測結果を統合した結果を用いた高精度な優先語彙の決定が可能になり、ユーザに対して使い勝手の良い音声認識システムを提供することができる。

実施の形態１の構成を示すブロック図。実施の形態１の装置構成図。階層構造を持つ認識辞書の構成図。カレンダーデータベースの例を示す構成図。実施の形態１における処理の流れを示すフロー図。更新前の認識辞書構成図。更新前の認識辞書構成図。キーワードスポッティング方式における認識辞書構成図。更新後の認識辞書構成図。（ａ）認識辞書更新前の対話状態を示す対話順序図、（ｂ）認識辞書更新前の対話状態を示す対話順序図。実施の形態２の構成を示すブロック図。実施の形態２の基本的構成を示した装置構成図。キーワードスポッティング方式による対話順序図。操作設定履歴蓄積部における情報記憶例を示すデータ構成図。頻度解析結果例で（ａ）はＰＯＩジャンル「特定公園」の月単位分布図、（ｂ）はＰＯＩ名称「○○メッセ」の日単位の分布図、（ｃ）ＰＯＩジャンル「ゴルフ場」の時間単位の分布図。実施の形態２における処理の流れを示したフロー図。実施の形態３の基本的構成を示したブロック図。実施の形態３における操作設定履歴蓄積部の情報記憶例を示したデータ構成図。実施の形態３における認識辞書更新後のデータ構成図。実施の形態３における処理の流れを示したフロー図。

符号の説明

１１０，ＣＬ１１０：音声入力部１２０，ＣＬ１２０：特徴抽出部
１３０，ＳＶ２１０：音声認識部１４０，ＳＶ２２０：認識辞書
１５０，ＳＶ２３０：対話管理部１６０，ＳＶ２４０：操作設定部
１７０，ＣＬ１３０：出力部
１８０，ＳＶ３２０：カレンダーデータベース
１９０，ＳＶ２７０，ＳＶ３４０：辞書更新部
２０１，３０１：マイクロフォン
２０２，３０２：スピーカ２０３，３０３：表示装置
２０４，３０４：ＡＤ変換部２０５，３０５，３０９：演算装置
２０６，３０６，３１０：記憶装置３０７，３０８：通信装置
ＣＬ１００ａ〜ｎ：クライアント
ＳＶ２５０，ＳＶ３１０：操作設定履歴蓄積部
ＳＶ２６０：頻度解析部ＳＶ３３０：データマイニング部

Claims

ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
年間の行事に関する情報を記録したカレンダーデータベースおよび辞書更新部を併せ持ち、
前記辞書更新部は、前記カレンダーデータベースに記憶された行事に関連する前記認識辞書の特定の語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
ことを特徴とする音声認識装置。
ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
該操作設定履歴蓄積部に記憶された操作設定情報の頻度を解析する頻度解析部と、
該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
を有することを特徴とする音声認識装置。
ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
年間の行事に関する情報を記録したカレンダーデータベースと、
少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
該操作設定履歴蓄積部に記憶された時系列の操作設定頻度情報と同じ時系列の前記カレンダーベース情報とを対応付けて解析する頻度解析部と、
該頻度解析部による頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
を有することを特徴とする音声認識装置。
請求項２または請求項３に記載の音声認識装置において、
前記操作設定履歴蓄積部は、音声操作による設定、あるいは音声以外の操作手段の少なくとも何れかについて、該設定履歴を記憶することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
年間の行事を、その開催期間と開催施設名称あるいは開催施設種別と共に記憶するカレンダーデータベースと、
前記カレンダーデータベースに記憶された行事の開催施設名称あるいは開催施設種別に対応する前記認識辞書の目的地名称を優先語彙と決定し、該語彙を優先して認識するよう前記認識辞書を更新する辞書更新部とを有する
ことを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
少なくとも一人以上のユーザの複数の目的地設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
該操作設定履歴蓄積部に記憶された目的地設定情報の頻度を解析する頻度解析部と、
該頻度解析部における頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該推定した発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
を有することを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、
少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
年間の行事を、該行事の開催期間と開催施設名称あるいは開催施設種別と共に記憶するカレンダーデータベースと、
前記操作設定履歴蓄積部に記憶された時系列の目的地設定頻度情報と同じ時系列のカレンダー情報とを対応付けて解析する頻度解析部と、
該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
を有することを特徴とする音声認識装置。
請求項２乃至請求項４、請求項６あるいは請求項７の何れかに記載の音声認識装置において、
前記頻度解析部は前記操作設定履歴の時系列頻度を解析し、所定期間内にて該設定頻度が高い設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、
辞書更新部は、該設定頻度が高い所定期間について、該優先語彙が優先して認識されるように認識辞書を更新することを特徴とする音声認識装置。
請求項１乃至請求項７の何れかに記載の音声認識装置において、
前記辞書更新部は、認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録することを特徴とする音声認識装置。
請求項１乃至請求項７の何れかに記載の音声認識装置において、
前記辞書更新部は、認識対象となる語彙を、該語彙の出現確率と共に保持する機能を有し、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算することを特徴とする請求項１から７記載の音声認識装置。
請求項１乃至請求項７の何れかに記載の音声認識装置において、
辞書更新部は、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録することを特徴とする音声認識装置。
請求項２乃至４、請求項６あるいは請求項７の何れかに記載の音声認識装置において、
前記操作設定履歴蓄積部は、
ユーザの目的地設定情報と、該ユーザの居住地域、あるいは年齢層、あるいは家族構成、あるいは車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、
前記頻度の解析部は、前記操作設定履歴の時系列頻度を前記ユーザ属性毎に頻度解析した結果と、前記カレンダーデータベースに記憶されたイベントデータの結果とを組み合わせて、データマイニングを行い、特定語彙の時系列の発生トレンドを抽出し、
前記辞書更新部は、前記頻度解析結果から特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
ことを特徴とする音声認識装置。
ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
年間行事に関する情報を記録したカレンダーデータベースおよび辞書更新部を併せ持ち、
予め記憶された行事に関連する特定の語彙を優先語彙と決定し、
該優先語彙を優先して認識するよう認識辞書を更新する
ことを特徴とする音声認識方法。
ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
少なくとも一人以上のユーザの、複数の操作設定情報を時刻情報と共に記憶し、
該記憶された操作設定情報の操作設定頻度を頻度解析し、
該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する、
ことを特徴とする音声認識方法。
ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
年間の行事に関する情報を（カレンダーデータベースに）予め記録しておき、
少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶し、
記憶された時系列の操作設定頻度情報と同じ時系列の前記年間行事情報とを対応付けて頻度解析を行い、
該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを有することを特徴とする音声認識方法。
請求項１４または請求項１５に記載の音声認識方法において、
音声操作による設定操作、あるいは音声以外の操作手段の何れかについて、該設定履歴を記憶することを特徴とする音声認識方法。
請求項１３に記載の音声認識方法において、
年間の行事を、その開催期間と開催施設名称あるいは開催施設種別と共に記憶し、
前記記憶された行事の開催施設名称あるいは開催施設種別に対応する目的地名称を優先語彙と決定し、該語彙を優先して認識するよう前記認識辞書を更新する
ことを特徴とする音声認識方法。
請求項１４に記載の音声認識方法において、
少なくとも一人以上のユーザの、複数の目的地設定情報を時刻情報と共に記憶し、
該記憶された目的地設定情報の頻度を解析し、
該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを特徴とする音声認識方法。
請求項１５に記載の音声認識方法において、
少なくとも一人以上のユーザの、複数の操作設定情報を時刻情報と共に記憶し、
年間の行事を、開催期間と開催施設名称あるいは開催施設種別と共に記憶し、
前記記憶された時系列の目的地設定頻度情報と同じ時系列の年間行事情報とを対応付けて解析し、
該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを特徴とする音声認識方法。
請求項１４乃至請求項１６、請求項１８あるいは請求項１９の何れかに記載の音声認識方法において、
前記操作設定履歴の時系列頻度を解析し、所定期間内にて該設定頻度が高い設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、
該設定頻度が高い所定の期間について、該優先語彙が優先して認識されるように前記認識辞書を更新することを特徴とする音声認識方法。
請求項１３乃至請求項１９の何れかに記載の音声認識方法において、
認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録することを特徴とする音声認識方法。
請求項１３乃至請求項１９の何れかに記載の音声認識方法において、
認識対象となる語彙を、該語彙の出現確率と共に保持する機能を有し、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算することを特徴とする音声認識方法。
請求項１３乃至請求項１９の何れかに記載の音声認識方法において、
前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録することを特徴とする音声認識方法。
請求項１４乃至１６、請求項１８あるいは請求項１９の何れかに記載の音声認識方法において、
ユーザの目的地設定情報と、該ユーザの居住地域、あるいは年齢層、あるいは家族構成、あるいは車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、
前記操作設定履歴の時系列頻度を前記ユーザ属性毎に頻度解析し、
該頻度解析結果から特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
ことを特徴とする音声認識方法。