JP2007187975A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2007187975A
JP2007187975A JP2006007253A JP2006007253A JP2007187975A JP 2007187975 A JP2007187975 A JP 2007187975A JP 2006007253 A JP2006007253 A JP 2006007253A JP 2006007253 A JP2006007253 A JP 2006007253A JP 2007187975 A JP2007187975 A JP 2007187975A
Authority
JP
Japan
Prior art keywords
vocabulary
speech recognition
dictionary
priority
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006007253A
Other languages
English (en)
Inventor
Daisuke Saito
大介 斎藤
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Keiko Katsuragawa
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006007253A priority Critical patent/JP2007187975A/ja
Publication of JP2007187975A publication Critical patent/JP2007187975A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識手段としては、幾つかの認識手段が提案されているが、これら何れにおいてもユーザの要求を満たす認識語彙を備え、且つ効率よく目的とする語彙を検索することが出来る認識辞書の実現に難点があった。本発明においては、少ない発話回数でユーザの必要とするタスクを実行出来る音声認識装置およびその方法の提供を目的とした。
【解決手段】本発明においては、認識辞書に年間行事を含むカレンダーデータベースを記録しておき、このデータベースに記憶された行事に関連する語彙を優先語彙と決定し、この語彙を優先的に認識処理を行うように、例えば階層構造に割り当てる語彙の順序を変える等、認識辞書での語彙配列の内容を更新する構成としている。
【選択図】図1

Description

本発明は、カーナビゲーション等に適用する対話型音声認識装置および方法に関するものであって、特に、目的地設定等タスクの実行を容易にする音声認識装置および方法に係る。
近年、音声認識により装置側とユーザ側との間で音声対話を行う音声認識装置が数多く提供されている。音声対話の基本フローでは、ユーザがある目的を達成するために音声認識装置に向かって音声を入力し、音声認識装置はこの入力された音声を認識した結果、対応する応答をユーザに音声あるいは表示手段を介して提示する。一度のユーザ発話でタスク達成のための十分な情報が得られた場合には、その情報に基づき機器操作等の処理を実行する。一方、十分な情報が得られない場合には十分な情報が得られるまで質問応答、ユーザ発話を繰り返す対話によりタスク達成を目論む。例えばこのような音声認識装置を適用したものとして、目的地の入力を主タスクとしたカーナビゲーションシステムがある。
カーナビゲーションシステム(以下、ナビゲーションと略記する)での認識辞書に使用される言語モデルは一般にネットワーク型言語モデルと呼ばれるものが使用される。このネットワーク型言語モデルに用いられる認識語彙は、目的地を含む地域名あるいは目的施設のジャンル等から最終の目的地に至る階層構造で表現されている。ユーザはこの階層構造に従い、上位(地域名等)から順次認識を確定させることにより、最終的な目的地入力を可能としている。尚、上位階層の語彙と下位階層の語彙を繋げて発話することが可能なものもある。
このような階層構造を持つ辞書では、階層毎に語彙数を制限できるため認識性能が高くできる。ただし語順の自由度が低いため、より自由な語順の発話を許容する手法も提案されている。これは一般的にキーワードスポッティングと呼ばれる単語抽出技術と認識スコアと呼ばれる認識した語彙の確からしさ(競合単語との間違え易さ)とを示した指標を用いる技術である。尚、認識スコアとしては、例えば単語事後確率やN−bestリストから競合単語との近さを評価した「信頼度(Confidence Measure)」という指標で表現されることもある。キーワードスポッティングに関しては下記「特許文献1」に開示されている方法が、また、信頼度の計算方法に関しては例えば「非特許文献1」のような方法がある。
キーワードスポッティングで使用される言語辞書においては、キーワードは例えば県名、駅名、公園等複数のジャンル毎にグルーピングして記憶されており、入力信号に対してこれらキーワードが並列的に待受けられる。入力言語に対する言語モデルは、「キーワードモデル+ガベージモデル」とで構成されている。ガベージモデルは「の」「と」「えー」といったキーワード以外の間投詞を吸収するためのモデルであり、これにより発話文から認識すべきキーワードを抽出することを可能としている。
認識処理では発話語彙とこれらキーワードとを照合することにより無数のキーワードが認識候補として抽出されるが、認識処理の後段には対話・理解処理があるため、システムはこれら候補語彙群から、整合性のある候補へ絞込まれた結果を理解結果として受け取ることが出来る。例えば県名と施設名の整合性を考慮すれば、対象となる施設名称のキーワードは大幅に絞り込むことが可能となる。また、キーワードとして施設名称だけが複数認識され、「県名」など、前記施設名称を絞り込む語彙群が得られなかった場合には、対話・理解処理において適切な聞き返し(例えば県名を聞き返す)を行うことにより、絞込み処理を行い、タスクを達成する。
具体的な対話例としては、「神奈川県の横須賀ゴルフ場に行く」という発話から「神奈川(認識スコア“高”)「県(認識スコア“高”)「横須賀(認識スコア“低”)」「ゴルフ(場認識スコア“高”)」のようなキーワードが認識候補語彙として、認識スコア(“高”、“低”)が付与された形で算出されたとする。ここで、「横須賀」についての認識スコアが低い、もしくは該スコアと近いスコアの競合単語が大量に出現する場合には、対話・理解処理にて質問応答「神奈川県の何ゴルフ場ですか?」(ゴルフ場の名前に関する質問)を生成し、ユーザに提示し、再度情報の取得を試みる。これに対するユーザの返答「横須賀ゴルフ場」の認識結果として「横須賀」および「ゴルフ場」いずれも認識スコア“高”が得られた場合に、装置側から「神奈川県の横須賀ゴルフ場ですね。目的地に設定します」と応答音声を発話してタスクを達成することができる。
特許3011421 Akinobu Lee, Kiyohiso Shikano, and Tatsuya Kawahara, "Real time word confidence scoring using local posterior probabilities on tree trellis search,"InProc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004), Vol. I, pp.793--796, May 2004
前記の階層構造辞書を用いた認識方法では、ユーザが最終的な操作を終了するまでの発話回数が多くなり易いと言う問題がある。この発話回数を減らすためには一つの階層に含まれる語彙数を増やさなければならないが、これに伴う認識性能の低下が考えられる。一部の有名施設についてのみ上位階層での認識を可能とするものや、ユーザの利用履歴やユーザ自身の設定に基づき、特定の語彙を上位階層で認識可能とする「ショートカット」を設ける方法も提案されているが、こうした方法では、必ずしもユーザが発話する可能性の高い語彙を反映した辞書を用意することができない、あるいはユーザ自身に登録作業を要求しなければならないため、ユーザにとって負担が大きいという問題があった。
一方、後者のキーワードスポッティングおよび認識スコア計算法を用いた認識方法では、発話に自由度を与えるためにより多くの語彙を一時に待受ける構成となるが、待受けの語彙数が増えるほど他の単語にマッチングしてしまう「湧き出し誤り」が発生し易くなるため、これを抑制するために、発話可能性の高い語彙に絞り込むことが望まれるが、効果的な絞込みの方法は現在のところ提案されていない。
本発明は上述したような問題に鑑みて成されたものであり、ユーザ側と装置側とで出来るだけ少ないステップ数でタスクを完了することが出来る音声認識装置およびその方法を提供することを目的とした。
前記目的を達成するために、本発明における音声信号認識処理を行う部分は、ユーザの発話音声を入力し、離散化してディジタル信号に変換する音声入力部と、この変換された音声信号の特徴を抽出する特徴抽出部と、この抽出された特徴を認識辞書に登録されている語彙と比較して音声信号の認識を行う音声認識部とを有する構成としている。
本発明の第1の特徴とするところは、この認識辞書の内容として年間行事を記録したカレンダーデータベースを使用するところにある。すなわち、カレンダーデータベースに記憶された行事に関連する認識辞書の特定の語彙を優先語彙と決定し、この語彙を優先的に認識するように認識辞書の内容を辞書更新部を介して更新する構成としたことにある。
また、第2の特徴とするところは、ユーザの過去の操作履歴を時刻情報と共に記録しておき、この操作設定情報の頻度解析を行うことにより優先語彙を決定しているところにある。
本発明においては、ユーザの発話音声を入力する音声入力部と、該音声に対応する文字列を照合し、認識文字列として抽出するための認識辞書が接続されている音声認識部とを有する音声認識装置において、年間の行事に関するカレンダーデータベースおよび辞書更新部を併せ持つ構成とした。この辞書更新部は、前記カレンダーデータベースに記憶された行事に関連する認識辞書の特定の語彙を優先語彙として決定し、該語彙を優先して認識するよう認識辞書を更新する構成とした。これら構成としたことにより、年間行事に連動した認識辞書を提供するため、ユーザにとって発話可能性の高い語彙を優先して認識することができ、少ないステップでタスクを完了することが出来るようになり、ユーザの利便性を向上することができるようになった。
本発明においては、年間の行事を網羅、記憶したカレンダーデータベースの情報、および多くのユーザの発話実態の頻度解析結果を利用し、認識対象語彙の時系列の発話局所性、すなわち認識対象語彙がどの時期(期日、時間帯、季節帯)によく発話されるのかを精度よく抽出し、更にこの局所性を反映するように認識辞書を更新することを特徴とするものである。
これは音声操作の利用実態には、年間行事への強い関連性、および多くのユーザ間での共通のトレンドが存在する点に着目したものである。例えば前記のナビゲーション用音声認識装置の場合、ユーザの目的地設定には時期的な局所性(偏り)がある可能性が高い。実際に発明者らが複数のモニタユーザの目的地設定対話を解析した結果、以下のような傾向が抽出された例がある。
2005年3月第4週〜4月第2週:関東圏で桜の名所への目的地設定が集中
・連続休日中の早朝(5時〜8時):ゴルフ場への目的地設定が集中
・9月15日〜9月17日の午前(午前6時〜10時):あるコンベンションホールへの目的地設定が集中
1番目は季節により目的地とされる傾向が異なる施設(POI:Point Of Interest)種別の典型といえる。2番目は休日のレジャーの傾向と、該施設種別の利用時間(プレー開始時刻)との兼ね合いから時間的局所性が生まれるものと言える。3番目は特定の施設を個別に見ても、大型のイベント発生の有無に関連して目的地設定頻度が顕著に増減することを示している。
この事実は、こうした年間行事を知識として利用することで、目的地の発話傾向を予測することが可能であることを示している。また、これとは別に、実際のユーザの利用実態を解析、利用すれば、実態に即した発話傾向を抽出することができ、高頻度な発話語彙を正確に把握することが可能である。こうした方法で発話可能性の高い語彙を抽出し、音声操作時に該語彙を優先して認識するように辞書を構成することで、ユーザにとってより利便性の高い音声認識装置を提供することが期待できる。
尚、後者の利用実態の解析にあたっては、従来から提案されているクライアントサーバ型の音声認識装置を用いることが好ましい。すなわち、大量のユーザの音声操作設定履歴をサーバ側に蓄積し、これを頻度解析することで、認識語彙の時間的局所性が判断できる。クライアントサーバ型音声認識装置に関しては特開2001−142488号公報に記載されたものが知られている。
(実施の形態1)
本実施の形態1は、カレンダーデータベースの情報を反映した辞書の構成方法および装置構成を示した基本的な実施の形態である。
図1にその基本的な構成を示す。すなわち、音声入力部110、特徴抽出部120、音声認識部130、認識辞書140、対話管理部150、操作設定部160、出力部130、カレンダーデータベース180、辞書更新部190から構成される。
先ず、各部の基本的な機能および具体的な実現手段について、図2を参照しながら説明する。
音声入力部110は使用者の発話音声を入力し、離散音声信号に変換するものであり、例えば、図2におけるマイクロフォン201とAD変換部204を組み合わせることで実現される。特徴抽出部120は、この変換された離散音声信号から音声認識に必要な特徴量を抽出するものであり、演算装置205および記憶装置206を組み合わせることで実現できる。ここで特徴量としては例えばMFCC(メル周波数ケプストラム係数)等を用いることができる。尚、後段の音声認識部130における音声認識の性能を向上するため、特徴抽出部120の段階において、加法性雑音や乗法性雑音を抑圧する処理を行うことが好ましい。前者の方法としてはスペクトルサブトラクション(SS)、後者の方法としてはケプストラム平均正規化(CMN)等が知られている。
音声認識部130および認識辞書140は、前記音声入力部110から得られた音声の特徴量と、認識辞書140に登録された語彙との類似度を比較することにより、該音声に対応する単語列を選択する機能を持つもので、図2における演算装置205および記憶装置206を組み合わせることで実現される。音声認識処理はHMM(Hidden Markov Model:隠れマルコフモデル)を用いた尤度計算手法等が一般に用いられる。
認識辞書140は音声認識を行うための語彙に関する情報が予め登録されており、具体的には音響モデルおよび言語モデルから構成され、音響モデルとしては、トライフォンモデル等を、言語モデルとしては、ネットワーク型言語モデルもしくは統計的言語モデル等を用いることができる。本実施の形態1においてはナビゲーションシステムにおける目的地設定を主タスクとするため、目的地を認識語彙として登録し、これを階層的に繋げたネットワーク型言語モデルを用いることが好ましい。尚、以下に述べる認識辞書の更新処理とは、このネットワーク型言語モデルを適用することを指すこととする。
図3はネットワーク型言語モデルの構成例で、階層構造となっている。図3によりネットワーク型言語モデルの場合の目的地設定の手順を説明する。(以下で、SPはシステム応答発話、USはユーザ発話を示し、数字は発話順を示す)
SP1:「入力方法を選択してください」
と音声で問いかけると共に、ナビゲーション画面上に「住所」、「ジャンル」の選択肢を文字等で表示する。
US1:「ジャンルで指定」
とユーザは音声で答える。
SP2:「施設のジャンルをどうぞ」
とシステム応答発話音声で問いかけると共に、「レストラン」、「ゴルフ場」、「スーパ」等の選択肢を表示する。これに対しユーザは
US2:「ゴルフ場」
と音声で答える。
このようなやり取りを繰り返し、最終的に例えば「Bゴルフ場」を目的地に設定する。
対話管理部150は、音声認識結果を受けて現在の理解状態、すなわち目的地を設定するために必要な情報がどれだけ得られているかを評価するものであり、図2における演算装置205および記憶装置206を組み合わせることで実現される。ここで十分な情報が得られたと判断される場合、すなわちそれまでの音声認識の結果から得られた語彙群から目的地が一意に決定できる場合には後述する操作設定部160へ目的地設定操作の実行を許可し、十分な情報が得られなかったと判断される場合、すなわち認識結果の語彙群からは一意に目的地が決まらない場合、あるいは雑音やユーザ発音の影響で、十分な一致度(認識スコア)をもった語彙が取得できない場合、またはユーザからの訂正、否定が入力された場合等は、対応する質問応答文を生成し、これを後述する出力部170へ送信することで、ユーザに対し追加の発話を促す。
操作設定部160は、前記対話管理部150において目的地が一意に決まったと判断された場合に、該目的地設定操作を実行するものであり、演算装置205および記憶装置206を組み合わせることで実現される。具体的な目的地設定操作としては、図示しない経路演算部に対し、目的地名称あるいは該名称に対応するインデックスを送信する処理などが相当する。この結果を受け、この経路演算部では現在地からのルート演算を行う。
出力部170は、前記対話管理部150からの質問応答、{図1における経路(b)の質問応答}、もしくは操作設定部160の指示により図示しない経路演算部で計算されたルート情報{図1の経路(a)操作情報}を受信し、これをユーザに画面表示あるいは音声にて提示するもので、図2において、演算装置205からの上記出力情報の画面表示信号は表示装置203で提示され、音声信号はDA変換部207を経由してスピーカ202から出力される。
カレンダーデータベース180は、年間の行事をその期間と開催施設名称あるいは開催施設種別と共に記憶したものであり、記憶装置206で構成される。
辞書更新部190は、前記カレンダーデータベース180の情報を参照し、時間的局在性の高い語彙で、行事が開催される所定の期間について、その行事の開催施設種別名称、あるいは開催施設名称に対応する認識辞書140の目的地名称を優先語彙と決定し、この語彙を優先して認識するように認識辞書140を更新するものであり、図2における演算装置205および記憶装置206を組み合わせることで実現される。すなわち、カレンダーデータベース180と辞書更新部190とは両者併せ持つ構成であり、辞書更新部190は、カレンダーデータベース180に記憶された行事に関連する認識辞書140に登録されている特定の語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書140を更新する構成としている。尚、本実施の形態1では、カレンダーデータベース180は定期的あるいは不定期的に更新されるのが好ましい。従って、図示しない外部記憶媒体入力装置や、外部通信装置を具備することが好ましい。
以下、本実施の形態1の具体的内容について説明する。図4にカレンダーデータベース180の記憶状態の例を示す。図4では、各月毎の行事の期間(開始、終了日)、行事名と、開催施設(施設名)、施設種別(施設ジャンル)が格納されている(開催施設である施設名と施設種別である施設ジャンルについてはインデックス番号あるいはID番号も付与している)。尚、地図データ上の施設名称等を含めた注目座標点はPOI(Point Of Interest)とも呼ばれる。カレンダーデータベースは、一般に公表されているイベントデータベースを利用することが出来る。例えば祝祭日データや国民行事、祭事データ等が相当する。また、前記地図データ上の各種施設が公表しているイベントカレンダー等を利用することも可能である。こうした行事は大小含めて無数にあるため、全てを網羅することは記憶容量的にも限界がある。そこで、例えば各イベント主催者が発表する来場者数データ、あるいはイベント名称のインターネット上関連サイト数等のデータを参考に、予め定めておいた基準数を上回る行事について、大規模イベントと定義し、これら行事についてカレンダーデータベース180の格納対象とするなどの方策をとることが望ましい。また、ユーザの地域属性に基づき、近距離のイベントに関してはマイナーなイベントも含め、遠距離のイベントについては大規模イベントに絞り込むなどの方策をとっても良い。
カレンダーデータベース180を利用した辞書更新の流れを図5のフロー図により説明する。先ず、音声認識システムの起動を行う(ステップS101)。ここで、システムに電源が供給され、アプリケーションの実行コマンドが発行される処理が開始される。電源投入により装置が実働状態になったところで現在の時刻情報を取得する(ステップS102)。例えばGPS付きのナビゲーション装置であれば、GPS信号から直接現在時刻を取得することが可能である。
ここで、カレンダーデータベース180の読み込みが行われる(ステップS103)。読み込んだカレンダーデータベース180の行事開催期間情報(開始日、終了日)を参照し、時刻情報(Today)に開催期間が該当している行事の施設名称ID、あるいは施設種別IDを取得する(ステップS104)。取得した施設名称ID、施設種別IDに対応する語彙を優先語彙と定義し、これら語彙を優先して認識するように、認識辞書140の更新を行う(ステップS106)。更新手法については後述する。更新した認識辞書140を、現在日時の認識辞書140としてメモリにロードし、音声認識待受け体勢に移行する(ステップS107)。
以下、図5記載の「辞書変更処理」(ステップS106)について辞書更新方法を例について述べる。
図6に示す階層構造を持つ辞書を保持している例について考える。ここで、カレンダーデータベース180を参照した結果、当日の行事開催地として「ABメッセ」(第4階層)が抽出されたとする。この時、図6中の語彙「ABメッセ」を優先語彙と決定し、この語彙およびその親階層(第3階層)である「展示場」に注目し、図7のように辞書を更新する。すなわち図7矢印(a)のように、親階層「展示場」以下のデータ構造を保持しつつ(第3階層/第4階層)、上の階層にコピーする(第2階層/第3階層)と同時に、図7矢印(b)に示すように、優先語彙「ABメッセ」を親階層と同じ階層(第2階層)まで上位にコピーを行う。
この更新により、例えば更新前であれば「ABメッセ」を入力するためには、「目的地設定」→「ジャンルから」→「展示場」→「ABメッセ」と発話しなければならないのに対し、更新後は、「目的地設定」→「展示場」→「ABメッセ」か、あるいは「目的地設定」→「ABメッセ」の発話でタスクを完了することが可能になる。ここで、本処理により階層を上位に移動した項目(例えば、展示場、ABメッセ等)に対してはさらにその上の階層(第1階層)に「目的地設定」の代わりに「おすすめ」を設けておくことも良い。これにより、「目的地設定」よりも最初の発話で検索する語彙を少なくすることが出来、システム動作上負担を軽くすることが出来る。
上記のように、「展示場」の階層を図7の矢印(a)に沿って上位の階層(第二階層)に上げることは、「ABメッセ」の他に「○○ビックサイト」「○○アリーナ」等複数の展示場名が優先語彙とされている場合、優先語彙の上位の階層である「展示場」を選択肢として示すことで、この時期にユーザが目的地として設定する可能性の高い優先語彙を複数選択可能とすることが出来ることを示しており、これにより設定の効率化を図ることが出来る。
また、上位の階層(第二階層)に直接「ABメッセ」上げることは、ある時期に目的地として設定される頻度が高い複数の施設の中でも「ABメッセ」が突出して高いような場合には、優先語彙となる「ABメッセ」そのものを第二階層に上げても、その時期はユーザが「ABメッセ」を選択する可能性が高いので、対話回数を減らすことが出来る。
さらに、上位の階層(第二階層)に直接「ABメッセ」等の優先語彙を上げる場合、他の優先語彙も同時に上げる。この図7の場合、例えば、第二階層の選択肢としてナビゲーション画面上に「住所」、「ジャンル」、「ABメッセ」、「優先語2」、「優先語彙3」のように選択肢を表示することになるので、見易さを考慮して上位の優先語彙は3〜5個程度が望ましい。
続いてキーワードスポッティング180を利用した認識辞書構造を持つ例における辞書更新方法について述べる。図8は更新前の辞書構造を示すもので、この辞書からキーワードスポッティングによって抽出された複数の単語(n−ベストと呼ばれる)の認識スコア(尤度や信頼度)を用いて語彙を決定する方法である。この辞書に対し、辞書更新部190が、語彙「ABメッセ」を優先語彙として決定した場合の辞書更新結果を図9に示す。この例では、キーワード辞書に含まれる語彙のうち、「ABメッセ」が含まれるジャンル「展示場」にグルーピングされた部分辞書(斜線部領域)全体に対し、認識スコア+10%のボーナスを与える。これとは別に、優先語彙「ABメッセ」自身に対して+5%のボーナスを与える。結果「ABメッセ」は認識スコア+15%のボーナスを受けることになる。
この辞書を用いた対話例を図10に示す。(a)は更新前の対話例、(b)は更新後の対話例である。図10(a)では、ユーザ発話US1「ABメッセに行く」に対し、十分なスコアが得られない(SY1/スコア低)ため、県名から絞り込むための対話「何県の施設ですか」の質問応答が返される(SP1)。この質問に対する返答の結果(US2−SY2−SP2)、「ABメッセ」が十分な認識スコアとなり(スコア高)、目的地へと決定される(US3−SY3−SP3)。
一方、更新後の辞書でも同様に十分な認識スコアが得られないが、対話例(b)のように、語彙「ABメッセ」が優先語彙であるため、ボーナスを取得した結果、認識スコアが十分な値となる。この結果、県名の絞込みのステップを実行することなく「AB」メッセを目的地に決定することができ、図10(a)の9ステップから図10(b)の7ステップに処理ステップ数を低減することが可能となっている。すなわち、辞書更新部190は、認識対象となる語彙を、該語彙の出現確率と共に保持する構造を持ち、優先語彙と判断された語彙、あるいはこの語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算する構成としたことにより、操作設定頻度が多く、優先語彙と判断された語彙について、認識結果として出力される可能性が向上する。
上述の一連の構成により、カレンダーデータベース180に基づき、ユーザが発話する可能性の高い語彙を少ない対話回数で認識させるよう認識辞書140を更新するため、ユーザにとっての利便性を向上することができる。
この他、図示しないが、優先語彙を考慮した辞書更新の方法として、「略語、別称」の発話を可能にする方法を用いても良い。通常の認識辞書においては、略称や別称を登録すると、競合単語が増加するため、認識性能の低下が懸念される。しかし、本手法を用いて優先語彙と決定された語彙に関してのみ、期間を限定して「略称、別称」を発話可能にすることで、語彙の大幅な増加を抑制しつつ、ユーザの使い勝手を大幅に番向上することが期待される。
例えば、「○○国際空港」⇒「○○空港」
「○○の丘、△△記念公園」⇒△△記念公園 OR △△公園
等のようにして省略語を定義、登録する。すなわち、辞書更新部190は、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録する構成としているため、設定頻度が多く、優先語彙と判断された語彙について、その略称や別称を発話しても認識が可能になる。
(実施の形態2)
本実施の形態2は、ユーザの実際の音声認識装置の利用実態を記録し、この頻度解析結果を利用して優先語彙を決定し、辞書を更新する技術に関する。そこで、本実施の形態2では、利用実態の記録のために、クライアントサーバ型を有する音声認識システムを利用するものとし、タスクは実施の形態1同様、目的地設定を主タスクとする道案内(ナビゲーション)とする。ただし、音声認識に用いられる発話語彙の時間的局所性(時期的に発話頻度に偏りのある語彙)をユーザの使用実態の解析結果から検出することが本実施の形態2の特徴であるので、発話語彙の時間的局所性を収集して統計解析する仕組みを有するシステムであればクライアントサーバ型に限らず実現可能であり、タスクに関しても発話語彙に時間的局所性を持つタスク全般に対し適用可能である。
図11にその基本的な構成を示す。本実施の形態2はクライアント(図11:CL100a〜CL100n)とサーバ(SV200)から構成される。図11の矢印(a)はクライアントCL100a〜CL100nからサーバSV200へ送信される音声情報の伝送方向を、矢印(b)はサーバからクライアントCL100a〜CL100n送信される音声情報や出力情報の伝送方向を示す。
更にクライアントCL100a〜CL100nはそれぞれ音声入力部CL110、特徴抽出部CL120、出力部CL130から構成され、一方、サーバSV200は音声認識部SV210、認識辞書SV220、対話管理部SV230、操作設定部SV240、操作設定履歴蓄積部SV250、頻度解析部SV260、辞書更新部SV270から構成される。
次に、上記各部の基本的な機能および具体的な実現手段について、図12のハードウエア構成図を用いて説明する。
音声入力部CL110は使用者の発話音声を入力するものであり、例えばマイクロフォン301とAD変換部304とを組み合わせることで実現される。音声入力部CL110でディジタル化された入力信号は、特徴抽出部CL120に入力され、入力の音声信号から音声認識に必要な特徴量が抽出される。この処理は図12においてクライアント側の演算装置305および記憶装置306を組み合わせることで実現できる。
音声認識部SV210は、音入力部CL110および特徴抽出部CL120から得られた音声の特徴量と、認識辞書SV220に登録された語彙との類似度を比較することにより、入力音声に対応する単語列を選択する機能を持つもので、図12における演算装置309および記憶装置310を組み合わせることで実現される。
対話管理部SV230は、音声認識部SV210における音声認識結果を受けて現在の理解状態、すなわち目的地を設定するために必要な情報がどれだけ得られているかを評価するものであり、図12における演算装置309および記憶装置310を組み合わせることで実現される。ここで十分な情報が得られたと判断される場合、すなわち、それまでの音声認識の結果から得られた語彙群から目的地が一意に決定できる場合には後述する操作設定部SV240へ目的地設定操作の実行を許可し、十分な情報が得られなかったと判断される場合、すなわち認識結果の語彙群からは一意に目的地が決まらない場合、あるいは雑音やユーザ発音が不明瞭で十分な一致度(認識スコア)をもった語彙が取得できない場合、またはユーザからの訂正、否定が入力された場合等は、対応する質問応答をこの対話管理部SV230で生成し、これを後述するクライアント側の出力部CL130へ送信することで、ユーザに対し追加の発話を促す。
操作設定部SV240は、前記対話管理部SV230において目的地が一意に決まったと判断された場合に、該目的地設定操作を実行すると同時に、該目的地設定情報を時刻情報と共に後述する操作設定履歴蓄積部SV250に対し送信する。この操作設定履歴蓄積部SV250に送信され記憶された目的地設定情報の利用頻度解析は頻度解析部SV260で行われ、この頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、この発話可能性の高い語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書SV220を、辞書変更部SV270を介して更新するもので、図12における演算装置309および記憶装置310を組み合わせることで実現される。具体的な目的地設定操作としては、図示しない経路演算部に対し、目的地名称あるいは該名称に対応するインデックスを送信する処理などが相当する。この結果を受け、この経路演算部では現在地からのルート演算を行う。
これにより、目的地設定機能を有する音声認識装置において、複数のユーザの目的設定値の傾向を反映した認識辞書SV220の更新を行うことができる。
操作設定履歴蓄積部SV250は、前記操作設定部SV240から受信した少なくとも1人以上のユーザ、すなわち一つ以上のクライアントからの複数の操作設定情報すなわち目的地情報を、現在の時刻情報であるタイムスタンプと共に記憶、蓄積していくものであり、図12における記憶装置310を用いて実現される。なお、この操作設定履歴蓄積部SV250は音声操作による設定操作、あるいは音声以外の操作手段の少なくとも何れかを用いて設定履歴を記憶することができる。すなわち音声による操作、音声以外の操作何れかの操作手段による設定履歴を記憶することが出来るため、例えば、音声による操作機能と、スイッチあるいはタッチパネルによる操作機能の双方で同様の機器操作が可能な操作系を有するシステムにおいて、双方の操作から設定履歴を収集し、頻度解析に用いることができる。
頻度解析部SV260は、操作設定履歴蓄積部SV250に記憶された目的地情報に関する操作設定情報の頻度分布の解析を行い、各目的地に関する操作設定の時間的局所性を判断するものである。頻度解析部SV260は操作設定履歴の時系列頻度を解析し、所定期間内にて操作設定頻度が高い操作設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、辞書更新部SV270は、操作設定頻度が高い所定期間について、この優先語彙が優先して認識されるように認識辞書SV220を更新するものであり、図12における演算装置309および記憶装置310を組み合わせることで実現される。この頻度解析方法の具体例については後述する。
このため、多くのユーザの聞き操作設定頻度を解析することで、適切に、認識辞書に含まれる語彙の発話可能性を判断することが出来、この発話可能性の高い語彙が認識され易いように認識辞書SV220の更新を行うことが出来る。
辞書更新部SV270は、頻度解析部SV260の頻度解析結果を受け、所定の期間について時間的局所性の認められた特定語彙の時系列の発話可能性を推定し、この発話可能性の高い語彙をこの所定の期間における優先語彙とみなし、この語彙を優先して認識するように認識辞書SV220を更新するものであり、図12におけるサーバ側の演算装置309および記憶装置310を組み合わせることで実現される。最後に、出力部CL130は、前記対話管理部SV230からの質問応答、もしくは操作設定部SV240の指示により図示しない経路演算部で計算されたルート情報を受信し、これをユーザに提供する。すなわち、画面表示情報は表示装置303により、音声情報はDA変換部311を介してスピーカ302から出力される。
これにより、ユーザの操作利用実態に基づいた発話可能性の適切な予測ができ、その予測結果に基づいた認識辞書SV220を提供できるため、ユーザにとって発話可能性の高い語彙を優先して認識することができ、利便性を大幅に向上することが可能になる。
尚、本実施の形態2では、クライアント側の特徴抽出部CL120にて抽出した特徴量をサーバの音声認識部SV210に送信する処理、およびサーバの対話管理部SV230からの質問応答または図示しない前記経路演算部からの経路演算結果をクライアントに送信する処理が発生する。この情報送受信の処理を行うために、クライアント側、サーバ側双方に通信装置307および308が具備されている。
また、本実施の形態2では特徴量をクライアント側で抽出し、サーバ側で認識する例を示しているが、この他の構成例としては、例えばクライアント側は音声入力部CL110および出力部CL130のみを有し、音声信号をサーバへ送信し、サーバ側で特徴抽出以降を行う構成としてもよいし、クライアント側で音声認識処理、操作設定処理、経路演算処理、そして辞書更新処理までを全て行い、操作設定情報のみをサーバの操作設定履歴蓄積部SV250へ送信し、サーバ側はこの履歴情報を蓄積したデータを用いた頻度解析を行い、優先語彙情報をクライアントに送信する構成としてもよい。前者であればクライアント側での処理能力を小さくできるため、例えば携帯電話などに適する。この場合、認識辞書SV220をサーバ側で保持するため、更新処理および更新後の辞書展開がサーバ側で完結することが出来る。また後者であれば高性能な処理機能を持つ車載用音声認識機能付きナビゲーション装置などに適する。この場合は認識辞書SV220をクライアント側が持つため、サーバからは優先語彙のフラグデータを送信し、受信したクライアントがこのフラグ情報に基づいて辞書の更新を行う機構とすることが好ましい。
以降では、上記構成における頻度解析部SV260における処理および辞書更新部SV270における処理について具体的に説明する。
操作設定履歴蓄積部SV250には、対話によって決定された目的地設定情報が記憶されている。例えば、図13に示すような一連の対話が行われた場合、「横須賀ゴルフ場」というPOI(Point of Interest)が目的地と設定され、この施設名称がPOIの種別名称、タイムスタンプ等と共に蓄積される。このようにして蓄積されたデータ例を図14に示す。
頻度解析部SV260は、蓄積された履歴データに対し、頻度解析を実行する。例えば最初は過去数年分のデータを一括で解析し、以降は例えば1週間毎に差分を解析し、追加すればよい。また、時間の経過と共に目的地へのトレンドが変化することを考慮し、常に過去2年分等として、古い情報を排除したデータで解析し直すようにしても良い。実際の解析は、異なる時系列単位の頻度解析として行う。例えば、3ヶ月(四半期)単位、月単位、週単位、曜日単位、日単位、時間単位などの時系列単位に対し、POI種別毎、POI名称毎の頻度カウントを行う。
図15には頻度解析の結果例を示した。実際にはこうしたPOI毎の頻度解析結果がデータベースとして頻度解析部SV260に記憶されることとなる。図15(a)は月単位でPOI種別(ジャンル)「特定公園」を頻度解析した結果例である。4月および10月前後に頻度が上昇している。図15(b)は月毎の日単位でPOI名称「○○メッセ」を解析した結果例である。特定月の特定期間について、顕著に設定頻度が上昇している。図15(c)はPOI種別「ゴルフ場」を24時間単位で1年分解析した結果例である。早朝6時前後にかけて頻度が上昇している。こうした頻度解析を各単位時間、各POI種別、各POI名称に対し行うことで、ある特定の期間について目的地設定頻度の高低を抽出することが可能である。
続いて,この頻度解析結果が閾値を越えるPOI種別、POI名称を抽出する。例えば図15(a)〜(c)のように、時系列単位毎に、頻度の閾値を用意する。図15の例では、(a)の場合に1000カウント、(b)では200カウント、(c)では2000カウントを設定している。実際には頻度を解析した結果に鑑みて閾値の範囲を適宜決定することが好ましい。
上記頻度解析および辞書更新の処理を図16のフローチャートを用いて以下に説明する。先ず、サーバシステムを起動し、メモリ内の各変数をクリアし、辞書更新処理準備状態へと移行する(ステップS201)。次いで、頻度解析の有無を判定し、頻度解析を行うと判定された場合(ステップS202/YES)はステップS203へ、行わないと判定された場合(ステップS202/NO)はステップS208へ移行する。この頻度解析の有無を判定するのに、例えば、所定の期間間隔で更新を行う場合は、時刻情報を利用すればよい。あるいは、前回更新時からの操作設定履歴蓄積データ量で判断する場合は、前回更新時からのデータ差分を監視する判断機構を設ければよい。
前ステップで頻度解析を実行すると判断された場合は、操作設定履歴蓄積部SV250の履歴蓄積データを読み込み、データの先頭からそのPOIのID(履歴POIID)およびPOI種別ID(履歴POI種別ID)および対応するタイムスタンプを順次取得する(ステップS203)。続いて、POIIDの頻度カウントを行う。具体的には、抽出されたPOIIDのタイムスタンプを参照し、対応する解析変数の頻度カウント値(POIID[タイムスタンプ])を加算する(ステップS204)。この時[タイムスタンプ]は解析する単位時間に応じて必要部分を切り出す。例えば図14の一番目のデータ例であれば、タイムスタンプは2002年12月31日18:10
であるが、これを月単位で頻度解析する場合には、「12月」の部分を抽出し、変数、XY神社[12月]に対してカウントを加算する。同様に週単位の解析であれば、XY神社[第4週]に対してカウント、時間単位であれば、XY神社[18時]に対してカウントを行う。
次に、操作設定履歴蓄積データ全てを精査したかどうかを確認し、全てを完了していれば(ステップS205/YES)ステップS206へ、完了していない場合(ステップS205/NO)には残りのデータについて、ステップS203に戻り以降の頻度解析処理を繰り返し続行する(ステップS205)。頻度解析結果のそれぞれに対して図15のように閾値と比較し、閾値を越えるPOIを、優先語彙としてこの閾値を越える期間と共に抽出する(ステップS206)。
上記ステップS206で抽出された優先語彙とその期間について、当該語彙に「優先語彙情報」として認識辞書に付加する(ステップS207)。例えば、「ABメッセ」について、期間「10月27日から11月6日」で高い頻度で現れるとし、施設ジャンル「ゴルフ場」に対しては「○月○日のam6:00〜am9:00」で頻度が高いとした場合、この時間帯における優先語彙となるデータを付して認識辞書に辞書更新部SV270を介して埋め込み更新される。
この状態で音声操作発生を待ち受ける状態となるが、音声操作が発生しない限りは(ステップS208/NO)ステップS203に戻り、辞書更新のループを繰り返す。なお、頻度解析を行わない場合(ステップS202/NO)は、装置はステップS208の音声操作発生待ちの状態となる。ここで、ユーザが発話スイッチを押して発話動作に入ったら、この時点で、音声認識システムが起動され(ステップS209)、上記の更新された認識辞書がHDD等の主記憶装置からキャッシュメモリ等のメモリ装置にロードされる。このメモリへロードする段階で、更新され埋め込まれた優先語彙情報を見ながらメモリに辞書を構築する。
換言すれば、ステップS210では、音声認識システムの起動に伴い、認識辞書をメモリ上に展開する際に、ステップS207にて埋め込まれた優先語情報を考慮する。すなわち、辞書展開中に、現在時刻に合致する優先語彙情報が存在する場合に、当該語彙が優先して認識されるように変更しつつ辞書を展開する。この変更の方法としては、実施の形態1で述べたように、当該語彙を上位階層で発話できるようにする、あるいは認識スコアにボーナスを与える等の方法が考えられる。このような方法は、通信機能および音声認識機能を有するクライアント(例えばカーナビ)と頻度解析を行うサーバの構成で実現可能である。
以上説明した実施の形態2においては、優先語彙情報を認識辞書に埋め込み更新する方法をベースとしているが、この認識辞書への埋め込み更新の代わりに優先語彙データベースを作成する方法も可能である。この場合は、頻度解析結果を反映したデータベースが必要となり、また「辞書変更処理(ステップS207)」は「優先語彙データベース更新処理」となる。
また、本実施の形態2において、車両が走行している当日に、その周辺地域で他のクライアントが設定した頻度の高い目的地を、優先語彙として限定するだけでもよい。この実現方法としては、音声認識処理をサーバ側で全て行うクライアントサーバ型の音声認識装置が最も妥当な構成となる。すなわち、全てのユーザの目的地設定情報を音声操作が発生するたびに収集し、この最新頻度情報を利用して抽出された「優先語彙情報」を常に更新し続けるというものである。これは高性能な演算性能を有するサーバであれば容易に実現できる。認識動作が発生した時にはその最新優先語彙情報を反映した辞書を構築して音声認識処理を行う。例えば、ある日のある時間帯に「ゴルフ場の設定頻度が連続した」と判断されたら即座に当該ゴルフ場を優先語彙に設定して、以降のユーザには当該ゴルフ場が設定し易くすることが出来る。
上記の構成により、多くのユーザの操作設定頻度をフィードバックした優先語彙の決定および辞書の更新ができるため、ユーザの操作利用実態に基づいた発話可能性の適切な予測ができ、その予測結果に基づいた認識辞書を提供できるため、ユーザにとって発話可能性の高い語彙を優先して認識することができるようになり、利用実態を適切に反映した、使い勝手のよい認識システムを提供することができる。
(実施の形態3)
本実施の形態3は、実施の形態1で用いたカレンダーデータベースを参照した辞書更新方法と、実施の形態2で用いた、ユーザの操作設定履歴を利用した辞書更新方法を組み合わせ、双方のデータを加味してデータマイニングから精度の高い優先語彙の選定を行うものである。更に本実施の形態3では、ユーザ属性をも同時に蓄積、管理し、属性ごとの解析、辞書更新を提供する構成とする。また、更新方法についても、データマイニングの結果を利用したより高度な更新手法を提案する。システム構成としては、実施の形態2同様、クライアントサーバ型とする。
図17にその基本的な構成を示す。本実施の形態3はその構成の大部分が実施の形態2と共通であるため、以下、異なる部分についてのみ述べる。
図17において、操作設定履歴蓄積部SV310は、実施の形態2同様、操作設定部SV240から受信した操作設定情報すなわち目的地情報を、現在時刻のタイムスタンプと共に記憶、蓄積していく。
上記のように、設定履歴とカレンダーデータベース双方を利用して優先語彙を決定するため、優先語彙の決定精度が向上すると共に、頻度解析時点以降に開催される定期的行事について、その最新の日程を反映した認識辞書の更新を行うことができる。
更に本実施の形態3では、ユーザの属性情報を同時に記録するものとする。ユーザ属性とは、例えば居住地域、車両区分(車両サイズまたは乗車人数、商用車、乗用車の別)、家族構成(ライフステージ)等のことであり、例えば車両用のナビゲーション装置であれば、装着時に初期設定で上記ユーザ属性を設定することが好ましい。図18には蓄積されたデータ例を示す。実施の形態2の操作設定履歴蓄積データ(図14)と比較して、ユーザ属性に関するデータが追加されている。図18においてユーザ属性欄のA1、A2、B1等は上記ユーザ属性の項目に対応するものである。
カレンダーデータベースSV320は、実施の形態1同様、各種行事の発生地(開催POI名称)と発生時期とを組み合わせて記憶する。データマイニング部SV330は、実施の形態2の頻度解析部をより高度化したものである。すなわち、実施の形態2では単純に履歴に含まれるPOI毎の設定頻度をカウントして閾値と比較するものとしたが、本実施の形態3では、履歴が蓄積されている期間のカレンダーデータベースを同時に参照し、行事の開催期間とその設定頻度数を関連付けて解析する。この解析には、外部知識データを利用する場合と、ユーザ属性を利用する場合との2通りがある。
外部知識データを利用する場合としては、例えば図4のカレンダーデータベースと図18の操作設定履歴蓄積部SV310の操作蓄積データとを参照すると、11月3日〜11月9日のイベント「○○モーターショー」に関する「AB」メッセへの目的地設定頻度を抽出することができる。例えば、この解析の結果、期間中の少なくとも1日について閾値を上回っている場合には、「○○モーターショー」の期間中について、「AB」メッセを優先語彙に設定する等の方策をとることができる。また、上記の操作蓄積データは過去のデータであるため、行事の開催日程が年によって前後に移動する可能性があるが、過去のカレンダーデータと操作蓄積データとを関連付けて解析することで、「○○モーターショー」期間中について、「ABメッセ」を優先語彙とすることを決定できれば、その後、今年のカレンダーデータベースを参照し、最新の日程について該優先語彙を設定することができる。
また、データマイニング部SV330では、カレンダーに明確に明記されていないようなトレンドや、カレンダーデータ以外の知識データベースを利用したトレンド理解なども行う。例えば、
春や秋等、季節に起因する大きなトレンドの抽出
POIの利用時間帯に起因するトレンドの抽出
等が考えられる。前者は例えば花見や紅葉狩りといった時期に関連する特定のPOI設定トレンドのことであり、後者であれば例えばゴルフ場をPOIとする場合は早朝出発が大勢を占めるといったトレンドである。前者については、各施設の説明情報を知識データとして組み合わせて解析することで、該施設群が「花見場所」として利用頻度が高いことを理解できる。後者については、ゴルフ場の利用時間帯(プレイ開始時間の制限)などの知識データを利用することで、出発時間帯が偏る理由を理解することができる。各種知識データを組み合わせてデータ解析を行うことで、より詳細なトレンドが抽出できる。
上記のユーザ属性についても考慮することで、よりユーザに適合した優先語彙の選択が可能となる。すなわち、図18のユーザ属性(A1,A2・・・B1,B2・・・)毎に頻度解析等を行い、抽出されたトレンドは、当該ユーザ属性に含まれるユーザにのみ適用する。つまり更新辞書をユーザ属性毎に用意する、あるいはユーザ属性毎に生成した優先語彙フラグデータを、ユーザ属性が一致するユーザに対して送信し、辞書更新処理を実行する。すなわち、操作設定履歴蓄積部SV310は、ユーザの目的地設定情報と、このユーザの居住地域、あるいは年齢層、あるいは家族構成、車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、頻度解析部であるデータマイニング部SV330は、操作設定履歴の時系列頻度をユーザ属性毎に解析し、辞書更新部SV340は、この頻度解析結果から特定語彙の時系列の発話可能性を推定し、この発話可能性の高い語彙を優先語彙と決定し、この語彙を優先して認識するよう認識辞書SV220を更新する構成としている。これにより、ユーザの地域性、ライフステージ、車両の種類(乗車人数、商用車/乗用車の別)といったユーザ属性毎に操作設定頻度を分析し、優先語彙と決定することが出来、ユーザ属性毎の操作設定傾向を反映した認識辞書SV220を提供することが出来る。
辞書更新部SV340は、基本的には実施の形態2と同様に、優先語彙と判定された語彙について優先的に認識するように辞書を更新するが、前記データマイニング部SV330の解析結果を受け、より高度な認識辞書の変更を行うことも可能である。この例を図19に示す。花見等の季節依存性の強い施設については、通常図19に示すようにそれぞれ静的なカテゴリ分類である、公園、寺社・仏閣、城址、湖沼、河川敷などのカテゴリに配置されている。これに対し、データマイニング部SV330が花見場所として利用頻度の高いPOIを複数抽出した場合に、図19の矢印(a)のように、新たなカテゴリ「桜の名所」(第2階層)を頻度の高い所定期間について限定的に生成し、対応するPOI(図中太枠のPOI)をこのカテゴリに配置することで、期間限定的に辞書を変更することが可能である。すなわち、辞書更新部SV340は、認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録する構成としているため優先語彙を発話入力する際に必要な対話数(システムとユーザとの対話ターン数)を削減することが可能となる。
図20は、本実施の形態3における処理のフロー図を示す。本フロー図においてはデータマイニング部SV330の処理関連として「カレンダーデータベース参照」S303の処理が挿入されている以外は実施の形態2の処理フローである図16と同じである。実施の形態2では単純に操作設定履歴に含まれるPOI毎の設定頻度をカウントして閾値と比較するものとしたが、本実施の形態3では設定履歴が蓄積されている期間のカレンダーデータベースを同時に参照し、行事に開催期間とその設定頻度数を関連付けて解析する。これにより、設定頻度の多いイベントを抽出し、そのイベントの最新の実施期間を反映して、当該イベントの実施施設を優先して設定し易くすることができる。
すなわち、本実施の形態3においては、前記音声認識装置において、少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部SV310と、年間行事を記録したカレンダーデータベースSV320と、操作設定履歴蓄積部SV310に記憶された時系列の操作設定頻度情報と同じ時系列のカレンダー情報とを対応付けて頻度解析を行うデータマイニング部と、この頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部とを有する音声認識装置としている。
これにより、実施の形態1および実施の形態2の効果に加え、互いの予測結果を統合した結果を用いた高精度な優先語彙の決定が可能になる。
以上の構成により、本実施の形態3は、実施の形態1および実施の形態2双方の特徴を組み合わせることにより、上記カレンダーデータベースと前記頻度解析部双方を併せ持ち、この情報を組み合わせて発話可能性の高い語彙を予測することができるため、請求項1および請求項2の効果に加え、互いの予測結果を統合した結果を用いた高精度な優先語彙の決定が可能になり、ユーザに対して使い勝手の良い音声認識システムを提供することができる。
実施の形態1の構成を示すブロック図。 実施の形態1の装置構成図。 階層構造を持つ認識辞書の構成図。 カレンダーデータベースの例を示す構成図。 実施の形態1における処理の流れを示すフロー図。 更新前の認識辞書構成図。 更新前の認識辞書構成図。 キーワードスポッティング方式における認識辞書構成図。 更新後の認識辞書構成図。 (a)認識辞書更新前の対話状態を示す対話順序図、(b)認識辞書更新前の対話状態を示す対話順序図。 実施の形態2の構成を示すブロック図。 実施の形態2の基本的構成を示した装置構成図。 キーワードスポッティング方式による対話順序図。 操作設定履歴蓄積部における情報記憶例を示すデータ構成図。 頻度解析結果例で(a)はPOIジャンル「特定公園」の月単位分布図、(b)はPOI名称「○○メッセ」の日単位の分布図、(c)POIジャンル「ゴルフ場」の時間単位の分布図。 実施の形態2における処理の流れを示したフロー図。 実施の形態3の基本的構成を示したブロック図。 実施の形態3における操作設定履歴蓄積部の情報記憶例を示したデータ構成図。 実施の形態3における認識辞書更新後のデータ構成図。 実施の形態3における処理の流れを示したフロー図。
符号の説明
110,CL110:音声入力部 120,CL120:特徴抽出部
130,SV210:音声認識部 140,SV220:認識辞書
150,SV230:対話管理部 160,SV240:操作設定部
170,CL130:出力部
180,SV320:カレンダーデータベース
190,SV270,SV340:辞書更新部
201,301:マイクロフォン
202,302:スピーカ 203,303:表示装置
204,304:AD変換部 205,305,309:演算装置
206,306,310:記憶装置 307,308:通信装置
CL100a〜n:クライアント
SV250,SV310:操作設定履歴蓄積部
SV260:頻度解析部 SV330:データマイニング部

Claims (24)

  1. ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
    年間の行事に関する情報を記録したカレンダーデータベースおよび辞書更新部を併せ持ち、
    前記辞書更新部は、前記カレンダーデータベースに記憶された行事に関連する前記認識辞書の特定の語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
    ことを特徴とする音声認識装置。
  2. ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
    少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
    該操作設定履歴蓄積部に記憶された操作設定情報の頻度を解析する頻度解析部と、
    該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
    を有することを特徴とする音声認識装置。
  3. ユーザの発話音声を入力し離散音声信号に変換する音声入力部と、該離散音声信号から音声認識に必要な特徴量を抽出する特徴抽出部と、該抽出された前記特徴量により音声認識を行う音声認識部と、該音声認識を行うための語彙に関する情報が予め登録されている認識辞書とをもつ音声認識装置において、
    年間の行事に関する情報を記録したカレンダーデータベースと、
    少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
    該操作設定履歴蓄積部に記憶された時系列の操作設定頻度情報と同じ時系列の前記カレンダーベース情報とを対応付けて解析する頻度解析部と、
    該頻度解析部による頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
    を有することを特徴とする音声認識装置。
  4. 請求項2または請求項3に記載の音声認識装置において、
    前記操作設定履歴蓄積部は、音声操作による設定、あるいは音声以外の操作手段の少なくとも何れかについて、該設定履歴を記憶することを特徴とする音声認識装置。
  5. 請求項1に記載の音声認識装置において、
    年間の行事を、その開催期間と開催施設名称あるいは開催施設種別と共に記憶するカレンダーデータベースと、
    前記カレンダーデータベースに記憶された行事の開催施設名称あるいは開催施設種別に対応する前記認識辞書の目的地名称を優先語彙と決定し、該語彙を優先して認識するよう前記認識辞書を更新する辞書更新部とを有する
    ことを特徴とする音声認識装置。
  6. 請求項2に記載の音声認識装置において、
    少なくとも一人以上のユーザの複数の目的地設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
    該操作設定履歴蓄積部に記憶された目的地設定情報の頻度を解析する頻度解析部と、
    該頻度解析部における頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該推定した発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
    を有することを特徴とする音声認識装置。
  7. 請求項3に記載の音声認識装置において、
    少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶する操作設定履歴蓄積部と、
    年間の行事を、該行事の開催期間と開催施設名称あるいは開催施設種別と共に記憶するカレンダーデータベースと、
    前記操作設定履歴蓄積部に記憶された時系列の目的地設定頻度情報と同じ時系列のカレンダー情報とを対応付けて解析する頻度解析部と、
    該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する辞書更新部と、
    を有することを特徴とする音声認識装置。
  8. 請求項2乃至請求項4、請求項6あるいは請求項7の何れかに記載の音声認識装置において、
    前記頻度解析部は前記操作設定履歴の時系列頻度を解析し、所定期間内にて該設定頻度が高い設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、
    辞書更新部は、該設定頻度が高い所定期間について、該優先語彙が優先して認識されるように認識辞書を更新することを特徴とする音声認識装置。
  9. 請求項1乃至請求項7の何れかに記載の音声認識装置において、
    前記辞書更新部は、認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録することを特徴とする音声認識装置。
  10. 請求項1乃至請求項7の何れかに記載の音声認識装置において、
    前記辞書更新部は、認識対象となる語彙を、該語彙の出現確率と共に保持する機能を有し、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算することを特徴とする請求項1から7記載の音声認識装置。
  11. 請求項1乃至請求項7の何れかに記載の音声認識装置において、
    辞書更新部は、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録することを特徴とする音声認識装置。
  12. 請求項2乃至4、請求項6あるいは請求項7の何れかに記載の音声認識装置において、
    前記操作設定履歴蓄積部は、
    ユーザの目的地設定情報と、該ユーザの居住地域、あるいは年齢層、あるいは家族構成、あるいは車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、
    前記頻度の解析部は、前記操作設定履歴の時系列頻度を前記ユーザ属性毎に頻度解析した結果と、前記カレンダーデータベースに記憶されたイベントデータの結果とを組み合わせて、データマイニングを行い、特定語彙の時系列の発生トレンドを抽出し、
    前記辞書更新部は、前記頻度解析結果から特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
    ことを特徴とする音声認識装置。
  13. ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
    年間行事に関する情報を記録したカレンダーデータベースおよび辞書更新部を併せ持ち、
    予め記憶された行事に関連する特定の語彙を優先語彙と決定し、
    該優先語彙を優先して認識するよう認識辞書を更新する
    ことを特徴とする音声認識方法。
  14. ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
    少なくとも一人以上のユーザの、複数の操作設定情報を時刻情報と共に記憶し、
    該記憶された操作設定情報の操作設定頻度を頻度解析し、
    該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する、
    ことを特徴とする音声認識方法。
  15. ユーザの発話音声を入力し離散音声信号に変換し、該離散音声信号から音声認識に必要な特徴量を抽出し、該抽出された前記特徴量により音声認識を行い、該音声認識で認識された語彙に関する情報を予め登録されている認識辞書に登録されている該語彙情報と比較することにより音声認識を行う音声認識方法において、
    年間の行事に関する情報を(カレンダーデータベースに)予め記録しておき、
    少なくとも一人以上のユーザの複数の操作設定情報を時刻情報と共に記憶し、
    記憶された時系列の操作設定頻度情報と同じ時系列の前記年間行事情報とを対応付けて頻度解析を行い、
    該頻度解析結果から、特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを有することを特徴とする音声認識方法。
  16. 請求項14または請求項15に記載の音声認識方法において、
    音声操作による設定操作、あるいは音声以外の操作手段の何れかについて、該設定履歴を記憶することを特徴とする音声認識方法。
  17. 請求項13に記載の音声認識方法において、
    年間の行事を、その開催期間と開催施設名称あるいは開催施設種別と共に記憶し、
    前記記憶された行事の開催施設名称あるいは開催施設種別に対応する目的地名称を優先語彙と決定し、該語彙を優先して認識するよう前記認識辞書を更新する
    ことを特徴とする音声認識方法。
  18. 請求項14に記載の音声認識方法において、
    少なくとも一人以上のユーザの、複数の目的地設定情報を時刻情報と共に記憶し、
    該記憶された目的地設定情報の頻度を解析し、
    該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを特徴とする音声認識方法。
  19. 請求項15に記載の音声認識方法において、
    少なくとも一人以上のユーザの、複数の操作設定情報を時刻情報と共に記憶し、
    年間の行事を、開催期間と開催施設名称あるいは開催施設種別と共に記憶し、
    前記記憶された時系列の目的地設定頻度情報と同じ時系列の年間行事情報とを対応付けて解析し、
    該頻度解析結果から、特定目的地名称の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新することを特徴とする音声認識方法。
  20. 請求項14乃至請求項16、請求項18あるいは請求項19の何れかに記載の音声認識方法において、
    前記操作設定履歴の時系列頻度を解析し、所定期間内にて該設定頻度が高い設定内容に対応する認識語彙について、該設定頻度の低い設定に対応する認識語彙よりも発話可能性が高い優先語彙と判断する機能を有し、
    該設定頻度が高い所定の期間について、該優先語彙が優先して認識されるように前記認識辞書を更新することを特徴とする音声認識方法。
  21. 請求項13乃至請求項19の何れかに記載の音声認識方法において、
    認識対象となる語彙を自身の意味およびカテゴリ毎に階層構造で分類、保持するネットワーク構造を持ち、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、該語彙の登録されている階層より上位の階層に再登録することを特徴とする音声認識方法。
  22. 請求項13乃至請求項19の何れかに記載の音声認識方法において、
    認識対象となる語彙を、該語彙の出現確率と共に保持する機能を有し、前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群について、その出現確率に所定の値を加算することを特徴とする音声認識方法。
  23. 請求項13乃至請求項19の何れかに記載の音声認識方法において、
    前記優先語彙と判断された語彙、あるいは該語彙の属する階層に登録された語彙群についての省略語彙を認識辞書に再登録することを特徴とする音声認識方法。
  24. 請求項14乃至16、請求項18あるいは請求項19の何れかに記載の音声認識方法において、
    ユーザの目的地設定情報と、該ユーザの居住地域、あるいは年齢層、あるいは家族構成、あるいは車両属性の少なくとも一つから構成されるユーザ属性情報とを対応して記憶し、
    前記操作設定履歴の時系列頻度を前記ユーザ属性毎に頻度解析し、
    該頻度解析結果から特定語彙の時系列の発話可能性を推定し、該発話可能性の高い語彙を優先語彙と決定し、該語彙を優先して認識するよう認識辞書を更新する
    ことを特徴とする音声認識方法。
JP2006007253A 2006-01-16 2006-01-16 音声認識装置および音声認識方法 Pending JP2007187975A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006007253A JP2007187975A (ja) 2006-01-16 2006-01-16 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006007253A JP2007187975A (ja) 2006-01-16 2006-01-16 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2007187975A true JP2007187975A (ja) 2007-07-26

Family

ID=38343171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006007253A Pending JP2007187975A (ja) 2006-01-16 2006-01-16 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2007187975A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2013054075A (ja) * 2011-08-31 2013-03-21 Aisin Aw Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2016099501A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2013054075A (ja) * 2011-08-31 2013-03-21 Aisin Aw Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2016099501A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Similar Documents

Publication Publication Date Title
JP3955880B2 (ja) 音声認識装置
JP5266761B2 (ja) 情報案内システムおよびその認識辞書データベース更新方法
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
US8666740B2 (en) Speech and noise models for speech recognition
JP4816409B2 (ja) 認識辞書システムおよびその更新方法
US8914286B1 (en) Speech recognition with hierarchical networks
US20030149566A1 (en) System and method for a spoken language interface to a large database of changing records
US20140074476A1 (en) Method and System for Building a Phonotactic Model for Domain Independent Speech Recognition
US20030182131A1 (en) Method and apparatus for providing speech-driven routing between spoken language applications
US20140365221A1 (en) Method and apparatus for speech recognition
US20050004799A1 (en) System and method for a spoken language interface to a large database of changing records
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US11056113B2 (en) Conversation guidance method of speech recognition system
JP2007187975A (ja) 音声認識装置および音声認識方法
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
JP2009282835A (ja) 音声検索装置及びその方法
Georgila et al. A speech-based human-computer interaction system for automating directory assistance services
Nguyen et al. Vais asr: Building a conversational speech recognition system using language model combination
CN111301312B (zh) 语音识别系统的会话引导方法
JP2005062398A (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
Brutti et al. Use of Multiple Speech Recognition Units in an In-car Assistance System
JP2001228891A (ja) 音声対話装置
Alessio Brutti et al. USE OF MULTIPLE SPEECH RECOGNITION UNITS IN AN IN-CAR ASSISTANCE SYSTEM¹
Mrutti et al. On the development on an in-car speech interaction system at IRST