JP4639990B2

JP4639990B2 - 音声対話装置及び音声理解結果生成方法

Info

Publication number: JP4639990B2
Application number: JP2005186892A
Authority: JP
Inventors: 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2005-06-27
Filing date: 2005-06-27
Publication date: 2011-02-23
Anticipated expiration: 2025-06-27
Also published as: JP2007004052A

Description

本発明は、発話された音声に応じて対話をする音声対話装置に関し、詳しくは、音声の認識率を向上させた音声対話装置及び音声理解結果生成方法に関する。

ユーザによって発話された音声を入力し、入力された音声の音声認識結果に応じたシステム応答をすることで、ユーザとの間で対話をする音声対話装置が考案されている。このような音声対話装置では、入力された音声の認識率を向上させるために様々な音声認識手法を用いている。

例えば、音声の認識率を向上させるために、入力された音声を認識することで得られる複数の認識結果候補を音声認識結果として出力し、この音声認識結果に対する信頼度を求め、この新たに求められた信頼度を、それまでに発話された音声の音声認識結果の信頼度に加算することで、現在までの発話内容の理解結果を生成する（特許文献１。）といった手法が開示されている。

これにより、入力された音声を単に単語として音声認識するばかりではなく、音声認識した単語の文脈との関連性を考慮し、より尤もらしい語を最終的に選定することができるため、効率よく音声認識精度を向上させることができる。
特開２００４−２５１９９８号公報

しかしながら、特許文献１で開示された手法では、音声認識結果として出力される認識結果候補のいずれかには、必ずユーザによって発話された単語が存在することを前提としているため、認識結果候補から正しい音声認識結果が漏れてしまっている可能性がある。

このように、正しい認識結果候補から正しい音声認識結果が排除されてしまった場合、当然、生成される理解結果も信頼できる結果とはなっていないことになる。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、ユーザによって発話された正しい語句が、最終的な認識結果候補から排除され、選定漏れとなることを低減させることで、音声の認識率を向上させることができる音声対話装置及び音声理解結果生成方法を提供することを目的とする。

本発明の音声対話装置では、発話された音声を入力する入力手段と、前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段と、前記入力手段によって入力された音声を前記認識対象語に基づき認識する音声認識手段と、前記音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、前記記憶手段から前記類似単語を検出する検出手段と、前記検出手段によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、前記認識結果候補に含まれる単語及び前記検出手段によって検出された前記類似単語に対して、それぞれが発話された可能性を示す単語信頼度を算出し、前記類似単語の単語信頼度は、前記認識結果候補に含まれる単語の単語信頼度と、前記認識結果候補に含まれる単語と前記類似単語との類似度に基づいて算出する単語信頼度算出手段とを備え、前記理解結果生成手段は、前記単語信頼度算出手段によって算出された単語信頼度に基づき、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成することにより、上述の課題を解決する。

また、本発明の音声理解結果生成方法では、発話された音声を入力する入力工程と、前記入力工程によって入力された音声を前記認識対象語に基づき認識する音声認識工程と、前記音声認識工程による認識結果である認識結果候補に含まれる単語に基づき、前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段から前記類似単語を検出する検出工程と、前記検出工程によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、前記認識結果候補に含まれる単語及び前記検出工程によって検出された前記類似単語に対して、それぞれが発話された可能性を示す単語信頼度を算出し、前記類似単語の単語信頼度は、前記認識結果候補に含まれる単語の単語信頼度と、前記認識結果候補に含まれる単語と前記類似単語との類似度に基づいて算出する単語信頼度算出工程とを備え、前記理解結果生成工程は、前記単語信頼度算出工程によって算出された単語信頼度に基づき、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成することにより、上述の課題を解決する。

本発明の音声対話装置は、音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、記憶手段から検出された認識対象語に誤認識されやすい類似単語を認識結果候補に加え、類似単語を加えた認識結果候補から、発話された音声に対する応答となる理解結果を生成する。

これにより、音声認識手段による認識結果として得られる認識結果候補だけではなく、音声認識処理では漏れてしまったが、認識結果候補に含まれる単語とは、音響的に近く誤認識されやすい類似単語を最終的な認識結果候補として扱うことができる。

したがって、ユーザによる正当な発話であるのにも関わらず、音声認識処理により認識結果候補から排除されてしまった場合でも、理解結果として選択される可能性を残すことができるため、認識率を向上させることを可能とする。

また、本発明の音声理解結果生成方法は、音声認識による認識結果である認識結果候補に含まれる単語に基づき、記憶手段から検出された認識対象語に誤認識されやすい類似単語を認識結果候補に加え、類似単語を加えた認識結果候補から、発話された音声に対する応答となる理解結果を生成する。

これにより、音声認識による認識結果として得られる認識結果候補だけではなく、音声認識処理では漏れてしまったが、認識結果候補に含まれる単語とは、音響的に近く誤認識されやすい類似単語を最終的な認識結果候補として扱うことができる。

以下、本発明の実施の形態について図面を参照して説明する。

まず、図１を用いて、本発明の実施の形態として示す音声対話装置の構成について説明をする。図１に本発明の実施の形態として示す音声対話装置は、車両などの移動体に搭載されるナビゲーション装置に適用した場合の構成である。ナビゲーション装置は、例えば、移動体である車両に搭載された場合、車両の現在位置を検出し、地図データから表示された車両の現在位置に対応する地図を表示しながら所望の目的地までの経路案内をすることができる。

この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとの対話によってインタラクティブに動作させることができる。

図１に示すように、音声対話装置は、スイッチ１０と、マイク２０と、メモリ３０と、経路案内に用いる地図データや、ガイダンス音声の音声データなどを格納するディスク４０と、ディスク４０に格納された各種データを読み取るディスク読み取り装置４１と、マイク２０を介して入力された音声を音声認識し、音声認識結果の内容を理解してシステム応答を生成する制御装置５０と、経路探索結果を示す地図、メニュー画面、制御装置５０による音声認識結果などを表示する、例えば液晶ディスプレイといったモニタ６０と、ガイダンス音声やユーザとの対話におけるシステム応答音声（以下、単にシステム応答と呼ぶ。）などを出力するスピーカ７０とを備えている。

スイッチ１０は、ユーザの押下により、ユーザによって発話されマイク２０を介して入力された音声に対する音声認識処理を開始させるよう後述する制御装置５０の入力制御部５１に指示をする。

マイク２０は、ユーザによって発話された音声を、後述する制御装置５０の音声認識部５２に入力する。例えば、ユーザは、ナビゲーション装置の操作に使用される語句及び文、すなわち操作コマンド及び地名や施設名、道路名などの固有名詞及びこれらの語句を含む文を発話して、マイク２０からその音声を入力する。

メモリ３０は、ランダムアクセス可能なＲＡＭ（Random Access Memory）などであり、音声認識処理が実行される場合に、ディスク読み取り装置４１によってディスク４０から読み出される音声認識用辞書・文法を記憶する記憶領域３１と、後述する制御装置５０の言語理解部５４から出力される現時点までの発話の理解結果を格納する記憶領域３２とを備えている。

メモリ３０の記憶領域３２に格納される現時点までの発話の理解結果は、今回の発話の次に発話が入力された際に、この新たに入力された発話の理解を過去の発話理解結果と合わせて理解するために用いられる。

ディスク４０は、音声認識に使用する音声認識用辞書・文法、地図データベース、固有名詞データベース、一般データベース、読みデータベースなどを格納した記憶媒体である。

一般に、音声認識用辞書・文法を用いて音声認識をするシステムでは、この音声認識用辞書・文法に記述されている認識対象語と文法とを用いた入力文だけを音声認識結果として受理することができる。この認識対象語に関する情報は、固有名詞データベース、一般データベース、読みデータベースでも管理されている。

例えば、ナビゲーション装置のメインタスクを経路探索をする際の目的地設定とすると、ユーザによってマイク２０から入力される入力文として、「神奈川県」「横浜駅」などといった施設に関する単語のみの入力と「神奈川県の横浜駅」「東海道線の横浜駅」などといった複数のキーワードを組み合わせた文章による入力との両方を想定することができる。

したがって、ディスク４０に格納される音声認識用辞書・文法は、このような単語のみの入力と複数のキーワードを含んだ文書の両方に対応することができる構成となっている。

地図データベースには、地図表示や経路探索に使用する地図データが収録されている。

固有名詞データベースには、「追浜駅」「東京○×パーク」といった施設を示す固有名詞や、「埼玉県」「多摩市」といった場所を示す固有名詞などが、各固有名詞に関する詳細情報と対応付けられて格納されている。

一般データベースには、「駅」「ガソリンスタンド」などの施設種別を示す一般名詞、「県」「市」「町」などの行政区画を表す一般名詞、「はい」「いいえ」などの肯定語や否定語、「行く」「探す」「帰る」などの動詞、「１」…「１０００」といった数字、「そう」などの助詞、「です」などの助動詞などが、それぞれの詳細情報と対応付けられて格納されている。

固有名詞データベース、一般データベースの詳細情報とは、例えば、単語が施設の場合には表示用のカナ漢字表記と施設の所在地、飲食店やガソリンスタンドなどといった属性情報、その他の単語の場合には、その意味などを示す属性情報である。

図２に、固有名詞データベースの一例を示す。図２に示すように、固有名詞データベースは、「追浜駅」「東京○×パーク」「埼玉県」「多摩市」といった各固有名詞を、これらを一意に特定する単語ＩＤ毎に、各固有名詞の表記形態を示す“表記”、各固有名詞の種別を示す“種別”、各固有名詞の所在を都道府県、市区町村単位で特定する“住所”、別途用意される各固有名詞の読み方を格納した読みデータベースへとリンクする読みＩＤを示す“読みリスト”といった情報で管理している。

また、図２に示すように、固有名詞のうち“種別”が駅とされる固有名詞は、“路線”として路線情報でも管理される。図示しないが、“種別”がインターチェンジとされる固有名詞にも“路線”として道路情報が与えられる。

図３に、一般データベースの一例を示す。図３に示すように、一般データベースは、「駅」「県」「市」「町」「はい」「いいえ」「そう」「です」「行く」「探す」「帰る」、「１」…「１０００」といった固有名詞以外の一般名詞、動詞、助詞、助動詞などを、これらを一意に特定する単語ＩＤ毎に、各単語の表記形態を示す“表記”、各単語を大まかに分類した“カテゴリ”、“カテゴリ”の下位概念である“種別”、別途用意される各単語の読み方を格納した読みデータベースへとリンクする読みＩＤを示す“読みリスト”といった情報で管理している。

読みデータベースは、固有名詞データベース、一般データベースに分類されている各単語とリンクしており各単語の読み方を格納している。

固有名詞データベース、一般データベースに格納されている単語は、同じ意味を示す単語であっても表記及び読み方が異なる場合がある。例えば、図２の固有名詞データベースに登録された単語ＩＤが５２０１の「東京○×パーク」は、正式な表記である「東京○×パーク」に対して、これを短縮した「○×パーク」と表記され、単に、「まるばつぱーく」と呼ばれることも多い。この「東京○×パーク」と「○×パーク」とは、同一の施設としてユーザに認知されているが、表記及び読み方が異なっている。

また、図３の一般データベースに登録された単語ＩＤが０７０４の「町」と表記される単語は、場合に応じて「まち」又は「ちょう」のいずれかの読み方がなされる。

したがって、このような単語の言い換えに対応するために、固有名詞データベース、一般データベースに対して、別途、読みデータベースを設けている。

図４に、図２に示した固有名詞データベース、図３に示した一般データベースに対応した読みデータベースを示す。

図４に示すように、読みデータベースは、固有名詞データベース、一般データベースに格納されている単語の全ての読み方を一意に特定する読みＩＤ毎に、読み方を示した“読み”と、この読み方をする単語の固有名詞データベース、一般データベースにおける表記と単語ＩＤとを“意味リスト”として保持している。また、図４に示すように、読みデータベースは、“類似単語読みリスト”として、自身と誤認識されやすい読み方をする単語の読みＩＤと、この読みＩＤで一意に読み方が特定される単語と、どの程度、誤認識されやすいかを数値化した類似度をリスト形式で保持している。

続いて、制御装置５０について説明する。制御装置５０は、入力制御部５１と、音声認識部５２と、単語信頼度演算部５３と、言語理解部５４と、応答生成部５５と、ＧＵＩ表示制御部５６と、音声合成部５７とを備え、マイク２０を介して入力された音声に対して、音声認識処理をし、音声認識結果に応じたシステム応答を行う。

入力制御部５１は、ユーザによってスイッチ１０が押下されたことに応じて、音声認識部５２に対して音声認識処理を開始するよう指示をする。

音声認識部５２は、入力制御部５１の指示に応じて、マイク２０から入力されるユーザによって発話され、図示しないＡ／Ｄコンバータでデジタル化された音声信号を取り込み音声認識処理を実行する。

音声認識部５２は、取り込んだデジタル化された音声信号と、メモリ３０の記憶領域３１に構築された音声認識用辞書・文法が保持する認識対象語からなる待ち受け文とのマッチング処理により音声認識を行い、音声認識結果を言語理解部５４に出力する。

音声認識部５２は、マッチング処理の際に、音声特徴データと各待ち受け文との音響的な近さである尤度を計算し、この尤度が一定の値以上のものを音声認識結果の認識結果候補とする。

音声認識部５２は、認識結果候補として、尤度が高い音声認識結果の上位Ｎ個の認識結果候補（以下、Ｎ−ｂｅｓｔ候補とも呼ぶ。）とその尤度とを単語信頼度演算部５３に出力する。この認識結果候補は、当該認識結果候補に含まれる各単語の読み方毎に与えられた、ディスク４０に格納されている図４に示す読みデータベースにおける識別コードである読みＩＤを尤度の高い順に並べた単語列として表される。

単語信頼度演算部５３は、音声認識部５２から音声認識結果として出力された認識結果候補に含まれる全ての単語に対して、各単語の読み方毎に単語信頼度を算出する。つまり、単語信頼度演算部５３は、同じ意味を示す単語であっても読み方が異なれば、異なる単語であるとして扱い、その単語信頼度を算出する。

したがって、単語信頼度は、ディスク４０に格納されている図４に示す読みデータベースの読みＩＤ単位で算出されることになる。単語信頼度とは、単一の発話において、その読み方で単語が発話された可能性を示す値であり、ある単語Ｗの読みＩＤＷに対する単語信頼度をＣｏｎｆ（Ｗ）、Ｎ−ｂｅｓｔ候補それぞれに対する対数尤度をＬｉとすると、以下に示す（１）式によって求めることができる。

単語信頼度演算部５３によって算出された読みＩＤ毎の単語信頼度は、全て“認識結果候補中に含まれる単語の読みＩＤリスト”としてメモリ３０に保存される。なお、単語信頼度演算部５３による単語信頼度の演算については、特開２００４−２５１９９８号公報で開示されている。

言語理解部５４は、まず、音声認識部５２の音声認識結果である認識結果候補と読み方が類似しており、誤認識されやすい読み方をする類似単語に対して単語信頼度を演算し、音声認識部５２による音声認識処理の結果、認識結果候補とされた単語と同じように、認識結果候補として扱えるようにする。なお、類似単語に対する単語信頼度の設定手順については、後で詳細に説明をする。

さらに、言語理解部５４は、類似単語も含めた認識結果候補に含まれる単語を意味上のまとまりであるカテゴリに分類し、同一カテゴリ内に属する単語の単語信頼度を足し合わることでカテゴリスコアを算出する。

ナビゲーション装置のメインタスクを経路探索をする際の目的地設定とすると、ユーザによって発話される音声の種類から、カテゴリは、例えば、「都道府県カテゴリ」「市区町村カテゴリ」「路線名カテゴリ」「施設名カテゴリ」などが考えられる。例えば、「都道府県カテゴリ」には「東京都」「神奈川県」などの都道府県名が分類され、「施設名カテゴリ」には「横浜駅」「横浜青葉インター」などの目的地設定における最終目的である目的地名が分類されることになる。

言語理解部５４は、カテゴリスコアが所定の閾値を超えているカテゴリから、理解結果として出力させる単語を一つずつ選択して、全ての組み合わせを検証する。言語理解部５４は、意味的に整合性のとれる組み合わせだけを理解結果候補とし、この理解結果候補を構成する単語の信頼度を足し合わせ、足し合わせた結果に理解結果候補を構成する単語数に応じた補正をして理解結果スコアを算出する。

言語理解部５４は、理解結果スコアが最大となる理解結果候補を理解結果として応答生成部５５に出力する。

応答生成部５５は、言語理解部５４から出力された理解結果に基づいて応答文を生成し、ＧＵＩ表示制御部５６、音声合成部５７に出力する。

ＧＵＩ表示制御部５６は、必要に応じて、ディスク読み取り装置４１を制御してディスク４０に格納されている地図データを読み出し、モニタ６０を介して地図を表示させたり、応答生成部５５で生成された応答文に即した応答内容をモニタ６０を介して表示させる。

音声合成部５７は、応答生成部５５によって生成される応答文に応じて、応答文に即したデジタル音声信号を合成し、当該音声合成部５７が備える図示しないＤ／Ａコンバータ、出力増幅器を介してスピーカ７０に出力する。

続いて、図５に示すフローチャートを用いて、制御装置５０による音声認識処理を開始してから応答文を出力するまでの処理動作について説明をする。なお、本フローチャートでは、ナビゲーション装置のメインタスクを経路探索をする際の目的地設定として説明をする。

まず、ステップＳ１において、ナビゲーション装置が起動されると、制御装置５０は、ディスク読み取り装置４１を制御してディスク４０から音声認識用辞書・文法を読み出し、メモリ３０の記憶領域３１に格納させる。

そして、ユーザがスイッチ１０を押下することで、入力制御部５１により音声認識開始が指示され、音声認識部５２は音声認識可能状態となる。これに応じて、音声認識部５２は、ユーザによって発話されマイク２０を介して入力され、図示しないＡ／Ｄコンバータでデジタル化された音声信号の取り込みを開始する。

音声認識部５２は、スイッチ１０が押下されるまでは、デジタル化された音声信号（以下、単にデジタル信号とも呼ぶ。）の平均パワーの演算を継続している。スイッチ１０が押下された後、この平均パワーに較べてデジタル信号の瞬時パワーが所定値以上に大きくなった時、ユーザが発話したと判断して、デジタル化された音声信号の取り込みが開始される。

ステップＳ２において、音声認識部５２は、取り込んだデジタル化された音声信号と、メモリ３０の記憶領域３１に構築された音声認識用辞書・文法が保持する待ち受け文とを比較して、音響的な尤度を計算することで音声認識処理を実行する。

音声認識部５２は、音響的な尤度の高い上位Ｎ個の認識結果候補とその尤度とを音声認識結果として単語信頼度演算部５３に出力する。この認識結果候補は、当該認識結果候補に含まれる各単語の読み方毎に与えられた、ディスク４０に格納されている図４に示す読みデータベースにおける識別コードである読みＩＤを尤度の高い順に並べた単語列として表される。

ステップＳ３において、単語信頼度演算部５３は、認識結果候補と各認識結果候補の尤度から、認識結果候補に含まれる全ての単語、つまり読みＩＤ毎の単語信頼度を算出する。

ステップＳ４において、言語理解部５４は、読みＩＤを用いて、単語信頼度演算部５３によって単語信頼度を算出された認識結果候補に含まれる全ての単語の詳細情報を、ディスク４０に格納されている固有名詞データベース、一般データベースから取り出す。

また、言語理解部５４は、ディスク４０に格納された読みデータベースの読みＩＤ毎に設定された類似単語読みリストから、単語信頼度を算出した単語の読みと、誤認識されやすい読み方をする類似単語の読みＩＤと、その誤認識されやすい程度を示した類似度とを取り出す。

ステップＳ５において、言語理解部５４は、ディスク４０の読みデータベースから取り出した類似単語の読みＩＤと類似度とを用いて、類似単語に対する単語信頼度を算出し、各類似単語に設定をする。これにより、言語理解部５４は、類似単語を、音声認識部５２による音声認識処理の結果、認識結果候補とされた単語と同じように、認識結果候補として扱えるようにする。

なお、言語理解部５４による類似単語への単語信頼度の設定手順については後で詳細に説明をする。

ステップＳ６において、言語理解部５４は、この時点までの対話の中で発話された可能性のある全ての単語の単語信頼度を修正する。

単語信頼度の修正は、認識結果候補中の他の単語との意味上の上下関係の有無や整合性などに応じて、ステップＳ３で算出した単語信頼度を上下させることで実行される。

例えば、第１の発話の認識結果候補中に「東京駅（とうきょうえき）」という単語があり、第２の発話の認識結果候補中に「東京都（とうきょうと）」がある場合、「東京都」と「東京駅」の間には上下関係が成り立つため、お互いの単語信頼度が強められ、単語信頼度が上がる方向で修正される。また、第１の発話の認識結果候補中に「東京駅（とうきょうえき）」ではなく、「京都駅（きょうとえき）」があった場合は、「東京都」と「京都駅」の間には上下関係が成り立たないため、お互いの単語信頼度が弱められ、単語信頼度が下がる方向で修正される。

ステップＳ７において、言語理解部５４は、類似単語も含めた認識結果候補に含まれる単語を意味上のまとまりであるカテゴリに分類し、同一カテゴリ内に属する単語の単語信頼度を足し合わることでカテゴリスコアを算出する。

ステップＳ８において、言語理解部５４は、算出したカテゴリスコアが所定の閾値を超えているカテゴリを選択する。

ステップＳ９において、言語理解部５４は、ステップＳ８において選択された各カテゴリから、理解結果となる単語を一つずつ選択して全ての組み合わせを検証し、理解結果の候補として出力する意味的に整合性のとれる組み合わせを探す。

ステップＳ１０において、言語理解部５４は、理解結果候補となる意味的に整合性の取れる組み合わせが一つ以上見つかったかどうかを判定する。言語理解部５４は、意味的に整合性の取れる組み合わせが一つ以上見つかった場合は、ステップＳ１１へと進め、一つも見つからなかった場合は、ステップＳ８へと戻り、再度カテゴリ選択をやり直す。

ステップＳ１１において、言語理解部５４は、各カテゴリから選択された単語の意味的に整合性の取れる組み合わせである各理解結果候補を構成する単語の単語信頼度を足し合わせ、足し合わせた結果に理解結果候補を構成する単語数に応じた補正をして理解結果スコアを算出する。そして、言語理解部５４は理解結果スコアが最大となる理解結果候補を、最良の理解結果として選択し応答生成部５５に出力する。

なお、言語理解部５４によるステップＳ６から、ステップＳ１１までの処理内容は、特開２００４−２５１９９８号公報で開示されている。

ステップＳ１２において、応答生成部５５は、言語理解部５４で生成された理解結果に基づいて応答表示内容及び応答文を生成し、それぞれＧＵＩ表示制御部５６、音声合成部５７に出力する。

応答生成部５５は、理解結果に応じて、例えば、目的地設定のために必要な情報が不足していれば不足する情報の入力を促す応答文を生成し、選択された理解結果を構成する単語の単語信頼度が低く、確認が必要と判断される場合には、理解内容の確認のための応答文を生成する。また、応答生成部５５は、目的地が確定した際には、目的地までの地図を検索し、表示させる旨を伝える応答文を生成する。

ステップＳ１３において、音声合成部５７は、応答生成部５５によって生成される応答文に応じて、応答文に即したデジタル音声信号を合成し、当該音声合成部５７が備える図示しないＤ／Ａコンバータ、出力増幅器を介してスピーカ７０に出力する。

ステップＳ１４において、ＧＵＩ表示制御部５６は、応答生成部５５によって生成される応答表示内容をモニタ６０上に表示するとともに、地図表示が必要であればディスク読み取り装置４１を使ってディスク４０から地図データを読み出し、モニタ６０に地図を表示させて一連の入力処理を終える。

（類似単語Ｗｎの単語信頼度設定手順：単語Ｗの単語信頼度から求める場合）
次に、図６に示すフローチャートを用いて、図５に示したフローチャートのステップＳ５における類似単語に単語信頼度を設定する際の手順について説明をする。

類似単語の単語信頼度を設定する手順について説明する前に、図５に示したフローチャートのステップＳ２において、音声認識部５２が音声認識処理を行った結果である認識結果候補リストＬｒ１の一例を図７に示す。図７に示すように、認識結果候補リストＬｒ１は、認識結果候補順位毎に、認識結果とその尤度とが記述されている。認識結果には、読みＩＤと単語の読み方とが示されている。

図７に示す例では、認識結果候補の第１位として、尤度が６０の認識結果「１１０４１（おくたま）」が選択されており、認識結果候補の第２位として、尤度が４０の認識結果「１１０４１（おくたま）＋１７０１１（えき）」が選択されている。

これに対して、図５に示したフローチャートのステップＳ３において、単語信頼度演算部５３が単語信頼度を計算した結果である単語信頼度リストＬｃの一例を図８に示す。図８に示すように、単語信頼度リストＬｃには、認識結果候補リストＬｒ１に記述された認識結果候補である単語の読みＩＤと単語の読み方と、計算された単語信頼度とが記述されている。

図８に示す例では、認識結果候補である「１１０４１（おくたま）」の信頼度が１．０、「１７０１１（えき）」の信頼度が０．４となっている。

図６に示すフローチャートでは、図５に示すフローチャートのステップＳ２おいて、図７に示すような認識結果候補リストＬｒ１が得られ、図８に示すような単語信頼度リストＬｃが得られたとして、ステップＳ５における類似単語の単語信頼度を設定する手順について説明をする。

まず、ステップＳ２１において、言語理解部５４は、単語信頼度演算部５３から出力された単語信頼度リストＬｃから、認識結果候補である単語を一つ取り出す。

例えば、本ステップで取り出した単語が、図８に示す単号信頼度リストＬｃの「１１０４１（おくたま）」であったとし、これを単語Ｗとする。

ステップＳ２２において、言語理解部５４は、ディスク４０に格納されている読みデータベースを参照し、ステップＳ２１で取り出した認識結果候補である単語（単語Ｗ）の類似単語の読みＩＤと、類似度とをリストにした類似単語読みリストＬｗを取り出す。

ステップＳ２３において、言語理解部５４は、取り出した類似単語読みリストＬｗから、類似単語Ｗｎを一つ取り出す。

図４に示す読みデータベースには、単語Ｗである「１１０４１（おくたま）」の類似単語リストとして、類似度が０．５の「１１０６１（おっぱま）」と、類似度が０．４の「１１０３１（たま）」が登録されているので、ここでは「１１０６１（おっぱま）」を類似単語Ｗｎとして取り出すことにする。

ステップＳ２４において、言語理解部５４は、ステップＳ２３で取り出した類似単語Ｗｎが単語信頼度リストＬｃに登録されているかどうかを判断する。ステップＳ２３において、「１１０６１（おっぱま）」を類似単語Ｗｎとして取り出した場合、言語理解部５４は、単語信頼度リストＬｃを参照して、読みＩＤが１１０６１の単語が既に登録されているかどうかを判断する。

言語理解部５４は、類似単語Ｗｎが単語信頼度リストＬｃに既に登録されている場合は、ステップＳ２２へと戻り、次の類似単語Ｗｎに関する処理を実行する。また、言語理解部５４は、類似単語Ｗｎが類似単語リストＬｃに登録されていない場合は、ステップＳ２５へと進める。

このステップＳ２４において、類似単語Ｗｎが、単語信頼度リストＬｃに存在するかどうかを調べる目的は、認識結果候補リストＬｒ１の中に現れなかったけれど、認識結果中に現れた単語に誤認識されやすい単語の可能性を調べることにあるため、認識結果候補リストＬｒ１から得られた単語信頼度リストＬｃに既に登録されていれば、この類似単語Ｗｎに関しては調べる必要がない。そのため、単語信頼度リストＬｃの中に同じ読みＩＤの単語が登録されていれば、次の類似単語Ｗｎを調べる。

ステップＳ２５において、言語理解部５４は、ステップＳ２３で取り出した類似単語Ｗｎが、単語リストＬｃに登録されていないことに応じて、今度は、この類似単語Ｗｎが、他の単語の類似単語Ｗｎとして既に類似単語ＷｎリストＬｎに登録されているかどうかを判断する。

言語理解部５４は、類似単語ＷｎリストＬｎに類似単語Ｗｎが登録されていない場合、ステップＳ２６へと進み、登録されている場合、ステップＳ２９へと進む。

ステップＳ２６において、言語理解部５４は、ステップＳ２３で取り出した類似単語Ｗｎが、類似単語リストＬｎに登録されていないことに応じて、ディスク４０の固有名詞データベース、一般データベースを参照し、この類似単語Ｗｎの詳細情報を取り出す。

ステップＳ２７において、言語理解部５４は、ディスク４０のデータベースから類似単語Ｗｎの詳細情報を取り出した後、この類似単語Ｗｎに対して単語信頼度を設定する。類似単語Ｗｎとして、読みＩＤが１１０６１の単語である「おっぱま」が選択されている場合、言語理解部５４は、この「おっぱま」に対して単語信頼度を設定することになる。

類似単語Ｗｎの単語信頼度は、図５に示すフローチャートのステップＳ３において求められた単語Ｗの単語信頼度を用い、さらに単語Ｗと類似単語Ｗｎの類似度をβとすると、以下に示す（２）式のように表すことができる。

類似単語Ｗｎの単語信頼度＝単語Ｗの単語信頼度 × β ・・・（２）

単語Ｗとして、読みＩＤが１１０４１の単語である「おくたま」が選択され、この単語Ｗと読み方が類似する類似単語Ｗｎとして、読みＩＤが１１０６１の「おっぱま」が選択され、単語信頼度演算部５３によって「おくたま」の単語信頼度が１．０と計算されたとする。このときの、類似単語Ｗｎである「おっぱま」の単語信頼度は、「おくたま」と「おっぱま」との類似度が、図４に示す読みデータベースより０．５であることから、（２）式を用いて、以下のように算出することができる。

「おっぱま」の単語信頼度＝「おくたま」の単語信頼度（１．０）×「おくたま」と「おっぱま」の類似度（０．５）＝０．５

ステップＳ２８のおいて、言語理解部５４は、単語信頼度を算出した類似単語Ｗｎの読みＩＤを、ディスク４０から取得した詳細情報と単語信頼度と共に類似単語リストＬｎに追加する。

ステップＳ２９において、言語理解部５４は、類似単語リストＬｎに、既に他の単語の類似単語として、類似単語Ｗｎが登録されていたことに応じて、類似単語リストＬｎの中の類似単語Ｗｎの単語信頼度を更新する。

言語理解部５４は、類似単語リストＬｎに既に登録されている類似単語Ｗｎの更新前単語信頼度を、図５に示すフローチャートのステップＳ３において求められた単語Ｗの単語信頼度、さらに単語Ｗと類似単語Ｗｎの類似度βを用いて、以下に示す（３）式により更新することができる。

Ｗｎの更新後単語信頼度＝Ｗｎの更新前単語信頼度＋Ｗの単語信頼度 × β ・・・（３）

右辺におけるＷｎの更新前単語信頼度とは、類似単語リストＬｎに登録されている類似単語のもつ単語信頼度で、βは単語Ｗと類似単語Ｗｎの類似度である。

（３）式に示すように、類似単語Ｗｎが、既に他の単語の類似単語Ｗｎとして類似単語リストに登録されている場合、その単語信頼度に今回の類似度の分を加算することで、新たな単語信頼度、つまり更新後の単語信頼度を計算することができる。

ステップＳ３０において、言語理解部５４は、類似単語Ｗｎに対して単語信頼度を設定した後、ステップＳ２２で取得された単語Ｗの類似単語読みリストＬｗを参照し、単語Ｗに対する全ての類似単語について単語信頼度を設定したかどうかを判定する。

言語理解部５４は、全ての類似単語Ｗｎの単語信頼度を設定した場合は、ステップＳ３１へと進み、まだ単語信頼度が設定されていない類似単語Ｗｎがある場合には、ステップＳ２２へと戻り、類似単語Ｗｎに対する単語信頼度の計算又は単語信頼度の更新処理を実行する。

ステップＳ３１において、言語理解部５４は、単語信頼度リストＬｃに登録されている全ての単語Ｗに対する類似単語Ｗｎについて単語信頼度を設定したかどうかを判定する。

言語理解部５４は、全ての単語Ｗに対する類似単語Ｗｎについて単語信頼度を設定した場合は、ステップＳ３２へと進む。また、言語理解部５４は、まだ類似単語Ｗｎに対する処理がなされていない単語Ｗが存在する場合には、ステップＳ２１へと戻り、ステップＳ２１〜ステップＳ３１までを繰り返す。

ステップＳ３２において、言語理解部５４は、単語信頼度リストＬｃに登録されている全ての単語Ｗに対する類似単語Ｗｎについて単語信頼度の設定が終了すると、類似単語リストＬｎの中身を単語信頼度リストＬｃに追加する。

図９に、図８で一例として示した単語信頼度リストＬｃに登録されている全ての単語Ｗに対応した類似単語の類似単語リストＬｎを示す。

図７に示した単語信頼度リストＬｃにおいて、読みＩＤが１１０４１の単語である「おくたま」には、図４に示す読みデータベースから分かるように、読みＩＤが１１０６１の単語である「おっぱま」と、読みＩＤが１１０３１の単語である「たま」との２つの類似単語が存在している。

また、図８に示した単語信頼度リストＬｃにおいて、読みＩＤが１７０１１の単語である「えき」には、図４に示す読みデータベースから分かるように、読みＩＤが１１０５１の単語である「うえき」という一つの類似単語が存在している。

これらは、図８に示す単語信頼度リストＬｃには登録されてない単語であるので、図９に示すように全て類似単語リストＬｎに追加されている。

図１０に、図９に示した類似単語リストＬｎの中身を、図８に示す単語信頼度リストＬｃに追加した例を示す。これにより、図５に示したフローチャートのステップＳ５よりも後の、ステップＳ６以降において、認識結果候補リストＬｒ１中の全ての単語Ｗに対する類似単語Ｗｎは、認識結果候補リストＬｒ１中の単語Ｗと同等に扱うことができるようになる。

このように、音声認識結果として得られる単語Ｗだけではなく、音声認識部５２による音声認識処理では漏れてしまったが、単語Ｗとは誤認識されやすい読み方をする類似単語Ｗｎを最終的な認識結果候補として扱うことができる。したがって、ユーザによる正当な発話であるのにも関わらず、認識結果候補を選択する過程で排除されてしまった場合でも、理解結果として選択される可能性を残すことができる。

また、認識対象語に、どの程度、誤認識されやすいかを数値化した類似度を用いて類似単語と、認識対象語の音響的な近さを示すことで、ユーザによって類似単語が発話された可能性を類似度に基づいて判断することができるため、正確な理解結果を生成することができる。

さらに、認識結果候補に含まれる単語の単語信頼度と、類似単語の単語信頼度をそれぞれ求めることで、同一の判断基準により各単語の発話可能性を判断することができるため、例えば、類似度が高い類似単語が認識結果候補に含まれていた場合に、その単語信頼度の高低に応じて発話された可能性を検証することができるため、より正確な理解結果を生成することができる。

（類似単語Ｗｎの単語信頼度設定手順：尤度から求める場合）
続いて、類似単語Ｗｎの単語信頼度を設定する際の別の手順について説明をする。上述した例では、認識結果候補リストＬｒ１中の単語Ｗとの類似度が高い類似単語Ｗｎの単語信頼度を、認識結果候補リストＬｒ１中の単語Ｗの単語信頼度から、（２）式又は（３）式を用いて算出していた。

これに対し、ユーザによって発話されマイク２０を介して入力された音声に対して、再度音声認識処理を実行し、音響的な尤度を求め、この尤度から類似単語Ｗｎの単語信頼度を算出する手法について説明をする。

図１１に示すフローチャートを用いて、図５に示したフローチャートのステップＳ５における類似単語Ｗｎの単語信頼度を設定する際の別な手順について説明をする。

なお、図１１において、類似単語Ｗｎが、類似単語リストＬｎに登録されているかどうかを調べるステップＳ４１〜ステップＳ４５までのステップは、上述した図６に示すフローチャートにおけるステップＳ２１〜ステップＳ２５までと全く同じであるため説明を省略する。

また、図１１に示したステップＳ４１〜ステップＳ５２までのステップの前段である図５に示すフローチャートのステップＳ１において、ユーザにより発話されマイク２０を介して入力されデジタル化された音声信号は、例えば、メモリ３０などに一時的にバッファリングされているものとする。

ステップＳ４６において、言語理解部５４は、ステップＳ２３で取り出した類似単語Ｗｎが、類似単語リストＬｎに登録されていないことに応じて、ディスク４０の固有名詞データベース、一般データベースを参照し、この類似単語Ｗｎの詳細情報を取り出す。

ステップＳ４７において、言語理解部５４は、この類似単語Ｗｎを類似単語リストＬｎに追加する。

ステップＳ４８において、言語理解部５４は、ディスク読み取り装置４１を制御して、この類似単語リストＬｎに追加された類似単語Ｗｎを必ず認識することができる文法を、ディスク４０から読み取りメモリ３０の記憶領域３１に格納させる。

これに応じて、音声認識部５２は、メモリ３０に一時的にバッファリングされているデジタル化された音声信号を読み出し、さらにメモリ３０の記憶領域３１に格納された類似単語Ｗｎを認識することができる文法と比較して、音響的な尤度を計算することで音声信号の認識処理を再度実行する。

ステップＳ４９において、言語理解部５４は、音声認識部５２によりデジタル化された音声信号に対する２度目の音声認識処理によって認識結果が得られたことに応じて、認識結果を尤度と共に認識結果リストＬｒ２に追加する。

ステップＳ５０において、言語理解部５４は、ステップＳ４２で取得された単語Ｗの類似読みリストＬｗを参照し、単語Ｗに対する全ての類似単語にＷｎについて単語信頼度を設定したかどうか判定をする。

言語理解部５４は、全ての類似単語Ｗｎの単語信頼度を設定した場合は、ステップＳ５１へと進み、まだ単語信頼度が設定されていない類似単語Ｗｎがある場合には、ステップＳ４２へと戻る。

なお、ステップＳ４５において、言語理解部５４は、類似単語Ｗｎが類似単語リストＬｎに存在すれば、既に類似単語Ｗｎを必ず受理する文法を用いた音声認識部５２による音声認識処理は行なわれているので、本ステップＳ５０へと進むことになる。

ステップＳ５１において、言語理解部５４は、単語信頼度リストＬｃに登録されている全ての単語Ｗに対する類似単語Ｗｎについて単語信頼度を設定したかどうかを判定する。

言語理解部５４は、全ての単語Ｗに対する類似単語Ｗｎについて単語信頼度を設定した場合は、ステップＳ５２へと進む。また、言語理解部５４は、まだ類似単語Ｗｎに対する処理がなされていない単語Ｗが存在する場合には、ステップＳ４１へと戻り、ステップＳ４１〜ステップＳ５１までを繰り返す。

ステップＳ５２において、単語信頼度演算部５３は、最初に音声信号を音声認識部５２で音声認識処理した結果である認識結果候補リストＬｒ１と、同じ音声信号を２回目に音声認識処理した結果である認識結果候補リストＬｒ２とを合わせた認識結果候補列から単語信頼度を算出する。

このようにして、音声対話装置は、ユーザによって発話されマイク２０を介して入力された音声に対して、再度音声認識処理を実行し、音響的な尤度を求め、この尤度から類似単語Ｗｎの単語信頼度を算出する。

これにより、音声対話装置は、最初の認識結果に含まれる認識結果候補中の単語の単語信頼度と、類似単語Ｗｎの単語信頼度とを比較しながら最適な理解結果を選択することができる。

（認識結果候補の拡張）
上述したように、本発明の実施の形態として示す音声対話装置は、単語Ｗと誤認識されやすい読み方をする類似単語Ｗｎを最終的な認識結果候補として扱うことができるが、単語Ｗと１対１で対応する類似単語Ｗｎばかりではなく、読み方の組み合わせによって単語Ｗと誤認識されやすい読み方となる類似句を用いることで、最終的な認識結果候補から漏れ出てしまう語句を低減させることができる。

図１２に、図４で示した読みデータベースを拡張し、読みＩＤごとの単語に対する類似句読みリストを付加した様子を示す。類似句とは、２語以上の単語を組み合わせた際の読み方が、対象となる単語の読み方と誤認識されやすく、類似度を有する単語列のことである。

例えば、図１２に示すように、読みＩＤが１１０５１の単語である「うえき」に対する類似句は、読みＩＤが１１０７１の単語である「しんぐう」と、読みＩＤが１７０１１の単語である「えき」とを組み合わせてなる「しんぐうえき」という単語列である。図１２に示すように、この類似句の類似度は、０．８となっている。

これにより、「うえき」という認識結果が得られた場合、「しんぐう」と「えき」が最終的な認識結果候補となる可能性があり、類似度より単語信頼度を算出し、その発話可能性を検証することができる。

したがって、ユーザによる正当な発話であるのにも関わらず、認識結果候補を選択する過程で排除されてしまった場合でも、理解結果として選択される可能性を残すことができる。

これとは逆に、認識結果候補に含まれる２語以上で構成される単語列と類似度の高い類似単語を用いることで、最終的な認識結果候補から漏れ出てしまう語句を低減させることもできる。

例えば、図１３に示すように、読みＩＤが１１０７１の単語である「しんぐう」と、読みＩＤが１７０１１の単語である「えき」とを組み合わせた単語列に対して、類似度の高い類似単語として、読みＩＤが１１０５１の単語である「うえき」を登録しておく。図１３に示すように、この類似単語の類似度は０．８となっている。

これにより、「しんぐう」「えき」という認識結果が得られた場合、単語列の一部である「うえき」が最終的な認識結果候補となる可能性があり、類似度より単語信頼度を算出し、その発話可能性を検証することができる。

したがって、この場合も、ユーザによる正当な発話であるのにも関わらず、認識結果候補を選択する過程で排除されてしまった場合でも、理解結果として選択される可能性を残すことができる。

なお、図１３に示すような２語以上で構成される単語列の類似度は、実際に認識し得る単語の組み合わせのみについてあらかじめ算出しておく。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。

本発明の実施の形態として示す音声対話装置の構成について説明するための図である。固有名詞データベースの一例を示した図である。一般データベースの一例を示した図である。読みデータベースの一例を示した図である。音声認識処理を開始してから応答文を出力するまでの処理動作について説明するためのフローチャートである。類似単語の単語信頼度を設定する手順について説明するためのフローチャートである。認識結果候補リストの一例を示した図である。単語信頼度リストの一例を示した図である。類似単語リストの一例を示した図である。類似単語リストを単語信頼度リストに追加した様子を示した図である。類似単語の単語信頼度を設定する手順について説明するためのフローチャートである。類似句読みリストを示した図である。２語以上で構成される単語列の類似単語及び類似度を示した図である。

符号の説明

１０スイッチ
２０マイク
３０メモリ
４０ディスク
５０制御装置
５１入力制御部
５２音声認識部
５３単語信頼度演算部
５４言語理解部
５５応答生成部
５６ＧＵＩ表示制御部
５７音声合成部
６０モニタ
７０スピーカ

Claims

発話された音声を入力する入力手段と、
前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段と、
前記入力手段によって入力された音声を前記認識対象語に基づき認識する音声認識手段と、
前記音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、前記記憶手段から前記類似単語を検出する検出手段と、
前記検出手段によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、
前記認識結果候補に含まれる単語及び前記検出手段によって検出された前記類似単語に対して、それぞれが発話された可能性を示す単語信頼度を算出し、前記類似単語の単語信頼度は、前記認識結果候補に含まれる単語の単語信頼度と、前記認識結果候補に含まれる単語と前記類似単語との類似度に基づいて算出する単語信頼度算出手段とを備え、
前記理解結果生成手段は、前記単語信頼度算出手段によって算出された単語信頼度に基づき、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成すること
を特徴とする音声対話装置。
前記類似単語と前記認識対象語との誤認識されやすさを、前記類似単語が前記認識対象語に、どの程度、誤認識されるのかを数値化した類似度により示すこと
を特徴とする請求項１記載の音声対話装置。
発話された音声を入力する入力手段と、
前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段と、
前記入力手段によって入力された音声を前記認識対象語に基づき認識する音声認識手段と、
前記音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、前記記憶手段から前記類似単語を検出する検出手段と、
前記検出手段によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段とを備え、
前記記憶手段は、前記音声の認識対象語と、前記認識対象語に誤認識されやすい２語以上の単語を組み合わせた単語列の類似句とを対応づけて記憶し、
前記検出手段は、前記音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、前記記憶手段から前記類似句を検出し、
前記理解結果生成手段は、前記検出手段によって検出された前記類似句を前記認識結果候補に加え、前記類似句を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成すること
を特徴とする音声対話装置。
発話された音声を入力する入力手段と、
前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段と、
前記入力手段によって入力された音声を前記認識対象語に基づき認識する音声認識手段と、
前記音声認識手段による認識結果である認識結果候補に含まれる単語に基づき、前記記憶手段から前記類似単語を検出する検出手段と、
前記検出手段によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段とを備え、
前記記憶手段は、前記音声の２語以上で構成される単語列の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶し、
前記検出手段は、前記音声認識手段による認識結果である認識結果候補に含まれる前記単語列に基づき、前記記憶手段から前記類似単語を検出し、
前記理解結果生成手段は、前記検出手段によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成すること
を特徴とする音声対話装置。
発話された音声を入力する入力工程と、
前記入力工程によって入力された音声を前記認識対象語に基づき認識する音声認識工程と、
前記音声認識工程による認識結果である認識結果候補に含まれる単語に基づき、前記音声の認識対象語と、前記認識対象語に誤認識されやすい類似単語とを対応づけて記憶する記憶手段から前記類似単語を検出する検出工程と、
前記検出工程によって検出された前記類似単語を前記認識結果候補に加え、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、
前記認識結果候補に含まれる単語及び前記検出工程によって検出された前記類似単語に対して、それぞれが発話された可能性を示す単語信頼度を算出し、前記類似単語の単語信頼度は、前記認識結果候補に含まれる単語の単語信頼度と、前記認識結果候補に含まれる単語と前記類似単語との類似度に基づいて算出する単語信頼度算出工程とを備え、
前記理解結果生成工程は、前記単語信頼度算出工程によって算出された単語信頼度に基づき、前記類似単語を加えた前記認識結果候補から、前記発話された音声に対する応答となる理解結果を生成すること
を特徴とする音声理解結果生成方法。