JP6251958B2

JP6251958B2 - 発話解析装置、音声対話制御装置、方法、及びプログラム

Info

Publication number: JP6251958B2
Application number: JP2013013282A
Authority: JP
Inventors: 高橋　潤; 潤高橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2017-12-27
Anticipated expiration: 2033-01-28
Also published as: JP2014145842A

Description

開示の技術は、発話解析装置、発話解析方法、発話解析プログラム、音声対話制御装置、音声対話制御方法、及び音声対話制御プログラムに関する。

近年の計算機処理技術の発達に伴い、人間の発話を認識する音声認識技術を応用し、システムにおいてユーザの発話を解析し、ユーザとシステムとが対話を繰り返して、問題解決を行う音声対話システムが実現可能なった。

このような音声対話システムにおける利便性、つまりユーザビリティを向上させるためには、システムへの入力に誤りがある場合でも対話が円滑に進む必要がある。

具体的には、ユーザの発話に読み間違い、言い間違い、言い澱みなどが生じた場合でも、対話が円滑に継続する応答が必要となる。例えば、ユーザが「吹田市の観光案内」を要求した発話において、地名「吹田市（すいたし）」をユーザが言い間違えて「ふきたし」と発声した場合、音声認識により「ふきたし」が「吹き出し」と認識される場合がある。この場合、「吹き出し」という地名は存在しないため、音声対話システムでは、ユーザの発話を理解することができない。このような状態において最も単純な応答方法は、「該当する情報がありませんでした」と応答することであるが、これでは対話が継続しないため、ユーザビリティが向上しない。

そこで、認識結果単語列データの長さが所定値以上の場合に、テキスト単語列データ記憶部に記憶されているテキスト単語列データと認識結果単語列データとのマッチング処理を行って類似度を算出する手法が提案されている。この手法では、算出された類似度に基づいてテキスト単語列データを認識結果単語列の修正候補として選択している。

また、音声認識結果から選択された修正対象単語と、読み・音節記憶手段の単語とのマッチングを行い、単語単位の修正候補を生成する手法が提案されている。

また、商品名などの持つ文字系列の視覚的類似性や聴覚的類似性の尺度に基づいて、個々の商品名などがユーザによって文字列として入力された場合、その商品名などに対する読み間違いや聞き間違い易い類似品名を提示する装置が提案されている。

また、入力された音声波形を解析して変換した仮名文字列データを漢字文字列データに変換し、漢字文字列データに基づき、辞書データを用いて照合検索を行う手法が提案されている。

特開２０１２−１２８１８８号公報特開２０１２−２２２５１号公報特開２００６−８５５５６号公報特開平１１−２８２４９１号公報

しかし、従来技術の手法では、音声認識結果の単語と辞書や履歴内の単語との類似性を、表記や発音の類似性に基づいて判定し、音声認識結果の誤りを修正しているが、ユーザによる言い間違いには対応することができない。また、仮名文字列データを漢字文字列データに変換する手法では、カナ漢字変換で元に戻る単語のみ対応可能であるため、対応が限定的である。

開示の技術は、一つの側面として、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することが目的である。

開示の技術は、ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部を備えている。また、開示の技術は、前記不明瞭単語推定部により推定された不明瞭単語に対する正解単語を類推する単語類推部を備えている。単語類推部は、不明瞭単語と、漢字を含む単語を１文字または形態素毎に分解した要素毎の読みを各々組み合わせた複数の前記漢字を含む単語の読み間違い単語との類似性に基づいて、正解単語を類推する。また、開示の技術は、前記認識結果及び前記不明瞭単語に対する正解単語を含む出力データを出力する出力部を備えている。

開示の技術は、一つの側面として、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することができる、という効果を有する。

第１実施形態に係る発話解析装置の構成の一例を示すブロック図である。第１実施形態における読み間違い単語リストの生成を説明するための図である。発話解析装置及び音声対話制御装置として機能するコンピュータの一例を示す概略ブロック図である。第１実施形態における読み間違い単語リスト生成処理を示すフローチャートである。読み間違い単語リストの生成の他の例を説明するための図である。発話解析処理及び音声対話制御処理を示すフローチャートである。第１実施形態における不明瞭単語推定処理を示すフローチャートである。第１実施形態における単語類推処理を示すフローチャートである。第１実施形態における出力処理を示すフローチャートである。第２実施形態に係る音声対話システムの構成の一例を示すブロック図である。音声対話システムにおけるユーザ端末の一例を示すイメージ図である。第２実施形態に係る音声対話制御装置の構成の一例を示すブロック図である。アクション、対応する単語、及びパラメータの属性を対応付けたテーブルの一例を示す図である。アクション、パラメータ、及び不明瞭単語の推定を説明するための図である。類似単漢字リストの生成を説明するための図である。第２実施形態における読み間違い単語リストの生成を説明するための図である。第２実施形態における読み間違い単語リスト生成処理を示すフローチャートである。第２実施形態における意図推定処理を示すフローチャートである。第２実施形態における単語類推処理を示すフローチャートである。第２実施形態における出力処理を示すフローチャートである。第３実施形態に係る音声対話制御装置の構成の一例を示すブロック図である。補助情報リストとしての住所の木構造の一例を示す図である。補助情報リストとしての所属の木構造の一例を示す図である。第３実施形態における単語類推処理を示すフローチャートである。第３実施形態における補助情報付加処理を示すフローチャートである。第３実施形態における出力処理を示すフローチャートである。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。

〔第１実施形態〕
図１に、第１実施形態に係る発話解析装置１０を示す。発話解析装置１０は、ユーザの発話を示す音声データを入力として受け付け、ユーザの発話を解析した出力データを出力する。ここでの発話の解析とは、音声データの音声認識結果における不明瞭な単語に対して、ユーザの意図に沿った正解単語を類推することである。特に、ユーザの読み間違い、言い間違い、言い淀みなど（以下、これらをまとめて「読み間違い」という）が生じたと推定される単語を不明瞭な単語として取り扱う。

発話解析装置１０は、図１に示すように、音声認識部１１、不明瞭単語推定部１２、単語類推部１３、及び出力部１４を備えている。

音声認識部１１は、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。音声認識処理には、例えば、一般に知られているワードスポッティング（事前に登録された単語を抽出する方法）やディクテーション（事前に登録された単語、フレーズを抽出する方法）などを用いることができる。

不明瞭単語推定部１２は、音声認識部１１から出力された音声認識結果を形態素解析して単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。

また、不明瞭単語推定部１２は、形態素解析結果及び予め定めたルールに従って、ユーザの読み間違いにより不明瞭となっている不明瞭単語を推定する。不明瞭単語を推定するためのルールとしては、例えば、品詞や係り受け関係等に誤りがある等の文法的に誤った単語を不明瞭単語として推定する、といったルールを定めておくことができる。また、ユーザの発話の意図（テーマや目的）が予め分かっている場合には、その意図に沿ったルールを定めておいてもよい。さらに、不明瞭単語を推定するために予め大規模文書データ等を利用して学習した識別モデルを用いて、不明瞭単語を推定してもよい。

単語類推部１３は、不明瞭単語推定部１２で推定された不明瞭単語に対して、読み間違い単語リスト１５を参照して、ユーザの意図に沿った正解単語（正しい読みをした場合の単語）を類推する。読み間違い単語リスト１５は、正解単語に対して読み間違い単語を対応付けて登録したリストであり、読み間違い単語リスト生成装置５０により生成される。

読み間違い単語リスト生成装置５０は、図１に示すように、単漢字分解部５１、読み情報取得部５３、及び読み間違い単語生成部５４を備えている。

単漢字分解部５１は、単語リスト１６に登録された単語を１つずつ入力として受け付け、形態素解析や文字解析などの公知の技術を用いて単漢字に分解する。図２に示すように、例えば、「吹田市」という単語が入力された場合には、「吹」、「田」、及び「市」という単漢字に分解される。なお、単語リスト１６には、ユーザの発話内容の解析に必要な単語を予め登録しておく。ユーザの発話の意図が不明は場合には、あらゆる単語を登録しておくことができる。また、ユーザの発話の意図が分かっている場合には、その意図に沿った単語を登録しておいてもよい。

読み情報取得部５３は、単漢字分解部５１で分解された各単漢字について、例えば漢字辞書の読み情報を参照して、読み情報を取得する。上記の例では、単漢字「吹」について、「スイ」、「フ（ク）」、及び「フ（キ）」という読みが取得される。また、単漢字「田」について、「デン」、「タ」、及び「ダ」という読みが取得される。また、単漢字「市」について、「シ」及び「イチ」という読みが取得される。

読み間違い単語生成部５４は、読み情報取得部５３で取得された各単漢字の読みの各々の組み合わせを読み間違い単語として生成し、入力された単語を正解単語として対応付けて読み間違い単語リスト１５に登録する。上記の例では、「スイデンシ」、「スイダシ」、「フキタシ」、「フキダシ」・・・が読み間違い単語として生成される。なお、各単漢字の読みの組み合わせにおいて正解の読みとなる組み合わせは、読み間違い単語から除外する。

また、読み間違い単語リスト生成装置５０では、単漢字を一要素として読み情報を取得する場合について説明するが、単漢字分解以外の手法を用いて読み間違い単語リストを生成してもよい。例えば、形態素解析により分解された各形態素を一要素として、各要素の読み情報を取得して、単漢字毎の読み情報に追加してもよい。例えば、形態素を一要素とすると、
・伊丹市→伊丹（イタミ）／市（シ）
の「伊丹」のように複数の単漢字で固有の読み方をする場合にも対応できるようになり、単漢字の読みのみでは生成することができない読み間違い単語を生成することができる。

単語類推部１３は、具体的には、音声認識部１１の音声認識結果や不明瞭単語推定部１２の形態素解析結果から不明瞭単語の読みを取得する。そして、上記のように生成された読み間違い単語リスト１５から不明瞭単語の読みに一致する読み間違い単語を検索し、その読み間違い単語に対応付けられた正解単語を抽出する。

出力部１４は、音声認識結果内の不明瞭単語に、単語類推部１３で類推された正解単語の情報を付与した出力データを生成して出力する。例えば、「吹田市の観光案内」をユーザが言い間違えて「ふきたしの観光案内」と発声し、「吹き出しの観光案内」と音声認識された場合において、不明瞭単語「吹き出し」の正解単語が「吹田市」と類推されたとする。この場合、「吹き出し（正解：吹田市）の観光案内」のような出力データを生成することができる。また、類推した正解単語で不明瞭単語を置き換えた出力データを生成するようにしてもよい。

発話解析装置１０は、例えば図３に示すコンピュータ４０で実現することができる。コンピュータ４０はＣＰＵ４２、メモリ４４、不揮発性の記憶部４６、入出力インターフェース（Ｉ／Ｆ）４７、及びネットワークＩ／Ｆ４８を備えている。ＣＰＵ４２、メモリ４４、記憶部４６、入出力Ｉ／Ｆ４７、及びネットワークＩ／Ｆ４８は、バス４９を介して互いに接続されている。

記憶部４６はＨＤＤ（Hard Disk Drive）やフラッシュメモリ等によって実現できる。記録媒体としての記憶部４６には、コンピュータ４０を発話解析装置１０として機能させるための発話解析プログラム７０が記憶されている。ＣＰＵ４２は、発話解析プログラム７０を記憶部４６から読み出してメモリ４４に展開し、発話解析プログラム７０が有するプロセスを順次実行する。

発話解析プログラム７０は、音声認識プロセス７１、不明瞭単語推定プロセス７２、単語類推プロセス７３、及び出力プロセス７４を有する。

ＣＰＵ４２は、音声認識プロセス７１を実行することで、図１に示す音声認識部１１として動作する。また、ＣＰＵ４２は、不明瞭単語推定プロセス７２を実行することで、図１に示す不明瞭単語推定部１２として動作する。また、ＣＰＵ４２は、単語類推プロセス７３を実行することで、図１に示す単語類推部１３として動作する。また、ＣＰＵ４２は、出力プロセス７４を実行することで、図１に示す出力部１４として動作する。これにより、発話解析プログラム７０を実行したコンピュータ４０が、発話解析装置１０として機能することになる。

なお、発話解析装置１０は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、第１実施形態に係る発話解析装置１０の作用について説明する。まず、読み間違い単語リスト生成装置５０により、図４に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト１５が生成された状態で、発話解析装置１０に音声データが入力されると、ＣＰＵ４２が、記憶部４６に記憶された発話解析プログラム７０をメモリ４４に展開して、図６に示す発話解析処理を実行する。以下、各処理について詳述する。

図４に示す読み間違い単語リスト生成処理のステップ５０１で、単漢字分解部５１が、単語リスト１６に登録された単語を１つずつ入力として受け付ける。次に、ステップ５０２で、単漢字分解部５１が、上記ステップ５０１で受け付けた単語を、形態素解析や文字解析などの公知の技術を用いて単漢字に分解する。

次に、ステップ５０３で、読み情報取得部５３が、単漢字分解部５１で分解された各単漢字について、ステップ５０４のループ処理を実行する。ステップ５０４では、読み情報取得部５３が、例えば漢字辞書の読み情報を参照して、単漢字毎に読み情報を取得する。次に、ステップ５０５で、読み間違い単語生成部５４が、上記ステップ５０４で取得された各単漢字の読みの各々の組み合わせを読み間違い単語として生成する。そして、入力された単語を正解単語として対応付けて読み間違い単語リスト１５に登録して、読み間違い単語リスト生成処理を終了する。

上記の読み間違い単語リスト生成処理を、単語リスト１６に登録されている単語の全てについて実行する。なお、単漢字の読みがそれぞれ１種類しか存在しない場合、すなわち読みの組み合わせが１種類しか存在しない場合には、上記処理を途中で終了してもよい。

また、読みの組み合わせを他の正解単語の結果で流用できる場合は、流用してもよい。例えば、図５に、単漢字の読みが共通する部分を統合した木構造で読み間違いリストを生成した例を示す。図５の例では、「津市」の読みに「大」の読みである「オオ、ダイ」を組み合わせることにより、「大津市」の読み間違い単語が生成されている。この場合、読み間違い単語リストが統合されているため、読み間違い単語リストのサイズを小さくすることができる。

また、上記の読み間違い単語リスト生成処理では、読み間違い単語リストに登録する読み間違い単語が「読み」である場合について説明したが、読みの組み合わせから生成された単語を、一般的なカナ漢字変換技術などを用いて漢字に変換して登録してもよい。この場合、単語類推部１３で読み間違い単語リストを参照する際、不明瞭単語の読みを取得する必要がない。

次に、図６に示す発話解析処理のステップ１００で、音声認識部１１が、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。次に、ステップ２００で、不明瞭単語推定部１２が、後述する不明瞭単語推定処理を実行して不明瞭単語を推定する。次に、ステップ３００で、単語類推部１３が、後述する単語類推処理を実行して、不明瞭単語に対する正解単語を類推する。次に、ステップ４００で、出力部１４が、後述する出力処理を実行して、ユーザの発話を解析した出力データを出力する。

ここで、図７を参照して、不明瞭単語推定部１２により実行される不明瞭単語推定処理について説明する。ステップ２０１で、上記ステップ１００で出力された音声認識結果を受け付け、次に、ステップ２０２で、受け付けた音声認識結果を形態素解析して、単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。次に、ステップ２０３で、上記ステップ２０２の形態素解析結果及び予め定めたルールに従って、ユーザの言い間違いにより不明瞭となっている不明瞭単語を推定して、発話解析処理にリターンする。

次に、図８を参照して、単語類推部１３により実行される単語類推処理について説明する。ステップ３０１で、上記ステップ２０３で推定された不明瞭単語を受け付けて、音声認識結果や形態素解析結果から不明瞭単語の読みを取得する。次に、ステップ３０２で、読み間違い単語リスト生成装置５０により生成された読み間違い単語リスト１５から不明瞭単語の読みに一致する読み間違い単語を検索し、その読み間違い単語に対応付けられた正解単語を抽出して、発話解析処理にリターンする。

次に、図９を参照して、出力部１４により実行される出力処理について説明する。ステップ４０１で、上記ステップ１００の音声認識結果、及び上記ステップ３０２で類推された正解単語を受け付け、音声認識結果内の不明瞭単語に、正解単語の情報を付与した出力データを生成して出力し、発話解析処理にリターンする。

以上説明したように、第１実施形態に係る発話解析装置１０によれば、予め生成した読み間違い単語リストを参照して、音声認識結果内の不明瞭単語と読み間違い単語との類似性から正解単語を類推する。このため、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することができる。

開示の技術の発話解析装置により解析されたユーザの発話は、後述する第２及び第３実施形態に係る音声対話制御装置のような音声対話システムに適用することができる。また、ユーザの発話をログとして記録しておくような記録制御装置にも適用することができる。

〔第２実施形態〕
次に、第２実施形態について説明する。第２実施形態では、図１０に示すような音声対話システム２で用いられる音声対話制御装置２０について説明する。

音声対話システム２は、図１０に示すように、音声対話制御装置２０と、携帯電話等のユーザ端末９０とを備えている。音声対話制御装置２０とユーザ端末９０とはネットワーク等で接続されている。

ユーザ端末９０は、マイクなどの入力装置、及びスピーカや表示装置等の出力装置を備えている。ユーザがマイクに向かって発声すると、ユーザ端末９０では、発話を音声データ化し、音声対話制御装置２０に送信する。音声対話制御装置２０では、音声認識技術を用いて発話を認識し、対話制御により発話を解析し、必要に応じて外部サービスやＷｅｂ情報へアクセスし、ユーザの発話に対する応答文を作成する。応答文はテキストデータまたは音声合成技術を用いて音声データ化した出力データとしてユーザ端末９０へ送信する。ユーザ端末９０では、送信された出力データを受信して、テキストデータを表示装置へ表示したり、スピーカから音声データに基づく音声を再生したりする。

例えば、ユーザが「今日のニュースを教えて」と発声すると、ユーザ端末９０から音声対話制御装置２０へ、ユーザの発話を示す音声データが送信される。音声対話制御装置２０は、受信した音声データを音声認識し、ユーザの発話を解析し、ユーザが「知りたい情報：ニュース」、「日時：今日」を要求していることを理解する。音声対話制御装置２０は、理解したユーザの発話に応答するために、外部サービスやＷｅｂ情報を検索して、検索結果として今日のニュースを取得する。音声対話制御装置２０では、取得した情報に基づいて出力データ（テキストデータまたは音声データ）を生成し、ユーザ端末９０へ送信する。ユーザ端末９０では、受信した出力データに基づいて、今日のニュースを出力装置から出力する。なお、ユーザ端末９０には、図１１に示すように、出力データの表示領域９１や、音声入力、音声巻き戻し、音声停止、音声早送りなどのメニュー９２を追加することで、音声によるＷｅｂブラウザのような機能も利用可能となる。

音声対話制御装置２０は、図１２に示すように、音声認識部１１、意図推定部２２、単語類推部２３、及び出力部２４を備えている。意図推定部２２は、開示の技術の不明瞭単語推定部の一例である。なお、第１実施形態に係る発話解析装置１０と同一の部分については、同一符号を付して詳細な説明を省略する。

意図推定部２２は、音声認識部１１から出力された音声認識結果から対話の応答に必要な情報を抽出する。具体的には、意図推定部２２は、音声認識部１１から出力された音声認識結果を形態素解析して単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。

また、意図推定部２２は、分割した各単語から対話の応答に必要なアクション及びパラメータを推定する。アクションとは、ユーザの発話に対して、音声対話制御装置２０がどのような応答を行うかを定義したものである。例えば、「最新ニュースを取得」、「観光案内情報を取得」等がアクションである。また、パラメータとは、アクションの詳細情報を限定する情報であり、例えば、場所や日時等の情報である。

アクション及びパラメータの推定には、例えば、図１３に示すようなアクション、対応する単語、及びパラメータの属性を定めたテーブルを参照して行う。より具体的には、図１３に示すテーブルの「対応する単語」列の単語または単語列と、音声認識結果に含まれる単語または単語列とが一致する行の「アクション」を、本対話のアクションとして推定する。また、音声認識結果において、アクションを推定する際に用いられた単語または単語列との係り受け関係や単語間距離から、パラメータとなる単語を推定する。

例えば、図１４に示すように、音声認識結果が「吹き出しの観光案内」であった場合、意図推定部２２は、音声認識結果を「吹き出し／の／観光／案内」のように形態素解析し、単語毎に分割する。この場合、音声認識結果に「観光案内」という単語列が含まれているため、「観光案内」に対応するアクションとして、「観光案内情報を取得する」が推定される。また、音声認識結果内の「観光案内」との関係から「吹き出し」がパラメータとして推定される。

さらに、意図推定部２２は、推定したアクション及びパラメータに基づいて、不明瞭単語を推定する。具体的には、例えば図１３に示すように、アクションに対して取り得るパラメータの属性を定めておき、推定したパラメータが、予め定められたパラメータの属性に該当するか否かを判定する。推定したパラメータがアクションに対するパラメータの属性に該当しない場合には、そのパラメータとして推定された単語を不明瞭単語として推定する。例えば、図１４の例では、アクション「観光案内情報を取得する」のパラメータの属性は「地名、駅名など」であるが、推定したパラメータ「吹き出し」は、地名や駅名に該当しないため、「吹き出し」が不明瞭単語として推定される。

単語類推部２３は、さらに、表記の類似性判定部２３ａ、発音の類似性判定部２３ｂ、読み間違い類似性判定部２３ｃ、及び統合判定部２３ｄを備えている。

表記の類似性判定部２３ａは、意図推定部２２で推定された不明瞭単語に対して、単語リスト１６に登録された単語との表記の類似性から、正解単語を類推するためのスコアを算出する。表記の類似性の判定は、一般的な文字解析技術を用いた表記のマッチング処理により行うことができる。なお、マッチング処理において、比較する文字列長が異なる場合、文字長を伸縮させて比較を行う動的計画法マッチング（ＤＰマッチング法）を利用してもよい。このマッチング処理結果に基づくスコアを、単語リスト１６に登録された単語毎に算出する。ここで言うスコアとは、「表記的にどこまで似ているか」の信頼度を示す値であり、例えば「一致した表記文字数／不明瞭単語の表記文字数」として算出することができる。例えば、不明瞭単語「吹き出し」と単語リスト１６内の単語「吹田市」とのマッチング処理を行うと、「吹」の文字が一致するため、一致した表記文字数は１、不明瞭単語の表記文字数は「吹き出し」の４となり、スコアは１／４＝０．２５と算出することができる。また、表記の類似性判定部２３ａは、算出したスコアが所定の閾値ＴＨ１（例えば、ＴＨ１＝０）以上となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。

発音の類似性判定部２３ｂは、意図推定部２２で推定された不明瞭単語に対して、単語／発音リスト１７に登録された単語との発音の類似性から、正解単語を類推するためのスコアを算出する。単語／発音リスト１７は、単語とその単語の発音を示す発音記号（例えば読み仮名）とを対応付けて登録したものである。

具体的には、発音の類似性判定部２３ｂは、音声認識部１１による音声認識結果や意図推定部２２による形態素解析結果から、不明瞭単語の発音を示す発音記号を取得する。発音の類似性の判定は、単語／発音リスト１７を参照する点、及び表記ではなく発音記号を用いる点を除いて、表記の類似性の判定と同様である。マッチング処理結果に基づくスコアを、単語／発音リスト１７に登録された単語毎に算出する。ここで言うスコアとは、「発音的にどこまで似ているか」の信頼度を示す値であり、例えば「一致した発音数／不明瞭単語の発音数」として算出することができる。発音の場合、清音と濁音及び半濁音との相違は微小であるため、清音か濁音または半濁音かの相違の場合には、一致数を０．５としてカウントしてもよい。例えば、不明瞭単語の発音「フキダシ」と単語「秋田市」の発音「アキタシ」とを比較すると、一致または一致とみなせる発音は「ダ」と「タ」、「シ」と「シ」なので一致した発音数は１．５となる。また、不明瞭単語の発音数は「フキダシ」の４であり、スコアは１．５／４＝０．３７５と算出することができる。また、発音の類似性判定部２３ｂは、算出したスコアが所定の閾値ＴＨ２（例えば、ＴＨ２＝０）以上となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。

読み間違い類似性判定部２３ｃは、意図推定部２２で推定された不明瞭単語に対して、読み間違い単語リスト１５に登録された単語との読み間違いに基づく類似性から、正解単語を類推するためのスコアを算出する。読み間違いに基づく類似性の判定は、第１実施形態の単語類推部１３における正解単語の類推方法と同様である。ここで言うスコアとは、「不明瞭単語が読み間違い単語とどこまで似ているか」を示す値であり、表記の類似性のスコア及び発音の類似性のスコアと揃えるため、スコアは０または１とする。例えば、「吹田市」の読み間違い単語として「吹き出し」が読み間違い単語リスト１５に登録されている場合、不明瞭単語「吹き出し」に対する「吹田市」のスコアは１となる。また、読み間違い類似性判定部２３ｃは、算出したスコアが１となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。

なお、第２実施形態で用いる読み間違い単語リスト１５は、図１２に示す読み間違い単語リスト生成装置６０により生成される。読み間違い単語リスト生成装置６０は、第１実施形態で説明した読み間違い単語リスト生成装置５０に表記類似単語取得部６２を加えて構成されている。読み間違い単語リスト生成装置６０について、読み間違い単語リスト生成装置５０と異なる部分について説明する。

表記類似単語取得部６２は、単漢字分解部５１で分解された各単漢字について、表記が類似する単語を取得する。例えば、単語リスト１６から読み間違い単語リスト生成装置６０に単語「萩市」が入力されると、単漢字分解により「萩」及び「市」に分解される。表記類似単語取得部６２では、「萩」に表記が類似している「荻」を取得する。

表記が類似している単語の取得は、例えば図１５に示すように、事前に２つの同サイズの単漢字間の文字画像を示す基本画像と比較画像とのテンプレートマッチングによりマッチングスコアを算出しておく。このマッチングスコアが閾値ＴＨ３以上となる場合に、比較画像が示す単漢字を基本画像が示す単漢字の類似単漢字として類似単漢字リストに定めておく。この類似単漢字リストに定められた類似単漢字を表示が類似している単語として取得する。マッチングスコアＲは、例えば、下記（１）式により算出することができる。

ここで、Ａは基本画像の画像ベクトル、Ｂは比較画像の画像ベクトルとする。例えば、基本画像と比較画像とが同じサイズ（横ｘピクセル、縦ｙピクセル）であれば画像ベクトルはｘｙ次元のベクトルとなる。黒画素の値を１、白画素の値を０と設定すれば、マッチングスコアＲは０から１の値（高い値ほど類似している）となる。

読み情報取得部６３は、単漢字及び表記類似単語取得部６２で取得された類似単漢字の各々の読み情報を取得する。読み情報の取得方法は、第１実施形態における読み情報取得部５３と同様である。

読み間違い単語生成部６４は、第１実施形態における読み間違い単語生成部５４と同様に、各単漢字の読みの組み合わせから読み間違い単語を生成する。この際、図１６に示すように、各単漢字の類似単漢字の読みも含めた全ての組み合わせについて読み間違い単語を生成する。例えば、図１６に示すように、「萩」の類似単漢字である「荻」の読みを用いた「オギシ」も、「萩市」の読み間違い単語として生成されることになる。

統合判定部２３ｄは、表記の類似性判定部２３ａ、発音の類似性判定部２３ｂ、及び読み間違い類似性判定部２３ｃで算出されたスコアに基づいて、正解単語を類推する。具体的には、同一の候補単語についての各スコアから、統合スコアを算出する。統合スコアは、各スコアの合計でもよいし、乗算や対数和であってもよい。さらには、下記（２）式に示すように、各スコアに重みをつけて求めてもよい。

Ｓ＝ｗ０＊Ａ＋ｗ１＊Ｂ＋ｗ２＊Ｃ（２）

ここで、Ａ、Ｂ、及びＣは、表記の類似性のスコア、発音の類似性のスコア、及び読み間違い類似性のスコアであり、ｗ０、ｗ１、ｗ２は、各スコアに対する重みである。一般的に、ユーザが単語を読み間違えた場合、音声認識結果は読み間違えを元に認識結果を出力するため、表記が大きく異なる場合がある。したがって、ｗ０＝０．２、ｗ１＝０．３、ｗ２＝０．５のように各類似性に合わせて各スコアの重みを設定してもよい。

統合判定部２３ｄは、算出した統合スコアの高い順に候補単語をソートして、正解単語として出力する。大量の正解単語を出力しないように、統合スコアが閾値ＴＨ４（例えば、ＴＨ４＝０．５）以上の候補単語を正解単語として出力したり、統合スコアの上位最大Ｎ件（例えばＮ＝５）の候補単語を正解単語として出力したりしてもよい。

出力部２４は、意図推定部２２で推定されたアクション及びパラメータに基づいて、アクションを実行する。この際、推定されたパラメータが不明瞭単語であった場合には、不明瞭単語を単語類推部２３で類推された正解単語に置き換えた上で、アクションを実行する。アクション及びパラメータが複数存在する場合、一つのアクションを選択して実行してもよいし、複数のアクションを選択して実行してもよい。出力部２４は、アクションの実行により得られた情報に基づいて、応答文（テキストデータ）を生成する。なお、アクション及びパラメータが複数存在する場合には、アクションを実行する前に、「実行するアクションを次の中から選択してください」のような応答文を生成してもよい。

また、出力部２４は、生成した応答文の出力形態が表示装置への表示か、スピーカからの音声再生かを設定に基づいて判定する。表示装置への表示の場合には、生成した応答文を表示形式に対応した形式の出力データに変換して、ユーザ端末９０へ送信する。音声再生の場合には、一般的な音声合成処理により、テキストデータを音声データに変換して、ユーザ端末９０へ送信する。

音声対話制御装置２０は、第１実施形態の発話解析装置１０と同様に、例えば図３に示すコンピュータ４０で実現することができる。コンピュータ４０の記憶部４６には、コンピュータ４０を音声対話制御装置２０として機能させるための音声対話制御プログラム８０が記憶されている。ＣＰＵ４２は、音声対話制御プログラム８０を記憶部４６から読み出してメモリ４４に展開し、音声対話制御プログラム８０が有するプロセスを順次実行する。

音声対話制御プログラム８０は、音声認識プロセス７１、意図推定プロセス８２、単語類推プロセス８３、及び出力プロセス８４を有する。

ＣＰＵ４２は、音声認識プロセス７１を実行することで、図１２に示す音声認識部１１として動作する。また、ＣＰＵ４２は、意図推定プロセス８２を実行することで、図１２に示す意図推定部２２として動作する。また、ＣＰＵ４２は、単語類推プロセス８３を実行することで、図１２に示す単語類推部２３として動作する。また、ＣＰＵ４２は、出力プロセス８４を実行することで、図１２に示す出力部２４として動作する。これにより、音声対話制御プログラム８０を実行したコンピュータ４０が、音声対話制御装置２０として機能することになる。

なお、音声対話制御装置２０は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

次に、第２実施形態に係る音声対話制御装置２０の作用について説明する。まず、読み間違い単語リスト生成装置６０により、図１７に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト１５が生成された状態で、音声対話制御装置２０に音声データが入力されると、ＣＰＵ４２が、記憶部４６に記憶された音声対話制御プログラム８０をメモリ４４に展開して、図６に示す音声対話制御処理を実行する。以下、各処理について詳述する。なお、各処理において、第１実施形態における読み間違い単語リスト生成処理及び発話解析処理と同様のステップについては、同一符号を付して詳細な説明を省略する。

図１７に示す読み間違い単語リスト生成処理は、第１実施形態における読み間違い単語リスト生成処理のステップ５０３のループ処理内に、ステップ５２４が追加されている。ステップ５２４では、表記類似単語取得部６２が、事前に単漢字の文字画像間のテンプレートマッチングに基づくマッチングスコアにより定められた類似単漢字リストを参照して、ステップ５０３のループ処理の対象の単漢字と表記が類似する類似単漢字を取得する。次に、ステップ５０４では、単漢字の読み情報、及び類似単漢字の読み情報を取得し、以下、第１実施形態における読み間違い単語リスト生成処理と同様に処理して、読み間違い単語リスト１５を生成する。

次に、図６に示す音声対話制御処理のステップ１００で、音声認識部１１が、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。次に、ステップ２００で、意図推定部２２が、後述する意図推定処理を実行してアクション及びパラメータを推定すると共に、不明瞭単語を推定する。次に、ステップ３００で、単語類推部２３が、後述する単語類推処理を実行して、不明瞭単語に対する正解単語を類推する。次に、ステップ４００で、出力部２４が、後述する出力処理を実行して、ユーザの発話に対する応答を示す出力データを出力する。

ここで、図１８を参照して、意図推定部２２により実行される意図推定処理について説明する。ステップ２０１で、上記ステップ１００で出力された音声認識結果を受け付け、次に、ステップ２０２で、受け付けた音声認識結果を形態素解析する。次に、ステップ２２３で、上記ステップ２０２の形態素解析により分割された各単語から対話の応答に必要なアクション及びパラメータを推定する。次に、ステップ２２４で、上記ステップ２２３で推定したアクション及びパラメータに基づいて、不明瞭単語を推定して、音声対話制御処理にリターンする。

次に、図１９を参照して、単語類推部２３により実行される単語類推処理について説明する。ステップ３２１で、上記ステップ２２４で推定された不明瞭単語を受け付ける。次に、ステップ３２２で、表記の類似性判定部２３ａが、単語リスト１６に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ３２３へ移行し、単語リスト１６から新たな単語を取得して、不明瞭単語とのマッチング処理により、表記の類似性のスコアを算出する。次に、ステップ３２４で、表記の類似性のスコアが閾値ＴＨ１以上であれば、その単語を候補単語に追加して、ステップ３２２へ戻る。単語リスト１６に登録された全ての単語のチェックが終了すると、ステップ３２５へ移行する。

ステップ３２５では、発音の類似性判定部２３ｂが、単語／発音リスト１７に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ３２６へ移行し、単語／発音リスト１７から新たな単語の発音記号を取得する。また、音声認識結果や形態素解析結果から不明瞭単語の発音記号を取得して、単語／発音リスト１７の単語の発音記号とのマッチング処理により、発音の類似性のスコアを算出する。次に、ステップ３２７で、発音の類似性のスコアが閾値ＴＨ２以上であれば、その単語を候補単語に追加して、ステップ３２５へ戻る。単語／発音リスト１７に登録された全ての単語のチェックが終了すると、ステップ３２８へ移行する。

ステップ３２８では、読み間違い類似性判定部２３ｃが、読み間違い単語リスト１５に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ３２９へ移行し、読み間違い単語リスト１５から新たな単語を取得し、不明瞭単語と一致するか否かを示す読み間違いのスコア（一致：１、不一致：０）を算出する。次に、ステップ３３０で、読み間違い類似性のスコアが１であれば、その単語を候補単語に追加して、ステップ３２８へ戻る。読み間違い単語リスト１５に登録された全ての単語のチェックが終了すると、ステップ３３１へ移行する。

ステップ３３１では、統合判定部２３ｄが、同一の候補単語についての各スコアから、統合スコアを算出する。次に、ステップ３３２で、統合判定部２３ｄが、上記ステップ３３１で算出した統合スコアの高い順に候補単語をソートして出力して、音声対話制御処理にリターンする。

次に、図２０を参照して、出力部２４により実行される出力処理について説明する。ステップ４２１で、上記ステップ２２３で推定されたアクション及びパラメータ、並びに上記ステップ３３２で出力された正解単語を受け付ける。次に、ステップ４２２で、推定されたパラメータが不明瞭単語であった場合には、不明瞭単語を正解単語に置き換えた上で、アクションを実行する。次に、ステップ４２３で、アクションの実行により得られた情報に基づいて、応答文（テキストデータ）を生成する。

次に、ステップ４２４で、ユーザ端末９０への出力形態が表示形式か音声再生かを判定する。表示装置への表示の場合には、ステップ４２５へ移行し、生成した応答文を表示形式に対応した形式の出力データに変換する。音声再生の場合には、ステップ４２６へ移行し、一般的な音声合成処理により、テキストデータを音声データである出力データに変換する。次に、ステップ４２７で、上記ステップ４２５または４２６で変換された出力データを、ユーザ端末９０へ送信する。

以上説明したように、第２実施形態に係る音声対話制御装置２０によれば、表記の類似性及び発音の類似性も用いて正解単語を類推する。また、表記が類似する単漢字の読みも含めて生成した読み間違い単語リストを用いる。これにより、第１実施形態の場合と比較して、不明瞭単語に対する正解単語をより広い範囲で類推することができる。

なお、第２実施形態では、表記の類似性、発音の類似性、及び読み間違い類似性の全てを統合して正解単語を類推する場合について説明したが、少なくとも読み間違い類似性を用いればよく、表記の類似性及び発音の類似性はいずれか一方のみを用いてもよい。

〔第３実施形態〕
次に、第３実施形態について説明する。第３実施形態では、第２実施形態と同様に、図１０に示すような音声対話システム２で用いられる音声対話制御装置３０について説明する。

音声対話制御装置３０は、図２１に示すように、音声認識部１１、意図推定部２２、単語類推部３３、及び出力部３４を備えている。なお、第１実施形態に係る発話解析装置１０、及び第２実施形態に係る音声対話制御装置２０と同一の部分については、同一符号を付して詳細な説明を省略する。

単語類推部３３は、さらに、表記の類似性判定部２３ａ、発音の類似性判定部２３ｂ、読み間違い類似性判定部２３ｃ、統合判定部２３ｄ、及び補助情報付加部３３ｅを備えている。

補助情報付加部３３ｅは、統合判定部２３ｄから出力された正解単語の候補をユーザに提示する際に、補助情報リスト１８を参照して抽出した補助情報を正解単語の候補に付加する。

補助情報とは、単語が示す内容の理解を補助するための情報であり、予め単語と補助情報とを対応付けて補助情報リスト１８として記憶しておく。補助情報は、例えば、単語が示す内容の属性に従って単語を体系付けた木構造を利用して抽出することができる。この場合、この木構造が補助情報リスト１８となる。具体的には、利用する木構造に含まれる単語が正解単語の候補として類推された場合には、木構造におけるその単語の親要素を補助情報とすることができる。

より具体的に、住所の木構造を利用する場合について説明する。図２２に、住所の木構造の一部を示す。この住所の木構造は、上位階層から順に、「都道府県名」、「市区名」、及び「町名」に対応する単語が体系付けられている。例えば、「川崎市」が正解単語の候補として類推された場合には、「市区名」である「川崎市」の親要素は、「都道府県名」である「神奈川県」であるため、「川崎市」の補助情報は「神奈川県」となる。同様に、「吹田市」の補助情報は「大阪府」となる。また、図２３に、所属の木構造の一部を示す。この所属の木構造は、上位階層から順に、「会社名」、「部署名」、及び「社員名」に対応する単語が体系付けられている。例えば、「山田太郎」が正解単語の候補として類推された場合には、「社員名」である「山田太郎」の親要素は、「部署名」である「総務部」であるため、「山田太郎」の補助情報は「総務部」となる。同様に、「山田次郎」の補助情報は「営業部」となる。

このような補助情報を正解単語の候補に付加することにより、ユーザはシステムからの応答を理解し易くなるが、補助情報を付加し過ぎてしまうと、応答が冗長になってしまう。そこで、補助情報付加部３３ｅは、補助情報を付加するか否かを判定した上で、付加すると判定した場合に、補助情報を付加する。

例えば、補助情報付加部３３ｅは、統合判定部２３ｄで算出された統合スコアが所定範囲内の正解単語の候補が所定個以上存在する場合に、補助情報を付加すると判定することができる。これは、出力部３４で複数の候補が選択される場合を想定した処理である。

また、補助情報付加部３３ｅは、統合判定部２３ｄで算出された統合スコアが所定の閾値ＴＨ５より低い場合に、補助情報を付加すると判定することができる。統合スコアが低い場合、そもそも類推した正解単語の信頼性が低いため、補助情報を付加する必要がある。

また、補助情報付加部３３ｅは、表記の類似性のスコア及び発音の類似性のスコアが高い場合には、補助情報を付加せず、低い場合に補助情報を付加すると判定することができる。この場合の判定には、例えば、表記の類似性のスコアＡ、発音の類似性のスコアＢ、読み間違い類似性のスコアＣ、及び所定の閾値ＴＨ６を用いた下記（３）式の条件式を用いることができる。

Ａ＋Ｂ＞ＴＨ６＊Ｃ（３）

表記の類似性のスコア及び発音の類似性のスコアを算出する際のマッチング方法によれば、表記の類似性のスコア及び発音の類似性のスコアが高い場合には、不明瞭単語と推定された単語の間違いは軽微なものである可能性が高い。このため、補助情報を付加する必要はないと判定することができる。

補助情報付加部３３ｅは、上記のような判定基準を各々用いたり、組み合わせて用いたりして、補助情報を付加するか否かを判定する。

出力部３４は、実行するアクションを確認する応答文、すなわち、実行するアクションに対するパラメータが、単語類推部３３で類推された正解単語の候補か否かを問う応答文を生成する。この際、補助情報付加部３３ｅにより補助情報が付加されている場合には、補助情報を付加した応答文を生成する。例えば、「実行するアクションは大阪府吹田市の観光案内ですか？」のような応答文を生成する。また、出力部３４は、第２実施形態の出力部２４と同様に、ユーザ端末９０における出力データの出力形態が表示形式か音声再生かに基づいて応答文を変換した出力データを、ユーザ端末９０へ送信する。

さらに、出力部３４は、実行するアクションを確認する応答文に対するユーザの回答を受信する。受信した回答に基づいてアクションを実行し、アクションの実行結果に基づく応答文を生成し、第２実施形態の出力部２４と同様に、ユーザ端末９０に送信する。

音声対話制御装置３０は、第２実施形態に係る音声対話制御装置２０と同様に、例えば図３に示すコンピュータ４０で実現することができる。コンピュータ４０の記憶部４６には、コンピュータ４０を音声対話制御装置３０として機能させるための音声対話制御プログラム８０が記憶されている。ＣＰＵ４２は、音声対話制御プログラム８０を記憶部４６から読み出してメモリ４４に展開し、音声対話制御プログラム８０が有するプロセスを順次実行する。これにより、音声対話制御プログラム８０を実行したコンピュータ４０が、音声対話制御装置３０として機能することになる。

なお、音声対話制御装置３０は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

次に、第３実施形態に係る音声対話制御装置３０の作用について説明する。まず、読み間違い単語リスト生成装置６０により、図１７に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト１５が生成された状態で、音声対話制御装置３０に音声データが入力されると、ＣＰＵ４２が、記憶部４６に記憶された音声対話制御プログラム８０をメモリ４４に展開して、図６に示す音声対話制御処理を実行する。以下、各処理について詳述する。なお、各処理において、第１実施形態における読み間違い単語リスト生成処理及び発話解析処理、並びに第２実施形態における読み間違い単語リスト生成処理及び音声対話制御処理と同様のステップについては、同一符号を付して詳細な説明を省略する。

図２４に示す単語類推処理では、第２実施形態における単語類推処理のステップ３３２の後に、ステップ３３６が追加されている。ステップ３３６では、補助情報付加部３３ｅにより、図２５に示す補助情報付加処理が実行される。

図２５に示す補助情報付加処理のステップ３３６１で、上記ステップ３３５で出力された正解単語の候補のうち、未チェックの候補が存在するか否かを判定する。未チェックの候補が存在する場合には、ステップ３３６２へ移行し、未チェックの候補から新たな候補を取得する。次に、ステップ３３６３で、統合スコアが所定範囲内の正解単語の候補が所定個以上存在するか否か、すなわち統合スコアが近い候補が複数存在するか否かを判定する。存在する場合には、ステップ３３６６へ移行し、存在しない場合には、ステップ３３６４へ移行する。

ステップ３３６４では、統合スコアが所定の閾値ＴＨ５より低いか否かを判定する。統合スコア＜ＴＨ５の場合には、ステップ３３６６へ移行し、統合スコア≧ＴＨ５の場合には、ステップ３３６５へ移行する。ステップ３３６５では、表記の類似性のスコア及び発音の類似性のスコアが高いか否かを、例えば（３）式に示す条件式により判定する。表記の類似性のスコア及び発音の類似性のスコアが高い場合には、ステップ３３６６へ移行し、低い場合には、処理中の候補に補助情報を付加することなく、ステップ３３６１へ戻る。

一方、ステップ３３６６では、補助情報リスト１８を参照して補助情報を抽出し、処理中の候補に付加する。全ての候補についてチェックが終了した場合には、単語類推処理へリターンする。

次に、図２６を参照して、出力部３４により実行される出力処理について説明する。ステップ４３１で、上記ステップ２２３で推定されたアクション及びパラメータ、並びに上記ステップ３３６で補助情報付加処理が施された正解単語の候補を受け付ける。

次に、ステップ４３２で、上記ステップ４３１で受け付けた正解単語の候補を用いて、実行するアクションを確認する応答文を生成し、ユーザ端末９０に送信する。

次に、ステップ４３４で、上記ステップ４３２で送信した応答文に対するユーザの回答を受信したか否かを判定する。受信していない場合には受信するまで本ステップの判定を繰り返し、受信した場合には、ステップ４３５へ移行し、受信した回答に基づいてアクションを実行する。以降、第２実施形態の出力処理と同様に、アクションの実行結果に基づく応答文を生成して、ユーザ端末９０に送信する。

以上説明したように、第３実施形態に係る音声対話制御装置３０によれば、正解単語の各候補について、統合スコア及び各類似性のスコアに基づいて補助情報を付加するか否かを判定する。これにより、必要に応じて補助情報が付加された候補をユーザに提示することができるため、ユーザが対話をより理解し易くなる。

なお、第２及び第３実施形態では、音声対話システムにおいて、ユーザ端末との間で音声対話制御を行う音声対話制御装置について説明したが、ユーザ端末及び音声対話制御装置双方の機能を備えた単体の装置として音声対話制御装置を構成してもよい。

また、一般的な音声認識を行う音声認識装置を別途設け、開示の技術の発話解析装置または音声対話制御装置において、音声認識装置により音声認識された認識結果を入力として受け付けるようにしてもよい。この場合、発話解析装置及び音声対話制御装置の音声認識部１１を省略することができる。

また、開示の技術の発話解析装置及び音声対話制御装置は、読み間違い単語リスト生成装置の各機能部を含んで構成してもよい。

なお、上記では開示の技術における発話解析プログラムの一例である発話解析プログラム７０、及び開示の技術の音声対話制御プログラムの一例である音声対話制御プログラム８０が記憶部４６に予め記憶（インストール）されている態様を説明した。しかし、開示の技術における発話解析プログラム及び音声対話制御プログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記録媒体に記録されている形態で提供することも可能である。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部と、前記不明瞭単語推定部により推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推する単語類推部と、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する出力部と、を含む発話解析装置。

（付記２）
前記単語類推部は、複数の前記漢字を含む単語の各々について少なくとも１つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記１記載の発話解析装置。

（付記３）
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記１または付記２記載の発話解析装置。

（付記４）
前記単語類推部は、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記２または付記３記載の発話解析装置。

（付記５）
前記単語類推部は、前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記１〜付記４のいずれかに１つに記載の発話解析装置。

（付記６）
前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記１〜付記５のいずれか１つに記載の発話解析装置。

（付記７）
付記１〜付記５のいずれか１つに記載の発話解析装置を含み、前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力する音声対話制御装置。

（付記８）
前記単語類推部は、前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記７載の音声対話制御装置。

（付記９）
前記単語類推部は、前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも１つの場合に、前記正解単語の候補に前記補助情報を付加する付記８記載の音声対話制御装置。

（付記１０）
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力することを含む発話解析方法。

（付記１１）
複数の前記漢字を含む単語の各々について少なくとも１つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記１０記載の発話解析方法。

（付記１２）
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記１０または付記１１記載の発話解析方法。

（付記１３）
前記不明瞭単語と前記読み間違い単語との類似性として、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記１１または付記１２記載の発話解析方法。

（付記１４）
前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記１０〜付記１３のいずれかに１つに記載の発話解析方法。

（付記１５）
前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記１０〜付記１４のいずれか１つに記載の発話解析方法。

（付記１６）
付記１０〜付記１５のいずれか１つに記載の発話解析方法の各処理を含み、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力することを含む音声対話制御方法。

（付記１７）
前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記１６記載の音声対話制御方法。

（付記１８）
前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも１つの場合に、前記正解単語の候補に前記補助情報を付加する付記１７記載の音声対話制御方法。

（付記１９）
コンピュータに、ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力することを含む処理を実行するための発話解析プログラム。

（付記２０）
複数の前記漢字を含む単語の各々について少なくとも１つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記１９記載の発話解析プログラム。

（付記２１）
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記１９または付記２０記載の発話解析プログラム。

（付記２２）
前記不明瞭単語と前記読み間違い単語との類似性として、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記２０または付記２１記載の発話解析方法。

（付記２３）
前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記１９〜付記２２のいずれかに１つに記載の発話解析プログラム。

（付記２４）
前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記１９〜付記２３のいずれか１つに記載の発話解析プログラム。

（付記２５）
コンピュータに、付記１９〜付記２３のいずれか１つに記載の発話解析プログラムの各処理を含み、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力することを含む処理を実行するための音声対話制御プログラム。

（付記２６）
前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記２５記載の音声対話制御プログラム。

（付記２７）
前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも１つの場合に、前記正解単語の候補に前記補助情報を付加する付記２６記載の音声対話制御プログラム。

２音声対話システム
１０発話解析装置
１１音声認識部
１２不明瞭単語推定部
１３、２３、３３単語類推部
２３ａ表記の類似性判定部
２３ｂ発音の類似性判定部
２３ｃ読み間違い類似性判定部
２３ｄ統合判定部
３３ｅ補助情報付加部
１４、２４、３４出力部
１５読み間違い単語リスト
１６単語リスト
１７単語／発音リスト
１８補助情報リスト
２０、３０音声対話制御装置
２２意図推定部
４０コンピュータ

Claims

ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部と、
前記不明瞭単語推定部により推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推する単語類推部と、
前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する出力部と、
を含む発話解析装置。
前記単語類推部は、複数の前記漢字を含む単語の各々について少なくとも１つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする請求項１記載の発話解析装置。
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む請求項１または請求項２記載の発話解析装置。
前記単語類推部は、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める請求項２または請求項３記載の発話解析装置。
前記単語類推部は、前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する請求項１〜請求項４のいずれか１項記載の発話解析装置。
前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する請求項１〜請求項５のいずれか１項記載の発話解析装置。
請求項１〜請求項５のいずれか１項記載の発話解析装置を含み、
前記単語類推部は、前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、
前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する
音声対話制御装置。
請求項５記載の発話解析装置を含み、
前記単語類推部は、前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記不明瞭単語に対する正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも１つの場合に、前記正解単語の候補に該候補が示す内容の理解を補助するための補助情報を付加し、
前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する
音声対話制御装置。
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、
推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、
前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する
ことを含む発話解析方法。
コンピュータに、
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、
推定された不明瞭単語と、漢字を含む単語を１文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、
前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する
ことを含む処理を実行するための発話解析プログラム。