JP2012173432A

JP2012173432A - 音声対話装置および音声対話方法

Info

Publication number: JP2012173432A
Application number: JP2011033898A
Authority: JP
Inventors: Yuka Kobayashi; 優佳小林; Daisuke Yamamoto; 大介山本; Miwako Doi; 美和子土井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-02-18
Filing date: 2011-02-18
Publication date: 2012-09-10
Anticipated expiration: 2031-02-18
Also published as: JP5636309B2

Abstract

【課題】
正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成することで、システム応答文の生成に利用される共起の信頼度を向上させることである。
【解決手段】
実施形態の音声対話装置は、第１のシステム応答文に対するユーザの発声を認識する音声認識手段と、前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、前記形態素解析手段で得られた前記認識結果中の自立語と前記第１のシステム応答文中の自立語の共起を生成する共起生成手段と、自立語の共起および当該共起の共起スコアを記憶した共起辞書と、前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、前記共起スコア付与手段で付与された共起スコアを利用して、第２のシステム応答文を生成する応答文生成手段とを備える。
【選択図】図１

Description

本発明の実施形態は、音声対話装置および音声対話方法に関する。

音声認識を用いてユーザと音声で対話する音声対話装置において、ユーザの意図に即した対話をするために、単語の共起を利用して音声認識の誤りを回避する技術が提案されている。

例えば、会議室予約の音声対話装置において、ユーザの１つ前の発声の認識結果と現在の発声の認識結果が共起する確率を算出し、この共起確率が最も高い認識候補を現在の発声に対する認識結果として出力する方法が提案されている。また、認識結果中の各単語の認識尤度を求め、この認識尤度が低い単語および当該単語との共起確率が高い認識結果中の他の単語を認識結果から除外する方法が提案されている。

しかしながら、上述した方法では、音声認識の認識結果という不確実な情報に含まれる単語同士で共起を作成しており、認識誤り回避に利用される共起の信頼度が低下するという問題があった。

特開２００４−３５４７８７号公報特開２００３−２９７８２号公報

発明が解決しようとする課題は、正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成することで、システム応答文の生成に利用される共起の信頼度を向上させることである。

実施形態の音声対話装置は、第１のシステム応答文に対するユーザの発声を認識する音声認識手段と、前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、前記形態素解析手段で得られた前記認識結果中の自立語と前記第１のシステム応答文中の自立語の共起を生成する共起生成手段と、自立語の共起および当該共起の共起スコアを記憶した共起辞書と、前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、前記共起スコア付与手段で付与された共起スコアを利用して、第２のシステム応答文を生成する応答文生成手段とを備える。

第１の実施形態の音声対話装置を示すブロック図。実施形態の音声対話装置のハードウェア構成を示す図。実施形態の音声対話装置のフローチャート。実施形態の形態素解析結果を示す図。実施形態の共起と共起スコアを示す図。変形例１の形態素解析結果を示す図。変形例１の共起と共起スコアを示す図。変形例３の音声対話装置のハードウェア構成を示す図。変形例４の音声対話装置のハードウェア構成を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音声対話装置は、音声認識を用いてユーザと音声で対話する音声対話装置である。この音声対話装置は、ユーザ発声に対する認識誤りを回避するために、先に提示した第１のシステム応答文中の自立語と当該第１のシステム応答文に対するユーザ発声の認識結果中の自立語の共起を生成する。そして、当該共起の共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザ発声に応答するための第２のシステム応答文を生成する。このように、正確な情報を持つ（認識誤りを含まない）システム応答文中の自立語を用いて共起を生成することで、生成される共起の信頼度を向上させることができる。また、信頼度が高い共起を利用してシステム応答文を生成することにより、誤認識により対話が意図しない方向に進んでしまうことを防止する。

（全体のブロック構成）
図１は、第１の実施形態にかかる音声対話装置を示すブロック図である。本実施形態の音声対話装置は、ユーザの発声を認識する音声認識部１００と、ユーザに提示するシステム応答文を生成するシステム応答文生成部１０１と、システム応答文生成部１０１で生成されたシステム応答文を音声波形に変換する音声合成部１０７とを備える。ここで、システム応答文生成部１０１は、先に提示された第１のシステム応答文に対するユーザ発声の認識結果を受けて、次に提示する第２のシステム応答文を生成する。

システム応答文生成部１０１は、ユーザに先に提示したシステム応答文と音声認識部１００で得られた当該システム応答文に対するユーザ発声の認識結果を形態素解析する形態素解析部１０２と、形態素解析部１０２で得られたシステム応答文中の自立語と認識結果中の自立語の共起を生成する共起生成部１０３と、自立語同士の共起と当該共起の共起スコアを記憶した共起辞書１０５と、共起辞書１０５を用いて共起生成部１０３で生成された共起に共起スコアを付与する共起スコア付与部１０４と、共起スコア付与部１０４で付与された共起スコアが最も高くなる共起における前記認識結果中の自立語を利用して、ユーザに提示するシステム応答文を生成する応答文生成部１０６とを備える。このように、システム応答文生成部１０１は、共起スコア付与部１０４が付与した共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザに提示する次のシステム応答文を生成する。

（ハードウェア構成）
本実施形態の音声対話装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、ユーザの発声を取得するマイク２０６と、音声波形を再生して再生音を発生させるスピーカ２０７と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（各ブロックの説明）
音声認識部１００は、システム応答文に対するユーザの発声をマイク２０６で取得して音声認識する。本実施形態では、認識結果としてユーザ発声を認識して得られたテキストと当該テキストの認識尤度を取得する。なお、音声認識の開始は、操作部２０４の所定ボタンで指示することができる。

システム応答文生成部１０１は、ユーザに提示するシステム応答文を生成する。

音声合成部１０７は、システム応答文生成部１０１が生成したシステム応答文を音声波形に変換してスピーカ２０７から再生する。

システム応答文生成部１０１を構成する各ブロックの機能を説明する。形態素解析部１０２は、後述する応答文生成部１０６が生成したシステム応答文と音声認識部１００が出力した認識結果を形態素ごとに分割し、それぞれの形態素に対して品詞と読みを付与する。

共起生成部１０３は、形態素解析部１０２で得られたシステム応答文中の自立語と当該システム応答文に対するユーザ発声の認識結果中の自立語を組み合わせて共起を生成する。本実施形態では、正確な情報を持つシステム応答文中の自立語を用いて共起を生成することにより、認識結果という不確実な情報から共起を生成した場合と比べて、後述する応答文生成部１０６にとって信頼度の高い共起を生成できる。

共起スコア付与部１０４は、共起生成部１０３で生成された共起を後述する共起辞書１０５から検索し、当該共起に対して共起スコアを付与する。

共起辞書１０５は、Ｎ個（Ｎは自然数）の自立語から構成される共起と当該共起の共起スコアを記憶部２０２や外部記憶部２０３に記憶する。例えば、Ｎが２の場合は自立語Ａと自立語Ｂの共起スコアが、Ｎが３の場合は自立語Ａと自立語Ｂと自立語Ｃの共起スコアが、共起辞書１０５に記憶される。共起スコアは、対話履歴等のテキスト情報から学習する。例えば、Ｎが２の場合、テキスト情報から自立語Ａの頻度、自立語Ｂの頻度、自立語Ａおよび自立語Ｂが同じ文中に出現する頻度（自立語ＡＢの共起頻度）を計算する。共起スコアは、これらの頻度を利用した以下の係数のいずれかから計算できる。

simpson係数＝MIN(自立語ABの共起頻度/自立語Aの頻度、自立語ABの共起頻度/自立語Bの頻度)
cosine係数＝自立語ABの共起頻度/√(自立語Aの頻度*自立語Bの頻度)
Jaccard係数＝自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度-自立語ABの共起頻度)/2)
dice係数＝自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度)/2)
共起スコアは、上記の係数のように自立語Ａと自立語Ｂが組み合わせて使用される頻度が表現された指標であればよい。また、共起辞書１０５を、通信部２０５を介して接続された外部サーバの記憶部に保持するようにしてもよい。

応答文生成部１０６は、音声対話装置からユーザへの発話内容を表すシステム応答文を生成する。例えば、音声対話装置からの１回目のシステム応答文の場合は、「京都は何がいいの？」という応答文を生成して、ユーザとの音声対話を開始する。さらに、応答文生成部１０６は、ユーザ発声に応答する２回目以降のシステム応答文の生成に共起スコア付与部１０４で付与された共起スコアを利用する。具体的には、共起スコア付与部１０４で付与された共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザ発声に応答するためのシステム応答文を生成する。このように、正確な情報を持つシステム応答文中の自立語と当該システム応答文に対するユーザ発声の認識結果中の自立語で生成された信頼度の高い共起を利用してシステム応答文を生成することで、誤認識により対話が意図しない方向に進むことを防止する。

（フローチャート）
図３のフローチャートを利用して、本実施形態にかかる音声対話装置の処理を説明する。まず、音声対話装置は、音声対話を開始するためのシステム応答文を音声合成部１０７で音声波形に変換してスピーカ２０７から再生する（ステップＳ３１）。ここでは、先に提示するシステム応答文として、「京都は何がいいの？」が再生されたものとする。

次に、音声認識部１００はシステム応答文に対するユーザの発声を音声認識する（ステップＳ３２）。

ユーザ発声の音声認識が終了すると、認識尤度を用いて音声認識が正常に終了したか否かを判別する（ステップＳ３３）。認識尤度が閾値より低く音声認識が正常に終了していないと判別した場合は（ステップＳ３３のNoの分岐）、システム応答文として予め用意された定型文（例えば、「もう一度発声して下さい。」）を選択し（ステップＳ４３）、当該システム応答文を音声合成部１０７で音声波形に変換してスピーカ２０７から再生する（ステップＳ４１）。一方、認識尤度が閾値以上であり音声認識が正常に終了したと判別した場合は（ステップＳ３３のYesの分岐）、ステップＳ３１で再生されたシステム応答文およびステップＳ３２で得られた認識結果をそれぞれ形態素解析する（ステップＳ３４）。ここでは、ユーザの「お寺さん、古いお寺さんがたくさんあることです」という発声を認識した結果、「お寺さん大手がする予定が三はたくさんあることです」という認識結果が得られたものとする。図４は、システム応答文と認識結果を形態素解析した結果を表している。この図では、形態素解析結果として、表層語、基本形、読み、品詞を取得している。

次に、共起生成部１０３は、形態素解析部１０２で得られたシステム応答文および音声認識結果の形態素に自立語（動詞、名詞、形容詞、形容動詞）が含まれるか否かを判別する（ステップＳ３５）。ここで、自立語に限定するのは、助詞・助動詞等の意味を持たない品詞はどんな単語とも共起するため、これらの品詞の共起は後述するシステム応答文の生成における認識誤りの回避に寄与しないからである。また、自立語の中でも代名詞、数字、接尾辞のような意味を持たない品詞も除外する。図４のフォーカス４０１で囲まれた単語が自立語として選択された単語である。

自立語が含まれると判別された場合(ステップＳ３５のYesの分岐)、共起生成部１０３は、システム応答文中の自立語と認識結果中の自立語を組み合わせて共起を生成する(ステップＳ３６)。図５(a)は、システム応答文中の自立語である「京都」と認識結果中の自立語（「お寺」、「大手」、「する」、「予定」、「たくさん」、「ある」）を組み合わせて生成された共起を表している。ここでは、Ｎが２、つまり２つの自立語を組み合わせた共起を生成している。また、自立語の基本形を用いて共起を生成する。

次に、共起スコア付与部１０４は、生成された共起を共起辞書１０５の中から検索し、共起スコアを付与する（ステップＳ３７）。図５(b)は、各共起に付与された共起スコアを表している。

応答文生成部１０６は、ステップＳ３７で付与された共起スコアが最も高くなる共起を選択する（ステップＳ３８）。図５(b)の例では、（京都お寺）という共起が選択される。

次に、応答文生成部１０６は、ステップＳ３８で選択された共起の共起スコアが閾値より高いか否かを調べる（ステップＳ３９）。これは、信頼度が低い共起を排除するためである。共起スコアが閾値以上の場合（ステップＳ３９のYesの分岐）、選択された共起における認識結果中の自立語を用いてシステム応答文を生成する（ステップＳ４０）。図５(a)の（京都お寺）の共起からは、認識結果中の自立語として「お寺」を取得できる。この例では、応答文生成部１０６は、「お寺」という自立語を使用してシステム応答文を生成する。生成するシステム応答文としては、例えば、「お寺なんだね」、「へー、お寺ね」などの単なる相槌や、「お寺って？」「お寺は何がいいの？」などの質問文がある。このように、共起スコアが最も高くなる共起における認識結果中の自立語を利用することにより、認識誤りを含む認識結果から「お寺」という正しい認識結果の単語を使用してシステム応答文を生成することができる。

音声合成部１０７は、ステップＳ４０で生成されたシステム応答文を音声波形に変換してスピーカ２０７から再生する（ステップＳ４１）。

最後に、音声対話装置は、音声対話が終了したか否かを判別し（ステップＳ４２）、終了していなければステップＳ３２に戻ってステップＳ４１で提示されたシステム応答文に対する次のユーザ発声の音声認識を行う。

（効果）
このように、本実施形態にかかる音声対話装置は、正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成している。これにより、システム応答文の生成に利用される共起の信頼度を向上させることができる。

また、本実施形態にかかる音声対話装置は、共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザへのシステム応答文を生成している。これにより、認識誤りが原因となって対話が意図しない方向に進むことを防止することができる。

（変形例１）
第１の実施形態では、自立語の基本形を用いて共起を生成したが、自立語の読みを用いて共起を生成することもできる。システム応答文「京都は何がいいの？」に対するユーザ発声「紅葉がとてもいいと思います」を認識した結果、漢字の割り当てに失敗した「効用がとてもいいと思います」という認識結果が得られたとする。図６は、形態素解析部１０２での形態素解析結果を表している。

本変形例の共起生成部１０３は、システム応答文中の自立語と、認識結果中の自立語の読みを組み合わせて共起を生成する。図７(a)は、システム応答文中の自立語である「京都」と認識結果中の自立語の読み（「コウヨウ」、「イイ」、「オモウ」）を組み合わせて生成した共起を表している。次に、共起スコア付与部１０４は、生成された共起と同様な読みを持つ共起を共起辞書１０５の中から検索し、共起スコアを付与する。ここで、変形例１の共起辞書１０５では、Ｎ個（Ｎは自然数）の自立語から構成される共起とその共起スコアに加えて、当該共起の読みを記憶しておく。（京都コウヨウ）の場合、コウヨウと同様な読みを持つ共起として、（京都効用）、（京都高揚）、（京都紅葉）のように複数の共起を共起辞書１０５から検索することができる。図７(b)は、これらの共起に対する共起スコアを表している。応答文生成部１０６は、図７(b)の共起スコアが最も高くなる共起（京都紅葉）を選択する。そして、共起スコア（0.200）が閾値より高い場合は、共起（京都紅葉）を用いてシステム応答文（例えば、「へー、紅葉ね」など）を生成する。

このように、認識結果中の自立語の読みを用いて共起を生成することにより、漢字の割り当て誤りを含んだ認識結果に対しても正しいシステム応答文を生成することができる。

（変形例２）
共起辞書１０５は、複数の自立語からなる共起を含む辞書であるためサイズが膨大になり、共起スコア付与部１０４における検索時間が長くなることがある。検索時間を短くするためには、必要のない共起を共起辞書１０５から排除する必要がある。

共起辞書１０５の作成に使用したテキスト情報における出現頻度が高い自立語については、その自立語を含む共起が多く生成される。例えば、「する」という動詞は、「予定する」「使用する」「参加する」のように名詞と接続して頻繁に使用される。そのため、（予定する）、（使用する）、（参加する）のような「する」を含む共起が共起辞書１０５に多数登録される。また、「する」のようにテキスト情報での出現頻度が高い自立語は、実際の対話での使用頻度も高く、認識結果にも多く出現する。そのため、「する」を含む共起が生成され共起辞書１０５で検索される機会は非常に多い。しかし、このように出現頻度が高い自立語は、特定の自立語と組み合わされて使用されるよりも、様々な単語と組み合わされて使用されることが多いため、共起スコア自体はあまり高くならない。そのため、このような自立語から生成される共起は、応答文生成部１０６でのシステム応答文生成に寄与しない。そこで、本変形例では、出現頻度が所定の閾値より高い自立語から構成される共起を共起辞書１０５から予め除外しておくことで検索時間の短縮を図る。

また、テキスト情報での出現頻度ではなくidfを用いて除外対象となる共起を決定することもできる。idfは、共起辞書１０５を生成する際に使用したテキスト情報から（１）式で算出できる。

idf = log(全文数/自立語Aを含む文数) … (1)
idfが低い自立語は、どのような文でもまんべんなく使われる自立語である。そこで、idfが所定の閾値より低い自立語を含む共起を共起辞書１０５から予め除外しておくことで検索時間の短縮を図ることができる。

（変形例３）
システム応答文中の自立語と認識結果中の自立語から共起を生成するためには、それぞれの文章に自立語が含まれる必要がある。認識結果は音声対話装置が制御することはできないが、システム応答文は制御可能である。そこで、システム応答文に自立語を多く含ませることにより、共起生成部１０３で生成される共起を増やすことができる。これにより、有効な共起が生成される可能性を高めることができる。例えば、「京都は何がいいの？」という文章には「京都」「いい」という２つの自立語しか含まれないが、「京都のお勧めの観光地は何？」には「京都」「お勧め」「観光地」という３つの自立語が含まれるので、こちらの方が好ましい。

図８は、本変形例にかかる音声対話装置を示すブロック図である。この例では、システム応答文生成部１０１は、システム応答文を大量に記憶した発話文データベース１０８を備える。発話文データベース１０８は、音声対話装置の対話履歴を記憶してもよし、新聞記事やウェブ上のブログやニュースサイトなどの一般的な文章を記憶してもよい。応答文生成部１０６は、共起スコアが最も高くなる共起における認識結果中の自立語を含む文章を発話文データベース１０８から検索し、当該文章をシステム応答文として出力する。例えば、共起スコアが最も高くなる共起における認識結果中の自立語が「京都」であった場合、「京都」を含むシステム応答文の候補を発話文データベース１０８から検索する。検索結果として、複数の文章（例えば、「京都は何がいいの？」、「京都のお勧めの観光地は何？」）が得られた場合は、各文章中の自立語の数に応じて選択するシステム応答文を決定する。この例では、より多くの自立語を含む「京都のお勧めの観光地は何？」が選択される。

このように、自立語を多く含むシステム応答文を選択することにより、認識結果に含まれる自立語との関係において有効な共起が生成される可能性を高めることができる。

（変形例４）
認識結果中の自立語との関係において有効な共起を生成するため、システム応答文は共起スコアが高い共起に含まれる自立語を多く含む方が好ましい。例えば、自立語「する」を含む共起の共起スコアの平均が0.0001であり、自立語「行く」を含む共起の共起スコアの平均が0.0020である場合を考える。「京都では何をしたの？」には「京都」「する」という自立語が含まれ、「京都ではどこに行ったの？」には「京都」「行く」という自立語が含まれる。自立語「する」よりも自立語「行く」の方が共起スコアの平均が高く、認識結果中の自立語との関係において有効な共起が生成される可能性が高い。したがって、「京都ではどこに行ったの？」をシステム応答文として選択する。

図９が、本変形例にかかる音声対話装置を示すブロック図である。例えば、共起スコアが最も高くなる共起における認識結果中の自立語が「京都」であった場合を考える。発話文生成部１０６は、「京都」を含むシステム応答文候補を発話文データベース１０８から検索する。検索結果として、複数の文章（例えば、「京都では何をしたの？」、「京都ではどこに行ったの？」）が得られた場合、各文章中の自立語の共起スコアの平均に応じて選択するシステム応答文を決定する。この例では、認識結果中の自立語（「京都」）を除く「する」と「行く」の共起スコアの平均を比較する。共起スコアの平均は、共起辞書１０５から「する」と「行く」を含む共起の共起スコアを検索し、得られた共起スコアを平均することで得られる。また、予め共起辞書１０５に各自立語の共起スコアの平均値を記憶してもよい。この例では、「する」を含む共起の共起スコアの平均が0.0001、「行く」を含む共起の共起スコアの平均が0.0020であることから、システム応答文として「京都ではどこに行ったの？」が選択される。なお、１つのシステム応答文候補に自立語が複数含まれる場合は、すべての自立語の共起スコアの平均値を平均したものを用いてシステム応答文を選択することができる。

このように、システム応答文中に共起スコアの平均が高い自立語を含めることにより、認識結果中の自立語との関係において有効な共起が生成される可能性を高めることができる。なお、共起スコアの平均だけでなく、前述したシステム応答文中に含まれる自立語の数も用いてシステム応答文を選択するようにしてもよい。

（変形例５）
本実施形態では、形態素解析部１０２は、システム応答文に対しても形態素解析を行ったが、当該システム応答文中に含まれる単語の表層語、基本形、読み、品詞などが予め分かっている場合は、認識結果のみを形態素解析するようにしてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００音声認識部
１０１システム応答文生成部
１０２形態素解析部
１０３共起生成部
１０４共起スコア付与部
１０５共起辞書
１０６応答文生成部
１０７音声合成部
１０８発話文データベース
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０７スピーカ
２０８バス

Claims

第１のシステム応答文に対するユーザの発声を認識する音声認識手段と、
前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた前記認識結果中の自立語と前記第１のシステム応答文中の自立語の共起を生成する共起生成手段と、
自立語の共起および当該共起の共起スコアを記憶した共起辞書と、
前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、
前記共起スコア付与手段で付与された共起スコアを利用して、第２のシステム応答文を生成する応答文生成手段と、
を備える音声対話装置。
前記形態素解析手段が、前記第１のシステム応答文を更に形態素解析し、
前記共起生成手段が、前記形態素解析手段で得られた第１のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項１記載の音声対話装置。
前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起における前記認識結果中の自立語を利用して、ユーザに提示する第２のシステム応答文を生成する請求項１乃至請求項２記載の音声対話装置。
前記共起生成手段が、前記第１のシステム応答文中の自立語と、前記認識結果中の自立語の読みの共起を生成し、
前記共起辞書が、自立語の共起および当該共起の共起スコアに加えて、当該自立語の読みを記憶し、
前記共起スコア付与手段が、前記共起辞書を用いて、前記共起生成手段で生成された共起と同様な読みを持つ共起を検索すると共に当該検索された共起に共起スコアを付与し、
前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起を利用して、ユーザに提示する第２のシステム応答文を生成する請求項１乃至請求項２記載の音声対話装置。
前記共起辞書に記憶された共起および当該共起の共起スコアが、テキスト情報を利用して予め学習される請求項１から請求項４の何れか１項に記載の音声対話装置。
前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報での出現頻度が、予め決められた閾値より低い請求項５記載の音声対話装置。
前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報でのidfが、予め決められた閾値より大きい請求項５記載の音声対話装置。
前記応答文生成手段が、システム応答文中の自立語の数に応じて、前記ユーザに提示する第２のシステム応答文を生成する請求項１から請求項７の何れか１項に記載の音声対話装置。
前記応答文生成手段が、システム応答文中の自立語を含む共起の共起スコアに応じて、前記ユーザに提示する第２のシステム応答文を生成する請求項１から請求項８の何れか１項に記載の音声対話装置。
第１のシステム応答文に対するユーザの発声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果を形態素解析する形態素解析工程と、
前記形態素解析工程で得られた前記認識結果中の自立語と前記第１のシステム応答文中の自立語の共起を生成する共起生成工程と、
自立語の共起および当該共起の共起スコアを記憶した共起辞書を用いて、前記共起生成工程で生成された共起に共起スコアを付与する共起スコア付与工程と、
前記共起スコア付与工程で付与された共起スコアを利用して、ユーザに提示する第２のシステム応答文を生成する応答文生成工程と、
を備える音声対話方法。
前記形態素解析工程が、前記第１のシステム応答文を更に形態素解析し、
前記共起生成工程が、前記形態素解析工程で得られた第１のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項１０記載の音声対話方法。