JP2012173432A - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP2012173432A
JP2012173432A JP2011033898A JP2011033898A JP2012173432A JP 2012173432 A JP2012173432 A JP 2012173432A JP 2011033898 A JP2011033898 A JP 2011033898A JP 2011033898 A JP2011033898 A JP 2011033898A JP 2012173432 A JP2012173432 A JP 2012173432A
Authority
JP
Japan
Prior art keywords
occurrence
response sentence
system response
score
independent word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011033898A
Other languages
English (en)
Other versions
JP5636309B2 (ja
Inventor
Yuka Kobayashi
優佳 小林
Daisuke Yamamoto
大介 山本
Miwako Doi
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011033898A priority Critical patent/JP5636309B2/ja
Publication of JP2012173432A publication Critical patent/JP2012173432A/ja
Application granted granted Critical
Publication of JP5636309B2 publication Critical patent/JP5636309B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】
正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成することで、システム応答文の生成に利用される共起の信頼度を向上させることである。
【解決手段】
実施形態の音声対話装置は、第1のシステム応答文に対するユーザの発声を認識する音声認識手段と、前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、前記形態素解析手段で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成手段と、自立語の共起および当該共起の共起スコアを記憶した共起辞書と、前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、前記共起スコア付与手段で付与された共起スコアを利用して、第2のシステム応答文を生成する応答文生成手段とを備える。
【選択図】図1

Description

本発明の実施形態は、音声対話装置および音声対話方法に関する。
音声認識を用いてユーザと音声で対話する音声対話装置において、ユーザの意図に即した対話をするために、単語の共起を利用して音声認識の誤りを回避する技術が提案されている。
例えば、会議室予約の音声対話装置において、ユーザの1つ前の発声の認識結果と現在の発声の認識結果が共起する確率を算出し、この共起確率が最も高い認識候補を現在の発声に対する認識結果として出力する方法が提案されている。また、認識結果中の各単語の認識尤度を求め、この認識尤度が低い単語および当該単語との共起確率が高い認識結果中の他の単語を認識結果から除外する方法が提案されている。
しかしながら、上述した方法では、音声認識の認識結果という不確実な情報に含まれる単語同士で共起を作成しており、認識誤り回避に利用される共起の信頼度が低下するという問題があった。
特開2004−354787号公報 特開2003−29782号公報
発明が解決しようとする課題は、正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成することで、システム応答文の生成に利用される共起の信頼度を向上させることである。
実施形態の音声対話装置は、第1のシステム応答文に対するユーザの発声を認識する音声認識手段と、前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、前記形態素解析手段で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成手段と、自立語の共起および当該共起の共起スコアを記憶した共起辞書と、前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、前記共起スコア付与手段で付与された共起スコアを利用して、第2のシステム応答文を生成する応答文生成手段とを備える。
第1の実施形態の音声対話装置を示すブロック図。 実施形態の音声対話装置のハードウェア構成を示す図。 実施形態の音声対話装置のフローチャート。 実施形態の形態素解析結果を示す図。 実施形態の共起と共起スコアを示す図。 変形例1の形態素解析結果を示す図。 変形例1の共起と共起スコアを示す図。 変形例3の音声対話装置のハードウェア構成を示す図。 変形例4の音声対話装置のハードウェア構成を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の音声対話装置は、音声認識を用いてユーザと音声で対話する音声対話装置である。この音声対話装置は、ユーザ発声に対する認識誤りを回避するために、先に提示した第1のシステム応答文中の自立語と当該第1のシステム応答文に対するユーザ発声の認識結果中の自立語の共起を生成する。そして、当該共起の共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザ発声に応答するための第2のシステム応答文を生成する。このように、正確な情報を持つ(認識誤りを含まない)システム応答文中の自立語を用いて共起を生成することで、生成される共起の信頼度を向上させることができる。また、信頼度が高い共起を利用してシステム応答文を生成することにより、誤認識により対話が意図しない方向に進んでしまうことを防止する。
(全体のブロック構成)
図1は、第1の実施形態にかかる音声対話装置を示すブロック図である。本実施形態の音声対話装置は、ユーザの発声を認識する音声認識部100と、ユーザに提示するシステム応答文を生成するシステム応答文生成部101と、システム応答文生成部101で生成されたシステム応答文を音声波形に変換する音声合成部107とを備える。ここで、システム応答文生成部101は、先に提示された第1のシステム応答文に対するユーザ発声の認識結果を受けて、次に提示する第2のシステム応答文を生成する。
システム応答文生成部101は、ユーザに先に提示したシステム応答文と音声認識部100で得られた当該システム応答文に対するユーザ発声の認識結果を形態素解析する形態素解析部102と、形態素解析部102で得られたシステム応答文中の自立語と認識結果中の自立語の共起を生成する共起生成部103と、自立語同士の共起と当該共起の共起スコアを記憶した共起辞書105と、共起辞書105を用いて共起生成部103で生成された共起に共起スコアを付与する共起スコア付与部104と、共起スコア付与部104で付与された共起スコアが最も高くなる共起における前記認識結果中の自立語を利用して、ユーザに提示するシステム応答文を生成する応答文生成部106とを備える。このように、システム応答文生成部101は、共起スコア付与部104が付与した共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザに提示する次のシステム応答文を生成する。
(ハードウェア構成)
本実施形態の音声対話装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、音声波形を再生して再生音を発生させるスピーカ207と、これらを接続するバス208とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(各ブロックの説明)
音声認識部100は、システム応答文に対するユーザの発声をマイク206で取得して音声認識する。本実施形態では、認識結果としてユーザ発声を認識して得られたテキストと当該テキストの認識尤度を取得する。なお、音声認識の開始は、操作部204の所定ボタンで指示することができる。
システム応答文生成部101は、ユーザに提示するシステム応答文を生成する。
音声合成部107は、システム応答文生成部101が生成したシステム応答文を音声波形に変換してスピーカ207から再生する。
システム応答文生成部101を構成する各ブロックの機能を説明する。形態素解析部102は、後述する応答文生成部106が生成したシステム応答文と音声認識部100が出力した認識結果を形態素ごとに分割し、それぞれの形態素に対して品詞と読みを付与する。
共起生成部103は、形態素解析部102で得られたシステム応答文中の自立語と当該システム応答文に対するユーザ発声の認識結果中の自立語を組み合わせて共起を生成する。本実施形態では、正確な情報を持つシステム応答文中の自立語を用いて共起を生成することにより、認識結果という不確実な情報から共起を生成した場合と比べて、後述する応答文生成部106にとって信頼度の高い共起を生成できる。
共起スコア付与部104は、共起生成部103で生成された共起を後述する共起辞書105から検索し、当該共起に対して共起スコアを付与する。
共起辞書105は、N個(Nは自然数)の自立語から構成される共起と当該共起の共起スコアを記憶部202や外部記憶部203に記憶する。例えば、Nが2の場合は自立語Aと自立語Bの共起スコアが、Nが3の場合は自立語Aと自立語Bと自立語Cの共起スコアが、共起辞書105に記憶される。共起スコアは、対話履歴等のテキスト情報から学習する。例えば、Nが2の場合、テキスト情報から自立語Aの頻度、自立語Bの頻度、自立語Aおよび自立語Bが同じ文中に出現する頻度(自立語ABの共起頻度)を計算する。共起スコアは、これらの頻度を利用した以下の係数のいずれかから計算できる。
simpson係数=MIN(自立語ABの共起頻度/自立語Aの頻度、自立語ABの共起頻度/自立語Bの頻度)
cosine係数=自立語ABの共起頻度/√(自立語Aの頻度*自立語Bの頻度)
Jaccard係数=自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度-自立語ABの共起頻度)/2)
dice係数=自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度)/2)
共起スコアは、上記の係数のように自立語Aと自立語Bが組み合わせて使用される頻度が表現された指標であればよい。また、共起辞書105を、通信部205を介して接続された外部サーバの記憶部に保持するようにしてもよい。
応答文生成部106は、音声対話装置からユーザへの発話内容を表すシステム応答文を生成する。例えば、音声対話装置からの1回目のシステム応答文の場合は、「京都は何がいいの?」という応答文を生成して、ユーザとの音声対話を開始する。さらに、応答文生成部106は、ユーザ発声に応答する2回目以降のシステム応答文の生成に共起スコア付与部104で付与された共起スコアを利用する。具体的には、共起スコア付与部104で付与された共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザ発声に応答するためのシステム応答文を生成する。このように、正確な情報を持つシステム応答文中の自立語と当該システム応答文に対するユーザ発声の認識結果中の自立語で生成された信頼度の高い共起を利用してシステム応答文を生成することで、誤認識により対話が意図しない方向に進むことを防止する。
(フローチャート)
図3のフローチャートを利用して、本実施形態にかかる音声対話装置の処理を説明する。まず、音声対話装置は、音声対話を開始するためのシステム応答文を音声合成部107で音声波形に変換してスピーカ207から再生する(ステップS31)。ここでは、先に提示するシステム応答文として、「京都は何がいいの?」が再生されたものとする。
次に、音声認識部100はシステム応答文に対するユーザの発声を音声認識する(ステップS32)。
ユーザ発声の音声認識が終了すると、認識尤度を用いて音声認識が正常に終了したか否かを判別する(ステップS33)。認識尤度が閾値より低く音声認識が正常に終了していないと判別した場合は(ステップS33のNoの分岐)、システム応答文として予め用意された定型文(例えば、「もう一度発声して下さい。」)を選択し(ステップS43)、当該システム応答文を音声合成部107で音声波形に変換してスピーカ207から再生する(ステップS41)。一方、認識尤度が閾値以上であり音声認識が正常に終了したと判別した場合は(ステップS33のYesの分岐)、ステップS31で再生されたシステム応答文およびステップS32で得られた認識結果をそれぞれ形態素解析する(ステップS34)。ここでは、ユーザの「お寺さん、古いお寺さんがたくさんあることです」という発声を認識した結果、「お寺さん大手がする予定が三はたくさんあることです」という認識結果が得られたものとする。図4は、システム応答文と認識結果を形態素解析した結果を表している。この図では、形態素解析結果として、表層語、基本形、読み、品詞を取得している。
次に、共起生成部103は、形態素解析部102で得られたシステム応答文および音声認識結果の形態素に自立語(動詞、名詞、形容詞、形容動詞)が含まれるか否かを判別する(ステップS35)。ここで、自立語に限定するのは、助詞・助動詞等の意味を持たない品詞はどんな単語とも共起するため、これらの品詞の共起は後述するシステム応答文の生成における認識誤りの回避に寄与しないからである。また、自立語の中でも代名詞、数字、接尾辞のような意味を持たない品詞も除外する。図4のフォーカス401で囲まれた単語が自立語として選択された単語である。
自立語が含まれると判別された場合(ステップS35のYesの分岐)、共起生成部103は、システム応答文中の自立語と認識結果中の自立語を組み合わせて共起を生成する(ステップS36)。図5(a)は、システム応答文中の自立語である「京都」と認識結果中の自立語(「お寺」、「大手」、「する」、「予定」、「たくさん」、「ある」)を組み合わせて生成された共起を表している。ここでは、Nが2、つまり2つの自立語を組み合わせた共起を生成している。また、自立語の基本形を用いて共起を生成する。
次に、共起スコア付与部104は、生成された共起を共起辞書105の中から検索し、共起スコアを付与する(ステップS37)。図5(b)は、各共起に付与された共起スコアを表している。
応答文生成部106は、ステップS37で付与された共起スコアが最も高くなる共起を選択する(ステップS38)。図5(b)の例では、(京都 お寺)という共起が選択される。
次に、応答文生成部106は、ステップS38で選択された共起の共起スコアが閾値より高いか否かを調べる(ステップS39)。これは、信頼度が低い共起を排除するためである。共起スコアが閾値以上の場合(ステップS39のYesの分岐)、選択された共起における認識結果中の自立語を用いてシステム応答文を生成する(ステップS40)。図5(a)の(京都 お寺)の共起からは、認識結果中の自立語として「お寺」を取得できる。この例では、応答文生成部106は、「お寺」という自立語を使用してシステム応答文を生成する。生成するシステム応答文としては、例えば、「お寺なんだね」、「へー、お寺ね」などの単なる相槌や、「お寺って?」「お寺は何がいいの?」などの質問文がある。このように、共起スコアが最も高くなる共起における認識結果中の自立語を利用することにより、認識誤りを含む認識結果から「お寺」という正しい認識結果の単語を使用してシステム応答文を生成することができる。
音声合成部107は、ステップS40で生成されたシステム応答文を音声波形に変換してスピーカ207から再生する(ステップS41)。
最後に、音声対話装置は、音声対話が終了したか否かを判別し(ステップS42)、終了していなければステップS32に戻ってステップS41で提示されたシステム応答文に対する次のユーザ発声の音声認識を行う。
(効果)
このように、本実施形態にかかる音声対話装置は、正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成している。これにより、システム応答文の生成に利用される共起の信頼度を向上させることができる。
また、本実施形態にかかる音声対話装置は、共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザへのシステム応答文を生成している。これにより、認識誤りが原因となって対話が意図しない方向に進むことを防止することができる。
(変形例1)
第1の実施形態では、自立語の基本形を用いて共起を生成したが、自立語の読みを用いて共起を生成することもできる。システム応答文「京都は何がいいの?」に対するユーザ発声「紅葉がとてもいいと思います」を認識した結果、漢字の割り当てに失敗した「効用がとてもいいと思います」という認識結果が得られたとする。図6は、形態素解析部102での形態素解析結果を表している。
本変形例の共起生成部103は、システム応答文中の自立語と、認識結果中の自立語の読みを組み合わせて共起を生成する。図7(a)は、システム応答文中の自立語である「京都」と認識結果中の自立語の読み(「コウヨウ」、「イイ」、「オモウ」)を組み合わせて生成した共起を表している。次に、共起スコア付与部104は、生成された共起と同様な読みを持つ共起を共起辞書105の中から検索し、共起スコアを付与する。ここで、変形例1の共起辞書105では、N個(Nは自然数)の自立語から構成される共起とその共起スコアに加えて、当該共起の読みを記憶しておく。(京都 コウヨウ)の場合、コウヨウと同様な読みを持つ共起として、(京都 効用)、(京都 高揚)、(京都 紅葉)のように複数の共起を共起辞書105から検索することができる。図7(b)は、これらの共起に対する共起スコアを表している。応答文生成部106は、図7(b)の共起スコアが最も高くなる共起(京都 紅葉)を選択する。そして、共起スコア(0.200)が閾値より高い場合は、共起(京都 紅葉)を用いてシステム応答文(例えば、「へー、紅葉ね」など)を生成する。
このように、認識結果中の自立語の読みを用いて共起を生成することにより、漢字の割り当て誤りを含んだ認識結果に対しても正しいシステム応答文を生成することができる。
(変形例2)
共起辞書105は、複数の自立語からなる共起を含む辞書であるためサイズが膨大になり、共起スコア付与部104における検索時間が長くなることがある。検索時間を短くするためには、必要のない共起を共起辞書105から排除する必要がある。
共起辞書105の作成に使用したテキスト情報における出現頻度が高い自立語については、その自立語を含む共起が多く生成される。例えば、「する」という動詞は、「予定する」「使用する」「参加する」のように名詞と接続して頻繁に使用される。そのため、(予定 する)、(使用 する)、(参加 する)のような「する」を含む共起が共起辞書105に多数登録される。また、「する」のようにテキスト情報での出現頻度が高い自立語は、実際の対話での使用頻度も高く、認識結果にも多く出現する。そのため、「する」を含む共起が生成され共起辞書105で検索される機会は非常に多い。しかし、このように出現頻度が高い自立語は、特定の自立語と組み合わされて使用されるよりも、様々な単語と組み合わされて使用されることが多いため、共起スコア自体はあまり高くならない。そのため、このような自立語から生成される共起は、応答文生成部106でのシステム応答文生成に寄与しない。そこで、本変形例では、出現頻度が所定の閾値より高い自立語から構成される共起を共起辞書105から予め除外しておくことで検索時間の短縮を図る。
また、テキスト情報での出現頻度ではなくidfを用いて除外対象となる共起を決定することもできる。idfは、共起辞書105を生成する際に使用したテキスト情報から(1)式で算出できる。
idf = log(全文数/自立語Aを含む文数) … (1)
idfが低い自立語は、どのような文でもまんべんなく使われる自立語である。そこで、idfが所定の閾値より低い自立語を含む共起を共起辞書105から予め除外しておくことで検索時間の短縮を図ることができる。
(変形例3)
システム応答文中の自立語と認識結果中の自立語から共起を生成するためには、それぞれの文章に自立語が含まれる必要がある。認識結果は音声対話装置が制御することはできないが、システム応答文は制御可能である。そこで、システム応答文に自立語を多く含ませることにより、共起生成部103で生成される共起を増やすことができる。これにより、有効な共起が生成される可能性を高めることができる。例えば、「京都は何がいいの?」という文章には「京都」「いい」という2つの自立語しか含まれないが、「京都のお勧めの観光地は何?」には「京都」「お勧め」「観光地」という3つの自立語が含まれるので、こちらの方が好ましい。
図8は、本変形例にかかる音声対話装置を示すブロック図である。この例では、システム応答文生成部101は、システム応答文を大量に記憶した発話文データベース108を備える。発話文データベース108は、音声対話装置の対話履歴を記憶してもよし、新聞記事やウェブ上のブログやニュースサイトなどの一般的な文章を記憶してもよい。応答文生成部106は、共起スコアが最も高くなる共起における認識結果中の自立語を含む文章を発話文データベース108から検索し、当該文章をシステム応答文として出力する。例えば、共起スコアが最も高くなる共起における認識結果中の自立語が「京都」であった場合、「京都」を含むシステム応答文の候補を発話文データベース108から検索する。検索結果として、複数の文章(例えば、「京都は何がいいの?」、「京都のお勧めの観光地は何?」)が得られた場合は、各文章中の自立語の数に応じて選択するシステム応答文を決定する。この例では、より多くの自立語を含む「京都のお勧めの観光地は何?」が選択される。
このように、自立語を多く含むシステム応答文を選択することにより、認識結果に含まれる自立語との関係において有効な共起が生成される可能性を高めることができる。
(変形例4)
認識結果中の自立語との関係において有効な共起を生成するため、システム応答文は共起スコアが高い共起に含まれる自立語を多く含む方が好ましい。例えば、自立語「する」を含む共起の共起スコアの平均が0.0001であり、自立語「行く」を含む共起の共起スコアの平均が0.0020である場合を考える。「京都では何をしたの?」には「京都」「する」という自立語が含まれ、「京都ではどこに行ったの?」には「京都」「行く」という自立語が含まれる。自立語「する」よりも自立語「行く」の方が共起スコアの平均が高く、認識結果中の自立語との関係において有効な共起が生成される可能性が高い。したがって、「京都ではどこに行ったの?」をシステム応答文として選択する。
図9が、本変形例にかかる音声対話装置を示すブロック図である。例えば、共起スコアが最も高くなる共起における認識結果中の自立語が「京都」であった場合を考える。発話文生成部106は、「京都」を含むシステム応答文候補を発話文データベース108から検索する。検索結果として、複数の文章(例えば、「京都では何をしたの?」、「京都ではどこに行ったの?」)が得られた場合、各文章中の自立語の共起スコアの平均に応じて選択するシステム応答文を決定する。この例では、認識結果中の自立語(「京都」)を除く「する」と「行く」の共起スコアの平均を比較する。共起スコアの平均は、共起辞書105から「する」と「行く」を含む共起の共起スコアを検索し、得られた共起スコアを平均することで得られる。また、予め共起辞書105に各自立語の共起スコアの平均値を記憶してもよい。この例では、「する」を含む共起の共起スコアの平均が0.0001、「行く」を含む共起の共起スコアの平均が0.0020であることから、システム応答文として「京都ではどこに行ったの?」が選択される。なお、1つのシステム応答文候補に自立語が複数含まれる場合は、すべての自立語の共起スコアの平均値を平均したものを用いてシステム応答文を選択することができる。
このように、システム応答文中に共起スコアの平均が高い自立語を含めることにより、認識結果中の自立語との関係において有効な共起が生成される可能性を高めることができる。なお、共起スコアの平均だけでなく、前述したシステム応答文中に含まれる自立語の数も用いてシステム応答文を選択するようにしてもよい。
(変形例5)
本実施形態では、形態素解析部102は、システム応答文に対しても形態素解析を行ったが、当該システム応答文中に含まれる単語の表層語、基本形、読み、品詞などが予め分かっている場合は、認識結果のみを形態素解析するようにしてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 音声認識部
101 システム応答文生成部
102 形態素解析部
103 共起生成部
104 共起スコア付与部
105 共起辞書
106 応答文生成部
107 音声合成部
108 発話文データベース
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス

Claims (11)

  1. 第1のシステム応答文に対するユーザの発声を認識する音声認識手段と、
    前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、
    前記形態素解析手段で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成手段と、
    自立語の共起および当該共起の共起スコアを記憶した共起辞書と、
    前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、
    前記共起スコア付与手段で付与された共起スコアを利用して、第2のシステム応答文を生成する応答文生成手段と、
    を備える音声対話装置。
  2. 前記形態素解析手段が、前記第1のシステム応答文を更に形態素解析し、
    前記共起生成手段が、前記形態素解析手段で得られた第1のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項1記載の音声対話装置。
  3. 前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起における前記認識結果中の自立語を利用して、ユーザに提示する第2のシステム応答文を生成する請求項1乃至請求項2記載の音声対話装置。
  4. 前記共起生成手段が、前記第1のシステム応答文中の自立語と、前記認識結果中の自立語の読みの共起を生成し、
    前記共起辞書が、自立語の共起および当該共起の共起スコアに加えて、当該自立語の読みを記憶し、
    前記共起スコア付与手段が、前記共起辞書を用いて、前記共起生成手段で生成された共起と同様な読みを持つ共起を検索すると共に当該検索された共起に共起スコアを付与し、
    前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起を利用して、ユーザに提示する第2のシステム応答文を生成する請求項1乃至請求項2記載の音声対話装置。
  5. 前記共起辞書に記憶された共起および当該共起の共起スコアが、テキスト情報を利用して予め学習される請求項1から請求項4の何れか1項に記載の音声対話装置。
  6. 前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報での出現頻度が、予め決められた閾値より低い請求項5記載の音声対話装置。
  7. 前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報でのidfが、予め決められた閾値より大きい請求項5記載の音声対話装置。
  8. 前記応答文生成手段が、システム応答文中の自立語の数に応じて、前記ユーザに提示する第2のシステム応答文を生成する請求項1から請求項7の何れか1項に記載の音声対話装置。
  9. 前記応答文生成手段が、システム応答文中の自立語を含む共起の共起スコアに応じて、前記ユーザに提示する第2のシステム応答文を生成する請求項1から請求項8の何れか1項に記載の音声対話装置。
  10. 第1のシステム応答文に対するユーザの発声を認識する音声認識工程と、
    前記音声認識工程で得られた認識結果を形態素解析する形態素解析工程と、
    前記形態素解析工程で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成工程と、
    自立語の共起および当該共起の共起スコアを記憶した共起辞書を用いて、前記共起生成工程で生成された共起に共起スコアを付与する共起スコア付与工程と、
    前記共起スコア付与工程で付与された共起スコアを利用して、ユーザに提示する第2のシステム応答文を生成する応答文生成工程と、
    を備える音声対話方法。
  11. 前記形態素解析工程が、前記第1のシステム応答文を更に形態素解析し、
    前記共起生成工程が、前記形態素解析工程で得られた第1のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項10記載の音声対話方法。
JP2011033898A 2011-02-18 2011-02-18 音声対話装置および音声対話方法 Expired - Fee Related JP5636309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011033898A JP5636309B2 (ja) 2011-02-18 2011-02-18 音声対話装置および音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011033898A JP5636309B2 (ja) 2011-02-18 2011-02-18 音声対話装置および音声対話方法

Publications (2)

Publication Number Publication Date
JP2012173432A true JP2012173432A (ja) 2012-09-10
JP5636309B2 JP5636309B2 (ja) 2014-12-03

Family

ID=46976405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011033898A Expired - Fee Related JP5636309B2 (ja) 2011-02-18 2011-02-18 音声対話装置および音声対話方法

Country Status (1)

Country Link
JP (1) JP5636309B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证
WO2020213767A1 (ko) * 2019-04-19 2020-10-22 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2004354787A (ja) * 2003-05-30 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム
JP2008180801A (ja) * 2007-01-23 2008-08-07 Kyushu Institute Of Technology 自動回答装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2004354787A (ja) * 2003-05-30 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム
JP2008180801A (ja) * 2007-01-23 2008-08-07 Kyushu Institute Of Technology 自動回答装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松本 宗也: "発話間単語共起関係に基づく補正信頼度を用いた音声認識", 言語処理学会第12回年次大会発表論文集, JPN6014039423, 13 March 2006 (2006-03-13), JP, pages 28 - 31, ISSN: 0002900995 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
WO2020213767A1 (ko) * 2019-04-19 2020-10-22 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
US11361765B2 (en) 2019-04-19 2022-06-14 Lg Electronics Inc. Multi-device control system and method and non-transitory computer-readable medium storing component for executing the same
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information

Also Published As

Publication number Publication date
JP5636309B2 (ja) 2014-12-03

Similar Documents

Publication Publication Date Title
US10489393B1 (en) Quasi-semantic question answering
KR102101044B1 (ko) 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
US7949532B2 (en) Conversation controller
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US10713289B1 (en) Question answering system
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JPWO2016067418A1 (ja) 対話制御装置および対話制御方法
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
US10970470B1 (en) Compression of machine learned models
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
US10553203B2 (en) Training data optimization for voice enablement of applications
JP5073024B2 (ja) 音声対話装置
US20150178274A1 (en) Speech translation apparatus and speech translation method
Ciobanu et al. Speech recognition and synthesis technologies in the translation workflow
JP5636309B2 (ja) 音声対話装置および音声対話方法
KR102106797B1 (ko) 복합 문장 분석 장치, 이를 위한 기록매체
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
Rezazadegan et al. Symbolic and statistical learning approaches to speech summarization: A scoping review
KR20200101891A (ko) 복합 문장 분석 장치, 이를 위한 기록매체
JP2009198871A (ja) 音声対話装置
Zhou et al. Using paralinguistic information to disambiguate user intentions for distinguishing phrase structure and sarcasm in spoken dialog systems
KR102147670B1 (ko) 복합 문장 분석 장치, 이를 위한 기록매체
US11900072B1 (en) Quick lookup for speech translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141020

R151 Written notification of patent or utility model registration

Ref document number: 5636309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees