JP2002278589A - 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体 - Google Patents

音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体

Info

Publication number
JP2002278589A
JP2002278589A JP2001082632A JP2001082632A JP2002278589A JP 2002278589 A JP2002278589 A JP 2002278589A JP 2001082632 A JP2001082632 A JP 2001082632A JP 2001082632 A JP2001082632 A JP 2001082632A JP 2002278589 A JP2002278589 A JP 2002278589A
Authority
JP
Japan
Prior art keywords
user
request
confirmation
voice
user request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001082632A
Other languages
English (en)
Other versions
JP3576116B2 (ja
Inventor
Yoshihito Yasuda
宜仁 安田
Kouji Dousaka
浩二 堂坂
Kiyoaki Aikawa
清明 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001082632A priority Critical patent/JP3576116B2/ja
Priority to US10/059,884 priority patent/US7251595B2/en
Publication of JP2002278589A publication Critical patent/JP2002278589A/ja
Application granted granted Critical
Publication of JP3576116B2 publication Critical patent/JP3576116B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者との対話のやりとりの回数を小さくす
る音声対話装置を提供する。 【解決手段】 ユーザの音声を入力し、音声認識して文
字列に変換する手段110、文字列を装置内部の理解状
態に変換する手段120、理解状態を入力として、ユー
ザ要求の確率分布を推定する手段130と、確認対象の
語彙を入力として、特定の項目に関しての確認の最中で
の期待される音声認識率を推定する手段140、理解状
態と特定のユーザ要求種を入力とし、推定された音声認
識率をもとに、ユーザ要求を特定のもと仮定した場合の
期待ターン数を推定する手段150、推定したユーザ要
求の確率分布と期待ターン数を入力として、装置の次の
確認あるいは要求を表わす確認内容を決定する手段16
0、確認内容を音声に変換して出力する手段170を具
備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声対話装置に関
し、詳しくは、音声によるやりとりによってユーザの要
求を確認し、ユーザの要求を処理するにあたり、ユーザ
とのやりとりの回数(ターン数)を少なくする技術に関
する。
【0002】
【従来の技術】音声対話装置では、通常、ユーザの発話
内容は音声認識を経て理解され、ユーザの要求内容を決
定していく。しかしながら、音声認識には限界があり、
認識結果には誤りが含まれている可能性がある。したが
って、音声対話装置がユーザの要求内容を確定するため
には、音声認識結果だけに頼らずに、装置が理解した発
話内容をユーザに確認する必要がある。
【0003】また、音声対話装置が受け付け可能な語彙
・言い回しとユーザの発話に齟齬がある場合などには、
装置に伝わった範囲の情報では、仮にすべてを確認し終
えたとしても、ユーザの要求内容がはっきりしない場合
がある。こういった場合には、音声対話装置はユーザに
対して情報を要求することが必要となる。
【0004】このような音声対話装置からの確認や情報
の要求によって発生する装置とユーザとの間の一連のや
りとりは確認対話と呼ばれる。処理できる内容(タス
ク)が変われば、確認対象も変わる。タスクが変更され
た場合でも、対話のやりとりの回数を増やさずに確認を
行う方法が必要である。
【0005】従来、タスクが変更された場合でも、対話
のやりとりの回数を増やさずに動作する音声対話装置で
は、受け付け可能な要求が1つに限定されていた。
【0006】また、他の従来技術としては、少ない手間
で対話を行い、複数の要求を受けつけるものがあった。
しかし、タスクが変更された場合に人手により規則を記
述する必要があり、タスクが変更された場合に自動的に
対話のやりとりの回数(ターン数)を増やさないような
確認手順に適応できるものではなかった。
【0007】
【発明が解決しようとする課題】このように、従来の技
術でタスクが変更された場合でも、ユーザの手間を増や
さずに確認を行うためには、予め処理できるユーザの要
求内容の種類を1つに定めておく必要があった。しか
し、実際にはこういった制約があると実用的ではない。
【0008】例えばビデオ管理を音声対話装置を用いて
行う場合には、少なくとも「予約」、「予約の変更」、
「予約の確認」程度は行えなければならない。これらだ
けでもすでに3つの要求を受けつけることができなけれ
ばならないことになる。受け付け可能な要求が複数にな
った場合には、要求によって確認する内容が異なってく
るので、事前に決めておいた手順で確認するわけにはい
かない。
【0009】また、複数の要求を受け付け可能で少ない
手間で対話を行える従来技術は、タスクを変更した場合
には人手で規則を記述する必要があった。
【0010】本発明の目的は、これら従来技術の制限を
なくし、複数の処理内容を受けつけることができる音声
対話装置において、タスクが変更された場合であって
も、少ない対話のターン数で、利用者の要求を把握でき
るタスク適応型高率対話処理を実現することにある。
【0011】
【課題を解決するための手段】本発明による音声対話装
置は、ユーザ要求を特定のものに仮定した場合のユーザ
要求確認終了までの期待ターン数と、各時点における装
置の理解状態に対するユーザ要求の確率分布を利用し
て、対話終了までの期待ターン数ができるだけ小さくな
るように装置の行動を決定することを主要な特徴とする
ものである。
【0012】音声対話装置の理解状態は属性(項目名、
「曜日」「場所」「面会相手」など)と値(「月曜日」
「第三会議室」「山田課長」など)およびその値の確か
らしさの集合で表わされているとし、このときの属性の
ことをスロットと呼ぶ。ユーザ要求終了までの期待ター
ン数を得るために、特定スロット群を確認するための期
待ターン数を推定する。このターン数はスロット認識率
という特定のスロット群について確認をしている際の音
声認識率を利用して求まる。
【0013】たとえ確率の高いユーザ要求があったとし
ても、その碓認のために必要なターン数が膨大であるの
であれば、多少確率が低くても短いターン数で確認をし
終えることのできる要求があるのであれば、まずその要
求についての確認を行うことは、たとえ結果的にユーザ
の要求が異なっていたとしても、対話終了までの期待タ
ーン数は短くすることができる場合がある。本発明で
は、各ユーザ要求の確率と各ユーザ要求までのターン数
の期待値を使って、すべての確認順序の中で、もっとも
期待ターン数が小さくなるような確認内容を選択でき
る。さらに、本発明では、タスクが変わった場合でも、
設計者は新たに規則を記述する必要はない。
【0014】
【発明の実施の形態】以下、本発明の一実施例について
図面により具体的に説明する。図1は、本発明にかかる
音声対話装置の一実施例の機能ブロック図を示す。本音
声対話装置はタスク仕様データベース100、音声認識
部110、言語理解部120、ユーザ要求内容確率分布
推定部130、スロット認識率推定部140、特定要求
までの期待ターン数推定部150、確認内容決定部16
0、出力部170などにより構成される。なお、実際に
は、本音声対話装置は、CPUやメモリ装置、入出力装
置等の、いわゆるコンピュータシステムにより実現され
るものである。
【0015】通常、音声対話装置では1つのタスクで受
け付けることのできるユーザの要求は複数ある。例え
ば、スケジュール管理を行う音声対話装置であれば、ス
ケジュールの追加、変更、確認といった複数のユーザ要
求が最低でも必要である。本音声対話装置でも、複数の
ユーザ要求の種類があるタスクを取り扱うことができ
る。
【0016】図2は本音声対話装置の処理フローチャー
トを示したものである。図2により本音声対話装置の全
体的な処理の流れを説明する。なお、ステップ230は
ステップ250の次でもよい。
【0017】タスク仕様データベース100には、装置
が現存処理することができるタスク仕様が記述格納され
ている。タスクの仕様は大きく二つの情報群からなる。
一つ目は、装置で扱うことのできるユーザ要求の種類
と、各ユーザ要求で必要な項目(スロット)とそのスロ
ットに入り得る語彙の値域であり、二つ目は語彙の依存
関係である。このタスク仕様データベース100の具体
的記述例については後述する。
【0018】音声対話装置は、人(ユーザ)と音声によ
る会話をしながら特定の仕事(タスク)を実行する。音
声認識部110は、ユーザの要求等を表わす音声を入力
し(ステップ200)、音声認識して文字列に変換する
(ステップ210)。言語理解部120は、音声認識部
110によって得られた文字列を装置の理解状態に変換
する(ステップ220)。理解状態は属性(項目名)と
値および値の確からしさの集合で表わされ、このときの
属性のことをスロットと呼ぶことにする。
【0019】ユーザ要求内容確率分布推定部130は、
言語理解部120によって得られた理解状態を用いてユ
ーザ要求の確率分布を推定する(ステップ230)。こ
こでは、タスク仕様データベース100に記述されたタ
スク仕様の各ユーザ要求と理解状態との関連度を算出し
て近似的に確率値とする。
【0020】スロット認識率推定部140は、タスク仕
様データベース100から、言語理解部120によって
得られた理解状態の確認対象(スロット)の語彙を入力
して、音声認識部110の現確認最中での期待される認
識率を推定する(ステップ240)。この推定された認
識率のことをスロット認識率と呼ぶことにする。特定要
求までの期待ターン数推定部150は、言語理解部12
0から理解状態、スロット認識率推定部140からスロ
ット認識率を入力として、タスク仕様データベース10
0のタスク仕様をもとに、装置が扱えるすべてのユーザ
要求種類について、ユーザ要求を特定のものと仮定した
場合のそれぞれ期待ターン数を推定する(ステップ25
0)。
【0021】確認内容決定部200は、ユーザ要求内容
確率分布推定部130からのユーザ要求の確率分布(現
理解状態と各ユーザ要求の関連度)と期待ターン数推定
部150からの各ユーザ要求までの期待ターン数を入力
として、装置の次の確認内容を決定する(ステップ26
0)。出力部170は、確認内容決定部160で決定さ
れた確認内容(確認/要求)を音声に変換して出力する
(ステップ270)。
【0022】上記ステップ200〜270を、ユーザと
会話しながら所望の回数繰り返して特定の仕事(タス
ク)が終了となるが、本音声対話装置では、各時点にお
ける理解状態に対するユーザ要求の確率分布と各ユーザ
要求確認終了までの期待ターン数を用いて次の確認/要
求を決定しているため、対話終了までのターン数が小さ
くなる。
【0023】なお、図2に示すような処理手順をコンピ
ュータに実行させるためのプログラムは、フロッピー
(登録商標)やCD−ROM、その他、コンピュータで
読み取り可能な記録媒体に記録して提供することが可能
である。このような記録媒体に記録されたプログラムを
コンピュータにロードすることにより、図1の各部の所
期の機能が達成される。
【0024】次に、本音声対話装置の各構成について詳
述する。 〔音声認識部110〕ユーザは音声によって本音声対話
装置へ要求内容を伝達する。ユーザからの音声は、音声
認識部110によって文字列に変換される。この音声認
識部110は既存の物を利用することができる。
【0025】〔言語理解部120〕音声認識部110よ
り得られた文字列は、言語理解部120によって理解状
態に変換される。この言語理解部120も既存の物を利
用することができる。理解状態に必要な値の確からしさ
は、例えばHMMベースの音声認識器の音響スコアなど
を使うことができる。
【0026】〔ユーザ要求内容確率分布推定部〕ユーザ
要求内容確率分布推定部130では、ある時点での装置
の理解状態を用いて、ユ−ザ要求の確率分布を推定す
る。実際に確率分布を得ることは困難なため、ここで
は、タスク仕様データベース100のタスク仕様をもと
に、タスクで取り扱うことができる各ユーザ要求と理解
状態との関連度を定め、近似的に確率値とする方法を考
える。
【0027】いま、理解状態のスロットsiの値をvi
表し、その値の確からしさをciとする。装置が確認を
終えたスロットの確からしきは1とする。確認対象とな
っているユーザ要求Gjにおいて必要なスロットの数を
Gjとする。スロットの値viが値域となりうるユーザ
要求の数をMviとしたとき、その時点で理解状態Sとユ
ーザ要求Gjとの関連度Rel(S,Gj)を、以下のよ
うに定める。Gjの値域として認められている値が入っ
ているviについて、
【数1】 とする。
【0028】〔スロット認識率推定部140〕本音声対
話装置は、対話の局面に応じて必要な語彙を切り換え
る。例えば、装置がユーザに対して「何曜日の予定です
か?」と問合せたとする。この場合に認識することが必
要となる語彙は、「月曜日」「火曜日」など曜日に言及
する語彙と、「はい」「いいえ」など対話を進める上で
一般的に必要となる語彙である。一方、「何曜日にどこ
で打ちあわせですか?」と問合せたとする。この場合に
必要と思われる語彙は前述の語彙に加えて「第三会議
室」「応接室」など場所に言及する語彙が必要となる。
一般に語彙数が増えると音声認識部110での認識誤り
の可能性が増える。
【0029】スロット認識率推定部140では、装置が
確認対象としているスロット(複数でも良い)が与えら
れた場合に、確認の最中で期待される音声認識率を推定
する。この推定された認識率のことを「スロット認識
率」と呼ぶ。
【0030】ある語彙数nbのときの認識率rbは分かっ
ているとする。対象スロット群に入り得る語彙数はnb
であるとする。ここでは、この条件下で、スロット認識
率rを推定するような方法を2つ挙げる。
【0031】(方法1)認識誤り率は、語彙数の平方根
に比例するという経験則が知られている。この経験則を
利用し、
【数2】 とする。
【0032】(方法2)一つの単語の尤度に対して、別
の単語の尤度がその尤度を越える確率がpのとき、n個
の単語の全てがその尤度を越えない確率は、(1−p)
のn剰である。語彙がnbのときの認識率をrbとしたの
で、
【数3】 が成り立つはずなので、n語の時の認識率を
【数4】 とする。
【0033】〔特定ユーザ要求確定までの期待ターン数
推定部150〕特定ユーザ要求までの期待ターン数推定
部150では、ユーザ要求の推定を正確に行えたと仮定
した場合の、その特定のユーザ要求についての確認を終
了するまでの期待ターン数を推定する。この状況を、ス
ケジュール管理を行う音声対話装置の例でたとえれば、
ユーザはスケジュールの確認やその他のことではなくス
ケジュールの追加を行いたいのだ、ということが正確に
判明している時点で、曜日やスケジュールの内容などを
音声対話装置が把握するまでにかかるターン数を推定す
ることに相当する。
【0034】そのために、まず、スロット認識率が与え
られた場合の、一回の確認/要求完了するまでの期待タ
ーン数を推定する方法を考える。ユーザは音声対話装置
からの確認に対しては、最低でもYes/No相当を装
置伝えるとし、しかもYes/Noは装置に必ず正確に
伝わると仮定すれば、スロット認識率がrのときに、確
認/要求に必要な期待ターン数を以下のように求めるこ
とができる。確認が終了するまでに必要な期待ターン数
conf
【数5】 要求が終了するまでに必要な期待ターン数treq
【数6】 複数のスロットを同時に確認あるいは要求する場合に必
要な期待ターン数も同様に考えることができる。
【0035】次に、スロット認識率が与えられた場合
の、特定ユーザ要求確定までの期待ターン数を推定する
方法を考える。ある時点での音声対話装置の理解状態に
おいて、特定のユーザ要求の確定までに必要な行動は、
スロットの名前とそのスロットについて必要な行動(確
認なのか要求なのか)の対の集合で表すことができる。
この必要な行動対の集合が決まった場合の、その中で最
小の期待ターンを返す確認の順序を考えることができ
る。なぜなら、必要な行動の集合のすべての分け方の、
すべての順列には期待ターン数を考えることができるか
らである。この最小の期待ターン数を返すものを、今の
状態から必要な行動対の集合を与えたユーザ要求までの
期待ターン数とする。
【0036】〔確認内容決定部160〕確認内容決定部
160では、各時点において装置は次にどれとどれを確
認/要求すれば良いかを決定する。確認内容決定部16
0からの出力は、スロット名(一般には複数)と確認な
のか要求なのかという情報である。
【0037】確認内容決定部160は、入力として、ユ
ーザ要求の確率分布(各ユーザ要求と理解状態の関連
度)と、各ユーザ要求までの期待ターン数を受け付け、
対話終了までの期待ターン数を小さくするような確認内
容を決定する。入力として、ユーザ要求の確率分布と、
各ユーザ要求までの期待ターン数を受け付ける理由は、
どんなに確認終了までのターン数が小さなユーザ要求で
あっても、その可能性が非常に小さいのであれば、その
ユーザ要求が正しいかどうかを確認するのは、結局、対
話全体のターン数を大きくすることになりかねないから
である。
【0038】真のユーザの要求がGiである確率を
Gi,Giまでの期待ターン数をtGiと表す。装置が仮
定したユーザの要求が真のユーザの要求とは異なるとい
うことが分かるまでのターン数が、ユーザ要求確定まで
の期待ターン数と同じであるという仮定を置く。この場
合、例えば可能なユーザ要求が2つの装置でG1,G2
順に対話をすすめていった場合の対話終了までの期待タ
ーン数は
【数7】 と考えることができ、逆にG2、G1の順に対話をすすめ
ていった場合の対話終了までの期待ターン数は、
【数8】 であると考えることができる。
【0039】一般に音声対話装置が、複数のユーザ要求
を受け付けることができる場合でも、
【数9】 がもっとも小さくなるようなユーザ要求の選択順a
(1),a(2),…a(n)を選択する。この選択順
の先頭であるGa(1)というユーザ要求を仮定した場合
に、特定ユーザ要求確定までの期待ターン数推定部13
0が出力する、確認内容を確認内容決定部160の出力
とする。
【0040】〔出力部170〕出力部170は、確認内
容決定部160によって出力されたスロット名と確認/
要求の種類を入力として受け取り、音声を出力する。こ
の出力部170は、例えば、既存のテンプレートべース
の言語生成器と、既存の音声合成器の組み合わせによっ
て実現することができる。
【0041】以下に、本音声対話装置における処理の具
体例を示す。ここでは会社の秘書タスクを想定し、ユー
ザ要求の種類としては「社内便の手配」「社員の呼び出
し」「コピー受け付け」「買物内容の確認」が扱えると
し、それぞれに必要な情報は、以下の通りであるとす
る。 (i)「社内便の配送受け付け」 商品名(社内にあるもの)、目的部署名(全部署)、目
的人名(全員)、数量(1−10) (ii)「社員の呼び出し」 部署名(関連部署)、人名(関連人員)、日を表す数
(1−30) (iii)「コピー受け付け」 コピーの対象(書類のどれか)、部数(1−100) (iv)「買物内容の確認」 メーカー名(カタログにある全メーカー)、商品名(カ
タログにある商品)、数量(1−50) 部署は全体で100、人名の種類は1000、商品名の
種類は500、書類名は50、メーカー名の種類は10
0、「はい」「いいえ」などを含む一般的に対話に必要
な語彙数を100とする。また、認識部110の基本性
能として、語彙数が500であれば0.8の確率で認識
に成功するとする。
【0042】〔タスク仕様データベース100〕タスク
仕様データベース100には大きく、次の2つの情報が
記述してある。 (1)各ユーザ要求で必要なスロットとそのスロットに
入り得る語彙の値域 (2)語彙の依存関係
【0043】ここでは、(1)の例としては、次のよう
な情報が記述されることになる。 (i)「社内便の配送受け付け」 商品名(社内にあるもの)、目的部署名(全部署)、目
的人名(全員)、数量(1−10) (ii)「社員の呼び出し」 部署名(関連部署)、人名(関連人員)、日を表す数
(1−30) (iii)「コピー受け付け」 コピーの対象(書類のどれか)、部数(1−100) (iv)「買物内容の確認」 メーカー名(カタログにある全メーカー)、商品名(カ
タログにある商品)、数量(1−50)
【0044】また、(2)の例としては、次のような情
報が記述される。 所属が(営業部)→名前は(杉山、阿部、近藤、岡、鈴
木)のいずれか 所属が(企業部)→名前は(阿部、勝野、小林、安藤)
のいずれか 所属が(研究部)→名前は(相川、中野、垣添、安藤、
鈴木)のいずれか 所属が(総務部)→名前は(中野、小林、鈴木、永井)
のいずれか 名前が(杉山)→所属は(営業部) 名前が(阿部)→所属は(営業部、企画部)のいずれか 名前が(近藤)→所属は(営業部) 名前が(岡)→所属は(営業部) 名前が(鈴木)→所属は(営業部、研究部、総務部)の
いずれか 名前が(勝野)→所属は(企画部) 名前が(小林)→所属は(企画部、総務部)のいずれか 名前が(安藤)→所属は(企画部、研究部)のいずれか 名前が(相川)→所属は(研究部) 名前が(中野)→所属は(研究部、総務部)のいずれか 名前が(垣添)→所属は(研究部) 名前が(永井)→所属は(総務部)
【0045】〔音声認識部110〕音声認識部110で
はユーザの発生した音声を受け取り、文字列を出力す
る。今、ユーザは「石元さんに送りたい」と言ったとす
る。これは適切に認識されるとは限らず、「石元さん、
日本通…」と誤まった認識結果(文字列)を出力するす
ことがある。以後の記述は、この誤った出力の場合の動
作例を示したものである。
【0046】〔言語理解部120〕言語理解部120で
は、認識部110からの文字列を入力し、理解状態を出
力する。理解状態は(スロット名、値、確からしさの集
合)で表わされる。いま、「石元さん、日本通…」の認
識結果、理解部120では、 (名前=石元、確からしさ=0.8) (メーカー=日本通、確からしさ=0.7) といった装置の理解状態を出力したとする。
【0047】〔ユーザ要求内容確率分布推定部130〕
ユーザ要求内容確率分布推定部130では、現在の理解
状態から推定される、ユーザ要求の確率を算出するが、
ここでは、装置で扱える各ユーザ要求と理解状態との関
連度を(1)式で算出する。
【0048】現在の理解状態は、(名前=石元、確から
しさ=0.8)および(メーカー=富士通、確からしさ
=0.7)である。ユーザ要求「社内便の配送受け付
け」で必要なスロット数は商品名、目的部署名、目的人
名、数量の4つなので、N_{G_j}=4となる。一
方、「名前=石元」という値域が認められるのは社内便
と、呼び出しの2つなので、M_{名前=石元}=2と
なる。
【0049】よって、現在の理解状態と社内便との関連
度は Rel{S,G_{社内便}}=1/4*0.8/2=
0.1 となる。同様にして、 Rel{S,G_{呼び出し}}=1/3*0.8/2
=0.13 Rel{S,G_{コピー}}=0 Rel{S,G_{買物}}=1/3*0.7/1=
0.23 となる。さらに、確率値の和が1になるように各関連度
を正規化する。これにより、各ユーザ要求の確率は次の
ようになる。 「社内便の手配」=0.22 「社員の呼び出し」=0.28 「コピー受け付け」=0 「買物内容の確認」=0.5
【0050】〔スロット認識率推定部140〕スロット
認識率推定部140では、確認対象の語彙が与えられた
場合に、音声認識部110がどの程度の確率で正しく認
識を行えるかどうかを推定する。ここでは、(2)式あ
るいは(4)式を用いてスロット認識率rを算出する。
【0051】いま、今理解状態の中に確定した情報がな
い中で、スロット「名前」を装置が尋ねる場合に必要な
語彙数は 1000(名前)+(一般的な語彙)=1100 となる。
【0052】方法(1)を使った場合 r=1−(1−0.8)*sqrt(1100)/sq
rt(500)=0.703 となる。また、方法(2)を使った場合 r=0.8の(1100/500)剰=0.61 となる。
【0053】〔特定要求までの期待ターン数推定部15
0〕ここでは、装置が扱えるすべてのユーザ要求種類に
ついて、ユーザ要求の推定を正確に行えたと仮定して、
特定ユーザ要求確定までの期待ターン数を算出する。出
力はターン数と、その際の行動(確認/要求)である。
【0054】例えば、ユーザ要求「社内便配送受け付
け」を仮定した場合、現在の理解状態 (名前=石元、確からしさ=0.8) (メーカー=日本通、確からしさ=0.7) から、必要な行動は、(商品名、要求)(目的部署名、
要求)(目的人名、確認)(数量、要求)となる(メイ
カーは無視される)。
【0055】ここで、情報要求と確認を同時に行えない
とすれば、行動の組み合わせは A.(商品)(部署)(人名)(数量) B.(商品 部署)(人名)(数量) C.(商品 数量)(部署)(人名) D.(商品)(部署 数量)(人名) E.(商品 部署 数量)(人名) (同じかっこ内の項目を同時に確認する)の5通りとな
る。
【0056】さらに、それぞれについて「どの順序で確
認あるいは要求を行うのか」が A.4!=24 B.3!=6 C.3!=6 D.3!=6 E.2!=2 の44通りとなる。これら、44通りの行動の組合せそ
れぞれについて、ユーザ要求内容確定までにどれくらい
のターン数が必要かどうかを推定する。
【0057】例えば、(人名)→(部署 数量)→(商
品)という行動系列での期待ターン数を考える。(人
名)の部分での期待ターン数は、語彙数(人名の種類+
一般的な語彙)から、スロット認識率推定部140によ
って出力された認識率r_1から、1/r_1と推定で
きる。(部署 数量)の部分での語彙数は、先に(人
名)が確定したはずであり、人名が定まっていれば部署
は全部署を対象とするのではなく、「石元」という名前
の人が所属する部署にだけ語彙を絞ることができる。こ
の時の語彙数から、スロット認識率推定部140によっ
て推定された認識率r_から、(部署 数量)を確定す
るために必要なターン数は、1/r_2と推定できる。
【0058】同様に(商品)の部分での認識率r_3
も、語彙数(商品の数+一般的な語彙)から推定でき、
必要なターン数は1/r_3と推定できる。よって、
(人名)→(部署 数量)→(商品)に必要な期待ター
ン数は、1/r_1+1/r_2+1/r_3となる。
【0059】同様の計算を44通りの組合せすべてにつ
いて行う。この中で最も小さい値となる組合せが、この
特定要求までの期待ターン数推定部150の出力とな
る。
【0060】〔確認内部決定部160〕ここでは、特定
ユーザ要求確定までの期待ターン数推定部150が出力
したターン数と、ユーザ要求内部確率分布推定部130
が出力した確率分布から、次に装置が何を確認あるいは
情報要求するのかを決定する。
【0061】いま、特定要求までの期待ターン数推定部
150、ユーザ要求内容確率分布推定部130の出力と
して、 「社内便の手配」8ターン、0.22 「社員の呼び出し」10ターン、0.28 「コピー受け付け」12ターン、0 「買物内容の確認」5ターン、0.5 というターン数と確率分布が得られたとする。
【0062】仮に、次の順序で確認をするとする。 1.ユーザの要求内容は「社内便の手配」なのかどうか
を8ターンかけて確認。成功すればおしまい。失敗すれ
ば元の理解状態を仮定して2へ。 2.ユーザの要求内容は「社員の呼び出し」なのかどう
かを8ターンかけて確認。成功すればおしまい。失敗す
れば元の理解状態を仮定して3へ。 3.ユーザの要求内容は「コピー受け付け」なのかどう
かを8ターンかけて確認。成功すればおしまい。失敗す
れば元の理解状態を仮定して4へ。 4.ユーザの要求内容は「買物内容の確認」以外にあり
えないので、「買物内容の確認」の要求内容を8ターン
かけて確認。
【0063】この場合の期待ターンを、 0.22*8+0.28*(8+10)+0*(8+1
0+12)+0.5*(8+10+12+5) とする。
【0064】以上の計算を「社内便の手配」「社員の呼
び出し」「コピー受け付け」「買物内容の確認」の順序
を入れかえた4!=24通り、すべてについて行う。こ
れが最も小さくなるような順序を選び、その際に最初に
確認すべきユーザ要求内容について、特定ユーザ要求確
定までの期待ターン数推定部150が出力した行動を出
力する。
【0065】行動は、スロット名と要求あるいは確認お
よびスロット値であり、例えば、「部署、要求、なし」
あるいは「人名、確認、石元」などとなる。
【0066】〔出力部170〕出力部170では、確認
内容決定部160の出力を入力としてユーザに音声を出
力する。たとえば、「部署、要求、なし」が入力された
場合には、「部署名を教えてください」と出力する。ま
た、「人名、確認、石元」が入力された場合には、「お
名前は石元さまでよろしいですね?」と出力する。
【0067】なお、従来の音声対話装置であれば、予め
決められた確認手順を取ることになる。たとえば、1.
理解状態中の未確認のものには1つずつ確認するという
確認手順であれば、「石元さんですね?」と確認するこ
とになるし、 2.理解状態中の未確認のものはまとめて確認するとい
う確認手順であれば、「石元さん、日本通ですね?」と
確認することになるし、 3.ユーザの関求内容を特定できるまでは、予め決めら
れた順序でユーザに発話を要請する、という確認手順で
あれば、「姓は何ですか?」といったことを聞くことに
なる。いずれにしても、対話終了までの対話のやりとり
の回数の増加はまぬがれないものである。
【0068】
【発明の効果】以上説明したように、本発明による音声
対話装置を用いると、タスクが変更されても少ない対話
のやりとりの回数で確認を行い、対話終了までの対話の
やりとりの回数を小さくすることが可能である。
【図面の簡単な説明】
【図1】本発明の音声対話装置の一実施例のブロック図
である。
【図2】図1の処理フローチャートである。
【符号の説明】
100 タスク仕様データベース 110 音声認識部 120 言語理解部 130 ユーザ要求内容確率分布推定部 140 スロット認識率推定部 150 特定要求までの期待ターン数推定部 160 確認内容決定部 170 出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相川 清明 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 AA05 GG04 LL12 5D045 AB30

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 利用者(ユーザ)と音声によるやりとり
    によってユーザの要求を確認し、ユーザの要求を処理す
    る音声対話装置において、 ユーザの音声を入力し、音声認識して文字列に変換する
    手段と、 前記文字列を装置内部の理解状態に変換する手段と、 前記理解状態を入力として、ユーザ要求の確率分布を推
    定する手段と、 確認対象の語彙を入力し、特定の項目に関しての確認の
    最中での期待される音声認識率を推定する手段と、 前記理解状態と特定のユーザ要求種を入力とし、前記推
    定された音声認識率をもとに、ユーザ要求を特定のもと
    仮定した場合の期待ターン数を推定する手段と、 前記推定したユーザ要求の確率分布と期待ターン数を入
    力として、装置の次の確認あるいは要求を表わす確認内
    容を決定する手段と、 前記確認内容を音声に変換して出力する手段と、を有す
    ることを特徴とする音声対話装置。
  2. 【請求項2】 請求項1記載の音声対話装置において、
    装置が処理することのできるタスクの仕様として、少な
    くともユーザ要求の種類と各ユーザ要求で必要な項目と
    その項目に入り得る語彙の値域および語彙の依存関係を
    記述したデータベースを有することを特徴とする音声対
    話装置。
  3. 【請求項3】 音声対話装置が利用者(ユーザ)と音声
    によるやりとりによってユーザの要求を確認し、ユーザ
    の要求を処理する音声対話処理方法において、 ユーザの音声を入力し、音声認識して文字列に変換する
    ステップと、 前記文字列を装置内部の理解状態に変換するステップ
    と、 前記理解状態を入力として、ユーザ要求の確率分布を推
    定するステップと、 確認対象の語彙を入力し、特定の項目に関しての確認の
    最中での音声認識の認識率を推定するステップと、 前記理解状態と特定のユーザ要求種を入力とし、前記推
    定された音声認識の認識率をもとに、ユーザ要求を特定
    のもと仮定した場合の期待ターン数を推定するステップ
    と、 前記推定したユーザ要求の確率分布と期待ターン数を入
    力として、装置の次の確認あるいは要求を表わす確認内
    容を決定するステップと、 前記確認内容を音声に変換して出力するステップと、を
    有することを特徴とする音声対話処理方法。
  4. 【請求項4】 請求項3記載の音声対話処理方法の処理
    をコンピュータで実行させるためのプログラム。
  5. 【請求項5】 請求項3記載の音声対話処理方法の処理
    をコンピュータで実行させるためのプログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
JP2001082632A 2001-03-22 2001-03-22 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体 Expired - Fee Related JP3576116B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001082632A JP3576116B2 (ja) 2001-03-22 2001-03-22 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体
US10/059,884 US7251595B2 (en) 2001-03-22 2002-01-29 Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001082632A JP3576116B2 (ja) 2001-03-22 2001-03-22 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2002278589A true JP2002278589A (ja) 2002-09-27
JP3576116B2 JP3576116B2 (ja) 2004-10-13

Family

ID=18938551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001082632A Expired - Fee Related JP3576116B2 (ja) 2001-03-22 2001-03-22 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP3576116B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079624A (ja) * 2004-09-09 2006-03-23 At & T Corp 自動化されたダイアログシステムからの情報を報告するシステム及び方法
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200050373A (ko) 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020091503A1 (en) 2018-11-01 2020-05-07 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308996A (ja) * 1993-04-23 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 質問応答型の対話装置におけるコマンドの要求およびコマンドの認識結果の確認のためのプロンプトの作成方法
JPH07152723A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> 対話処理装置
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH1091188A (ja) * 1996-09-17 1998-04-10 Nippon Telegr & Teleph Corp <Ntt> 音声対話手順生成装置
JPH10254491A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声自動応答装置における音声対話手順生成設定装置
JP2000293194A (ja) * 1999-04-08 2000-10-20 Mitsubishi Electric Corp 音声対話装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308996A (ja) * 1993-04-23 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 質問応答型の対話装置におけるコマンドの要求およびコマンドの認識結果の確認のためのプロンプトの作成方法
JPH07152723A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> 対話処理装置
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH1091188A (ja) * 1996-09-17 1998-04-10 Nippon Telegr & Teleph Corp <Ntt> 音声対話手順生成装置
JPH10254491A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声自動応答装置における音声対話手順生成設定装置
JP2000293194A (ja) * 1999-04-08 2000-10-20 Mitsubishi Electric Corp 音声対話装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079624A (ja) * 2004-09-09 2006-03-23 At & T Corp 自動化されたダイアログシステムからの情報を報告するシステム及び方法
US8086462B1 (en) 2004-09-09 2011-12-27 At&T Intellectual Property Ii, L.P. Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems
US8589172B2 (en) 2004-09-09 2013-11-19 At&T Intellectual Property Ii, L.P. Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置

Also Published As

Publication number Publication date
JP3576116B2 (ja) 2004-10-13

Similar Documents

Publication Publication Date Title
US7020607B2 (en) Dialogue processing system and method
US8433572B2 (en) Method and apparatus for multiple value confirmation and correction in spoken dialog system
US7184539B2 (en) Automated call center transcription services
US8064573B2 (en) Computer generated prompting
US6915246B2 (en) Employing speech recognition and capturing customer speech to improve customer service
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
US8725492B2 (en) Recognizing multiple semantic items from single utterance
JP2002538534A (ja) 音声認識システムの動的意味論的制御
US7251595B2 (en) Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
US20060287868A1 (en) Dialog system
JP2008506156A (ja) マルチスロット対話システムおよび方法
US20180308481A1 (en) Automated assistant data flow
CN109801631A (zh) 基于语音识别的录入方法、装置、计算机设备及存储介质
JPH0863478A (ja) 言語処理方法及び言語処理装置
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
JP3878147B2 (ja) 端末装置
JP3576116B2 (ja) 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体
JP3945187B2 (ja) 対話管理装置
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
JP2001100787A (ja) 音声対話システム
JP3776341B2 (ja) 音声対話方法および、この方法を実施する装置、プログラム、このプログラムを記録した記録媒体
JP2002288155A (ja) 単語属性推定装置、単語属性推定方法、そのプログラムおよび記録媒体
KR20100101086A (ko) 전화 주문을 처리하기 위한 방법
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
JPH07282081A (ja) 音声対話型情報検索装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees