JP4464770B2 - 対話戦略学習方法および対話戦略学習装置 - Google Patents

対話戦略学習方法および対話戦略学習装置 Download PDF

Info

Publication number
JP4464770B2
JP4464770B2 JP2004252323A JP2004252323A JP4464770B2 JP 4464770 B2 JP4464770 B2 JP 4464770B2 JP 2004252323 A JP2004252323 A JP 2004252323A JP 2004252323 A JP2004252323 A JP 2004252323A JP 4464770 B2 JP4464770 B2 JP 4464770B2
Authority
JP
Japan
Prior art keywords
dialogue
cluster
value
decision process
markov decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004252323A
Other languages
English (en)
Other versions
JP2006072477A (ja
Inventor
デネッケ マティアス
浩二 堂坂
幹生 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004252323A priority Critical patent/JP4464770B2/ja
Publication of JP2006072477A publication Critical patent/JP2006072477A/ja
Application granted granted Critical
Publication of JP4464770B2 publication Critical patent/JP4464770B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、対話戦略学習方法おび対話戦略学習装置に関する。
音声対話システムとユーザの対話は、ユーザとシステムが交互に音声で発話を行うことにより進行する。ここで、ユーザとは、厳密にはユーザが操作するユーザ端末である。ユーザ端末は、例えば、ユーザからの対話情報のインタフェースであるマイクロフォンやスピーカなどの周辺機器でもよいし、CPU(Central Processing Unit)とメモリを有するパーソナルコンピュータでもよい。以下、ユーザがユーザ端末を操作してシステムと対話することを、単にシステムとユーザとの対話と省略する。
システムは、ユーザとの対話を通して、ユーザの問い合わせ内容を理解していく。システムがユーザの問い合わせ内容を理解した結果は、システム理解状態として保持される。システム理解状態は、通常スロットと値の対として表現される。システムは、ユーザ応答を受け付けるたびごとに、システム理解状態を更新する。対話の各時点において、システムは、その時点のシステム理解状態に基づいて、次にとるべきシステム行動を決定する。
対話の各時点においてシステムのとるべき行動を決定するためのルールは、システムの対話戦略、あるいは対話ポリシーと呼ばれる。システムの対話戦略は、システムの性能に対して大きな影響を及ぼす。しかし、システムが直面するあらゆる場面を想定して、最適な対話戦略を前もって人手で作成することは多大な労力を必要とする。また、対話戦略の良し悪しはユーザの振る舞いに依存するが、そもそも、ユーザの振る舞いを前もって予測することは困難である。そこで、従来から、システムの対話戦略を自動的に学習するための方法が考案されてきている。
システムの対話戦略を自動的に学習するための従来の技術として、Singh(非特許文献1)は、強化学習のアルゴリズムであるQ−Learning(非特許文献2)にしたがって、音声対話システムの対話戦略を学習する方法を提案した。Q−Learningを用いた音声対話システムの対話戦略学習法としては、Scheffer(非特許文献3)によるQ(λ)−Learningと呼ばれるQ−Learningの変種を用いた方法もあるが、Singh(非特許文献1)の方法と本質的には同等である。
これらの従来技術では、まず、人手で簡易な対話戦略を作成する。この時点での対話戦略は最適なものを作成することは目指さずに、労力をかけずに人手で容易に作成できる対話戦略を用意する。この初期の対話戦略に基づいて動作するシステムを構築する。これを初期システムと呼ぶ。
次に、強化学習にしたがって対話戦略を学習する従来技術では、先に述べた初期システムを使って、ユーザとの対話を収集し、記録する。つまり、初期システムとユーザとの対話を複数回行い、対話ごとにユーザが対話の良し悪しを評価したフィードバック(評価値または報酬とも呼ばれる)を与える。
そして、音声対話システムは、ユーザの対話と、ユーザのフィードバックを収集および記録し、この記録されたデータから対話戦略を学習する。具体的には、収集された対話とユーザのフィードバックを用いて、Q−Learningを適用し、ユーザの評価が最高になるように、状態間の遷移確率と、状態ごとに適用すべき最適の行動を決定する。これが対話戦略の学習である。
そして、音声対話システムは、新たに学習された対話戦略に基づいて動作するシステムを構築し、このシステムとユーザとの対話とユーザからのフィードバックを収集する。このように、初期システムから始まって、ユーザとの対話とユーザからのフィーバックに基づいて段階的に対話戦略を学習していく。
S.Singh、D.Litman、M.Kearns、and M、Walker著、"Optimizing Dialogue Management with Reinforcement Learning:Experiments with the NJFun System"、Jorunal of Artificial Intelligence Research、16、pp.105−133(2002) R.S.Sutton and A.G.Barto著、"Reinforcement Learning"、MIT Press(1998) K.Scheffler and S.J.Young著、"Corpus−based dialogue simulation for automatic strategy learning and evaluation"、In Proceedings NAACL Workshop on Adaptation in Dialogue Systems、pp.64−70(2001)
強化学習によって対話戦略を学習するためには、状態と行動の組み合わせから成る探索空間を探索し、最適な対話戦略を見つける必要がある。
このとき、従来から認識されている問題として、状態と行動との組み合わせが膨大なものとなるため、対話戦略を学習するために要する対話データとユーザからのフィードバックを大量に用意しなければならず、対話戦略を学習するまでに手間がかかりすぎるという問題があった。
そこで、本発明は、前記した問題を解決し、対話戦略を学習するまでに必要な手間を削減することを主な目的とする。
前記課題を解決するため、本発明は、ユーザ端末からの問い合わせ内容を、変数名を示すスロットと、そのスロットに代入される値との組で表現するシステム理解状態として保持し、現時点までに収集した対話データをもとにした対話の進捗度合いを表す有限個の状態と、前記状態において対話システムの次の発話内容を決定するための有限個のシステム行動から構成されるマルコフ決定過程に従って、前記システム理解状態から次のシステム行動を選択し、前記次のシステムの行動をもとにユーザ端末に応答する前記対話システムにおいて、前記マルコフ決定過程を学習する対話戦略学習方法であって、コンピュータが、前記ユーザ端末への応答に対する評価値の入力を受け付け、前記評価値を収集する手順と、学習する元のマルコフ決定過程の時刻tにおける行動価値関数の値(Q値)を算出しておき、当該Q値を最大にする行動が、所定の確率pで同じとなるような各状態を、1つのクラスタに統合するクラスタ関数により、前記状態を分類することでクラスタを構成する手順と、前記クラスタに基づくサンプリング関数と、前記クラスタ間の遷移確率と、前記クラスタにおける前記遷移確率と前記評価値とから報酬関数とを計算することにより、集約されたマルコフ決定過程を作成する手順と、前記集約されたマルコフ決定過程をポリシー改良法を使って解く手順と、前記集約されたマルコフ決定過程の解を所定の算出方法で分解して、前記Q値を算出する手順と、を実行することを特徴とする。
これにより、状態クラスタの総数は状態の総数よりも小さくなるので、探索空間の大きさを削減することができ、従来方法と比較して、必要とされる対話データの量とユーザのフィードバックの量を削減することが可能となる。
これにより、確率pを大きくするとクラスタに属する状態数を少なくし、確率pを小さくするとクラスタに属する状態数を多くするように、クラスタに属する状態数を操作することができる。
本発明は、前記クラスタ関数が、前記算出したQ値に基づくクラスタ関数であることを特徴とする。
これにより、対話を重ねていくに従って、ユーザの満足度が徐々に向上する。
本発明は、ユーザ端末からの問い合わせ内容を、変数名を示すスロットと、そのスロットに代入される値との組で表現するシステム理解状態として保持し、現時点までに収集した対話データをもとにした対話の進捗度合いを表す有限個の状態と、前記状態において対話システムの次の発話内容を決定するための有限個のシステム行動から構成されるマルコフ決定過程に従って、前記システム理解状態から次のシステムの行動を選択し、前記次のシステムの行動をもとにユーザ端末に応答する前記対話システムにおいて、前記マルコフ決定過程を学習する対話戦略学習装置であって、ユーザ端末との対話ごとに評価値を収集および記録する対話評価収集部と、学習する元のマルコフ決定過程の時刻tにおける行動価値関数の値(Q値)を算出しておき、当該Q値を最大にする行動が、所定の確率pで同じとなるような各状態を、1つのクラスタに統合するクラスタ関数により、前記状態を分類することでクラスタを構成するクラスタ構成部と、前記クラスタに基づくサンプリング関数と、前記クラスタ間の遷移確率と、前記クラスタにおける前記遷移確率と前記評価値とから報酬関数とを計算することにより、集約されたマルコフ決定過程を作成し、前記集約されたマルコフ決定過程をポリシー改良法を使って解き、前記集約されたマルコフ決定過程の解を所定の算出方法で分解して、前記Q値を算出する強化学習部と、を有することを特徴とする。
これにより、状態クラスタの総数は状態の総数よりも小さくなるので、探索空間の大きさを削減することができ、従来方法と比較して、必要とされる対話データの量とユーザのフィードバックの量を削減することが可能となる。
これにより、確率pを大きくするとクラスタに属する状態数を少なくし、確率pを小さくするとクラスタに属する状態数を多くするように、クラスタに属する状態数を操作することができる。
本発明は、前記クラスタ関数が、前記算出したQ値に基づくクラスタ関数であることを特徴とする。
これにより、対話を重ねていくに従って、ユーザの満足度が徐々に向上する。
本発明は、前記対話戦略学習装置が、前記対話システムをさらに含めて構成されることを特徴とする。
これにより、ユーザとの対話機能と、その対話を改良する機能が1つの装置に納められることにより、効率的に学習成果を提供することができる。
本発明は、同様の状態を状態クラスタとしてまとめ、このクラスタによる近似解を活用することを特徴とする。これにより、状態クラスタの総数は状態の総数よりも小さくなるので、探索空間の大きさを削減することができ、従来方法と比較して、必要とされる対話データの量とユーザのフィードバックの量を削減することが可能となった。よって、対話戦略を学習するまでに必要な手間を削減することができた。
以下に、本発明が適用される音声対話システムの一実施形態について、図面を参照して詳細に説明する。まず、対話戦略を強化学習によって学習する本実施形態の音声対話システムの構成について、図1を参照して説明する。
図1に示す本実施形態の音声対話システムは、交通経路、交通機関のスケジュール、テレビ番組表、個人のスケジュール表、飲食店情報、気象情報などのユーザが知りたい情報を記録したデータベース、あるいは、そういった情報に対してアクセスする機能をもつシステムである。
音声対話システムは、ユーザが必要とする情報についての問い合わせを音声により入力するとき、ユーザとの音声対話を通して、ユーザの問い合わせ内容を確定し、確定した問い合わせ内容にしたがって、ユーザが必要とする情報をユーザに提示する。そして、本実施形態の音声対話システムは、このユーザとの問い合わせと応答との対話の進め方を決定する対話戦略を自動的に学習することを特徴とする。以下、バス時刻表の案内を行う音声対話システムを例示する。
図1に示す音声対話システムは、対話戦略学習装置2が、ユーザと対話を行うものとする。なお、対話戦略学習装置2は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPUによって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。
対話戦略学習装置2は、ユーザの音声を入力するためのマイクロフォン12と、システム音声を出力するためのスピーカ14と、アプリケーションごとに与えられる対話に回答するための情報を格納する回答データベース16と、を用いて、ユーザに案内する。なお、回答データベース16は、ユーザの質問に答えるための情報を格納するものであり、例えば、バスの案内を行う際のバスの時刻表を管理する。なお、この回答データベース16は、対話戦略学習装置2とは別の装置に構成し、その別の装置からネットワークによって対話戦略学習装置2が情報を取得するようにしてもよい。
ユーザが扱う前記ユーザ端末は、マイクロフォン12とスピーカ14として構成される。また、ユーザ端末は、これらの入出力手段としたのは、あくまで一例であり、コンピュータの装置として構成してもよい。
対話戦略学習装置2は、ユーザと音声で対話するために、ユーザの音声による発話の内容をもとにシステム理解状態を更新する発話理解部22と、ユーザ発話内容をスロットと値の対として格納するシステム理解状態格納部24と、対話の各時点におけるシステム理解状態にしたがって次の行動を決定する対話制御部26と、システム理解状態を評価するフィーチャー関数を格納するフィーチャー関数格納部28と、システムがとりうる行動を格納するシステム行動格納部30と、決定されたシステム行動を言語表現として生成してスピーカ14から出力する発話生成部32と、を含めて構成される。
さらに、対話戦略学習装置2は、ユーザとの対話の満足度(ユーザから入力される評価値)を向上させるために、収集された対話とユーザのフィードバックを用いてユーザの評価が最高になるように行動を決定する強化学習部40と、システムの状態を分類することでクラスタを構成するクラスタ構成部42と、ユーザとの対話ごとにフィードバックを収集および記録する対話評価収集部44と、を含めて構成され、これらの構成要素は、前記ユーザと音声で対話するためのアルゴリズムを、強化学習法によって改良することを特徴とする。
以下、対話戦略学習装置2の構成要素について、具体的に説明する。
発話理解部22は、ユーザの音声による発話の内容を理解して、その発話の内容を示すシステム理解状態を更新する。そして、システム理解状態格納部24は、システムの理解状態を、ユーザ発話内容(ユーザの問い合わせ内容を理解した結果)を表すスロットと値の対として格納する。
例えば、スロットとしては、到着地を表すArrival Location、出発地を表すDeparture Location、出発日を表すDay、出発時刻を表すTimeの4つのスロットを用いる。表1のスロットと値の対は、Weekday(平日)の15:30(15時30分)にHonatsugieki(本厚木駅)に到着するバスに乗るというシステム理解状態を表す。つまり、スロットとはコンピュータが扱う変数名に相当し、値とはそのスロットに代入される変数値である。
Figure 0004464770
さらに、対話戦略学習装置2は、システム理解状態の内容をユーザに確認する。たとえば、前記のシステム理解状態において、「到着地は本厚木駅ですか?」という確認をユーザに対して行う。システムの確認に対してユーザが肯定を意味する表現(例:「はい」)で応答した場合、確認内容がユーザによって承認されたと呼ぶ。
対話制御部26は、対話の各時点におけるシステム理解状態にしたがって、システムの次の行動を決定する。この対話制御部26を実現するアルゴリズムは、マルコフ決定過程として表現される。マルコフ決定過程は、有限個の状態と、有限個のシステム行動により構成され、各状態において適用できる行動が決まっている。なお、状態は、現時点までで収集した対話データをもとにした対話の進捗度合いを表す。また、システム行動は、前記状態において、対話戦略学習装置2の次の発話内容を決定するための状態遷移を表す。
ある状態において、特定の行動が選択され、実行されると、状態は次の状態に移行する。状態から状態への遷移確率は前もって与えられている。マルコフ決定過程の各状態において、一つの行動を決定するルールはポリシーと呼ばれる。このポリシーが、音声対話システムの場合、対話戦略、対話ポリシーに対応するものである。
マルコフ決定過程の各状態は、対話の状態の特定の局面を表すフィーチャー関数と呼ぶ関数によって定義する。フィーチャー関数格納部28は、フィーチャー関数を管理する。以下、フィーチャー関数の一例について表2を参照して説明する。
Figure 0004464770
フィーチャー関数Confirmationは、すべてのスロットの値がユーザにより承認されているなら、all confirmedという値をとり、一つのスロットの値も承認されていないなら、all unconfirmedという値をとり、そのいずれでもないなら、some unconfirmedという値をとる。
フィーチャー関数Informationは、すべてのスロットに対して値が与えられているなら、all filledという値をとり、一つのスロットにも値が与えられていないなら、no filledという値をとり、そのいずれでもないなら、some filledという値をとる。
フィーチャー関数Length of Inputは、ユーザの入力の長さについてあらかじめ決めた基準にしたがって、ユーザの入力が短ければshort、中程度であればintermediate、長ければlong、非常に長ければvery longを値としてとる。
フィーチャー関数Minimal Confidenceは、すべてのスロットの値に付随する信頼度の中で最小の信頼度を選択し、その信頼度が高ければhigh、中程度であればmedium、低ければlowを値としてとる。
フィーチャー関数Maximal Confidenceは、すべてのスロットの値に付随する信頼度の中で最大の信頼度を選択し、その信頼度が高ければhigh、中程度であればmedium、低ければlowを値としてとる。
フィーチャー関数Intentionは、ユーザの問い合わせのタイプが決まっていないなら、selectedという値をとり、ユーザの問い合わせタイプは決まったが、その問い合わせタイプの内容を決定するために必要な値が与えられていないスロットが存在するなら、determinedという値をとり、ユーザの問い合わせタイプが決まり、かつ、必要なスロットの値がすべて与えられているなら、finalizedという値をとる。
次に、システム行動格納部30が管理するシステム行動の一例について、表3を参照して説明する。
Figure 0004464770
システム行動としては、ユーザにスロットの値を確認する確認型の行動と、ユーザにスロットの値を要求する情報要求型の行動がある。確認型であり、かつ、情報要求型の行動もある。また、単一スロットのみに関わる行動、複数スロットに関わる行動がある。表2で、Expl.confirmationというシステム行動は、単一スロットの値をユーザに確認する行動である。
Prompt oneというシステム行動は、単一スロットの値をユーザに要求する行動である。Prompt multipleは複数スロットの値をユーザに要求する行動である。Impl.conf.prompt oneというシステム行動は、あるスロットの値を陰に確認しつつ、単一スロットの値をユーザに要求する行動である。Impl.conf.prompt multipleというシステム行動は、あるスロットの値を陰に確認しつつ、複数スロットの値をユーザに要求する行動である。
強化学習部40は、収集された対話とユーザのフィードバックを用いて、Q−Learning(非特許文献2)を適用し、ユーザの評価が最高になるように、状態間の遷移確率と、状態ごとに適用すべき最適の行動を決定する。Q−Learningは、マルコフ決定過程上で動作する強化学習のアルゴリズムである。Q−Learningを適用するためには、システムの動作を前記のマルコフ決定過程として記述する必要がある。そして、強化学習部40は、学習されたマルコフ決定過程を、対話制御部26へ更新することで、ユーザとの対話の満足度を向上させる。
強化学習部40が、マルコフ決定過程を作成する方法を、2つ挙げる。
マルコフ決定過程の第1の作成方法は、初期システムを作成する方法である。これは、最適な戦略をあらかじめ与えることは困難であるために、初期システムとして簡易な対話戦略を作成することである。この時点での対話戦略は最適なものを作成することは目指さずに、既にテンプレートとして作成された初期の対話戦略を利用する。この初期の対話戦略に基づいて動作する初期システムを構築する。
マルコフ決定過程の第2の作成方法は、ユーザとの対話を重ねていくことによって、前記初期システムを徐々に改良していく方法である。この改良方法における特徴として、マルコフ決定過程を構成する1つ以上の状態を1つの仮想的な状態(以下、クラスタと呼ぶ)にまとめてから、このクラスタに対してマルコフ決定過程を作成することが挙げられる。
クラスタ構成部42は、1つ以上の状態を1つのクラスタにまとめるための計算を行う際に、前記フィーチャー関数格納部28に格納されているフィーチャー関数を活用する。
対話評価収集部44は、マルコフ決定過程を作成するために必要なフィードバック(評価値)を収集する。つまり、初期システムとユーザとの対話を複数回行い、対話ごとにユーザが対話の良し悪しを評価したフィードバックを与える。システムとユーザの対話と、ユーザのフィードバックを収集および記録する。そして、各対話の終わりに、ユーザは対話の良し悪しを評価したフィードバックを与え、システムはこれを記録する。フィードバックは、−1、0、1のいずれかであり、直感的には、−1は対話の質が悪かったこと、Oは対話の質が良くも悪くもなかったこと、1は対話の質が良かったことを示す。
ここで、マルコフ決定過程の作成方法について、具体的に説明する。まず、以下の説明のために、マルコフ決定過程を表現するための数学的表記を説明する。マルコフ決定過程は、<S、A、P、R>の4組で表される。このとき、Sは状態(s1,...,sn)の有限集合であり、Aは行動(a1,...,am)の有限集合であり、P(s’|s、a)は、状態sにおいて行動aをとった後に状態sから状態s’に移行する確率を表し、R(s、a、s’)は、行動aによって状態sから状態s’に遷移する際に得られる報酬を表す。
状態sにおいて行動aをとったときに、行動aの期待報酬R(s,a)は次のように定義される。
Figure 0004464770
次に、マルコフ決定過程の第1の作成方法について、具体的に説明する。なお、第1の作成方法は、強化学習(非特許文献2)について説明するものである。強化学習とは、システムが、システムを取り囲む環境(音声対話システムの場合はユーザ)との試行錯誤的なインタラクションを通して、最適なポリシーを学習するという課題を解決する方法の総称である。以下、強化学習の概要について、説明する。後記の式(2)、式(3)によってポリシーを段階的に洗練していく手順は、ポリシー改良(policy improvement)と呼ばれ、マルコフ決定過程を解くための一般的に知られた手順である(非特許文献2)。
Q−Learningの時刻tにおけるシステムのポリシーπtは、状態sで行動aを選択することの良さを推定する、時刻tにおける行動価値関数Q’(s,a)に基づいて決定される。行動価値関数の値は、Q値とも呼ばれる。Q値の真の値は、次の式(2)を解くことによって、計算される。ここで、γはOより大きく1より小さな値であり、関数πは、システムのポリシーを表す関数であって、状態sからsで採用する行動aへの関数である。
Figure 0004464770
式(2)に基づいて、時刻tにおける行動価値関数Qt(s,a)を時刻tにおけるポリシーπtから求める。次に、時刻tにおける行動価値関数Qt(s,a)に基づいて、次式(3)を使って、時刻t+1におけるポリシーを決定する。
Figure 0004464770
以上の概要を実現するためのアルゴリズムは、図2の通りである。
対話戦略学習装置2は、システムの初期の状態をs0とし、現在の状態sfにs0を初期設定として代入する(S101)。対話戦略学習装置2は、システムの行動のそれぞれについて、その行動が現在のシステムの状態sfにおいて適用可能かどうか判断する(S102)。まず、適用可能であれば、対話戦略学習装置2は、ステップS102で見つけた適用可能な行動の中で、マルコフ決定過程において定義される期待報酬を最大とするような行動afを選択する(S103)。一方、適用可能でなければ、処理を終了する。
対話戦略学習装置2は、選択された行動afを適用し、ユーザの応答を待つ(S104)。対話戦略学習装置2は、ユーザの応答によってシステムの理解状態を更新する(S105)。対話戦略学習装置2は、システムの状態を更新し、更新後の状態をシステムの現在の状態sfに設定し(S106)、ステップS102に戻る。
さらに、マルコフ決定過程の第2の作成方法について、その概要を説明する。なお、第1の作成方法と第2の作成方法との差異は、マルコフ決定過程の状態をクラスタとして集約しないか(第1の作成方法)、または、クラスタとして集約するか(第2の作成方法)である。
まず、状態クラスタを構成するために、クラスタ関数c:{1,...,n}→{1,...,k}、k<nを導入する、関数cによって、元のマルコフ決定過程の各状態s1,...,snをk個のクラスタS1,...,Skのいずれかに割り当てる。
ここで、システムがクラスタSjにいるときに状態siが選ばれるサンプリング関数q(s|S)を導入する。この関数は次のように計算される。
Figure 0004464770
ただし、P(s)はシステムが状態sにいる確率である。
次に、システムが、クラスタ8において行動aをとったときに、クラスタS’に遷移する確率P(S’|S、a)を次のように計算する。
Figure 0004464770
同様にして、行動aによってクラスタSからクラスタS’に遷移する際の報酬関数は次のように計算する。
Figure 0004464770
以上のようにして、クラスタ、クラスタ間の遷移確率、クラスタにおける報酬関数を計算することにより、集約されたマルコフ決定過程を作成する。次に、マルコフ決定過程を解く標準的な方法であるポリシー改良法(非特許文献2)を使って、集約されたマルコフ決定過程を解く。その後、次の式にしたがって、集約されたマルコフ決定過程の解を元のマルコフ決定過程の解に分解し、元のマルコフ決定過程の近似的な解を得る。この解は、対話戦略学習装置2の記憶手段(メモリやハードディスクなどのハードウェア資源)に記憶される。
Figure 0004464770
式(7)を適用する前と後でQ値の変化が、あらかじめ与えておく閾値よりも大きくなったときは、解が安定していないと推定されるので、得られた解の質が良くないとする。このとき、式(7)で得られた新たなQ値に基づいてクラスタ関数を選択し直し、クラスタを作成し直す。
なお、クラスタを作成し直した後は、既に説明したように、式(4)、式(5)、式(6)に基づいて、集約されたマルコフ決定過程をあらためて作成することになるが、このとき、集約されたマルコフ決定過程におけるQ値の計算は、次の式(8)に従う。
Figure 0004464770
得られた解の質が十分でないなら、クラスタ関数の選択をやり直す。
以上説明した概要を実現するためのアルゴリズムとして、図3を参照して、具体的に説明する。
対話戦略学習装置2は、クラスタ関数cを選択する(S201)。対話戦略学習装置2は、式(4)、(5)、(6)にしたがって、集約されたマルコフ決定過程を作成する。集約されたマルコフ決定過程におけるQ値は、式(8)に基づいて計算する(S202)。
対話戦略学習装置2は、ポリシー改良法(非特許文献2)などのマルコフ決定過程を解く標準的な方法にしたがって、集約されたマルコフ決定過程を解く(S203)。対話戦略学習装置2は、式(7)にしたがって、集約されたマルコフ決定過程の解を元のマルコフ決定過程の解に分解することで、元のマルコフ決定過程の近似的な解を得る(S204)。対話戦略学習装置2は、Q値の変化が、あらかじめ与えておく閾値よりも大きくなったときは、ステップS201に戻る(S205)。一方、閾値よりも大きくならないときは、Q値が安定したとして、処理を終了する。
ここで、マルコフ決定過程の第2の作成方法におけるステップS201について、具体的に説明する。
ステップS201において、クラスタ関数を選択し、クラスタを構成する必要がある。ここでは、クラスタは、すでに説明したフィーチャー関数に基づいて構成される。
フィーチャー関数fは、システム理解状態や、音声認識結果の信頼度に基づいて、システムの状態を分類することによって、クラスタを構成するという役割を果たすと考えることができる。すなわち、あるフィーチャー関数fがとる値によって状態を分類し、クラスタを構成することができる。たとえば、Confirmationというフィーチャー関数がall unconfirmedという値をとるような状態を取り出して、一つのクラスタを構成し、some confirmedという値をとるような状態を取り出して、一つのクラスタを構成し、all confirmedという値をとるような状態を取り出して、一つのクラスタを構成するというように、クラスタを構成することができる。
考慮するフィーチャー関数をf1,...,flと書くこととする。フィーチャー関数が特定の値をとるような状態を取り出して、一つのクラスタを構成するということは、次の制約集合を満たすような状態の集合を一つのクラスタと考えることを意味する。ただし、それぞれのフィーチャー関数がとる値をv1,...,vlと書くものとする。
Figure 0004464770
システムで用意したすべてのフィーチャー関数を考慮し、それぞれのフィーチャー関数が特定の値をとるという制約の下に一つのクラスタを構成する場合には、一つの状態のみから構成される最小のクラスタを与えることになる。考慮するフィーチャー関数を減らしていくことにより、より大きなクラスタを構成することができる。本発明の実施においては、同じような状態をできるだけまとめあげ、一つのクラスタとすることにより、できるだけ大きなクラスタを構成し、クラスタの総数を減らす処理を行う。この処理により、計算量を削減することができる。以下、クラスタの総数を減らす処理を説明する。
まず、時刻tにおける行動価値関数Qt(s,a)が与えられるとき、各状態sにおいて行動価値関数Qt(s,a)を最大にする行動が、確率pで同じ行動a*になる状態を一つのクラスタとするように、最小の制約集合を求める。なお、この1つのクラスタとなる状態は、前記状態の遷移の頻度に着目して類似するといえる。すなわち、次の式を満たすような状態sが一つのクラスタの中に入るような最小の制約集合を求める。
Figure 0004464770
このようにして、クラスタを構成する。既に説明したように、クラスタ関数はQ値に依存するので、図3のステップS201においては、このステップが実行されるときのQ値に基づいてクラスタ関数が選択される。
以上に述べた方法によって、状態クラスタの総数は状態の総数よりも小さくなるので、探索空間の大きさを削減することができ、従来方法と比較して、必要とされる対話データの量とユーザのフィードバックの量を削減することが可能となる。そして、このことにより、対話戦略を学習するまでに必要な手間を削減することができる。
以上の本実施形態の要約は、以下のとおりである。ユーザと音声で対話しながらユーザの問い合わせ内容を理解する音声対話システムにおいて、ユーザの問い合わせ内容を理解した結果をスロットと値の対として表現したシステム理解状態を保持し、この状態を状態クラスタとしてまとめあげ、この状態クラスタから構成されるサイズのより小さいマルコフ決定過程を作成し、このマルコフ決定過程を解いた後で、この近似的な解を元のマルコフ決定過程の解に戻し、あらかじめ記録したフィードバックの情報から強化学習法を使って、対話各時点のシステムの行動を選択するための対話戦略を学習する。
以上説明した本発明は、以下のようにその趣旨を逸脱しない範囲で広く変形実施することができる。
例えば、対話戦略学習装置2は、対話戦略の学習(マルコフ決定過程の作成)について、1回ではなく継続的に行うことができる。つまり、N回目のマルコフ決定過程の作成結果をもとに、N+1回目のマルコフ決定過程を作成する。そして、1回目のマルコフ決定過程の作成は、初期システムを作成する。
また、対話戦略学習装置2は、大きく2つの系統に分類することができる。まず、マルコフ決定過程の作成系は、強化学習部40、クラスタ構成部42(さらに、クラスタの構成に必要なフィーチャー関数格納部28)、対話評価収集部44である。一方、マルコフ決定過程の実行系は、対話戦略学習装置2から前記マルコフ決定過程の作成系を除外して、フィーチャー関数格納部28を追加したものである。この分類に従って、1つの対話戦略学習装置2を2つの装置に分割し、各装置をネットワークで接続するような実施形態も構成可能である。このようにすることで、機能分担に関する処理能力の軽減が可能となる。
さらに、対話戦略学習装置2によるユーザとの対話の種別(メディア)は、音声信号(マイクロフォン12とスピーカ14が処理する)だけに限定されず、映像データや、テキストデータなど、様々なものが活用可能である。その際には、回答データベース16においてユーザからの質問に答えられるように、インタフェースに種別の変換処理をもたせればよい。例えば、映像データが入力されたときには、その映像データから音声データを抽出し、その音声データをテキストデータに変換するような処理が、変換処理の一例として挙げられる。
本発明の一実施形態に関する音声対話システムの構成図である。 本発明の一実施形態に関するクラスタを作成しないマルコフ決定過程の動作を示すフローチャートである。 本発明の一実施形態に関するクラスタを作成するマルコフ決定過程の動作を示すフローチャートである。
符号の説明
2 対話戦略学習装置
22 発話理解部
24 システム理解状態格納部
26 対話制御部
28 フィーチャー関数格納部
30 システム行動格納部
32 発話生成部
40 強化学習部
42 クラスタ構成部
44 対話評価収集部

Claims (5)

  1. ユーザ端末からの問い合わせ内容を、変数名を示すスロットと、そのスロットに代入される値との組で表現するシステム理解状態として保持し、現時点までに収集した対話データをもとにした対話の進捗度合いを表す有限個の状態と、前記状態において対話システムの次の発話内容を決定するための有限個のシステム行動から構成されるマルコフ決定過程に従って、前記システム理解状態から次のシステム行動を選択し、前記次のシステムの行動をもとにユーザ端末に応答する前記対話システムにおいて、前記マルコフ決定過程を学習する対話戦略学習方法であって、
    コンピュータが、前記ユーザ端末への応答に対する評価値の入力を受け付け、前記評価値を収集する手順と、学習する元のマルコフ決定過程の時刻tにおける行動価値関数の値(Q値)を算出しておき、当該Q値を最大にする行動が、所定の確率pで同じとなるような各状態を、1つのクラスタに統合するクラスタ関数により、前記状態を分類することでクラスタを構成する手順と、前記クラスタに基づくサンプリング関数と、前記クラスタ間の遷移確率と、前記クラスタにおける前記遷移確率と前記評価値とから報酬関数とを計算することにより、集約されたマルコフ決定過程を作成する手順と、前記集約されたマルコフ決定過程をポリシー改良法を使って解く手順と、前記集約されたマルコフ決定過程の解を所定の算出方法で分解して、前記Q値を算出する手順と、
    を実行することを特徴とする対話戦略学習方法。
  2. 前記クラスタ関数は、前記算出したQ値に基づくクラスタ関数であることを特徴とする請求項1に記載の対話戦略学習方法。
  3. ユーザ端末からの問い合わせ内容を、変数名を示すスロットと、そのスロットに代入される値との組で表現するシステム理解状態として保持し、現時点までに収集した対話データをもとにした対話の進捗度合いを表す有限個の状態と、前記状態において対話システムの次の発話内容を決定するための有限個のシステム行動から構成されるマルコフ決定過程に従って、前記システム理解状態から次のシステムの行動を選択し、前記次のシステムの行動をもとにユーザ端末に応答する前記対話システムにおいて、前記マルコフ決定過程を学習する対話戦略学習装置であって、
    ユーザ端末との対話ごとに評価値を収集および記録する対話評価収集部と、学習する元のマルコフ決定過程の時刻tにおける行動価値関数の値(Q値)を算出しておき、当該Q値を最大にする行動が、所定の確率pで同じとなるような各状態を、1つのクラスタに統合するクラスタ関数により、前記状態を分類することでクラスタを構成するクラスタ構成部と、前記クラスタに基づくサンプリング関数と、前記クラスタ間の遷移確率と、前記クラスタにおける前記遷移確率と前記評価値とから報酬関数とを計算することにより、集約されたマルコフ決定過程を作成し、前記集約されたマルコフ決定過程をポリシー改良法を使って解き、前記集約されたマルコフ決定過程の解を所定の算出方法で分解して、前記Q値を算出する強化学習部と、
    を有することを特徴とする対話戦略学習装置。
  4. 前記クラスタ関数は、前記算出したQ値に基づくクラスタ関数であることを特徴とする請求項3に記載の対話戦略学習装置。
  5. 前記対話戦略学習装置は、前記対話システムをさらに含めて構成されることを特徴とする請求項3または請求項4に記載の対話戦略学習装置。
JP2004252323A 2004-08-31 2004-08-31 対話戦略学習方法および対話戦略学習装置 Expired - Fee Related JP4464770B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004252323A JP4464770B2 (ja) 2004-08-31 2004-08-31 対話戦略学習方法および対話戦略学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004252323A JP4464770B2 (ja) 2004-08-31 2004-08-31 対話戦略学習方法および対話戦略学習装置

Publications (2)

Publication Number Publication Date
JP2006072477A JP2006072477A (ja) 2006-03-16
JP4464770B2 true JP4464770B2 (ja) 2010-05-19

Family

ID=36153078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004252323A Expired - Fee Related JP4464770B2 (ja) 2004-08-31 2004-08-31 対話戦略学習方法および対話戦略学習装置

Country Status (1)

Country Link
JP (1) JP4464770B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050929B2 (en) * 2007-08-24 2011-11-01 Robert Bosch Gmbh Method and system of optimal selection strategy for statistical classifications in dialog systems
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP5663205B2 (ja) * 2010-06-02 2015-02-04 日本電信電話株式会社 対話学習装置、対話分析装置、対話学習方法、対話分析方法、プログラム
JP6284472B2 (ja) * 2011-06-02 2018-02-28 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
CN105788593B (zh) * 2016-02-29 2019-12-10 中国科学院声学研究所 生成对话策略的方法及系统
JP6964558B2 (ja) * 2018-06-22 2021-11-10 株式会社日立製作所 音声対話システムとモデル作成装置およびその方法
CN114326749B (zh) * 2022-01-11 2023-10-13 电子科技大学长三角研究院(衢州) 一种基于Deep Q-Learning的集群区域覆盖方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN107748566B (zh) * 2017-09-20 2020-04-24 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法

Also Published As

Publication number Publication date
JP2006072477A (ja) 2006-03-16

Similar Documents

Publication Publication Date Title
CN109891434B (zh) 使用神经网络生成音频
CN109844773B (zh) 使用卷积神经网络处理序列
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
US11355097B2 (en) Sample-efficient adaptive text-to-speech
WO2022134894A1 (zh) 语音识别方法、装置、计算机设备及存储介质
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
US11068655B2 (en) Text recognition based on training of models at a plurality of training nodes
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
JP4464770B2 (ja) 対話戦略学習方法および対話戦略学習装置
CN108053826B (zh) 用于人机交互的方法、装置、电子设备及存储介质
CN117972038A (zh) 一种智能问答方法、装置及计算机可读介质
EP4218007A1 (en) Fast emit low-latency streaming asr with sequence-level emission regularization
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN113821620A (zh) 多轮对话任务处理方法、装置及电子设备
CN101884064B (zh) 信息处理设备和信息处理方法
JP5070591B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
WO2022024183A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN111312267B (zh) 一种语音风格的转换方法、装置、设备和存储介质
CN107766944A (zh) 一种利用api分析进行系统功能流优化的系统和方法
JP2020106905A (ja) 発話文生成モデル学習装置、発話文収集装置、発話文生成モデル学習方法、発話文収集方法、及びプログラム
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
WO2022024187A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN116741160A (zh) 流式语音识别方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20091218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4464770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees