JP6362861B2 - 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 - Google Patents

対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 Download PDF

Info

Publication number
JP6362861B2
JP6362861B2 JP2013268125A JP2013268125A JP6362861B2 JP 6362861 B2 JP6362861 B2 JP 6362861B2 JP 2013268125 A JP2013268125 A JP 2013268125A JP 2013268125 A JP2013268125 A JP 2013268125A JP 6362861 B2 JP6362861 B2 JP 6362861B2
Authority
JP
Japan
Prior art keywords
node
dialog
dialogue
fixed
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013268125A
Other languages
English (en)
Other versions
JP2015125198A (ja
Inventor
▲シン▼ 徐
▲シン▼ 徐
加藤 恒夫
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013268125A priority Critical patent/JP6362861B2/ja
Publication of JP2015125198A publication Critical patent/JP2015125198A/ja
Application granted granted Critical
Publication of JP6362861B2 publication Critical patent/JP6362861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、対話シナリオを用いてユーザと対話する対話システムの技術に関する。
人間に対して自然な対話を実現した対話システムが、特にスマートフォンやタブレット端末で一般的に普及しつつある。その中でも、事前に設定された固定的な対話シナリオに従って、ユーザとの間で交互に対話プロセスを進めて、ユーザから必要な情報を取得する技術がある。特に、対話シナリオにおけるユーザの回答に応じて、適切な対話ノードの質問をする技術が必要となる(例えば特許文献1参照)。この技術によれば、対話ノードを大量に用意し、現在の対話ノードに対して遷移確率が最大となる対話ノードへ遷移することによって、自然な対話を進めることができる。遷移確率は、過去の判別結果も考慮されて更新されていく。そのために、システム管理者が固定的な対話シナリオを作成する手間が少なくなる。
また、ユーザとの対話進行に応じて、ユーザの知識情報及び嗜好情報の両方を考慮した対話状態モデルを自動的に更新する技術もある(例えば特許文献2参照)。この技術によれば、対話状態モデルを機械学習によって最適化することによって、ユーザに対して適切な質問をし、良好な意思を取得することができる。この機械学習によれば、文毎の重みベクトルを自動的に構築する。
更に、事前に収集された対話シミュレーションの実験や大量のユーザモニタ操作実験によって蓄積された行動系列データ(学習データ)を機械学習に適用し、対話システムに対するユーザの使用の習熟度(経験的対応レベル)を推定する技術もある(例えば非特許文献1参照)。この技術によれば、ユーザの対応レベルに応じて、対話遷移の推移確率を最尤化する。
特開2009−198614号公報 特開2012−038287号公報
「バス運行情報案内システムにおけるユーザモデルを用いた適応的応答の生成」、[online]、[平成25年11月1日検索]、インターネット<http://www.ipsj.or.jp/award/9faeag0000004f4v-att/LF_2.pdf>
固定的なシナリオで対話を進行させる対話システムの場合、長期間の利用によってユーザが飽きやすいという問題がある。そのような問題に対しては、対話システムの運用者が、対話シナリオの分岐やセリフのバリエーションを増やすことが必要となり、人手がかかることとなる。
これに対し、固定的な対話ノードの進行の間に、特許文献1に基づく遷移確率が最大となる動的な対話ノードを挿入することもできる。動的な対話ノードとしては、ユーザの個人情報を取得するべく、例えば、ユーザの趣味や嗜好などプロフィール情報を収集するための会話や、ユーザが興味ありそうな情報提供する会話を挿入する。これによって、固定的な対話シナリオが部分的に且つ自動的に修正され、対話のバリエーションを増やす手間も少なくなる。
しかしながら、特許文献1に記載の技術によれば、固定対話ノードから、遷移確率の高い動的対話ノードへ移行したとしても、その移行の全てが確率モデルに依存するために、対話シナリオの部分的な修正が難しいという問題がある。
また、特許文献2に記載の技術によれば、対話内容に対するユーザの知識や嗜好を考慮しているが、ユーザの対話習慣までを考慮したものではない。例えば対話システムからのユーザの嗜好に対する質問であっても、直ぐに返答する人、全く返答しない人、何回か質問することによって返答する人、など様々である。
更に、非特許文献1に記載の技術によれば、既存の1つのオフライン機械学習技術を適用した場合、多様なユーザの特性に合わせて学習データを構築することはできず、各ユーザの特性をカバーすることまではできない。特に、事前に集めた学習データでは、ユーザの対話習慣を代表するデータが十分得られていない。そのために、その学習モデルでは、ユーザがネガティブな回答をした場合に、直ぐに固定シナリオの次の固定対話ノードの質問をしようとする。
図1は、固定対話ノードのシナリオ進行を表す説明図である。
図1によれば、予め固定的に設定されたシナリオで進行しているだけである。
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:固定)「予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
この例によれば、ユーザの要求を受け付ける固定対話ノードと、録画要求に対してメモリを空けるための固定対話ノードとが、連続して実行されている。
図2は、固定対話ノードの間に動的対話ノードを挿入したシナリオ進行を表す説明図である。
図2によれば、図1と比較して、多数の動的対話ノードを蓄積しており、ユーザの回答に応じた適切な動的対話ノードを、固定対話ノードの間に自動的に挿入している。
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:動的)「ラーメンは好きですか?」
(ユーザ) 「・・・・・」
(システム) 「・・・・・」
(システム:固定)「予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
図2によれば、動的対話ノードとして「ラーメンは好きですか?」と質問することによって、ユーザがラーメンを好きか否かの回答を得ようとしている。しかしながら、ユーザが何も返答しなければ、それ以上、動的対話ノードを進行させることができない。即ち、ユーザがネガティブ回答をした場合、それ以上、動的対話ノードを進行させることは、ユーザに不快な思いをさせるためである。結局、次の固定対話ノードにおける質問をするだけである。
しかしながら、発明者らは、ユーザ毎の対話習慣の違いによっては、全く回答しないユーザだけでなく、必ず回答するユーザや、更に動的対話ノードの質問をすることによって回答をするユーザも存在するのではないか?と考えた。
そこで、本発明は、できる限り自然な対話の中で、ユーザ毎の対話習慣に応じて、固定的な対話ノードの間における動的対話ノードの挿入行動を制御することができる対話プログラム、サーバ及び方法を提供することを目的とする。
本発明によれば、ユーザと対話的にシナリオを進行するようにコンピュータを機能させる対話プログラムであって、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
してコンピュータを機能させることを特徴とする。
本発明の対話プログラムにおける他の実施形態によれば、
報酬期待値蓄積手段は、動的対話ノードの質問文に対するユーザの回答の内容が、ポジティブの場合にプラス所定値を導出し、ネガティブの場合にマイナス所定値を導出する
ようにコンピュータを機能させることも好ましい。
本発明の対話プログラムにおける他の実施形態によれば、
動的対話ノード選択手段は、マルコフ決定MDP(Markov Decision Process)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定するようにコンピュータを機能させることも好ましい。
本発明の対話プログラムにおける他の実施形態によれば、
マルコフ決定MDPのモデルの最適化学習に、Q-learningのQ値を用いることも好ましい。
本発明によれば、ユーザ操作に基づく端末との間で、対話的にシナリオを進行する対話サーバであって、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
を有することを特徴とする。
本発明によれば、ーザと対話的にシナリオを進行する装置の対話方法であって、
装置は、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積部と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積部と
を有し、
装置は、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する第1のステップと、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する第2のステップと
実行することを特徴とする。
本発明の対話プログラム、サーバ及び方法によれば、できる限り自然な対話の中で、ユーザ毎の対話習慣に応じて、固定的な対話ノードの間に動的対話ノードの挿入行動を制御することができる。
固定対話ノードのシナリオ進行を表す説明図である。 固定対話ノードの間に動的対話ノードを挿入したシナリオ進行を表す説明図である。 本発明における対話システムの構成図である。 本発明における報酬期待値蓄積部の状態遷移図である。 本発明におけるシナリオ進行を表す説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図3は、本発明における対話システムの構成図である。
図3によれば、対話サーバモジュールプログラム1と、端末モジュールプログラム2とから構成されている。例えば、対話サーバモジュールプログラム1は、ユーザと対話的にシナリオを進行するものであって、例えばサーバによって実行される。一方で、端末モジュールプログラム2は、スマートフォンやタブレット端末によって実行されるものであって、ネットワークを介してサーバと通信する。対話サーバモジュールプログラム1は、端末2を通じて、ユーザと対話する。尚、両モジュールプログラム1及び2が、単体装置の1つのコンピュータによって一体的に実行されるものであってもよい。本発明によれば、サーバモジュールプログラムと端末モジュールプログラムとそれぞれが実行されるべき対象装置が、特定されるものではない。
端末モジュールプログラム2は、ユーザに対する入力デバイス及び出力デバイスを有する。入力デバイスがマイクである場合、入力音声処理部は、マイクによって取得された音声信号を回答文に変換し、その回答文を対話サーバモジュールプログラム1へ送信する。また、出力デバイスがスピーカである場合、対話サーバモジュールプログラム1から受信した回答文を音声信号に変換し、その音声信号がスピーカから出力される。
図3によれば、対話サーバモジュールプログラム1は、対話シナリオ蓄積部10と、動的対話ノード蓄積部11と、動的対話ノード選択部12と、対話シナリオ進行部13と、質問文送信部14と、回答文受信部15と、報酬期待値蓄積部16とを有する。尚、質問文送信部14は、対話シナリオ進行部13に基づくユーザへの質問文を、端末モジュールプログラム2へ送信する。また、回答文受信部15は、端末モジュールプログラム2から、ユーザからの回答文を受信する。
[対話シナリオ蓄積部10]
対話シナリオ蓄積部10は、ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けている。「対話シナリオ」とは、質問及び回答からなる対話ノードをツリー状に構成したものである。
[動的対話ノード蓄積部11]
動的対話ノード蓄積部11は、対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する。動的対話ノードも、固定対話ノードと構造としては同じであるが、対話ノード同士が予め結び付いているものではない。
本発明によれば、固定対話ノードと動的対話ノードとを明確に区別して説明している。
「固定対話ノード」とは、何らかの達成したいタスク(目的)があるタスク指向型の対話ノードである。事前の対話経験やシステムに関するノウハウに基づいて予め設計されたものであって、対話ノード間の遷移が固定となる。即ち、対話ノード間の遷移は、編集(挿入や削除)作業のような人手を要する。
「動的対話ノード」とは、具体的なタスクを持たず、雑談のような対話ノード(又はノード群)であり、他の動的対話ノードへの遷移は前後の遷移確率によって決定される。この遷移確率は、機械学習によって、自動的に更新される。
ここで、固定か又は動的かの区別を、対話ノード間の遷移確率の高さによって判定することもできる。即ち、対話シナリオ蓄積部10及び動的対話ノード蓄積11を、一体的に構成する。その上で、先の対話ノードと後の対話ノードと間の遷移確率が、所定閾値以上の場合、後の対話ノードは固定対話ノードとし、所定閾値よりも低い場合、後の対話ノードは動的対話ノードとする。
尚、固定対話ノード及び動的対話ノードの各々は、ユーザへの質問に対する複数の回答によって短い対話シナリオを構成している。従って、1つのノードの中でも、質問と回答とがツリー状に対話シナリオとして構成されている。
[動的対話ノード選択部12]
動的対話ノード選択部12は、動的対話ノードの選択と、動的対話ノードの挿入行動制御との2つの機能を有する。尚、動的対話ノードの挿入行動制御については、以下の報酬期待値蓄積部16に後述する。
<動的対話ノードの選択>(動的対話ノード選択部12)
動的対話ノード選択部12は、動的対話ノード蓄積部11から、固定対話ノードの文に対して類似確率Pが高い動的対話ノードを検索する。類似確率Pとしては、例えば、固定対話ノードの文と動的対話ノードの文との間の「コサイン距離」に基づくものであってもよい。
各文は、形態素に区分された後、対話コーパスにおける出現頻度が高い重要語(名詞)を蓄積した重要語辞書を用いて、重要語が検出される。勿論、あえて重要語として検出することなく、形態素の名詞を全て、コサイン距離を算出するための要素としてもよい。コサイン距離は、各文の中から抽出された重要語及びその名詞種別に応じて算出される。例えば以下のような概念式で算出される。
固定対話ノードの文の重要語の特徴ベクトル:D
動的対話ノードの文の重要語の特徴ベクトル:E
2つの文の類似度:sim(D,E)
sim(D,E)=cosθ=(D・E)/(|D||E|)
コサイン距離は、同じ単語同士である場合には類似度重みを1とし、同じカテゴリ同士である場合には類似度重みを1に近い値を設定する。回答「ラーメン特集のテレビ番組の録画を予約して!」に対して、単語「ラーメン」によって、動的対話ノード「ラーメンは好きですか?」の文同士の間のコサイン距離が、最も短く(高い値と)なる。
[対話シナリオ進行部13]
対話シナリオ進行部13は、第1の固定対話ノードから、選択された動的対話ノードを挿入し、第2の固定対話ノードへシナリオを進行する。ここで、動的対話ノードの挿入行動制御は、動的対話ノード選択部12からの制御に基づく。
[報酬期待値蓄積部16]
報酬期待値蓄積部16は、動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する。報酬期待値r(s,a)とは、状態sで行動aを実行した際に得られる報酬の「見込み」を表す。
図4は、本発明における報酬期待値蓄積部の状態遷移図である。
図4によれば、4つの質問行動aに対する4つの回答状態sからなる状態遷移が表されている。
<質問行動>
(質問行動a1)別の動的対話ノードの質問をする
(質問行動a2)前の動的対話ノードの質問を繰り返す
(質問行動a3)待機
(質問行動a4)次の固定対話ノードの質問をする
<回答状態>
(回答状態s1)固定対話ノードの質問に対して回答される
(回答状態s2)動的対話ノードの質問に対してネガティブに回答される
このとき、当該状態s2へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を−1ポイントとする
(回答状態s3)動的対話ノードの質問に対してポジティブに回答される
このとき、当該状態s3へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を+1ポイントとする
(回答状態s4)動的対話ノードを挿入せず、次の固定対話ノードの質問に回答される
(回答状態s5)対話を中止される
このとき、当該状態s5へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を−2ポイントとする
図4の状態遷移図を所定回数以上繰り返すことによって、状態sに対する行動aに基づく報酬期待値が累積的にカウントされていき、ユーザ毎の対話習慣が蓄積されていく。
報酬期待値蓄積部16は、動的対話ノードの質問文に対するユーザの回答の内容に応じて、報酬期待値rへの加算値を導出する。
ポジティブの場合->プラス所定値 (図4のS3によれば+1ポイント)
ネガティブの場合->マイナス所定値(図4のS2によれば−1ポイント)
回答内容の判定について、ネガティブ(否定的)の意味属性が対応付けられた評価極性辞書を用いることが好ましい。回答内容に、ネガティブな評価極性単語が含まれている場合、ネガティブと判定する。
(回答) (意味属性)
・・・・・・ ネガティブ
もういいよ ネガティブ
今、忙しい ネガティブ
これによって、ある時間で実行した対話ノードが、その後の報酬獲得にどの程度貢献したのかを評価することができる。
<動的対話ノードの挿入行動制御>(動的対話ノード選択部12)
動的対話ノード選択部12は、固定対話ノードのシナリオ進行の間で、ユーザ毎の対話習慣を表す報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次に動的対話ノードの挿入行動を制御する。動的対話ノード選択部12は、強化学習(Reinforcement Learning)、基本的には、マルコフ決定MDP(Markov Decision Process)(又は、POMDP(部分観測マルコフ決定過程)やその他のMDPの拡張モデル)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定する。
マルコフ決定MDPによれば、最初に、状態遷移確率P(s'|s,a)を用いて、時刻tにおける確率分布bt(s)を算出する。
t(s')=ηΣsP(s'|s,a)bt-1(s) 式(1)
η:btの総和を1にするための正規化定数
状態遷移確率P(s'|s,a):
状態sから、行動aを実行した後、状態s'へ移行する確率を表す。
次に、報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する。
t=Σr=0 γrΣsγ+t(s)γ(s,aγ+t) 式(2)
γ:1より小さい正定数
結果的に、報酬Vtが最大となるように、状態sにおける行動aを決定する。
マルコフ決定MDPモデルを用いることによって、動的対話ノード選択部12は、ユーザの対話習慣の状態遷移確率や報酬の与えられ方についての知識を予め持つことなく、動的対話ノードの質問文に対してユーザがポジティブに回答することを最大化するように制御方策が学習される。
MDPモデルの最適化学習については、オンライン学習技術(例えばQ-learning)を用いることも好ましい。Q-learningによれば、有限マルコフ決定過程について全ての状態が十分にサンプリングできるようなイベントを無限回試行した場合、最適な評価値に収束する。Q-learningを用いて、最適なAction-Value関数によってQ(s,a)を算出する。Q(s,a)は、S×A個のエントリを持つ2次元配列変数である。
Q(s,a)=max π Qπ(s,a)、 for all s∈S and a∈A
Q(s,a)は、Q値と称され、状態sについて最大のQ値を持つ行動aが最適な行動となる。Q-learningのオンライン学習を用いることによって、モデルにおける状態及び行動をセットにして評価することができ、行動に対して直接的に評価することができる。
システムによれば、Q(s,a)を、回答に応じて、以下のように更新する。
(1)状態sを取得する。
(2)行動選択法(ボルツマン行動選択戦略)に従って行動atを実行する。
P(ai)=exp(Q(s,ai)/T)/Σj=1 DNexp(Q(s,aj)/T)
T:正の定数
DN:状態sで可能な行動aの集合
(3)報酬rtを取得する。
(4)状態遷移後の状態観測st+1を取得する。
(5)Q値を更新する。
Q(s,ai)←Q(s,ai)+α(r+γmaxαQ(s',a)−Q(s,ai))
α:学習率
γ:割引率(0≦γ≦1)
r:状態sへ遷移したときに得た報酬
この更新式は、現在の状態stから次の状態st+1へ遷移したとき、そのQ値を次の状態で最もQ値の高い状態の値に近づけることを意味している。これによって、ある状態で高い報酬を得た場合は、その状態に到達することが可能な状態にもその報酬が更新毎に伝播することになる。これにより、最適な状態遷移の学習が行われる。
(6)時間ステップtを、t+1へ進めて手順1へ戻る。
Q(s,a)=1/TsTa・Σj=1 2TsΣk=1 2Taj(s)Gk(a)wjk
図5は、本発明におけるシナリオ進行を表す説明図である。
図5によれば、図2と比較して、多数の動的対話ノードを蓄積しており、ユーザの回答に応じた適切な動的対話ノードを、固定対話ノードの間に自動的に挿入している。
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:動的)「ラーメンは好きですか?」
(ユーザ) 「・・・・・」
(システム) 「・・・・・」
(システム:動的)「ラーメンは好きですか?教えてよ」
(ユーザ) 「別に好きだけど」
(システム) 「ありがとう」
(システム:固定)予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
この例によれば、当該ユーザに対しては、動的対話ノードに対して一度ネガティブに回答したとしても、更に動的対話ノードを繰り返すことによってポジティブな回答をする対話習慣があったとする。この場合、固定対話ノードの間に挿入された動的対話ノードの質問に対してネガティブな回答がされたとしても、もう一度、動的対話ノードの質問を繰り返すことによってユーザからポジティブな回答を得ようとする。
本発明によれば、ユーザ毎の対話習慣によっては、1回のネガティブな回答によって次に動的対話ノードを挿入しないようにした方がいい場合もあれば、最初はネガティブな回答であっても動的対話ノードの質問を繰り返すことによってポジティブな回答が得られる場合もある。このようなユーザ毎の対話習慣に応じて、動的対話ノードの挿入行動を制御することができる。
以上、詳細に説明したように、本発明の対話プログラム、サーバ及び方法によれば、できる限り自然な対話の中で、ユーザ毎の対話習慣に応じて、固定的な対話ノードの間に動的対話ノードの挿入行動を制御することができる。
尚、本発明は、ユーザ操作に基づく端末のディスプレイに「キャラクタ・エージェント」を表示し、ユーザとエージェントとが音声による対話を進める、音声対話システムに適する。勿論、本発明は、音声対話に限定されるものではなく、テキスト対話であってもよい。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話サーバモジュールプログラム
10 対話シナリオ蓄積部
11 動的対話ノード蓄積部
12 動的対話ノード選択部
13 対話シナリオ進行部
14 質問文送信部
15 回答文受信部
16 報酬期待値蓄積部
2 端末モジュールプログラム

Claims (6)

  1. ユーザと対話的にシナリオを進行するようにコンピュータを機能させる対話プログラムであって、
    ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
    前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
    前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
    先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
    してコンピュータを機能させることを特徴とする対話プログラム。
  2. 前記報酬期待値蓄積手段は、前記動的対話ノードの質問文に対するユーザの回答の内容が、ポジティブの場合にプラス所定値を導出し、ネガティブの場合にマイナス所定値を導出する
    ようにコンピュータを機能させることを特徴とする請求項に記載の対話プログラム。
  3. 前記動的対話ノード選択手段は、マルコフ決定MDP(Markov Decision Process)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定するようにコンピュータを機能させることを特徴とする請求項1又は2に記載の対話プログラム。
  4. 前記マルコフ決定MDPのモデルの最適化学習に、Q-learningのQ値を用いることを特徴とする請求項に記載の対話プログラム。
  5. ユーザ操作に基づく端末との間で、対話的にシナリオを進行する対話サーバであって、
    ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
    前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
    前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
    先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
    を有することを特徴とする対話サーバ。
  6. ーザと対話的にシナリオを進行する装置の対話方法であって、
    前記装置は、
    ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積部と、
    前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積部と
    を有し、
    前記装置は、
    前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する第1のステップと、
    先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する第2のステップと
    実行することを特徴とする装置の対話方法。
JP2013268125A 2013-12-25 2013-12-25 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 Active JP6362861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013268125A JP6362861B2 (ja) 2013-12-25 2013-12-25 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013268125A JP6362861B2 (ja) 2013-12-25 2013-12-25 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2015125198A JP2015125198A (ja) 2015-07-06
JP6362861B2 true JP6362861B2 (ja) 2018-07-25

Family

ID=53535958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013268125A Active JP6362861B2 (ja) 2013-12-25 2013-12-25 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法

Country Status (1)

Country Link
JP (1) JP6362861B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017289B2 (en) * 2016-05-09 2021-05-25 1Qb Information Technologies Inc. Method and system for improving a policy for a stochastic control problem
WO2017200076A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11222633B2 (en) 2016-05-20 2022-01-11 Nippon Telegraph And Telephone Corporation Dialogue method, dialogue system, dialogue apparatus and program
JP6772916B2 (ja) * 2017-03-21 2020-10-21 トヨタ自動車株式会社 対話装置および対話方法
KR101945983B1 (ko) * 2018-01-26 2019-02-11 주식회사 머니브레인 대화 이해 ai 서비스 시스템과 연관된 대화 세션 중의 특정 시점에서 목표 달성을 위한 최적의 대화 패턴을 결정하는 방법, 목표 달성 예측 확률을 결정하는 방법, 및 컴퓨터 판독가능 기록 매체
JP7013329B2 (ja) * 2018-06-14 2022-01-31 ヤフー株式会社 学習装置、学習方法および学習プログラム
JP7117951B2 (ja) * 2018-09-11 2022-08-15 株式会社デンソーアイティーラボラトリ 対話プラン作成支援装置、対話プラン作成支援方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4634889B2 (ja) * 2005-08-15 2011-02-16 日本電信電話株式会社 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
JP2009064186A (ja) * 2007-09-05 2009-03-26 Mazda Motor Corp 車両用対話システム
JP5578571B2 (ja) * 2011-03-31 2014-08-27 Kddi株式会社 入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法
JP2013122521A (ja) * 2011-12-12 2013-06-20 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法
JP5897389B2 (ja) * 2012-04-23 2016-03-30 Scsk株式会社 自動対話シナリオ作成支援装置及び自動対話シナリオ作成支援プログラム

Also Published As

Publication number Publication date
JP2015125198A (ja) 2015-07-06

Similar Documents

Publication Publication Date Title
JP6362861B2 (ja) 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法
US10831345B2 (en) Establishing user specified interaction modes in a question answering dialogue
US20210019599A1 (en) Adaptive neural architecture search
US11941527B2 (en) Population based training of neural networks
CN107463701B (zh) 基于人工智能推送信息流的方法和装置
KR102033388B1 (ko) 질의 응답 장치 및 방법
JP2019159309A (ja) 音声対話の満足度の確定方法及び装置
US20230036644A1 (en) Method and system for exploring a personal interest space
US10395646B2 (en) Two-stage training of a spoken dialogue system
CN111414462B (zh) 一种对话语句确定方法、装置、计算机设备和介质
WO2018061774A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記憶媒体
US10042944B2 (en) Suggested keywords
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
CN116303949B (zh) 一种对话处理方法、系统、存储介质及终端
CN113408706B (zh) 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置
JP2016045583A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6027476B2 (ja) 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法
JP5545489B2 (ja) 学習システム、シミュレーション装置、および学習方法
CN111490929A (zh) 视频片段推送方法、装置、电子设备、存储介质
WO2015158224A1 (zh) 消息推荐方法及装置
US20200175230A1 (en) Method for determining a conversational agent on a terminal
JP6858721B2 (ja) コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法
JP6798839B2 (ja) 情報提供装置、および情報提供方法
JP6798840B2 (ja) 推定装置、および推定方法
CN117057430B (zh) 基于规则累积的模型推理方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180627

R150 Certificate of patent or registration of utility model

Ref document number: 6362861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150