JP6362861B2 - 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 - Google Patents
対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 Download PDFInfo
- Publication number
- JP6362861B2 JP6362861B2 JP2013268125A JP2013268125A JP6362861B2 JP 6362861 B2 JP6362861 B2 JP 6362861B2 JP 2013268125 A JP2013268125 A JP 2013268125A JP 2013268125 A JP2013268125 A JP 2013268125A JP 6362861 B2 JP6362861 B2 JP 6362861B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- dialog
- dialogue
- fixed
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:固定)「予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
この例によれば、ユーザの要求を受け付ける固定対話ノードと、録画要求に対してメモリを空けるための固定対話ノードとが、連続して実行されている。
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:動的)「ラーメンは好きですか?」
(ユーザ) 「・・・・・」
(システム) 「・・・・・」
(システム:固定)「予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
してコンピュータを機能させることを特徴とする。
報酬期待値蓄積手段は、動的対話ノードの質問文に対するユーザの回答の内容が、ポジティブの場合にプラス所定値を導出し、ネガティブの場合にマイナス所定値を導出する
ようにコンピュータを機能させることも好ましい。
動的対話ノード選択手段は、マルコフ決定MDP(Markov Decision Process)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定するようにコンピュータを機能させることも好ましい。
マルコフ決定MDPのモデルの最適化学習に、Q-learningのQ値を用いることも好ましい。
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
を有することを特徴とする。
装置は、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積部と、
固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積部と
を有し、
装置は、
動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する第1のステップと、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する第2のステップと
を実行することを特徴とする。
対話シナリオ蓄積部10は、ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けている。「対話シナリオ」とは、質問及び回答からなる対話ノードをツリー状に構成したものである。
動的対話ノード蓄積部11は、対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する。動的対話ノードも、固定対話ノードと構造としては同じであるが、対話ノード同士が予め結び付いているものではない。
「固定対話ノード」とは、何らかの達成したいタスク(目的)があるタスク指向型の対話ノードである。事前の対話経験やシステムに関するノウハウに基づいて予め設計されたものであって、対話ノード間の遷移が固定となる。即ち、対話ノード間の遷移は、編集(挿入や削除)作業のような人手を要する。
「動的対話ノード」とは、具体的なタスクを持たず、雑談のような対話ノード(又はノード群)であり、他の動的対話ノードへの遷移は前後の遷移確率によって決定される。この遷移確率は、機械学習によって、自動的に更新される。
動的対話ノード選択部12は、動的対話ノードの選択と、動的対話ノードの挿入行動制御との2つの機能を有する。尚、動的対話ノードの挿入行動制御については、以下の報酬期待値蓄積部16に後述する。
動的対話ノード選択部12は、動的対話ノード蓄積部11から、固定対話ノードの文に対して類似確率Pが高い動的対話ノードを検索する。類似確率Pとしては、例えば、固定対話ノードの文と動的対話ノードの文との間の「コサイン距離」に基づくものであってもよい。
固定対話ノードの文の重要語の特徴ベクトル:D
動的対話ノードの文の重要語の特徴ベクトル:E
2つの文の類似度:sim(D,E)
sim(D,E)=cosθ=(D・E)/(|D||E|)
対話シナリオ進行部13は、第1の固定対話ノードから、選択された動的対話ノードを挿入し、第2の固定対話ノードへシナリオを進行する。ここで、動的対話ノードの挿入行動制御は、動的対話ノード選択部12からの制御に基づく。
報酬期待値蓄積部16は、動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する。報酬期待値r(s,a)とは、状態sで行動aを実行した際に得られる報酬の「見込み」を表す。
<質問行動>
(質問行動a1)別の動的対話ノードの質問をする
(質問行動a2)前の動的対話ノードの質問を繰り返す
(質問行動a3)待機
(質問行動a4)次の固定対話ノードの質問をする
<回答状態>
(回答状態s1)固定対話ノードの質問に対して回答される
(回答状態s2)動的対話ノードの質問に対してネガティブに回答される
このとき、当該状態s2へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を−1ポイントとする
(回答状態s3)動的対話ノードの質問に対してポジティブに回答される
このとき、当該状態s3へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を+1ポイントとする
(回答状態s4)動的対話ノードを挿入せず、次の固定対話ノードの質問に回答される
(回答状態s5)対話を中止される
このとき、当該状態s5へ移行してきた先の状態sから行動aについて
報酬期待値r(s,a)を−2ポイントとする
ポジティブの場合->プラス所定値 (図4のS3によれば+1ポイント)
ネガティブの場合->マイナス所定値(図4のS2によれば−1ポイント)
回答内容の判定について、ネガティブ(否定的)の意味属性が対応付けられた評価極性辞書を用いることが好ましい。回答内容に、ネガティブな評価極性単語が含まれている場合、ネガティブと判定する。
(回答) (意味属性)
・・・・・・ ネガティブ
もういいよ ネガティブ
今、忙しい ネガティブ
これによって、ある時間で実行した対話ノードが、その後の報酬獲得にどの程度貢献したのかを評価することができる。
動的対話ノード選択部12は、固定対話ノードのシナリオ進行の間で、ユーザ毎の対話習慣を表す報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次に動的対話ノードの挿入行動を制御する。動的対話ノード選択部12は、強化学習(Reinforcement Learning)、基本的には、マルコフ決定MDP(Markov Decision Process)(又は、POMDP(部分観測マルコフ決定過程)やその他のMDPの拡張モデル)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定する。
bt(s')=ηΣsP(s'|s,a)bt-1(s) 式(1)
η:btの総和を1にするための正規化定数
状態遷移確率P(s'|s,a):
状態sから、行動aを実行した後、状態s'へ移行する確率を表す。
次に、報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する。
Vt=Σr=0 ∞γrΣsbγ+t(s)γ(s,aγ+t) 式(2)
γ:1より小さい正定数
結果的に、報酬Vtが最大となるように、状態sにおける行動aを決定する。
Q(s,a)=max π Qπ(s,a)、 for all s∈S and a∈A
Q(s,a)は、Q値と称され、状態sについて最大のQ値を持つ行動aが最適な行動となる。Q-learningのオンライン学習を用いることによって、モデルにおける状態及び行動をセットにして評価することができ、行動に対して直接的に評価することができる。
(1)状態sを取得する。
(2)行動選択法(ボルツマン行動選択戦略)に従って行動atを実行する。
P(ai)=exp(Q(s,ai)/T)/Σj=1 DNexp(Q(s,aj)/T)
T:正の定数
DN:状態sで可能な行動aの集合
(3)報酬rtを取得する。
(4)状態遷移後の状態観測st+1を取得する。
(5)Q値を更新する。
Q(s,ai)←Q(s,ai)+α(r+γmaxαQ(s',a)−Q(s,ai))
α:学習率
γ:割引率(0≦γ≦1)
r:状態sへ遷移したときに得た報酬
この更新式は、現在の状態stから次の状態st+1へ遷移したとき、そのQ値を次の状態で最もQ値の高い状態の値に近づけることを意味している。これによって、ある状態で高い報酬を得た場合は、その状態に到達することが可能な状態にもその報酬が更新毎に伝播することになる。これにより、最適な状態遷移の学習が行われる。
(6)時間ステップtを、t+1へ進めて手順1へ戻る。
Q(s,a)=1/TsTa・Σj=1 2TsΣk=1 2TaFj(s)Gk(a)wjk
(システム:固定)「何かありますか?」
(ユーザ) 「ラーメン特集のテレビ番組の録画を予約して!」
(システム) 「了解です。」
(システム:動的)「ラーメンは好きですか?」
(ユーザ) 「・・・・・」
(システム) 「・・・・・」
(システム:動的)「ラーメンは好きですか?教えてよ」
(ユーザ) 「別に好きだけど」
(システム) 「ありがとう」
(システム:固定)予約スペースが足りません。***を削除してもいいですか?」
(ユーザ) 「削除して!」
(システム) 「了解です。」
10 対話シナリオ蓄積部
11 動的対話ノード蓄積部
12 動的対話ノード選択部
13 対話シナリオ進行部
14 質問文送信部
15 回答文受信部
16 報酬期待値蓄積部
2 端末モジュールプログラム
Claims (6)
- ユーザと対話的にシナリオを進行するようにコンピュータを機能させる対話プログラムであって、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
してコンピュータを機能させることを特徴とする対話プログラム。 - 前記報酬期待値蓄積手段は、前記動的対話ノードの質問文に対するユーザの回答の内容が、ポジティブの場合にプラス所定値を導出し、ネガティブの場合にマイナス所定値を導出する
ようにコンピュータを機能させることを特徴とする請求項1に記載の対話プログラム。 - 前記動的対話ノード選択手段は、マルコフ決定MDP(Markov Decision Process)を用いて、報酬Vtが最大となるように回答状態sに対する質問行動aを決定するようにコンピュータを機能させることを特徴とする請求項1又は2に記載の対話プログラム。
- 前記マルコフ決定MDPのモデルの最適化学習に、Q-learningのQ値を用いることを特徴とする請求項3に記載の対話プログラム。
- ユーザ操作に基づく端末との間で、対話的にシナリオを進行する対話サーバであって、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積手段と、
前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積手段と、
前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する報酬期待値蓄積手段と、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する動的対話ノード選択手段と
を有することを特徴とする対話サーバ。 - ユーザと対話的にシナリオを進行する装置の対話方法であって、
前記装置は、
ユーザへ明示すべき文を対応付けた複数の固定対話ノードを蓄積し、第1の固定対話ノードから第2の固定対話ノードへシナリオとして結び付けた対話シナリオ蓄積部と、
前記固定対話ノード同士の間に挿入可能な複数の動的対話ノードを蓄積する動的対話ノード蓄積部と
を有し、
前記装置は、
前記動的対話ノードの質問行動aに対するユーザからの回答状態sに応じた報酬期待値r(s,a)を累積的に蓄積する第1のステップと、
先の固定対話ノードと後の固定対話ノードと間の遷移確率が、所定閾値よりも低い場合、先の固定対話ノードと類似確率が高い動的対話ノードを選択すると共に、前記報酬期待値r(s,a)に基づいて、報酬Vtが最大となるように次の対話ノードの挿入行動を制御する第2のステップと
を実行することを特徴とする装置の対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013268125A JP6362861B2 (ja) | 2013-12-25 | 2013-12-25 | 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013268125A JP6362861B2 (ja) | 2013-12-25 | 2013-12-25 | 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015125198A JP2015125198A (ja) | 2015-07-06 |
JP6362861B2 true JP6362861B2 (ja) | 2018-07-25 |
Family
ID=53535958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013268125A Active JP6362861B2 (ja) | 2013-12-25 | 2013-12-25 | 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6362861B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017289B2 (en) * | 2016-05-09 | 2021-05-25 | 1Qb Information Technologies Inc. | Method and system for improving a policy for a stochastic control problem |
WO2017200076A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US11222633B2 (en) | 2016-05-20 | 2022-01-11 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
JP6772916B2 (ja) * | 2017-03-21 | 2020-10-21 | トヨタ自動車株式会社 | 対話装置および対話方法 |
KR101945983B1 (ko) * | 2018-01-26 | 2019-02-11 | 주식회사 머니브레인 | 대화 이해 ai 서비스 시스템과 연관된 대화 세션 중의 특정 시점에서 목표 달성을 위한 최적의 대화 패턴을 결정하는 방법, 목표 달성 예측 확률을 결정하는 방법, 및 컴퓨터 판독가능 기록 매체 |
JP7013329B2 (ja) * | 2018-06-14 | 2022-01-31 | ヤフー株式会社 | 学習装置、学習方法および学習プログラム |
JP7117951B2 (ja) * | 2018-09-11 | 2022-08-15 | 株式会社デンソーアイティーラボラトリ | 対話プラン作成支援装置、対話プラン作成支援方法、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4634889B2 (ja) * | 2005-08-15 | 2011-02-16 | 日本電信電話株式会社 | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
JP2009064186A (ja) * | 2007-09-05 | 2009-03-26 | Mazda Motor Corp | 車両用対話システム |
JP5578571B2 (ja) * | 2011-03-31 | 2014-08-27 | Kddi株式会社 | 入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法 |
JP2013122521A (ja) * | 2011-12-12 | 2013-06-20 | Seiko Epson Corp | 音声処理装置及び音声処理装置の制御方法 |
JP5897389B2 (ja) * | 2012-04-23 | 2016-03-30 | Scsk株式会社 | 自動対話シナリオ作成支援装置及び自動対話シナリオ作成支援プログラム |
-
2013
- 2013-12-25 JP JP2013268125A patent/JP6362861B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015125198A (ja) | 2015-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6362861B2 (ja) | 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法 | |
US10831345B2 (en) | Establishing user specified interaction modes in a question answering dialogue | |
US20210019599A1 (en) | Adaptive neural architecture search | |
US11941527B2 (en) | Population based training of neural networks | |
CN107463701B (zh) | 基于人工智能推送信息流的方法和装置 | |
KR102033388B1 (ko) | 질의 응답 장치 및 방법 | |
JP2019159309A (ja) | 音声対話の満足度の確定方法及び装置 | |
US20230036644A1 (en) | Method and system for exploring a personal interest space | |
US10395646B2 (en) | Two-stage training of a spoken dialogue system | |
CN111414462B (zh) | 一种对话语句确定方法、装置、计算机设备和介质 | |
WO2018061774A1 (ja) | 情報処理システム、情報処理装置、情報処理方法、及び記憶媒体 | |
US10042944B2 (en) | Suggested keywords | |
US11043215B2 (en) | Method and system for generating textual representation of user spoken utterance | |
CN116303949B (zh) | 一种对话处理方法、系统、存储介质及终端 | |
CN113408706B (zh) | 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置 | |
JP2016045583A (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
JP6027476B2 (ja) | 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法 | |
JP5545489B2 (ja) | 学習システム、シミュレーション装置、および学習方法 | |
CN111490929A (zh) | 视频片段推送方法、装置、电子设备、存储介质 | |
WO2015158224A1 (zh) | 消息推荐方法及装置 | |
US20200175230A1 (en) | Method for determining a conversational agent on a terminal | |
JP6858721B2 (ja) | コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法 | |
JP6798839B2 (ja) | 情報提供装置、および情報提供方法 | |
JP6798840B2 (ja) | 推定装置、および推定方法 | |
CN117057430B (zh) | 基于规则累积的模型推理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6362861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |