JP5361615B2 - Behavior control learning method, behavior control learning device, behavior control learning program - Google Patents

Behavior control learning method, behavior control learning device, behavior control learning program Download PDF

Info

Publication number
JP5361615B2
JP5361615B2 JP2009199376A JP2009199376A JP5361615B2 JP 5361615 B2 JP5361615 B2 JP 5361615B2 JP 2009199376 A JP2009199376 A JP 2009199376A JP 2009199376 A JP2009199376 A JP 2009199376A JP 5361615 B2 JP5361615 B2 JP 5361615B2
Authority
JP
Japan
Prior art keywords
action
state
person
dbn
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009199376A
Other languages
Japanese (ja)
Other versions
JP2011053735A (en
Inventor
泰浩 南
啓 森
豊美 目黒
竜一郎 東中
浩二 堂坂
英作 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009199376A priority Critical patent/JP5361615B2/en
Publication of JP2011053735A publication Critical patent/JP2011053735A/en
Application granted granted Critical
Publication of JP5361615B2 publication Critical patent/JP5361615B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明はシステムとユーザーが交互にやり取りをするようなシステム(対話システムなど)において、ユーザーの行動に対して、システムが次にどんな行動をとるかを決定する行動制御学習方法、行動制御学習装置、行動制御学習プログラムに関する。   The present invention relates to a behavior control learning method and a behavior control learning device for determining what action the system will take next in response to a user action in a system in which the system and the user interact with each other (such as a dialogue system). It relates to a behavior control learning program.

部分観測マルコフ決定過程(Partially Observable Markov Decision Process、以下「POMDP」という)を用いた行動制御技術として,非特許文献1、2及び3が知られている。   Non-patent documents 1, 2 and 3 are known as behavior control techniques using a partially observable Markov decision process (hereinafter referred to as “POMDP”).

非特許文献1は、6都市間のチケットを買うタスクを対象としている。また、非特許文献2は、DSL(Digital Subscriber Line)のトラブルシューティングのタスクを対象としている。これらの行動制御技術は、タスクの種類(取りうる行動の種類)と、状態遷移の仕方(どの順序で行動するか)は既知である。また、非特許文献3は、大量のデータからシステムの行動を決定するが、POMDPを求める際には、他の非特許文献と同様にタスクが既知である。   Non-Patent Document 1 targets the task of buying tickets between six cities. Non-Patent Document 2 is directed to a task of troubleshooting DSL (Digital Subscriber Line). In these behavior control technologies, the types of tasks (the types of actions that can be taken) and the state transition method (in which order the behaviors are performed) are known. In Non-Patent Document 3, the system behavior is determined from a large amount of data. When POMDP is obtained, the task is known as in other non-patent documents.

J.Williams, P. Poupart, S. Young、"Partially Observable Markov Decision Processes with Continuous Observations for Dialogue Management"、Recent Trends in Discourse and Dialogue、Springer Netherlands、2008、Volume 39、p.191-217J. Williams, P. Poupart, S. Young, "Partially Observable Markov Decision Processes with Continuous Observations for Dialogue Management", Recent Trends in Discourse and Dialogue, Springer Netherlands, 2008, Volume 39, p.191-217 Jason D.Williams、" Applying POMDPs to Dialog Systems in the Troubleshooting Domain "、Bridging the Gap: Academic and Industrial Research in Dialog Technologies、2007.4、p.1-8Jason D. Williams, "Applying POMDPs to Dialog Systems in the Troubleshooting Domain", Bridging the Gap: Academic and Industrial Research in Dialog Technologies, 2007.4, p.1-8 K. Kim, C. Lee, S. Jung, G. G. Lee、“A Frame-Based Probabilistic Framework for Spoken Dialog Management Using Dialog Examples”、 Proceedings of the 9th SIGdial Workshop on Discourse and Dialogue、2008.6、p.120-127K. Kim, C. Lee, S. Jung, G. G. Lee, “A Frame-Based Probabilistic Framework for Spoken Dialog Management Using Dialog Examples”, Proceedings of the 9th SIGdial Workshop on Discourse and Dialogue, 2008.6, p.120-127

しかしながら、何れの従来技術もタスクの種類と、状態遷移の仕方が既知であるタスクを対象とするため、対話のようにタスクの種類(挨拶、握手、楽しい会話、雑談など)やタスクの状態遷移の仕方が様々であり、予めシステム設計者が予想できないようなシステムに対する行動制御を行うことはできないという問題がある。   However, since all conventional technologies target tasks whose task types and state transitions are known, task types (greeting, handshake, fun conversations, chats, etc.) and task state transitions such as dialogue There are various methods, and there is a problem that it is not possible to perform behavior control on a system that cannot be predicted in advance by a system designer.

本発明の行動制御学習装置は、人対人の行動を人対システムで行うための学習データを生成する装置である。また、人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値とする。そして、本発明の行動制御学習装置は、観測値とアクションと評価値を記憶する行動データ記録部、DBN生成部、DBN−POMDP変換部、強化学習部を備える。DBN生成部は、観測値、アクション及び評価値を用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態sでアクションaを実行したときの報酬の確率P(r|s,a)、アクションaによって状態がsからst+1へ変わる確率P(st+1|s,a)、アクションaによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,a)を推定する。DBN−POMDP変換部は、確率P(r|s,a)、P(st+1|s,a)、P(ot+1|st+1,a)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,a)及び状態sでアクションaを実行したときの報酬r(s,a)を生成する。強化学習部は、確率P(s’|s,a)、P(o’|s’,a)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する。 The behavior control learning device of the present invention is a device that generates learning data for performing person-to-person behavior in a person-to-person system. In addition, in the data indicating person-to-person behavior, one person is assigned as a user, the other person is assigned as a system, the user's action is taken as an observation value, the system action is taken as an action, and a series of actions consisting of observation values and actions. An evaluation value is obtained by evaluating whether or not the series is a desired action series. The behavior control learning device of the present invention includes a behavior data recording unit that stores observation values, actions, and evaluation values, a DBN generation unit, a DBN-POMDP conversion unit, and a reinforcement learning unit. DBN generation unit, observations, using the action and the evaluation value to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), the compensation when executing an action a t in state s t probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), the probability that the observed value o t + 1 in the state s t + 1 by the action a t is observed P (o t + 1 | s t + 1 , a t ) is estimated. The DBN-POMDP converter uses the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), and P (o t + 1 | s t + 1 , a t ) by action a. Probability P (s ′ | s, a) that state changes from s to s ′, probability P (o ′ | s ′, a t ) that outputs observation value o ′ in state s ′ by action a, and action in state s A reward r (s, a) when a is executed is generated. The reinforcement learning unit uses the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), and the system uses the probability distribution of the current state as an argument. Generate a function that outputs one action to take.

また、本発明は、状態sを観測値の内部状態を表すsとアクションの内部状態を表すsの組s=(s,s)(なお、s,sの表記ではtを省略する)に分け、DBN生成部は、a=sのときに限り、P(a|s)=1として、DBNを生成し、DBN−POMDP変換部は、報酬^r((*,s),a)[ここで、*は任意のsを表す]をa=sのときに1をとり、それ以外のときには0をとるように報酬^r((*,s),a)を定め、所望の行動系列に対する報酬rと統計的な行動系列に対する報酬^rの線形和αr+β^rで置き換えた以下の式により最終的な目的関数Vを得る。 Further, the present invention, the state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) ( Note, s o, notation s a In this case, the DBN generation unit generates a DBN with P (a | s a ) = 1 only when a = s a , and the DBN-POMDP conversion unit generates a reward ^ r ( (*, S a ), a) [where, * represents an arbitrary s o ] is a reward ^ r ((*,), so that 1 is taken when a = s a and 0 is taken otherwise. s a ), a) are determined, and a final objective function V t is obtained by the following equation, which is replaced with a linear sum αr + β ^ r of a reward r for a desired action sequence and a reward r for a statistical action sequence.

Figure 0005361615
Figure 0005361615

本発明の行動制御学習装置によれば、所望の行動系列以外もモデル化し、アクションを決定する関数を生成している。したがって、本発明の行動制御学習装置が生成した関数を用いたシステムであれば、所望の行動系列以外のユーザーの行動に対しても、統計的に自然なふるまいを行うようすることができる。   According to the behavior control learning device of the present invention, a function other than a desired behavior series is modeled and an action is determined. Therefore, if the system uses the function generated by the behavior control learning apparatus of the present invention, it is possible to perform statistically natural behavior even for user behavior other than the desired behavior series.

実施例1の行動制御学習装置100の構成例を示す図。The figure which shows the structural example of the action control learning apparatus 100 of Example 1. FIG. 行動データ記憶部に記憶されるデータ例を示す図。The figure which shows the example of data memorize | stored in an action data memory | storage part. とaとP(a|s)の関係を示す図。The figure which shows the relationship between s a , a, and P (a | s a ). POMDPの構造と変数を示す図。The figure which shows the structure and variable of POMDP. シミュレーション結果を示す図。The figure which shows a simulation result. 行動制御学習装置100のハードウェア構成を例示したブロック図。The block diagram which illustrated the hardware constitutions of action control learning device 100.

以下、本発明の実施の形態について、詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail.

[行動制御学習装置100]
行動制御学習装置100は人対人の行動を人対システムで行うための学習データを生成する。図1は実施例1の行動制御学習装置100の構成例を示す。図1を用いて実施例1に係る行動制御学習装置100を説明する。
[Behavioral control learning device 100]
The behavior control learning device 100 generates learning data for performing a person-to-person action in a person-to-system. FIG. 1 shows a configuration example of the behavior control learning apparatus 100 according to the first embodiment. A behavior control learning apparatus 100 according to the first embodiment will be described with reference to FIG.

行動制御学習装置100は、行動データ記憶部101と、ダイナミックベイジアンネットワーク(以下「DBN」という)生成部103と、DBN確率テーブル記憶部105と、DBN−POMDP変換部107と、POMDP確率・報酬テーブル記憶部109と、強化学習部111と、POMDPポリシー記憶部113と、状態分布更新部115と、状態確率テーブル記憶部117と、アクション決定部119を備える。   The behavior control learning apparatus 100 includes a behavior data storage unit 101, a dynamic Bayesian network (hereinafter referred to as “DBN”) generation unit 103, a DBN probability table storage unit 105, a DBN-POMDP conversion unit 107, and a POMDP probability / reward table. A storage unit 109, a reinforcement learning unit 111, a POMDP policy storage unit 113, a state distribution update unit 115, a state probability table storage unit 117, and an action determination unit 119 are provided.

[行動データ記憶部101]
人対人の行動を示すデータ(例えば、対話を記録した音声データや画像データ等)において、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値oとし、システムの行動をアクションaとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値rとする。
行動データ記録部101は観測値oとアクションaと評価値rを記憶する。図2は行動データ記憶部に記憶されるデータ例を示す。
[Behavior data storage unit 101]
In data indicating person-to-person actions (for example, voice data or image data recording a dialogue), one person is assigned as a user, the other person is assigned as a system, and the user action is set as an observation value o. Is an action a, and an evaluation value r is an evaluation of whether or not a series of behavior sequences composed of observed values and actions is a desired behavior sequence.
The behavior data recording unit 101 stores an observation value o, an action a, and an evaluation value r. FIG. 2 shows an example of data stored in the behavior data storage unit.

例えば、握手、挨拶、笑い、移動、おしゃべり、うなずき、首ふり、無行動の8種類の行動ラベルを用意し、各ラベルに0〜7の数値を対応させ、観測値及びアクションとして、それぞれの行動に対応する数値を、行動データとして行動データ記憶部101に記憶する。本実施例では、観測値とアクションを一対のペアとして記憶する。さらに、一連の行動系列(1以上のユーザーとシステムの行動のペア)が、所望の行動系列であったか否か評価し、評価値として所望の行動系列である場合には1とし、そうでない場合には0として記憶する。   For example, handshake, greeting, laughter, movement, chatter, nod, swing, no action, and 8 action labels are prepared. Each label is associated with a numerical value of 0-7. Are stored in the behavior data storage unit 101 as behavior data. In this embodiment, the observation value and the action are stored as a pair. Further, it is evaluated whether or not a series of action series (one or more user / system action pairs) is a desired action series, and when the evaluation value is a desired action series, 1 is set. Is stored as 0.

なお、所望の行動系列としては、例えばユーザーが楽しんだか?典型的な行動系列であるか?ユーザーの役に立ったか?等である。典型的な行動系列としては、「お互いに握手をし、お互いに挨拶をし、その後、笑いとおしゃべりとうなずきを数回ランダムにお互い繰り返し、最後に挨拶をし合い、握手をし合う」等である。   For example, did the user enjoy the desired action sequence? Is it a typical action sequence? Was it helpful to users? Etc. A typical sequence of actions is “shake each other, greet each other, then repeat laughter, chatter and nod several times at random, greet each other at the end, and shake hands” is there.

この評価は行動系列一つにつき、一つ付与される。ここでは、この値を統計的に学習するために、この値を各時刻に分配する。この分配する手法としては以下の何れかを用いる。
(分配手段1)観測された行動系列の評価が1であれば全ての値を1に設定する。評価が0であれば、全ての値を0に設定する。
(分配手段2)観測された行動系列の一部分だけに対して評価をつける。その部分の評価が1であれば、その部分の始端と終端の間だけを1にする。その他の部分は全て0とする。
(分配手段3)(分配手段2)のように始端と終端がわかっているときに、その部分の最後のデータに対してのみ1を付与する他の値は0とする。
One evaluation is given for each action series. Here, in order to learn this value statistically, this value is distributed to each time. One of the following is used as a method for this distribution.
(Distributing means 1) If the observed action series is evaluated as 1, all values are set to 1. If the evaluation is 0, all values are set to 0.
(Distributing means 2) Evaluates only a part of the observed action sequence. If the evaluation of the part is 1, only 1 between the start and end of the part is set to 1. All other parts are set to zero.
(Distributing means 3) When the starting and ending points are known as in (distributing means 2), the other values that give 1 only to the last data of that portion are set to 0.

なお、この評価値は、0と1の2値でなく多値をとっても良く、連続値としてもよい。また、ここでは一人の人の評価で話を進めるが、多人数の平均をとったものを評価としてもよい。また、所望の行動系列は複数用意してもよく、各所望の行動系列に対して、行動系列ラベルを設けてもよい。各行動系列に対して評価を与え、行動系列ラベルとその評価を組合せて記憶してもよい。また、人対人の行動データは一対一のデータでなく複数の人のデータに基づいて収集してもよい。この場合、ユーザー、システムともに複数となる。   Note that this evaluation value may be a multi-value instead of a binary value of 0 and 1, or may be a continuous value. In addition, although the discussion proceeds with the evaluation of one person here, the average of a large number of people may be used as the evaluation. A plurality of desired action sequences may be prepared, and an action sequence label may be provided for each desired action sequence. Evaluation may be given to each action series, and the action series label and the evaluation may be combined and stored. The person-to-person behavior data may be collected based on a plurality of person data instead of one-to-one data. In this case, there are a plurality of users and systems.

なお、行動ラベルの付与は、人手により行ってもよいし、音声認識ソフトや画像認識ソフトを用いて、何れの行為に該当するかを認識し、自動的に付与してもよい。また、評価は、評価対象により人手、自動を適宜選択すればよい。例えば、適宜ユーザーの役に立ったか?等の判断は、音声認識ソフトや画像認識ソフトを用いて、認識するのが困難であるため、人手により付与する。典型的な行動系列が行われたか否かは自動で付与する構成としてもよい。行動制御学習装置100は、認識部及びラベル付与部を設け、会話データや映像データそのものを入力値として内部で観測値、アクション、評価値を生成する構成としてもよい。   The action label may be assigned manually, or it may be automatically assigned by recognizing which action corresponds to using voice recognition software or image recognition software. Moreover, what is necessary is just to select manual and automatic as evaluation according to evaluation object. For example, was it useful for the user as appropriate? Is difficult to recognize using voice recognition software or image recognition software, and is therefore given manually. Whether or not a typical action sequence is performed may be automatically given. The behavior control learning device 100 may be configured to include a recognition unit and a label providing unit, and generate observation values, actions, and evaluation values internally using conversation data or video data itself as input values.

[DBN生成部103及びDBN確率テーブル記憶部105]
DBN生成部103は、観測値o、アクションa及び評価値rを用いて、DBNを生成し、状態sでアクションaを実行したときの報酬の確率P(r|s,a)、アクションaによって状態がsからst+1へ変わる確率P(st+1|s,a)、アクションaによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,a)を推定する。なお、sはユーザー・システム間の隠れ状態(以下、「状態」という)とし、状態sは、ユーザー・システムの隠れ状態sと行動生成のための隠れ状態sとの組からなり、tは時刻を表すものとし、評価値rを確率変数である報酬rとして扱う。ここで、tは変数の相対的な時刻の関係を明確にするために用いた記号であり、特定の時刻を想定しているものではない。すなわち、ここで示す確率及びそれを使った演算は、時刻に依存しない。
[DBN generation unit 103 and DBN probability table storage unit 105]
DBN generating unit 103, by using the observed value o, action a and the evaluation value r, to generate a DBN, of reward when you perform an action a t in state s t probability P (r t | s t, a t ), the action a t probability state changes from s t to s t + 1 by P (s t + 1 | s t, a t), the action a t probability the observed value o t + 1 in the state s t + 1 is observed by P (o t + 1 | s t + 1 , a t ). It should be noted, s hidden state between the user system (hereinafter referred to as "state"), and the state s is composed of a combination of a hidden state s a for a hidden state s o of the user-system behavior generation, t Represents time, and the evaluation value r is treated as a reward r which is a random variable. Here, t is a symbol used to clarify the relative time relationship of the variables, and does not assume a specific time. That is, the probabilities shown here and the calculations using them are independent of time.

例えば、DBN生成部103は、観測値o、アクションa、評価値rの時系列を用いて、EMアルゴリズム、ジャンクションツリーアルゴリズム、サンプリング手法などにより、尤度最大化を行い、行動生成モデルのためのDBNを学習、生成する。また、システムとユーザーの内部状態をs=(s,s)のようにシステムの内部状態と、アクションに対応する状態とに分離する。sとaを一対一に対応させるため、a=sの時に限り,P(a|s)=1として、DBNを作成する。図3はsとaとP(a|s)の関係を示す。 For example, the DBN generation unit 103 performs likelihood maximization by using an EM algorithm, a junction tree algorithm, a sampling method, and the like using a time series of the observation value o t , the action a t , and the evaluation value r t , and generates an action generation model Learning and generating DBN for. Further, the internal state of the system and the user is separated into the internal state of the system and the state corresponding to the action as s = (s o , s a ). In order to make one-to-one correspondence between s a and a, a DBN is created with P (a | s a ) = 1 only when a = s a . FIG. 3 shows the relationship between sa , a, and P (a | s a ).

DBN生成部103で推定された確率は、DBN確率テーブル記憶部105に記憶される。
[DBN−POMDP変換部107及びPOMDP確率・報酬テーブル記憶部109]
DBN−POMDP変換部107は、確率P(r|s,a)、P(st+1|s,a)、P(ot+1|st+1,a)を用いて、アクションaによって状態がsからs’へ変わる確率(状態遷移確率)P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率(出力確率)P(o’|s’,a)及び状態sでアクションaを実行したときの報酬r(s,a)を生成する。
The probability estimated by the DBN generation unit 103 is stored in the DBN probability table storage unit 105.
[DBN-POMDP conversion unit 107 and POMDP probability / reward table storage unit 109]
The DBN-POMDP conversion unit 107 uses the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), and P (o t + 1 | s t + 1 , a t ) to take action a Is the probability that the state will change from s to s ′ (state transition probability) P (s ′ | s, a), and the probability that the observed value o ′ will be output in state s ′ by action a (output probability) P (o ′ | s ', A t ) and a reward r (s, a) when the action a is executed in the state s.

ここで、POMDPという確率モデルについて説明する。行動生成はこのPOMDPによって実現する。図4は、POMDPの構造と変数を示す。このモデルではシステムの状態やユーザーの心理な状態を記述する状態sが定義される。sはs=(s,s,s,…,s)というように、複数の状態の組み合わせで表現される。oは観測される観測値を、aはシステム側からユーザーに働きかけるアクションを表す。このとき、これらの変数の間に確率P(s’|s,a)、確率P(o’|s’,a)及び報酬r(s,a)が設定されている。 Here, a probability model called POMDP will be described. Action generation is realized by this POMDP. FIG. 4 shows the structure and variables of POMDP. This model defines a state s that describes the state of the system and the psychological state of the user. s is expressed as a combination of a plurality of states, such as s = (s 1 , s 2 , s 3 ,..., s N ). o represents an observed value, and a represents an action that acts on the user from the system side. In this case, the probability between these variables P (s' | s, a ), the probability P (o '| s', a t) and reward r (s, a) has been set.

DBN−POMDP変換部107は、DBN生成部103で推定された確率を以下の式により、POMDPの確率・報酬に変換する。なお、観測値及びアクションとして同じ定義のシンボルが使われると仮定する。   The DBN-POMDP conversion unit 107 converts the probability estimated by the DBN generation unit 103 into a POMDP probability / reward according to the following equation. It is assumed that symbols with the same definition are used as observation values and actions.

Figure 0005361615
Figure 0005361615

DBNとPOMDPの構造はほぼ同じなので、状態遷移確率P(s’|s,a)、出力確率P(o’|s’,a)に関しては、対応する確率に値を代入すればよい。報酬は、DBNにおいて確率変数として扱われるため、DBNで得られた確率変数を平均化することによって、実数に変換する。例えば、rの確率分布から式(1)によって求める。なお、この設定は、従来技術にはない本発明独自の手法である。 Since the structures of DBN and POMDP are almost the same, regarding the state transition probability P (s ′ | s, a) and the output probability P (o ′ | s ′, a t ), values may be substituted for the corresponding probabilities. Since the reward is handled as a random variable in the DBN, the random variable obtained by the DBN is averaged to be converted into a real number. For example, it is obtained from the probability distribution of r by equation (1). This setting is a method unique to the present invention that is not present in the prior art.

POMDP確率・報酬テーブル記憶部109は、DBN−POMDP変換部107で変換及び求められた確率P(s’|s,a)、P(o’|s’,a)及び報酬r(s,a)を記憶する。 The POMDP probability / reward table storage unit 109 includes the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, converted and obtained by the DBN-POMDP conversion unit 107. Store a).

[強化学習部111及びPOMDPポリシー記憶部113]
強化学習部111は、確率P(s’|s,a)、P(o’|s’,a)と報酬r(s,a)を用いて、強化学習により、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数(以下、「ポリシー」という)を生成する。
[Reinforcement learning unit 111 and POMDP policy storage unit 113]
The reinforcement learning unit 111 uses the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a) to perform probability distribution of the current state through reinforcement learning. A function that outputs one action to be taken by the system (hereinafter referred to as “policy”) is generated.

POMDPポリシー記憶部113は、強化学習部111で生成されたポリシーを記憶する。   The POMDP policy storage unit 113 stores the policy generated by the reinforcement learning unit 111.

次にポリシーの計算方法について説明する。まず、式(4)はアクション系列aτ+tが分かっているときに将来獲得できる報酬を示す。 Next, a policy calculation method will be described. First, equation (4) shows a reward that can be acquired in the future when the action sequence a τ + t is known.

Figure 0005361615
Figure 0005361615

ここで、bτ+t(s)は、時刻τ+tの状態の分布である。また、正定数γ(<1)により未来の報酬の寄与は小さくなる。ポリシーは、式(4)を最大にする現在のアクションaを、現在の状態分布b(s)から計算する関数である。
[データ中に出現する統計情報に従って行動を選択する手法]
まず、現在の状態の確率分布b(s)は、その定義から次式が得られる。
Here, b τ + t (s) is the distribution of the state at time τ + t. Further, the contribution of the future reward is reduced by the positive constant γ (<1). The policy is a function that calculates the current action a that maximizes Equation (4) from the current state distribution b t (s).
[Method to select action according to statistical information appearing in data]
First, the following expression is obtained from the definition of the probability distribution b t (s) of the current state.

Figure 0005361615
Figure 0005361615

これは、過去のo,a,…,at−1,oという系列、すなわちユーザーとシステムの観測値とアクションの履歴が実行された後に、状態がsとなる確率を表している。
=sのときにP(a|s)=1としているため、a=sのときに以下の式を得る。
This is, past o 1, a 1, ..., series that a t-1, o t, that is, after the history of observations and actions of the user and the system has been executed, represents the probability that the state is s a Yes.
P at a t = s a | because you are (a s a) = 1, to obtain the following expression when a t = s a.

Figure 0005361615
Figure 0005361615

これは、過去のo,a,…,at−1,oが観測されたときの次にアクションaが起こる確率を表す。すなわち、今までのデータからaがどれだけ自然かを表す確率となっている。すなわち、式(7)を最大化するようにPOMDPの報酬を決めれば、ポリシーにより、自然なアクションを生成するようになる。これを実現するためには、報酬を This is, past o 1, a 1, ..., represents the probability that the action a t happens next when a t-1, o t is observed. In other words, it is made up of data of until now as the probability of indicating whether a t how much nature. That is, if the POMDP reward is determined so as to maximize the expression (7), a natural action is generated according to the policy. To achieve this, rewards

Figure 0005361615
Figure 0005361615

として設定すればよい。但し、a=sを満たす必要がある。このように報酬を決定するため、ここでは、a=sのときに1をとり、それ以外のときには0をとるように報酬^r((*,s),a)を定める。 Can be set as However, it is necessary to satisfy a = s a . In order to determine the reward in this way, here, reward {circumflex over (r)} ((*, s a ), a) is determined so that 1 is taken when a = s a and 0 is taken otherwise.

Figure 0005361615
Figure 0005361615

ここで、*は任意のsを指す。この値を用いて、rを^rに置き換えれば、自然な対話を実現できる。ここでは、従来型の所望の行動系列も実現するために従来手法の報酬の線形和をとる。これを行うために、式(4)のrをαr+β^rで置き換えた下記式(10)により最終的な目的関数Vを得る。 Here, * refers to any of the s o. If r is replaced with ^ r using this value, a natural dialogue can be realized. Here, in order to realize a conventional desired action sequence, a linear sum of rewards of the conventional method is taken. In order to do this, the final objective function V t is obtained by the following equation (10) in which r in equation (4) is replaced by αr + β ^ r.

Figure 0005361615
Figure 0005361615

ここで、α、βは任意の実数である。このα、βを変化させることにより、所望の行動を実現する(αが大きい場合)のか統計的な行動を優先する(βが大きい場合)のか、その優先度合いの重みづけを行うことができる。なお、α、βを0とすることも可能である。 Here, α and β are arbitrary real numbers. By changing [alpha] and [beta], it is possible to weight the degree of priority whether a desired action is realized (when [alpha] is large) or a statistical action is prioritized ([beta] is large). Note that α and β can be set to 0.

通常、対象となる所望の行動系列に対してPOMDPによる行動生成の学習を行うと、所望の行動系列だけをシステムは実現しようとする。このため、人と人の行動の記録には、所望の行動系列だけではなく、様々な系列が含まれているのにもかかわらず、所望の行動系列以外の行動を選択しなくなる。よって、人と人との間のやり取りを再現しつつ、かつ。所望の行動系列にユーザーを引き込むようなシステムを作る場合には、所望の行動系列だけを学習するだけでは不十分である。本発明によれば、システムを構成する際にはこれらの行動系列の統計情報も含めて、システムの行動制御を学習するため、所望の行動系列へ引き込みつつも、自然な行動制御を行うことができる。   Normally, when learning of action generation by POMDP is performed on a target desired action sequence, the system tries to realize only the desired action sequence. For this reason, not only the desired behavior sequence but also various sequences are included in the record of the human behavior, the behavior other than the desired behavior sequence is not selected. Therefore, while reproducing the exchange between people. When creating a system that attracts users to a desired action sequence, it is not sufficient to learn only the desired action sequence. According to the present invention, when configuring a system, the behavioral control of the system is learned including statistical information of these behavioral sequences, so that natural behavioral control can be performed while pulling in the desired behavioral sequence. it can.

[ポリシーを用いた行動制御]
以下、ポリシーを用いて、行動を制御する方法について説明する
[状態分布更新部115及び状態確率テーブル記憶部117]
状態確率テーブル記憶部117には、一つ前の状態の確率分布bt−1が記憶されている。状態分布更新部115は、観測値o’が入力されると、一つ前に行ったシステムのアクションaからPOMDP確率・報酬テーブル記憶部109に問合せ、格納された統計量より状態遷移確率P(s’|s,a)を求める。また、観測値o’からPOMDP確率・報酬テーブル記憶部109に問合せ、格納された統計量より出力確率P(o’|s’,a)を求める。また、状態確率テーブル記憶部117に問合せ、一つ前の状態の確率分布bt−1を受け取り、以下の式により、現在の状態の確率分布bを求める。
[Action control using policies]
Hereinafter, a method for controlling behavior using a policy will be described [state distribution update unit 115 and state probability table storage unit 117].
The state probability table storage unit 117 stores the probability distribution b t−1 of the previous state. When the observation value o t ′ is input, the state distribution update unit 115 queries the POMDP probability / reward table storage unit 109 from the system action a performed immediately before, and determines the state transition probability P from the stored statistics. (S ′ | s, a) is obtained. Further, the POMDP probability / reward table storage unit 109 is inquired from the observed value o t ′, and the output probability P (o ′ | s ′, a) is obtained from the stored statistics. Further, the state probability table storage unit 117 is queried, the probability distribution b t-1 of the previous state is received, and the probability distribution b t of the current state is obtained by the following equation.

Figure 0005361615
Figure 0005361615

なお、ηは全体の和を1にするための正規化定数である。求めた現在の状態の確率分布bは、状態確率テーブル記憶部117に記憶し、アクション決定部119へ出力される。 Note that η is a normalization constant for making the sum of all 1s. The obtained probability distribution b t of the current state is stored in the state probability table storage unit 117 and output to the action determination unit 119.

[アクション決定部119]
アクション決定部119は、行動制御に先立ちPOMDPポリシー記憶部113からポリシーを取得し、記憶しておく。さらに、現在の状態の確率分布bを受け取ると、これをポリシーf()の引数として、システムがとるべきアクションaを決定し出力する。
このような構成とすることによって、所望の行動系列以外もモデル化し、アクションを決定する関数を生成することができ、本発明の行動制御学習装置が生成した関数を用いたシステムであれば、所望の行動系列以外のユーザーの行動に対しても、統計的に自然なふるまいを行うようすることができる。
[Action decision unit 119]
The action determination unit 119 acquires a policy from the POMDP policy storage unit 113 and stores it prior to behavior control. Further, upon receiving a probability distribution b t of the current state, which as an argument to the policy f (), the system determines and outputs an action a t should take.
By adopting such a configuration, it is possible to model a function other than a desired action sequence and generate a function for determining an action. If the system uses the function generated by the action control learning device of the present invention, any desired system can be used. It is possible to perform statistically natural behavior even for user behaviors other than the behavior series.

なお、行動制御学習装置100は、状態分布更新部115、状態確率テーブル117及びアクション決定部を備えているが、これらの構成を別装置として構成し、この別装置からの問合せに応じて状態遷移確率、出力確率及びポリシーを出力する構成としても良い。   The behavior control learning device 100 includes a state distribution update unit 115, a state probability table 117, and an action determination unit. However, these configurations are configured as separate devices, and state transition is performed in response to an inquiry from the separate device. It is good also as a structure which outputs a probability, an output probability, and a policy.

[シミュレーション結果]
一対一の行動記録のデータを想定し行動制御のシミュレーションによる実験を行った。図5はシミュレーション結果を示す。アクションには、握手、挨拶、笑い、移動、おしゃべり、うなずき、首ふり、無行動の8種類を用意した。観測値も同様に、以上の8種類とした。一般的に、観測値には誤認識があると仮定するが、ここでは、確定値とした。但し、隠れ状態はユーザーの意図を表しており、この部分は観測できないとしている。この部分を隠れ状態とした。この隠れ状態sの数は16である。これとは別にシステムのアクションに一対一に対応する隠れ状態sを設定し、その状態の数を8とした。ラベル付けを行う所望の行動系列として2種類の系列を用意した。これらの系列に対して計算機で自動的にラベル付けを行い、所望の行動系列であると判断したものには1をつけた。このうちの1つは、お互いに握手をし、お互いに挨拶をし、その後、笑いとおしゃべりとうなずきを数回ランダムにお互い繰り返し、最後に挨拶をし合い、握手をし合うという行動系列である。もう一つは、片方が移動し、片方が無行動でその後、挨拶をし合い、笑いとおしゃべりとうなずきを数回ランダムに繰り返し、挨拶をし合い、最後に片方が何もしないで、片方が移動するという行動系列である。この行動系列の報酬の与え方として、(分配手段2)を用いた。すなわち、この行動系列の開始時刻から終了時刻までが分かっているものとし、その開始時刻から終了時刻までの各時刻に報酬として1を付加した。これらの行動系列は全体の学習データの数に対して10分の1とした。残りのデータでは、ユーザーの観測値とシステム行動のペアが握手−握手、挨拶−挨拶、笑い−笑い、移動−移動、おしゃべり−おしゃべり、うなずき−おしゃべり、首ふり−おしゃべり、無行動―無行動の出現確率が統計的に多くなるようにサンプルを作成した。もしユーザーが所望の行動系列を望んでいる場合には、この所望の系列に近づくようにシステムが動作するように系を学習する。しかし、もしユーザーにその意思がなければ、残りのサンプルの統計的なふるまいを示す行動するように学習する。学習データとして、全部で10000サンプルのデータを作成した。このデータから提案手法を使ってダイナミックベイジアンネットワークを作成し、それをPOMDPの確率・報酬テーブルに変換し、強化学習により行動を選択手法であるポリシーを求めた。比較には、POMDPにおいて、所望の系列だけに報酬を与える手法を用いた。評価には、2000サンプルのデータを用いた。所望の系列の学習データを生成した手法、及び、その他の系列の学習データを生成した手法に従ってユーザーの観測値だけを生成した。実験では、ユーザーが所望の系列を希望しているときには所望の系列の行動を行い、それ以外のデータに対しては、データの統計量に従って行動を選択するかどうかを調べた。
[simulation result]
Experiments were performed by simulation of behavior control assuming one-on-one behavior record data. FIG. 5 shows the simulation results. There are eight types of actions: handshake, greeting, laughter, movement, chatter, nod, pretend, and no action. Similarly, the above eight types of observation values were used. In general, it is assumed that there is a misrecognition of the observed value, but here it is a definite value. However, the hidden state represents the user's intention, and this part cannot be observed. This part was hidden. The number of hidden state s o is 16. At the set hidden state s a corresponding one-to-one separately to the system action was the number of its state 8. Two types of sequences were prepared as desired behavior sequences for labeling. These series were automatically labeled by the computer, and 1 was assigned to those judged to be the desired action series. One of these is a series of actions that shake hands with each other, greet each other, then repeat laughter, chatter and nod several times at random, greet each other at the end, and shake hands. . The other one moves, the other is inactive, then greets each other, repeats laughter, chatting and nodding several times at random, greets each other, and finally one does nothing, It is an action sequence of moving. (Distributing means 2) was used as a method of giving a reward for this action series. That is, it is assumed that the time from the start time to the end time of this action sequence is known, and 1 is added as a reward at each time from the start time to the end time. These action sequences were set to 1/10 of the total number of learning data. In the rest of the data, the user's observations and system behavior pairs are handshake-shake, greeting-greeting, laugh-laugh, move-move, talk-talk, nodding-talk, neck-shake, no action-no action Samples were created so that the probability of occurrence was statistically increased. If the user wants a desired action sequence, the system is learned so that the system operates to approach this desired sequence. However, if the user is not willing, he learns to act to show the statistical behavior of the remaining samples. A total of 10,000 samples of data were created as learning data. A dynamic Bayesian network was created from this data using the proposed method, converted into a POMDP probability / reward table, and a policy that was a behavior selection method was obtained by reinforcement learning. For comparison, a method of rewarding only a desired sequence in POMDP was used. For the evaluation, data of 2000 samples were used. Only the observation values of the user were generated according to the method of generating the desired series of learning data and the method of generating the other series of learning data. In the experiment, when the user wanted a desired series, the behavior of the desired series was performed, and whether the behavior was selected according to the statistics of the data for other data was examined.

所望の系列だけに報酬を与える手法は、所望の系列200サンプルに対して全て正しくアクションを生成した。提案手法も所望の系列に対しては全て正しい行動を示した。これにより、どちらの手法も所望の系列に対しては正しいアクションを生成することが確認された。   The method of rewarding only the desired series generated all the actions correctly for 200 samples of the desired series. The proposed method also showed correct behavior for all desired sequences. This confirms that both methods generate the correct action for the desired sequence.

所望の行動系列だけに報酬を当てる手法による観測及び生成された観測値・アクションペア、提案手法による観測及び生成された観測値・アクションのペア、学習データ中に存在する観測値とアクションのペアの主な頻度を図5に示す。この図のように、所望の行動系列だけに報酬を与えるPOMDPでは、学習された所望の系列に含まれる観測値・アクションのペアに対しては高頻度でアクションを選択しているのが分かる。しかし、一番右に示す学習データの観測値・アクションのペアの統計パターンとは程遠いことが分かる。これは、所望の行動系列に対してだけ報酬を与える手法は、どんな観測値が観測されても、所望の系列になるように、行動を決定しているからである。これに対して、今回提案する行動の生起確率を報酬に導入する手法は、9倍ある所望の系列以外の学習データの統計量にも近づいていることが分かる。   Observed and generated observation / action pairs using a method that rewards only the desired action sequence, observation / action pairs generated by the proposed method, observed / action pairs existing in the learning data The main frequencies are shown in FIG. As shown in this figure, it can be seen that in POMDP that rewards only a desired action sequence, an action is frequently selected for the observed value / action pair included in the learned desired sequence. However, it can be seen that it is far from the statistical pattern of the observed value / action pair of the learning data shown on the far right. This is because the method of giving a reward only to a desired behavior sequence determines the behavior so that the desired sequence is obtained no matter what the observed value is observed. On the other hand, it can be seen that the method of introducing the occurrence probability of the action proposed this time to the reward approaches the statistic amount of learning data other than the desired series which is 9 times.

所望の行動系列だけに報酬を当てる手法では、ユーザー側が所望の行動を実行しない場合でも、所望の行動系列のためのアクションを生成する。これは、所望の行動だけをシステムが学習したからである。タスクがはじめから決まっているようなシステムでは、このようなふるまいは自然である。しかし、人と人との間のやり取りを再現しつつ、かつ。所望の行動系列にユーザーを引き込むようなシステムを作る場合には、所望の行動系列だけを学習するだけでは不十分である。そこで、本発明は、ユーザーが所望の行動を実行しない場合には、システムは学習データ中の統計的量に従って動作するようにし、ユーザー側が所望の行動を実行しない場合でも、自然な行動をできるように制御することができるという効果を奏する。   In the method of rewarding only a desired behavior sequence, an action for the desired behavior sequence is generated even when the user does not execute the desired behavior. This is because the system has learned only the desired behavior. In a system where tasks are determined from the beginning, this behavior is natural. However, while reproducing the interaction between people. When creating a system that attracts users to a desired action sequence, it is not sufficient to learn only the desired action sequence. Therefore, according to the present invention, when the user does not execute the desired action, the system operates according to the statistical amount in the learning data so that the user can perform a natural action even when the user does not execute the desired action. There is an effect that it can be controlled.

<ハードウェア構成>
図6は、本実施例における行動制御学習装置100のハードウェア構成を例示したブロック図である。図6に例示するように、この例の行動制御学習装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
<Hardware configuration>
FIG. 6 is a block diagram illustrating a hardware configuration of the behavior control learning apparatus 100 according to the present embodiment. As illustrated in FIG. 6, the behavior control learning device 100 of this example includes a CPU (Central Processing Unit) 11, an input unit 12, an output unit 13, an auxiliary storage device 14, a ROM (Read Only Memory) 15, a RAM ( Random Access Memory) 16 and a bus 17.

この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、行動制御学習装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CUP11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。   The CPU 11 in this example includes a control unit 11a, a calculation unit 11b, and a register 11c, and executes various calculation processes according to various programs read into the register 11c. The input unit 12 is an input interface for inputting data, a keyboard, a mouse, and the like, and the output unit 13 is an output interface for outputting data. The auxiliary storage device 14 is, for example, a hard disk, a semiconductor memory, or the like, and stores a program for causing the computer to function as the behavior control learning device 100 and various data. Further, the above-mentioned program and various data are expanded in the RAM 16 and used from the CUP 11 or the like. The bus 17 connects the CPU 11, the input unit 12, the output unit 13, the auxiliary storage device 14, the ROM 15, and the RAM 16 so that they can communicate with each other. In addition, as a specific example of such hardware, a server apparatus, a workstation, etc. other than a personal computer can be illustrated, for example.

<プログラム構成>
上述のように、補助記憶装置14には、本実施例の行動制御学習装置100の各処理を実行するための各プログラムが格納される。ライセンス管理プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<Program structure>
As described above, each program for executing each process of the behavior control learning apparatus 100 according to the present embodiment is stored in the auxiliary storage device 14. Each program constituting the license management program may be described as a single program sequence, or at least a part of the program may be stored in the library as a separate module.
<Cooperation between hardware and program>
The CPU 11 expands the above-described program and various data stored in the auxiliary storage device 14 in the RAM 16 according to the read OS program. The address on the RAM 16 where the program and data are written is stored in the register 11c of the CPU 11. The control unit 11a of the CPU 11 sequentially reads these addresses stored in the register 11c, reads a program and data from the area on the RAM 16 indicated by the read address, causes the calculation unit 11b to sequentially execute the operation indicated by the program, The calculation result is stored in the register 11c.

図1は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される行動制御学習装置100の機能構成を例示したブロック図である。   FIG. 1 is a block diagram illustrating a functional configuration of the behavior control learning apparatus 100 configured by reading and executing the above-described program in the CPU 11 as described above.

ここで、行動データ記憶部101、DBN確率テーブル記憶部105、POMDP確率・報酬テーブル記憶部109、POMDPポリシー記憶部113及び状態確率テーブル記憶部117は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、DBN生成部103、DBN−POMD変換部P107、強化学習部111、状態分布更新部115及びアクション決定部119は、CPU11にライセンス管理プログラムを実行させることにより構成されるものである。   Here, the behavior data storage unit 101, the DBN probability table storage unit 105, the POMDP probability / reward table storage unit 109, the POMDP policy storage unit 113, and the state probability table storage unit 117 are the auxiliary storage device 14, RAM 16, register 11c, and others. It corresponds to any one of the buffer memory, the cache memory, etc., or a storage area using these together. The DBN generation unit 103, the DBN-POMD conversion unit P107, the reinforcement learning unit 111, the state distribution update unit 115, and the action determination unit 119 are configured by causing the CPU 11 to execute a license management program.

100 行動制御学習装置
101 行動データ記憶部
103 DBN生成部
105 DBN確率テーブル記憶部
107 DBN−POMDP変換部
109 POMDP確率・報酬テーブル記憶部
111 強化学習部
113 POMDPポリシー記憶部
115 状態分布更新部
117 状態確率テーブル記憶部
119 アクション決定部
100 behavior control learning device 101 behavior data storage unit 103 DBN generation unit 105 DBN probability table storage unit 107 DBN-POMDP conversion unit 109 POMDP probability / reward table storage unit 111 reinforcement learning unit 113 POMDP policy storage unit 115 state distribution update unit 117 state Probability table storage unit 119 Action determination unit

Claims (5)

人対人の行動を人対システムで行うための学習データを生成する行動制御学習装置であって、
人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値とし、
前記観測値とアクションと評価値を記憶する行動データ記録部と、
tは時刻を表すものとし、前記観測値、アクション及び評価値を用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態sでアクションaを実行したときの報酬 の確率P(r|s,a)、アクションaによって状態がsからst+1へ変わる確率P(st+1|s,a)、アクションaによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,a)を推定するDBN生成部と、
前記確率P(r|s,a)、P(st+1|s,a)、P(ot+1|st+1,a)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,a)及び状態sでアクションaを実行したときの報酬r(s,a)を生成するDBN−POMDP変換部と、
前記確率P(s’|s,a)、P(o’|s’,a)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する強化学習部と、を備え、
前記報酬r(s,a)は、r とP(r |s ,a )との積和である、
ことを特徴とする行動制御学習装置。
A behavior control learning device that generates learning data for performing a person-to-person action in a person-to-person system,
In data showing person-to-person actions, one person is assigned as a user, the other person is assigned as a system, the user action is taken as an observed value, the system action is taken as an action, and a series of actions consisting of an observed value o and an action a An evaluation value r is obtained by evaluating whether or not the series is a desired action series.
An action data recording unit for storing the observed value o , the action a, and the evaluation value r ;
t is assumed to represent a time, using the observation value o, action a and evaluation value r, to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), reward when executing the action a t in state s t r t of the probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), by the action a t in state s t + 1 A DBN generator that estimates a probability P (o t + 1 | s t + 1 , a t ) that the observed value o t + 1 is observed;
Using the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), P (o t + 1 | s t + 1 , a t ), the state is changed from s to s ′ by action a P (s ′ | s, a), the probability P (o ′ | s ′, a t ) of outputting the observation value o ′ in the state s ′ by the action a, and the action a in the state s A DBN-POMDP conversion unit for generating a reward r (s, a);
Using the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), an action to be taken by the system using the probability distribution of the current state as an argument for example Bei and reinforcement learning unit for generating a function to one output, the,
The reward r (s, a) is a product sum of r t and P (r t | s t , a t ).
A behavior control learning apparatus characterized by that.
請求項1記載の行動制御学習装置であって、
前記状態sを観測値の内部状態を表すsとアクションの内部状態を表すsの組s=(s,s)とし、
前記DBN生成部は、a=sのときに限り、P(a|s)=1として、DBNを生成し、
前記DBN−POMDP変換部は、報酬^r((*,s),a)[ここで、*は任意のsを表す]を
Figure 0005361615
として求め、
前記強化学習部は、前記報酬r(s,a)の代わりに、αr(s,a)+β^r((*,s),a)[ここで、αとβは任意の実数]を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する、
ことを特徴とする行動制御学習装置。
The behavior control learning device according to claim 1,
The state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) and,
The DBN generation unit generates a DBN with P (a | s a ) = 1 only when a = s a ,
The DBN-POMDP conversion unit, reward ^ r ((*, s a ), a) [ where * represents any s o] the
Figure 0005361615
As sought
The reinforcement learning unit uses αr (s, a) + β ^ r ((*, s a ), a) [where α and β are arbitrary real numbers] instead of the reward r (s, a). Using the current state probability distribution as an argument, generate a function that outputs one action that the system should take,
A behavior control learning apparatus characterized by that.
人対人の行動を人対システムで行うための学習データを生成する行動制御学習方法であって、
人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値とし、
tは時刻を表すものとし、前記観測値、アクション及び評価値を用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態sでアクションaを実行したときの報酬 の確率P(r|s,a)、アクションaによって状態がsからst+1へ変わる確率P(st+1|s,a)、アクションaによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,a)を推定するDBN生成ステップと、
前記確率P(r|s,a)、P(st+1|s,a)、P(ot+1|st+1,a)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,a)及び状態sでアクションaを実行したときの報酬r(s,a)を生成するDBN−POMDP変換ステップと、
前記確率P(s’|s,a)、P(o’|s’,a)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する強化学習ステップと、を備え、
前記報酬r(s,a)は、r とP(r |s ,a )との積和である、
ことを特徴とする行動制御学習方法。
A behavior control learning method for generating learning data for performing a person-to-person action in a person-to-system,
In data showing person-to-person actions, one person is assigned as a user, the other person is assigned as a system, the user action is taken as an observed value, the system action is taken as an action, and a series of actions consisting of an observed value o and an action a An evaluation value r is obtained by evaluating whether or not the series is a desired action series.
t is assumed to represent a time, using the observation value o, action a and evaluation value r, to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), reward when executing the action a t in state s t r t of the probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), by the action a t in state s t + 1 A DBN generation step of estimating a probability P (o t + 1 | s t + 1 , a t ) that the observed value o t + 1 is observed;
Using the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), P (o t + 1 | s t + 1 , a t ), the state is changed from s to s ′ by action a P (s ′ | s, a), the probability P (o ′ | s ′, a t ) of outputting the observation value o ′ in the state s ′ by the action a, and the action a in the state s A DBN-POMDP conversion step for generating a reward r (s, a);
Using the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), an action to be taken by the system using the probability distribution of the current state as an argument for example Bei and reinforcement learning step of generating a function to one output, the,
The reward r (s, a) is a product sum of r t and P (r t | s t , a t ).
A behavior control learning method characterized by that.
請求項3記載の行動制御学習方法であって、
前記状態sを観測値の内部状態を表すsとアクションの内部状態を表すsの組s=(s,s)とし、
前記DBN生成ステップは、a=sのときに限り、P(a|s)=1として、DBNを生成し、
前記DBN−POMDP変換ステップは、報酬^r((*,s),a)[ここで、*は任意のsを表す]を
Figure 0005361615
として求め、
前記強化学習ステップは、前記報酬r(s,a)の代わりに、αr(s,a)+β^r((*,s),a)[ここで、αとβは任意の実数]を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する、
ことを特徴とする行動制御学習方法。
The behavior control learning method according to claim 3,
The state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) and,
The DBN generation step generates a DBN with P (a | s a ) = 1 only when a = s a ,
The DBN-POMDP conversion step, reward ^ r ((*, s a ), a) [ where * represents any s o] the
Figure 0005361615
As sought
In the reinforcement learning step, αr (s, a) + β ^ r ((*, s a ), a) [where α and β are arbitrary real numbers] instead of the reward r (s, a). Using the current state probability distribution as an argument, generate a function that outputs one action that the system should take,
A behavior control learning method characterized by that.
コンピュータを請求項1または2記載の行動制御学習装置として機能させるためのプログラム。   A program for causing a computer to function as the behavior control learning device according to claim 1.
JP2009199376A 2009-08-31 2009-08-31 Behavior control learning method, behavior control learning device, behavior control learning program Active JP5361615B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009199376A JP5361615B2 (en) 2009-08-31 2009-08-31 Behavior control learning method, behavior control learning device, behavior control learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009199376A JP5361615B2 (en) 2009-08-31 2009-08-31 Behavior control learning method, behavior control learning device, behavior control learning program

Publications (2)

Publication Number Publication Date
JP2011053735A JP2011053735A (en) 2011-03-17
JP5361615B2 true JP5361615B2 (en) 2013-12-04

Family

ID=43942707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009199376A Active JP5361615B2 (en) 2009-08-31 2009-08-31 Behavior control learning method, behavior control learning device, behavior control learning program

Country Status (1)

Country Link
JP (1) JP5361615B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170137350A (en) * 2016-06-03 2017-12-13 (주)싸이언테크 Apparatus and method for studying pattern of moving objects using adversarial deep generative model

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909644B2 (en) 2011-05-26 2014-12-09 Nice Systems Technologies Uk Limited Real-time adaptive binning
US8914314B2 (en) 2011-09-28 2014-12-16 Nice Systems Technologies Uk Limited Online temporal difference learning from incomplete customer interaction histories
US8909590B2 (en) 2011-09-28 2014-12-09 Nice Systems Technologies Uk Limited Online asynchronous reinforcement learning from concurrent customer histories
WO2013059517A1 (en) * 2011-10-18 2013-04-25 Causata Inc. Online temporal difference learning from incomplete customer interaction histories
JP5815458B2 (en) * 2012-04-20 2015-11-17 日本電信電話株式会社 Reward function estimation device, reward function estimation method, and program
JP6103540B2 (en) 2014-03-14 2017-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Generating apparatus, generating method, information processing method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170137350A (en) * 2016-06-03 2017-12-13 (주)싸이언테크 Apparatus and method for studying pattern of moving objects using adversarial deep generative model
KR101925907B1 (en) 2016-06-03 2019-02-26 (주)싸이언테크 Apparatus and method for studying pattern of moving objects using adversarial deep generative model

Also Published As

Publication number Publication date
JP2011053735A (en) 2011-03-17

Similar Documents

Publication Publication Date Title
JP5361615B2 (en) Behavior control learning method, behavior control learning device, behavior control learning program
Oord et al. Parallel wavenet: Fast high-fidelity speech synthesis
Chiu et al. Predicting co-verbal gestures: A deep and temporal modeling approach
Iwata et al. Online multiscale dynamic topic models
Gašić et al. Gaussian processes for pomdp-based dialogue manager optimization
JP6805112B2 (en) Dialogue system, dialogue method and dialogue program
JP6611053B2 (en) Subject estimation system, subject estimation method and program
JP7483751B2 (en) Training machine learning models using unsupervised data augmentation
JP2010092266A (en) Learning device, learning method and program
KR102361616B1 (en) Method and apparatus for recognizing named entity considering context
WO2018105656A1 (en) Program recording medium, device, and method employing inference engine capable of rule set selection
JP6312467B2 (en) Information processing apparatus, information processing method, and program
JP7472658B2 (en) Activity interval estimation model construction device, activity interval estimation model construction method, and activity interval estimation model construction program
Windiatmoko et al. Developing FB chatbot based on deep learning using RASA framework for university enquiries
Tebenkov et al. Machine learning algorithms for teaching AI chat bots
JP4594885B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium
CN110297894B (en) Intelligent dialogue generating method based on auxiliary network
Lone et al. Self-learning chatbots using reinforcement learning
JP5170698B2 (en) Stochastic reasoner
JP5427163B2 (en) Action control device, action control method, and action control program
JP5281527B2 (en) Interactive personality feature determination apparatus and method, and program
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP5475707B2 (en) Action control device, action control method, and action control program
JP6633556B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program
US20210374612A1 (en) Interpretable imitation learning via prototypical option discovery

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130903

R150 Certificate of patent or registration of utility model

Ref document number: 5361615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350