JP5361615B2 - Behavior control learning method, behavior control learning device, behavior control learning program - Google Patents
Behavior control learning method, behavior control learning device, behavior control learning program Download PDFInfo
- Publication number
- JP5361615B2 JP5361615B2 JP2009199376A JP2009199376A JP5361615B2 JP 5361615 B2 JP5361615 B2 JP 5361615B2 JP 2009199376 A JP2009199376 A JP 2009199376A JP 2009199376 A JP2009199376 A JP 2009199376A JP 5361615 B2 JP5361615 B2 JP 5361615B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- state
- person
- dbn
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明はシステムとユーザーが交互にやり取りをするようなシステム(対話システムなど)において、ユーザーの行動に対して、システムが次にどんな行動をとるかを決定する行動制御学習方法、行動制御学習装置、行動制御学習プログラムに関する。 The present invention relates to a behavior control learning method and a behavior control learning device for determining what action the system will take next in response to a user action in a system in which the system and the user interact with each other (such as a dialogue system). It relates to a behavior control learning program.
部分観測マルコフ決定過程(Partially Observable Markov Decision Process、以下「POMDP」という)を用いた行動制御技術として,非特許文献1、2及び3が知られている。
Non-patent
非特許文献1は、6都市間のチケットを買うタスクを対象としている。また、非特許文献2は、DSL(Digital Subscriber Line)のトラブルシューティングのタスクを対象としている。これらの行動制御技術は、タスクの種類(取りうる行動の種類)と、状態遷移の仕方(どの順序で行動するか)は既知である。また、非特許文献3は、大量のデータからシステムの行動を決定するが、POMDPを求める際には、他の非特許文献と同様にタスクが既知である。
Non-Patent
しかしながら、何れの従来技術もタスクの種類と、状態遷移の仕方が既知であるタスクを対象とするため、対話のようにタスクの種類(挨拶、握手、楽しい会話、雑談など)やタスクの状態遷移の仕方が様々であり、予めシステム設計者が予想できないようなシステムに対する行動制御を行うことはできないという問題がある。 However, since all conventional technologies target tasks whose task types and state transitions are known, task types (greeting, handshake, fun conversations, chats, etc.) and task state transitions such as dialogue There are various methods, and there is a problem that it is not possible to perform behavior control on a system that cannot be predicted in advance by a system designer.
本発明の行動制御学習装置は、人対人の行動を人対システムで行うための学習データを生成する装置である。また、人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値とする。そして、本発明の行動制御学習装置は、観測値とアクションと評価値を記憶する行動データ記録部、DBN生成部、DBN−POMDP変換部、強化学習部を備える。DBN生成部は、観測値、アクション及び評価値を用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態stでアクションatを実行したときの報酬の確率P(rt|st,at)、アクションatによって状態がstからst+1へ変わる確率P(st+1|st,at)、アクションatによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,at)を推定する。DBN−POMDP変換部は、確率P(rt|st,at)、P(st+1|st,at)、P(ot+1|st+1,at)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,at)及び状態sでアクションaを実行したときの報酬r(s,a)を生成する。強化学習部は、確率P(s’|s,a)、P(o’|s’,at)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する。 The behavior control learning device of the present invention is a device that generates learning data for performing person-to-person behavior in a person-to-person system. In addition, in the data indicating person-to-person behavior, one person is assigned as a user, the other person is assigned as a system, the user's action is taken as an observation value, the system action is taken as an action, and a series of actions consisting of observation values and actions. An evaluation value is obtained by evaluating whether or not the series is a desired action series. The behavior control learning device of the present invention includes a behavior data recording unit that stores observation values, actions, and evaluation values, a DBN generation unit, a DBN-POMDP conversion unit, and a reinforcement learning unit. DBN generation unit, observations, using the action and the evaluation value to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), the compensation when executing an action a t in state s t probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), the probability that the observed value o t + 1 in the state s t + 1 by the action a t is observed P (o t + 1 | s t + 1 , a t ) is estimated. The DBN-POMDP converter uses the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), and P (o t + 1 | s t + 1 , a t ) by action a. Probability P (s ′ | s, a) that state changes from s to s ′, probability P (o ′ | s ′, a t ) that outputs observation value o ′ in state s ′ by action a, and action in state s A reward r (s, a) when a is executed is generated. The reinforcement learning unit uses the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), and the system uses the probability distribution of the current state as an argument. Generate a function that outputs one action to take.
また、本発明は、状態stを観測値の内部状態を表すsoとアクションの内部状態を表すsaの組st=(so,sa)(なお、so,saの表記ではtを省略する)に分け、DBN生成部は、a=saのときに限り、P(a|sa)=1として、DBNを生成し、DBN−POMDP変換部は、報酬^r((*,sa),a)[ここで、*は任意のsoを表す]をa=saのときに1をとり、それ以外のときには0をとるように報酬^r((*,sa),a)を定め、所望の行動系列に対する報酬rと統計的な行動系列に対する報酬^rの線形和αr+β^rで置き換えた以下の式により最終的な目的関数Vtを得る。 Further, the present invention, the state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) ( Note, s o, notation s a In this case, the DBN generation unit generates a DBN with P (a | s a ) = 1 only when a = s a , and the DBN-POMDP conversion unit generates a reward ^ r ( (*, S a ), a) [where, * represents an arbitrary s o ] is a reward ^ r ((*,), so that 1 is taken when a = s a and 0 is taken otherwise. s a ), a) are determined, and a final objective function V t is obtained by the following equation, which is replaced with a linear sum αr + β ^ r of a reward r for a desired action sequence and a reward r for a statistical action sequence.
本発明の行動制御学習装置によれば、所望の行動系列以外もモデル化し、アクションを決定する関数を生成している。したがって、本発明の行動制御学習装置が生成した関数を用いたシステムであれば、所望の行動系列以外のユーザーの行動に対しても、統計的に自然なふるまいを行うようすることができる。 According to the behavior control learning device of the present invention, a function other than a desired behavior series is modeled and an action is determined. Therefore, if the system uses the function generated by the behavior control learning apparatus of the present invention, it is possible to perform statistically natural behavior even for user behavior other than the desired behavior series.
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
[行動制御学習装置100]
行動制御学習装置100は人対人の行動を人対システムで行うための学習データを生成する。図1は実施例1の行動制御学習装置100の構成例を示す。図1を用いて実施例1に係る行動制御学習装置100を説明する。
[Behavioral control learning device 100]
The behavior
行動制御学習装置100は、行動データ記憶部101と、ダイナミックベイジアンネットワーク(以下「DBN」という)生成部103と、DBN確率テーブル記憶部105と、DBN−POMDP変換部107と、POMDP確率・報酬テーブル記憶部109と、強化学習部111と、POMDPポリシー記憶部113と、状態分布更新部115と、状態確率テーブル記憶部117と、アクション決定部119を備える。
The behavior
[行動データ記憶部101]
人対人の行動を示すデータ(例えば、対話を記録した音声データや画像データ等)において、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値oとし、システムの行動をアクションaとし、観測値とアクションからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値rとする。
行動データ記録部101は観測値oとアクションaと評価値rを記憶する。図2は行動データ記憶部に記憶されるデータ例を示す。
[Behavior data storage unit 101]
In data indicating person-to-person actions (for example, voice data or image data recording a dialogue), one person is assigned as a user, the other person is assigned as a system, and the user action is set as an observation value o. Is an action a, and an evaluation value r is an evaluation of whether or not a series of behavior sequences composed of observed values and actions is a desired behavior sequence.
The behavior
例えば、握手、挨拶、笑い、移動、おしゃべり、うなずき、首ふり、無行動の8種類の行動ラベルを用意し、各ラベルに0〜7の数値を対応させ、観測値及びアクションとして、それぞれの行動に対応する数値を、行動データとして行動データ記憶部101に記憶する。本実施例では、観測値とアクションを一対のペアとして記憶する。さらに、一連の行動系列(1以上のユーザーとシステムの行動のペア)が、所望の行動系列であったか否か評価し、評価値として所望の行動系列である場合には1とし、そうでない場合には0として記憶する。
For example, handshake, greeting, laughter, movement, chatter, nod, swing, no action, and 8 action labels are prepared. Each label is associated with a numerical value of 0-7. Are stored in the behavior
なお、所望の行動系列としては、例えばユーザーが楽しんだか?典型的な行動系列であるか?ユーザーの役に立ったか?等である。典型的な行動系列としては、「お互いに握手をし、お互いに挨拶をし、その後、笑いとおしゃべりとうなずきを数回ランダムにお互い繰り返し、最後に挨拶をし合い、握手をし合う」等である。 For example, did the user enjoy the desired action sequence? Is it a typical action sequence? Was it helpful to users? Etc. A typical sequence of actions is “shake each other, greet each other, then repeat laughter, chatter and nod several times at random, greet each other at the end, and shake hands” is there.
この評価は行動系列一つにつき、一つ付与される。ここでは、この値を統計的に学習するために、この値を各時刻に分配する。この分配する手法としては以下の何れかを用いる。
(分配手段1)観測された行動系列の評価が1であれば全ての値を1に設定する。評価が0であれば、全ての値を0に設定する。
(分配手段2)観測された行動系列の一部分だけに対して評価をつける。その部分の評価が1であれば、その部分の始端と終端の間だけを1にする。その他の部分は全て0とする。
(分配手段3)(分配手段2)のように始端と終端がわかっているときに、その部分の最後のデータに対してのみ1を付与する他の値は0とする。
One evaluation is given for each action series. Here, in order to learn this value statistically, this value is distributed to each time. One of the following is used as a method for this distribution.
(Distributing means 1) If the observed action series is evaluated as 1, all values are set to 1. If the evaluation is 0, all values are set to 0.
(Distributing means 2) Evaluates only a part of the observed action sequence. If the evaluation of the part is 1, only 1 between the start and end of the part is set to 1. All other parts are set to zero.
(Distributing means 3) When the starting and ending points are known as in (distributing means 2), the other values that give 1 only to the last data of that portion are set to 0.
なお、この評価値は、0と1の2値でなく多値をとっても良く、連続値としてもよい。また、ここでは一人の人の評価で話を進めるが、多人数の平均をとったものを評価としてもよい。また、所望の行動系列は複数用意してもよく、各所望の行動系列に対して、行動系列ラベルを設けてもよい。各行動系列に対して評価を与え、行動系列ラベルとその評価を組合せて記憶してもよい。また、人対人の行動データは一対一のデータでなく複数の人のデータに基づいて収集してもよい。この場合、ユーザー、システムともに複数となる。 Note that this evaluation value may be a multi-value instead of a binary value of 0 and 1, or may be a continuous value. In addition, although the discussion proceeds with the evaluation of one person here, the average of a large number of people may be used as the evaluation. A plurality of desired action sequences may be prepared, and an action sequence label may be provided for each desired action sequence. Evaluation may be given to each action series, and the action series label and the evaluation may be combined and stored. The person-to-person behavior data may be collected based on a plurality of person data instead of one-to-one data. In this case, there are a plurality of users and systems.
なお、行動ラベルの付与は、人手により行ってもよいし、音声認識ソフトや画像認識ソフトを用いて、何れの行為に該当するかを認識し、自動的に付与してもよい。また、評価は、評価対象により人手、自動を適宜選択すればよい。例えば、適宜ユーザーの役に立ったか?等の判断は、音声認識ソフトや画像認識ソフトを用いて、認識するのが困難であるため、人手により付与する。典型的な行動系列が行われたか否かは自動で付与する構成としてもよい。行動制御学習装置100は、認識部及びラベル付与部を設け、会話データや映像データそのものを入力値として内部で観測値、アクション、評価値を生成する構成としてもよい。
The action label may be assigned manually, or it may be automatically assigned by recognizing which action corresponds to using voice recognition software or image recognition software. Moreover, what is necessary is just to select manual and automatic as evaluation according to evaluation object. For example, was it useful for the user as appropriate? Is difficult to recognize using voice recognition software or image recognition software, and is therefore given manually. Whether or not a typical action sequence is performed may be automatically given. The behavior
[DBN生成部103及びDBN確率テーブル記憶部105]
DBN生成部103は、観測値o、アクションa及び評価値rを用いて、DBNを生成し、状態stでアクションatを実行したときの報酬の確率P(rt|st,at)、アクションatによって状態がstからst+1へ変わる確率P(st+1|st,at)、アクションatによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,at)を推定する。なお、sはユーザー・システム間の隠れ状態(以下、「状態」という)とし、状態sは、ユーザー・システムの隠れ状態soと行動生成のための隠れ状態saとの組からなり、tは時刻を表すものとし、評価値rを確率変数である報酬rとして扱う。ここで、tは変数の相対的な時刻の関係を明確にするために用いた記号であり、特定の時刻を想定しているものではない。すなわち、ここで示す確率及びそれを使った演算は、時刻に依存しない。
[
例えば、DBN生成部103は、観測値ot、アクションat、評価値rtの時系列を用いて、EMアルゴリズム、ジャンクションツリーアルゴリズム、サンプリング手法などにより、尤度最大化を行い、行動生成モデルのためのDBNを学習、生成する。また、システムとユーザーの内部状態をs=(so,sa)のようにシステムの内部状態と、アクションに対応する状態とに分離する。saとaを一対一に対応させるため、a=saの時に限り,P(a|sa)=1として、DBNを作成する。図3はsaとaとP(a|sa)の関係を示す。
For example, the
DBN生成部103で推定された確率は、DBN確率テーブル記憶部105に記憶される。
[DBN−POMDP変換部107及びPOMDP確率・報酬テーブル記憶部109]
DBN−POMDP変換部107は、確率P(rt|st,at)、P(st+1|st,at)、P(ot+1|st+1,at)を用いて、アクションaによって状態がsからs’へ変わる確率(状態遷移確率)P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率(出力確率)P(o’|s’,at)及び状態sでアクションaを実行したときの報酬r(s,a)を生成する。
The probability estimated by the
[DBN-
The DBN-
ここで、POMDPという確率モデルについて説明する。行動生成はこのPOMDPによって実現する。図4は、POMDPの構造と変数を示す。このモデルではシステムの状態やユーザーの心理な状態を記述する状態sが定義される。sはs=(s1,s2,s3,…,sN)というように、複数の状態の組み合わせで表現される。oは観測される観測値を、aはシステム側からユーザーに働きかけるアクションを表す。このとき、これらの変数の間に確率P(s’|s,a)、確率P(o’|s’,at)及び報酬r(s,a)が設定されている。 Here, a probability model called POMDP will be described. Action generation is realized by this POMDP. FIG. 4 shows the structure and variables of POMDP. This model defines a state s that describes the state of the system and the psychological state of the user. s is expressed as a combination of a plurality of states, such as s = (s 1 , s 2 , s 3 ,..., s N ). o represents an observed value, and a represents an action that acts on the user from the system side. In this case, the probability between these variables P (s' | s, a ), the probability P (o '| s', a t) and reward r (s, a) has been set.
DBN−POMDP変換部107は、DBN生成部103で推定された確率を以下の式により、POMDPの確率・報酬に変換する。なお、観測値及びアクションとして同じ定義のシンボルが使われると仮定する。
The DBN-
DBNとPOMDPの構造はほぼ同じなので、状態遷移確率P(s’|s,a)、出力確率P(o’|s’,at)に関しては、対応する確率に値を代入すればよい。報酬は、DBNにおいて確率変数として扱われるため、DBNで得られた確率変数を平均化することによって、実数に変換する。例えば、rの確率分布から式(1)によって求める。なお、この設定は、従来技術にはない本発明独自の手法である。 Since the structures of DBN and POMDP are almost the same, regarding the state transition probability P (s ′ | s, a) and the output probability P (o ′ | s ′, a t ), values may be substituted for the corresponding probabilities. Since the reward is handled as a random variable in the DBN, the random variable obtained by the DBN is averaged to be converted into a real number. For example, it is obtained from the probability distribution of r by equation (1). This setting is a method unique to the present invention that is not present in the prior art.
POMDP確率・報酬テーブル記憶部109は、DBN−POMDP変換部107で変換及び求められた確率P(s’|s,a)、P(o’|s’,at)及び報酬r(s,a)を記憶する。
The POMDP probability / reward
[強化学習部111及びPOMDPポリシー記憶部113]
強化学習部111は、確率P(s’|s,a)、P(o’|s’,at)と報酬r(s,a)を用いて、強化学習により、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数(以下、「ポリシー」という)を生成する。
[
The
POMDPポリシー記憶部113は、強化学習部111で生成されたポリシーを記憶する。
The POMDP
次にポリシーの計算方法について説明する。まず、式(4)はアクション系列aτ+tが分かっているときに将来獲得できる報酬を示す。 Next, a policy calculation method will be described. First, equation (4) shows a reward that can be acquired in the future when the action sequence a τ + t is known.
ここで、bτ+t(s)は、時刻τ+tの状態の分布である。また、正定数γ(<1)により未来の報酬の寄与は小さくなる。ポリシーは、式(4)を最大にする現在のアクションaを、現在の状態分布bt(s)から計算する関数である。
[データ中に出現する統計情報に従って行動を選択する手法]
まず、現在の状態の確率分布bt(s)は、その定義から次式が得られる。
Here, b τ + t (s) is the distribution of the state at time τ + t. Further, the contribution of the future reward is reduced by the positive constant γ (<1). The policy is a function that calculates the current action a that maximizes Equation (4) from the current state distribution b t (s).
[Method to select action according to statistical information appearing in data]
First, the following expression is obtained from the definition of the probability distribution b t (s) of the current state.
これは、過去のo1,a1,…,at−1,otという系列、すなわちユーザーとシステムの観測値とアクションの履歴が実行された後に、状態がsaとなる確率を表している。
at=saのときにP(a|sa)=1としているため、at=saのときに以下の式を得る。
This is, past o 1, a 1, ..., series that a t-1, o t, that is, after the history of observations and actions of the user and the system has been executed, represents the probability that the state is s a Yes.
P at a t = s a | because you are (a s a) = 1, to obtain the following expression when a t = s a.
これは、過去のo1,a1,…,at−1,otが観測されたときの次にアクションatが起こる確率を表す。すなわち、今までのデータからatがどれだけ自然かを表す確率となっている。すなわち、式(7)を最大化するようにPOMDPの報酬を決めれば、ポリシーにより、自然なアクションを生成するようになる。これを実現するためには、報酬を This is, past o 1, a 1, ..., represents the probability that the action a t happens next when a t-1, o t is observed. In other words, it is made up of data of until now as the probability of indicating whether a t how much nature. That is, if the POMDP reward is determined so as to maximize the expression (7), a natural action is generated according to the policy. To achieve this, rewards
として設定すればよい。但し、a=saを満たす必要がある。このように報酬を決定するため、ここでは、a=saのときに1をとり、それ以外のときには0をとるように報酬^r((*,sa),a)を定める。 Can be set as However, it is necessary to satisfy a = s a . In order to determine the reward in this way, here, reward {circumflex over (r)} ((*, s a ), a) is determined so that 1 is taken when a = s a and 0 is taken otherwise.
ここで、*は任意のsoを指す。この値を用いて、rを^rに置き換えれば、自然な対話を実現できる。ここでは、従来型の所望の行動系列も実現するために従来手法の報酬の線形和をとる。これを行うために、式(4)のrをαr+β^rで置き換えた下記式(10)により最終的な目的関数Vtを得る。 Here, * refers to any of the s o. If r is replaced with ^ r using this value, a natural dialogue can be realized. Here, in order to realize a conventional desired action sequence, a linear sum of rewards of the conventional method is taken. In order to do this, the final objective function V t is obtained by the following equation (10) in which r in equation (4) is replaced by αr + β ^ r.
ここで、α、βは任意の実数である。このα、βを変化させることにより、所望の行動を実現する(αが大きい場合)のか統計的な行動を優先する(βが大きい場合)のか、その優先度合いの重みづけを行うことができる。なお、α、βを0とすることも可能である。 Here, α and β are arbitrary real numbers. By changing [alpha] and [beta], it is possible to weight the degree of priority whether a desired action is realized (when [alpha] is large) or a statistical action is prioritized ([beta] is large). Note that α and β can be set to 0.
通常、対象となる所望の行動系列に対してPOMDPによる行動生成の学習を行うと、所望の行動系列だけをシステムは実現しようとする。このため、人と人の行動の記録には、所望の行動系列だけではなく、様々な系列が含まれているのにもかかわらず、所望の行動系列以外の行動を選択しなくなる。よって、人と人との間のやり取りを再現しつつ、かつ。所望の行動系列にユーザーを引き込むようなシステムを作る場合には、所望の行動系列だけを学習するだけでは不十分である。本発明によれば、システムを構成する際にはこれらの行動系列の統計情報も含めて、システムの行動制御を学習するため、所望の行動系列へ引き込みつつも、自然な行動制御を行うことができる。 Normally, when learning of action generation by POMDP is performed on a target desired action sequence, the system tries to realize only the desired action sequence. For this reason, not only the desired behavior sequence but also various sequences are included in the record of the human behavior, the behavior other than the desired behavior sequence is not selected. Therefore, while reproducing the exchange between people. When creating a system that attracts users to a desired action sequence, it is not sufficient to learn only the desired action sequence. According to the present invention, when configuring a system, the behavioral control of the system is learned including statistical information of these behavioral sequences, so that natural behavioral control can be performed while pulling in the desired behavioral sequence. it can.
[ポリシーを用いた行動制御]
以下、ポリシーを用いて、行動を制御する方法について説明する
[状態分布更新部115及び状態確率テーブル記憶部117]
状態確率テーブル記憶部117には、一つ前の状態の確率分布bt−1が記憶されている。状態分布更新部115は、観測値ot’が入力されると、一つ前に行ったシステムのアクションaからPOMDP確率・報酬テーブル記憶部109に問合せ、格納された統計量より状態遷移確率P(s’|s,a)を求める。また、観測値ot’からPOMDP確率・報酬テーブル記憶部109に問合せ、格納された統計量より出力確率P(o’|s’,a)を求める。また、状態確率テーブル記憶部117に問合せ、一つ前の状態の確率分布bt−1を受け取り、以下の式により、現在の状態の確率分布btを求める。
[Action control using policies]
Hereinafter, a method for controlling behavior using a policy will be described [state
The state probability
なお、ηは全体の和を1にするための正規化定数である。求めた現在の状態の確率分布btは、状態確率テーブル記憶部117に記憶し、アクション決定部119へ出力される。
Note that η is a normalization constant for making the sum of all 1s. The obtained probability distribution b t of the current state is stored in the state probability
[アクション決定部119]
アクション決定部119は、行動制御に先立ちPOMDPポリシー記憶部113からポリシーを取得し、記憶しておく。さらに、現在の状態の確率分布btを受け取ると、これをポリシーf()の引数として、システムがとるべきアクションatを決定し出力する。
このような構成とすることによって、所望の行動系列以外もモデル化し、アクションを決定する関数を生成することができ、本発明の行動制御学習装置が生成した関数を用いたシステムであれば、所望の行動系列以外のユーザーの行動に対しても、統計的に自然なふるまいを行うようすることができる。
[Action decision unit 119]
The
By adopting such a configuration, it is possible to model a function other than a desired action sequence and generate a function for determining an action. If the system uses the function generated by the action control learning device of the present invention, any desired system can be used. It is possible to perform statistically natural behavior even for user behaviors other than the behavior series.
なお、行動制御学習装置100は、状態分布更新部115、状態確率テーブル117及びアクション決定部を備えているが、これらの構成を別装置として構成し、この別装置からの問合せに応じて状態遷移確率、出力確率及びポリシーを出力する構成としても良い。
The behavior
[シミュレーション結果]
一対一の行動記録のデータを想定し行動制御のシミュレーションによる実験を行った。図5はシミュレーション結果を示す。アクションには、握手、挨拶、笑い、移動、おしゃべり、うなずき、首ふり、無行動の8種類を用意した。観測値も同様に、以上の8種類とした。一般的に、観測値には誤認識があると仮定するが、ここでは、確定値とした。但し、隠れ状態はユーザーの意図を表しており、この部分は観測できないとしている。この部分を隠れ状態とした。この隠れ状態soの数は16である。これとは別にシステムのアクションに一対一に対応する隠れ状態saを設定し、その状態の数を8とした。ラベル付けを行う所望の行動系列として2種類の系列を用意した。これらの系列に対して計算機で自動的にラベル付けを行い、所望の行動系列であると判断したものには1をつけた。このうちの1つは、お互いに握手をし、お互いに挨拶をし、その後、笑いとおしゃべりとうなずきを数回ランダムにお互い繰り返し、最後に挨拶をし合い、握手をし合うという行動系列である。もう一つは、片方が移動し、片方が無行動でその後、挨拶をし合い、笑いとおしゃべりとうなずきを数回ランダムに繰り返し、挨拶をし合い、最後に片方が何もしないで、片方が移動するという行動系列である。この行動系列の報酬の与え方として、(分配手段2)を用いた。すなわち、この行動系列の開始時刻から終了時刻までが分かっているものとし、その開始時刻から終了時刻までの各時刻に報酬として1を付加した。これらの行動系列は全体の学習データの数に対して10分の1とした。残りのデータでは、ユーザーの観測値とシステム行動のペアが握手−握手、挨拶−挨拶、笑い−笑い、移動−移動、おしゃべり−おしゃべり、うなずき−おしゃべり、首ふり−おしゃべり、無行動―無行動の出現確率が統計的に多くなるようにサンプルを作成した。もしユーザーが所望の行動系列を望んでいる場合には、この所望の系列に近づくようにシステムが動作するように系を学習する。しかし、もしユーザーにその意思がなければ、残りのサンプルの統計的なふるまいを示す行動するように学習する。学習データとして、全部で10000サンプルのデータを作成した。このデータから提案手法を使ってダイナミックベイジアンネットワークを作成し、それをPOMDPの確率・報酬テーブルに変換し、強化学習により行動を選択手法であるポリシーを求めた。比較には、POMDPにおいて、所望の系列だけに報酬を与える手法を用いた。評価には、2000サンプルのデータを用いた。所望の系列の学習データを生成した手法、及び、その他の系列の学習データを生成した手法に従ってユーザーの観測値だけを生成した。実験では、ユーザーが所望の系列を希望しているときには所望の系列の行動を行い、それ以外のデータに対しては、データの統計量に従って行動を選択するかどうかを調べた。
[simulation result]
Experiments were performed by simulation of behavior control assuming one-on-one behavior record data. FIG. 5 shows the simulation results. There are eight types of actions: handshake, greeting, laughter, movement, chatter, nod, pretend, and no action. Similarly, the above eight types of observation values were used. In general, it is assumed that there is a misrecognition of the observed value, but here it is a definite value. However, the hidden state represents the user's intention, and this part cannot be observed. This part was hidden. The number of hidden state s o is 16. At the set hidden state s a corresponding one-to-one separately to the system action was the number of its
所望の系列だけに報酬を与える手法は、所望の系列200サンプルに対して全て正しくアクションを生成した。提案手法も所望の系列に対しては全て正しい行動を示した。これにより、どちらの手法も所望の系列に対しては正しいアクションを生成することが確認された。 The method of rewarding only the desired series generated all the actions correctly for 200 samples of the desired series. The proposed method also showed correct behavior for all desired sequences. This confirms that both methods generate the correct action for the desired sequence.
所望の行動系列だけに報酬を当てる手法による観測及び生成された観測値・アクションペア、提案手法による観測及び生成された観測値・アクションのペア、学習データ中に存在する観測値とアクションのペアの主な頻度を図5に示す。この図のように、所望の行動系列だけに報酬を与えるPOMDPでは、学習された所望の系列に含まれる観測値・アクションのペアに対しては高頻度でアクションを選択しているのが分かる。しかし、一番右に示す学習データの観測値・アクションのペアの統計パターンとは程遠いことが分かる。これは、所望の行動系列に対してだけ報酬を与える手法は、どんな観測値が観測されても、所望の系列になるように、行動を決定しているからである。これに対して、今回提案する行動の生起確率を報酬に導入する手法は、9倍ある所望の系列以外の学習データの統計量にも近づいていることが分かる。 Observed and generated observation / action pairs using a method that rewards only the desired action sequence, observation / action pairs generated by the proposed method, observed / action pairs existing in the learning data The main frequencies are shown in FIG. As shown in this figure, it can be seen that in POMDP that rewards only a desired action sequence, an action is frequently selected for the observed value / action pair included in the learned desired sequence. However, it can be seen that it is far from the statistical pattern of the observed value / action pair of the learning data shown on the far right. This is because the method of giving a reward only to a desired behavior sequence determines the behavior so that the desired sequence is obtained no matter what the observed value is observed. On the other hand, it can be seen that the method of introducing the occurrence probability of the action proposed this time to the reward approaches the statistic amount of learning data other than the desired series which is 9 times.
所望の行動系列だけに報酬を当てる手法では、ユーザー側が所望の行動を実行しない場合でも、所望の行動系列のためのアクションを生成する。これは、所望の行動だけをシステムが学習したからである。タスクがはじめから決まっているようなシステムでは、このようなふるまいは自然である。しかし、人と人との間のやり取りを再現しつつ、かつ。所望の行動系列にユーザーを引き込むようなシステムを作る場合には、所望の行動系列だけを学習するだけでは不十分である。そこで、本発明は、ユーザーが所望の行動を実行しない場合には、システムは学習データ中の統計的量に従って動作するようにし、ユーザー側が所望の行動を実行しない場合でも、自然な行動をできるように制御することができるという効果を奏する。 In the method of rewarding only a desired behavior sequence, an action for the desired behavior sequence is generated even when the user does not execute the desired behavior. This is because the system has learned only the desired behavior. In a system where tasks are determined from the beginning, this behavior is natural. However, while reproducing the interaction between people. When creating a system that attracts users to a desired action sequence, it is not sufficient to learn only the desired action sequence. Therefore, according to the present invention, when the user does not execute the desired action, the system operates according to the statistical amount in the learning data so that the user can perform a natural action even when the user does not execute the desired action. There is an effect that it can be controlled.
<ハードウェア構成>
図6は、本実施例における行動制御学習装置100のハードウェア構成を例示したブロック図である。図6に例示するように、この例の行動制御学習装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
<Hardware configuration>
FIG. 6 is a block diagram illustrating a hardware configuration of the behavior
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、行動制御学習装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CUP11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
The
<プログラム構成>
上述のように、補助記憶装置14には、本実施例の行動制御学習装置100の各処理を実行するための各プログラムが格納される。ライセンス管理プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<Program structure>
As described above, each program for executing each process of the behavior
<Cooperation between hardware and program>
The
図1は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される行動制御学習装置100の機能構成を例示したブロック図である。
FIG. 1 is a block diagram illustrating a functional configuration of the behavior
ここで、行動データ記憶部101、DBN確率テーブル記憶部105、POMDP確率・報酬テーブル記憶部109、POMDPポリシー記憶部113及び状態確率テーブル記憶部117は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、DBN生成部103、DBN−POMD変換部P107、強化学習部111、状態分布更新部115及びアクション決定部119は、CPU11にライセンス管理プログラムを実行させることにより構成されるものである。
Here, the behavior
100 行動制御学習装置
101 行動データ記憶部
103 DBN生成部
105 DBN確率テーブル記憶部
107 DBN−POMDP変換部
109 POMDP確率・報酬テーブル記憶部
111 強化学習部
113 POMDPポリシー記憶部
115 状態分布更新部
117 状態確率テーブル記憶部
119 アクション決定部
100 behavior
Claims (5)
人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値oとアクションaからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値rとし、
前記観測値oとアクションaと評価値rを記憶する行動データ記録部と、
tは時刻を表すものとし、前記観測値o、アクションa及び評価値rを用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態stでアクションatを実行したときの報酬r t の確率P(rt|st,at)、アクションatによって状態がstからst+1へ変わる確率P(st+1|st,at)、アクションatによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,at)を推定するDBN生成部と、
前記確率P(rt|st,at)、P(st+1|st,at)、P(ot+1|st+1,at)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,at)及び状態sでアクションaを実行したときの報酬r(s,a)を生成するDBN−POMDP変換部と、
前記確率P(s’|s,a)、P(o’|s’,at)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する強化学習部と、を備え、
前記報酬r(s,a)は、r t とP(r t |s t ,a t )との積和である、
ことを特徴とする行動制御学習装置。 A behavior control learning device that generates learning data for performing a person-to-person action in a person-to-person system,
In data showing person-to-person actions, one person is assigned as a user, the other person is assigned as a system, the user action is taken as an observed value, the system action is taken as an action, and a series of actions consisting of an observed value o and an action a An evaluation value r is obtained by evaluating whether or not the series is a desired action series.
An action data recording unit for storing the observed value o , the action a, and the evaluation value r ;
t is assumed to represent a time, using the observation value o, action a and evaluation value r, to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), reward when executing the action a t in state s t r t of the probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), by the action a t in state s t + 1 A DBN generator that estimates a probability P (o t + 1 | s t + 1 , a t ) that the observed value o t + 1 is observed;
Using the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), P (o t + 1 | s t + 1 , a t ), the state is changed from s to s ′ by action a P (s ′ | s, a), the probability P (o ′ | s ′, a t ) of outputting the observation value o ′ in the state s ′ by the action a, and the action a in the state s A DBN-POMDP conversion unit for generating a reward r (s, a);
Using the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), an action to be taken by the system using the probability distribution of the current state as an argument for example Bei and reinforcement learning unit for generating a function to one output, the,
The reward r (s, a) is a product sum of r t and P (r t | s t , a t ).
A behavior control learning apparatus characterized by that.
前記状態stを観測値の内部状態を表すsoとアクションの内部状態を表すsaの組st=(so,sa)とし、
前記DBN生成部は、a=saのときに限り、P(a|sa)=1として、DBNを生成し、
前記DBN−POMDP変換部は、報酬^r((*,sa),a)[ここで、*は任意のsoを表す]を
前記強化学習部は、前記報酬r(s,a)の代わりに、αr(s,a)+β^r((*,sa),a)[ここで、αとβは任意の実数]を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する、
ことを特徴とする行動制御学習装置。 The behavior control learning device according to claim 1,
The state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) and,
The DBN generation unit generates a DBN with P (a | s a ) = 1 only when a = s a ,
The DBN-POMDP conversion unit, reward ^ r ((*, s a ), a) [ where * represents any s o] the
The reinforcement learning unit uses αr (s, a) + β ^ r ((*, s a ), a) [where α and β are arbitrary real numbers] instead of the reward r (s, a). Using the current state probability distribution as an argument, generate a function that outputs one action that the system should take,
A behavior control learning apparatus characterized by that.
人対人の行動を示すデータにおいて、一方の人をユーザーとし、他方の人をシステムとして割り当て、ユーザーの行動を観測値とし、システムの行動をアクションとし、観測値oとアクションaからなる一連の行動系列が所望の行動系列であったか否かを評価したものを評価値rとし、
tは時刻を表すものとし、前記観測値o、アクションa及び評価値rを用いて、ダイナミックベイジアンネットワーク(以下「DBN」という)を生成し、状態stでアクションatを実行したときの報酬r t の確率P(rt|st,at)、アクションatによって状態がstからst+1へ変わる確率P(st+1|st,at)、アクションatによって状態st+1において観測値ot+1が観測される確率P(ot+1|st+1,at)を推定するDBN生成ステップと、
前記確率P(rt|st,at)、P(st+1|st,at)、P(ot+1|st+1,at)を用いて、アクションaによって状態がsからs’へ変わる確率P(s’|s,a)、アクションaによって状態s’で観測値o’を出力する確率P(o’|s’,at)及び状態sでアクションaを実行したときの報酬r(s,a)を生成するDBN−POMDP変換ステップと、
前記確率P(s’|s,a)、P(o’|s’,at)と報酬r(s,a)を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する強化学習ステップと、を備え、
前記報酬r(s,a)は、r t とP(r t |s t ,a t )との積和である、
ことを特徴とする行動制御学習方法。 A behavior control learning method for generating learning data for performing a person-to-person action in a person-to-system,
In data showing person-to-person actions, one person is assigned as a user, the other person is assigned as a system, the user action is taken as an observed value, the system action is taken as an action, and a series of actions consisting of an observed value o and an action a An evaluation value r is obtained by evaluating whether or not the series is a desired action series.
t is assumed to represent a time, using the observation value o, action a and evaluation value r, to generate a dynamic Bayesian network (hereinafter referred to as "DBN"), reward when executing the action a t in state s t r t of the probability P (r t | s t, a t), the probability state by the action a t changes from s t to s t + 1 P (s t + 1 | s t, a t), by the action a t in state s t + 1 A DBN generation step of estimating a probability P (o t + 1 | s t + 1 , a t ) that the observed value o t + 1 is observed;
Using the probabilities P (r t | s t , a t ), P (s t + 1 | s t , a t ), P (o t + 1 | s t + 1 , a t ), the state is changed from s to s ′ by action a P (s ′ | s, a), the probability P (o ′ | s ′, a t ) of outputting the observation value o ′ in the state s ′ by the action a, and the action a in the state s A DBN-POMDP conversion step for generating a reward r (s, a);
Using the probabilities P (s ′ | s, a), P (o ′ | s ′, a t ) and the reward r (s, a), an action to be taken by the system using the probability distribution of the current state as an argument for example Bei and reinforcement learning step of generating a function to one output, the,
The reward r (s, a) is a product sum of r t and P (r t | s t , a t ).
A behavior control learning method characterized by that.
前記状態stを観測値の内部状態を表すsoとアクションの内部状態を表すsaの組st=(so,sa)とし、
前記DBN生成ステップは、a=saのときに限り、P(a|sa)=1として、DBNを生成し、
前記DBN−POMDP変換ステップは、報酬^r((*,sa),a)[ここで、*は任意のsoを表す]を
前記強化学習ステップは、前記報酬r(s,a)の代わりに、αr(s,a)+β^r((*,sa),a)[ここで、αとβは任意の実数]を用いて、現在の状態の確率分布を引数としシステムがとるべきアクションを一つ出力する関数を生成する、
ことを特徴とする行動制御学習方法。 The behavior control learning method according to claim 3,
The state s t a s a representative of the internal state of the s o and actions representing the internal state of the observed values set s t = (s o, s a) and,
The DBN generation step generates a DBN with P (a | s a ) = 1 only when a = s a ,
The DBN-POMDP conversion step, reward ^ r ((*, s a ), a) [ where * represents any s o] the
In the reinforcement learning step, αr (s, a) + β ^ r ((*, s a ), a) [where α and β are arbitrary real numbers] instead of the reward r (s, a). Using the current state probability distribution as an argument, generate a function that outputs one action that the system should take,
A behavior control learning method characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009199376A JP5361615B2 (en) | 2009-08-31 | 2009-08-31 | Behavior control learning method, behavior control learning device, behavior control learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009199376A JP5361615B2 (en) | 2009-08-31 | 2009-08-31 | Behavior control learning method, behavior control learning device, behavior control learning program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011053735A JP2011053735A (en) | 2011-03-17 |
JP5361615B2 true JP5361615B2 (en) | 2013-12-04 |
Family
ID=43942707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009199376A Active JP5361615B2 (en) | 2009-08-31 | 2009-08-31 | Behavior control learning method, behavior control learning device, behavior control learning program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5361615B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170137350A (en) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | Apparatus and method for studying pattern of moving objects using adversarial deep generative model |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8909644B2 (en) | 2011-05-26 | 2014-12-09 | Nice Systems Technologies Uk Limited | Real-time adaptive binning |
US8914314B2 (en) | 2011-09-28 | 2014-12-16 | Nice Systems Technologies Uk Limited | Online temporal difference learning from incomplete customer interaction histories |
US8909590B2 (en) | 2011-09-28 | 2014-12-09 | Nice Systems Technologies Uk Limited | Online asynchronous reinforcement learning from concurrent customer histories |
WO2013059517A1 (en) * | 2011-10-18 | 2013-04-25 | Causata Inc. | Online temporal difference learning from incomplete customer interaction histories |
JP5815458B2 (en) * | 2012-04-20 | 2015-11-17 | 日本電信電話株式会社 | Reward function estimation device, reward function estimation method, and program |
JP6103540B2 (en) | 2014-03-14 | 2017-03-29 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generating apparatus, generating method, information processing method, and program |
-
2009
- 2009-08-31 JP JP2009199376A patent/JP5361615B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170137350A (en) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | Apparatus and method for studying pattern of moving objects using adversarial deep generative model |
KR101925907B1 (en) | 2016-06-03 | 2019-02-26 | (주)싸이언테크 | Apparatus and method for studying pattern of moving objects using adversarial deep generative model |
Also Published As
Publication number | Publication date |
---|---|
JP2011053735A (en) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5361615B2 (en) | Behavior control learning method, behavior control learning device, behavior control learning program | |
Oord et al. | Parallel wavenet: Fast high-fidelity speech synthesis | |
Chiu et al. | Predicting co-verbal gestures: A deep and temporal modeling approach | |
Iwata et al. | Online multiscale dynamic topic models | |
Gašić et al. | Gaussian processes for pomdp-based dialogue manager optimization | |
JP6805112B2 (en) | Dialogue system, dialogue method and dialogue program | |
JP6611053B2 (en) | Subject estimation system, subject estimation method and program | |
JP7483751B2 (en) | Training machine learning models using unsupervised data augmentation | |
JP2010092266A (en) | Learning device, learning method and program | |
KR102361616B1 (en) | Method and apparatus for recognizing named entity considering context | |
WO2018105656A1 (en) | Program recording medium, device, and method employing inference engine capable of rule set selection | |
JP6312467B2 (en) | Information processing apparatus, information processing method, and program | |
JP7472658B2 (en) | Activity interval estimation model construction device, activity interval estimation model construction method, and activity interval estimation model construction program | |
Windiatmoko et al. | Developing FB chatbot based on deep learning using RASA framework for university enquiries | |
Tebenkov et al. | Machine learning algorithms for teaching AI chat bots | |
JP4594885B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium | |
CN110297894B (en) | Intelligent dialogue generating method based on auxiliary network | |
Lone et al. | Self-learning chatbots using reinforcement learning | |
JP5170698B2 (en) | Stochastic reasoner | |
JP5427163B2 (en) | Action control device, action control method, and action control program | |
JP5281527B2 (en) | Interactive personality feature determination apparatus and method, and program | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP5475707B2 (en) | Action control device, action control method, and action control program | |
JP6633556B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
US20210374612A1 (en) | Interpretable imitation learning via prototypical option discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5361615 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |