JP7338858B2 - Behavior learning device, behavior learning method, behavior determination device, and behavior determination method - Google Patents
Behavior learning device, behavior learning method, behavior determination device, and behavior determination method Download PDFInfo
- Publication number
- JP7338858B2 JP7338858B2 JP2019144121A JP2019144121A JP7338858B2 JP 7338858 B2 JP7338858 B2 JP 7338858B2 JP 2019144121 A JP2019144121 A JP 2019144121A JP 2019144121 A JP2019144121 A JP 2019144121A JP 7338858 B2 JP7338858 B2 JP 7338858B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- learning
- information data
- situation information
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、行動学習装置、行動学習方法、行動決定装置及び行動決定方法に関する。 The present invention relates to an action learning device, an action learning method, an action determining device, and an action determining method.
近年、機械学習手法として、多層ニューラルネットワークを用いた深層学習(ディープラーニング)が注目されている。深層学習は、バック・プロパゲーションと呼ばれる計算手法を用い、大量の教師データを多層ニューラルネットワークへ入力した際の出力誤差を計算し、誤差が最小となるように学習を行うものである。 In recent years, as a machine learning method, deep learning using multi-layer neural networks has attracted attention. Deep learning uses a calculation method called back propagation to calculate the output error when a large amount of teacher data is input to a multi-layer neural network and perform learning to minimize the error.
特許文献1乃至3には、大規模なニューラルネットワークを複数のサブネットワークの組み合わせとして規定することにより、少ない労力及び演算処理量でニューラルネットワークを構築することを可能にしたニューラルネットワーク処理装置が開示されている。また、特許文献4には、ニューラルネットワークの最適化を行う構造最適化装置が開示されている。
しかしながら、深層学習では、教師データとして良質な大量のデータが必要であり、また、学習に長時間を要していた。特許文献1乃至4にはニューラルネットワークの構築のための労力や演算処理量を低減する手法が提案されているが、システム負荷等の更なる軽減のために、より簡単なアルゴリズムにより行動の学習が可能な行動学習装置が望まれていた。
However, deep learning requires a large amount of high-quality data as teacher data, and requires a long time for learning.
本発明の目的は、環境及び自己の状況に応じた行動の学習及び選択をより簡単なアルゴリズムで実現しうる行動学習装置及び行動決定装置を提供することにある。 SUMMARY OF THE INVENTION It is an object of the present invention to provide an action learning device and an action decision device that can learn and select an action according to the environment and one's own situation with a simpler algorithm.
本発明の一観点によれば、環境及び自己の状況を表す状況情報データに基づいて、前記環境に対して実行する行動候補を選択する行動選択部と、前記行動選択部により選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得する評価取得部と、前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するスロット生成部と、前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するユーザ学習モデル生成部とを有する行動学習装置が提供される。 According to one aspect of the present invention, an action selection unit that selects a candidate action to be executed with respect to the environment based on situation information data representing the environment and one's own situation, and the action selected by the action selection unit an evaluation acquisition unit that acquires an evaluation of the candidate for the candidate, which is an evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason; and based on the reason in the evaluation, a slot generation unit that generates a slot indicating a point of interest in the situation information data; and user learning that generates a user learning model in which the action candidate is associated with the situation information data, the slot, and the judgment in the evaluation. A behavior learning device having a model generation unit is provided.
また、本発明の他の一観点によれば、複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルを保持する記憶部と、現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択する行動選択部と、前記記憶部から、前記行動選択部により選択された前記行動候補に紐付けられた前記ユーザ学習モデルのうち、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するユーザ学習モデル抽出部と、前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記行動選択部により選択された前記行動候補を実行するか否かを判断する行動決定部とを有する行動決定装置が提供される。 According to another aspect of the present invention, for each of a plurality of action candidates, situation information data representing the environment and the self's situation; A storage unit that holds a user learning model that is associated with data and a decision to execute or not execute the action candidate in the situation indicated by the slot, and a current situation that represents the current environment and the self's situation an action selection unit that selects an action candidate to be executed in the environment based on information data; and the user learning model linked to the action candidate selected by the action selection unit from the storage unit , a user learning model extracting unit for extracting the user learning model having the situation information data most suitable to the current situation information data; and the slots of the user learning model extracted with the current situation information data. and a behavior determination unit that determines whether or not to execute the behavior candidate selected by the behavior selection unit based on the relationship of the behavior determination device.
また、本発明の更に他の一観点によれば、環境及び自己の状況を表す状況情報データに基づいて、前記環境に対して実行する行動候補を選択するステップと、前記選択するステップにおいて選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得するステップと、前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するステップと、前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するステップとを有する行動学習方法が提供される。 According to still another aspect of the present invention, a step of selecting a candidate action to be executed with respect to the environment based on situation information data representing the environment and one's own situation; a step of acquiring a user's evaluation of the action candidate, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data together with a reason, based on the reason in the evaluation; generating a slot indicating a point of interest in the situation information data; and generating a user learning model in which the action candidate is associated with the situation information data, the slot, and the judgment in the evaluation. A behavioral learning method is provided.
また、本発明の更に他の一観点によれば、現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択するステップと、複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルの中から、前記選択するステップにおいて選択された前記行動候補に紐付けられた前記ユーザ学習モデルであって、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するステップと、前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記選択するステップにおいて選択された前記行動候補を実行するか否かを判断するステップとを有する行動決定方法が提供される。 According to still another aspect of the present invention, based on current situation information data representing the current environment and one's own situation, a step of selecting a candidate action to be executed with respect to the environment; For each candidate, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing or performing the action candidate in the situation indicated by the situation information data and the slot and the user learning model linked to the action candidate selected in the selecting step from among the user learning models linked to the current situation information data. extracting the user learning model having the most relevant contextual information data; and selecting in the selecting step based on the relationship between the current contextual information data and the slots of the extracted user learning model. and determining whether to execute the proposed action.
本発明によれば、環境及び自己の状況に応じた行動の学習及び選択をより簡単なアルゴリズムで実現することができる。また、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の選択を実現することができる。 ADVANTAGE OF THE INVENTION According to this invention, action learning and selection according to an environment and one's own situation can be implement|achieved with a simpler algorithm. In addition, users' comments on actions selected according to situation information can be accumulated and used as know-how, and more appropriate actions can be selected.
[第1実施形態]
本発明の第1実施形態による行動学習装置の概略構成について、図1乃至図6を用いて説明する。図1は、本実施形態による行動学習装置の構成例を示す概略図である。図2は、本実施形態による行動学習装置における状況学習部の構成例を示す概略図である。図3は、本実施形態による行動学習装置におけるスコア取得部の構成例を示す概略図である。図4は、本実施形態による行動学習装置におけるニューラルネットワーク部の構成例を示す概略図である。図5は、本実施形態による行動学習装置における学習セルの構成例を示す概略図である。図6は、本実施形態による行動学習装置における用法学習部の構成例を示す概略図である。
[First embodiment]
A schematic configuration of a behavior learning device according to a first embodiment of the present invention will be described with reference to FIGS. 1 to 6. FIG. FIG. 1 is a schematic diagram showing a configuration example of an action learning device according to this embodiment. FIG. 2 is a schematic diagram showing a configuration example of the situation learning unit in the action learning device according to this embodiment. FIG. 3 is a schematic diagram showing a configuration example of the score acquisition unit in the action learning device according to this embodiment. FIG. 4 is a schematic diagram showing a configuration example of the neural network unit in the action learning device according to this embodiment. FIG. 5 is a schematic diagram showing a configuration example of a learning cell in the action learning device according to this embodiment. FIG. 6 is a schematic diagram showing a configuration example of the usage learning unit in the action learning device according to this embodiment.
本実施形態による行動学習装置100は、図1に示すように、状況学習部110と、用法学習部120と、を有する。状況学習部110は、環境200から受け取った情報及び自己の状況に基づき学習(状況学習)を行い、環境200に対して実行する行動を選択する。用法学習部120は、状況学習部110が選択した行動に対するユーザの評価(アドバイス)を受け、状況学習部110が選択した行動とユーザの評価とを関連付けるユーザ学習モデルを生成する(用法学習)。また、用法学習部120は、状況学習部110が選択した行動とユーザ学習モデルとに基づいて、環境200に対して実行する行動を決定する。行動学習装置100は、環境200とともに行動学習システム400を構成する。
The
状況学習部110は、例えば図2に示すように、行動候補取得部10と、状況情報生成部20と、スコア取得部30と、行動選択部70と、スコア調整部80と、により構成され得る。
For example, as shown in FIG. 2, the
行動候補取得部10は、環境200から受け取った情報及び自己(エージェント)の状況に基づいて、その状況下で取り得る行動(行動候補)を抽出する機能を備える。なお、エージェントとは、学習し、行動を選択する主体である。環境とは、エージェントが働きかける対象である。
The action
状況情報生成部20は、環境200から受け取った情報及び自己の状況(状況情報)をもとに、行動に関わる情報を表す状況情報データを生成する機能を備える。状況情報データに含まれる情報は、行動に関わるものであれば特に限定されるものではなく、例えば、環境情報、時間、回数、自己状態、過去の行動等を含み得る。
The situation
スコア取得部30は、行動候補取得部10が抽出した行動候補の各々について、状況情報生成部20で生成した状況情報データに対するスコアを取得する機能を備える。ここで、スコアとは、行動した結果に対して見込まれる効果を表す指標として用いられる変数である。例えば、行動した結果の評価が高いと見込まれる場合のスコアは大きく、行動した結果の評価が低いと見込まれる場合のスコアは小さい。
The
行動選択部70は、行動候補取得部10が抽出した行動候補の中から、スコア取得部30で取得したスコアが最も大きい行動候補を選択する。また、行動選択部70は、選択した行動を環境200に対して実行し、或いは、選択した行動を用法学習部120に通知する機能を備える。
The
スコア調整部80は、行動選択部70で選択した行動が環境200に与えた結果に応じて、選択した行動に紐付けられているスコアの値を調整する機能を備える。例えば、行動した結果の評価が高い場合はスコアを上げ、行動した結果の評価が低い場合はスコアを下げる。
The
スコア取得部30は、例えば図3に示すように、ニューラルネットワーク部40と、判定部50と、学習部60と、を含んで構成され得る。学習部60は、重み修正部62と、学習セル生成部64と、を含んで構成され得る。
The
ニューラルネットワーク部40は、例えば図4に示すように、入力層と出力層とを含む2層の人工ニューラルネットワークにより構成され得る。入力層は、1つの状況情報データから抽出される要素値の数に対応する数のセル(ニューロン)42を備える。例えば、1つの状況情報データがM個の要素値を含む場合、入力層は、少なくともM個のセル421,422,…,42i,…,42Mを含む。出力層は、少なくとも、取り得る行動の数に対応する数のセル(ニューロン)44を備える。例えば、出力層は、N個のセル441,442,…,44j,…,44Nを含む。出力層を構成するセル44の各々は、取り得る行動のうちのいずれかに紐付けられている。また、各々のセル44には、所定のスコアが設定されている。
The
入力層のセル421,422,…,42i,…,42Mには、状況情報データのM個の要素値I1,I2,…,Ii,…,IMが、それぞれ入力される。セル421,422,…,42i,…,42Mの各々は、入力された要素値Iをセル441,442,…,44j,…,44Nのそれぞれに出力する。 M element values I 1 , I 2 , . . . , I i , . be done. Each of the cells 42 1 , 42 2 , . . . , 42 i , .
セル42とセル44とを繋ぐ枝(軸索)の各々には、要素値Iに対して所定の重み付けをするための重み付け係数ωが設定されている。例えば、セル421,422,…,42i,…,42Mとセル44jとを繋ぐ枝には、例えば図5に示すように、重み付け係数ω1j,ω2j,…,ωij,…,ωMjが設定されている。これによりセル44jは、以下の式(1)に示す演算を行い、出力値Ojを出力する。
なお、本明細書では、1つのセル44と、そのセル44に要素値I1~IMを入力する枝(入力ノード)と、そのセル44から出力値Oを出力する枝(出力ノード)とを総称して学習セル46と表記することがある。
In this specification, one
判定部50は、状況情報データから抽出した複数の要素値と学習セルの出力値との間の相関値を所定の閾値と比較し、当該相関値が閾値以上であるか閾値未満であるかを判定する。相関値の一例は、学習セルの出力値に対する尤度である。なお、判定部50の機能は、学習セル46の各々が備えていてもよい。
The determining
学習部60は、判定部50の判定結果に応じてニューラルネットワーク部40の学習を行う機能ブロックである。重み修正部62は、上記相関値が所定の閾値以上である場合に、学習セル46の入力ノードに設定された重み付け係数ωを更新する。また、学習セル生成部64は、上記相関値が所定の閾値未満である場合に、ニューラルネットワーク部40に新たな学習セル46を追加する。
The
用法学習部120は、例えば図6に示すように、選択行動取得部130と、評価取得部140と、行動評価部150と、行動決定部160と、記憶部170と、により構成されうる。
The
選択行動取得部130は、行動選択部70が選択した行動に関する情報を状況学習部110から取得する機能を備える。評価取得部140は、行動選択部70が選択した行動に関する情報に対するユーザ(アドバイザ)の評価を取得する機能を備える。この評価は、状況情報データが示す状況において行動選択部70が選択した行動を実行する又は実行しないとの判断を理由とともに示すものである。
The selected
行動評価部150は、スロット生成部と、ユーザ学習モデル生成部と、ユーザ学習モデル抽出部と、を含んで構成されうる。スロット生成部は、ユーザの評価における理由に基づき、状況情報データの注目箇所を示すスロットを生成する機能を備える。ユーザ学習モデル生成部は、行動選択部70が選択した行動に、状況情報データ、スロット及び評価における判断が紐付けられているユーザ学習モデルを生成し、記憶部170に保存する機能を備える。ユーザ学習モデル抽出部は、記憶部170から、行動選択部70が選択した行動に紐付けられたユーザ学習モデルのうち、現在の状況情報データに対する適合性が最も高い状況情報データを有するユーザ学習モデルを抽出する機能を備える。
The
行動決定部160は、現在の状況情報データとユーザ学習モデル抽出部が抽出したユーザ学習モデルのスロットとの関係に基づいて、行動選択部70が選択した行動を環境200に対して実行するか否かを判断する機能を備える。
The
すなわち、用法学習部120は、行動選択部70が選択した行動に対するユーザの評価(アドバイス)を学習し、学習の結果に基づいて環境200に対して実行する行動を決定する。
That is, the
次に、本実施形態による行動学習装置100を用いた行動学習方法について、図7乃至図15を用いて説明する。なお、ここでは理解を容易にするために、カードゲームの「大富豪」におけるプレイヤーの行動を例に挙げて適宜説明を補足するものとする。ただし、本実施形態による行動学習装置100は、環境200の状況に応じて行動を選択する様々な用途に広く適用することができる。
Next, a behavior learning method using the
まず、本実施形態による行動学習装置100の状況学習部110における学習方法について、図7乃至図9を用いて説明する。図7は、本実施形態による行動学習装置の状況学習部における学習方法を示すフローチャートである。図8は、状況情報データの一例を示す図である。図9は、状況情報データ及びその要素値の一例を示す図である。
First, the learning method in the
行動候補取得部10は、環境200から受け取った情報及び自己の状況に基づいて、その状況下で取り得る行動(行動候補)を抽出する(ステップS101)。行動候補を抽出する方法は、特に限定されるものではないが、例えば、ルールに基づいたプログラムを用いて抽出を行うことができる。
The action
「大富豪」の場合、環境200から受け取る情報としては、例えば、場に出ている札の種類(例えば、1枚の札か複数枚の札か)や強さ、他のプレイヤーがパスをしているかどうか、などの情報が挙げられる。自己の状況としては、例えば、手札の情報、これまでに出した札の情報、何巡目か、などが挙げられる。行動候補取得部10は、「大富豪」のルールに則って、これら環境200及び自己の状況下において取り得る総ての行動(行動候補)を抽出する。例えば、場に出ている札と同じ種類でより強い札を複数、手札の中に所有している場合には、これら複数の札のうちのいずれかを出す行動の各々が行動候補となる。また、自分の順番をパスすることも、行動候補の一つである。
In the case of the “millionaire”, the information received from the
次いで、行動候補取得部10が抽出した行動候補の各々が、スコア取得部30のニューラルネットワーク部40に含まれる少なくとも1つの学習セル46に紐付けられているかどうかを確認する。学習セル46に紐付けられていない行動候補が存在する場合には、ニューラルネットワーク部40に、当該行動候補に紐付けられた学習セル46を新たに追加する。なお、取り得る行動の総てが既知である場合には、想定される総ての行動の各々に紐付けられた学習セル46を、予めニューラルネットワーク部40に設定しておいてもよい。
Next, it is checked whether each action candidate extracted by the action
学習セル46の各々には、前述の通り、所定のスコアが設定されている。学習セル46を追加する場合には、その学習セル46にスコアの初期値として任意の値を設定する。例えば-100~+100の数値範囲でスコアを設定する場合、スコアの初期値として例えば0を設定することができる。
A predetermined score is set for each of the
次いで、状況情報生成部20は、環境200から受け取った情報及び自己の状況をもとに、行動に関わる情報を写像した状況情報データを生成する(ステップS102)。状況情報データは、特に限定されるものではないが、例えば、環境や自己の状況に基づく情報をビットマップ状のイメージデータとして表すことにより生成することができる。状況情報データの生成は、ステップS101よりも前に或いはステップS101と並行して行ってもよい。
Next, based on the information received from the
図8は、環境200や自己の状況を示す情報のうち、場の札、回数、手札、過去情報をビットマップイメージとして表した状況情報データの一例を示す図である。図中、「場の札」、「手札」、「過去情報」として示すイメージの横軸に表した「数」は、札の強さを表している。すなわち、「数」が小さいほど弱い札であることを示し、「数」が大きいほど強い札であることを示している。図中、「場の札」、「手札」、「過去情報」として示すイメージの縦軸に表した「ペア」は、札の組枚数を表している。例えば、1種類の数字で構成される役においては、1枚、2枚(ペア)、3枚(スリーカード)、4枚(フォーカード)の順に、「ペア」の値は多くなる。図中、「回数」は、現在のターンが1ゲームの開始から終了までのどの段階にあるかを横軸方向に2次元的に表したものである。なお、図示するプロットにおいて各点の境界をぼかしているのは汎化性能を向上する意図であるが、各点の境界は必ずしもぼかす必要はない。
FIG. 8 is a diagram showing an example of situation information data in which the cards on the table, the number of times, the cards in hand, and the past information among the information indicating the
状況情報の写像について、処理時間の短縮、学習セルの量の削減、行動選択の精度を良くするなどの目的で、情報の一部を切り出しながら段階的に処理を行う階層化、情報の変換、情報の組み合わせなどの処理を行ってもよい。 Regarding the mapping of situation information, for the purpose of shortening the processing time, reducing the amount of learning cells, and improving the accuracy of action selection, layering is performed step by step while extracting a part of the information, information conversion, Processing such as combination of information may be performed.
図9は、図8に示した状況情報データの「手札」の部分を抜き出したものである。この状況情報データに対しては、例えば右側の拡大図に示すように、1つの画素を1つの要素値に対応づけることができる。そして、白の画素に対応する要素値を0、黒の画素に対応する要素値を1と定義することができる。例えば、図9の例では、p番目の画素に対応する要素値Ipは1となり、q番目の画素に対応する要素値Iqは0となる。1つの状況情報データに対応する要素値が、要素値I1~IMである。 FIG. 9 shows the "hand" portion extracted from the situation information data shown in FIG. For this situation information data, one pixel can be associated with one element value, as shown in the enlarged view on the right side, for example. An element value corresponding to a white pixel can be defined as 0, and an element value corresponding to a black pixel can be defined as 1. For example, in the example of FIG. 9, the element value Ip corresponding to the p -th pixel is 1, and the element value Iq corresponding to the q -th pixel is 0. Element values corresponding to one piece of situation information data are element values I 1 to I M .
次いで、状況情報生成部20で生成した状況情報データの要素値I1~IMを、ニューラルネットワーク部40に入力する(ステップS103)。ニューラルネットワーク部40に入力された要素値I1~IMは、セル421~42Mを介して、行動候補取得部10により抽出された行動候補に紐付けられた学習セル46の各々に入力される。要素値I1~IMが入力された学習セル46の各々は、式(1)に基づいて出力値Oを出力する。こうして、要素値I1~IMに対する学習セル46からの出力値Oを取得する(ステップS104)。
Next, the element values I 1 to I M of the situation information data generated by the situation
学習セル46が、各入力ノードに重み付け係数ωが設定されていない状態、すなわち一度も学習を行っていない初期状態である場合には、入力された要素値I1~IMの値を、当該学習セル46の入力ノードの重み付け係数ωの初期値として設定する。例えば、図9の例では、学習セル46jのp番目の画素に対応する入力ノードの重み付け係数ωpjは1となり、学習セル46jのq番目の画素に対応する入力ノードの重み付け係数ωqjは0となる。この場合の出力値Oは、初期値として設定した重み付け係数ωを用いて算出される。
When the learning
次いで、判定部50において、要素値I1~IMと学習セル46からの出力値Oとの間の相関値(ここでは、学習セルの出力値に関する尤度Pとする)を取得する(ステップS105)。尤度Pの算出方法は、特に限定されるものではない。例えば、学習セル46jの尤度Pjは、以下の式(2)に基づいて算出することができる。
式(2)は、尤度Pjが、学習セル46jの複数の入力ノードの重み付け係数ωijの累積値に対する学習セル46jの出力値Ojの比率で表されることを示している。或いは、尤度Pjが、複数の入力ノードの重み付け係数ωijに基づく学習セル46jの出力の最大値に対する、複数の要素値を入力したときの学習セル46jの出力値の比率で表されることを示している。
Equation (2) indicates that the likelihood P j is expressed by the ratio of the output value O j of the learning
次いで、判定部50において、取得した尤度Pの値と所定の閾値とを比較し、尤度Pの値が閾値以上であるか否かを判定する(ステップS106)。
Next, the
行動候補の各々において、当該行動候補に紐付けられた学習セル46のうち、尤度Pの値が閾値以上である学習セル46が1つ以上存在した場合(ステップS106の「Yes」)には、ステップS107へと移行する。ステップS107では、当該行動候補に紐付けられた学習セル46のうち尤度Pの値が最も大きい学習セル46の入力ノードの重み付け係数ωを更新する。学習セル46jの入力ノードの重み付け係数ωijは、例えば以下の式(3)に基づいて修正することができる。
ωij=(i番目の画素における黒の出現回数)/(学習回数) …(3)
In each action candidate, if there is one or
ω ij =(number of appearances of black in i-th pixel)/(number of times of learning) (3)
式(3)は、学習セル46の複数の入力ノードの各々の重み付け係数ωが、対応する入力ノードから入力された要素値Iの累積平均値により決定されることを示している。このようにして、尤度Pの値が所定の閾値以上である状況情報データの情報を各入力ノードの重み付け係数ωに累積していくことにより、黒(1)の出現回数の多い画素に対応する入力ノードほど、重み付け係数ωの値が大きくなる。このような学習セル46の学習アルゴリズムは、人の脳の学習原理として知られるヘブ則に近似したものである。
Equation (3) indicates that the weighting factor ω of each of the multiple input nodes of the learning
一方、行動候補の各々において、当該行動候補に紐付けられた学習セル46の中に尤度Pの値が閾値以上である学習セル46が1つも存在しない場合(ステップS106の「No」)には、ステップS108へと移行する。ステップS108では、当該行動候補に紐付けられた新たな学習セル46を生成する。新たに生成した学習セル46の各入力ノードには、学習セル46が初期状態であった場合と同様、要素値I1~IMの値を重み付け係数ωの初期値として設定する。また、追加する学習セル46には、スコアの初期値として任意の値を設定する。このようにして、同じ行動候補に紐付けられた学習セル46を追加することにより、同じ行動候補に属する様々な態様の状況情報データを学習することが可能となり、より適切な行動を選択することが可能となる。
On the other hand, in each action candidate, if there is not even one learning
なお、学習セル46の追加は、尤度Pの値が閾値以上である学習セル46がいずれかの行動候補において1つも存在しない場合に、常に行う必要はない。例えば、尤度Pの値が閾値以上である学習セル46が総ての行動候補において1つも存在しない場合にのみ、学習セル46を追加するようにしてもよい。この場合、追加する学習セル46は、複数の行動候補の中からランダムに選択したいずれかの行動候補に紐付けることができる。
It should be noted that the addition of the learning
尤度Pの判定に用いる閾値は、その値が大きいほど、状況情報データに対する適合性は高くなるが、学習セル46の数も多くなり学習に時間を要する。逆に、閾値は、その値が小さいほど、状況情報データに対する適合性は低くなるが、学習セル46の数は少なくなり学習に要する時間は短くなる。閾値の設定値は、状況情報データの種類や形態等に応じて、所望の適合率や学習時間が得られるように、適宜設定することが望ましい。
As the threshold value used to determine the likelihood P increases, the adaptability to the situation information data increases, but the number of learning
次いで、行動候補の各々において、当該行動候補に紐付けられた学習セル46の中から、状況情報データに対する相関(尤度P)が最も高い学習セル46を抽出する(ステップS109)。
Next, for each action candidate, the learning
次いで、ステップS109において抽出した学習セル46の中から、最もスコアの高い学習セル46を抽出する(ステップS110)。
Next, the learning
次いで、行動選択部70において、最もスコアの高い学習セル46に紐付けられた行動候補を選択し、環境200に対して実行する(ステップS111)。これにより、行動した結果の評価が最も高いと見込まれる行動を、環境200に対して実行することができる。
Next, the
次いで、スコア調整部80により、行動選択部70により選択された行動を環境200に対して実行した結果の評価に基づき、最もスコアの高い学習セル46として抽出された学習セル46のスコアを調整する(ステップS112)。例えば、行動した結果の評価が高い場合はスコアを上げ、行動した結果の評価が低い場合ステップS112はスコアを下げる。このようにして学習セル46のスコアを調整することで、環境200に対して実行した結果の評価が高いと見込まれる学習セル46ほどスコアが高くなるように、ニューラルネットワーク部40は学習を進めることができる。
Next, the
「大富豪」の場合、1ゲーム中における1回の行動によってその結果を評価することは困難であるため、1ゲームが終了したときの順位に基づいて学習セル46のスコアを調整することができる。例えば、1位で上がった場合には、そのゲーム中の各ターンにおいて最もスコアの高い学習セル46として抽出された学習セル46のスコアをそれぞれ10増やす。2位で上がった場合には、そのゲーム中の各ターンにおいて最もスコアの高い学習セル46として抽出された学習セル46のスコアをそれぞれ5増やす。3位で上がった場合には、スコアの調整は行わない。4位で上がった場合には、そのゲーム中の各ターンにおいて最もスコアの高い学習セル46として抽出された学習セル46のスコアをそれぞれ5減らす。5位で上がった場合には、そのゲーム中の各ターンにおいて最もスコアの高い学習セル46として抽出された学習セル46のスコアをそれぞれ10減らす。
In the case of "millionaire", it is difficult to evaluate the result based on one action in one game, so the score of the learning
このように構成することで、状況情報データに基づいてニューラルネットワーク部40を学習することができる。また、学習の進んだニューラルネットワーク部40に状況情報データを入力することで、複数の行動候補の中から環境200に対して実行した結果の評価が高いと見込まれる行動を選択することができる。
With this configuration, the
状況学習部110におけるニューラルネットワーク部40の学習方法は、深層学習などにおいて用いられている誤差逆伝播法(バック・プロパゲーション)を適用するものではなく、1パスでの学習が可能である。このため、ニューラルネットワーク部40の学習処理を簡略化することができる。また、各々の学習セル46は独立しているため、データの追加、削除、更新が容易である。また、どのような情報であってもマップ化して処理することが可能であり、汎用性が高い。また、状況学習部110は、いわゆるダイナミック学習を行うことが可能であり、状況情報データを用いた追加の学習処理を容易に行うことができる。
The learning method of the
次に、本実施形態による行動学習装置100の用法学習部120における学習方法について、図10乃至図13を用いて説明する。図10は、本実施形態による行動学習装置の用法学習部における学習方法を示すフローチャートである。図11は、状況情報生成部が状況情報から生成した状況情報データの一例を示す図である。図12は、状況情報及び行動選択部により選択された行動に関する情報の表示例とユーザエピソードの例を示す図である。図13は、状況情報データの注目箇所を示すスロットの生成方法の一例を示す図である。
Next, a learning method in the
用法学習部120の学習には、上述の手順により学習を行った後の状況学習部110が用いられる。
For the learning of the
まず、選択行動取得部130は、状況情報に基づいて行動選択部70が選択した行動に関する情報を、状況学習部110から取得する(ステップS201)。状況学習部110から取得する情報には、状況情報生成部20が生成した状況情報データと、行動選択部70により選択された行動と、が含まれる。
First, the selected
図11は、状況情報生成部20によって状況情報から生成された状況情報データの一例を示す図である。図11には、「大富豪」の例における状況情報のうち、「場の札」、「手札」、「ターン数」、「前回出し札」をビットマップイメージとして表した状況情報データの一例を示している。図中、「場の札」、「手札」及び「前回出し札」において、縦軸はスートを表し、横軸は札の強さを表している。また、「ターン数」は、現在のターンが1ゲームの開始から終了までのどの段階にあるかを横軸方向に2次元的に表したものである。
FIG. 11 is a diagram showing an example of situation information data generated from situation information by the situation
なお、図11では各種情報を単純なビットマップイメージで表しているが、図8と同様、各点の境界をぼかし、汎化性能を向上するように構成してもよい。また、ここでは状況情報データを視覚的にイメージしやすいようにビットマップイメージで表しているが、状況情報データの形態はビットマップイメージに限定されるものではない。例えば、状況情報データは、要素値の値を並べた数字列として表すこともできる。 Although FIG. 11 shows various kinds of information as simple bitmap images, as in FIG. 8, the boundaries between points may be blurred to improve the generalization performance. Also, here, the situation information data is represented by a bitmap image so that it can be easily visualized, but the form of the situation information data is not limited to the bitmap image. For example, the status information data can also be expressed as a numeric string in which element values are arranged.
ここでは一例として、選択行動取得部130が、図11に示す状況情報データと、行動選択部70により選択された行動として「スペードのQとハートのQのペアを出す」という行動に関する情報と、を状況学習部110から受信した場合を想定する。
Here, as an example, the selected
次いで、用法学習部120は、現在の環境や自己の状況に基づく情報(状況情報)と行動選択部70が選択した行動とを、表示装置などを介してユーザ(アドバイザ)に提示する。評価取得部140は、現在の状況に対して行動選択部70が選択した行動に関するユーザの評価を、入力装置などを介して取得する(ステップS202)。
Next, the
例えば、用法学習部120は、図12に示すように、表示装置142に、状況情報及び行動選択部70により選択された行動に関する情報144を表示する。ユーザは、これらの情報を検討し、行動選択部70により選択された行動の評価を戦略的に解説するユーザエピソード146を入力する。
For example, as shown in FIG. 12, the
ここで、ユーザエピソードとは、行動選択部70が選択した行動に対して、それを行うか行わないかの判断を、理由とともに説明するものである。例えば、「大富豪」の例の場合、「対象」、「理由」、「出す/出さない」の三語分で構成されるユーザエピソードを設定することができる。ここで、「対象」としては、手札、場の札、ターン数(例えば、序盤、中盤、終盤)、前回出し札などが挙げられる。「理由」としては、強い、弱い、などが挙げられる。例えば、「『場の札』が『弱い』ので、状況学習が選択した手を『出す』」、「『手札』が『弱い』ので、状況学習が選択した手は『出さない』」などのユーザエピソードが想定され得る。なお、ここでは理解を容易にするために三語分で構成される簡単なユーザエピソードを想定しているが、状況情報の次元等に応じてより複雑なユーザエピソードを設定するようにしてもよい。
Here, the user episode describes the judgment as to whether or not to perform the action selected by the
次いで、行動評価部150のスロット生成部は、ユーザが入力したユーザエピソードから、状況情報データに対応するビットマップイメージの注目箇所を示すスロットを生成する(ステップS203)。例えば、「大富豪」の例の場合、「対象」を示すビットマップイメージ(図13(a))と「理由」を示すビットマップイメージ(図13(b))とを2次元行列と見なし、これら行列の対応する要素値同士を掛け合わせる(要素毎の積を取る)。これにより、ユーザエピソードの注目箇所を示すスロット(図13(c))を生成することができる。言わば、行動評価部150は、ユーザが入力したユーザエピソードを文法解釈し、その意味を表すマップを生成するのである。
Next, the slot generation unit of the
なお、ユーザエピソードの「対象」及び「理由」に応じて要素値“1”を与えるビットマップイメージ上の位置は、常識データとして事前に保存しておけばよい。 Note that the positions on the bitmap image that give the element value "1" according to the "target" and "reason" of the user episode may be stored in advance as common sense data.
次いで、行動評価部150のユーザ学習モデル生成部は、行動選択部70が選択した行動に、状況情報データ、スロット及びユーザエピソードにおける「行う/行わない」の評価を紐付けてなるユーザ学習モデルを生成する。そして、生成したユーザ学習モデルを記憶部170に保存する(ステップS204)。
Next, the user learning model generation unit of the
用法学習部120に対し、ステップS201からステップS204までの処理を繰り返し行うことで、記憶部170には、状況学習部110が選択した行動に対するユーザの評価を示すユーザ学習モデルが蓄積されていく。つまり、状況情報とユーザのコメント(言葉)とを結びつけ、状況情報に応じたユーザの戦略を学習することができる。用法学習部120が行う動作は、言わば、状況情報とそれに応じたユーザのコメントを収集してノウハウを生成することである。
By repeatedly performing the processing from step S201 to step S204 on the
次に、本実施形態による行動学習装置100を用いた行動決定方法について、図14及び図15を用いて説明する。図14は、本実施形態による行動学習装置における行動決定方法を示すフローチャートである。図15は、状況情報に対するユーザ学習モデルの適合性を評価する方法の一例を示す図である。
Next, a behavior determination method using the
まず、選択行動取得部130は、状況情報に基づいて行動選択部70が選択した行動に関する情報を、状況学習部110から取得する(ステップS301)。状況学習部110から取得する情報には、状況情報生成部20が生成した状況情報データと、行動選択部70により選択された行動と、が含まれる。
First, the selected
次いで、行動評価部150のユーザ学習モデル抽出部は、記憶部170に保存されているユーザ学習モデルの中から、行動選択部70が選択した行動に紐付けられているユーザ学習モデルを検索する(ステップS302)。
Next, the user learning model extraction unit of the
検索の結果、記憶部170に保存されているユーザ学習モデルの中に行動選択部70が選択した行動に紐付けられているユーザ学習モデルが少なくとも1つ存在する場合(ステップS303における「Yes」)には、ステップS304ヘと移行する。一方、記憶部170に保存されているユーザ学習モデルの中に、行動選択部70が選択した行動に紐付けられているユーザ学習モデルが1つも存在しない場合(ステップS303における「No」)には、ステップS307ヘと移行する。
When at least one user learning model linked to the action selected by the
次いで、行動評価部150のユーザ学習モデル抽出部は、行動選択部70が選択した行動に紐付けられているユーザ学習モデルの中から、現在の状況情報データに対して状況情報データの適合性が最も高いユーザ学習モデルを抽出する(ステップS304)。
Next, the user learning model extraction unit of the
例えば、現在の状況情報データと選択した行動に紐付けられたユーザ学習モデルの状況情報データとを2次元ベクトルと見なし、これらベクトルの内積値を算出する。そして、現在の状況情報データと選択した行動に紐付けられたユーザ学習モデルの状況情報データとの組み合わせのうち、内積値が最も大きい組み合わせにおける状況情報データを含むユーザ学習モデルを、適合性が最も高いユーザ学習モデルとして抽出する。 For example, the current situation information data and the situation information data of the user learning model linked to the selected action are regarded as two-dimensional vectors, and the inner product value of these vectors is calculated. Then, among the combinations of the current situation information data and the situation information data of the user learning model linked to the selected action, the user learning model including the situation information data in the combination with the largest inner product value is selected as the most suitable. Extract as a high user learning model.
或いは、状況学習部110のスコア取得部30と同様のアルゴリズムを用い、尤度やスコアを基準として適合性が最も高いユーザ学習モデルを抽出するようにしてもよい。
Alternatively, an algorithm similar to that of the
次いで、行動評価部150は、抽出したユーザ学習モデルのスロットが、現在の状況情報データに適合するかどうかの判定を行う(ステップS305)。具体的には、ステップS304で抽出したユーザ学習モデルのスロットと現在の状況情報データとの間に一致する情報があるかどうかをチェックする。例えば、ステップS304で抽出したユーザ学習モデルのスロットが図15(a)に示すビットマップイメージで表され、現在の状況情報データが図15(b)に示すビットマップイメージで表されたものとする。これらビットマップイメージを2次元行列と見なして要素値毎の積を取ると、図15(c)に示すビットマップイメージが得られる。この場合、スロットと状況情報データとに一致する情報が存在するため、抽出したスロットが現在の状況情報データに該当すると判定する。
Next, the
或いは、状況学習部110のスコア取得部30と同様のアルゴリズムを用い、尤度やスコアを基準として、抽出したスロットが現在の状況情報データに該当するか否かを判定するようにしてもよい。
Alternatively, an algorithm similar to that of the
判定の結果、抽出したスロットが現在の状況情報データに該当する場合(ステップS305における「Yes」)には、ステップS306ヘと移行する。一方、ステップ305における判定の結果、抽出したユーザ学習モデルのスロットが現在の状況情報データに該当しない場合(ステップS305における「No」)には、ステップS307ヘと移行する。 As a result of the determination, if the extracted slot corresponds to the current situation information data ("Yes" in step S305), the process proceeds to step S306. On the other hand, if the extracted slot of the user learning model does not correspond to the current situation information data as a result of determination in step 305 ("No" in step S305), the process proceeds to step S307.
ステップS306において、行動評価部150は、抽出したユーザ学習モデルのユーザエピソードにおける判断が、行動選択部70の選択した行動を「行う」とするものであるか否かを判定する。
In step S<b>306 , the
ユーザエピソードの判断が、行動選択部70が選択した行動を「行う」とするものである場合(ステップS306における「Yes」)には、ステップS307ヘと移行する。一方、ユーザエピソードの判断が、行動選択部70の選択した行動を「行わない」とするものである場合(ステップS306における「No」)、行動候補取得部10において候補に挙がった行動の中から次に尤度の高い行動を選択する。そして、上述したステップS301~ステップS307の処理を繰り返す。
If the determination of the user episode is that the action selected by the
ステップS307において、行動決定部160は、行動選択部70が選択した行動を実行する。行動選択部70が選択した行動が実行されるのは、その行動がユーザ学習モデルに合致している場合、その行動に紐付けられているユーザ学習モデルが1つも存在しない場合、抽出したユーザ学習モデルのスロットが状況情報データに該当しない場合である。行動決定部160は、ユーザ学習モデルの中に、状況情報に応じて行動選択部70が選択した行動に反するものがある場合には、行動選択部70が選択した行動を実行しないように構成されている。
In step S<b>307 , the
このように、本実施形態による行動学習装置においては、状況情報に応じた行動の学習及び選択を、より簡単なアルゴリズムで実現することができる。また、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の選択を実現することができる。 As described above, in the behavior learning device according to the present embodiment, it is possible to realize learning and selection of behavior according to situation information with a simpler algorithm. In addition, users' comments on actions selected according to situation information can be accumulated and used as know-how, and more appropriate actions can be selected.
次に、本実施形態による行動学習装置100のハードウェア構成例について、図16を用いて説明する。図16は、本実施形態による行動学習装置のハードウェア構成例を示す概略図である。
Next, a hardware configuration example of the
行動学習装置100は、例えば図16に示すように、一般的な情報処理装置と同様のハードウェア構成によって実現することが可能である。例えば、行動学習装置100は、CPU(Central Processing Unit)300、主記憶部302、通信部304、入出力インターフェース部306を備え得る。
The
CPU300は、行動学習装置100の全体的な制御や演算処理を司る制御・演算装置である。主記憶部302は、データの作業領域やデータの一時退避領域に用いられる記憶部であり、RAM(Random Access Memory)等のメモリにより構成され得る。通信部304は、ネットワークを介してデータの送受信を行うためのインターフェースである。入出力インターフェース部306は、外部の出力装置310、入力装置312、記憶装置314等と接続してデータの送受信を行うためのインターフェースである。CPU300、主記憶部302、通信部304及び入出力インターフェース部306は、システムバス308によって相互に接続されている。記憶装置314は、例えばROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等によって構成され得る。
The
主記憶部302は、複数の学習セル46を含むニューラルネットワーク部40を構築し演算を実行するための作業領域として用いることができる。CPU300は、主記憶部302に構築したニューラルネットワーク部40における演算処理を制御する制御部として機能する。記憶装置314には、学習済みの学習セル46に関する情報を含む学習セル情報を保存することができる。また、記憶装置314に記憶された学習セル情報を読み出し、主記憶部302においてニューラルネットワーク部40を構築するように構成することで、様々な状況情報データに対する学習環境を構築することができる。また、記憶部170は、記憶装置314によって構成され得る。CPU300は、主記憶部302に構築したニューラルネットワーク部40の複数の学習セル46における演算処理を並列して実行するように構成されていることが望ましい。
The
通信部304は、イーサネット(登録商標)、Wi-Fi(登録商標)等の規格に基づく通信インターフェースであり、他の装置との通信を行うためのモジュールである。学習セル情報は、通信部304を介して他の装置から受信するようにしてもよい。例えば、頻繁に使用する学習セル情報は記憶装置314に記憶しておき、使用頻度の低い学習セル情報は他の装置から読み込むように構成することができる。
The
出力装置310は、例えば液晶表示装置等のディスプレイを含む。出力装置310は、用法学習部120の学習時にユーザに対して状況情報や行動選択部により選択された行動に関する情報を提示するための表示装置として利用可能である。また、ユーザへの学習結果や行動決定の通知は、出力装置310を介して行うことができる。入力装置312は、キーボード、マウス、タッチパネル等であって、ユーザが行動学習装置100に所定の情報、例えば用法学習部120の学習時におけるユーザエピソードを入力するために用いられる。
The
状況情報データは、通信部304を介して他の装置から読み込むように構成することもできる。或いは、入力装置312を、状況情報データを入力するための手段として用いることもできる。
The status information data can also be configured to be read from another device via the
本実施形態による行動学習装置100の各部の機能は、プログラムを組み込んだLSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、ハードウェア的に実現することができる。或いは、その機能を提供するプログラムを、記憶装置314に格納し、そのプログラムを主記憶部302にロードしてCPU300で実行することにより、ソフトウェア的に実現することも可能である。
The functions of each part of the
このように、本実施形態によれば、状況情報に応じた行動の学習及び選択をより簡単なアルゴリズムで実現することができる。また、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の選択を実現することができる。 As described above, according to the present embodiment, learning and selection of actions according to situation information can be realized with a simpler algorithm. In addition, users' comments on actions selected according to situation information can be accumulated and used as know-how, and more appropriate actions can be selected.
[第2実施形態]
本発明の第2実施形態による行動学習装置及び行動学習方法について、図17を用いて説明する。第1実施形態による行動学習装置と同様の構成要素には同一の符号を付し、説明を省略し或いは簡潔にする。
[Second embodiment]
A behavior learning device and behavior learning method according to the second embodiment of the present invention will be described with reference to FIG. Components similar to those of the behavior learning device according to the first embodiment are denoted by the same reference numerals, and description thereof is omitted or simplified.
本実施形態による行動学習装置の基本的な構成は、図1に示す第1実施形態による行動学習装置と同様である。本実施形態による行動学習装置が第1実施形態による行動学習装置と異なる点は、スコア取得部30がデータベースにより構成されていることである。以下、第1実施形態による行動学習装置と異なる点を中心に、本実施形態による行動学習装置を、図1を参照して説明する。
The basic configuration of the action learning device according to this embodiment is the same as that of the action learning device according to the first embodiment shown in FIG. The behavior learning device according to the present embodiment differs from the behavior learning device according to the first embodiment in that the
状況情報生成部20は、環境200から受け取った情報及び自己の状況をもとに、データベースを検索するためのキーとなる状況情報データを生成する機能を備える。状況情報データは、第1実施形態の場合のように写像する必要はなく、環境200から受け取った情報や自己の状況をそのまま適用可能である。例えば、「大富豪」の例では、前述の、場の札、回数、手札、過去情報等を、検索を実行するためのキーとして利用することができる。
The situation
スコア取得部30は、状況情報データをキーとして、特定の行動に対するスコアを与えるデータベースを備える。スコア取得部30のデータベースは、状況情報データのあらゆる組み合わせについて、想定される総ての行動に対するスコアを保持している。状況情報生成部20で生成した状況情報データをキーとしてスコア取得部30のデータベースを検索することにより、行動候補取得部10が抽出した行動候補の各々に対するスコアを取得することができる。
The
スコア調整部80は、行動選択部70で選択した行動が環境200に与えた結果に応じて、スコア取得部30のデータベースに登録されているスコアの値を調整する機能を備える。このように構成することで、行動した結果に基づいてスコア取得部30のデータベースを学習することができる。
The
次に、本実施形態による行動学習装置を用いた行動学習方法について、図17を用いて説明する。 Next, an action learning method using the action learning device according to this embodiment will be described with reference to FIG.
まず、行動候補取得部10は、環境200から受け取った情報及び自己の状況に基づいて、その状況下で取り得る行動(行動候補)を抽出する(ステップS401)。行動候補を抽出する方法は、特に限定されるものではないが、例えば、ルールベースに登録されたルールに基づいて行うことができる。
First, the action
次いで、状況情報生成部20は、環境200から受け取った情報及び自己の状況をもとに、行動に関わる情報を表す状況情報データを生成する(ステップS402)。状況情報データの生成は、ステップS401よりも前に或いはステップS401と並行して行ってもよい。
Next, the situation
次いで、状況情報生成部20で生成した状況情報データを、スコア取得部30に入力する(ステップS403)。スコア取得部30は、入力された状況情報データをキーとしてデータベースを検索し、行動候補取得部10が抽出した行動候補の各々に対するスコアを取得する(ステップS404)。
Next, the situation information data generated by the situation
次いで、行動選択部70において、行動候補取得部10が抽出した行動候補の中から、スコア取得部30が取得したスコアの最も高い行動候補を抽出し(ステップS405)、環境200に対して実行する(ステップS406)。これにより、行動した結果の評価が最も高いと見込まれる行動を、環境200に対して実行することができる。
Next, in the
次いで、スコア調整部80により、行動選択部70により選択された行動を環境200に対して実行した結果の評価に基づき、スコア取得部30のデータベースに登録されているスコアの値を調整する(ステップS407)。例えば、行動した結果の評価が高い場合はスコアを上げ、行動した結果の評価が低い場合はスコアを下げる。このようにしてデータベースのスコアを調整することで、行動した結果に基づいてスコア取得部30のデータベースを学習することができる。
Next, the
このように、本実施形態によれば、スコア取得部30をデータベースで構成する場合においても、第1実施形態の場合と同様、環境及び自己の状況に応じた行動の学習及び選択をより簡単なアルゴリズムで実現することができる。また、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の選択を実現することができる。
As described above, according to the present embodiment, even when the
[第3実施形態]
本発明の第3実施形態による行動学習装置について、図18を用いて説明する。第1又は第2実施形態による行動学習装置と同様の構成要素には同一の符号を付し、説明を省略し或いは簡潔にする。図18は、本実施形態による行動学習装置の構成例を示す概略図である。
[Third embodiment]
A behavior learning device according to a third embodiment of the present invention will be described with reference to FIG. Components similar to those of the behavior learning device according to the first or second embodiment are denoted by the same reference numerals, and description thereof is omitted or simplified. FIG. 18 is a schematic diagram showing a configuration example of the action learning device according to this embodiment.
本実施形態による行動学習装置100は、図18に示すように、行動選択部70と、評価取得部140と、スロット生成部152と、ユーザ学習モデル生成部154と、を有している。
The
行動選択部70は、環境及び自己の状況を表す状況情報データに基づいて、環境に対して実行する行動候補を選択する機能を備える。評価取得部140は、行動選択部により選択された行動候補に対するユーザの評価であって、状況情報データが示す状況において行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得する機能を備える。スロット生成部152は、評価における理由に基づき、状況情報データの注目箇所を示すスロットを生成する機能を備える。ユーザ学習モデル生成部154は、行動候補に、状況情報データ、スロット及び評価における判断が紐付けられているユーザ学習モデルを生成する機能を備える。
The
このように、本実施形態によれば、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の学習を実現することができる。 As described above, according to the present embodiment, it is possible to accumulate user's comments on actions selected according to situation information and use them as know-how, thereby realizing learning of more appropriate actions.
[第4実施形態]
本発明の第4実施形態による行動決定装置について、図19を用いて説明する。第1又は第2実施形態による行動学習装置と同様の構成要素には同一の符号を付し、説明を省略し或いは簡潔にする。図19は、本実施形態による行動決定装置の構成例を示す概略図である。
[Fourth embodiment]
A behavior determination device according to a fourth embodiment of the present invention will be described with reference to FIG. Components similar to those of the behavior learning device according to the first or second embodiment are denoted by the same reference numerals, and description thereof is omitted or simplified. FIG. 19 is a schematic diagram showing a configuration example of the behavior determination device according to this embodiment.
本実施形態による行動決定装置500は、図19に示すように、行動選択部70と、ユーザ学習モデル抽出部156と、行動決定部160と、記憶部170と、を有している。
A
行動選択部70は、現在の環境及び自己の状況を表す現在の状況情報データに基づいて、環境に対して実行する行動候補を選択する機能を備える。記憶部170は、複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、状況情報データの注目箇所を示すスロットと、状況情報データ及びスロットが示す状況において行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルを保持する。ユーザ学習モデル抽出部156は、記憶部170から、行動選択部により選択された行動候補に紐付けられたユーザ学習モデルのうち、現在の状況情報データに対する適合性が最も高い状況情報データを有するユーザ学習モデルを抽出する機能を備える。行動決定部160は、現在の状況情報データとユーザ学習モデル抽出部156が抽出したユーザ学習モデルのスロットとの関係に基づいて、行動選択部により選択された行動候補を実行するか否かを判断する機能を備える。
The
このように、本実施形態によれば、状況情報に応じて選択した行動に対するユーザのコメントを蓄積してノウハウとして利用することができ、より適切な行動の選択を実現することができる。 As described above, according to the present embodiment, it is possible to accumulate user's comments on actions selected according to situation information and use them as know-how, thereby realizing selection of more appropriate actions.
[変形実施形態]
本発明は、上記実施形態に限らず種々の変形が可能である。
例えば、いずれかの実施形態の一部の構成を他の実施形態に追加した例や、他の実施形態の一部の構成と置換した例も、本発明の実施形態である。
[Modified embodiment]
The present invention is not limited to the above embodiment, and various modifications are possible.
For example, an example in which a part of the configuration of one of the embodiments is added to another embodiment, or an example in which a part of the configuration of another embodiment is replaced is also an embodiment of the present invention.
また、上記実施形態では、本発明の適用例としてカードゲームの「大富豪」におけるプレイヤーの行動を例に挙げて説明したが、本発明は環境及び自己の状況に基づいて行動する場合における行動の学習及び選択に広く適用することができる。 Further, in the above-described embodiment, as an application example of the present invention, the action of the player in the card game "Millionaire" has been described as an example. It can be widely applied to learning and selection.
また、上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。 Further, there are various processing methods in which a program for operating the configuration of the embodiment is recorded on a recording medium so as to realize the functions of the above embodiment, the program recorded on the recording medium is read as code, and executed by a computer. It is included in the scope of the embodiment. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above program is recorded, the program itself is also included in each embodiment.
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。 For example, a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, nonvolatile memory card, and ROM can be used as the recording medium. Further, not only the program recorded on the recording medium alone executes the process, but also the one that operates on the OS and executes the process in cooperation with other software and functions of the expansion board. included in the category of
上記実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならない。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 All of the above-described embodiments merely show specific examples for carrying out the present invention, and the technical scope of the present invention should not be construed to be limited by these. That is, the present invention can be embodied in various forms without departing from its technical concept or main features.
上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 Some or all of the above embodiments may also be described in the following additional remarks, but are not limited to the following.
(付記1)
環境及び自己の状況を表す状況情報データに基づいて、前記環境に対して実行する行動候補を選択する行動選択部と、
前記行動選択部により選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得する評価取得部と、
前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するスロット生成部と、
前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するユーザ学習モデル生成部と
を有することを特徴とする行動学習装置。
(Appendix 1)
an action selection unit that selects an action candidate to be executed with respect to the environment based on situation information data representing the environment and one's own situation;
An evaluation acquisition unit that acquires a user's evaluation of the action candidate selected by the action selection unit, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason. and,
a slot generation unit that generates a slot indicating a point of interest in the situation information data based on the reason in the evaluation;
and a user learning model generation unit that generates a user learning model in which the situation information data, the slot, and the judgment in the evaluation are linked to the action candidate.
(付記2)
前記状況情報データに基づいて、前記環境に対して取り得る複数の行動候補を抽出する行動候補取得部と、
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するスコア取得部と、を更に有し、
前記行動選択部は、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を前記行動候補として選択する
ことを特徴とする付記1記載の行動学習装置。
(Appendix 2)
an action candidate acquisition unit that extracts a plurality of action candidates that can be taken with respect to the environment based on the situation information data;
a score acquisition unit that acquires a score, which is an index representing an expected effect of the action result, for each of the plurality of action candidates;
The action learning device according to
(付記3)
選択した前記行動候補を前記環境に対して実行した結果に基づいて、選択した前記行動候補に紐付けられている前記スコアの値を調整するスコア調整部を更に有する
ことを特徴とする付記2記載の行動学習装置。
(Appendix 3)
Supplementary Note 2, further comprising: a score adjustment unit that adjusts the score value associated with the selected action candidate based on a result of executing the selected action candidate on the environment. behavioral learning device.
(付記4)
前記スコア取得部は、前記状況情報データに基づく複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有するニューラルネットワーク部を有し、
前記複数の学習セルの各々は、所定のスコアを有し、前記複数の行動候補のうちのいずれかに紐付けられており、
前記スコア取得部は、前記複数の行動候補の各々に紐付けられた前記学習セルのうち、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルの前記スコアを、対応する前記行動候補のスコアに設定し、
前記行動選択部は、前記複数の行動候補のうち、前記スコアが最も大きい前記行動候補を選択して前記環境に対して実行し、
前記スコア調整部は、選択した前記行動候補を実行した結果に基づいて、選択した前記行動候補に紐付けられている前記学習セルの前記スコアを調整する
ことを特徴とする付記3記載の行動学習装置。
(Appendix 4)
The score acquisition unit has a plurality of input nodes that weight each of the plurality of element values based on the situation information data with a predetermined weight, and an output node that adds and outputs the plurality of weighted element values. has a neural network unit having a plurality of learning cells including
Each of the plurality of learning cells has a predetermined score and is associated with one of the plurality of action candidates,
The score acquisition unit selects the learning cell having the largest correlation value between the plurality of element values and the output value of the learning cell among the learning cells linked to each of the plurality of action candidates. setting a score to the score of the corresponding action candidate;
The action selection unit selects the action candidate with the highest score from among the plurality of action candidates and executes the action candidate on the environment;
Action learning according to Supplementary note 3, wherein the score adjustment unit adjusts the score of the learning cell linked to the selected action candidate based on a result of executing the selected action candidate. Device.
(付記5)
前記スコア取得部は、前記ニューラルネットワーク部の学習を行う学習部を更に有し、
前記学習部は、前記学習セルの出力値に応じて、前記学習セルの前記複数の入力ノードの重み付け係数を更新し、又は、前記ニューラルネットワーク部に新たな学習セルを追加する
ことを特徴とする付記4記載の行動学習装置。
(Appendix 5)
The score acquisition unit further has a learning unit that performs learning of the neural network unit,
The learning unit updates the weighting coefficients of the plurality of input nodes of the learning cell or adds a new learning cell to the neural network unit according to the output value of the learning cell. The action learning device according to appendix 4.
(付記6)
前記学習部は、前記複数の要素値と前記学習セルの出力値との間の相関値が所定の閾値未満の場合に、前記新たな学習セルを追加する
ことを特徴とする付記5記載の行動学習装置。
(Appendix 6)
The action according to Supplementary Note 5, wherein the learning unit adds the new learning cell when a correlation value between the plurality of element values and the output value of the learning cell is less than a predetermined threshold. learning device.
(付記7)
前記学習部は、前記複数の要素値の値と前記学習セルの出力値との間の相関値が所定の閾値以上の場合に、前記学習セルの前記複数の入力ノードの前記重み付け係数を更新する
ことを特徴とする付記5記載の行動学習装置。
(Appendix 7)
The learning unit updates the weighting coefficients of the plurality of input nodes of the learning cell when a correlation value between the plurality of element values and the output value of the learning cell is equal to or greater than a predetermined threshold. The action learning device according to Supplementary Note 5, characterized by:
(付記8)
前記相関値は、前記学習セルの前記出力値に関する尤度である
ことを特徴とする付記4乃至7のいずれか1項に記載の行動学習装置。
(Appendix 8)
8. The behavior learning device according to any one of appendices 4 to 7, wherein the correlation value is a likelihood of the output value of the learning cell.
(付記9)
前記尤度は、前記複数の入力ノードの各々に設定されている重み付け係数に応じた前記学習セルの出力の最大値に対する前記複数の要素値を入力したときの前記学習セルの前記出力値の比率である
ことを特徴とする付記8記載の行動学習装置。
(Appendix 9)
The likelihood is the ratio of the output value of the learning cell when the plurality of element values are input to the maximum value of the output of the learning cell according to the weighting factors set for each of the plurality of input nodes. The action learning device according to appendix 8, characterized by:
(付記10)
前記環境及び前記自己の状況に基づき、行動に関わる情報を写像した前記状況情報データを生成する状況情報生成部を更に有する
ことを特徴とする付記4乃至9のいずれか1項に記載の行動学習装置。
(Appendix 10)
10. The action learning according to any one of Appendices 4 to 9, further comprising a situation information generating unit that generates the situation information data that maps information related to actions based on the environment and the self's situation. Device.
(付記11)
前記スコア取得部は、前記状況情報データをキーとして前記複数の行動候補の各々に対する前記スコアを与えるデータベースを有する
ことを特徴とする付記2又は3記載の行動学習装置。
(Appendix 11)
The action learning device according to appendix 2 or 3, wherein the score acquisition unit has a database that provides the score for each of the plurality of action candidates using the situation information data as a key.
(付記12)
複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルを保持する記憶部と、
現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択する行動選択部と、
前記記憶部から、前記行動選択部により選択された前記行動候補に紐付けられた前記ユーザ学習モデルのうち、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するユーザ学習モデル抽出部と、
前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記行動選択部により選択された前記行動候補を実行するか否かを判断する行動決定部と
を有することを特徴とする行動決定装置。
(Appendix 12)
For each of a plurality of action candidates, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing the action candidate in the situation indicated by the situation information data and the slot A storage unit that holds a user learning model that is associated with a judgment of whether to do or not to execute,
an action selection unit that selects a candidate action to be executed with respect to the environment based on current situation information data representing the current environment and one's own situation;
The user learning model having, from the storage unit, the situation information data having the highest compatibility with the current situation information data among the user learning models linked to the action candidate selected by the action selection unit. a user learning model extraction unit that extracts
an action determination unit that determines whether or not to execute the action candidate selected by the action selection unit based on the relationship between the current situation information data and the extracted slot of the user learning model; A behavior decision device characterized by:
(付記13)
前記状況情報データに基づいて、前記環境に対して取り得る複数の行動候補を抽出する行動候補取得部と、
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するスコア取得部と、を更に有し、
前記行動選択部は、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を前記行動候補として選択する
ことを特徴とする付記12記載の行動決定装置。
(Appendix 13)
an action candidate acquisition unit that extracts a plurality of action candidates that can be taken with respect to the environment based on the situation information data;
a score acquisition unit that acquires a score, which is an index representing an expected effect of the action result, for each of the plurality of action candidates;
13. The action determination device according to
(付記14)
前記行動決定部は、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合し、且つ、前記ユーザ学習モデルに前記行動候補を実行するとの判断が紐付けられている場合には、前記行動選択部により選択された前記行動候補を実行することを決定する
ことを特徴とする付記12又は13記載の行動決定装置。
(Appendix 14)
If the slot of the extracted user learning model matches the current situation information data and the user learning model is associated with a determination to execute the candidate action, , and the action candidate selected by the action selection unit is determined to be executed.
(付記15)
前記行動決定部は、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合しない場合には、前記行動選択部により選択された前記行動候補を実行することを決定する
ことを特徴とする付記12又は13記載の行動決定装置。
(Appendix 15)
The action determination unit determines to execute the action candidate selected by the action selection unit when the extracted slot of the user learning model does not match the current situation information data. 14. The behavior determination device according to
(付記16)
前記行動選択部は、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合し、且つ、前記ユーザ学習モデルに前記行動候補を実行しないとの判断が紐付けられている場合には、前記スコアが次に大きい行動候補を前記行動候補として選択する
ことを特徴とする付記13記載の行動決定装置。
(Appendix 16)
If the slot of the extracted user learning model matches the current situation information data and the user learning model is associated with a determination not to execute the candidate action, the action selection unit selects the action candidate with the next highest score as the action candidate.
(付記17)
前記スコア取得部は、前記状況情報データに基づく複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有するニューラルネットワーク部を有し、
前記複数の学習セルの各々は、所定のスコアを有し、前記複数の行動候補のうちのいずれかに紐付けられており、
前記スコア取得部は、前記複数の行動候補の各々に紐付けられた前記学習セルのうち、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルの前記スコアを、対応する前記行動候補のスコアに設定し、
前記行動選択部は、前記複数の行動候補のうち、前記スコアが最も大きい前記行動候補を選択する
ことを特徴とする付記13記載の行動決定装置。
(Appendix 17)
The score acquisition unit has a plurality of input nodes that weight each of the plurality of element values based on the situation information data with a predetermined weight, and an output node that adds and outputs the plurality of weighted element values. has a neural network unit having a plurality of learning cells including
Each of the plurality of learning cells has a predetermined score and is associated with one of the plurality of action candidates,
The score acquisition unit selects the learning cell having the largest correlation value between the plurality of element values and the output value of the learning cell among the learning cells linked to each of the plurality of action candidates. setting a score to the score of the corresponding action candidate;
14. The action determination device according to Supplementary note 13, wherein the action selection unit selects the action candidate with the highest score from among the plurality of action candidates.
(付記18)
前記相関値は、前記学習セルの前記出力値に関する尤度である
ことを特徴とする付記17記載の行動決定装置。
(Appendix 18)
18. The action determination device according to appendix 17, wherein the correlation value is a likelihood of the output value of the learning cell.
(付記19)
前記尤度は、前記複数の入力ノードの各々に設定されている重み付け係数に応じた前記学習セルの出力の最大値に対する前記複数の要素値を入力したときの前記学習セルの前記出力値の比率である
ことを特徴とする付記18記載の行動決定装置。
(Appendix 19)
The likelihood is the ratio of the output value of the learning cell when the plurality of element values are input to the maximum value of the output of the learning cell according to the weighting factors set for each of the plurality of input nodes. 19. The behavior determination device according to appendix 18, characterized by:
(付記20)
前記スコア取得部は、前記状況情報データをキーとして前記複数の行動候補の各々に対する前記スコアを与えるデータベースを有する
ことを特徴とする付記13記載の行動決定装置。
(Appendix 20)
14. The action determination device according to Supplementary Note 13, wherein the score acquisition unit has a database that provides the score for each of the plurality of action candidates using the situation information data as a key.
(付記21)
環境及び自己の状況を表す状況情報データに基づいて、前記環境に対して実行する行動候補を選択するステップと、
前記選択するステップにおいて選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得するステップと、
前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するステップと、
前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するステップと
を有することを特徴とする行動学習方法。
(Appendix 21)
a step of selecting a candidate action to be executed with respect to the environment based on situation information data representing the environment and one's own situation;
a step of acquiring a user's evaluation of the action candidate selected in the selecting step, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason;
generating a slot indicating a point of interest in the context information data based on the reason in the evaluation;
and generating a user learning model in which the situation information data, the slot, and the judgment in the evaluation are linked to the action candidate.
(付記22)
環境及び自己の状況を表す状況情報データに基づいて、取り得る複数の行動候補を抽出するステップと、
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するステップと、を更に有し、
前記選択するステップでは、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を選択する
ことを特徴とする付記21記載の行動学習方法。
(Appendix 22)
a step of extracting a plurality of action candidates that can be taken based on situation information data representing the environment and one's own situation;
obtaining a score, which is an index representing an expected effect on the result of the action, for each of the plurality of action candidates;
22. The action learning method according to Supplementary note 21, wherein in the selecting step, the action candidate with the highest score is selected from among the plurality of action candidates.
(付記23)
選択した前記行動候補を前記環境に対して実行した結果に基づいて、選択した前記行動候補に紐付けられている前記スコアの値を調整するステップを更に有する
ことを特徴とする付記22記載の行動学習方法。
(Appendix 23)
23. The action according to Supplementary Note 22, further comprising: adjusting the score value associated with the selected action candidate based on a result of executing the selected action candidate on the environment. learning method.
(付記24)
前記取得するステップでは、前記状況情報データに基づく複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有し、前記複数の学習セルの各々が、所定のスコアを有し、前記複数の行動候補のうちのいずれかに紐付けられているニューラルネットワーク部において、前記複数の行動候補の各々に紐付けられた前記学習セルのうち、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルの前記スコアを、対応する前記行動候補のスコアに設定し、
前記選択するステップでは、前記複数の行動候補のうち、前記スコアが最も大きい前記行動候補を選択し、
前記調整するステップでは、選択した前記行動候補を実行した結果に基づいて、選択した前記行動候補に紐付けられている前記学習セルの前記スコアを調整する
ことを特徴とする付記23記載の行動学習方法。
(Appendix 24)
In the obtaining step, a plurality of input nodes that weight each of the plurality of element values based on the situation information data with a predetermined weight, and an output node that adds and outputs the plurality of weighted element values, respectively. wherein each of the plurality of learning cells has a predetermined score and is linked to one of the plurality of action candidates, wherein the plurality of The score of the learning cell having the largest correlation value between the plurality of element values and the output value of the learning cell, among the learning cells linked to each of the action candidates, is the score of the corresponding action candidate. set to score,
In the selecting step, the action candidate with the highest score is selected from among the plurality of action candidates;
Action learning according to Supplementary note 23, wherein the adjusting step adjusts the score of the learning cell linked to the selected action candidate based on a result of executing the selected action candidate. Method.
(付記25)
現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択するステップと、
複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルの中から、前記選択するステップにおいて選択された前記行動候補に紐付けられた前記ユーザ学習モデルであって、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するステップと、
前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記選択するステップにおいて選択された前記行動候補を実行するか否かを判断するステップと
を有することを特徴とする行動決定方法。
(Appendix 25)
a step of selecting an action candidate to be executed with respect to the environment based on the current situation information data representing the current environment and the self's situation;
For each of a plurality of action candidates, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing the action candidate in the situation indicated by the situation information data and the slot the user learning model linked to the action candidate selected in the selecting step from among the user learning models linked to the decision to perform or not to perform, wherein the current situation extracting the user learning model having the context information data that best matches the information data;
determining whether or not to execute the action candidate selected in the selecting step based on the relationship between the current situation information data and the extracted slot of the user learning model. Action decision method.
(付記26)
前記状況情報データに基づいて、前記環境に対して取り得る複数の行動候補を抽出するステップと、
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するステップと、を更に有し、
前記選択するステップでは、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を前記行動候補として選択する
ことを特徴とする付記25記載の行動決定方法。
(Appendix 26)
extracting a plurality of possible action candidates for the environment based on the situation information data;
obtaining a score, which is an index representing an expected effect on the result of the action, for each of the plurality of action candidates;
26. The behavior determination method according to Supplementary note 25, wherein in the selecting step, a behavior candidate with the highest score is selected from among the plurality of behavior candidates as the behavior candidate.
(付記27)
前記判断するステップでは、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合し、且つ、前記ユーザ学習モデルに前記行動候補を実行するとの判断が紐付けられている場合には、前記選択するステップにおいて選択された前記行動候補を実行することを決定する
ことを特徴とする付記25又は26記載の行動決定方法。
(Appendix 27)
In the determining step, if the slot of the extracted user learning model matches the current situation information data, and the user learning model is associated with a determination to execute the action candidate, 27. The action determination method according to appendix 25 or 26, further comprising: determining to execute the action candidate selected in the selecting step.
(付記28)
前記判断するステップでは、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合しない場合には、前記選択するステップにおいて選択された前記行動候補を実行することを決定する
ことを特徴とする付記25又は26記載の行動決定方法。
(Appendix 28)
In the determining step, if the extracted slot of the user learning model does not match the current situation information data, it is determined to execute the action candidate selected in the selecting step. The behavior determination method according to Supplementary Note 25 or 26.
(付記29)
前記判断するステップでは、抽出した前記ユーザ学習モデルの前記スロットが前記現在の状況情報データに適合し、且つ、前記ユーザ学習モデルに前記行動候補を実行しないとの判断が紐付けられている場合には、前記スコアが次に大きい行動候補を前記行動候補として選択する
ことを特徴とする付記26記載の行動決定方法。
(Appendix 29)
In the determining step, if the slot of the extracted user learning model matches the current situation information data and the user learning model is associated with a determination not to execute the candidate action. selects the action candidate with the next highest score as the action candidate.
(付記30)
コンピュータを、
環境及び自己の状況を表す状況情報データに基づいて、前記環境に対して実行する行動候補を選択する手段、
前記選択する手段により選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得する手段、
前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成する手段、
前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成する手段
として機能させるプログラム。
(Appendix 30)
the computer,
means for selecting action candidates to be executed in the environment based on situation information data representing the environment and one's own situation;
means for acquiring a user's evaluation of the action candidate selected by the selecting means, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason;
means for generating a slot indicating a point of interest of the situation information data based on the reason in the evaluation;
A program that functions as means for generating a user learning model in which the situation information data, the slot, and the judgment in the evaluation are linked to the action candidate.
(付記31)
コンピュータを、
現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択する手段、
複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルの中から、前記選択する手段により選択された前記行動候補に紐付けられた前記ユーザ学習モデルであって、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出する手段、
前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記選択するステップにおいて選択された前記行動候補を実行するか否かを判断する手段
として機能させるプログラム。
(Appendix 31)
the computer,
Means for selecting action candidates to be executed in the environment based on current situation information data representing the current environment and self's situation;
For each of a plurality of action candidates, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing the action candidate in the situation indicated by the situation information data and the slot the user learning model linked to the action candidate selected by the selecting means from among the user learning models linked to the determination of whether to perform or not to perform, wherein the current situation means for extracting the user learning model having the contextual information data that best matches the information data;
A program that functions as means for determining whether or not to execute the action candidate selected in the selecting step based on the relationship between the current situation information data and the extracted slot of the user learning model.
(付記32)
付記30又は31記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。
(Appendix 32)
A computer-readable recording medium recording the program according to
(付記33)
付記1乃至11のいずれか1項に記載の行動学習装置と、
前記行動学習装置が働きかける対象である環境と
を有することを特徴とする行動学習システム。
(Appendix 33)
The action learning device according to any one of
and an environment to be acted upon by the action learning device.
10…行動候補取得部
20…状況情報生成部
30…スコア取得部
40…ニューラルネットワーク部
42,44…セル
46…学習セル
50…判定部
60…学習部
62…重み修正部
64…学習セル生成部
70…行動選択部
80…スコア調整部
100…行動学習装置
110…状況学習部
120…用法学習部
130…選択行動取得部
140…評価取得部
150…行動評価部
152…スロット生成部
154…ユーザ学習モデル生成部
156…ユーザ学習モデル抽出部
160…行動決定部
170…記憶部
200…環境
300…CPU
302…主記憶部
304…通信部
306…入出力インターフェース部
308…システムバス
310…出力装置
312…入力装置
314…記憶装置
400…行動学習システム
DESCRIPTION OF
302...
Claims (12)
前記行動選択部により選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得する評価取得部と、
前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するスロット生成部と、
前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するユーザ学習モデル生成部と
を有することを特徴とする行動学習装置。 an action selection unit that selects an action candidate to be executed with respect to the environment based on situation information data representing the environment and one's own situation;
An evaluation acquisition unit that acquires a user's evaluation of the action candidate selected by the action selection unit, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason. and,
a slot generation unit that generates a slot indicating a point of interest in the situation information data based on the reason in the evaluation;
and a user learning model generation unit that generates a user learning model in which the situation information data, the slot, and the judgment in the evaluation are linked to the action candidate.
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するスコア取得部と、を更に有し、
前記行動選択部は、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を前記行動候補として選択する
ことを特徴とする請求項1記載の行動学習装置。 an action candidate acquisition unit that extracts a plurality of action candidates that can be taken with respect to the environment based on the situation information data;
a score acquisition unit that acquires a score, which is an index representing an expected effect of the action result, for each of the plurality of action candidates;
2. The action learning device according to claim 1, wherein the action selection unit selects, from among the plurality of action candidates, an action candidate with the highest score as the action candidate.
ことを特徴とする請求項2記載の行動学習装置。 2. The score adjustment unit further comprises a score adjustment unit that adjusts the score value associated with the selected action candidate based on a result of executing the selected action candidate on the environment. Behavioral learning device as described.
前記複数の学習セルの各々は、所定のスコアを有し、前記複数の行動候補のうちのいずれかに紐付けられており、
前記スコア取得部は、前記複数の行動候補の各々に紐付けられた前記学習セルのうち、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルの前記スコアを、対応する前記行動候補のスコアに設定し、
前記行動選択部は、前記複数の行動候補のうち、前記スコアが最も大きい前記行動候補を選択して前記環境に対して実行し、
前記スコア調整部は、選択した前記行動候補を実行した結果に基づいて、選択した前記行動候補に紐付けられている前記学習セルの前記スコアを調整する
ことを特徴とする請求項3記載の行動学習装置。 The score acquisition unit has a plurality of input nodes that weight each of the plurality of element values based on the situation information data with a predetermined weight, and an output node that adds and outputs the plurality of weighted element values. has a neural network unit having a plurality of learning cells including
Each of the plurality of learning cells has a predetermined score and is associated with one of the plurality of action candidates,
The score acquisition unit selects the learning cell having the largest correlation value between the plurality of element values and the output value of the learning cell among the learning cells linked to each of the plurality of action candidates. setting a score to the score of the corresponding action candidate;
The action selection unit selects the action candidate with the highest score from among the plurality of action candidates and executes the action candidate on the environment;
4. The action according to claim 3, wherein the score adjustment unit adjusts the score of the learning cell linked to the selected action candidate based on a result of executing the selected action candidate. learning device.
現在の環境及び自己の状況を表す現在の状況情報データに基づいて、前記環境に対して実行する行動候補を選択する行動選択部と、
前記記憶部から、前記行動選択部により選択された前記行動候補に紐付けられた前記ユーザ学習モデルのうち、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するユーザ学習モデル抽出部と、
前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記行動選択部により選択された前記行動候補を実行するか否かを判断する行動決定部と
を有することを特徴とする行動決定装置。 For each of a plurality of action candidates, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing the action candidate in the situation indicated by the situation information data and the slot A storage unit that holds a user learning model that is associated with a judgment of whether to do or not to execute,
an action selection unit that selects a candidate action to be executed with respect to the environment based on current situation information data representing the current environment and one's own situation;
The user learning model having, from the storage unit, the situation information data having the highest compatibility with the current situation information data among the user learning models linked to the action candidate selected by the action selection unit. a user learning model extraction unit that extracts
an action determination unit that determines whether or not to execute the action candidate selected by the action selection unit based on the relationship between the current situation information data and the extracted slot of the user learning model; A behavior decision device characterized by:
前記複数の行動候補の各々について、行動した結果に対して見込まれる効果を表す指標であるスコアを取得するスコア取得部と、を更に有し、
前記行動選択部は、前記複数の行動候補の中から、前記スコアが最も大きい行動候補を前記行動候補として選択する
ことを特徴とする請求項5記載の行動決定装置。 an action candidate acquisition unit that extracts a plurality of action candidates that can be taken with respect to the environment based on the situation information data;
a score acquisition unit that acquires a score, which is an index representing an expected effect of the action result, for each of the plurality of action candidates;
6. The action determination device according to claim 5, wherein the action selection unit selects, from among the plurality of action candidates, an action candidate with the highest score as the action candidate.
ことを特徴とする請求項5又は6記載の行動決定装置。 If the slot of the extracted user learning model matches the current situation information data and the user learning model is associated with a determination to execute the candidate action, 7. The action determination device according to claim 5, wherein the action candidate selected by the action selection unit is determined to be executed.
ことを特徴とする請求項5又は6記載の行動決定装置。 The action determination unit determines to execute the action candidate selected by the action selection unit when the extracted slot of the user learning model does not match the current situation information data. 7. The action determining device according to claim 5 or 6, wherein
ことを特徴とする請求項6記載の行動決定装置。 If the slot of the extracted user learning model matches the current situation information data and the user learning model is associated with a determination not to execute the candidate action, the action selection unit selects the action candidate with the next highest score as the action candidate.
前記複数の学習セルの各々は、所定のスコアを有し、前記複数の行動候補のうちのいずれかに紐付けられており、
前記スコア取得部は、前記複数の行動候補の各々に紐付けられた前記学習セルのうち、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルの前記スコアを、対応する前記行動候補のスコアに設定し、
前記行動選択部は、前記複数の行動候補のうち、前記スコアが最も大きい前記行動候補を選択する
ことを特徴とする請求項6記載の行動決定装置。 The score acquisition unit has a plurality of input nodes that weight each of the plurality of element values based on the situation information data with a predetermined weight, and an output node that adds and outputs the plurality of weighted element values. has a neural network unit having a plurality of learning cells including
Each of the plurality of learning cells has a predetermined score and is associated with one of the plurality of action candidates,
The score acquisition unit selects the learning cell having the largest correlation value between the plurality of element values and the output value of the learning cell among the learning cells linked to each of the plurality of action candidates. setting a score to the score of the corresponding action candidate;
7. The action determination device according to claim 6, wherein the action selection unit selects the action candidate with the highest score from among the plurality of action candidates.
前記選択するステップにおいて選択された前記行動候補に対するユーザの評価であって、前記状況情報データが示す状況において前記行動候補を実行する又は実行しないとの判断を理由とともに示す評価を取得するステップと、
前記評価における前記理由に基づき、前記状況情報データの注目箇所を示すスロットを生成するステップと、
前記行動候補に、前記状況情報データ、前記スロット及び前記評価における前記判断が紐付けられているユーザ学習モデルを生成するステップと
を有することを特徴とする行動学習方法。 a step of selecting a candidate action to be executed with respect to the environment based on situation information data representing the environment and one's own situation;
a step of acquiring a user's evaluation of the action candidate selected in the selecting step, the evaluation indicating a judgment to execute or not to execute the action candidate in the situation indicated by the situation information data, together with a reason;
generating a slot indicating a point of interest in the context information data based on the reason in the evaluation;
and generating a user learning model in which the situation information data, the slot, and the judgment in the evaluation are linked to the action candidate.
複数の行動候補の各々に対して、環境及び自己の状況を表す状況情報データと、前記状況情報データの注目箇所を示すスロットと、前記状況情報データ及び前記スロットが示す状況において前記行動候補を実行する又は実行しないとの判断と、が紐付けられているユーザ学習モデルの中から、前記選択するステップにおいて選択された前記行動候補に紐付けられた前記ユーザ学習モデルであって、前記現在の状況情報データに対する適合性が最も高い前記状況情報データを有する前記ユーザ学習モデルを抽出するステップと、
前記現在の状況情報データと抽出した前記ユーザ学習モデルの前記スロットとの関係に基づいて、前記選択するステップにおいて選択された前記行動候補を実行するか否かを判断するステップと
を有することを特徴とする行動決定方法。 a step of selecting an action candidate to be executed with respect to the environment based on the current situation information data representing the current environment and the self's situation;
For each of a plurality of action candidates, situation information data representing the environment and one's own situation, a slot indicating a point of interest in the situation information data, and executing the action candidate in the situation indicated by the situation information data and the slot the user learning model linked to the action candidate selected in the selecting step from among the user learning models linked to the decision to perform or not to perform, wherein the current situation extracting the user learning model having the context information data that best matches the information data;
determining whether or not to execute the action candidate selected in the selecting step based on the relationship between the current situation information data and the extracted slot of the user learning model. Action decision method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019144121A JP7338858B2 (en) | 2019-08-06 | 2019-08-06 | Behavior learning device, behavior learning method, behavior determination device, and behavior determination method |
PCT/JP2020/030111 WO2021025094A1 (en) | 2019-08-06 | 2020-08-06 | Action learning device, action learning method, action determination device, action determination method, action learning system, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019144121A JP7338858B2 (en) | 2019-08-06 | 2019-08-06 | Behavior learning device, behavior learning method, behavior determination device, and behavior determination method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021026518A JP2021026518A (en) | 2021-02-22 |
JP7338858B2 true JP7338858B2 (en) | 2023-09-05 |
Family
ID=74503031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019144121A Active JP7338858B2 (en) | 2019-08-06 | 2019-08-06 | Behavior learning device, behavior learning method, behavior determination device, and behavior determination method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7338858B2 (en) |
WO (1) | WO2021025094A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019022085A1 (en) | 2017-07-24 | 2019-01-31 | アクシオンリサーチ株式会社 | Assistance system for estimating internal state of system-of-interest |
CN109978012A (en) | 2019-03-05 | 2019-07-05 | 北京工业大学 | It is a kind of based on combine the improvement Bayes of feedback against intensified learning method |
-
2019
- 2019-08-06 JP JP2019144121A patent/JP7338858B2/en active Active
-
2020
- 2020-08-06 WO PCT/JP2020/030111 patent/WO2021025094A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019022085A1 (en) | 2017-07-24 | 2019-01-31 | アクシオンリサーチ株式会社 | Assistance system for estimating internal state of system-of-interest |
CN109978012A (en) | 2019-03-05 | 2019-07-05 | 北京工业大学 | It is a kind of based on combine the improvement Bayes of feedback against intensified learning method |
Non-Patent Citations (2)
Title |
---|
RUPENEITE, A,Building Poker Agent Using Reinforcement Learning with Neural Networks,Scitepress Digital Library[online],2014年,https://www.scitepress.org/papers/2014/51489/51489.pdf |
松井 一晃 ほか,ニューラルネットワークを用いた麻雀の打牌選択方法の提案,情報処理学会 研究報告 ゲーム情報学(GI) 2015-GI-34,日本,情報処理学会,2015年06月27日 |
Also Published As
Publication number | Publication date |
---|---|
JP2021026518A (en) | 2021-02-22 |
WO2021025094A1 (en) | 2021-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111954564B (en) | Method and system for interactive, descriptive and improved game and player performance prediction in team sports | |
CN109783817B (en) | Text semantic similarity calculation model based on deep reinforcement learning | |
CN109840322B (en) | Complete shape filling type reading understanding analysis model and method based on reinforcement learning | |
CN112329948B (en) | Multi-agent strategy prediction method and device | |
JP7084617B2 (en) | Question answering device and computer program | |
JP6908302B2 (en) | Learning device, identification device and program | |
CN109847366B (en) | Data processing method and device for game | |
JP7191443B2 (en) | Target object attribute prediction method based on machine learning, related equipment and computer program | |
CN110889450B (en) | Super-parameter tuning and model construction method and device | |
JP6970949B2 (en) | Behavior learning device | |
CN114492451B (en) | Text matching method, device, electronic equipment and computer readable storage medium | |
CN106777284A (en) | A kind of figure migration method for expressing based on label information | |
CN111160049B (en) | Text translation method, apparatus, machine translation system, and storage medium | |
CN112000788A (en) | Data processing method and device and computer readable storage medium | |
JP7338858B2 (en) | Behavior learning device, behavior learning method, behavior determination device, and behavior determination method | |
JP2021163424A (en) | Ai system development simulator and hyper parameter optimization method | |
CN116704591A (en) | Eye axis prediction model training method, eye axis prediction method and device | |
CN110825903A (en) | Visual question-answering method for improving Hash fusion mechanism | |
CN112052386B (en) | Information recommendation method, device and storage medium | |
CN113946604A (en) | Staged go teaching method and device, electronic equipment and storage medium | |
CN114463559B (en) | Training method and device of image recognition model, network and image recognition method | |
KR102399833B1 (en) | synopsis production service providing apparatus using log line based on artificial neural network and method therefor | |
CN117786234B (en) | Multimode resource recommendation method based on two-stage comparison learning | |
CN118114756A (en) | Natural language processing method and system combining intelligent model and knowledge graph | |
CN115329191A (en) | Curiosity-based personalized recommendation method and system, computer equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230817 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7338858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |