CN112262399A

CN112262399A - 行动学习设备、行动学习方法、行动学习系统、程序以及记录介质

Info

Publication number: CN112262399A
Application number: CN201980038679.4A
Authority: CN
Inventors: 宫内由仁; 宇田安规男
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2018-06-11
Filing date: 2019-06-07
Publication date: 2021-01-22
Anticipated expiration: 2039-06-07
Also published as: US20210125039A1; JP6970949B2; CN112262399B; WO2019240047A1; JPWO2019240047A1

Abstract

行动学习设备包括：行动候选获取单元，其基于表示环境和自己的状况的状况信息数据，提取可能的多个行动候选；得分获取单元，其针对多个行动候选中的每个获取作为表示由行动引起的结果预期的效果的指标的得分；行动选择单元，其从多个行动候选中选择具有最大得分的行动候选；以及得分调整单元，其基于对于环境执行的所选行动候选的结果来调整被链接到选择的行动候选的得分的值。

Description

行动学习设备、行动学习方法、行动学习系统、程序以及记录介质

技术领域

本发明涉及行动学习设备、行动学习方法、行动学习系统、程序以及记录介质。

背景技术

近年来，使用多层神经网络的深度学习作为机器学习方案已受到关注。当大量训练数据被输入到多层神经网络并执行学习以使输出误差最小时，深度学习使用称为反向传播的计算方案来计算输出误差。

专利文献1至3各自公开了一种神经网络处理设备，该神经网络处理设备将大型神经网络定义为多个子网络的组合，以使得能够以较少的努力和较少的计算量来构建神经网络。此外，专利文献4公开了一种优化神经网络的结构优化设备。

现有技术列表

专利文献

专利文献1：日本专利申请特开No.2001-051968

专利文献2：日本专利申请特开No.2002-251601

专利文献3：日本专利申请特开No.2003-317073

专利文献4：日本专利申请特开No.H09-091263

发明内容

发明解决的技术问题

然而，在深度学习中，需要大量的高质量数据作为训练数据，并且需要很长时间进行学习。尽管在专利文献1至4中提出了用于减少在构建神经网络中的努力或计算量的方案，但是期望能够通过使用更简单的算法来学习行动的行动学习设备，以进一步减轻系统负荷等。

本发明旨在提供一种行动学习设备、行动学习方法、行动学习系统、程序和记录介质，其可以通过使用更简单的算法来根据环境和自己的状况来实现行动的学习和选择。

解决问题的方法

根据本发明的一个示例方面，提供了一种行动学习设备，其包括：行动候选获取单元，其基于表示环境和自己的状况的状况信息数据来提取可能的多个行动候选；得分获取单元，其针对多个行动候选中的每个获取得分，该得分是表示对于由行动引起的结果预期的效果的指标；行动选择单元，其从多个行动候选中选择具有最大得分的行动候选；以及，得分调整单元，其基于对于环境执行的选择的所述行动候选的结果来调整被链接到选择的所述行动候选的得分的值。

此外，根据本发明的另一个示例方面，提供了一种行动学习方法，该方法包括：基于表示环境和自己的状况的状况信息数据，提取可能的多个行动候选；针对多个行动候选中的每个获取得分，该得分是表示对于由行动引起的结果的预期的效果的指标；从多个行动候选中选择具有最大得分的行动候选；以及，基于对于环境执行的选择的所述行动候选的结果，调整被链接到选择的所述行动候选的得分的值。

此外，根据本发明的又一个示例方面，提供了一种非暂时性计算机可读记录介质，其存储程序，该程序使计算机用作：单元，被配置为基于表示环境和自己的状况的状况信息数据，提取可能的多个行动候选；单元，被配置为针对多个行动候选中的每个获取得分，该得分是表示对于由行动引起的结果预期的效果的指标；单元，被配置为从多个行动候选中选择具有最大得分的行动候选；以及，单元，被配置为基于对于环境执行是选择的所述行动候选的结果来调整被链接到选择的所述行动候选的得分的值。

发明的有益效果

根据本发明，可以通过更简单的算法来实现根据环境和自己的状况的行动的学习和选择。

附图说明

图1是示出根据本发明的第一示例实施例的行动学习设备的配置示例的示意图。

图2是示出根据本发明的第一示例实施例的行动学习设备中的得分获取单元的配置示例的示意图。

图3是示出根据本发明的第一示例实施例的行动学习设备中的神经网络单元的配置示例的示意图。

图4是示出根据本发明的第一示例实施例的行动学习设备中的学习神经元的配置示例的示意图。

图5是示出根据本发明的第一示例实施例的行动学习设备中的学习方法的流程图。

图6是示出由状况信息生成单元生成的状况信息数据的示例的图。

图7是示出由状况信息生成单元生成的状况信息数据及其元素值的示例的图。

图8是示出根据本发明的第一示例实施例的行动学习设备的硬件配置示例的示意图。

图9是示出根据本发明的第二示例实施例的行动学习设备中的学习方法的流程图。

图10是示出根据本发明的第三示例实施例的行动学习设备的配置示例的示意图。

图11是示出根据本发明的第三示例实施例的行动学习设备中的学习方法的流程图。

图12是示出根据本发明的第四示例实施例的行动学习设备的配置示例的示意图。

图13是示出根据本发明的第四示例性实施例的行动学习设备中的生成技术诀窍的方法的流程图。

图14是示出根据本发明的第四示例实施例的行动学习设备中的表示改变的示例的示意图。

图15是示出根据本发明的第四示例实施例的在行动学习设备中的汇总表示数据的方法的图。

图16是示出根据本发明的第四示例实施例的行动学习设备中的汇总数据的示例的图。

图17示出了指示相同事件的正得分的汇总数据和负得分的汇总数据的示例。

图18是示出根据本发明的第四示例实施例的在行动学习设备中的组织汇总数据的包含关系的方法的示意图。

图19是根据本发明的第四示例实施例的行动学习设备的作为技术诀窍提取的汇总数据的列表。

图20是示出根据本发明的第五示例实施例的行动学习设备的配置示例的示意图。

具体实施方式

[第一示例实施例]

将参照图1至图8描述根据本发明的第一示例实施例的行动学习设备和行动学习方法。

图1是示出根据本示例实施例的行动学习设备的配置示例的示意图。图2是示出根据本示例实施例的行动学习设备中的得分获取单元的配置示例的示意图。图3是示出根据本示例实施例的行动学习设备中的神经网络单元的配置示例的示意图。图4是示出根据本示例实施例的行动学习设备中的学习神经元(cell)的配置示例的示意图。图5是示出根据本示例实施例的行动学习设备中的行动学习方法的流程图。图6是示出状况信息数据的示例的图。图7是示出状况信息数据及其元素值的示例的图。图8是示出根据本示例实施例的行动学习设备的硬件配置示例的示意图。

首先，将参考图1至图4描述根据本示例实施例的行动学习设备的总体配置。

如图1所示，根据本示例实施例的行动学习设备100具有行动候选获取单元10、状况信息生成单元20、得分获取单元30、行动选择单元70和得分调整单元80。行动学习设备100基于从环境200接收到的信息来执行学习，并决定要对该环境执行的行动。即，行动学习设备100与环境200一起形成行动学习系统400。

行动候选获取单元10具有以下功能：基于从环境200接收到的信息和自己(代理)的状况，提取在该状况下可以采取的行动(行动候选)。注意，代理是指执行学习并选择行动的主体。环境是指代理所工作针对的对象。

状况信息生成单元20具有基于从环境200接收到的信息和自己的状况，生成表示与行动有关的信息的状况信息数据的功能。状况信息数据中包括的信息未被特别限制，只要它与行动有关即可，并且例如可以是环境信息、时间、次数、自己状态或过去的行动等。

得分获取单元30具有针对由行动候选获取单元10提取的每个行动候选，获取由状况信息生成单元20生成的状况信息数据的得分的功能。这里，得分是指用作指标的变量，该指标表示对于由行动引起的结果的预期的效果。例如，当预期由行动引起的结果的评估较高时，得分较高，而当预期由行动引起的结果的评估较低时，得分较低。

行动选择单元70具有以下功能：从行动候选获取单元10提取的行动候选中，选择得分获取单元30获取的其得分最高的行动候选，并对环境200执行所选择的行动。

得分调整单元80具有根据由行动选择单元70选择的行动提供给环境200的结果来调整链接到所选择的行动的得分的值的功能。例如，当由行动引起的结果的评估高时，得分增加，而当由行动引起的结果的评估低时，得分减小。

在根据本示例实施例的行动学习设备100中，得分获取单元30包括神经网络单元40、确定单元50和学习单元60，例如如图2所示。学习单元60包括加权校正单元62和学习神经元生成单元64。

神经网络单元40可以由包括输入层和输出层的两层人工神经网络形成，例如如图3所示。输入层具有神经元(cell)(neuron：神经元)42，其数量对应于从单个状况信息数据中提取的元素值的数量。例如，当单个状况信息数据包括M个元素值时，输入层包括至少M个神经元42₁、42₂、...，42_i、...和42_M。输出层具有神经元(neuron：神经元)44，其数量至少对应于可以采取的行动的数量。例如，输出层包括至少N个神经元44₁、44₂、...、44_j、...和44_N。形成输出层的每个神经元44链接到可以采取的任何行动。此外，为每个神经元44设置预定得分。

将状况信息数据的M个元素值I₁、I₂、...、I_i、...和I_M分别被输入到输入层的神经元42₁、42₂、...、42_i、...和42_M。神经元42₁、42₂、...、42_i、...和42_M中的每个分别将输入元素值I输出到神经元44₁、44₂、...、44_j、...和44_N。

对于将神经元42连接到神经元44的每个分支(轴突)设置用于对元素值I执行预定加权的加权因子ω。例如，为将神经元42₁、42₂、...、42_i、...和42_M连接到神经元44_j的分支设置加权因子ω_1j、ω_2j、...、ω_ij、...和ω_Mj，例如如图4所示。从而，神经元44_j执行由以下等式(1)表示的计算，并且输出输出值O_j。

[数学式1]

注意，在本说明书中，一个神经元44、向神经元44输入元素值I₁至I_M的分支(输入节点)和从神经元44输出输出值O的分支(输出节点)可以被共同地记为学习神经元46。

确定单元50将从状况信息数据中提取的多个元素值与学习神经元的输出值之间的相关值与预定阈值进行比较，并确定该相关值是大于或等于阈值还是小于阈值。相关值的示例是学习神经元的输出值的可能性。注意，确定单元50的功能可以被包括在每个学习神经元46中。

学习单元60是根据确定单元50中的确定结果训练神经网络单元40的功能块。如果上述相关值大于或等于预定阈值，则加权校正单元62更新被设置到学习神经元46的输入节点的加权因子ω。另外，如果上述相关值小于预定阈值，则学习神经元生成单元64将新的学习神经元46添加到神经网络单元40。

接下来，将参考图5至图7描述根据本示例实施例的使用行动学习设备100的行动学习方法。注意，为了更容易理解，在此将适当地使用在牌游戏“Daifugo(日语版的President)”(大富豪)中玩家的行动来补充说明。然而，根据本示例实施例的行动学习设备100可以被广泛地应用于根据环境200的状态选择行动的用途。

首先，行动候选获取单元10基于从环境200接收到的信息和自己的状况，提取在该状况下可以采取的行动(行动候选)(步骤S101)。提取行动候选的方法未被特别限制，例如，可以通过使用基于规则的程序来执行提取。

在“Daifugo”的情况下，从环境200接收的信息可以是例如关于现场的一张或多张牌的类型(例如，单张牌或多张牌)或强度的信息，或关于其他玩家是否已经过关的信息等等。自己的状况可以是例如关于手牌的信息、关于到目前为止已经打出的牌的信息、关于回合数量的信息等。行动候选获取单元10根据“Daifugo”的规则提取在上述环境200和自己的状况下可以采取的所有行动(行动候选)。例如，当手牌包括与现场的一张或多张牌相同类型且强度更大的多张牌时，打出这些多张牌中的任何一张牌的每个行动都是行动候选。此外，轮到他/她是行动候选之一。

接下来，检查由行动候选获取单元10提取的每个行动候选是否被链接到得分获取单元30的神经网络单元40中包括的至少一个学习神经元46。在有未链接到学习神经元46的行动候选时，链接到感兴趣的行动候选的学习神经元46被新添加到神经网络单元40。注意，在已知所有可能采取的行动时，可以在神经网络单元40中预先设置链接到所有预期行动中的每个的学习神经元46。

注意，如上所述，为每个学习神经元46设置预定得分。当添加学习神经元46时，为学习神经元46设置任意值作为得分的初始值。例如，当得分被设置在从-100到+100的数字范围内时，例如，可以将0设置为得分的初始值。

接下来，状况信息生成单元20基于从环境200接收到的信息和自己的状况，生成其中映射了与行动有关的信息的状况信息数据(步骤S102)。状况信息数据不受特别限制，并且例如可以通过将基于环境或自己的状况的信息表示为位图图像数据来生成。状况信息数据的生成可以在步骤S101之前或与步骤S101并行地进行。

图6是示出状况信息数据的示例的图，该状况信息数据在表示环境200和自己的状况的信息中将布局、回合数量、手牌和过去的信息表示为位图图像。在图6中，被指示为“布局”、“手牌”和“过去的信息”的每个图像的水平轴上表示的“数量”表示牌的强度。即，较小的“数量”表示较差的牌，较大的“数量”表示较强的牌。在图6中，在被指示为“布局”、“手牌”和“过去的信息”的每个图像的纵轴上表示的“对”表示牌的组数。例如，在由单一类型的数字构成的Daifugo手牌中，“对”的值按以下顺序增加：一张牌、两张牌(一对)、三张牌(同类三个)和四张牌(同类四个)。在图6中，“回合数量”表示当前回合在水平方向上以二维方式从一个游戏的开始到结束在游戏的哪个阶段。注意，虽然使所示图中的每个点的边界模糊是为了提高泛化性能，但是不一定需要使每个点的边界模糊。

对于状况信息的映射，为了减少处理时间、减少学习神经元的数量、行动选择精度的提高等的目的，可以执行诸如层次化和逐步执行处理、信息转换、信息组合等并且同时切出一部分信息的处理。

图7是提取图6所示的状况信息数据的“手牌”的一部分的图。对于这种状况信息数据，例如，一个像素可以与一个元素值相关联，例如，如右侧放大图所示。此外，可以将与白色像素相对应的元素值定义为0，并且可以将与黑色像素相对应的元素值定义为1。例如，在图7的示例中，与第p像素对应的元素值I_p为1，并且与第q个像素相对应的元素值I_q为0。与一个状况信息数据相关的元素值是元素值I₁至I_M。

接下来，将由状况信息生成单元20生成的状况信息数据的元素值I₁至I_M输入到神经网络单元40(步骤S103)。被输入到神经网络单元40的元素值I₁至I_M经由神经元42₁至42_M被输入到与由行动候选获取单元10提取的行动候选链接的每个学习神经元46。元素值I₁至I_M被输入到的每个学习神经元46基于等式(1)输出输出值O。因此，获取来自学习神经元46的针对元素值I₁至I_M的输出值O(步骤S104)。

当学习神经元46处于没有为每个输入节点设置加权因子ω的状态时，即学习神经元46尚未被训练的初始状态时，将输入元素值I₁至I_M设置为学习神经元46的输入节点处的加权因子ω的初始值。例如，在图7的示例中，在与学习神经元46_j的第p个像素对应的输入节点处的加权因子ω_pj为1，并且在与学习神经元46_j的第q个像素对应的输入节点处的加权因子ω_qj为0。通过使用被设置为初始值的加权因子ω来计算这种情况下的输出值O。

接下来，在确定单元50处，获取元素值I₁至I_M与来自学习神经元46的输出值O之间的相关值(在此被定义为与学习神经元的输出值相关的似然度P)(步骤S105)。计算似然度P的方法未被特别限制。例如，可以基于以下等式(2)来计算学习神经元46_j的似然度P_j。

[数学式2]

等式(2)指示似然度P_j由在学习神经元46_j的多个输入节点处的学习神经元46_j的输出值O_j与加权因子ω_ij的累加值之比表示。替选地，指示通过当输入多个元素值时的学习神经元46_j的输出值与基于在多个输入节点处的加权因子ω_ij的学习神经元46j的输出的最大值的比值表示似然度P_j。

接下来，在确定单元50处，将所获取的似然度P的值与预定阈值进行比较，以确定似然度P是否大于或等于阈值(步骤S106)。

在每个行动候选中，如果在与感兴趣的行动候选链接的学习神经元46中存在其似然度P的值大于或等于阈值的一个或多个学习神经元46(步骤S106，“是”)，则处理进入步骤S107。在步骤S107中，更新在链接到感兴趣行动候选的学习神经元46中具有似然度P的最大值的学习神经元46的输入节点处的加权因子ω。例如，可以基于以下等式(3)来校正在学习神经元46j的输入节点处的加权因子ωij。

ωij＝(第i个像素中出现黑色的次数)/(学习的次数)...(3)

等式(3)表明，学习神经元46的多个输入节点中的每个输入节点处的加权因子ω由从相应的输入节点输入的元素值I的累加平均值决定。以此方式，关于似然度P的值大于或等于预定阈值的状况信息数据的信息被累加到每个输入节点的加权因子ω上，由此，加权因子ω的值对于对应于具有更多黑色(1)出现次数的像素的输入节点较大。学习神经元46的这种学习算法是近似于被称为人脑的学习原理的赫布规则的算法。

另一方面，在每个行动候选中，如果在与感兴趣的行动候选链接的学习神经元46中不存在其似然度P的值大于或等于阈值的学习神经元46(步骤S106，“否”)，处理进入步骤S108。在步骤S108中，生成被链接到感兴趣的行动候选的新的学习神经元46。以与学习神经元46处于初始状态的情况相同的方式，将元素值I₁至I_M设置为对新生成的学习神经元46的每个输入节点的加权因子ω的初始值。此外，将任意值设置到添加的学习神经元46作为得分的初始值。以这种方式，通过添加链接到相同行动候选的学习神经元46，可以学习属于相同行动候选的各种形式的状况信息数据，并且可以选择更合适的行动。

注意，当在任何行动候选中不存在其似然度P的值大于或等于阈值的学习神经元46时，并不总是需要执行学习神经元46的添加。例如，仅当在所有行动候选中的任何一个中都不存在其似然度P的值大于或等于阈值的学习神经元46时，才可以添加学习神经元46。在这种情况下，添加的学习神经元46可以链接到从多个行动候选中随机选择的任何行动候选。

尽管对于阈值的更大的值，用于确定似然度P的阈值对状况信息数据具有更高的适应性，但是学习神经元46的数量将更大，并且将需要更多的时间来学习。相反，虽然阈值对于阈值的更小的值具有对状况信息数据的较低适应性，但是学习神经元46的数量将更少，并且学习所需的时间将更短。期望适当地设置阈值的设置值，以便根据状况信息数据的类型或形式等获得期望的适应率或学习时间。

接下来，在每个行动候选中，从链接到感兴趣的行动候选的学习神经元46中提取针对状况信息数据具有最高相关性(似然度P)的学习神经元46(步骤S109)。

接下来，从在步骤S109中提取的学习神经元46中提取具有最高得分的学习神经元46(步骤S110)。

接下来，在行动选择单元70处，选择链接到具有最高得分的学习神经元46的行动候选，并且对环境200执行行动(步骤S111)。因此，可以对环境200执行预期实现对行动引起的结果进行最高评估的行动。

接下来，在得分调整单元80，基于通过对环境200执行由行动选择单元70选择的行动而获得的结果的评估，来调整被提取为具有最高得分的学习神经元46的学习神经元46的得分(步骤S112)。例如，在步骤S112中，当由行动引起的结果的评估高时，得分增加，而当由行动引起的结果的评估低时，得分减小。通过对学习神经元46的得分进行这样的调整，神经网络单元40可以继续学习，以使得对于被预期实现对当对环境200执行时的结果的更高评估的学习神经元46而言得分更高。

在“Daifugo”的情况下，由于难以评估一场比赛中一次行动的结果，因此可以基于一场比赛结束时的排名来调整学习神经元46的得分。例如，在第一名的情况下，作为游戏中的每一轮中具有最高得分的学习神经元46而提取的学习神经元46的每个得分增加10。在第二名的情况下，作为在游戏中每一轮中具有最高得分的学习神经元46而提取的学习神经元46的每个得分增加5。在第三名的情况下，不进行得分调整。在第四名的情况下，作为游戏中的每一轮中具有最高得分的学习神经元46而提取的学习神经元46的每个得分减少5。在第五名的情况下，作为游戏中的每一轮中具有最高得分的学习神经元46而提取的学习神经元46的每个得分减少10。

利用这种配置，可以基于状况信息数据来训练神经网络单元40。此外，将状况信息数据输入到其中进行学习的神经网络单元40，从而可以从多个行动候选中选择预期实现对环境200执行时对结果的高度评估的行动。

根据本示例实施例的行动学习设备100中的神经网络单元40的学习方法不应用在深度学习等中使用的错误反向传播，而是使得能够以单个路径进行训练。因此，可以简化神经网络单元40的训练处理。此外，由于各个学习神经元46彼此独立，因此容易添加、删除或更新数据。此外，可以映射和处理任何类型的信息，这提供了很高的通用性。此外，根据本示例实施例的行动学习设备100能够执行所谓的动态学习，并且可以使用状况信息数据容易地执行附加训练处理。

接下来，将参照图8描述根据本示例实施例的行动学习设备100的硬件配置示例。图8是示出根据本示例实施例的行动学习设备的硬件配置示例的示意图。

例如，如图8所示，行动学习设备100可以通过与一般信息处理设备相同的硬件配置来实现。例如，行动学习设备100具有中央处理单元(CPU)300、主存储单元302、通信单元304和输入/输出接口单元306。

CPU 300是控制和计算设备，其管理行动学习设备100的整体控制和计算。主存储单元302是用于数据的工作区域或数据的临时保存区域的存储单元，并且由诸如随机存取存储器(RAM)的存储器设备形成。通信单元304是用于经由网络发送和接收数据的接口。输入/输出接口单元306是用于被连接到外部输出设备310、外部输入设备312或外部存储设备314等并发送和接收数据的接口。CPU 300、主存储单元302、通信单元304和输入/输出接口单元306通过系统总线308彼此连接。例如，存储设备314可以由只读存储器(ROM)、磁盘或由诸如半导体存储器之类的非易失性存储器形成的硬盘设备等形成。

主存储单元302可以用作用于构造包括多个学习神经元46并执行计算的神经网络单元40的工作区域。CPU用作控制单元，该控制单元控制在主存储单元302中构造的神经网络单元40中的计算。在存储设备314中，可以存储学习神经元信息，该学习神经元信息包括与被训练的学习神经元46有关的信息。此外，可以通过读取存储在存储设备314中的学习神经元信息并在主存储单元302中构建神经网络单元40，来构造用于各种状况信息数据的学习环境。期望配置CPU 300以在主存储单元302中构造的神经网络单元40的多个学习神经元46中并行执行计算。

通信单元304是基于诸如以太网(注册商标)、Wi-Fi(注册商标)等的规范的通信接口，并且是用于与另一设备进行通信的模块。可以经由通信单元304从另一设备接收学习神经元信息。例如，可以将频繁使用的学习神经元信息预先存储在存储设备314中，并且可以从另一个设备中读取更不经常使用的学习神经元信息。

输入设备312是键盘、鼠标、触摸面板等，并且被用户用来在行动学习设备100中输入预定信息。例如，输出设备310包括诸如液晶设备的显示器。可以经由输出设备310执行学习结果的通知。

可以经由通信单元304从另一设备读取状况信息数据。可替代地，输入设备312可以用作通过其输入状况信息数据的组件。

根据本示例实施例的行动学习设备100的每个单元的功能可以通过安装作为硬件组件(诸如其中嵌入了程序的大规模集成(LSI))的电路组件以类似硬件的方式来实现。可替代地，通过将提供功能的程序存储在存储设备314中，将该程序加载到主存储单元302中并且由CPU 300执行该程序，类似软件的实现也是可能的。

如上所述，根据本示例实施例，可以通过更简单的算法来实现根据环境和自己的状况的行动的学习和选择。

[第二示例实施例]

将参照图9描述根据本发明的第二示例实施例的行动学习设备和行动学习方法。与根据第一示例实施例的行动学习设备中的组件相同的组件被标记有相同的标记，并且将省略或简化其描述。

根据本示例实施例的行动学习设备的基本配置与图1所示的根据第一示例实施例的行动学习设备相同。根据本示例实施例的行动学习设备与根据第一示例实施例的行动学习设备不同在于，得分获取单元30由数据库形成。下面将主要针对与根据第一示例实施例的行动学习设备不同的特征，参照图1来描述根据本示例实施例的行动学习设备。

状况信息生成单元20具有基于从环境200和自己的状况接收到的信息来生成状况信息数据的功能，该状况信息数据是用于搜索数据库的关键字。与第一示例实施例的情况一样，不需要状况信息数据来执行映射，并且从环境200或自己的状况接收的信息可以被应用到其而没有改变。例如，在“Daifugo”的示例中，上述的现场中的牌、回合数量、手牌或过去的信息等可以用作用于执行搜索的关键字。

得分获取单元30具有通过使用状况信息数据作为关键字来提供针对特定行动的得分的数据库。得分获取单元30的数据库保存针对状况信息数据的任何组合的所有预期行动的得分。通过使用由状况信息生成单元20生成的状况信息数据作为关键字来搜索得分获取单元30的数据库，可以针对由行动候选获取单元10提取的每个行动候选获取得分。

得分调整单元80具有根据通过行动选择单元70选择的行动提供给环境200的结果来调整在得分获取单元30的数据库中注册的得分的值的功能。利用这样的配置，可以基于行动引起的结果来训练得分获取单元30的数据库。

接下来，将参照图9描述使用根据本示例实施例的行动学习设备的行动学习方法。

首先，行动基于从环境200和自己的状况接收到的信息，行动候选获取单元10提取在该状况下可以采取的行动(候选行动)(步骤S201)。提取行动候选的方法未被特别限制，例如，可以基于在规则库中登记的规则来执行提取。

接下来，状况信息生成单元20基于从环境200和自己的状况接收的信息，生成表示与行动有关的信息的状况信息数据(步骤S202)。状况信息数据的生成可以在步骤S201之前或与步骤S201并行地执行。

接下来，由状况信息生成单元20生成的状况信息数据被输入到得分获取单元30(步骤S203)。得分获取单元30使用输入的状况信息数据作为关键字来搜索数据库，并获取由行动候选获取单元10提取的每个行动候选的得分(步骤S204)。

接下来，在行动选择单元70处，从由行动候选获取单元10提取的行动候选中提取由得分获取单元30获取的具有最高得分的行动候选(步骤S205)，并且对环境200执行行动(步骤S206)。因此，可以对环境200执行预期实现对行动引起的结果的最高评估的行动。

接下来，在得分调整单元80处，基于通过对环境200执行由行动选择单元70选择的行动而获得的结果的评估，来调整在得分获取单元30的数据库中注册的得分的值(步骤S207)。例如，当由行动引起的结果的评估高时，得分增加，而当由行动引起的结果的评估低时，得分减小。通过以这种方式调整数据库中的得分，可以基于由行动引起的结果来训练得分获取单元30的数据库。

如上所述，根据本示例实施例，也当得分获取单元30由数据库形成时，可以与第一示例实施例的情况一样通过更简单的算法来实现根据环境和自己的状况的行动的学习和选择。

[第三示例实施例]

将参照图10和图11描述根据本发明的第三示例实施例的行动学习设备和行动学习方法。与根据第一和第二示例实施例的行动学习设备中的组件相同的组件用相同的附图标记来标记，并且将省略或简化其描述。图10是示出根据本示例实施例的行动学习设备的配置示例的示意图。图11是示出根据本示例实施例的行动学习设备中的行动学习方法的流程图。

如图10所示，根据本示例实施例的行动学习设备100与根据第一或第二示例实施例的行动学习设备相同，除了还具有行动建议单元90。

行动建议单元90具有以下功能：当从环境200和自己的状况接收的信息满足特定条件时，向行动选择单元70建议根据特定条件的特定行动。具体地，行动建议单元90具有存储要在特定条件下采取的行动的数据库。行动建议单元90使用从环境200和自己的状况接收的信息作为搜索数据库的关键字。如果从环境200和自己的状况接收的信息与数据库中注册的特定条件匹配，则行动建议单元90从数据库读取与该特定条件相关联的行动，并将该行动建议给行动选择单元70。行动选择单元70具有以下功能：当有来自行动建议单元90的行动的建议时，优先执行由行动建议单元90建议的行动。

由行动建议单元90建议的行动可以是属于所谓的技术诀窍的行动。例如，在“Daifugo”的示例中，1)选择由候选中最大数量的牌构成的选项，2)在早期阶段不选择强选项，3)如果手牌中没有强牌则从早期阶段选择打出8，4)可以考虑如果手牌较弱则要求进行革命(revolution)或类似操作。注意，打出8是指当打出的牌中包括数字8的牌时，可以洗现场中的牌的规则。

作为描述人类意识的假设之一，已知一种所谓的被动意识假设。被动意识假说基于这样的思想，即无意识首先出现，意识仅随后接收随后的结果。当考虑基于该被动意识假设的识别架构时，可以假设“状况学习”对应于“无意识”，而“情节生成”对应于“意识”。

如本文所使用的状况学习是基于环境、先前行动的结果等来调整和学习行动以便获得最高报酬。这种操作被认为对应于第一示例实施例中描述的学习算法或深度强化学习中的学习算法。情节生成是从收集的信息、思想或技术诀窍中建立假设和策略，检查假设和策略，并在必要时鼓励状况学习中的重新考虑。情节生成的示例可以是基于作为技术诀窍积累的知识来执行行动。即，在本示例实施例中，可以认为行动建议单元90向行动学习设备中的行动选择单元70建议行动的操作对应于情节生成。

接下来，将参照图11描述使用根据本示例实施例的行动学习设备的行动学习方法。

首先，状况信息生成单元20基于从环境200和自己的状况接收到的信息来生成表示与行动有关的信息的状况信息数据(步骤S301)。

接下来，行动建议单元90使用由状况信息生成单元20生成的状况信息数据作为关键字来搜索数据库，并确定环境200和自己的状况是否满足特定条件(步骤S302)。在“Daifugo”的示例中，特定条件可能是可出的牌中包括由多张牌构成的Daifugo手牌、游戏处于早期阶段、手牌中没有强牌而8号牌是包括在可出的牌中、该手牌弱但在可出的牌中包括同类四个等等。

作为确定的结果，如果环境200和自己的状况不满足特定条件(步骤S302，“否”)，则处理根据得分获取单元30的配置进行到图5的步骤S101或图9的步骤S201。

作为确定的结果，如果环境200和自己的状况满足特定条件(步骤S302，“是”)，则处理进入步骤S303。在步骤S303中，行动建议单元90将与特定条件链接的行动建议给行动选择单元70。

接下来，行动选择单元70对环境200执行由行动建议单元90建议的行动(步骤S304)。在“Daifugo”的示例中，与特定条件链接的行动可以是选择由候选中最大数量的牌构成的选项，而不是选择强选项、选择打出8或要求进行革命等。

利用这种配置，可以根据过去的记忆或经验来选择更合适的行动，并且在对环境200执行的行动中可以期望更高的评估结果。

接下来，将通过使用现有的“Daifugo”游戏程序来描述执行学习和玩游戏的结果，以便检查本发明的有益效果。

本发明的有益效果的检查按以下步骤进行。首先，准备五个具有本发明的行动学习设备的学习算法的客户，并且通过让这五个客户彼此玩游戏来执行学习。接下来，游戏程序中的四个客户和一个受过训练的客户彼此对抗地玩游戏并排名。具体而言，将100场比赛定义为一组，并以一组为基础对总数进行排名。这执行了10组，并且将10组的排名的平均值定义为最终排名。在分别进行了0次、100次、1000次、10000次和15000次学习之后，执行排名游戏。

表1和表2是示出通过使用“Daifugo”的游戏程序检查本发明的有益效果的结果的表。表1示出了根据第一示例实施例的行动学习设备中的检查结果，并且表2示出了根据本示例实施例的行动学习设备中的检查结果。为由行动建议单元90建议的行动设置上述的四个条件作为技术诀窍的示例。表1和表2指示训练列的数量和训练打出的牌的数量以供参考。训练打出的牌的数量是可以采取的行动的数量。

[表格1]

[表格2]

如表1和表2所示，发现通过增加训练期间的游戏次数，可以在两个示例实施例的示例方面中提高平均排名。特别地，根据本示例实施例的示例方面，证实了可以显著提高平均排名。

如上所述，根据本示例实施例，可以通过更简单的算法来实现根据环境和自己的状况的行动的学习和选择。此外，通过在特定条件下根据特定条件提出预定行动的配置，可以选择更合适的行动。

[第四示例实施例]

将参照图12至图19描述根据本发明的第四示例实施例的行动学习设备。与根据第一至第三示例实施例的行动学习设备中的组件相同的组件被标记为相同的附图标记，且将省略或简化其描述。

图12是示出根据本示例实施例的行动学习设备的配置示例的示意图。图13是示出根据本示例性实施例的行动学习设备中的生成技术诀窍的方法的流程图。图14是示出根据本示例实施例的行动学习设备中的表示改变的示例的示意图。图15是示出根据本示例实施例的行动学习设备中的汇总表示数据的方法的图。图16是示出根据本示例实施例的行动学习设备中的汇总数据的示例的图。图17示出了指示相同事件的正得分的汇总数据和负得分的汇总数据的示例。图18是示出根据本示例实施例的行动学习设备中的组织汇总数据的包含关系的方法的示意图。图19是根据本示例实施例的行动学习设备的作为技术诀窍提取的汇总数据的列表。

根据本示例实施例的行动学习设备100与根据第三示例实施例的行动学习设备相同，除了还具有如图12所示的技术诀窍生成单元92。

技术诀窍生成单元92具有基于在得分获取单元30上执行的状况学习所积累的学习数据，生成对特定条件有利的行动(技术诀窍)的列表的功能。技术诀窍生成单元92生成的列表被存储在行动建议单元90中的数据库中。如果从环境200和自己的状况接收到的信息与数据库中注册的特定条件匹配，则行动建议单元90从数据库中读取与特定条件相关联的行动，并向行动选择单元70建议行动。当从行动建议单元90提出行动建议时，行动选择单元70优先执行行动建议单元90建议的行动。行动建议单元90和行动选择单元70的操作与第三示例实施例的情况下的那些相同。

以这种方式，根据本示例实施例的行动学习设备找到基于得分获取单元30中累积的信息、想法或技术诀窍(学习数据)来提供期望具有高评估的行动的规则，并基于规则构造行动建议单元90中包括的数据库。这样的操作对应于在上述“情节生成”中从收集的信息中产生技术诀窍。

接下来，将参照图13至图19描述根据本示例实施例的行动学习设备中的技术诀窍生成方法。

首先，技术诀窍生成单元92将通过状况学习在得分获取单元30中累积的学习数据转换为表示数据(步骤S401)。

在根据第一示例实施例的行动学习设备中，学习数据是作为学习结果链接到神经网络单元40中包括的每个学习神经元46的信息。在每个学习神经元46中设置当在特定条件下采取特定行动时获得的得分。每个学习数据可以被配置为存储特定条件、特定行动或得分中的每个的数据，例如如图14所示。此外，在根据第二示例实施例的行动学习设备中，例如，一个学习数据可以由特定行动、用作用于搜索特定行动的关键字的状况信息数据以及该特定行动的得分的组合形成。

如本文所使用的表示改变是基于表示改变信息来将学习数据转换成“单词”。表示改变信息是基于人对于学习数据的状态或行为所具有的敏感图像而创建的。表示改变中使用的转换表是根据数据或行动的种类适当设置的。

在“Daifugo”的情况下，如图14所示，例如，可以选择“何时”、“已打出”、“打出8”、“布局”、“手牌”和“先前打出”六个参数作为表示改变信息。例如，可以将参数“何时”设置为表示在一场游戏中是“早期阶段”、“中间阶段”还是“最终阶段”的参数。可以将参数“已打出”设置为表示自己打出的牌的强度是“弱”、“中等”、“强”还是“最强”的参数。可以将参数“打出8”设置为表示打出8是否可用的参数，即“是”或“否”。可以将参数“布局”设置为表示现场中牌的强度是“弱”、“中等”、“强”、“最强”还是“空”的参数。可以将参数“手牌”设置为表示手牌的强度是“弱”、“中等”、“强”还是“最强”的参数。可以将参数“先前打出”设置为表示自己先前打出的牌的强度是“弱”、“中等”、“强”还是“最强”的参数。

在表示改变中，表示特定条件和特定行动的数据被作为表示改变信息及其评估值而选择的参数代替。例如，在图14的例子中，一个学习神经元46的学习数据被转换为“何时：中间阶段；已打出：弱；打出8：否；布局：弱；手牌：弱；先前打出：弱；……”。此外，另一个学习神经元46的学习数据被转换为“何时：中间阶段；已打出：弱；打出8：否；布局：弱；手牌：弱；先前打出：中；……”。

接下来，技术诀窍生成单元92基于在步骤S401中生成的表示数据来提取共现(步骤S402)。

在共现的提取中，提取频繁出现的(具有共现的)有利事件。对于提取方法，可以参考人们根据该其查看表示数据并做出决定的想法。在此，创建各个元素的组合，在组合的基础上对得分进行汇总(求和)，发现具有高汇总得分的组合，从而提取共现。

图15示出了在上述“Daifugo”的示例中汇总表示数据的示例。在该示例中，针对从“何时”、“已打出”、“打出8”、“布局”、“手牌”和“先前打出”的六个参数中选择的两个或更多个参数的组合，收集指示相同事件的数据。例如，对于指示[何时：早期阶段：已打出：强]的事件的表示数据，从顶部开始的第三、第六和第七表示数据被汇总。此外，对于指示[何时：早期阶段：已打出：弱；打出8：否]事件的表示数据，将从顶部起的第一个和第四表示数据进行汇总。在图15中，符号“*”表示通配符。

通过将表示数据分为指示正得分的一组表示数据和指示负得分的一组表示数据并在各个组中累积表示数据的得分，来执行指示同一事件的表示数据的得分的汇总。对指示正得分的表示数据和指示负得分的表示数据进行分类的原因是，如果仅累积这些得分，则两个得分将被抵消，并且将无法识别准确的状况。

图16是指示事件[已打出：弱；手牌：弱]的表示数据被汇总的汇总数据的示例。上面的行表示其中汇总了指示正得分的表示数据的汇总数据，而下面的行表示其中汇总了指示负得分的表示数据的汇总数据。

接下来，技术诀窍生成单元92对在步骤S402中生成的每个汇总数据执行值评估(步骤S403)。

例如，可以根据指示同一事件的正得分的汇总数据和负得分的汇总数据之间的关系、得分的绝对值等，来进行汇总数据的值评估。

认为在正得分和负得分之间没有显著差异的某些共现事件没有作为事件的暗示，因此不适合用于共现规则。因此，将这些汇总的数据排除在技术诀窍的候选之外。

用于确定正得分和负得分之间是否存在显着差异的标准未被特别限制并且可以适当地被设置。例如，当正得分的绝对值是负得分的绝对值的五倍或更大时，可以确定正得分的汇总数据具有高的值作为技术诀窍的候选。相反，当正得分的绝对值是负得分的绝对值的五分之一或更小时，可以确定负得分的汇总数据具有高值作为技术诀窍的候选。

此外，可以认为，即使在正得分和负得分之间识别出显著差异时，其绝对值相对较小的得分作为事件的含义也较小。因此，期望从技术诀窍的候选中排除这种汇总数据。例如，仅当正得分的绝对值和负得分的绝对值中的较大者大于或等于10000时，才可以将其汇总数据确定为技术诀窍候选的高值。

图17是指示同一事件的正得分的汇总数据和负得分的汇总数据的示例。在此示例中，由于正得分的值为24002，负得分的值为-4249，因此正得分的绝对值比负得分的绝对值大超过五倍。此外，正得分的绝对值大于10000。因此，根据上述标准，可以将这些汇总数据的集合确定为具有技术诀窍的候选的高值。

注意，链接到汇总数据的正得分表示对行动结果的评估高。即，正得分的汇总数据指示该行动作为在该事件下执行的行动是优选的。相反，链接到汇总数据的负得分表示对行动结果的评估低。即，负得分的汇总数据指示该行动不适合作为在该事件下执行的行动。

接下来，技术诀窍生成单元92针对在步骤S403中对其已经执行了值评估的汇总数据组织包含关系(步骤S404)。

在具有共现的事件中存在具有包含关系的事件。由于其中存在具有包含关系的大量汇总数据的状态是冗余的，从而导致大量汇总数据，因此执行用于在包含侧去除汇总数据而仅在包含侧保留汇总数据的处理。

例如，指示图18的上行所示的事件[已打出：弱；手牌：弱]包括指示在下行图示的事件[已打出：弱；手牌：弱；先前打出：弱]的汇总数据和指示事件[已打出：弱；手牌：弱；先前打出：中等]的汇总数据。因此，在这种情况下，在步骤S404中执行用于去除下行中指示的两个汇总数据的处理。

接下来，技术诀窍生成单元92从在步骤S404中组织的汇总数据中提取高值的汇总数据(步骤S405)。所提取的汇总数据作为技术诀窍列表存储在行动建议单元90的数据库中。

图19是基于从通过使用现有的“Daifugo”游戏程序执行15000个游戏而训练的得分获取单元30中提取的学习数据来根据上述过程提取为技术诀窍的汇总数据的列表。注意，图19中的“解释”字段是人参考根据上述过程提取的技术诀窍(共现技术诀窍)来解释的表示数据的示例。

接下来，将描述通过使用现有的“Daifugo”游戏程序来学习和玩游戏以检查本示例实施例的有益效果的结果。

本发明的有益效果的检查按以下步骤进行。首先，准备具有本发明的行动学习设备的学习算法的五个客户，并且通过让这五个客户彼此玩游戏来执行学习。接下来，游戏程序中的四个客户和一个受过训练的客户彼此对战玩游戏并被排名。具体而言，将100个游戏定义为一组，并以一组为基础对总数进行排名。这执行了10组，并且将10组的排名的平均值定义为最终排名。在分别执行了0次学习和15000次学习之后，执行了排名的游戏。此外，对行动建议单元90作为技术诀窍建议的共现技术诀窍(本示例实施例)、专用技术诀窍(第三示例实施例)以及专用技术诀窍加上共现技术诀窍执行检查。

表3是示出通过使用“Daifugo”游戏程序检查本发明的有益效果的结果的表。

[表3]

如表3所示，证实了本示例实施例的共现技术诀窍的应用与没有技术诀窍的应用的情况相比可以提高平均排名。特别地，证实了本示例实施例的共现技术诀窍和第三示例实施例中描述的专用技术诀窍的组合使用可以显著提高平均排名。

注意，尽管在本示例实施例中已经描述了其中行动学习设备100具有技术诀窍生成单元92的配置，但是技术诀窍生成单元92可以形成在除了行动学习设备100之外的设备中。例如，示例实施例可以被配置为从得分获取单元30向外部设备读取学习数据，通过使用形成在外部设备中的技术诀窍生成单元92来生成技术诀窍列表，并向行动建议单元90的数据库中加载生成的列表。

[第五示例实施例]

将参照图20描述根据本发明的第五示例实施例的行动学习设备。与根据第一至第四示例实施例的行动学习设备中的组件相同的组件用相同的附图标记标记，并且将省略或简化其描述。图20是示出根据本示例实施例的行动学习设备的配置示例的示意图。

如图20所示，根据本示例实施例的行动学习设备100具有行动候选获取单元10、得分获取单元30、行动选择单元70和得分调整单元80。

基于表示环境和自己的状况的状况信息数据，行动候选获取部10提取能够采取的多个行动候选。得分获取单元30针对多个行动候选中的每个，获取得分，该得分是表示对于由行动引起的结果预期的效果的指标。行动选择单元70从多个行动候选中选择具有最大得分的行动候选。得分调整单元80基于对环境200执行的所选行动候选的结果来调整链接至所选行动候选的得分的值。

利用这样的配置，可以实现可以用更简单的算法根据环境和自己的状况来学习和选择行动的行动学习设备。

[修改示例实施例]

本发明不限于上述示例实施例，并且各种修改是可能的。例如，将示例实施例中的任一个的一部分配置添加到另一示例实施例中的示例，或者将示例实施例中的任一个的一部分配置替换成另一示例实施例的一部分配置的示例也是本发明的示例实施例之一。

此外，尽管在上述示例实施例中，已经向描述提供了作为本发明的应用示例的纸牌游戏“Daifugo”中的玩家中的行动的示例，但是本发明可以广泛地应用于基于环境和自己的状况做出行动的情况下的行动的学习和选择。

此外，每个示例实施例的范围还包括一种处理方法，该处理方法在记录介质中存储程序，该程序使每个示例实施例的配置运行以实现以上所描述的每个示例实施例的功能，读取作为代码存储在记录介质中的程序，并在计算机中执行该程序。即，每个示例实施例的范围还包括计算机可读记录介质。此外，每个示例实施例不仅包括存储上述计算机程序的记录介质，还包括计算机程序本身。

作为记录介质，例如，可以使用软盘(注册商标)盘、硬盘、光盘、磁光盘、CD-ROM、磁带、非易失性存储卡或ROM。此外，每个示例实施例的范围包括在OS上操作以与另一软件或附加板的功能协作执行处理的示例，而不限于通过存储在记录介质中的主题程序执行处理的示例。

上面描述的所有示例实施例仅是在实施本发明时体现的示例的例示，并且本发明的技术范围不应由这些示例实施例在限制意义上解释。即，在不脱离本发明的技术思想或其主要特征的情况下，可以以各种形式实现本发明。

上面公开的示例实施例的全部或部分可以被描述为但不限于以下附注。

(附注1)

一种行动学习设备，包括：

行动候选获取单元，该行动候选获取单元基于表示自己的状况和环境的状况信息数据来提取可能的多个行动候选；

得分获取单元，该得分获取单元针对多个行动候选中的每个获取得分，该得分是表示对于由行动引起的结果预期的效果的指标；

行动选择单元，该行动选择单元从多个行动候选中选择具有最大得分的行动候选；以及

得分调整单元，该得分调整单元基于对于环境执行的选择的所述行动候选的结果，来调整链接到选择的所述行动候选的得分的值。

(附注2)

根据附注1所述的行动学习设备，

其中，得分获取单元包括神经网络单元，神经网络单元具有多个学习神经元，每个学习神经元包括：基于状况信息数据来对多个元素值中的每个执行预定加权的多个输入节点；以及，将加权的多个元素值求和并输出的输出节点，

其中，多个学习神经元中的每个具有预定得分，并被链接到多个行动候选中的任何一个，

其中，得分获取单元针对对应的行动候选的得分，设置在被链接到多个行动候选中的每个的学习神经元当中的多个元素值和学习神经元的输出值之间具有最大相关值的学习神经元的得分，

其中，行动选择单元从多个行动候选中选择具有最大得分的行动候选，并且

其中，得分调整单元基于被执行的选择的所述行动候选的结果来调整被链接到选择的所述行动候选的学习神经元的得分。

(附注3)

根据附注2所述的行动学习设备，

其中，得分获取单元还包括训练神经网络单元的学习单元，并且

其中，学习单元根据学习神经元的输出值来更新学习神经元的多个输入节点的加权因子，或者在神经网络单元中添加新的学习神经元。

(附注4)

根据附注3所述的行动学习设备，其中，当多个元素值与学习神经元的输出值之间的相关值小于预定阈值时，学习单元添加新的学习神经元。

(附注5)

根据附注3所述的行动学习设备，其中，当多个元素值与学习神经元的输出值之间的相关值大于或等于预定阈值时，学习单元更新学习神经元的多个输入节点的加权因子。

(附注6)

根据附注2至5中的任一项所述的行动学习设备，其中，相关值是与学习神经元的输出值相关的似然度。

(附注7)

根据附注6所述的行动学习设备，其中，似然度是当输入多个元素值时学习神经元的输出值与根据对于多个输入节点中的每个设置的加权因子的学习神经元的输出的最大值的比率。

(附注8)

根据附注2至7中的任一项所述的行动学习设备，还包括：状况信息生成单元，其基于自己的状况和环境，生成状况信息数据，在所述状况信息数据中映射了与行动有关的信息。

(附注9)

根据附注1所述的行动学习设备，其中，得分获取单元具有数据库，数据库使用状况信息数据作为关键字来为多个行动候选中的每个提供得分。

(附注10)

根据附注1至9中的任一项所述的行动学习设备，其中，当环境和自己的状况满足特定条件时，行动选择单元优先执行根据特定条件的预定行动。

(附注11)

根据附注10所述的行动学习设备，还包括：技术诀窍生成单元，其基于得分获取单元的学习数据来生成技术诀窍的列表，

其中，行动选择单元根据特定条件从技术诀窍列表中选择预定行动。

(附注12)

根据附注9所述的行动学习设备，其中，技术诀窍生成单元基于学习数据，通过使用表示数据的共现来生成汇总数据，并且基于汇总数据的得分，从汇总数据中提取技术诀窍。

(附注13)

一种行动学习方法，包括以下步骤：

基于表示自己的状况和环境的状况信息数据，提取可能的多个行动候选；

针对多个行动候选中的每个获取得分，该得分是表示对于由的行动引起的结果的预期的效果的指标；

从多个行动候选中选择具有最大得分的行动候选；以及

基于对于环境执行的选择的所述行动候选的结果，调整被链接到选择的所述行动候选的得分的值。

(附注14)

根据附注13所述的行动学习方法

其中，在获取的步骤中，在具有多个学习神经元的神经网络单元中，每个学习神经元包括基于状况信息数据对多个元素值中的每个执行预定加权的多个输入节点以及将加权的多个元素值求和并输出的输出节点，其中，多个学习神经元中的每个具有预定得分，并被链接到多个行动候选中的任何一个，针对对应的行动候选的得分，设置在被链接到多个行动候选中的每个的学习神经元当中的多个元素值和学习神经元的输出值之间具有最大相关值的学习神经元的得分，

其中，在选择的步骤中，从多个行动候选中选择具有最大得分的行动候选，并且

其中，在调整的步骤中，基于被执行的选择的所述行动候选的结果，调整被链接至选择的所述行动候选的学习神经元的得分。

(附注15)

根据附注13所述的行动学习方法，其中，在获取的步骤中，通过使用状况信息数据作为关键字来搜索为多个行动候选中的每个提供得分的数据库，来针对多个行动候选中的每个获取得分。

(附注16)

根据权利要求13至15中任一项所述的行动学习方法，其中，在选择的步骤中，当环境和自己的状况满足特定条件时，优先执行根据特定条件的预定行动。

(附注17)

一种程序，使得计算机用作：

被配置为基于表示自己的状况和环境的状况信息数据提取可能的多个行动候选的单元。

被配置为针对多个行动候选中的每个获取得分的单元，该得分是表示对于由行动引起的结果预期的效果的指标；

被配置为从多个行动候选中选择具有最大得分的行动候选的单元；以及

被配置为基于对环境执行的选择的所述行动候选的结果来调整被链接到选择的所述行动候选的得分的值的单元。

(附注18)

根据附注17所述的程序，

其中，被配置为获取的单元包括神经网络单元，该神经网络单元具有多个学习神经元，每个学习神经元包括：基于状况信息数据对多个元素值中的每个执行预定加权的多个输入节点；以及将加权的多个元素值求和并输出的输出节点，

其中，被配置为获取的单元针对对应的行动候选的得分，设置在被链接到多个行动候选中的每个的学习神经元当中的多个元素值和学习神经元的输出值之间的具有最大相关值的学习神经元的得分，

其中，被配置为选择的单元从多个行动候选中选择具有最大得分的行动候选，并且

其中，被配置为调整的单元基于被执行的选择的所述行动候选的结果，来调整被链接至选择的所述行动候选的学习神经元的得分。

(附注19)

根据附注17所述的程序，其中，被配置为获取的单元具有数据库，该数据库使用状况信息数据作为关键字来为多个行动候选中的每个提供得分。

(附注20)

根据附注17至19中的任一项所述的程序，其中，当环境和自己的状况满足特定条件时，被配置为获取的单元优先执行根据特定条件的预定行动。

(附注21)

一种计算机可读记录介质，其存储根据附注17至20中的任一项所述的程序。

(附注22)

一种行动学习系统，包括：

根据附注1至12中任一项所述的行动学习设备；以及

环境，所述环境是行动学习设备工作的对象。

本申请基于在2018年6月11日提交的日本专利申请No.2018-110767和在2018年12月17日提交的日本专利申请No.2018-235204并要求其优先权，其公开内容通过引用被整体并入于此。

[参考符号列表]

10...行动候选获取单元

20...状况信息生成单元

30...得分获取单元

40...神经网络单元

42，44...神经元

46...学习神经元

50...确定单元

60...学习单元

62...加权校正单元

64...学习神经元生成单元

70...行动选择单元

80...得分调整单元

90...行动建议单元

92...技术诀窍生成单元

100...行动学习设备

200...环境

300...CPU

302...主存储单元

304...通信单元

306...输入/输出接口单元

308...系统总线

310...输出设备

312...输入设备

314...存储设备

400...行动学习系统

Claims

1.一种行动学习设备，包括：

行动候选获取单元，所述行动候选获取单元基于表示自己的状况和环境的状况信息数据，来提取可能的多个行动候选；

得分获取单元，所述得分获取单元针对所述多个行动候选中的每个获取得分，所述得分是表示对于由行动引起的结果预期的效果的指标；

行动选择单元，所述行动选择单元从所述多个行动候选中选择具有最大得分的行动候选；以及

得分调整单元，所述得分调整单元基于对所述环境执行的选择的所述行动候选的结果，来调整被链接到选择的所述行动候选的所述得分的值。

2.根据权利要求1所述的行动学习设备，

其中，所述得分获取单元包括神经网络单元，所述神经网络单元具有多个学习神经元，每个学习神经元包括：基于所述状况信息数据来对多个元素值中的每个执行预定加权的多个输入节点；以及将加权的所述多个元素值求和并输出的输出节点，

其中，所述多个学习神经元中的每个具有预定得分，并被链接到所述多个行动候选中的任何一个，

其中，所述得分获取单元针对对应的行动候选的得分，设置在被链接到所述多个行动候选中的每个的所述学习神经元当中的所述多个元素值和所述学习神经元的输出值之间具有最大相关值的学习神经元的所述得分，

其中，所述行动选择单元从所述多个行动候选中选择具有最大得分的所述行动候选，并且

其中，所述得分调整单元基于被执行的选择的所述行动候选的结果，来调整被链接到选择的所述行动候选的所述学习神经元的所述得分。

3.根据权利要求2所述的行动学习设备，

其中，所述得分获取单元还包括训练所述神经网络单元的学习单元，并且

其中，所述学习单元根据所述学习神经元的输出值来更新所述学习神经元的所述多个输入节点的加权因子，或者在所述神经网络单元中添加新的学习神经元。

4.根据权利要求3所述的行动学习设备，其中，当所述多个元素值与所述学习神经元的输出值之间的相关值小于预定阈值时，所述学习单元添加所述新的学习神经元。

5.根据权利要求3所述的行动学习设备，其中，当所述多个元素值与所述学习神经元的输出值之间的相关值大于或等于预定阈值时，所述学习单元更新所述学习神经元的所述多个输入节点的所述加权因子。

6.根据权利要求2至5中的任一项所述的行动学习设备，其中，所述相关值是与所述学习神经元的所述输出值相关的似然度。

7.根据权利要求6所述的行动学习设备，其中，所述似然度是当输入所述多个元素值时所述学习神经元的所述输出值与根据对于所述多个输入节点中的每个设置的加权因子的所述学习神经元的输出的最大值的比率。

8.根据权利要求2至7中的任一项所述的行动学习设备，还包括：状况信息生成单元，所述状况信息生成单元基于所述自己的状况和所述环境，生成所述状况信息数据，在所述状况信息数据中映射了与行动有关的信息。

9.根据权利要求1所述的行动学习设备，其中，所述得分获取单元具有数据库，所述数据库使用所述状况信息数据作为关键字来为所述多个行动候选中的每个提供所述得分。

10.根据权利要求1至9中的任一项所述的行动学习设备，其中，当所述环境和所述自己的状况满足特定条件时，所述行动选择单元优先执行根据所述特定条件的预定行动。

11.根据权利要求10所述的行动学习设备，还包括：技术诀窍生成单元，所述技术诀窍生成单元基于所述得分获取单元的学习数据生成技术诀窍列表，

其中，所述行动选择单元根据所述特定条件从所述技术诀窍列表中选择所述预定行动。

12.根据权利要求9所述的行动学习设备，其中，所述技术诀窍生成单元基于所述学习数据通过使用表示数据的共现来生成汇总数据，并且基于所述汇总数据的得分，从所述汇总数据中提取所述技术诀窍。

13.一种行动学习方法，包括以下步骤：

针对所述多个行动候选中的每个获取得分，所述得分是表示对于由行动引起的结果预期的效果的指标；

从所述多个行动候选中选择具有最大得分的行动候选；并且

基于对于所述环境执行的选择的所述行动候选的结果，调整被链接到选择的所述行动候选的所述得分的值。

14.根据权利要求13所述的行动学习方法，

其中，在所述获取的步骤中，在具有多个学习神经元的神经网络单元中，每个学习神经元包括基于所述状况信息数据对多个元素值中的每个执行预定加权的多个输入节点以及将加权的所述多个元素值求和并输出的输出节点，其中，所述多个学习神经元中的每个具有预定得分，并被链接到所述多个行动候选中的任何一个，针对对应的行动候选的得分，设置被链接到所述多个行动候选中的每个的所述学习神经元当中的所述多个元素值与所述学习神经元的输出值之间具有最大相关值的学习神经元的所述得分，

其中，在所述选择的步骤中，从所述多个行动候选中选择具有最大得分的所述行动候选，并且

其中，在所述调整的步骤中，基于被执行的选择的所述行动候选的结果，调整被链接至选择的所述行动候选的所述学习神经元的所述得分。

15.根据权利要求13所述的行动学习方法，其中，在所述获取的步骤中，通过使用所述状况信息数据作为关键字来搜索为所述多个行动候选中的每个提供所述得分的数据库，来获取所述多个行动候选中的每个的所述得分。

16.根据权利要求13至15中的任一项所述的行动学习方法，其中，在所述选择的步骤中，当所述环境和所述自己的状况满足特定条件时，优先执行根据所述特定条件的预定行动。

17.一种程序，所述程序使计算机用作：

被配置为基于表示自己的状况和环境的状况信息数据提取可能的多个行动候选的单元；

被配置为针对所述多个行动候选中的每个获取得分的单元，所述得分是表示对于由行动引起的结果预期的效果的指标；

被配置为从所述多个行动候选中选择具有最大得分的行动候选的单元；以及

被配置为基于对所述环境执行的选择的所述行动候选的结果来调整被链接到选择的所述行动候选的所述得分的值的单元。

18.根据权利要求17所述的程序，

其中，被配置为获取的所述单元包括神经网络单元，所述神经网络单元具有多个学习神经元，每个学习神经元包括：基于所述状况信息数据来对多个元素值中的每个执行预定加权的多个输入节点；以及将加权的所述多个元素值求和并输出的输出节点，

其中，被配置为获取的所述单元针对对应的行动候选的得分，设置在被链接到所述多个行动候选中的每个的所述学习神经元当中的所述多个元素值和所述学习神经元的输出值之间的具有最大相关值的学习神经元的所述得分，

其中，被配置为选择的所述单元从所述多个行动候选中选择具有最大得分的所述行动候选，并且

其中，被配置为调整的所述单元基于被执行的选择的所述行动候选的结果，来调整被链接到选择的所述行动候选的所述学习神经元的所述得分。

19.根据权利要求17所述的程序，其中，被配置为获取的所述单元具有数据库，所述数据库使用所述状况信息数据作为关键字来为所述多个行动候选中的每个提供所述得分。

20.根据权利要求17至19中的任一项所述的程序，其中，当所述环境和所述自己的状况满足特定条件时，被配置为获取的所述单元优先执行根据所述特定条件的预定行动。

21.一种计算机可读记录介质，所述计算机可读记录介质存储根据权利要求17至20中的任一项所述的程序。

22.一种行动学习系统，包括：

根据权利要求1至12中的任一项所述的行动学习设备；以及

环境，所述环境是所述行动学习设备工作的对象。