CN107341548A

CN107341548A - 一种数据处理方法、装置及电子设备

Info

Publication number: CN107341548A
Application number: CN201710498713.9A
Authority: CN
Inventors: 刘创
Original assignee: Beijing Depth Singularity Technology Co Ltd
Current assignee: Beijing Depth Singularity Technology Co Ltd
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-11-10

Abstract

本发明实施例公开了一种数据处理方法、装置及电子设备，涉及人工智能技术领域。本发明实施例的数据处理方法包括：设置目标对象的数据运行规则；选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集；基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，使所述策略网络结构的卷积核大小与卷积层个数的组合满足所述感受野范围的要求；利用所述训练数据集训练所述目标对象的策略网络。通过本发明实施例的方案，能有效的解决目标对象的数据处理问题。

Description

一种数据处理方法、装置及电子设备

技术领域

本发明涉及人工智能领域，尤其涉及基于卷积神经网络的机器学习技术。

背景技术

五子棋是规则简单易懂的棋类游戏，对弈双方轮流落子，先连成五个子的一方取得胜利。虽然规则简单，但由于巨大的搜索空间，在有限的资源和时间内模拟所有的棋局是不现实的。因此，现有的五子棋AI还未达到完美落子的水平，并且与顶尖的五子棋职业选手存在差距。传统的五子棋算法包括蒙特卡洛树搜索、极大极小值算法，以及alpha-beta剪枝等。近几年，卷积神经网络广泛应用图像识别等领域。它能自动提取大量图像中的共同特征，便于分类、定位。 AlphaGo成功得将卷积神经网络应用于围棋，训练得出策略网络和估值网络，结合传统的蒙特卡洛树搜索达到了顶尖职业选手的水平。对于五子棋，也有一些类似AlphaGo的现有技术，通过尝试大量参数来确定卷积神经网络的结构，得到了初步的五子棋策略网络。

发明人在实现本发明的过程中发现，AlphaGo的策略网络结构比较庞大，如果简单得将其从围棋移植到五子棋上必然会浪费计算资源和时间，降低蒙特卡洛搜索时的搜索速度，导致棋力下降。因此，如何针对五子棋的规则特点对策略网络结构进行简化是设计的关键，这样才能高效地将其整合到蒙特卡洛树搜索中。此外，五子棋与围棋在落子特点上有显著区别，五子棋主要是在棋盘的局部对弈，而围棋不仅进行局部对弈，还要考虑整个棋盘上的棋子，导致会有脱先的落子。所以，如何让五子棋策略网络能够学习并应对脱先这种非常规情况也是有待解决的问题。

现有的五子棋策略网络缺乏设计思路，没有针对五子棋的规则特点设计卷积神经网络结构。它们通过大量尝试结构的参数，从训练效果中权衡考虑前向传播时间和预测准确率，初步确定最终的策略网络。这样会做很多无谓的尝试，并且没有理论的支持。其次，现有的五子棋策略网络缺少关于脱先的训练样本，导致五子棋策略网络不能很好地学习并应对这种非常规情况。如果事先在棋盘上摆上带有非常规情况的残局，缺少相应训练数据的五子棋策略并不能给出高质量的落子。此外，缺少针对无禁手的五子棋策略网络，现有的五子棋策略网络存在将无禁手和有禁手数据混合起来训练的情况，这样得出的策略网络是不能单独按无禁手和有禁手规则合理落子的。

因此需要一种针对五子棋策略网络的解决方案。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法、装置及电子设备，至少部分地解决现有技术中存在的问题。

第一方面，本发明实施例提供了一种数据处理方法，包括：

设置目标对象的数据运行规则；

选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集；

基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，使所述策略网络结构的卷积核大小与卷积层个数的组合满足所述感受野范围的要求；

利用所述训练数据集训练所述目标对象的策略网络。

根据本发明实施例的一种具体实现方式，目标对象的数据运行规则为无禁手运行规则或有禁手运行规则。

根据本发明实施例的一种具体实现方式，所述选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集，包括：

判断所述目标对象的数据运行规则为无禁手或有禁手；

若为无禁手则选取无禁手训练数据集；

若为有禁手则选取有禁手训练数据集；

判断所述训练数据集中是否包含非常规训练数据；

若是，则进一步获取所述非常规训练数据在所述训练数据集中的比例；

当所述非常规训练数据在所述训练数据集中的比例小于预设阈值时，认定所述训练数据集为合法数据集。

根据本发明实施例的一种具体实现方式，所述方法还包括：

获取所述特征平面的尺寸b；

构建二值化、大小为b×b的特征平面；

将所述训练数据集中的训练数据转化成所述特征平面。

根据本发明实施例的一种具体实现方式，所述基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，包括：

采用较大的卷积核和较少的卷积层来构建所述策略网络。

采用较小的卷积核和较多的卷积层来构建所述策略网络。

根据本发明实施例的一种具体实现方式，所述方法还包括：

当所述训练数据集中是否存在脱先的数据时，扩大所述感受野的范围。

根据本发明实施例的一种具体实现方式，所述利用所述训练数据集训练所述目标对象的策略网络，包括：

选择NLL为损失函数，以所述训练数据集中的落子动作作为分类标签；

通过设置学习率、学习率衰减以及收敛条件，对所述目标对象的策略网络进行训练。

第二方面，本发明实施例还提供了一种数据处理装置，包括：

设置模块，用于设置目标对象的数据运行规则；

选取模块，用于选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集；

确定模块，用于基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，使所述策略网络结构的卷积核大小与卷积层个数的组合满足所述感受野范围的要求；

训练模块，用于利用所述训练数据集训练所述目标对象的策略网络。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的数据处理方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的数据处理方法。

第五方面，本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的数据处理方法。

本发明实施例提供的数据处理方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序，能够根据五子棋的规则和战术特点制定神经网络的结构，并选取恰当的训练数据训练神经网络，进而提升了数据的处理能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种数据处理方法的流程示意图；

图2为本发明实施例提供的五子棋策略网络结构示意图；

图3为本发明实施例提供的五子棋常见棋型示意图；

图4为本发明实施例提供的五子棋常见战术示意图；

图5为本发明实施例提供的五子棋禁手判断示意图；

图6为本发明实施例提供的五子棋对局数据示意图；

图7为本发明实施例提供的五子棋策略网络的输入数据示意图；

图8为本发明实施例提供的五子棋脱先对局数据示意图。

图9为本发明实施例提供的一种卷积层示意图；

图10为本发明实施例提供的一种数据处理装置的示意图；

图11为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了便于理解方案，对本申请中使用到的术语定义如下：

有禁手：一种五子棋规则，禁止先手(即黑棋)使用一些特定的战术。

无禁手：一种五子棋规则，不禁止先手(即黑棋)使用特定的战术。

脱先：对于对手的上一步落子暂时置之不理，将棋子落在与整块局部对弈距离较远的其他位置。

活四：有两个连五点的四颗子。

死四：只有一个连五点的四颗子。

长连：连成的子多于五颗子。

卷积神经网络：一种使用卷积层的神经网络，广泛应用于图像识别等领域。

感受野：卷积后每一个值对应卷积前图像的区域大小，也等于卷积核的尺寸。

前向传播：神经网络得到输入数据给出输出值的过程。

卷积核：一个二维矩阵，也称过滤器。

池化：对图片向下采样，使得图片的尺寸减小。

过拟合：使用了过多参数，导致太适应训练数据而非一般情况。

Stride：步长，在这里指做卷积时卷积核平移的距离。

Padding：填充，在这里指做卷积时边界处补零的数量。

ReLU：线性整流层，作为激活函数。

Softmax：归一化指数函数，使得输出值即为概率值。

损失函数：用于决定训练目标，即如何惩罚预测值和真实值之间的误差。

NLL：一种损失函数，用于分类问题。

随机梯度下降：一种最小化损失函数的算法，通过计算梯度迭代更新权重。

学习率：梯度下降算法中的一个系数，决定了权重更新的程度。

学习率衰减：学习率在训练中每隔一定时间的衰减系数，目的是为了训练收敛。

本申请中的方案可以应用到各种人工智能的棋类设计中，本申请以五子棋作为应用例子，当然，也可以将本申请的方案应用到其他棋类的人工智能设计中。

五子棋策略网络的设计流程如图1所示，包括以下步骤：

S101，设置目标对象的数据运行规则。

五子棋的规则对策略网络的训练数据和结构有所影响，所以设计前需要确定五子棋的规则，如无禁手和有禁手。此处可以选择无禁手的五子棋。

S102，选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集。

一个训练样本如图6所示，分为棋盘状态和落子动作。棋盘状态即当前棋盘上棋子的位置，在图6中，我们需要知道棋盘上的2行3列和3行3列为黑子，而3行2列为白子，其余位置没有子。落子动作即该下棋的一方所下的子，在图6中，该下棋的一方为白子，下在了4行3列的位置。

除了图6这样常规的五子棋对局数据，还有可能出现非常规走法的数据，如图8所示。假设左上方的两颗子走完后，黑棋突然在右下方落子，脱离了左上方已有的落子，这种情况称为脱先。此时白棋需要决定是否跟随黑棋在右下方落子，还是继续在左上方落子。这种数据在下棋中出现较少，但学习起来有所难度。这些数据的格式与常规数据一致，只需要知道棋盘状态和落子动作即可。

要得到无禁手的五子棋策略网络，就要用无禁手的五子棋对局数据训练策略网络，不能将有禁手的数据混合进来，否则数据标签的正确性会受到影响，导致策略网络做出错误的预测。其次，选择是否加入非常规走法的训练数据，如脱先。如果加入非常规走法的训练数据，需要保证此部分占总数据的少数，确保常规走法为重点学习的样本。在实施例中我们选择加入脱先的数据。

S103，基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，使所述策略网络结构的卷积核大小与卷积层个数的组合满足所述感受野范围的要求。

假设棋盘的尺寸为b×b，五子棋策略网络的输入是棋盘信息，尺寸为3×b×b， 3个特征平面为当前选手的棋子、对手的棋子、空白的位置。每个特征平面是b×b 的矩阵，矩阵元素是1或0，1代表“是”，0代表“否”。例如，图6所示的训练样本可以转换成图7作为策略网络的输入。在无禁手五子棋中，不需要知道当前的选手是黑棋还是白棋，因为黑白双方的规则是一致的，只需要将当前选手的棋子状态作为第一个特征平面即可。

这种0，1编码的形式能直接地表达棋盘状态，有利于卷积层清晰地提取棋型特征。与自然图片不同的是，自然图片在输入给卷积层前一般需要对数据进行零均值的预处理。而在五子棋策略网络使用中，我们并不采用这样预处理，如果对数据进行零均值的预处理可能会使棋盘状态的表达变得模糊不清。

也可在此基础上再增加其他特征平面，如全1的矩阵、落子是否形成5颗子等等。如果加入落子是否形成5颗子这类特征平面，就需要借助传统五子棋算法将这些信息从原始棋盘中提取出来。这样做的优点是能帮助策略网络更好的做出判断，缺点是增加了数据预处理的时间和策略网络前向传播的时间。

接下来需要根据五子棋的规则特点选定卷积神经网络的结构，如图2所示，卷积层由下面的公式准确表达：

其中，Z是卷积后得到的特征图；B是偏置项；W是卷积核；X是该卷积层的输入数据；n是输入数据的通道数；z是卷积核的大小，即z×z；d是stride的大小，即步长。例如，在图9中，用1个3×3大小的卷积核对输入数据做卷积，得到输出的特征图。图中所框的数字6就是通过卷积核与原图3×3的局部范围做卷积所得到，我们称该特征图的感受野大小为3×3。

每个卷积层后一般会使用激活函数激活，即A_ijk＝f(Z_ijk)，其中f是激活函数。卷积神经网络是多个卷积层的串联，前一层的激活值A_ijk就等于后一层的输入 X_ijl，前一层卷积核k的个数就等于后一层通道1的个数，即n。这样一层一层串联卷积层就构成了深度卷积神经网络。

五子棋的胜利条件是连成5颗子，如图3所示，并且对局主要集中在局部范围。而卷积神经网络的作用就是寻找局部特征，最终做出判断。卷积神经网络在较浅的层只能感受到很小范围的原始图片信息，在较深的层便能感受到很大的原始图片信息。这是因为每个卷积层都有一定的感受野，当层数增加，感受野也间接地累积，使得对输入层的原始图片而言感受野间接扩大。

因此，经过卷积神经网络后累积的感受野大小就应当包含连成5颗子的情况。具体来说，就是要让最后每个落子的判断至少考虑到周围所有4颗子的范围，也就是说累积的感受野大小以需要判断的落子为中心至少达到9×9的范围 (4×2+1＝9)。图3所示为死四情况，就策略网络最基本的要求而言并不需要区分活四与死四。所以并不需要观察到远处第5颗子的白棋。

其实加入池化层也有一定扩大感受野的能力，但与自然图片不同的是，五子棋策略网络不通过池化来扩大感受野的范围。因为棋盘中相邻位置的信息都是独立且重要的，而自然图片中相邻位置的信息是有重复的。如果使用了池化将会导致落子判断上的模糊不清。

为了达成9×9的范围，既可以用较大的卷积核和较少的卷积层，也可以用较小的卷积核和较多的卷积层。前者的优点是前向传播速度较快，这是由于串联的卷积层数少了，虽然较大的卷积核会导致计算量的增加，但可以进行并行处理；而后者的优点是预测准确率较高，这是因为每个卷积层后会有非线性激活函数，使得逼近任意函数的能力增强，而卷积层中即使用较大的卷积核其本身也是线性计算。

举例来说：

1)可以使用4层卷积核大小为3×3的卷积层，正好可以累积到9×9的感受野范围((3-1)×4+1＝9)。每层的卷积核个数均设为n，stride设为1，padding设为1，激活函数设为ReLU。

2)可以使用1层卷积核大小为9×9的卷积层，卷积核个数设为n，stride设为1，padding设为4，激活函数设为ReLU。

3)可以将不同卷积核大小的卷积层组合在一起：第1层卷积核大小为5×5，卷积核个数设为n，stride设为1，padding设为2，激活函数设为ReLU；第2 和第3层卷积核大小为3×3，卷积核个数设为n，stride设为1，padding设为1，激活函数设为ReLU。同样正好能累积到9×9的感受野范围((5-1)+(3-1) ×2+1＝9)。

卷积核的个数取决于五子棋的复杂程度，一般来说，n可以取32、64、128 等。n会影响预测准确率和前向传播速度，n越大，预测准确率越高，过拟合的可能性越大，前向传播速度越低。最终的确定需要将训练好的不同策略网络整合到蒙特卡洛树搜索中，通过对比胜率来决定n值。

在前面卷积层的基础上，可以进一步扩大累积的感受野范围，扩大的范围取决于五子棋的战术需要。比如，在图4中，白棋有3种可能的落子，如果要将3 种可能的落子都考虑进去，那么策略网络就必须观察到远处已有的白子，这时需要的感受野范围就是13×13(6×2+1＝13)。

再比如，为了应对在选择数据时加入的有脱先的数据，那么累积的感受野范围应适当扩大。假设棋盘的大小为15×15(即b＝15)，我们想让策略网络在判断往棋盘中心落子时考虑到棋盘最边上棋子的情况，那么只需要将9×9的感受野范围扩大到15×15。与前面卷积层的选择类似，我们可以任意组合卷积核大小和卷积层个数，例如：可以再增加3层卷积核大小为3×3的卷积层，加上之前累积的9×9感受野范围正好可以累积到15×15的感受野范围((3-1)×3+9＝15)，每层的卷积核个数均设为n，stride设为1，padding设为1，激活函数设为ReLU。

在策略网络这些用于扩大感受野范围的卷积层之后，只需要再串联一个卷积核大小为1×1的卷积层，卷积核个数设为1，stride设为1，padding设为0，最后接softmax层。这样策略网络输出的就是棋盘上每个点落子的概率值。

S104，利用所述训练数据集训练所述目标对象的策略网络。

训练可以采用随机梯度下降的方法，只需要选择NLL为损失函数，设置学习率和学习率衰减以及收敛条件即可。NLL是针对分类问题的损失函数，而五子棋策略网络恰好也是分类问题，也就是将棋盘上所有b²个落点每个落点当作一类。前面提到训练数据中包含了落子动作，这就是在NLL中要使用的每个训练样本的标签。NLL作为损失函数的作用就是将标签所对应落子的策略网络输出概率值提高，这样训练出来的策略网络在使用中就有更高的概率按训练数据的落子动作去落子。

测试的方式有多种，包括预测准确率，前向传播时间，使用策略网络下棋的胜率，整合到蒙特卡洛树搜索后下棋的胜率等。最重要的是整合到蒙特卡洛树搜索后的胜率，它体现了预测准确率和前向传播时间之间的权衡。

当选择有禁手的五子棋规则时，需要将黑棋和白棋的训练数据分开，单独训练黑棋的策略网络和白棋的策略网络。这样最后就有两个策略网络，白棋策略网络的结构设计与无禁手时相同。

由于黑棋有禁手，在判断禁手时需要进一步扩大累积的感受野范围。比如，在图5中，需要判断中心黑子落子是否为禁手，那么策略网络就必须观察到右边远处已有的黑子，这时需要的感受野范围就是11×11(5×2+1＝11)，得到不是禁手的结论(因为横向的三个黑子可能导致长连，而长连是禁手，所以中心黑子落子并不是禁手)，否则会误认为是禁手。

图10为本发明实施例提供的一种数据处理装置，参见图10，该数据处理装置10包括：

设置模块1001，用于设置目标对象的数据运行规则；

选取模块1002，用于选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集；

确定模块1003，用于基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，使所述策略网络结构的卷积核大小与卷积层个数的组合满足所述感受野范围的要求；

训练模块1004，用于利用所述训练数据集训练所述目标对象的策略网络。

数据处理装置中各个模块的功能与方法实施例一一对应，在此不再赘述。

图11展示出了本发明实施例提供的电子设备11的结构示意图，电子设备 11包括至少一个处理器1101(例如CPU)，至少一个输入输出接口1104，存储器 1102，和至少一个通信总线1103，用于实现这些部件之间的连接通信。至少一个处理器1101用于执行存储器1102中存储的计算机指令，以使所述至少一个处理器1101能够执行前述任一数据处理方法的实施例。存储器1102为非暂态存储器(non-transitory memory)，其可以包含易失性存储器，例如高速随机存取存储器(RAM：Random Access Memory)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个输入输出接口1104(可以是有线或者无线通信接口)实现与至少一个其他设备或单元之间的通信连接。

在一些实施方式中，存储器1102存储了程序11021，处理器1101执行程序 11021，用于执行前述任一数据处理方法实施例中的内容。

该电子设备可以以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)特定服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列 (FPGA)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

设置目标对象的数据运行规则；

利用所述训练数据集训练所述目标对象的策略网络。

2.根据权利要求1所述的数据处理方法，其特征在于：

目标对象的数据运行规则为无禁手运行规则或有禁手运行规则。

3.根据权利要求1所述的数据处理方法，其特征在于，所述选取与所述目标对象的数据运行规则匹配的包含特征平面的训练数据集，包括：

判断所述目标对象的数据运行规则为无禁手或有禁手；

若为无禁手则选取无禁手训练数据集；

若为有禁手则选取有禁手训练数据集；

判断所述训练数据集中是否包含非常规训练数据；

4.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

获取所述特征平面的尺寸b；

构建二值化、大小为b×b的特征平面；

将所述训练数据集中的训练数据转化成所述特征平面。

5.根据权利要求1所述的数据处理方法，其特征在于，所述基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，包括：

采用较大的卷积核和较少的卷积层来构建所述策略网络。

6.根据权利要求1所述的数据处理方法，其特征在于，所述基于所述目标对象规则和战术对应的感受野范围，确定所述目标对象的策略网络结构，包括：

采用较小的卷积核和较多的卷积层来构建所述策略网络。

7.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

当所述训练数据集中存在脱先的数据时，扩大所述感受野的范围。

8.根据权利要求1所述的数据处理方法，其特征在于，所述利用所述训练数据集训练所述目标对象的策略网络，包括：

9.一种数据处理装置，其特征在于，包括：

设置模块，用于设置目标对象的数据运行规则；

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一权利要求1-8所述的数据处理方法。