CN113988199A

CN113988199A - Ai下棋模型的分级处理方法、装置及相关设备

Info

Publication number: CN113988199A
Application number: CN202111291959.1A
Authority: CN
Inventors: 高圣州; 王玉龙; 李蒙; 孙艳庆; 林秀桃; 段亦涛; 陈虎; 倪洪生
Original assignee: Netease Youdao Information Technology Jiangsu Co ltd
Current assignee: Netease Youdao Information Technology Jiangsu Co ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-01-28

Abstract

本公开提供一种AI下棋模型的分级处理方法、装置及相关设备。该方法包括：构建AI下棋初始模型；利用获取到的训练样本对AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型；为每个等级的AI下棋过渡模型设定对应的多个子级下棋规则；将多个子级下棋规则匹配至对应等级的AI下棋过渡模型中，得到多个等级的AI下棋模型，其中，一个等级的AI下棋模型中包含有多个子级下棋规则。这样就相当于对对应等级的AI下棋模型进行了进一步的多层次划分，并且子级下棋规则占用的资源较少，就能够使用少量等级的AI下棋模型，完成大量等级AI模型的任务，在保证AI模型分级平滑度的情况下有效的节省了资源。

Description

AI下棋模型的分级处理方法、装置及相关设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种AI下棋模型的分级处理方法、装置及相关设备。

背景技术

对于一些下棋软件，针对不同等级的用户，一般采用少量不同等级的AI(Artificial Intelligence，人工智能)模型与用户进行对弈。但是这种对弈方式由于模型数量较少，可能会出现与用户水平不太匹配的情况，用户体验感较差。

现有技术中，针对上述情况，一般采用增加不同等级AI模型数量的方式来解决，但是这种方式需要的AI模型较多，占用的资源较大，造成了资源的浪费。

发明内容

有鉴于此，本公开的目的在于提出一种AI下棋模型的分级处理方法、装置及相关设备，用以解决或部分解决上述技术问题。

基于上述目的，本公开提供了一种AI下棋模型的分级处理方法，包括：

构建AI下棋初始模型；

利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型；

为每个等级的所述AI下棋过渡模型设定对应的多个子级下棋规则；

将所述多个子级下棋规则匹配至对应等级的所述AI下棋过渡模型中，得到多个等级的AI下棋模型，其中，一个等级的AI下棋模型中包含有多个子级下棋规则。

在一些示例性实施例中，所述利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型，具体包括：

基于所述AI下棋初始模型利用模型自对弈的方式获得训练样本Y1；

利用所述训练样本Y1对所述AI下棋初始模型进行训练，确定训练后的AI下棋初始模型的ELO等级分P1；

响应于确定所述P1不满足第一级标准，基于所述训练后的AI下棋初始模型利用模型自对弈的方式获得新的训练样本Y1’，利用所述新的训练样本Y1’对所述训练后的AI下棋初始模型进行继续训练；

响应于确定所述P1满足第一级标准，将训练后的AI下棋初始模型作为第一级AI下棋过渡模型；

基于所述第一级AI下棋过渡模型利用模型自对弈的方式获得训练样本Y2；

利用所述训练样本Y2对所述第一级AI下棋过渡模型进行训练，确定训练后的第一级AI下棋过渡模型的ELO等级分P2；

响应于确定所述P2不满足第二级标准，基于所述训练后的第一级AI下棋过渡模型利用模型自对弈的方式获得新的训练样本Y2’，利用所述新的训练样本Y2’对所述训练后的第一级AI下棋过渡模型进行继续训练；

响应于确定所述P2满足第二级标准，将训练后的第一级AI下棋过渡模型作为第二级AI下棋过渡模型；

统计得到的各个等级的AI下棋过渡模型的数量N，响应于确定所述数量N等于设定数量值，训练过程结束，得到N个等级的AI下棋过渡模型。

将获取到的所述训练样本划分为多组训练样本；

利用第一组训练样本对所述AI下棋初始模型进行训练后得到第一级AI下棋过渡模型；

利用第二组训练样本对所述第一级AI下棋过渡模型进行继续训练得到第二级AI下棋过渡模型；

利用剩余各组的训练样本基于所述第二级AI下棋过渡模型继续进行训练，直至确定所述多组训练样本全部训练完成，对应得到多个等级的AI下棋过渡模型。

在一些示例性实施例中，所述为每个等级的所述AI下棋过渡模型设定多个子级下棋规则，具体包括：

设定每个等级的所述AI下棋过渡模型筛选获得的推荐落子点的数量为第一预定数量；

确定所述第一预定数量的推荐落子点分别对应的胜率值，根据所述胜率值由高到低的顺序对所述第一预定数量的推荐落子点进行排序，得到排序结果；

根据所述排序结果设定多个子级下棋规则。

在一些示例性实施例中，所述多个子级下棋规则包括：低子级下棋规则、中子级下棋规则和高子级下棋规则；

所述低子级下棋规则为：从所述排序结果中随机选定对应的推荐落子点作为目标落子点；

所述中子级下棋规则为：从所述排序结果中选择前第二预定数量的推荐落子点，从所述前第二预定数量的推荐落子点中随机选定对应的推荐落子点作为目标落子点；

所述高子级下棋规则为：从所述排序结果中选择胜率值最高的推荐落子点作为目标落子点。

在一些示例性实施例中，所述方法还包括：

接收目标用户触发的开始对弈指令，获取目标用户的等级标记；

根据所述等级标记从多个等级的AI下棋模型中选择对应等级的目标AI下棋模型；

利用所述目标AI下棋模型按照对应的多个子级下棋规则分别与所述目标用户进行对弈；

响应于确定所述目标用户符合所述多个子级下棋规则中的每个子级下棋规则的通关条件，将所述目标用户的等级标记升级为下一级等级标记，并选择下一级的AI下棋模型与所述目标用户进行继续对弈。

在一些示例性实施例中，所述每个子级下棋规则的通关条件为：所述目标用户的获胜棋局的占比大于等于预定比例，或者，所述目标用户的获胜棋局的数量大于等于预定数量。

基于同一发明构思，本公开示例性实施例还提供了一种AI下棋模型的分级处理装置，包括：

模型构建模块，被配置为构建AI下棋初始模型；

训练模块，被配置为利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型；

子级下棋规则设定模块，被配置为对每个等级的所述AI下棋过渡模型设定对应的多个子级下棋规则；

模型分级确定模块，被配置为将所述多个子级下棋规则匹配至对应等级的所述AI下棋过渡模型中，得到多个等级的AI下棋模型，其中，一个等级的AI下棋模型中包含有多个子级下棋规则。

基于同一发明构思，本公开示例性实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述的方法。

基于同一发明构思，本公开示例性实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述任意一项所述的方法。

从上面所述可以看出，本公开提供的AI下棋模型的分级处理方法、装置及相关设备，能够在构建的AI下棋初始模型进行训练过程中，根据AI下棋初始模型的训练程度得到多个等级的AI下棋过渡模型，然后再给相应等级的AI下棋过渡模型中添加多个子级下棋规则，进而得到多个等级的AI下棋模型。各个子级下棋规则是适用于对应等级的AI下棋模型中，在不同的自己下棋规则下，对应等级的AI下棋模型的棋力水平是不同的，这样就相当于对对应等级的AI下棋模型进行了进一步的多层次划分，并且子级下棋规则占用的资源较少，就能够使用少量等级的AI下棋模型，完成大量等级AI模型的任务，在保证AI模型分级平滑度的情况下有效的节省了资源。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开示例性实施例的应用场景示意图；

图2为本公开示例性实施例的AI下棋模型的分级处理方法的流程示意图；

图3为本公开示例性实施例的AI下棋模型在具体应用时的流程示意图；

图4为本公开示例性实施例的AI下棋模型的分级处理装置的一个结构示意图；

图5为本公开示例性实施例的AI下棋模型的分级处理装置的另一个结构示意图；

图6为本公开示例性实施例的电子设备结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

根据本公开的实施方式，提出了一种AI下棋模型的分级处理方法、装置及相关设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本公开实施例中涉及的名词进行解释：

神经网络(Artificial Neural Networks，ANNs)：根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型，设计相应的学习算法，模拟人脑的某种智能活动，然后在技术上实现出来用以解决实际问题。

AI下棋模型：是通过神经网络经过训练样本进行反复学习/训练得到的具有一定对弈水平的智能下棋模型，该AI下棋模型能够模拟对应水平的人与用户进行下棋。

ELO等级分：由Arpad Elo发明的一种评分机制，大名Elo Rating System，是一个衡量各类对弈活动水平的评价方法，是当今对弈水平评估的公认的权威方法。

下棋等级：不同的下棋等级对应的下棋能力水平是不同的，具体可以根据各类棋的对应的评分进行划分。

胜率预测模型(ValueNet，估值网络)：是利用神经网络经过大量的样本训练后得到的能够基于棋盘当前的状态预测下一步的各种落子的胜率值的神经网络模型。具有神经网络的特点，有一定的自学习的能力。

策略模型(PolicyNet，策略网络)：也是预先利用神经网络进行训练(学习)之后，能够基于当前的棋盘进行下一步落子点的筛选和确定。

蒙特卡洛树(Monte Carlo Tree Search)：是一种基于树数据结构，在搜索空间巨大的情况下仍然比较有效的启发式的搜索算法。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本公开的方案旨在提供一种AI下棋模型的分级处理方法、装置及相关设备，以实现快速准确的对用户的下棋能力进行测评的方案。其中，棋可以指围棋、中国象棋、国际象棋、五子棋、军旗与四国大战、暗棋、跳棋、黑白棋、六子棋、飞行棋、将棋、斗兽棋等。

本公开的方案尤其适用于上述各类棋中的围棋。围棋的下法千变万化，因此对应得到的各个等级的AI下棋模型占用的内存和处理资源都相对较高，如果一个下棋游戏软件中，包括的等级较多的AI下棋模型，就会占用庞大的内存和处理资源，容易造成资源浪费。

本公开主要涉及围棋的AI下棋模型的分级处理的应用。目前市面上AI下棋模型的分级多采用为每一个等级单独训练一个模型的方法来完成。该方法一定程度上造成了资源的浪费。本公开提出采用少量模型加规则弱化的方法，在不减少等级划分的情况下提升了模型的利用率，节省了资源。

例如，划分10个级别的AI下棋模型，需要10个不同的模型进行分级。训练一个符合对应的等级水平的围棋AI下棋模型，存在很多难题。比如柯洁的elo等级分在2900到3200之间，如果期望得到一个和柯洁完全一样棋力水平的AI下棋模型，相对比较困难。如果训练得到的AI下棋模型，elo等级分超过3200，那么弱化该AI下棋模型的能力是非常有必要的。另外，围棋AI下棋模型不同elo级别之间，AI下棋模型的棋力需要平滑提升。比如专业初段，elo分大概在2240左右，AI下棋模型的elo分在2240左右时，可以断定该AI的棋力等级为专业初段，elo分值高于该值时，弱化AI下棋模型的能力使其达到初级段位的等级是本公开需要解决的技术问题。

基于上述描述，以及针对现有技术的存在的问题，本公开提供一种AI下棋模型的分级处理方法、装置及相关设备，能够在构建的AI下棋初始模型进行训练过程中，根据AI下棋初始模型的训练程度得到多个等级的AI下棋过渡模型，然后再给相应等级的AI下棋过渡模型中添加多个子级下棋规则，进而得到多个等级的AI下棋模型。各个子级下棋规则是适用于对应等级的AI下棋模型中，在不同的自己下棋规则下，对应等级的AI下棋模型的棋力水平是不同的，这样就相当于对对应等级的AI下棋模型进行了进一步的多层次划分，并且子级下棋规则占用的资源较少，这样就能够使用少量等级的AI下棋模型，完成大量等级AI模型的任务，在保证AI模型分级平滑度的情况下有效的节省了资源。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

参考图1，其为本公开实施例提供的AI下棋模型的分级处理方法的一个应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中，终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、个人数字助理(personal digital assistant，PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102用于向终端设备101提供AI下棋模型的分级处理服务，终端设备101中安装有与服务器102通信的下棋游戏客户端。

首先，服务器102基于神经网络构建一个AI下棋初始模型。获取大量的棋局数据作为训练样本对该AI下棋初始模型进行训练。训练过程中，将中间训练得到的模型作为AI下棋过渡模型，中间训练过程中可以得到多个等级的AI下棋过渡模型。然后为每个等级的AI下棋过渡模型制定能够体现下棋水平不同的多个子级下棋规则，将多个子级下棋规则添加至对应等级的AI下棋过渡模型中，这样就能够得到多个等级的AI下棋模型。最后将多个等级的AI下棋模型通过通信网络发送至终端设备101的下棋游戏客户端中。

这样用户就可以通过终端设备101的下棋游戏客户端，进行下棋游戏的对弈，对弈过程中可以根据用户的等级匹配相应等级的AI下棋模型，先从最低级的子级下棋规则与用户进行对弈，如果对弈通过后，选用下一个自己下棋规则与用户进行对弈。如果用户通过最高的子级下棋规则，证明用户通过该等级的AI下棋模型，再选用下一个等级的AI下棋模型，按照上述过程继续与用户进行对弈，通过上述方案能够提高用户的体验感。

下面结合图1的应用场景，来描述根据本公开示例性实施方式的AI下棋模型的分级处理方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

示例性方法

参考图2，本公开实施例提供了一种AI下棋模型的分级处理方法，包括以下步骤：

步骤201，构建AI下棋初始模型。

具体实施时，基于神经网络构建一个AI下棋初始模型，该AI下棋初始模型中包括：输入层、多个隐藏层和输出层，其中，输入层中输入口的数量，以及，隐藏层的数量可以根据经验和实际需要进行设定。

步骤202，利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型。

其中训练样本可以是通过模型自对弈的方式进行不断获得的训练样本，也可以是一次性获取的大量的训练样本。

第一种：针对利用模型自对弈方式获取的训练样本进行训练的过程包括：

步骤2021，基于所述AI下棋初始模型利用模型自对弈的方式获得训练样本Y1。

具体实施时，训练样本的获取过程为：

1、随机初始化AI下棋初始模型，对AI下棋初始模型进行初步训练。

2、使用当前最强AI下棋初始模型和次强AI下棋初始模型进行自对弈。生成一定数量的对弈棋盘样本。将得到一批对弈棋盘样本，将这些对弈棋盘样本作为的训练样本Y1。

步骤2022，利用所述训练样本Y1对所述AI下棋初始模型进行训练，确定训练后的AI下棋初始模型的ELO等级分P1。

具体实施时，可以将第一个训练样本从AI下棋初始模型的输入层的输入口进行输入，然后输入层将这些样本数据传递至隐藏层进行处理，前一个隐藏层将处理结果传递至后一个隐藏层中进行处理，直至最后一个隐藏层将处理结果发送至输出层，输出层将处理结果进行整合，输出处理结果。然后，根据输出处理结果与该训练样本的真实结果进行比对，确定损失函数，根据损失函数得到的损失值对该AI下棋初始模型中各层的参数进行调整，进而完成一次训练过程。重复这个训练过程直至得到的训练样本全部训练完成。

最后，再根据ELO的评分机制对训练后的AI下棋初始模型进行评分，确定训练后的AI下棋初始模型的ELO等级分P1，这样就可以依据P1对训练后的AI下棋初始模型进行下棋能力的判断。

步骤2023，响应于确定所述P1不满足第一级标准，基于所述训练后的AI下棋初始模型利用模型自对弈的方式获得新的训练样本Y1’，利用所述新的训练样本Y1’对所述训练后的AI下棋初始模型进行继续训练。

具体实施时，如果训练样本全部训练完成后，得到的AI下棋初始模型的ELO等级分P1依然不满足第一级的标准，则将最后一次训练的AI下棋初始模型作为当前最强AI下棋初始模型，前一次训练的AI下棋初始模型作为次强AI下棋初始模型，二者进行自对弈，进而得到新的训练样本Y1’，利用该新的训练样本Y1’再次对训练后的AI下棋初始模型训练。如果结果依然不满足第一级的标准，则重复上述过程不断的利用模型自对弈获取新的训练样本不断的继续训练直至能够满足第一级的标准为止。

步骤2024，响应于确定所述P1满足第一级标准，将训练后的AI下棋初始模型作为第一级AI下棋过渡模型。

步骤2025，基于所述第一级AI下棋过渡模型利用模型自对弈的方式获得训练样本Y2。

在具体实施例中，得到第一级AI下棋过渡模型后还要继续进行训练，需要将该第一级AI下棋过渡模型作为最强模型，将第一级AI下棋过渡模型的上一个AI下棋初始模型作为次强模型，二者进行模型自对弈，得到训练样本Y2。

步骤2026，利用所述训练样本Y2对所述第一级AI下棋过渡模型进行训练，确定训练后的第一级AI下棋过渡模型的ELO等级分P2。

具体实施时，训练后的第一级AI下棋过渡模型的ELO等级分P2也是利用ELO评分机制进行评分的。

在步骤2027，响应于确定所述P2不满足第二级标准，基于所述训练后的第一级AI下棋过渡模型利用模型自对弈的方式获得新的训练样本Y2’，利用所述新的训练样本Y2’对所述训练后的第一级AI下棋过渡模型进行继续训练。

具体实施时，如果训练样本全部训练完成后，训练后的第一级AI下棋过渡模型的ELO等级分P2依然不满足第二级的标准，则将最后一次训练的第一级AI下棋过渡模型作为当前最强模型，前一次训练的模型作为次强模型，二者进行自对弈，进而得到新的训练样本Y2’，利用该新的训练样本Y2’再次对训练后的第一级AI下棋过渡模型进行训练。如果结果依然不满足第二级的标准，则重复上述过程不断的利用模型自对弈获取新的训练样本不断的继续训练直至能够满足第二级的标准为止。

步骤2028，响应于确定所述P2满足第二级标准，将训练后的第一级AI下棋过渡模型作为第二级AI下棋过渡模型。

具体实施时，上述描述的是第一级和第二级的AI下棋过渡模型的训练过程，后续第三级、第四级、第五级的AI下棋过渡模型的训练过程与上述同理，都是利用模型自对弈的方式不断的获取新的训练样本，不断的对模型进行学习和训练过程，然后根据训练后模型的ELO等级分作为各个等级的划分标准。

步骤2029，统计得到的各个等级的AI下棋过渡模型的数量N，响应于确定所述数量N等于设定数量值，训练过程结束，得到N个等级的AI下棋过渡模型。

具体实施时，对应得到的不同等级的AI下棋过渡模型的数量N应该至少有两个，本公开优选为选用五个等级的AI下棋过渡模型。因为5个等级的AI下棋过渡模型数量不是很多，并且能够满足大部分下棋游戏用户的需求。

第二种：可以从一些下棋游戏的历史数据中，获取的大量的训练样本，利用这些大量的训练样本进行训练的过程即步骤202具体包括：

步骤2021’，将获取到的所述训练样本划分为多组训练样本。

具体实施时，根据需要的AI下棋过渡模型的等级数量进行分组划分，每个等级对应一组训练样本。

可以采用平均分组的方式对训练样本进行划分，也可以是用户根据实际需要按照实际情况将训练样本进行分组划分(例如第一组100个，第二组200个，第三组500个等)，或者也可以按照一定的公式对训练样本每组的数量进行划分(例如按照数量线性增长的方式，第一组200个，第二组400个，第三组600个，第四组800个……)

步骤2022’，利用第一组训练样本对所述AI下棋初始模型进行训练后得到第一级AI下棋过渡模型。

具体实施时，将第一组训练样本中的第一个训练样本从AI下棋初始模型的输入层的输入口进行输入，然后输入层将这些样本数据传递至隐藏层进行处理，前一个隐藏层将处理结果传递至后一个隐藏层中进行处理，直至最后一个隐藏层将处理结果发送至输出层，输出层将处理结果进行整合，输出处理结果。然后，根据输出处理结果与该训练样本的真实结果进行比对，确定损失函数，根据损失函数得到的损失值对该AI下棋初始模型中各层的参数进行调整，进而完成一次训练过程。重复这个训练过程直至得到的第一组训练样本全部训练完成。训练后得到第一级AI下棋过渡模型。

步骤2023’，利用第二组训练样本对所述第一级AI下棋过渡模型进行继续训练得到第二级AI下棋过渡模型。

具体实施时，再利用第二组训练样本按照上述第一组的训练过程，对第一级AI下棋过渡模型继续进行训练，第二组的训练样本全部训练完成后得到第二级AI下棋过渡模型。

步骤2024’，利用剩余各组的训练样本基于所述第二级AI下棋过渡模型继续进行训练，直至确定所述多组训练样本全部训练完成，对应得到多个等级的AI下棋过渡模型。

具体实施时，本公开在第二种训练方案中，也是优选5个等级的AI下棋过渡模型。因为5个等级的AI下棋过渡模型数量不是很多，并且能够满足大部分下棋游戏用户的需求。

基于上述第一种和第二种训练方案得到的各个等级的AI下棋过渡模型，再继续进行模型的能力弱化，具体弱化方式，可以采用不同难度的子级下棋规则进行能力弱化。具体过程如下：

步骤203，为每个等级的所述AI下棋过渡模型设定多个子级下棋规则。

具体实施时，包括：

步骤2031，设定每个等级的所述AI下棋过渡模型筛选获得的推荐落子点的数量为第一预定数量。其中，第一预定数量可以为5个、10个或者20个等，具体可以根据实际需要进行设定，本公开优选为10个。

具体实施时，推荐落子点的选定过程包括：

开始时，是基于推送的对弈棋盘利用预先训练的策略模型按照所述预定搜索广度在预先得到的蒙特卡洛树上进行搜索，确定N个推荐落子点。其中，预定搜索广度可以根据实际需要进行设定，例如，(analysisWideRootNoise)[0，1]，数值越接近0搜索广度越窄；数值越接近1，搜索广度越宽。预定搜索广度增加，能够使得搜索的范围加大，使得搜索时UCB(upper confidence bound)值给予的蒙特卡洛树上的各个节点的访问次数的权重增大，进而增加蒙特卡洛树中访问次数较少的节点被访问的机会。

步骤2032，确定所述第一预定数量的推荐落子点分别对应的胜率值，根据所述胜率值由高到低的顺序对所述第一预定数量的推荐落子点进行排序，得到排序结果。

上述排序方式：利用预先训练的胜率预测模型为N个推荐落子点确定对应的N个胜率；依据N个胜率由高到低的顺序为N个推荐落子点进行排序，得到所述排序结果。这排序方式是单纯的依靠胜率进行的排序，这种排序操作简单快捷。

还有一种排序方式：利用预先训练得到的胜率预测模型和蒙特卡洛树，为所述N个推荐落子点进行排序，得到排序结果。

具体实施时，获得的N个推荐落子经过胜率预测模型得到各个推荐落子对应的胜率X(X₁、X₂……X_N)。获取N个推荐落子对应在蒙特卡洛树中对应的访问次数Y(Y₁、Y₂……Y_N)。为得到的X和Y赋予合适的权重，这样就可以将二者结合确定排序结果，进而得到的排序结果不单纯的依靠胜率，也不单纯的依靠访问次数，使得排序结果更加符合实际用户的需求和下棋习惯。

步骤2033，根据所述排序结果设定多个子级下棋规则。具体子级下棋规则的数量可以根据实际情况进行选定。

具体实施时，多个子级下棋规则包括：低子级下棋规则、中子级下棋规则和高子级下棋规则。

所述低子级下棋规则为：从所述排序结果中随机选定对应的推荐落子点作为目标落子点。

所述中子级下棋规则为：从所述排序结果中选择前第二预定数量的推荐落子点，从所述前第二预定数量的推荐落子点中随机选定对应的推荐落子点作为目标落子点。其中第二预定数量为：小于排序结果的总数，具体可以根据实际需要进行设定。

具体实施时，对应的中子级规则中，可以划分为多个，即对应选的的前第二预定数量，可以分为多个。例如，10个排序结果中，选定前8个作为中一级，选定前6个为中二级，选定前4个为中三级，选定前两个为中四级。

步骤204，将所述多个子级下棋规则匹配至对应等级的所述AI下棋过渡模型中，得到多个等级的AI下棋模型，其中，一个等级的AI下棋模型中包含有多个子级下棋规则。

这样，当用户刚达到对应等级后，采用该等级的AI下棋模型按照低子级-中子级-高子级的顺序进行规则选用，相当于将一个等级AI下棋模型弱化分级成三个子等级。进而在不增加对应等级的AI下棋模型的基础上，能够产生多个等级的效果，各个子级下棋规则的程序相对简单，占用的资源较少，因此，基于上述方案，能够使用少量等级的AI下棋模型，完成大量等级AI模型的任务，在保证AI模型分级平滑度的情况下有效的节省了资源。

得到多个等级的AI下棋模型后，将多个等级的AI下棋模型全部存储在对应的下棋游戏中，或者，先将第一级的AI下棋模型存储在对应的下棋游戏中。

如果全部存储在下棋游戏中，这样当用户达到下一级之后就会快速的启用下一级的AI下棋模型与用户进行对弈。但是这种方式占用的存储资源相对较多。

如果开始时只将第一级的AI下棋模型存储在下棋游戏中，当用户达到下一级之后，就会从服务平台中调取第二级的AI下棋模型，将第二级的AI下棋模型存储在用户的客户端，同时，将第一级的AI下棋模型删除。这种方式占用的存储空间较少，但是由于下载需要时间，可能不能快速的进入下一个等级的状态。

如图3所示，基于上述两种各个等级的AI下棋模型的存储方式，用户使用下棋游戏客户端进行实际对弈过程如下：

步骤205，接收目标用户触发的开始对弈指令，获取目标用户的等级标记。

步骤206，根据所述等级标记从多个等级的AI下棋模型中选择对应等级的目标AI下棋模型。

步骤207，利用所述目标AI下棋模型按照对应的多个子级下棋规则分别与所述目标用户进行对弈。

步骤208，响应于确定所述目标用户符合所述多个子级下棋规则中的每个子级下棋规则的通关条件，将所述目标用户的等级标记升级为下一级等级标记，并选择下一级的AI下棋模型与所述目标用户进行继续对弈。

具体实施时，用户开始时ELO等级分为0，随着用户不断的进行对弈游戏过程，用户的水平不断升高，获胜的几率越来越大。当用户满足低子级下棋规则的通关条件后，选用中子级下棋规则结合第一级的AI下棋模型与用户进行继续对弈。并且，用户通过对应子级下棋规则的通关条件，也会给用户的等级标记上相应的子级标记。例如标记为，一级-中，证明用户处于第一级，中子级下棋规则的通关过程中。

当用户通过第一级的AI下棋模型中的高子级下棋规则，证明用户第一级通关成功，可以进入第二级，利用第二级的AI下棋模型与用户继续进行对弈。

在一些可选的实施方式中，所述每个子级下棋规则的通关条件为：所述目标用户的获胜棋局的占比大于等于预定比例，或者，所述目标用户的获胜棋局的数量大于等于预定数量。

具体实施时，评算获胜棋局的占比或者获胜棋局的数量，都是基于用户当前最近预定数量的棋局(例如，十局)进行评定的。其中，预定比例和预定数量的具体数值可以根据实际需要进行设定。

例如，十局中获胜的比例大于等于70％(或80％或90％或100％)可以通关。或者十局中获胜至少7局可以通关，这样如果用户连续7局都获胜了，后面三局可以不用对弈了，直接可以通关了。

基于上述实施例的方案，能够在构建的AI下棋初始模型进行训练过程中，根据AI下棋初始模型的训练程度得到多个等级的AI下棋过渡模型，然后再给相应等级的AI下棋过渡模型中添加多个子级下棋规则，进而得到多个等级的AI下棋模型。各个子级下棋规则是适用于对应等级的AI下棋模型中，在不同的自己下棋规则下，对应等级的AI下棋模型的棋力水平是不同的，这样就相当于对对应等级的AI下棋模型进行了进一步的多层次划分，并且子级下棋规则占用的资源较少，这样就能够使用少量等级的AI下棋模型，完成大量等级AI模型的任务，在保证AI模型分级平滑度的情况下有效的节省了资源。

示例性设备

参考图4，基于与上述任意下棋能力的测试方法实施例相同的发明构思，本公开实施例还提供了一种AI下棋模型的分级处理装置。

AI下棋模型的分级处理装置，包括：

模型构建模块401，被配置为构建AI下棋初始模型；

训练模块402，被配置为利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型；

子级下棋规则设定模块403，被配置为对每个等级的所述AI下棋过渡模型设定对应的多个子级下棋规则；

模型分级确定模块404，被配置为将所述多个子级下棋规则匹配至对应等级的所述AI下棋过渡模型中，得到多个等级的AI下棋模型，其中，一个等级的AI下棋模型中包含有多个子级下棋规则。

在一些可选的实施方式中，训练模块402包括：

样本获取单元，被配置为基于所述AI下棋初始模型利用模型自对弈的方式获得训练样本Y1；

第一训练单元，被配置为利用所述训练样本Y1对所述AI下棋初始模型进行训练，确定训练后的AI下棋初始模型的ELO等级分P1；

等级确定单元，被配置为响应于确定所述P1不满足第一级标准，基于所述训练后的AI下棋初始模型利用模型自对弈的方式获得新的训练样本Y1’，利用所述新的训练样本Y1’对所述训练后的AI下棋初始模型进行继续训练；响应于确定所述P1满足第一级标准，将训练后的AI下棋初始模型作为第一级AI下棋过渡模型；

样本获取单元，还被配置为基于所述第一级AI下棋过渡模型利用模型自对弈的方式获得训练样本Y2；

第一训练单元，还被配置为利用所述训练样本Y2对所述第一级AI下棋过渡模型进行训练，确定训练后的第一级AI下棋过渡模型的ELO等级分P2；

等级确定单元，还被配置为响应于确定所述P2不满足第二级标准，基于所述训练后的第一级AI下棋过渡模型利用模型自对弈的方式获得新的训练样本Y2’，利用所述新的训练样本Y2’对所述训练后的第一级AI下棋过渡模型进行继续训练；响应于确定所述P2满足第二级标准，将训练后的第一级AI下棋过渡模型作为第二级AI下棋过渡模型；

第一统计单元，被配置为统计得到的各个等级的AI下棋过渡模型的数量N，响应于确定所述数量N等于设定数量值，训练过程结束，得到N个等级的AI下棋过渡模型。

在一些可选的实施方式中，训练模块402还包括：

分组单元，被配置为将获取到的所述训练样本划分为多组训练样本；

第二训练单元，被配置为利用第一组训练样本对所述AI下棋初始模型进行训练后得到第一级AI下棋过渡模型；

第二训练单元，还被配置为利用第二组训练样本对所述第一级AI下棋过渡模型进行继续训练得到第二级AI下棋过渡模型；

第二统计单元，被配置为利用剩余各组的训练样本基于所述第二级AI下棋过渡模型继续进行训练，直至确定所述多组训练样本全部训练完成，对应得到多个等级的AI下棋过渡模型。

在一些可选的实施方式中，所述为每个等级的所述AI下棋过渡模型设定多个子级下棋规则，具体包括：

根据所述排序结果设定多个子级下棋规则。

在一些可选的实施方式中，所述多个子级下棋规则包括：低子级下棋规则、中子级下棋规则和高子级下棋规则；

在一些可选的实施方式中，如图5所示，所述装置还包括：

对弈模块405，被配置为接收目标用户触发的开始对弈指令，获取目标用户的等级标记；根据所述等级标记从多个等级的AI下棋模型中选择对应等级的目标AI下棋模型；利用所述目标AI下棋模型按照对应的多个子级下棋规则分别与所述目标用户进行对弈；响应于确定所述目标用户符合所述多个子级下棋规则中的每个子级下棋规则的通关条件，将所述目标用户的等级标记升级为下一级等级标记，并选择下一级的AI下棋模型与所述目标用户进行继续对弈。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的AI下棋模型的分级处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的AI下棋模型的分级处理方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器610、存储器620、输入/输出接口630、通信接口640和总线650。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。

处理器610可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器620可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器620中，并由处理器610来调用执行。

输入/输出接口630用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口640用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线650包括一通路，在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的AI下棋模型的分级处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

示例性程序产品

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的AI下棋模型的分级处理方法。

上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的AI下棋模型的分级处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种AI下棋模型的分级处理方法，包括：

构建AI下棋初始模型；

2.根据权利要求1所述的方法，其中，所述利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型，具体包括：

3.根据权利要求1所述的方法，其中，所述利用获取到的训练样本对所述AI下棋初始模型进行训练，训练过程中根据训练程度得到多个等级的AI下棋过渡模型，具体包括：

将获取到的所述训练样本划分为多组训练样本；

4.根据权利要求1所述的方法，其中，所述为每个等级的所述AI下棋过渡模型设定多个子级下棋规则，具体包括：

根据所述排序结果设定多个子级下棋规则。

5.根据权利要求4所述的方法，其中，所述多个子级下棋规则包括：低子级下棋规则、中子级下棋规则和高子级下棋规则；

6.根据权利要求1所述的方法，其中，所述方法还包括：

7.根据权利要求6所述的方法，其中，所述每个子级下棋规则的通关条件为：所述目标用户的获胜棋局的占比大于等于预定比例，或者，所述目标用户的获胜棋局的数量大于等于预定数量。

8.一种AI下棋模型的分级处理装置，包括：

模型构建模块，被配置为构建AI下棋初始模型；

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任意一项所述的方法。