CN115025487A

CN115025487A - 对弈方法、对弈装置、显示装置及存储装置

Info

Publication number: CN115025487A
Application number: CN202210948064.9A
Authority: CN
Inventors: 黄洁; 孙萍; 王旭; 刘佳丽; 苏晓芸; 王凯; 郑伟伟; 谢小环; 李玉笛; 支洪平
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-09

Abstract

本申请公开了一种对弈方法、对弈装置、显示装置及存储装置，所述对弈方法包括：接收用户对己方对弈风格的选择；基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。通过上述方式本申请能够实现多种形式的对弈风格，提高对弈过程中棋风的表达。

Description

对弈方法、对弈装置、显示装置及存储装置

技术领域

本申请属于数据处理技术领域，具体涉及一种对弈方法、对弈装置、显示装置及存储装置。

背景技术

围棋作为一种策略性两人棋类游戏，使用矩形格状棋盘及黑白二色圆形棋子进行对弈，正规棋盘上有纵横各19条线段，361个交叉点，棋子必须走在空格非禁着点的交叉点上，双方交替行棋，落子后不能移动或悔棋，以目数多者为胜。围棋具有简明的规则，但其解空间极其巨大，近似无穷。

直到2016年，人工智能AlphaGo以4:1的总比分击败围棋世界冠军、职业九段棋手李世石，才打破了人工智能AI与围棋之间的壁垒。如今，各种围棋AI以及人机对弈平台层出不穷，其训练方法也不断迭代升级，从学习人类棋谱到根据规则自行探索，棋力不断取得突破。

围棋AI在棋力不断提升的过程中，可以全力对弈并在绝大多数情况下击败人类棋手，也可以选择较差的落点，自降棋力去配合对弈者的段位，但其对棋风的表达却远远不及其对赢棋的追求。

发明内容

本申请提供一种对弈方法、对弈装置、显示装置及存储装置，以实现多种形式的对弈风格。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种对弈方法，包括：接收用户对己方对弈风格的选择；基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种对弈方法，包括：基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种对弈装置，包括：确定模块，用于基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；选择模块，与所述确定模块连接，用于基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种显示装置，包括：显示屏以及与所述显示屏耦接的处理器，所述处理器用于执行上述任一实施例中所述的对弈方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述任一实施例中所述的对弈方法。

区别于现有技术情况，本申请的有益效果是：本申请所提供的对弈方法中，会接收用户对己方对弈风格的选择，然后根据对方当前步之后的棋局所处的阶段以及己方对弈风格来确定打分因子，后续基于该打分因子从己方下一步的第一候选点序列中确定出己方下一步的落点。通过该方式可以实现对棋风（即对弈风格）的表达，且可以知晓的是，不同棋局阶段和/或不同对弈风格可以对应不同的打分因子，即对应不同的候选点选择方法，该动态设计方式可以使得AI能够更贴近人类棋手在不同棋局阶段的思考方式，使得AI在对弈过程中更为灵活，以提升用户对弈兴趣。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请对弈方法一实施方式的流程示意图；

图2为图1中步骤S101对应的一实施方式的流程示意图；

图3为图1中步骤S102之前一实施方式的流程示意图；

图4为本申请对弈方法另一实施方式的流程示意图；

图5为本申请对弈装置一实施方式的结构示意图；

图6为本申请显示装置一实施方式的结构示意图；

图7为本申请存储装置一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请后续所提供的对弈方法可以适用于各种棋类对局，该棋类可以包括围棋、中国象棋、国际象棋、军棋、五子棋、跳棋、飞行棋中的至少一种。为了便于理解，首先对本申请所提供的对弈方法中所涉及的几个名词作出相应的解释。

下述实施例中所提及的对方也可称之为对弈方，其可以为真实用户（即，人），己方可以为机器，即虚拟用户、AI。在一局对弈过程中，包括至少一个对方和至少一个己方，对方和己方的数量可以基于棋类的不同而改变。例如，针对围棋、中国象棋、国际象棋和五子棋等棋类，在一局对弈过程中仅可以包括一个对方和一个己方，即允许一个真实用户和一个虚拟用户参与对弈；而针对军棋、跳棋和飞行棋等棋类，在一局对弈过程中可以仅包括一个对方和一个己方，也可以包括一个对方和多个己方，还可以包括多个对方和多个己方，还可以包括多个对方和一个己方，本申请对此不作限定。

请参阅图1，图1为本申请对弈方法一实施方式的流程示意图，该对弈方法包括：

S101：基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子。

具体地，在一个实施方式中，请参阅图2，图2为图1中步骤S101对应的一实施方式的流程示意图，上述步骤S101的具体实现过程包括：

S201：判定对方当前步之后的棋局所处的阶段；其中，阶段包括非收官阶段和收官阶段，且非收官阶段包含至少一个子阶段。

具体地，在一个实施方式中，上述步骤S201的具体实现过程包括：

A、获得对方当前步之后的棋局下各个落点的占有率O_(i,j)。

具体地，-1≤O_(i,j)≤1；当O_(i,j)＞0，即代表落点目前势力划分归属于黑方（例如，己方），反之，当O_(i,j)小于0，即代表落点目前势力划分归属于白方（例如，对方），当O_(i,j)等于0，即代表落点目前完全中立。|O_(i,j)|越接近于1，代表落点的归属程度越高。

B、获得占有率O_(i,j)的绝对值超过第一阈值的落点所构成的第一落点集合。例如，该第一阈值可以为0.3或0.5等。

C、将第一阈值与1构成的范围划分为多个占有率范围，获得第一落点集合中各个占有率范围下落点所占的比例。

例如，将第一阈值与1构成的范围划分为两个占有率范围，分别定义为高占有率范围和低占有率范围；进一步，第一落点集合中处于高占有率范围的落点个数占第一落点集合中总落点个数的第一比例、以及处于低占有率范围的落点个数占第一落点集合中总落点个数的第二比例。当然，在其他实施例中，也可将第一阈值与1构成的范围划分为更多个占有率范围，本申请对此不作限定。

D、基于各个占有率范围下落点所占的比例判定棋局所处的阶段。

例如，响应于第一比例小于或等于第二阈值，且第二比例大于或等于第三阈值，则当前棋局处于非收官阶段；响应于第一比例大于第二阈值，且第二比例小于第三阈值，则当前棋局处于收官阶段。

当然，在某些情况下，非收官阶段还可包含多个子阶段，例如定义为前期阶段（或称布局阶段）和中期阶段（或称中盘阶段），此时将非收官阶段进一步细分为前期阶段和中期阶段方式可以为：

方式一、响应于第一比例小于或等于第二阈值，且第二比例大于或等于第三阈值，则当前棋局处于前期阶段；响应于第一比例大于第二阈值且小于或等于第四阈值，且第二比例大于或等于第五阈值且小于第三阈值，则当前棋局处于中期阶段；响应于第一比例大于第四阈值，且第二比例大于第五阈值，则当前棋局处于收官阶段；其中，第二阈值小于第四阈值，第三阈值大于第五阈值。

或者，方式二：获得第一落点集合中位于棋盘中腹位置的落点个数占中腹总格点数的第一比值；响应于该第一比值小于对应比例阈值，则可判定当前处于前期阶段或未进犯中腹阶段；响应于该第一比值大于或等于比例阈值，则可判定当前处于中期阶段或进犯中腹阶段。

在一个应用场景中，以围棋为例，可将现有棋手的围棋风格归纳为以下四类：

流向派：前期（在对手还未大举入侵中腹之时）以胜率为赢棋的导向因素，即以大局观为重，对地盘的占领并不斤斤计较，希望在中腹形成比较大的格局，因此行棋位置比较高且可能比较跳脱，在这一阶段，较为开放，喜欢张开大模样，欢迎对手进来；中期（当对手开始大举入侵中腹）开更注重对中腹的占领，开始绞杀对方入侵中腹的棋子，因此以目数为赢棋的导向因素，且乐于接触缠斗以及攻击。

力量阴派：以目数为赢棋的导向因素，意在取地，喜好扭杀缠斗、追杀、贴身战，行棋锐利，乐于冒险，善于敏锐地抓住对手的弱处主动出击。进入中期之后，强化导向赢的因素，弱化取地因素。

力量阳派：以目数为赢棋的导向因素，意在取地，喜好扭杀缠斗、追杀、贴身战，行棋厚重沉稳。进入中期之后，强化导向赢的因素，弱化取地因素。

数量派：以目数为赢棋的导向因素，意在取地，对目数、棋子效率和胜负关键处十分敏感，在优势下四处提前定型，稳健地将优势保持到最后，倾向于避战，稳健地拓展自己的领地。进入中期之后，强化导向赢的因素，弱化取地因素。

响应于己方对弈风格为流向派，则区分前期阶段和中期阶段的方式可采用上述方式二；响应于己方对弈风格为流向派之外的其余风格，则区分前期阶段和中期阶段的方式可采用上述方式一。

S202：响应于当前步之后的棋局处于非收官阶段，基于非收官阶段和己方对弈风格确定打分因子；其中，打分因子与占有性评值、高低位评值、粘性评值和接触评值中至少一种相关。

具体地，当非收官阶段细分为前期阶段和中期阶段时，上述步骤S202中与前期阶段对应的打分因子可以与中期阶段对应的打分因子相同、或不完全相同或完全不同，具体可根据实际情况进行设定。

此外，占有性评值表征己方和/或对方在预设范围内的占有率情况，高低位评值表征候选点在棋盘上的位置情况，粘性评值表征候选点与时间上相邻的历史落点之间的位置情况，接触评值表征候选点与空间上相邻的历史落点之间的位置情况。

S203：响应于当前步之后的棋局处于收官阶段，确定打分因子；其中，打分因子与候选点的顺位相关。

具体地，顺位可以理解为各个候选点的排序，顺位的数值用于表征候选点的优劣，一般而言，顺位的数值可以为大于或等于0的正整数，且可选地，顺位的数值越小表征该候选点越优。顺位的数值大小一般与多个因素相关，例如，胜负率损失、棋盘布局等等，引擎或处理器可以根据对当前棋局进行分析自动获得。通俗来讲，就是若将棋子下在顺位数值较小的位置，表明该用户当前步下出了一手好棋。

在上述设计方式中，对弈风格仅在非收官阶段考虑，在收官阶段，AI即己方会放弃棋风方面的考虑，全力收官，达到最终的目标；且当非收官阶段包含多个子阶段时，同一对弈风格也会因棋局的进程不同而偏重不同的性质，以使得AI更贴近人类棋手在不同棋局阶段的思考方式。

在另一个实施方式中，上述步骤S101的具体实现过程包括：

A1、获取多个打分元素；其中，打分元素包含占有性评值、高低位评值、粘性评值和接触评值中至少一种；占有性评值表征己方和/或对方在预设范围内的占有率情况，高低位评值表征候选点在棋盘上的位置情况，粘性评值表征候选点与时间上相邻的历史落点之间的位置情况，接触评值表征候选点与空间上相邻的历史落点之间的位置情况。

B1、基于对方当前步之后的棋局所处的阶段以及己方对弈风格选取至少部分打分元素构建出至少一个打分因子。

上述构建打分因子的逻辑为先根据对弈风格提炼出打分元素，再由打分元素构成打分因子，由不同打分因子的偏好组合构成对弈风格。该方式呈现出清晰的三级架构，且同一打分元素可以应用至不同打分因子中，定义清楚，结构精简。

在一个应用场景中，如下表1所示，表1为打分元素与打分因子关联关系对照表。

表1：打分元素与打分因子关联关系对照表

打分元素	可选参数	判定内容	应用该打分元素的打分因子
				接触评值	半径（即距离候选点的范围）、接触对象（即己方或对方）	判定候选点是否与对方或己方棋子有直接接触；计算设定半径内己方棋子数量	偏向于选择与对方接近的落点（即接触缠斗）/偏向于选择与对方远离的落点（即避战）
粘性评值	粘性时长、粘性对象（即己方或对方）、粘性权重	根据候选点对一定粘性时长内的己方或对方的落点的距离，进行粘性的打分	偏向于选择与对方接近的落点（即接触缠斗）/偏向于选择与对方远离的落点（即避战）、偏向于使己方布局厚/偏向于使己方布局薄
				高低位评值	各线权重	根据候选点位置获取对应的线权重	偏向于选择低位落点（即取地）/偏向于选择高位落点（即取势）
占有性评值	半径、模式、阈值	计算某一方对某一范围内的格点的占有率，可选的模式包括“仅计算棋子占位”“仅计算己方有利占位”“全盘计算”	偏向于使己方布局厚/偏向于使己方布局薄、偏向于己方攻击性强的落点（即攻为先）/偏向于己方防守性强的落点（即守为先）

此外，对弈过程最终还是以输赢为目的，故上述打分因子可以包含第一类型打分因子和第二类型打分因子，且第一类型打分因子与己方对弈结果相关，第二类型打分因子与己方对弈风格相关，上述由占有性评值、高低位评值、粘性评值和接触评值中至少一种打分元素构成的打分因子可以为第二类型打分因子，第二类型打分因子的个数可以为多个。第一类型打分因子的个数可以仅为一个或多个，第一类型打分因子可以为胜率波动或目数波动；其中，胜率波动或目数波动可以理解为对方（或己方）在相邻两步棋局之间的胜率差值或目数得分差值；具体地，以任一相邻两步棋局为例，对方在当前棋局下具有第一目数得分（或第一胜率），己方在当前棋局下具有第二目数得分（或第二胜率）。对方在当前棋局之前的前一步棋局下具有第三目数得分（或第三胜率），己方在当前棋局之间的前一步棋局下具有第四目数得分（或第四胜率）。以己方视角而言，己方在当前棋局下对应的目数波动为第二目数得分与第四目数得分的差值，己方在当前棋局下对应的胜率波动为第二胜率与所述第四胜率的差值。为了计算方便，上述统一为己方视角。

进一步，如下表2所示，表2为不同对弈风格与打分因子关联关系对照表。

表2：不同对弈风格与打分因子关联关系对照表

对弈风格

第一类型打分因子

第二类型打分因子：取地/取势

第二类型打分因子：接触缠斗/避战

第二类型打分因子：布局薄/布局厚

第二类型打分因子：攻为先/守为先

相似棋手

流向派（前期）

胜率波动

取势

-

布局薄

-

武宫正树

流向派（中期）

目数波动

取势

接触缠斗

中立

攻为先

武宫正树

力量阴派

目数波动

取地

接触缠斗

布局薄

攻为先

坂田荣男、李世石

力量阳派

目数波动

取地

接触缠斗

布局厚

攻为先

加藤正夫、古力

数量派

目数波动

取地

避战

布局厚

守为先

小林光一、石田芳夫

S102：基于打分因子对己方下一步的第一候选点序列中的每个候选点进行打分。

具体地，在一个实施方式中，上述步骤S102具体包括：获得每个候选点与每个打分因子对应的因子得分；对同一候选点的所有因子得分进行加权求和以获得候选点的最终得分。上述获得每个候选点对应的最终得分的过程较为简单，且上述步骤S102中所采用的打分因子的个数可以为多个，即可以使得第一候选点序列中候选点的排序标准是多维度的，以使得后续所选择的落点更贴近于人类棋风的复杂度以及考虑的周密度。

可选地，打分因子包含第一类型打分因子和第二类型打分因子，且第一类型打分因子与己方对弈结果相关，第二类型打分因子与己方对弈风格相关；其中，所有第二类型打分因子对应的权重大于或等于0且小于或等于1，所有第二类型打分因子对应的权重之和为1，所有第一类型打分因子对应的权重之和大于0，所有因子得分大于或等于0且小于或等于1。以公式表示如下：

S=∑_i（W_{win_i}*S_{win_i}）+∑_t（W_{style_t}*S_{style_t}）。

其中，∑_tW_{style_t}=1，S为最终得分，W_{win_i}为第一类型打分因子对应的权重，S_{win_i}为第一类型打分因子对应的因子得分，W_{style_t}为第二类型打分因子对应的权重，S_{style_t}为第二类型打分因子对应的因子得分。

可选地，由于对弈的最终结果还是以输赢为导向，故∑_iW_{win_i}的取值范围可以为0.5-4。

另一可选地，同一对弈风格对应棋局的不同阶段，至少部分相同打分因子对应的权重不同。例如，当进入到中期后，需要强化导向赢的因素，弱化高低位评值，则与第一类型打分因子对应的权重可以增大，与高低位评值相关的第二类型打分因子对应的权重可以降低。该设计方式可以使得同一种对弈风格依据棋局所处阶段的不同而变化，各阶段中构建风格的性质的权重和取舍不同，这样动态的配置更贴近人类棋手在不同棋局阶段的思考方式。与之类似的，同一阶段对应不同对弈风格，至少部分相同打分因子对应的权重不同。该设计方式可以使得不同对弈风格之间区分的更为明显。

在一个实施方式中，当打分因子与高低位评值相关，上述步骤S102的实现过程包括：响应于己方对弈风格偏向于选择高位落点，即取势，在意对中腹的控制和全局的把控，候选点的位置越靠近棋盘的边缘，候选点对应的因子得分越小。响应于己方对弈风格偏向于选择低位落点，即取地，偏好于从外围开始争夺地盘，候选点的位置越靠近棋盘的边缘，候选点对应的因子得分越大。

可选地，棋盘上可以形成有多个闭合的环形线，环形线的每个边与棋盘中心之间的距离相同；且此时每条环形线分别对应设置有因子得分，从棋盘中心至最外围的环形线因子得分从0依次到1（偏向于取低位落点）或者从1依次到0（偏向于取高位落点）。当然，在其他实施例中，可以将棋盘划分为多个环形区域，每个环形区域内设置有至少一个环形线；此时每个环形区域对应设置有因子得分，同一环形区域内的所有环形线对应的因子得分相同，从棋盘中心至最外围的环形区域因子得分从0依次到1（偏向于取低位落点）或者从1依次到0（偏向于取高位落点）。

在另一个实施方式中，当打分因子与粘性评值和/或接触评值相关，上述步骤S102的实现过程，包括：

A2、响应于对弈风格偏向于选择与对方接近的落点，即接触缠斗，偏好于与对手贴身近战，与候选点空间上相邻的多个位置中对方历史落点的第一个数越多，候选点对应的因子得分越大。可选地，候选点空间上相邻的位置包含上下左右四个相邻的位置，在获得第一个数之后，可以进行归一化处理，将其映射至[0,1]之间的因子得分。

和/或，响应于对弈风格偏向于选择与对方接近的落点，获得候选点与时间上相邻的多个（例如，两个等）对方历史落点之间距离的第一和值，第一和值越小，候选点对应的因子得分越大。与上述类似的，获得第一和值之后，可以进行归一化处理，将其映射至[0,1]之间的因子得分。

此外，当响应于对弈风格偏向于选择与对方接近的落点，因子得分与上述第一个数和第一和值均相关时，可以将第一个数对应的因子得分与第一和值对应的因子得分进行加权平均处理，以获得最终因子得分；而具体加权平均处理时权重的大小可根据实际情况进行变动。

B2、响应于对弈风格偏向于选择与对方远离的落点，即避战，偏好于偏安一隅，避开对手锋芒，与候选点空间上相邻的多个位置中对方历史落点的第一个数越多，候选点对应的因子得分越小。和/或，获得候选点与时间上相邻的多个对方历史落点之间距离的第一和值，第一和值越小，候选点对应的因子得分越小。上述步骤B2的过程与步骤A2中类似，只要对其进行相应变动即可，在此不再赘述。

在又一个实施方式中，打分因子与粘性评值和/或占有性评值相关，上述步骤S102的实现过程，包括：

A3：响应于对弈风格偏向于使己方布局厚的落点，即偏好于稳扎稳打，稳固自己现有地盘之后，再去其他地方开拓或争夺，整体行棋沉稳缓慢，获得候选点作为落点后的第一棋局下各个落点的第一占有率、以及候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与第二占有率的差值的第二和值，第二和值的绝对值越大，候选点对应的因子得分越大。该方式主要是看这个候选点给整个棋盘范围的形势带来的平均改变，削弱对方或者稳固己方都可。例如，第一棋局下P1落点的第一占有率为+0.5，P2落点的第一占有率为-0.5；第二棋局下P1落点的第二占有率为+0.3，P2落点的第二占有率为-0.8；其中，＂+＂可视为己方，“-”可视为对方；则可以看到该候选点可以使得己方P1落点占有率提高0.2（即0.5-0.3），该候选点可以使得对方P2落点占有率削弱0.3（即-0.5-（-0.8））。可选地，在上述获得第二和值的绝对值之后可以进行归一化处理，将其映射至[0,1]之间的因子得分。

和/或，响应于对弈风格偏向于使己方布局厚的落点，获得候选点与时间上相邻的多个（例如，两个等）己方历史落点之间距离的第三和值，第三和值越小，候选点对应的因子得分越大。可选地，在上述获得第三和值之后可以进行归一化处理，将其映射至[0,1]之间的因子得分。

此外，响应于对弈风格偏向于使己方布局厚的落点，因子得分与上述第二和值和第三和值均相关时，可以将第二和值对应的因子得分与第三和值对应的因子得分进行加权平均处理，以获得最终因子得分；而具体加权平均处理时权重的大小可根据实际情况进行变动。

B3：响应于对弈风格偏向于使己方布局薄的落点，即偏好于抓住一切对自己整体有利的机会，整体行棋飘逸灵动，并不在乎是否对现有的地盘巩固完成，获得候选点作为落点后的第一棋局下各个落点的第一占有率、以及候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与第二占有率的差值的第二和值，第二和值的绝对值越大，候选点对应的因子得分越大。

和/或，响应于对弈风格偏向于使己方布局薄的落点，获得候选点与时间上相邻的至少一个（例如，一个等）己方历史落点之间的距离的第四和值、以及获得候选点与时间上相邻的至少一个（例如，两个灯）对方历史落点之间距离的第五和值；第四和值越大，候选点对应的因子得分越大；第五和值越小，候选点对应的因子得分越大。具体地，可以将第四和值进行归一化处理，将其映射至[0,1]之间的第一子因子得分，且第四和值越大，第一子因子得分越大；以及将第五和值进行归一化处理，将其映射至[0,1]之间的第二子因子得分，且第五和值越小，第二子因子得分越大；进一步，将第一子因子得分和第二子因子得分进行加权求和以获得最终因子得分；其中，布局薄时偏向于脱己方的先，不脱对方的先，且粘着对方占比更重，因此第二子因子得分对应的权重可大于第一子因子得分对应的权重，且两个权重之和为1。

在又一个实施方式中，打分因子与占有性评值相关，上述步骤S102的实现过程可以包括：

A4：响应于对弈风格偏向于己方攻击性强的落点，即攻为先，在对自己有利的招数中，更看重能对对方造成破坏的部分，倾向于用抢夺和破坏对方领地的方式来完成己方地盘的扩大和巩固；获得候选点作为落点后的第一棋局下己方和对方的第一占有度、以及候选点作为落点前的第二棋局下己方和对方的第二占有度，获得己方的第一占有度和己方的第二占有度的第一差值、以及对方的第一占有度和对方的第二占有度的第二差值；第一差值越大，候选点对应的因子得分越大，第二差值越小，候选点对应的因子得分越大。

例如，获得第一占有度和第二占有度的过程可以为：获得某个局面下棋盘上的每一个格点具有一个占有率O_(i,j)，其中，-1≤O_(i,j)≤1；当O_(i,j)＞0，即代表落点目前势力划分归属于黑方（例如，对方），反之，当O_(i,j)小于0，即代表落点目前势力划分归属于白方（例如，己方）。获得占有率O_(i,j)的绝对值超过第一阈值且归属于己方的第一格点数、以及获得占有率O_(i,j)的绝对值超过第一阈值且归属于对方的第二格点数；将第一格点数与棋盘上总格点数的比值作为己方占有度，将第二格点数与棋盘上总格点数的比值作为对方占有度。进一步，上述步骤A4中在获得第一差值之后，进行归一化处理，将其映射至[0,1]之间的第一子因子得分，且第一差值越大，第一子因子得分越大；以及获得第二差值之后，将其映射至[0,1]之间的第二子因子得分，且第二差值越小，第二子因子得分越大；进一步，将第一子因子得分和第二子因子得分进行加权求和以获得最终因子得分；其中，攻为先时偏向于削弱对方，因此第二子因子得分对应的权重可大于第一子因子得分对应的权重，且两个权重之和为1。

B4：响应于对弈风格偏向于己方防守性强的落点，即守为先，在对自己有利的招数中，更看重能稳固己方领地的部分，倾向于占领无主空地或慢慢扩展己方边界的方式来完成己方地盘的扩大和巩固，获得候选点作为落点后的第一棋局下己方的第一占有度、以及候选点作为落点前的第二棋局下己方的第二占有度，获得己方第一占有度和第二占有度的第一差值，第一差值越大，候选点对应的因子得分越大。具体占有度的计算过程与上述A4中提及的相同，在此不再赘述。

S103：将分数最高的候选点作为己方下一步落点。

在上述对弈方法中，会根据对方当前步之后的棋局所处的阶段以及己方对弈风格来确定打分因子，后续基于该打分因子从己方下一步的第一候选点序列中确定出己方下一步的落点。通过该方式可以实现对棋风（即对弈风格）的表达，且可以知晓的是，不同棋局阶段和/或不同对弈风格可以对应不同的打分因子，即对应不同的候选点选择方法，该动态设计方式可以使得AI能够更贴近人类棋手在不同棋局阶段的思考方式，使得人工智能在对弈过程中更为灵活，提升用户对弈兴趣。

此外，请参阅图3，图3为图1中步骤S102之前一实施方式的流程示意图，在上述步骤S102之前还可以包括：

S301：基于对方当前步之后的棋局获得己方下一步的初始候选点序列。

具体地，假设引擎或处理器对对方当前步之后的局面进行分析，分析方式可以采用现有技术中的蒙特卡洛搜索树算法等，以预测出己方下一步的初始候选点序列。一般而言，初始候选点序列中包含多个候选点，且出于计算速度的考虑，初始候选点序列中所包含的候选点的数量可以小于当前局面下所有合法点的数量。此外，初始候选点序列中的每个候选点还可携带有多种属性信息，例如，目数损失预测值、胜率损失预测值、搜索深度、顺位信息等。

S302：对初始候选点序列中的候选点进行筛选，以获得质量参数符合要求的第一候选点序列。

具体地，质量参数可以包括目数损失、搜索深度、顺位信息、蒙特卡洛搜索值中至少一种。质量参数所涉及的条目多少以及其筛选标准的松紧均会对AI的棋力水平和风格体现产生影响。质量参数条件越严格，AI呈现的棋力水平越高，下出恶手的可能性越低，但会削减进入第一候选点序列中候选点的数量，以致于对弈风格体现受限。因此，可根据实际情况设置对应的质量参数，例如，由于收官阶段不看重对弈风格的表达，故收官阶段的质量参数可以相比非收官阶段严格。

总之，上述通过质量筛选的方式获得第一候选点序列的过程，可以保证后续所选择的落点的质量，降低AI下出恶手的概率。

请参阅图4，图4为本申请对弈方法另一实施方式的流程示意图。本申请所提供的对弈方法具体包括：

S401：接收用户对己方对弈风格的选择。

具体地，在一个实施方式中，上述步骤S401的具体实现过程可以为：响应于当前棋局所处的阶段为非收官阶段或者处于棋局开始之前，接收用户对己方对弈风格的选择。即用户可以在棋局开始之前或者非收官阶段的任一时刻对己方对弈风格进行选择更改，以提高用户体验度；而在收官阶段，己方会全力收官，不会考虑对弈风格，因此在收官阶段将不接收用户对己方对弈风格的选择。而具体收官阶段和非收官阶段的判定方式参见上述实施例中所提及的内容，在此不再赘述。

在另一个实施方式中，上述步骤S401的具体实现过程可以为：显示包含多个己方对弈风格的第一列表，接收用户从第一列表中所选定的己方对弈风格。例如，该第一列表中包含流向派、力量阴派、力量阳派和数量派四个既定的对弈风格，用户可以随意点击选择一种。该方式较为方便，且易于实现。

或者，上述步骤S401的具体实现过程可以为：显示包含与己方对弈风格相关的多个打分因子的第二列表，接收用户从第二列表中所选择的至少一个打分因子以获得当前己方对弈风格。例如，该第二列表中可以包含上表2中所提及的所有第二类型打分因子，用户可以随意点击选择，以构建自己所要的对弈风格。该方式可以增加用户体验度。

当然，在其他实施方式中，也可将上述两种方式进行结合，例如，第一列表中可以包含一个自定义风格，用户点击自定义风格后进入第二列表进行选择。

S402：基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子。

具体地，该步骤与上述实施例中步骤S101相同，在此不再赘述。

S403：基于打分因子对己方下一步的第一候选点序列中的每个候选点进行打分。

具体地，该步骤与上述实施例中步骤S102相同，在此不再赘述。

S404：将分数最高的候选点作为己方下一步落点。

具体地，该步骤与上述实施例中步骤S103相同，在此不再赘述。请参阅图5，图5为本申请对弈装置一实施方式的结构示意图，该对弈装置包括确定模块10和选择模块12。

具体地，确定模块10用于基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；选择模块12与确定模块10连接，用于基于打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的候选点作为己方下一步落点。

在一个实施方式中，上述确定模块10具体用于：获取多个打分元素；其中，打分元素包含占有性评值、高低位评值、粘性评值和接触评值中至少一种；占有性评值表征己方和/或对方在预设范围内的占有率情况，高低位评值表征候选点在棋盘上的位置情况，粘性评值表征候选点与时间上相邻的历史落点之间的位置情况，接触评值表征候选点与空间上相邻的历史落点之间的位置情况；基于对方当前步之后的棋局所处的阶段以及己方对弈风格选取至少部分打分元素构建出至少一个打分因子。

在另一个实施方式中，上述确定模块10具体用于：响应于当前步之后的棋局处于非收官阶段，基于非收官阶段和己方对弈风格确定打分因子；其中，非收官阶段包含至少一个子阶段；打分因子与占有性评值、高低位评值、粘性评值和接触评值中至少一种相关。响应于当前步之后的棋局处于收官阶段，确定打分因子；其中，打分因子与候选点的顺位相关。

在另一个实施方式中，上述确定模块10中基于打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤包括：获得每个候选点与每个打分因子对应的因子得分；对同一候选点的所有因子得分进行加权求和以获得候选点的最终得分。

可选地，打分因子包含第一类型打分因子和第二类型打分因子，且第一类型打分因子与己方对弈结果相关，第二类型打分因子与己方对弈风格相关；其中，所有第二类型打分因子对应的权重之和为1，所有第一类型打分因子对应的权重之和大于0，所有因子得分大于或等于0且小于或等于1。

可选地，同一对弈风格对应棋局的不同阶段，至少部分相同打分因子对应的权重不同；和/或，同一阶段对应不同对弈风格，至少部分相同打分因子对应的权重不同。即不同阶段、不同对弈风格，同一打分因子对应的权重是可根据实际情况进行变动的。

在一个应用场景中，打分因子与高低位评值相关，确定模块12具体用于响应于己方对弈风格偏向于选择高位落点，候选点的位置越靠近棋盘的边缘，候选点对应的因子得分越小；响应于己方对弈风格偏向于选择低位落点，候选点的位置越靠近棋盘的边缘，候选点对应的因子得分越大。

在另一个应用场景中，打分因子与粘性评值和/或接触评值相关，上述确定模块12具体用于：响应于对弈风格偏向于选择与对方接近的落点，与候选点空间上相邻的多个位置中对方历史落点的个数越多，候选点对应的因子得分越大；和/或，获得候选点与时间上相邻的多个对方历史落点之间距离的第一和值，第一和值越小，候选点对应的因子得分越大；响应于对弈风格偏向于选择与对方远离的落点，与候选点空间上相邻的多个位置中对方历史落点的个数越多，候选点对应的因子得分越小；和/或，获得候选点与时间上相邻的多个对方历史落点之间距离的第一和值，第一和值越小，候选点对应的因子得分越小。

在另一个应用场景中，打分因子与粘性评值和/或占有性评值相关，上述确定模块12具体用于：响应于对弈风格偏向于使己方布局厚的落点，获得候选点作为落点后的第一棋局下各个落点的第一占有率、以及候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与第二占有率的差值的第二和值，第二和值的绝对值越大，候选点对应的因子得分越大；和/或，获得候选点与时间上相邻的多个己方历史落点之间距离的第三和值，第三和值越小，候选点对应的因子得分越大；响应于对弈风格偏向于使己方布局薄的落点，获得候选点作为落点后的第一棋局下各个落点的第一占有率、以及候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与第二占有率的差值的第二和值，第二和值的绝对值越大，候选点对应的因子得分越大；和/或，获得候选点与时间上相邻的至少一个己方历史落点之间的距离的第四和值、以及获得候选点与时间上相邻的至少一个对方历史落点之间距离的第五和值；第四和值越大，候选点对应的因子得分越大；第五和值越小，候选点对应的因子得分越大。

在另一个应用场景中，打分因子与占有性评值相关，上述确定模块具体用于：响应于对弈风格偏向于己方攻击性强的落点，获得候选点作为落点后的第一棋局下己方和对方的第一占有度、以及候选点作为落点前的第二棋局下己方和对方的第二占有度，获得己方的第一占有度和己方的第二占有度的第一差值、以及对方的第一占有度和对方的第二占有度的第二差值；第一差值越大，候选点对应的因子得分越大，第二差值越小，候选点对应的因子得分越大；响应于对弈风格偏向于己方防守性强的落点，获得候选点作为落点后的第一棋局下己方的第一占有度、以及候选点作为落点前的第二棋局下己方的第二占有度，获得己方第一占有度和第二占有度的第一差值，第一差值越大，候选点对应的因子得分越大。

在又一个实施方式中，本申请所提供的对弈装置还包括筛选模块，与确定模块12连接，用于基于对方当前步之后的棋局获得己方下一步的初始候选点序列；对初始候选点序列中的候选点进行筛选，以获得质量参数符合要求的第一候选点序列。

在另一实施方式中，本申请所提供的对弈装置还可以包括接收模块，与确定模块10连接，用于接收用户对己方对弈风格的选择。

可选地，上述接收模块具体用于响应于当前棋局所处的阶段为非收官阶段或者处于棋局开始之前，接收用户对己方对弈风格的选择。

另一可选地，上述接收模块具体用于显示包含多个己方对弈风格的第一列表，接收用户从第一列表中所选定的己方对弈风格；或者，显示包含与己方对弈风格相关的多个打分因子的第二列表，接收用户从第二列表中所选择的至少一个打分因子以获得当前己方对弈风格。

请参阅图6，图6为本申请显示装置一实施方式的结构示意图，该显示装置可以为电脑、手机、对弈机器人、平板等，其包括显示屏20以及与显示屏20耦接的处理器22，处理器22用于执行上述任一实施例中所提及的对弈方法。

进一步，本申请所提供的显示装置还可以包括人机交互电路，与处理器耦22接，用于接收用户选择的落点。可选地，该人机交互电路包括触控电路等，且当其为触控电路时，其可位于显示屏20表面。

请参阅图7，图7为本申请存储装置一实施方式的结构示意图。该存储装置30存储有能够被处理器运行的程序指令300，程序指令300用于实现上述任一实施例中所提及的对弈方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种对弈方法，其特征在于，包括：

接收用户对己方对弈风格的选择；

基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；

基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。

2.根据权利要求1所述的对弈方法，其特征在于，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤，包括：

获得每个所述候选点与每个所述打分因子对应的因子得分；

对同一所述候选点的所有所述因子得分进行加权求和以获得所述候选点的最终得分。

3.根据权利要求2所述的对弈方法，其特征在于，

所述打分因子包含第一类型打分因子和第二类型打分因子，且所述第一类型打分因子与己方对弈结果相关，所述第二类型打分因子与己方对弈风格相关；

其中，所有所述第二类型打分因子对应的权重之和为1，所有所述第一类型打分因子对应的权重之和大于0，所有所述因子得分大于或等于0且小于或等于1。

4.根据权利要求2所述的对弈方法，其特征在于，

同一对弈风格对应棋局的不同阶段，至少部分相同所述打分因子对应的权重不同；和/或，

同一阶段对应不同对弈风格，至少部分相同所述打分因子对应的权重不同。

5.根据权利要求1所述的对弈方法，其特征在于，所述基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子的步骤，包括：

获取多个打分元素；其中，所述打分元素包含占有性评值、高低位评值、粘性评值和接触评值中至少一种；所述占有性评值表征所述己方和/或对方在预设范围内的占有率情况，所述高低位评值表征所述候选点在棋盘上的位置情况，所述粘性评值表征所述候选点与时间上相邻的历史落点之间的位置情况，所述接触评值表征所述候选点与空间上相邻的历史落点之间的位置情况；

基于对方当前步之后的棋局所处的阶段以及己方对弈风格选取至少部分所述打分元素构建出至少一个所述打分因子。

6.根据权利要求5所述的对弈方法，其特征在于，所述打分因子与所述高低位评值相关，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤，包括：

响应于所述己方对弈风格偏向于选择高位落点，所述候选点的位置越靠近所述棋盘的边缘，所述候选点对应的因子得分越小；

响应于所述己方对弈风格偏向于选择低位落点，所述候选点的位置越靠近所述棋盘的边缘，所述候选点对应的因子得分越大。

7.根据权利要求5所述的对弈方法，其特征在于，所述打分因子与所述粘性评值和/或所述接触评值相关，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤，包括：

响应于所述对弈风格偏向于选择与对方接近的落点，与所述候选点空间上相邻的多个位置中对方历史落点的个数越多，所述候选点对应的因子得分越大；和/或，获得所述候选点与时间上相邻的多个对方历史落点之间距离的第一和值，所述第一和值越小，所述候选点对应的因子得分越大；

响应于所述对弈风格偏向于选择与对方远离的落点，与所述候选点空间上相邻的多个位置中对方历史落点的个数越多，所述候选点对应的因子得分越小；和/或，获得所述候选点与时间上相邻的多个对方历史落点之间距离的第一和值，所述第一和值越小，所述候选点对应的因子得分越小。

8.根据权利要求5所述的对弈方法，其特征在于，所述打分因子与所述粘性评值和/或所述占有性评值相关，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤，包括：

响应于所述对弈风格偏向于使己方布局厚的落点，获得所述候选点作为落点后的第一棋局下各个落点的第一占有率、以及所述候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与所述第二占有率的差值的第二和值，所述第二和值的绝对值越大，所述候选点对应的因子得分越大；和/或，获得所述候选点与时间上相邻的多个己方历史落点之间距离的第三和值，所述第三和值越小，所述候选点对应的因子得分越大；

响应于所述对弈风格偏向于使己方布局薄的落点，获得所述候选点作为落点后的第一棋局下各个落点的第一占有率、以及所述候选点作为落点前的第二棋局下各个落点的第二占有率，获得各个落点的第一占有率与所述第二占有率的差值的第二和值，所述第二和值的绝对值越大，所述候选点对应的因子得分越大；和/或，获得所述候选点与时间上相邻的至少一个己方历史落点之间的距离的第四和值、以及获得所述候选点与时间上相邻的至少一个对方历史落点之间距离的第五和值；所述第四和值越大，所述候选点对应的因子得分越大；所述第五和值越小，所述候选点对应的因子得分越大。

9.根据权利要求5所述的对弈方法，其特征在于，所述打分因子与所述占有性评值相关，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分的步骤，包括：

响应于所述对弈风格偏向于己方攻击性强的落点，获得所述候选点作为落点后的第一棋局下己方和对方的第一占有度、以及所述候选点作为落点前的第二棋局下己方和对方的第二占有度，获得所述己方的第一占有度和所述己方的所述第二占有度的第一差值、以及所述对方的第一占有度和所述对方的第二占有度的第二差值；所述第一差值越大，所述候选点对应的因子得分越大，所述第二差值越小，所述候选点对应的因子得分越大；

响应于所述对弈风格偏向于己方防守性强的落点，获得所述候选点作为落点后的第一棋局下己方的第一占有度、以及所述候选点作为落点前的第二棋局下己方的第二占有度，获得所述己方的第一占有度和所述第二占有度的第一差值，所述第一差值越大，所述候选点对应的因子得分越大。

10.根据权利要求5-9中任一项所述的对弈方法，其特征在于，所述基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子的步骤，包括：

响应于当前步之后的棋局处于非收官阶段，基于所述非收官阶段和所述己方对弈风格确定所述打分因子；其中，所述非收官阶段包含至少一个子阶段；所述打分因子与所述占有性评值、所述高低位评值、所述粘性评值和所述接触评值中至少一种相关；

响应于当前步之后的棋局处于收官阶段，确定所述打分因子；其中，所述打分因子与所述候选点的顺位相关。

11.根据权利要求1所述的对弈方法，其特征在于，所述基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点的步骤之前，包括：

基于对方当前步之后的棋局获得己方下一步的初始候选点序列；

对所述初始候选点序列中的候选点进行筛选，以获得质量参数符合要求的第一候选点序列。

12.根据权利要求10所述的对弈方法，其特征在于，所述接收用户对己方对弈风格的选择的步骤，包括：

响应于当前棋局所处的阶段为非收官阶段或者处于棋局开始之前，接收用户对己方对弈风格的选择。

13.根据权利要求1所述的对弈方法，其特征在于，所述接收用户对己方对弈风格的选择的步骤，包括：

显示包含多个己方对弈风格的第一列表，接收用户从所述第一列表中所选定的所述己方对弈风格；或者，

显示包含与所述己方对弈风格相关的多个打分因子的第二列表，接收用户从所述第二列表中所选择的至少一个打分因子以获得当前己方对弈风格。

14.一种对弈方法，其特征在于，包括：

15.一种对弈装置，其特征在于，包括：确定模块，用于基于对方当前步之后的棋局所处的阶段以及己方对弈风格确定打分因子；

选择模块，与所述确定模块连接，用于基于所述打分因子对己方下一步的第一候选点序列中的每个候选点进行打分，并将分数最高的所述候选点作为己方下一步落点。

16.一种显示装置，其特征在于，包括：

显示屏以及与所述显示屏耦接的处理器，所述处理器用于执行权利要求1-14中任一项所述的对弈方法。

17.根据权利要求16所述的显示装置，其特征在于，还包括：

人机交互电路，与所述处理器耦接，用于接收用户选择的落点。

18.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1-14中任一项所述的对弈方法。