CN113127704B

CN113127704B - 一种蒙特卡洛树搜索方法、系统及应用

Info

Publication number: CN113127704B
Application number: CN202110264682.7A
Authority: CN
Inventors: 高晶亮; 张泽阳; 郭网媚; 李永康; 朱晨晨; 边卓琳; 王萌萌; 于恒苏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-11-01
Anticipated expiration: 2041-03-11
Also published as: CN113127704A

Abstract

本发明属于机器博弈及计算机搜索技术领域，公开了一种蒙特卡洛树搜索方法、系统及应用，所述蒙特卡洛树搜索方法包括：根据线程总数和内存实际情况确定落叶的上下界值；开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表，在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数；判断当前搜索树上的节点总数是否大于落叶的上界值。本发明提供的蒙特卡洛树搜索方法，在根据实际计算机内存的情况下，确定落叶节点数的上下界后，在一个线程中继承一颗蒙特卡洛搜索树，可以在收集训练集的过程中提升蒙特卡洛树的搜索能力，提升训练集的多样性。

Description

一种蒙特卡洛树搜索方法、系统及应用

技术领域

本发明属于机器博弈及计算机搜索技术领域，尤其涉及一种蒙特卡洛树搜索方法、系统及应用。

背景技术

目前，随着计算机计算能力的显著提高和许多理论和算法上的创新，人工智能在近年来取得重大进展。而强化学习建立和发展起与最优控制和动态规划理论的关系，成为机器学习，人工智能和神经网络研究中最活跃的研究领域之一。在近几年DeepMind团队开发的AlphaGo程序，通过结合神经网络，蒙特卡洛树搜索和强化学习，使得机器的围棋水平超过了世界最顶级的棋手。

在AlphaGo的基础上研究出AlphaGo Zero，相较于前者，后者则是在除围棋规则外没有用到任何人类数据，使用自我博弈的强化学习算法完成进化。在自我博弈中使用蒙特卡洛树搜索和神经网络的策略和价值预测结合完成落子的选择，并通过更新神经网络参数达到进化效果，以产生更准确的预测。因此，蒙特卡洛树搜索可以认为是一个增强版本的落子选择器。同时，蒙特卡洛树搜索选择每个落子，并且返回胜者进行价值网络性能评估，这样蒙特卡洛树搜索也可以作为策略评估器。此模型中强化学习的主要思想就是循环使用落子选择器和策略评估器，该神经网络的参数不断更新，使得神经网络输出更加接近蒙特卡洛树搜索输出的落子概率和自我博弈的胜者。更新后的参数在自我博弈的下一次迭代中继续使用，使得后续的搜索更加强大。随着人工智能领域研究的深入，基于蒙特卡洛树搜索的算法也必然会在越来越多的模型之上应用和改进。同时，基于蒙特卡洛树搜索的算法都有一个共同点，即需要通过大量的如自我博弈的方式进行仿真，达到收集训练集的目的。但现有技术中关于蒙特卡洛树搜索方法尚未见报道。因此，亟需一种新的蒙特卡洛树搜索方法。

通过上述分析，现有技术存在的问题及缺陷为：现有技术背后多有大型计算硬件设备支持，如DeepMind团队在训练AlphaGo时采用上千块TPU或GPU。但对于小规模的硬件设备无法提供强大的算力。且现有技术在训练过程中会出现棋谱多样性匮乏，价值和策略损失值过拟合等问题。

解决以上问题及缺陷的难度为：

(1)在原有算法的前提下做出优化，使得普通的硬件设备也可以在短时间内训练出水平较高的神经网络模型。

(2)在训练过程中能尽可能多的保存每个有意义节点的信息，使其发挥更大辅助决策的能力。

解决以上问题及缺陷的意义为：

(1)蒙特卡洛树在搜索过程中既可以保留多的节点信息又能更大化的利用内存空间；

(2)提升训练集的多样性，并在一定程度上减少过拟合的发生；

(3)提升搜索的准确性从而进一步提高训练速度。

发明内容

针对现有技术存在的问题，本发明提供了一种蒙特卡洛树搜索方法、系统及应用。

本发明是这样实现的，一种蒙特卡洛树搜索方法，所述蒙特卡洛树搜索方法包括：在多线程进行收集棋谱的自对弈训练中，同一进程继承同一颗蒙特卡洛搜索树，根据每盘棋结束后蒙特卡洛搜索树的节点判断是否进行“落叶”，根据策略剪去蒙特卡洛搜索树中的叶子节点，进而继续开始下一局棋，以此类推，直到本代棋谱收集完成。

进一步，所述蒙特卡洛树搜索方法包括以下步骤：

步骤一，根据线程总数和内存实际情况确定落叶的上下界值，记为Node_up，Node_down；

步骤二，开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表Leave_list，并在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数，记为Node_count；

步骤三，判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；若否，则在本线程继续开启下一盘棋；若是，则进行落叶过程，结束后开启本线程的下一盘棋。

进一步，步骤三中，所述落叶过程，包括：

(1)计算得到本次落叶过程须落下的节点总数Fall_count；其中，所述节点总数Fall_count与树节点总数Node_count和落叶下界值Node_down关系为：Fall_count＝Node_count–Node_down；

(2)根据步骤(2)记录得到的Leave_list，从该列表的头部，即索引为0处取出当前要落下的叶子节点，记为Node_current；

(3)从Node_current开始做节点中数据的反向更新，即从Node_current开始，将需要更新的值层层回溯给此节点的父节点，直到回溯到根节点为止；

(4)当更新完成该叶子节点后，判断其父节点是否成为新的叶子节点；若是，则将该父节点加入叶子节点列表Leave_list；

(5)在蒙特卡洛搜索树上删除该叶子节点，继续跳至步骤(2)执行，直到Fall_down个节点全部落下为止。

进一步，步骤(3)中，设置需要更新的值为节点的搜索总次数N，该点的价值Node_value，每一个父节点具体的更新细节为：

子节点位置处的N＝N–1；

子节点位置处的Q＝Q–Node_value；

子节点位置处的W＝Q/N。

进一步，所述蒙特卡洛树搜索方法，还包括：

对于某一步利用蒙特卡洛树搜索方法的预测过程，进行的搜索次数以生成n个新的子节点为准，即进行一步搜索后蒙特卡洛搜索树上理论会增加n个新的节点。

进一步，所述蒙特卡洛树搜索方法，还包括：

对于单一线程，从本代自对弈开始，每一盘棋均继承同一颗蒙特卡洛搜索树，即此蒙特卡洛搜索树的高度和树上节点总数Node_count会随着收集棋谱的过程增加而持续增加。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：在多线程进行收集棋谱的自对弈训练中，同一进程继承同一颗蒙特卡洛搜索树，根据每盘棋结束后蒙特卡洛搜索树的节点判断是否进行落叶，根据策略剪去蒙特卡洛搜索树中的叶子节点，进而继续开始下一局棋，直到本代棋谱收集完成。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：在多线程进行收集棋谱的自对弈训练中，同一进程继承同一颗蒙特卡洛搜索树，根据每盘棋结束后蒙特卡洛搜索树的节点判断是否进行落叶，根据策略剪去蒙特卡洛搜索树中的叶子节点，进而继续开始下一局棋，直到本代棋谱收集完成。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的蒙特卡洛树搜索方法。

本发明的另一目的在于提供一种实施所述的蒙特卡洛树搜索方法的蒙特卡洛树搜索系统，所述蒙特卡洛树搜索系统包括：

落叶界值确定模块，用于根据线程总数和内存实际情况确定落叶的上下界值，记为Node_up，Node_down；

棋谱自对弈模块，用于开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表Leave_list，并在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数，记为Node_count；

判断模块，用于判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；若否，则在本线程继续开启下一盘棋；若是，则进行落叶过程，结束后开启本线程的下一盘棋。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的蒙特卡洛树搜索方法，在多线程进行收集棋谱的自对弈训练中，同一进程继承同一颗蒙特卡洛搜索树，根据每盘棋结束后蒙特卡洛搜索树的节点判断是否进行“落叶”，根据策略剪去蒙特卡洛搜索树中的叶子节点，进而继续开始下一局棋，以此类推，直到本代棋谱收集完成。本发明在利用多线程收集棋谱过程中，使棋力有一定进步；同时，可以提高收集到棋谱的多样性，从而提升进化能力。

同时，本发明可以在如自对弈等生成训练集的过程中，提升蒙特卡洛树本身的搜索能力，以及提升训练集的多样性。本发明在根据实际计算机内存的情况下，确定落叶节点数的上下界后，在一个线程中继承一颗蒙特卡洛搜索树，可以在收集训练集的过程中提升搜索树的搜索能力，从而使搜索准确性提升，同时能丰富训练集的多样性。相对于现有技术，本发明还具有以下优点：

(1)本发明在一代中，每一个线程中始终继承同一颗蒙特卡洛搜索树，通过落叶删除价值低的节点。在整个一代的训练集收集中，随着收集的盘数增长，本发明的搜索树的深度相比于一个线程中每一盘棋均从一颗空的蒙特卡洛树开始进行扩展而言明显提升，进而本发明可以提升蒙特卡洛树的搜索能力。

(2)本发明通过在一个线程中继承一棵搜索树，随着收集盘数的增长，每一盘棋的策略也会发生改变，产生自学习的行为，进而提升训练集的多样性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的蒙特卡洛树搜索方法流程图。

图2是本发明实施例提供的蒙特卡洛树搜索方法原理图。

图3是本发明实施例提供的蒙特卡洛树搜索系统结构框图；

图中：1、落叶界值确定模块；2、棋谱自对弈模块；3、判断模块。

图4是本发明实施例提供的加入落叶机制前后完成训练集收集的对比示意图。

图5是本发明实施例提供的训练20代过程中有落叶机制与无落叶机制的胜率图。

图6是本发明实施例提供的使用同一神经网络有落叶执白对无落叶执黑的胜率图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种蒙特卡洛树搜索方法、系统及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的蒙特卡洛树搜索方法包括以下步骤：

S101，根据线程总数和内存实际情况确定落叶的上下界值，记为Node_up，Node_down；

S102，开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表Leave_list，并在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数，记为Node_count；

S103，判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；若否，则在本线程继续开启下一盘棋；若是，则进行落叶过程，结束后开启本线程的下一盘棋。

本发明提供的蒙特卡洛树搜索方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的蒙特卡洛树搜索方法仅仅是一个具体实施例而已。

本发明实施例提供的蒙特卡洛树搜索方法如图2所示。

如图3所示，本发明实施例提供的蒙特卡洛树搜索系统包括：落叶界值确定模块1、棋谱自对弈模块2、判断模块3。

落叶界值确定模块1，用于根据线程总数和内存实际情况确定落叶的上下界值，记为Node_up，Node_down；

棋谱自对弈模块2，用于开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表Leave_list，并在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数，记为Node_count；

判断模块3，用于判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；若否，则在本线程继续开启下一盘棋；若是，则进行落叶过程，结束后开启本线程的下一盘棋。

下面结合实施例对本发明的技术方案作进一步的描述。

本发明的目的是通过以下技术方案实现的：一种蒙特卡洛树搜索方法，包括以下步骤：

步骤1)根据线程总数和内存实际情况确定落叶的上下界值，记为Node_up,Node_down；

步骤2)开始当前代的棋谱自对弈，每一线程从开始到结束均继承同一颗蒙特卡洛搜索树，在每一局棋进行过程中记录叶子节点的列表Leave_list,并在每一局棋结束后记录当前蒙特卡洛搜索树的节点总数，记为Node_count；

步骤3)判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；

步骤4)若否，则在本线程继续开启下一盘棋。

若是，则进行落叶过程。结束后开启本线程的下一盘棋

进一步的，步骤4)中的落叶过程的具体步骤如下：

步骤4.1)计算得到本次落叶过程须落下的节点总数Fall_count，其与树节点总数Node_count和落叶下界值Node_down关系为：

Fall_count＝Node_count–Node_down；

步骤4.2)根据步骤2记录得到的Leave_list,从该列表的头部，即索引为0处取出当前要落下的叶子节点，记为Node_current。

步骤4.3)从Node_current开始做节点中数据的反向更新，即从Node_current开始，将需要更新的值层层回溯给此节点的父节点，直到回溯到根节点为止。

需要更新的值为节点的搜索总次数N,该点的价值Node_value。

每一个父节点具体的更新细节为：

子节点位置处的N＝N–1；

子节点位置处的Q＝Q–Node_value；

子节点位置处的W＝Q/N；

步骤4.4)当更新完成该叶子节点后，判断其父节点是否成为新的叶子节点。若是，则将该父节点加入叶子节点列表Leave_list。

步骤4.5)在蒙特卡洛搜索树上删除该叶子节点，继续跳至步骤4.2)执行。直到Fall_down个节点全部落下为止。

本发明实施例提供的加入落叶机制前后完成训练集收集的对比示意图如图4所示。

有益效果：本发明提供的一种蒙特卡洛树搜索方法，相对于现有技术，具有以下优点：在根据实际计算机内存的情况下，确定落叶节点数的上下界后，在一个线程中继承一颗蒙特卡洛搜索树，可以在收集训练集的过程中提升搜索树的搜索能力，同时能丰富训练集的多样性。具体来说：

本发明在一代中，每一个线程中始终继承同一颗蒙特卡洛搜索树，通过落叶删除价值低的节点。在整个一代的训练集收集中，随着收集的盘数增长，本发明的搜索树的深度相比于一个线程中每一盘棋均从一颗空的蒙特卡洛树开始进行扩展而言明显提升，进而本发明可以提升蒙特卡洛树的搜索能力。

本发明通过在一个线程中继承一棵搜索树，随着收集盘数的增长，每一盘棋的策略也会发生改变，产生自学习的行为，进而提升训练集的多样性。

图5为从同一神经网络开始，分别使用落叶机制和无落叶机制自对弈收集训练集棋谱。在完成的20代训练过程中，每一代两种机制对弈800局，其中执黑执白各400局。从对弈的胜率可以看出，每一代训练并经过神经网络训练后，有落叶机制的神经网络在每一代后的棋力均高于无落叶机制。可以得出有落叶机制的蒙特卡洛树搜索方法具有更快的进化速度。

图6为选取训练好的一代神经网络模型，无落叶机制执黑子，有落叶机制执白子。让两种机制对弈800盘棋，得出有落叶机制白子的胜率曲线。从曲线可以看出，开始因为黑白两方棋力悬殊，白子几乎无法取胜。但随着采用落叶机制的蒙特卡洛搜索树搜索深度的加深，逐渐使白棋自学习，找到更好的搜索策略。所以随着下棋盘数的增加，白棋对黑旗的胜率也在逐步升高。因此可以得出有落叶机制的蒙特卡洛树搜索方法可以使模型在自对弈过程中产生自学习，达到提升棋力和丰富棋谱多样性的效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种蒙特卡洛树搜索方法，其特征在于，所述蒙特卡洛树搜索方法包括：在多线程进行收集棋谱的自对弈训练中，同一进程继承同一颗蒙特卡洛搜索树，根据每盘棋结束后蒙特卡洛搜索树的节点判断是否进行落叶，根据策略剪去蒙特卡洛搜索树中的叶子节点，进而继续开始下一局棋，直到本代棋谱收集完成；

所述蒙特卡洛树搜索方法包括以下步骤：

步骤三，判断当前搜索树上的节点总数Node_count是否大于落叶的上界值Node_up；若否，则在本线程继续开启下一盘棋；若是，则进行落叶过程，结束后开启本线程的下一盘棋；

步骤三中，所述落叶过程，包括：

(2)根据步骤二记录得到的Leave_list，从该列表的头部，即索引为0处取出当前要落下的叶子节点，记为Node_current；

2.如权利要求1所述的蒙特卡洛树搜索方法，其特征在于，步骤(3)中，设置需要更新的值为节点的搜索总次数N，该点的价值Node_value，每一个父节点具体的更新细节为：

子节点位置处的N＝N–1；

子节点位置处的Q＝Q–Node_value；

子节点位置处的W＝Q/N。

3.如权利要求1所述的蒙特卡洛树搜索方法，其特征在于，所述蒙特卡洛树搜索方法，还包括：

4.如权利要求1所述的蒙特卡洛树搜索方法，其特征在于，所述蒙特卡洛树搜索方法，还包括：

5.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～4任意一项所述的蒙特卡洛树搜索方法。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～4任意一项所述的蒙特卡洛树搜索方法。

7.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～4任意一项所述的蒙特卡洛树搜索方法。

8.一种实施权利要求1～4任意一项所述的蒙特卡洛树搜索方法的蒙特卡洛树搜索系统，其特征在于，所述蒙特卡洛树搜索系统包括：