CN112700005A

CN112700005A - 一种基于蒙特卡洛树搜索的异常事件处理方法和装置

Info

Publication number: CN112700005A
Application number: CN202011576874.3A
Authority: CN
Inventors: 董毅; 李新; 武立军; 李兆桐; 翟佳; 彭实; 陈�峰
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-23
Anticipated expiration: 2040-12-28
Also published as: CN112700005B

Abstract

一种基于蒙特卡洛树搜索的异常事件处理方法和装置，包括：监测深海安全事件推演场景中异常事件；当所述异常事件(如海底电缆断裂等)发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案的选择；确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案(如最优的带宽分配策略等)。从而降低该异常事件对经济、民生等方面的安全影响范围及影响程度。

Description

一种基于蒙特卡洛树搜索的异常事件处理方法和装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于蒙特卡洛树搜索的异常事件处理方法和装置。

背景技术

海洋方面的异常突发事件如海啸、海底地震等对国民经济的正常运行造成重大的威胁，然而，目前缺少行之有效的基于数据驱动的异常事件评估及处置机制。与此同时，近年来以深度学习为代表的机器学习技术正蓬勃发展，在诸多领域取得了传统方法无法企及的成绩，那么，将机器学习算法应用在面向海洋领域的异常事件辨析处置决策中，建立以数据为驱动，以机器算法为核心的异常事件辨析处置决策评估机制，当异常事件发生时，根据已经过大规模数据训练完成的机器学习模型进而给出最优的异常事件处置策略，以达到降低事件影响的目的。基于此，开展机器学习在海洋异常事件处置决策领域的应用研究显得十分迫切。

发明内容

本发明所要解决的技术问题是提供一种基于蒙特卡洛树搜索的异常事件处理方法和装置，根据经过大规模数据训练完成的机器学习模型进而给出最优的处置策略，以达到降低事件影响的目的。

第一方面，本发明提供一种基于蒙特卡洛树搜索的异常事件处理方法，包括：

监测深海安全事件推演场景中异常事件；

当所述异常事件发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案；

确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；

确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案。

优选地，确定异常事件发生后的待选处置方案的选择包括：

基于选择、扩展、仿真和回溯来持续优化所述蒙特卡洛搜索树内的策略；进而完成对异常事件发生后的待选处置方案的选择。

优选地，确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估包括：

在蒙特卡洛树搜索的过程中，遇到不在树中的状态，则使用神经网络的结果来更新蒙特卡洛树结构上保存的内容；

在每一次迭代过程中，在当前状态下，每一次移动使用多次蒙特卡洛树搜索；

根据预设的影响光缆破损的每个因素计算全局损失，并强化学习的价值函数部分，计算在当前状态下，采取一行动后所取得的收益。

优选地，确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案包括：

使用贪婪法寻找使得所述异常事件造成的全局损失最小的带宽分配策略。

优选地，所述方法之后还包括：

根据所述最优的带宽分配策略中各个节点的价值，评估当前决策对应的经济损失。

优选地，基于选择、扩展、仿真和回溯来持续优化所述蒙特卡洛搜索树内的策略包括：

所述选择的步骤包括：从根节点开始，每次都选一个“最值得搜索的子节点”，使用上限置信区间算法选择分数最高的节点，直到来到一个“存在未扩展的子节点”的节点；

所述扩展的步骤包括：在这个搜索到的“存在未扩展的子节点”，加上一个空子节点，表示没有历史记录参考；

所述仿真的步骤包括：选择一个需要扩展的节点，随机操作后创建新的节点，返回新增节点的奖励；

所述回溯的步骤包括：输入获取的所述需要扩展的节点和新执行动作的奖励，反馈给扩展节点和上游所有节点并更新对应数据。

优选地，根据所述最优的带宽分配策略中各个节点的价值，评估当前决策对应的经济损失包括：

计算每一个可选动作节点对应的分数，其计算公式如下：

其中，w_i是i节点的总奖励，n_i是i节点的模拟次数，N_i是所有模拟次数，c为探索常数，理论值为

支持根据经验调整，c越大越偏向于广度搜索，c越小越偏向于深度搜索；

选择分数最高的动作节点。

优选地，选择分数最高的动作节点包括：

在训练神经网络阶段，使用模拟搜索得到的样本集合(s,π,z)，训练神经网络的模型参数；对于每个输入s，神经网络输出的p、v和训练样本中的π、z差距尽可能的少；损失函数L的表达式为：

L＝(z-v)²-π^Tlog(p)+c||θ||²

其中，T是超参数，‖·‖表示计算范数，通过训练神经网络，优化神经网络的参数θ，用于蒙特卡洛树搜索过程。

另一方面，本发明还提供一种基于蒙特卡洛树搜索的异常事件处理装置，包括：

监测模块，设置为监测深海安全事件推演场景中异常事件；

模拟模块，设置为当所述异常事件发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案的选择；

评估模块，设置为确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；

分配模块，设置为确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案。

优选地，模拟模块设置为：

与现有技术相比，本发明具有以下优点：

本发明就深海安全事件推演场景而言，选定海底光缆作为对象，当光缆在运行过程中发生意外断裂等情况时，运用蒙特卡洛树搜索和强化学习算法模型算法对事件造成的影响进行评估，并给出最优的异常事件处置方案及最优的带宽分配策略，降低该事件对经济、民生等方面的安全影响范围及影响程度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的基于蒙特卡洛树搜索的异常事件处理方法的流程图；

图2是本发明实施例的基于蒙特卡洛树搜索的异常事件处理装置的结构示意图；

图3是本发明实施例的基于蒙特卡洛搜索的异常事件辨析处置决策评估的示意图；

图4是本发明实施例的蒙特卡洛搜索树的示意图；其中，图4(a)为蒙特卡洛搜索树选择阶段的示意图；图4(b)为蒙特卡洛搜索树扩展阶段的示意图；图4(c)为蒙特卡洛搜索树仿真阶段的示意图；图4(d)为蒙特卡洛搜索树回溯阶段的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

图1为本发明实施例的一种基于蒙特卡洛树搜索的异常事件处理方法的示意图，所述方法可以包括如下步骤S101至步骤S103：

S101、监测深海安全事件推演场景中异常事件；

S102、当所述异常事件发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案的选择；

S103、确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；

S104、确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案。

本发明实施例监测深海安全事件推演场景中异常事件；当所述异常事件(如海底电缆断裂等)发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案的选择；确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案(如最优的带宽分配策略等)。从而降低该异常事件对经济、民生等方面的安全影响范围及影响程度。

本发明实施例中，步骤S102确定异常事件发生后的待选处置方案的选择包括：

本发明实施例中，步骤S103确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估包括：

本发明实施例中，步骤S104确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案包括：

本发明实施例针对海洋异常突发事件给国民经济多方面造成重大损失，而目前缺少有效的异常事件评估及处置策略，因此，本发明利用蒙特卡洛树搜索的技术对异常事件进行评估、辨析、处置和决策，该技术采用蒙特卡洛树搜索法通过采样建立蒙特卡洛树并通过多种机制持续优化树内的策略，同时，融合影响光缆破损的每个因素，一方面用以计算异常事件发生后造成的全局损失，另一方面则作为强化学习的价值函数部分，进而寻找使异常事件造成的全局损失最小的处置方案，同时，此过程中产生大量样本用以训练深度神经网络，该神经网络模型帮助蒙特卡洛树搜索评估改进策略。在实验中以深海安全事件推演为应用场景，选定海底光缆作为对象，当光缆在运行过程中发生意外断裂等情况时，运用本发明中提出的方法对该异常事件造成的影响进行评估，并给出异常事件处置方案即最优的带宽分配策略，从而降低该异常事件对经济、民生等方面的安全影响范围及影响程度。

本发明实施例中，所述方法之后还包括：

本发明实施例中，基于选择、扩展、仿真和回溯来持续优化所述蒙特卡洛搜索树内的策略包括：

本发明实施例中，根据所述最优的带宽分配策略中各个节点的价值，评估当前决策对应的经济损失包括：

计算每一个可选动作节点对应的分数，其计算公式如下：

选择分数最高的动作节点。

本发明实施例中，选择分数最高的动作节点包括：

L＝(z-v)²-π^Tlog(p)+c||θ||²

本发明实施例中，采用蒙特卡洛树搜索法通过对异常事件处置方案空间进行采样建立蒙特卡洛树搜索树，并基于选择，扩展，仿真和回溯四大机制来持续优化树内的策略，进而完成对异常事件发生后的不同处置方案的选择。

本发明实施例在蒙特卡洛树搜索异常事件最优处置方案的过程中，当采取某种处置方案后的处置结果不在树中时，则采用神经网络的近似结果进行替代，而在每次迭代中，则采用多次蒙特卡洛树搜索模拟当前情境下每一次事件处置，最终由蒙特卡洛树搜索来完成异常事件处置方案优化。

本发明实施例在获得针对当前处置方案的推演结果后，使用上限置信区间算法来选择最优处置方案，然后再根据影响光缆破损的因素的不同来评估当前处置方案所能减少的损失。同时，在此过程中采用神经网络方法用以优化蒙特卡洛树搜索评估改进策略。

本发明实施例中蒙特卡洛搜索算法的作用是用来寻找使异常事件造成的全局损失最小的异常事件处置方案，政治、经济等因素主要起两个作用，第一个是用来计算异常事件发生后造成的全局损失，第二个是作为强化学习的价值函数部分，来计算在当前状态下，采取某一个处置方案后所取得的收益，使用贪婪法或其他方法来寻找能使收益最大的处置方案，即下一步的异常事件处置方法。

实施例二

如图2所示，本发明实施例提供一种基于蒙特卡洛树搜索的异常事件处理装置，包括：

监测模块100，设置为监测深海安全事件推演场景中异常事件；

模拟模块200，设置为当所述异常事件发生时；通过对异常事件处理方案空间进行采样建立蒙特卡洛搜索树；并确定异常事件发生后的待选处置方案的选择；

评估模块300，设置为确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估；

分配模块400，设置为确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案。

本发明实施例中，模拟模块设置为：

本发明实施例中，评估模块设置为：

本发明实施例中，分配模块设置为：

实施例三

如图3所示，本实施例基于蒙特卡洛搜索的异常事件辨析处置决策评估的过程：

当异常事件发生时，根据已经过大规模数据训练完成的机器学习模型进而给出最优的处置策略，以达到降低事件影响的目的。本实施例采用蒙特卡洛树搜索法通过采样建立蒙特卡洛搜索树并通过多种机制持续优化树内的策略，同时，融合政治、经济等因素，一方面用以计算全局损失，另一方面则作为强化学习的价值函数部分，进而寻找使异常事件造成的全局损失最小的处置方案，同时，此过程中产生大量样本用以训练深度神经网络，该神经网络模型帮助蒙特卡洛树搜索评估改进策略。就深海安全事件推演场景而言，选定海底光缆作为对象，当光缆在运行过程中发生意外断裂等情况时，运用蒙特卡洛树搜索和强化学习算法模型算法对事件造成的影响进行评估，并给出最优的异常事件处置方案及最优的带宽分配策略，降低该事件对经济、民生等方面的安全影响范围及影响程度。

具体地：

蒙特卡洛树搜索法通过采样建立蒙特卡洛搜索树，并基于4大步骤选择，扩展，仿真和回溯来持续优化树内的策略，进而可以帮助对状态下的动作进行选择。

第一步是选择，这一步会从根节点开始，每次都选一个“最值得搜索的子节点”，一般使用上限置信区间算法选择分数最高的节点，直到来到一个“存在未扩展的子节点”的节点。

第二步是扩展，在这个搜索到的存在未扩展的子节点，加上一个空子节点，表示没有历史记录参考。

第三步是仿真，选择一个需要扩展的节点，随机操作后创建新的节点，返回新增节点的奖励。

第四步是回溯，输入前面获取需要扩展的节点和新执行动作的奖励，反馈给扩展节点和上游所有节点并更新对应数据

在模拟分配阶段，每一次的带宽分配是由蒙特卡洛树搜索来完成的。在蒙特卡洛树搜索的过程中，遇到不在树中的状态，则使用神经网络的结果来更新蒙特卡洛树结构上保存的内容。在每一次迭代过程中，在当前状态下，每一次移动使用多次蒙特卡洛树搜索模拟。最终蒙特卡洛树给出最优的带宽分配策略,这样可以得到非常多的样本,这些数据可以训练神经网络。

强化学习算法的作用是用来寻找使光缆破损造成的全局损失最小的带宽分配方案，政治、经济等因素主要起两个作用，第一个是用来计算全局损失，第二个是作为强化学习的价值函数部分，来计算在当前状态下，采取某一个行动后所取得的收益，使用贪婪法或其他方法来寻找能使收益最大的动作，即下一步的带宽分配方法。

有了对当前决策的推演结果后，可以根据各个节点的价值的不同来评估当前决策所能减少的经济损失。

在扩展阶段，使用上限置信区间算法来选择“最值得探索的节点”，其与传统树搜索技术的最大区别在于不同的分支可以有不同的搜索深度。UCT(Upper Confidence BoundApply to Tree，上限置信区间)算法在不同的深度获取评估值.对于最有“希望”求解问题的分支，UCT算法的搜索深度可以很深(远大于传统树搜索算法的的搜索深度d)，而对于“希望”不大的分支，其搜索深度可以很浅(远小于d)。当最有“希望”求解问题的分支数量远少于“希望”不大的分支数量时，UCT算法就可以把搜索资源有效地用于最有“希望”求解问题的分支，从而获得比传统搜索算法更深的有效深度d′。

UCT首先计算每一个可选动作节点对应的分数，这个分数考虑了历史最优策略和探索度，其计算公式如下：

支持根据经验调整，c越大越偏向于广度搜索，c越小越偏向于深度搜索；最后，选择分数最高的动作节点。由于问题的状态集合规模大，蒙特卡洛树搜索会因为搜索空间巨大而变得效率下降，因此需要一个简单的策略来帮助蒙特卡洛树搜索评估改进策略，这个策略改进部分由神经网络完成。

在训练神经网络阶段，使用之前模拟搜索得到的样本集合(s,π,z),训练神经网络的模型参数；训练的目的是对于每个输入s，神经网络输出的p、v和我们训练样本中的π、z差距尽可能的少。这个损失函数L为：

L＝(z-v)²-π^Tlog(p)+c||θ||²

损失函数由三部分组成，第一部分是均方误差损失函数，用于评估神经网络预测的结果和真实结果之间的差异。第二部分是交叉熵损失函数，用于评估神经网络的输出策略和蒙特卡洛树搜索输出的策略的差异。第三部分是L2正则化项。通过训练神经网络，能够优化神经网络的参数θ,用于后续指导我们的蒙特卡洛树搜索过程。

综上所述，在整个异常事件辨析处置决策评估过程中采用了多种先进的机器学习算法，包括蒙特卡洛树搜索算法、上限置信区间算法、人工神经网络等，取得令人满意的异常事件评估及处置结果。

实施例四

本实施例说明蒙特卡洛树搜索的实验结果：

蒙特卡洛树搜索是一种基于树结构的蒙特卡洛方法，所谓的蒙特卡洛树搜索就是基于蒙特卡洛方法在整个2^N(N等于决策次数，即树深度)空间中进行启发式搜索，基于一定的反馈寻找出最优的树结构路径(可行解)。概括来说就是，MCTS(Monte Carlo TreeSearch，蒙特卡洛树搜索)是一种确定规则驱动的启发式随机搜索算法。

MCTS的5个主要核心部分

1树结构树结构定义了一个可行解的解空间，每一个叶子节点到根节点的路径都对应了一个解(solution)，解空间的大小为2N(N等于决策次数，即树深度)

2蒙特卡洛方法MSTC不需要事先给定打标样本，随机统计方法充当了驱动力的作用，通过随机统计实验获取观测结果。

3损失评估函数有一个根据一个确定的规则设计的可量化的损失函数(目标驱动的损失函数)，它提供一个可量化的确定性反馈，用于评估解的优劣。从某种角度来说，MCTS是通过随机模拟寻找损失函数代表的背后“真实函数”。

4反向传播线性优化每次获得一条路径的损失结果后，采用反向传播(Backpropagation)对整条路径上的所有节点进行整体优化，优化过程连续可微。

5启发式搜索策略算法遵循损失最小化的原则在整个搜索空间上进行启发式搜索，直到找到一组最优解或者提前终止。

MCTS的算法分为四步，如图4所示，第一步是选择，如图4(a)所示，是在树中找到一个最好的值得探索的节点，一般策略是先选择未被探索的子节点，如果都探索过就选择UCB值最大的子节点。第二步是扩展，如图4(b)所示，就是在前面选中的子节点中走一步创建一个新的子节点，一般策略是随机自行一个操作并且这个操作不能与前面的子节点重复。第三步是仿真，如图4(c)所示，就是在前面新扩展出来的节点开始模拟游戏，直到到达游戏结束状态，这样可以收到到这个扩展出来的节点的得分是多少。第四步是回溯，如图4(d)所示就是把前面扩展出来的节点得分反馈到前面所有父节点中，更新这些节点的qualityvalue(质量值)和visit times(访问时间)，方便计算UCB值。

本实施例以深海突发异常事件为应用场景，选定海底电缆作为推演对象，当海底电缆在运行过程中发生意外断裂等情况时，运用蒙特卡洛树搜索和强化学习算法模型算法对事件造成的影响进行评估，并给出最优的带宽分配策略，降低该事件对经济、民生等方面的安全影响范围及影响程度。

本实施例实验中主要收集了与海底电缆断裂事件相关的经济和社会方面的数据，在经济数据方面，搜集了近十年金融业、工业及其他行业的经济增加值、近十年各行业对外出口总额，建立各行业的经济影响力模型；在社会数据方面，我们查阅资料建立了网速与用户满意度之间的模型，搜集了近十年各行业提供就业岗位情况，建立各行业的社会影响力模型，上述实验数据约有10万条。

在上述实验数据的基础上，分别采用本发明中所提出的方法以及基于传统机器学习的方法进行异常事件辨析处置决策评估实验，实验结果表明，与基于传统机器学习的方法相比，本发明中所提出的方法在异常突发事件处置响应速度方面有15％的提升，同时，在异常事件辨析处置决策评估准确性上有10％的提升。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种基于蒙特卡洛树搜索的异常事件处理方法，其特征在于，包括：

监测深海安全事件推演场景中异常事件；

2.根据权利要求1所述的异常事件处理方法，其特征在于，确定异常事件发生后的待选处置方案的选择包括：

3.根据权利要求2所述的异常事件处理方法，其特征在于，确定采取每一种所述待选处置方案所取得的收益，对所述异常事件造成的影响进行评估包括：

4.根据权利要求1至3任一所述的异常事件处理方法，其特征在于，确定使所述异常事件造成的全局损失最小的处置方案，获得最优的异常事件处置方案包括：

5.根据权利要求1至3任一所述的异常事件处理方法，其特征在于，所述方法之后还包括：

6.根据权利要求2所述的异常事件处理方法，其特征在于，基于选择、扩展、仿真和回溯来持续优化所述蒙特卡洛搜索树内的策略包括：

7.根据权利要求5所述的异常事件处理方法，其特征在于，根据所述最优的带宽分配策略中各个节点的价值，评估当前决策对应的经济损失包括：

计算每一个可选动作节点对应的分数，其计算公式如下：

选择分数最高的动作节点。

8.根据权利要求7所述的异常事件处理方法，其特征在于，选择分数最高的动作节点包括：

L＝(z-v)²-π^Tlog(p)+c||θ||²

9.一种基于蒙特卡洛树搜索的异常事件处理装置，其特征在于，包括：

监测模块，设置为监测深海安全事件推演场景中异常事件；

10.根据权利要求9所述的异常事件处理装置，其特征在于，模拟模块设置为：