CN108694440A

CN108694440A - 一种实时搜索在线泛化方法

Info

Publication number: CN108694440A
Application number: CN201810455890.3A
Authority: CN
Inventors: 陶黎成; 陈志�; 岳文静; 杨潇; 李尧羿
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-23

Abstract

本发明公开一种实时搜索在线泛化方法，首先输入一个搜索问题，状态的集合为S，给定记忆M和一种状态x并计算记忆近似值，建立蒙特卡洛树搜索模型，进行算法迭代，通过选择权函数的近似值w＝f_τ(‑c).，将M的每一个入口与一种特定条件s∈S相关联，其包含状态的特征表示φ(s)和模拟统计N(s)，访问M包含三种操作：更新、添加与查询，将蒙特卡洛树进行记忆增强，在树搜索期间，使用取代作为状态s的值，本发明解决了原始的蒙特卡洛树搜索在相对有限的搜索时间内产生不准确近似值估计的问题。

Description

一种实时搜索在线泛化方法

技术领域

本发明涉及一种实时搜索在线泛化方法，属于机器博弈、计算机搜索技术领域。

背景技术

实时搜索是对一些信息进行即时、快速搜索，实现即搜即得的效果，所谓“实时搜索”实际是一种人们对于信息实时获取的美好愿望，通过努力我们可以无限接近于搜索的实时实现，目前，很多人都意识到了实时搜索的重要性，目前各大搜索引擎都在致力于实时搜索的实现，网络环境将越来越变得实时化，只要网络技术存在，实时将持续发展，实时搜索的问世使得网络环境将越来越变得实时化、便捷化、简单化，通过实时搜索服务，用户可以快速得到新鲜的第一手草根信息，对国内外事件可以更快速的进行第一时间了解。

随着人工智能技术的快速发展，蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术，除游戏之外，它还在很多现实世界的应用中有着广阔前景，因此，可以将蒙特卡洛树搜索方法与实时搜索方法相结合，提出并评估基于记忆结构值逼近的蒙特卡洛树搜索，为在线实时搜索提供了一种新的通用化方法。

鉴于此，本发明提出一种实时搜索在线泛化方法，该方法结合普通蒙特卡洛树搜索与实时搜索方法，为在线实时搜索提供了一种新的通用化方法，M-蒙特卡洛树搜索的主要思想是将蒙特卡洛树搜索与一个记忆结构合并，每个入口包含特定状态的信息，记忆被用来通过组合类似状态的估计来产生近似值估计，在温和条件下，基于记忆的值近似优于具有高概率的普通蒙特卡洛估计，解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。

发明内容

技术问题：本发明的目的在于提供一种基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法，有效解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。

技术方案：为实现上述目的，本发明提供了一种基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法，该方法包括以下步骤：

步骤1，输入一个搜索问题，其所有可能的状态的集合为S；N_s表示从状态s开始模拟的数量，V*(s)表示一个状态s的真实值；R_s，t表示模拟结果。用表示每一个状态s∈S在模拟中的数值估计。

步骤2，给定记忆M和一种状态x，根据距离尺度d(·,x)M近似描述通过上述方法计算出一种基于记忆的数值估计：

并且满足

表示权函数，M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件。

步骤3，建立蒙特卡洛树搜索模型，将树中的每个节点对应具体的状态s∈S，并包含模拟统计值和模拟数量N(s)，进行算法迭代时，每个模拟从初始状态s0状态开始进入树上阶段和回滚阶段，在搜索树特征状态变为st时，通过老虎机算法选择进入下一个状态；

步骤4，用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异，状态s、x∈S用函数φ:S→R^D来表示,近似得到w＝f_τ(-c).S表示深度卷积神经网络的内层，RD表示采用哈西函数标准化后的深度卷积神经网络的内层，w表示权函数的近似，τ表示平滑因子，c表示矢量ci＝δ_i+ε_i，x，1≤i≤M，将状态s的近似值估计误差表示为：将状态s和状态x的真实值之间的差异表示为：ε_s，x＝|V*(s)-V*(x)|，其中V*(x)表示状态x的真实值；

步骤5，将φ(s)、N(s)的每个入口与特定条件s∈S相关联，进行更新、添加与查询。φ(s)表示M包含状态的特征，表示模拟估计值，N(s)表示模拟数量。

步骤6，将蒙特卡洛树搜索记忆增强，在蒙特卡洛树搜索的树搜索期间，使用取代作为状态s的值。λs表示延迟参数，确保不存在非对称的偏差。当搜索到一个叶状态时，生成一个特征表示函数，即φ(s)，然后将其用于询问记忆的近似值从而更新s的所有过去状态。

进一步的，所述步骤2的具体步骤如下：

步骤21，给定一个记忆M和一种状态x，根据距离尺度d(·,x)M近似描述

步骤22，计算出一种基于记忆的数值估计：X_s，t＝|R_s，t-V*(s)|表示状态s第t次模拟的样本误差；

步骤23，采用蒙特卡洛算法中UCT搜索算法，其中X_s，t服从亚高斯分布，即样本误差的平均数为0，方差的上限为σ²，状态s的近似值估计误差可表示为：而状态s和状态x的真实值之间的差异表示为：ε_s，x＝|V*(s)-V*(x)|，其中V*(x)表示状态x的真实值；

步骤24，根据亚高斯变量的属性，σ²服从―亚高斯分布，令ε_M＝max_i∈M_xε_i，x，从而记忆方案将ε_M控制在[0，ε]区间内，通过记忆结构来辅助近值似估计，记忆的每个入口包含特定状态的特征表示和模拟统计。

进一步的，所述步骤3的具体步骤如下：

步骤31，树中的每个节点对应一个具体的状态s∈S，并包含和模拟数量N(s)；

步骤32，进行算法迭代时，每个模拟从初始状态s0开始，之后进入树上阶段和回滚阶段；

步骤33，在当前的搜索树表征了状态st时，通过老虎机算法选择进入下一个状态；

步骤34，对蒙特卡洛树之外的策略，树将应用Rollout算法模拟一场博弈直到结束，访问状态的轨迹表示为T＝{s0，s1，...,sT}，并在最后获得返回值R，树中的s∈T的统计根据下式进行更新：

N(s)←N(s)+1

在算法的每次迭代中，每个模拟从初始状态s0状态开始，之后进入两个阶段：树上阶段和回滚阶段，在当前的搜索树表征了状态st时，会应用树策略选择一个动作，以达到下一个状态。

进一步的，所述步骤4的具体步骤如下：

步骤41，将φ:S→R^D指定为函数来生成一个状态的特征表示，对于两种状态s，x∈S，用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异，距离函数被设置为两个状态的特征表示的负余弦：ε_s,x≈d(s,x)＝-cos(φ(s),φ(x))；

步骤42，构造φ，将这个过程表示为ζ:S→R^L并分为步骤43与步骤44两个步骤：

步骤43，取深层卷积神经网络的内层输出，并使其标准化，将这个过程表示为ζ：在实际操作中，表示时间消耗的L的值将会很大，因此采取步骤44进行优化；

步骤44，采用特征哈希函数h:R^L→R^D，用φ(s)＝h(ζ(s))计算其特征表示，这一过程利用特征哈希函数内积无偏的性质将ζ(s)标准化，可得：E[cos(φ(s),φ(x))]＝cos(ζ(s),ζ(x))，δ_x表示采样误差项，与模拟的数量成反比：δ_x∝1/N_x；

步骤45，由于在y值极小的情况下，趋近于y+1，结合所述步骤41中等式可得：τ表示平滑因子；

步骤46，通过应用上述近似方法，本模型成为基于核函数的方法的特殊情况，包含局部加权回归和核回归，在此种情况下核函数可表示为：在基于核函数的方法中，τ表示平滑因子，通过应用上述近似方法，本模型成为基于核函数的方法的特殊情况。

进一步的，所述步骤5的具体步骤如下：

步骤51，设置一个记忆M，M的每个入口与特定条件s∈S相关联，其包含状态的特征表示φ(s)和模拟统计模拟数量N(s)，进行更新、添加与查询；

步骤52，更新：如果状态s的模拟统计在蒙特卡洛树搜索中更新了，那该状态在记忆中对应的N(s)的值也应随之更新；

步骤53，添加：为了包含状态s，在记忆中添加一个新的入口：如果s已经在记忆中储存，则仅更新其在记忆中对应N(s)的值，如果记忆达到最大储存限度，则用新的入口替代最早更新或查询的入口；

步骤54，查询：通过查询操作，计算给定状态x∈S的基于内存的近似值，首先，利用距离函数d(.,x)在M中找出与其最相似的状态，这样在记忆中的近似值可以通过计算，根据所述步骤45中的等式计算权值，通过更新、添加与查询操作，计算给定状态x∈S的基于内存的近似值。

进一步的，所述步骤6的具体步骤如下：

步骤61，实时搜索在线泛化方法与常规的蒙特卡洛树搜索的主要区别在于实施搜索在线泛化方法的每一个节点都会存储统计成一个扩展集合：NM表示的估计次数，表示近似记忆值；

步骤62，在蒙特卡洛树搜索的树搜索期间，使用取代作为状态s的值，用于树上选择，λs表示延迟参数以确保不存在非对称的偏差；

步骤63，当搜索到一个叶状态时，只计算叶节点上的值并将值反向传播到它的前一个值。用s_h∈τ表示刚被添加到树上的状态，用φ(s_h)代表其已经计算过的特征表示。

步骤64，然后将s_h用于询问基于记忆的近似值根据下式更新s与s的所有过去状态，其中η≥1，表示衰减参数:

X←max(N_M(s_h)/η^|i-h|,1)

有益效果：与现有技术相比，本发明的有益效果是：M-蒙特卡洛树搜索的主要思想是将蒙特卡洛树搜索与一个记忆结构合并，每个入口包含特定状态的信息，记忆被用来通过组合类似状态的估计来产生近似值估计，本研究表明，在温和条件下，基于记忆的值近似优于具有高概率的普通蒙特卡洛估计，在围棋游戏中评估M-蒙特卡洛树搜索，实验结果表明，M-蒙特卡洛树搜索在相同模拟次数下性能优于原始蒙特卡洛树搜索。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的具体实施方式一起用于解释本发明，并不构成对本发明的限制。

图1是实时搜索在线泛化方法流程图；

图2是搜索到一个叶状态时更新s和s的所有过去状态的示意图。

具体实施方式

本发明提出了一种实时搜索在线泛化方法，用于解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。

结合图1、图2，本发明公开基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法，该方法包括以下步骤：

并且满足

在具体实施中，步骤2的具体步骤如下：

在具体实施中，步骤3的具体步骤如下：

N(s)←N(s)+1

在具体实施中，步骤4的具体步骤如下：

在具体实施中，步骤5的具体步骤如下：

在具体实施中，步骤6的具体步骤如下：

X←max(N_M(s_h)/η^i-h,1)

由此将蒙特卡洛树搜索与一个记忆结构合并，通过结合相似状态的估计，这些记忆被用于生成一个近似值估计。

本发明在具体实施中，将原始的蒙特卡洛树搜索算法与存储框架相结合，来提供基于存储的在线数值近似，主要方法是将蒙特卡洛树搜索与一个记忆结构合并，每个入口包含特定状态的信息，记忆被用来通过组合类似状态的估计来产生近似值估计。

Claims

1.一种实时搜索在线泛化方法，其特征在于，该方法包括以下步骤：

步骤1，输入一个搜索问题，其所有可能的状态的集合为S；N_s表示从状态s开始模拟的数量，V*(s)表示一个状态s的真实值；R_s，t表示模拟结果，用表示每一个状态s∈S在模拟中的数值估计；

并且满足

其中，表示权函数，M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件；

步骤5，将φ(s)、N(s)的每个入口与特定条件s∈S相关联，进行更新、添加与查询。φ(s)表示M包含状态的特征，表示模拟估计值，N(s)表示模拟数量；

步骤6，将蒙特卡洛树搜索结合记忆，在蒙特卡洛树搜索的树搜索期间，使用取代作为状态s的模拟估计值，λs表示延迟参数，确保不存在非对称的偏差，当搜索到一个叶状态时，生成一个特征表示函数，即φ(s)，然后将其用于询问记忆M的近似值从而更新s的所有过去状态。

2.根据权利要求1所述的一种实时搜索在线泛化方法，其特征在于，所述步骤2的具体步骤如下：

步骤23，采用蒙特卡洛算法中的UCT搜索算法，其中X_s，t服从亚高斯分布，样本误差的平均数为0，方差的上限为σ²，yin ci可将状态s的近似值估计误差表示为：而状态s和状态x的真实值之间的差异表示为：ε_s，x＝|V*(s)-V*(x)|，其中V*(x)表示状态x的真实值；

3.根据权利要求1所述的一种实时搜索的在线泛化方法，其特征在于，所述步骤3的具体步骤如下：

4.根据权利要求1所述的一种实时搜索的在线泛化方法，其特征在于，所述步骤4的具体步骤如下：

步骤44，采用特征哈希函数h:R^L→R^D，用φ(s)＝h(ζ(s))计算其特征表示，这一过程利用特征哈希函数内积无偏的性质将ζ(s)标准化，可得：E[cos(φ(s),φ(x))]＝cos(ζ(s),ζ(x))；

步骤46，通过应用上述近似方法，本模型成为基于核函数的方法的特殊情况，包含局部加权回归和核回归，在此种情况下核函数可表示为：

在基于核函数的方法中，τ表示平滑因子，通过应用上述近似方法，本模型成为基于核函数的方法的特殊情况。

5.根据权利要求1或4所述的一种实时搜索在线泛化方法，其特征在于，所述步骤5的具体步骤如下：

6.根据权利要求1所述的一种实时搜索在线泛化方法，其特征在于，所述步骤6的具体步骤如下：

步骤63，当搜索到一个叶状态时，只计算叶节点上的值并将值反向传播到它的前一个值。用表示刚被添加到树上的状态，用φ(s_h)代表其已经计算过的特征表示；

X←max(N_M(s_h)/η^|i-h|,1)