CN108694440A - 一种实时搜索在线泛化方法 - Google Patents

一种实时搜索在线泛化方法 Download PDF

Info

Publication number
CN108694440A
CN108694440A CN201810455890.3A CN201810455890A CN108694440A CN 108694440 A CN108694440 A CN 108694440A CN 201810455890 A CN201810455890 A CN 201810455890A CN 108694440 A CN108694440 A CN 108694440A
Authority
CN
China
Prior art keywords
state
search
memory
tree
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810455890.3A
Other languages
English (en)
Inventor
陶黎成
陈志�
岳文静
杨潇
李尧羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810455890.3A priority Critical patent/CN108694440A/zh
Publication of CN108694440A publication Critical patent/CN108694440A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种实时搜索在线泛化方法,首先输入一个搜索问题,状态的集合为S,给定记忆M和一种状态x并计算记忆近似值,建立蒙特卡洛树搜索模型,进行算法迭代,通过选择权函数的近似值w=fτ(‑c).,将M的每一个入口与一种特定条件s∈S相关联,其包含状态的特征表示φ(s)和模拟统计N(s),访问M包含三种操作:更新、添加与查询,将蒙特卡洛树进行记忆增强,在树搜索期间,使用取代作为状态s的值,本发明解决了原始的蒙特卡洛树搜索在相对有限的搜索时间内产生不准确近似值估计的问题。

Description

一种实时搜索在线泛化方法
技术领域
本发明涉及一种实时搜索在线泛化方法,属于机器博弈、计算机搜索技术领域。
背景技术
实时搜索是对一些信息进行即时、快速搜索,实现即搜即得的效果,所谓“实时搜索”实际是一种人们对于信息实时获取的美好愿望,通过努力我们可以无限接近于搜索的实时实现,目前,很多人都意识到了实时搜索的重要性,目前各大搜索引擎都在致力于实时搜索的实现,网络环境将越来越变得实时化,只要网络技术存在,实时将持续发展,实时搜索的问世使得网络环境将越来越变得实时化、便捷化、简单化,通过实时搜索服务,用户可以快速得到新鲜的第一手草根信息,对国内外事件可以更快速的进行第一时间了解。
随着人工智能技术的快速发展,蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之外,它还在很多现实世界的应用中有着广阔前景,因此,可以将蒙特卡洛树搜索方法与实时搜索方法相结合,提出并评估基于记忆结构值逼近的蒙特卡洛树搜索,为在线实时搜索提供了一种新的通用化方法。
鉴于此,本发明提出一种实时搜索在线泛化方法,该方法结合普通蒙特卡洛树搜索与实时搜索方法,为在线实时搜索提供了一种新的通用化方法,M-蒙特卡洛树搜索的主要思想是将蒙特卡洛树搜索与一个记忆结构合并,每个入口包含特定状态的信息,记忆被用来通过组合类似状态的估计来产生近似值估计,在温和条件下,基于记忆的值近似优于具有高概率的普通蒙特卡洛估计,解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。
发明内容
技术问题:本发明的目的在于提供一种基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法,有效解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。
技术方案:为实现上述目的,本发明提供了一种基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法,该方法包括以下步骤:
步骤1,输入一个搜索问题,其所有可能的状态的集合为S;Ns表示从状态s开始模拟的数量,V*(s)表示一个状态s的真实值;Rs,t表示模拟结果。用 表示每一个状态s∈S在模拟中的数值估计。
步骤2,给定记忆M和一种状态x,根据距离尺度d(·,x)M近似描述 通过上述方法计算出一种基于记忆的数值估计:
并且满足
表示权函数,M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件。
步骤3,建立蒙特卡洛树搜索模型,将树中的每个节点对应具体的状态s∈S,并包含模拟统计值和模拟数量N(s),进行算法迭代时,每个模拟从初始状态s0状态开始进入树上阶段和回滚阶段,在搜索树特征状态变为st时,通过老虎机算法选择进入下一个状态;
步骤4,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,状态s、x∈S用函数φ:S→RD来表示,近似得到w=fτ(-c).S表示深度卷积神经网络的内层,RD表示采用哈西函数标准化后的深度卷积神经网络的内层,w表示权函数的近似,τ表示平滑因子,c表示矢量ci=δii,x,1≤i≤M,将状态s的近似值估计误差表示为:将状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤5,将φ(s)、N(s)的每个入口与特定条件s∈S相关联,进行更新、添加与查询。φ(s)表示M包含状态的特征,表示模拟估计值,N(s)表示模拟数量。
步骤6,将蒙特卡洛树搜索记忆增强,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的值。λs表示延迟参数,确保不存在非对称的偏差。当搜索到一个叶状态时,生成一个特征表示函数,即φ(s),然后将其用于询问记忆的近似值从而更新s的所有过去状态。
进一步的,所述步骤2的具体步骤如下:
步骤21,给定一个记忆M和一种状态x,根据距离尺度d(·,x)M近似描述
步骤22,计算出一种基于记忆的数值估计:Xs,t=|Rs,t-V*(s)|表示状态s第t次模拟的样本误差;
步骤23,采用蒙特卡洛算法中UCT搜索算法,其中Xs,t服从亚高斯分布,即样本误差的平均数为0,方差的上限为σ2,状态s的近似值估计误差可表示为:而状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤24,根据亚高斯变量的属性,σ2服从―亚高斯分布,令εM=maxi∈Mxεi,x,从而记忆方案将εM控制在[0,ε]区间内,通过记忆结构来辅助近值似估计,记忆的每个入口包含特定状态的特征表示和模拟统计。
进一步的,所述步骤3的具体步骤如下:
步骤31,树中的每个节点对应一个具体的状态s∈S,并包含和模拟数量N(s);
步骤32,进行算法迭代时,每个模拟从初始状态s0开始,之后进入树上阶段和回滚阶段;
步骤33,在当前的搜索树表征了状态st时,通过老虎机算法选择进入下一个状态;
步骤34,对蒙特卡洛树之外的策略,树将应用Rollout算法模拟一场博弈直到结束,访问状态的轨迹表示为T={s0,s1,...,sT},并在最后获得返回值R,树中的s∈T的统计根据下式进行更新:
N(s)←N(s)+1
在算法的每次迭代中,每个模拟从初始状态s0状态开始,之后进入两个阶段:树上阶段和回滚阶段,在当前的搜索树表征了状态st时,会应用树策略选择一个动作,以达到下一个状态。
进一步的,所述步骤4的具体步骤如下:
步骤41,将φ:S→RD指定为函数来生成一个状态的特征表示,对于两种状态s,x∈S,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,距离函数被设置为两个状态的特征表示的负余弦:εs,x≈d(s,x)=-cos(φ(s),φ(x));
步骤42,构造φ,将这个过程表示为ζ:S→RL并分为步骤43与步骤44两个步骤:
步骤43,取深层卷积神经网络的内层输出,并使其标准化,将这个过程表示为ζ:在实际操作中,表示时间消耗的L的值将会很大,因此采取步骤44进行优化;
步骤44,采用特征哈希函数h:RL→RD,用φ(s)=h(ζ(s))计算其特征表示,这一过程利用特征哈希函数内积无偏的性质将ζ(s)标准化,可得:E[cos(φ(s),φ(x))]=cos(ζ(s),ζ(x)),δx表示采样误差项,与模拟的数量成反比:δx∝1/Nx
步骤45,由于在y值极小的情况下,趋近于y+1,结合所述步骤41中等式可得:τ表示平滑因子;
步骤46,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况,包含局部加权回归和核回归,在此种情况下核函数可表示为:在基于核函数的方法中,τ表示平滑因子,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况。
进一步的,所述步骤5的具体步骤如下:
步骤51,设置一个记忆M,M的每个入口与特定条件s∈S相关联,其包含状态的特征表示φ(s)和模拟统计模拟数量N(s),进行更新、添加与查询;
步骤52,更新:如果状态s的模拟统计在蒙特卡洛树搜索中更新了,那该状态在记忆中对应的N(s)的值也应随之更新;
步骤53,添加:为了包含状态s,在记忆中添加一个新的入口:如果s已经在记忆中储存,则仅更新其在记忆中对应N(s)的值,如果记忆达到最大储存限度,则用新的入口替代最早更新或查询的入口;
步骤54,查询:通过查询操作,计算给定状态x∈S的基于内存的近似值,首先,利用距离函数d(.,x)在M中找出与其最相似的状态,这样在记忆中的近似值可以通过计算,根据所述步骤45中的等式计算权值,通过更新、添加与查询操作,计算给定状态x∈S的基于内存的近似值。
进一步的,所述步骤6的具体步骤如下:
步骤61,实时搜索在线泛化方法与常规的蒙特卡洛树搜索的主要区别在于实施搜索在线泛化方法的每一个节点都会存储统计成一个扩展集合:NM表示的估计次数,表示近似记忆值;
步骤62,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的值,用于树上选择,λs表示延迟参数以确保不存在非对称的偏差;
步骤63,当搜索到一个叶状态时,只计算叶节点上的值并将值反向传播到它的前一个值。用sh∈τ表示刚被添加到树上的状态,用φ(sh)代表其已经计算过的特征表示。
步骤64,然后将sh用于询问基于记忆的近似值根据下式更新s与s的所有过去状态,其中η≥1,表示衰减参数:
X←max(NM(sh)/η|i-h|,1)
有益效果:与现有技术相比,本发明的有益效果是:M-蒙特卡洛树搜索的主要思想是将蒙特卡洛树搜索与一个记忆结构合并,每个入口包含特定状态的信息,记忆被用来通过组合类似状态的估计来产生近似值估计,本研究表明,在温和条件下,基于记忆的值近似优于具有高概率的普通蒙特卡洛估计,在围棋游戏中评估M-蒙特卡洛树搜索,实验结果表明,M-蒙特卡洛树搜索在相同模拟次数下性能优于原始蒙特卡洛树搜索。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的具体实施方式一起用于解释本发明,并不构成对本发明的限制。
图1是实时搜索在线泛化方法流程图;
图2是搜索到一个叶状态时更新s和s的所有过去状态的示意图。
具体实施方式
本发明提出了一种实时搜索在线泛化方法,用于解决原始蒙特卡洛树搜索在相对有限的搜索时间内产生不准确的估计的问题。
结合图1、图2,本发明公开基于记忆增强与蒙特卡洛树搜索的实时搜索在线泛化方法,该方法包括以下步骤:
步骤1,输入一个搜索问题,其所有可能的状态的集合为S;Ns表示从状态s开始模拟的数量,V*(s)表示一个状态s的真实值;Rs,t表示模拟结果。用 表示每一个状态s∈S在模拟中的数值估计。
步骤2,给定记忆M和一种状态x,根据距离尺度d(·,x)M近似描述 通过上述方法计算出一种基于记忆的数值估计:
并且满足
表示权函数,M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件。
步骤3,建立蒙特卡洛树搜索模型,将树中的每个节点对应具体的状态s∈S,并包含模拟统计值和模拟数量N(s),进行算法迭代时,每个模拟从初始状态s0状态开始进入树上阶段和回滚阶段,在搜索树特征状态变为st时,通过老虎机算法选择进入下一个状态;
步骤4,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,状态s、x∈S用函数φ:S→RD来表示,近似得到w=fτ(-c).S表示深度卷积神经网络的内层,RD表示采用哈西函数标准化后的深度卷积神经网络的内层,w表示权函数的近似,τ表示平滑因子,c表示矢量ci=δii,x,1≤i≤M,将状态s的近似值估计误差表示为:将状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤5,将φ(s)、N(s)的每个入口与特定条件s∈S相关联,进行更新、添加与查询。φ(s)表示M包含状态的特征,表示模拟估计值,N(s)表示模拟数量。
步骤6,将蒙特卡洛树搜索记忆增强,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的值。λs表示延迟参数,确保不存在非对称的偏差。当搜索到一个叶状态时,生成一个特征表示函数,即φ(s),然后将其用于询问记忆的近似值从而更新s的所有过去状态。
在具体实施中,步骤2的具体步骤如下:
步骤21,给定一个记忆M和一种状态x,根据距离尺度d(·,x)M近似描述
步骤22,计算出一种基于记忆的数值估计:Xs,t=|Rs,t-V*(s)|表示状态s第t次模拟的样本误差;
步骤23,采用蒙特卡洛算法中UCT搜索算法,其中Xs,t服从亚高斯分布,即样本误差的平均数为0,方差的上限为σ2,状态s的近似值估计误差可表示为:而状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤24,根据亚高斯变量的属性,σ2服从―亚高斯分布,令εM=maxi∈Mxεi,x,从而记忆方案将εM控制在[0,ε]区间内,通过记忆结构来辅助近值似估计,记忆的每个入口包含特定状态的特征表示和模拟统计。
在具体实施中,步骤3的具体步骤如下:
步骤31,树中的每个节点对应一个具体的状态s∈S,并包含和模拟数量N(s);
步骤32,进行算法迭代时,每个模拟从初始状态s0开始,之后进入树上阶段和回滚阶段;
步骤33,在当前的搜索树表征了状态st时,通过老虎机算法选择进入下一个状态;
步骤34,对蒙特卡洛树之外的策略,树将应用Rollout算法模拟一场博弈直到结束,访问状态的轨迹表示为T={s0,s1,...,sT},并在最后获得返回值R,树中的s∈T的统计根据下式进行更新:
N(s)←N(s)+1
在算法的每次迭代中,每个模拟从初始状态s0状态开始,之后进入两个阶段:树上阶段和回滚阶段,在当前的搜索树表征了状态st时,会应用树策略选择一个动作,以达到下一个状态。
在具体实施中,步骤4的具体步骤如下:
步骤41,将φ:S→RD指定为函数来生成一个状态的特征表示,对于两种状态s,x∈S,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,距离函数被设置为两个状态的特征表示的负余弦:εs,x≈d(s,x)=-cos(φ(s),φ(x));
步骤42,构造φ,将这个过程表示为ζ:S→RL并分为步骤43与步骤44两个步骤:
步骤43,取深层卷积神经网络的内层输出,并使其标准化,将这个过程表示为ζ:在实际操作中,表示时间消耗的L的值将会很大,因此采取步骤44进行优化;
步骤44,采用特征哈希函数h:RL→RD,用φ(s)=h(ζ(s))计算其特征表示,这一过程利用特征哈希函数内积无偏的性质将ζ(s)标准化,可得:E[cos(φ(s),φ(x))]=cos(ζ(s),ζ(x)),δx表示采样误差项,与模拟的数量成反比:δx∝1/Nx
步骤45,由于在y值极小的情况下,趋近于y+1,结合所述步骤41中等式可得:τ表示平滑因子;
步骤46,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况,包含局部加权回归和核回归,在此种情况下核函数可表示为:在基于核函数的方法中,τ表示平滑因子,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况。
在具体实施中,步骤5的具体步骤如下:
步骤51,设置一个记忆M,M的每个入口与特定条件s∈S相关联,其包含状态的特征表示φ(s)和模拟统计模拟数量N(s),进行更新、添加与查询;
步骤52,更新:如果状态s的模拟统计在蒙特卡洛树搜索中更新了,那该状态在记忆中对应的N(s)的值也应随之更新;
步骤53,添加:为了包含状态s,在记忆中添加一个新的入口:如果s已经在记忆中储存,则仅更新其在记忆中对应N(s)的值,如果记忆达到最大储存限度,则用新的入口替代最早更新或查询的入口;
步骤54,查询:通过查询操作,计算给定状态x∈S的基于内存的近似值,首先,利用距离函数d(.,x)在M中找出与其最相似的状态,这样在记忆中的近似值可以通过计算,根据所述步骤45中的等式计算权值,通过更新、添加与查询操作,计算给定状态x∈S的基于内存的近似值。
在具体实施中,步骤6的具体步骤如下:
步骤61,实时搜索在线泛化方法与常规的蒙特卡洛树搜索的主要区别在于实施搜索在线泛化方法的每一个节点都会存储统计成一个扩展集合:NM表示的估计次数,表示近似记忆值;
步骤62,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的值,用于树上选择,λs表示延迟参数以确保不存在非对称的偏差;
步骤63,当搜索到一个叶状态时,只计算叶节点上的值并将值反向传播到它的前一个值。用sh∈τ表示刚被添加到树上的状态,用φ(sh)代表其已经计算过的特征表示。
步骤64,然后将sh用于询问基于记忆的近似值根据下式更新s与s的所有过去状态,其中η≥1,表示衰减参数:
X←max(NM(sh)/ηi-h,1)
由此将蒙特卡洛树搜索与一个记忆结构合并,通过结合相似状态的估计,这些记忆被用于生成一个近似值估计。
本发明在具体实施中,将原始的蒙特卡洛树搜索算法与存储框架相结合,来提供基于存储的在线数值近似,主要方法是将蒙特卡洛树搜索与一个记忆结构合并,每个入口包含特定状态的信息,记忆被用来通过组合类似状态的估计来产生近似值估计。

Claims (6)

1.一种实时搜索在线泛化方法,其特征在于,该方法包括以下步骤:
步骤1,输入一个搜索问题,其所有可能的状态的集合为S;Ns表示从状态s开始模拟的数量,V*(s)表示一个状态s的真实值;Rs,t表示模拟结果,用 表示每一个状态s∈S在模拟中的数值估计;
步骤2,给定记忆M和一种状态x,根据距离尺度d(·,x)M近似描述 通过上述方法计算出一种基于记忆的数值估计:
并且满足
其中,表示权函数,M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件;
步骤3,建立蒙特卡洛树搜索模型,将树中的每个节点对应具体的状态s∈S,并包含模拟统计值和模拟数量N(s),进行算法迭代时,每个模拟从初始状态s0状态开始进入树上阶段和回滚阶段,在搜索树特征状态变为st时,通过老虎机算法选择进入下一个状态;
步骤4,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,状态s、x∈S用函数φ:S→RD来表示,近似得到w=fτ(-c).S表示深度卷积神经网络的内层,RD表示采用哈西函数标准化后的深度卷积神经网络的内层,w表示权函数的近似,τ表示平滑因子,c表示矢量ci=δii,x,1≤i≤M,将状态s的近似值估计误差表示为:将状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤5,将φ(s)、N(s)的每个入口与特定条件s∈S相关联,进行更新、添加与查询。φ(s)表示M包含状态的特征,表示模拟估计值,N(s)表示模拟数量;
步骤6,将蒙特卡洛树搜索结合记忆,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的模拟估计值,λs表示延迟参数,确保不存在非对称的偏差,当搜索到一个叶状态时,生成一个特征表示函数,即φ(s),然后将其用于询问记忆M的近似值从而更新s的所有过去状态。
2.根据权利要求1所述的一种实时搜索在线泛化方法,其特征在于,所述步骤2的具体步骤如下:
步骤21,给定一个记忆M和一种状态x,根据距离尺度d(·,x)M近似描述
步骤22,计算出一种基于记忆的数值估计:Xs,t=|Rs,t-V*(s)|表示状态s第t次模拟的样本误差;
步骤23,采用蒙特卡洛算法中的UCT搜索算法,其中Xs,t服从亚高斯分布,样本误差的平均数为0,方差的上限为σ2,yin ci可将状态s的近似值估计误差表示为:而状态s和状态x的真实值之间的差异表示为:εs,x=|V*(s)-V*(x)|,其中V*(x)表示状态x的真实值;
步骤24,根据亚高斯变量的属性,σ2服从―亚高斯分布,令εM=maxi∈Mxεi,x,从而记忆方案将εM控制在[0,ε]区间内,通过记忆结构来辅助近值似估计,记忆的每个入口包含特定状态的特征表示和模拟统计。
3.根据权利要求1所述的一种实时搜索的在线泛化方法,其特征在于,所述步骤3的具体步骤如下:
步骤31,树中的每个节点对应一个具体的状态s∈S,并包含和模拟数量N(s);
步骤32,进行算法迭代时,每个模拟从初始状态s0开始,之后进入树上阶段和回滚阶段;
步骤33,在当前的搜索树表征了状态st时,通过老虎机算法选择进入下一个状态;
步骤34,对蒙特卡洛树之外的策略,树将应用Rollout算法模拟一场博弈直到结束,访问状态的轨迹表示为T={s0,s1,...,sT},并在最后获得返回值R,树中的s∈T的统计根据下式进行更新:
在算法的每次迭代中,每个模拟从初始状态s0状态开始,之后进入两个阶段:树上阶段和回滚阶段,在当前的搜索树表征了状态st时,会应用树策略选择一个动作,以达到下一个状态。
4.根据权利要求1所述的一种实时搜索的在线泛化方法,其特征在于,所述步骤4的具体步骤如下:
步骤41,将φ:S→RD指定为函数来生成一个状态的特征表示,对于两种状态s,x∈S,用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异,距离函数被设置为两个状态的特征表示的负余弦:εs,x≈d(s,x)=-cos(φ(s),φ(x));
步骤42,构造φ,将这个过程表示为ζ:S→RL并分为步骤43与步骤44两个步骤:
步骤43,取深层卷积神经网络的内层输出,并使其标准化,将这个过程表示为ζ:在实际操作中,表示时间消耗的L的值将会很大,因此采取步骤44进行优化;
步骤44,采用特征哈希函数h:RL→RD,用φ(s)=h(ζ(s))计算其特征表示,这一过程利用特征哈希函数内积无偏的性质将ζ(s)标准化,可得:E[cos(φ(s),φ(x))]=cos(ζ(s),ζ(x));
步骤45,由于在y值极小的情况下,趋近于y+1,结合所述步骤41中等式可得:τ表示平滑因子;
步骤46,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况,包含局部加权回归和核回归,在此种情况下核函数可表示为:
在基于核函数的方法中,τ表示平滑因子,通过应用上述近似方法,本模型成为基于核函数的方法的特殊情况。
5.根据权利要求1或4所述的一种实时搜索在线泛化方法,其特征在于,所述步骤5的具体步骤如下:
步骤51,设置一个记忆M,M的每个入口与特定条件s∈S相关联,其包含状态的特征表示φ(s)和模拟统计模拟数量N(s),进行更新、添加与查询;
步骤52,更新:如果状态s的模拟统计在蒙特卡洛树搜索中更新了,那该状态在记忆中对应的N(s)的值也应随之更新;
步骤53,添加:为了包含状态s,在记忆中添加一个新的入口:如果s已经在记忆中储存,则仅更新其在记忆中对应N(s)的值,如果记忆达到最大储存限度,则用新的入口替代最早更新或查询的入口;
步骤54,查询:通过查询操作,计算给定状态x∈S的基于内存的近似值,首先,利用距离函数d(.,x)在M中找出与其最相似的状态,这样在记忆中的近似值可以通过计算,根据所述步骤45中的等式计算权值,通过更新、添加与查询操作,计算给定状态x∈S的基于内存的近似值。
6.根据权利要求1所述的一种实时搜索在线泛化方法,其特征在于,所述步骤6的具体步骤如下:
步骤61,实时搜索在线泛化方法与常规的蒙特卡洛树搜索的主要区别在于实施搜索在线泛化方法的每一个节点都会存储统计成一个扩展集合:NM表示的估计次数,表示近似记忆值;
步骤62,在蒙特卡洛树搜索的树搜索期间,使用取代作为状态s的值,用于树上选择,λs表示延迟参数以确保不存在非对称的偏差;
步骤63,当搜索到一个叶状态时,只计算叶节点上的值并将值反向传播到它的前一个值。用表示刚被添加到树上的状态,用φ(sh)代表其已经计算过的特征表示;
步骤64,然后将sh用于询问基于记忆的近似值根据下式更新s与s的所有过去状态,其中η≥1,表示衰减参数:
X←max(NM(sh)/η|i-h|,1)
CN201810455890.3A 2018-05-14 2018-05-14 一种实时搜索在线泛化方法 Pending CN108694440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810455890.3A CN108694440A (zh) 2018-05-14 2018-05-14 一种实时搜索在线泛化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810455890.3A CN108694440A (zh) 2018-05-14 2018-05-14 一种实时搜索在线泛化方法

Publications (1)

Publication Number Publication Date
CN108694440A true CN108694440A (zh) 2018-10-23

Family

ID=63847490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810455890.3A Pending CN108694440A (zh) 2018-05-14 2018-05-14 一种实时搜索在线泛化方法

Country Status (1)

Country Link
CN (1) CN108694440A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447152A (zh) * 2018-10-29 2019-03-08 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN110362749A (zh) * 2019-07-15 2019-10-22 北京百度网讯科技有限公司 搜索结果召回方法、装置、服务器和介质
CN111729300A (zh) * 2020-06-24 2020-10-02 贵州大学 基于蒙特卡洛树搜索和卷积神经网络斗地主策略研究方法
WO2021139333A1 (zh) * 2020-01-10 2021-07-15 腾讯科技(深圳)有限公司 绝热演化路径的预测方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447152A (zh) * 2018-10-29 2019-03-08 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN109447152B (zh) * 2018-10-29 2022-02-15 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN110362749A (zh) * 2019-07-15 2019-10-22 北京百度网讯科技有限公司 搜索结果召回方法、装置、服务器和介质
WO2021139333A1 (zh) * 2020-01-10 2021-07-15 腾讯科技(深圳)有限公司 绝热演化路径的预测方法、装置、设备及存储介质
CN111729300A (zh) * 2020-06-24 2020-10-02 贵州大学 基于蒙特卡洛树搜索和卷积神经网络斗地主策略研究方法

Similar Documents

Publication Publication Date Title
CN108694440A (zh) 一种实时搜索在线泛化方法
CN108399748B (zh) 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN103106279B (zh) 一种同时基于节点属性以及结构关系相似度的聚类方法
CN110640982A (zh) 一种薄壁注塑件的注塑工艺参数多目标优化方法
CN105978732B (zh) 一种基于粒子群优化最简回声状态网络参数的方法和系统
CN110118566B (zh) 机器人运行路径生成方法及装置
CN104539601B (zh) 动态网络攻击过程可靠性分析方法及系统
CN105574708A (zh) 一种行程规划的方法及装置
Guan et al. Optimization analysis of football match prediction model based on neural network
CN106650930A (zh) 模型参数优化的方法及装置
CN110287420A (zh) 一种信息推荐系统的训练方法及装置
CN108204944A (zh) 基于apso优化的lssvm的埋地管道腐蚀速率预测方法
CN110428015A (zh) 一种模型的训练方法及相关设备
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN111008790A (zh) 一种水电站群发电调度规则提取方法
CN103530700B (zh) 城区配电网饱和负荷综合预测方法
CN106296434A (zh) 一种基于pso‑lssvm算法的粮食产量预测方法
Hu et al. Hybrid prediction model for the interindustry carbon emissions transfer network based on the grey model and general vector machine
CN107679648A (zh) 布谷鸟搜索优化二次移动平均法的月度用电量预测方法
Akar et al. Evaluation of tree-based machine learning and deep learning techniques in temperature-based potential evapotranspiration prediction
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
Chen et al. A Spark-based Ant Lion algorithm for parameters optimization of random forest in credit classification
Chang et al. Auto‐configuring radial basis function networks for chaotic time series and flood forecasting
CN108765127A (zh) 一种基于蒙特卡罗搜索的信用评分卡特征选择方法
Wistuba et al. Comparison of Bayesian move prediction systems for Computer Go

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181023