CN112529190A - 一种基于学习自动机随机点定位算法的多模态优化系统 - Google Patents
一种基于学习自动机随机点定位算法的多模态优化系统 Download PDFInfo
- Publication number
- CN112529190A CN112529190A CN202011497670.0A CN202011497670A CN112529190A CN 112529190 A CN112529190 A CN 112529190A CN 202011497670 A CN202011497670 A CN 202011497670A CN 112529190 A CN112529190 A CN 112529190A
- Authority
- CN
- China
- Prior art keywords
- parameter
- module
- optimal
- random point
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 5
- 238000005192 partition Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于学习自动机随机点定位算法的多模态优化系统,包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块,初始化模块初始化系统参数,参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择,参数经过优化后得到反馈输入环境反馈模块,得到环境反馈,输入多模态随机点定位优化模块得到当前所有最优参数的估计值,当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时,多模态随机点定位优化模块将得到的所有最优参数输入到输出模块,输出模块输出所有最优参数对应的最优参数集。与现有技术相比,本发明具有同时找到所有全局最优参数、提升随机点定位方法的适用范围等优点。
Description
技术领域
本发明涉及多模态优化领域,尤其是涉及一种基于学习自动机随机点定位算法的多模态优化系统。
背景技术
参数优化问题的目的是在给定的搜索空间内找到最优的参数设置,从而达到某些已知准则的最大或最小值。多模态参数优化问题是参数优化问题中的一个重要研究方向,其目的是在算法的一次执行过程中找到多个全局最优参数。多模态参数优化问题大量存在于实际的应用当中,如分布式信道选择、图像分割、服务选择、机器人路径规划等诸多实际优化问题,这些问题普遍存在着不止一个全局最优参数,需要对所有全局最优参数进行计算。
在大量的参数实际优化问题中,存在着各种各样的噪声,这些噪声可能由系统输入的扰动、系统输出或适应值的噪声甚至时变性引起,导致优化难度增加、优化性能急剧下降。
学习自动机是一种基于强化学习机制的概率自动机,以不确定环境下序贯决策的优化为目标,通过与随机环境交互来学习最优决策。作为典型的强化学习模型,学习自动机非常擅长处理与环境交互的学习问题,特别是当环境由于噪声具有一定随机性时,其强大的容错率可以在噪声干扰下收敛到正确的动作或决策。随机点定位算法是一种基于学习自动机的优化方法,其指的是一个智能体(机器人,学习机等等)通过随机环境的引导,在一维线性空间中寻找一个点或者一个参数的方法。其中,随机环境提供的信息可能是正确的,也可能是错误的。通常将随即环境返回正确信息的概率定义为p,则返回错误信息的概率为1-p。随机点定位算法可以看作是最优动作个数为无限情况下的一种学习自动机,其继承并发展了传统的学习自动机模型的优势,因此随机点定位算法展现出了在众多参数优化问题上的潜力。
随机点定位算法已经被应用于许多实际参数优化问题并取得了出色的优化效果,如随机流行病模型中的重要参数CP的学习,Goore博弈论,智能电网中的电源管理,分布式信道选择,解决最小权重连接控制集,服务选择,随机分散游戏和最佳传感器放置。然而,现有的随机点定位算法都只能找到单一的全局最优解。随着计算资源的可访问性和计算能力的急剧增加,实际参数优化问题变得越来越复杂,上述应用随机点定位算法解决的实际参数优化问题的搜索空间也不仅是一种单模态搜索空间,而更可能是具有多个最优参数的搜索空间,即多模态优化问题。然而作为一类重要的参数优化方法,目前还不存在解决多模态优化问题的随机点定位方法,因此,需要有效的多模态随机点定位方法,以解决实际应用中更加复杂的多模态参数优化问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于学习自动机随机点定位算法的多模态优化系统,利用历史反馈信息的统计特征,同时找到多个全局最优参数,弥补当前无法解决多模态参数优化问题的不足。
本发明的目的可以通过以下技术方案来实现:
一种基于学习自动机随机点定位算法的多模态优化系统,适用于分布式信道选择、图像分割、服务选择或机器人路径规划,包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块,所述初始化模块初始化系统参数,参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择,所述参数经过优化后得到相应反馈,输入到环境反馈模块,得到对应的环境反馈,所述环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值,当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时,多模态随机点定位优化模块将得到的所有最优参数输入到输出模块,输出模块输出所有最优参数对应的最优参数集。
所述初始化模块中系统参数包括最大迭代次数T、单个区间每轮采样数n、最优区间判定阈值ξ、子区间划分终止长度θ和初始参数子区间Δ={[0,1)}。
进一步地,所述参数选择模块在每轮迭代中,根据单个区间每轮采样数从每个参数子区间中等间隔选择n个参数作为采样点。
所述环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。
进一步地,所述随机点定位环境模型根据当前选择的参数,以相应的正面概率p来正确反馈选择参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
进一步地,所述随机点定位环境模型中存在以反面概率1-p来错误反馈估计参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
进一步地,若所述环境反馈向右移动,则将所述方向反馈记录为1,反之则记录为-1。
所述多模态随机点定位优化模块采集环境反馈的历史特征,根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间,根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。
进一步地,所述最优点的计算过程具体如下:
其中,i为统计特征;
S3、对于第一数组O中的每一个奇数区间,计算该区间对应的采样和的最大位置v,将作为一个最优点λ的估计值;对于第一数组O中的每一个偶数区间,计算该区间对应的采样和的最大位置w,将作为一个中点m的估计值;
S4、对于第一数组O中的每个长度大于子区间划分终止长度θ的参数子区间Δi=[σ,γ),判断估计点φ在该区间中的位置,若估计点φ靠近Δi的左侧,则将Δi从位置划分为两个子区间,否则将Δi从位置划分为两个子区间,所述估计点φ具体为步骤S3中的最优点λ或中点m,对于第二数组N中的每个参数子区间Δi,如果参数子区间Δi+1也在第二数组N中,则将Δi和Δi+1进行合并;
S5、判断当前迭代次数是否大于最大迭代次数,若是则转至步骤S6,否则返回参数选择模块进行下一次迭代;
S6、输出计算得到的所有最优点。
进一步地,所述步骤S3中的中点m具体为两个最优点的中点。
进一步地,所述步骤S4中若第一数组O中不包含任何元素,则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间,划分位置为该参数子区间的中点,同时第二数组N中其他参数子区间保持不变。
与现有技术相比,本发明具有以下有益效果:
本发明通过对整个参数搜索空间中的每个参数子区间进行参数选择,建立参数优化问题对应的随机点定位环境模型,根据模型得到选择的参数的反馈信息,利用环境反馈信息的历史统计特征,计算得到多模态参数优化问题中所有全局最优参数,提升了随机点定位方法的适用范围,提高了分布式信道选择、图像分割、服务选择或机器人路径规划中计算结果的准确性和计算精度。
附图说明
图1为本发明的流程示意图;
图2为本发明参数子区间划分的示意图,其中图(a)为估计点靠近参数子区间右侧的区间划分示意图,图(b)为靠近参数子区间左侧的区间划分示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于学习自动机随机点定位算法的多模态优化系统,适用于分布式信道选择、图像分割、服务选择或机器人路径规划,包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块,初始化模块初始化系统参数,参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择,参数经过优化后得到相应反馈,输入到环境反馈模块,得到对应的环境反馈,环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值,当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时,多模态随机点定位优化模块将得到的所有最优参数输入到输出模块,输出模块输出所有最优参数对应的最优参数集。
初始化模块中系统参数包括最大迭代次数T、单个区间每轮采样数n、最优区间判定阈值ξ、子区间划分终止长度θ和初始参数子区间Δ={[0,1)}。
参数选择模块在每轮迭代中,根据单个区间每轮采样数从每个参数子区间中等间隔选择n个参数作为采样点。
环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。
随机点定位环境模型根据当前选择的参数,以相应的正面概率p来正确反馈选择参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
随机点定位环境模型中存在以反面概率1-p来错误反馈估计参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
若环境反馈向右移动,则将方向反馈记录为1,反之则记录为-1。
多模态随机点定位优化模块采集环境反馈的历史特征,根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间,根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。
最优点的计算过程具体如下:
其中,i为统计特征;
S3、对于第一数组O中的每一个奇数区间,计算该区间对应的采样和的最大位置v,将作为一个最优点λ的估计值;对于第一数组O中的每一个偶数区间,计算该区间对应的采样和的最大位置w,将作为一个中点m的估计值;
S4、对于第一数组O中的每个长度大于子区间划分终止长度θ的参数子区间Δi=[σ,γ),判断估计点φ在该区间中的位置,若估计点φ靠近Δi的左侧,则将Δi从位置划分为两个子区间,否则将Δi从位置划分为两个子区间,估计点φ具体为步骤S3中的最优点λ或中点m,对于第二数组N中的每个参数子区间Δi,如果参数子区间Δi+1也在第二数组N中,则将Δi和Δi+1进行合并;
S5、判断当前迭代次数是否大于最大迭代次数,若是则转至步骤S6,否则返回参数选择模块进行下一次迭代;
S6、输出计算得到的所有最优点。
步骤S3中的中点m具体为两个最优点的中点。
步骤S4中若第一数组O中不包含任何元素,则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间,划分位置为该参数子区间的中点,同时第二数组N中其他参数子区间保持不变。
本实施例中,最优参数个数分别设置为2和3,连续两个最优参数间的最小距离分别为0.4和0.1,以及环境正确反馈概率p分别为0.9,0.8,0.75共12个多模态环境中进行实验,进行5000次实验。
本实施例中,每次实验迭代次数T=50000,其余系统参数分别为n=10,ξ=0.1,θ=0.02,Δ={[0,1)},得到每个环境下各个最优点的平均值,具体如表1所示:
表1实验结果表
如表1的结果所示,在每个环境下,本发明都能够以很小的误差找到所有的最优参数,最大误差不超过0.001。表明了本发明提出的基于随机点定位算法的多模态优化系统在多模态优化问题中的优越性。
此外,需要说明的是,本说明书中所描述的具体实施例子,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种基于学习自动机随机点定位算法的多模态优化系统,适用于分布式信道选择,其特征在于,包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块,所述初始化模块初始化系统参数,参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择,所述参数经过优化后得到相应反馈,输入到环境反馈模块,得到对应的环境反馈,所述环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值,当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时,多模态随机点定位优化模块将得到的所有最优参数输入到输出模块,输出模块输出所有最优参数对应的最优参数集。
2.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述初始化模块中系统参数包括最大迭代次数、单个区间每轮采样数、最优区间判定阈值、子区间划分终止长度和初始参数子区间。
3.根据权利要求2所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述参数选择模块在每轮迭代中,根据单个区间每轮采样数从每个参数子区间中等间隔选择相应数量的参数作为采样点。
4.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。
5.根据权利要求4所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述随机点定位环境模型根据当前选择的参数,以相应的正面概率来正确反馈选择参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
6.根据权利要求5所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述随机点定位环境模型中存在以反面概率来错误反馈估计参数与最近目标参数的相对位置关系,作为方向反馈并进行编码。
7.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述多模态随机点定位优化模块采集环境反馈的历史特征,根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间,根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。
8.根据权利要求7所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述最优点的计算过程具体如下:
其中,μi为统计特征;
S3、对于第一数组O中的每一个奇数区间,计算该区间对应的采样和的最大位置v,将作为一个最优点λ的估计值;对于第一数组O中的每一个偶数区间,计算该区间对应的采样和的最大位置w,将作为一个中点m的估计值;
S4、对于第一数组O中的每个长度大于子区间划分终止长度θ的参数子区间Δi=[σ,γ),判断估计点φ在该区间中的位置,若估计点φ靠近Δi的左侧,则将Δi从位置划分为两个子区间,否则将Δi从位置划分为两个子区间,所述估计点φ具体为步骤S3中的最优点λ或中点m,对于第二数组N中的每个参数子区间Δi,如果参数子区间Δi+1也在第二数组N中,则将Δi和Δi+1进行合并;
S5、判断当前迭代次数是否大于最大迭代次数,若是则转至步骤S6,否则返回参数选择模块进行下一次迭代;
S6、输出计算得到的所有最优点。
9.根据权利要求8所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述步骤S3中的中点m具体为两个最优点的中点。
10.根据权利要求8所述的一种基于学习自动机随机点定位算法的多模态优化系统,其特征在于,所述步骤S4中若第一数组O中不包含任何元素,则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间,划分位置为该参数子区间的中点,同时第二数组N中其他参数子区间保持不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497670.0A CN112529190A (zh) | 2020-12-17 | 2020-12-17 | 一种基于学习自动机随机点定位算法的多模态优化系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497670.0A CN112529190A (zh) | 2020-12-17 | 2020-12-17 | 一种基于学习自动机随机点定位算法的多模态优化系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529190A true CN112529190A (zh) | 2021-03-19 |
Family
ID=75001221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497670.0A Pending CN112529190A (zh) | 2020-12-17 | 2020-12-17 | 一种基于学习自动机随机点定位算法的多模态优化系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529190A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116027756A (zh) * | 2023-02-24 | 2023-04-28 | 季华实验室 | 生产参数在线最优化方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-17 CN CN202011497670.0A patent/CN112529190A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116027756A (zh) * | 2023-02-24 | 2023-04-28 | 季华实验室 | 生产参数在线最优化方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | A deep bayesian policy reuse approach against non-stationary agents | |
Krishnamurthy et al. | Hidden Markov model multiarm bandits: A methodology for beam scheduling in multitarget tracking | |
Arslan et al. | Use of relaxation methods in sampling-based algorithms for optimal motion planning | |
CN106712898B (zh) | 基于高斯迭代列消元的信道编码盲识别方法 | |
CN112549019B (zh) | 一种基于连续动态时间规整的工业机器人轨迹准确度分析方法 | |
Krishnamurthy et al. | Partially observed Markov decision process multiarmed bandits—structural results | |
CN105550578A (zh) | 一种基于特征选择和决策树的网络异常分类规则提取方法 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN112529190A (zh) | 一种基于学习自动机随机点定位算法的多模态优化系统 | |
CN113960995A (zh) | 一种避障规划方法、系统及设备 | |
CN115130600A (zh) | 基于堆叠习惯化自编码器的高维动态数据流异常检测方法 | |
Rauh et al. | A fast weighted median algorithm based on quickselect | |
Svensson et al. | A new multiple model filter with switch time conditions | |
CN111680724A (zh) | 一种基于特征距离与内点随机抽样一致性的模型估计方法 | |
Syambas et al. | Fast heuristic algorithm for travelling salesman problem | |
Grover et al. | Semantic abstraction-guided motion planningfor scltl missions in unknown environments | |
Kuri-Morales | A methodology for the statistical characterization of genetic algorithms | |
US20220215204A1 (en) | Method for exploration based on curiosity and prioritization of experience data in multi-agent reinforcement learning | |
CN112325907B (zh) | 一种机器人路径规划算法的测试方法、装置、设备及介质 | |
Strub et al. | Admissible heuristics for obstacle clearance optimization objectives | |
CN111814908B (zh) | 一种基于数据流的异常数据检测模型更新方法和装置 | |
Kim et al. | Concept drift detection on streaming data under limited labeling | |
Ermis et al. | On Anderson acceleration for partially observable Markov decision processes | |
Hao et al. | Improving Vehicle Trajectory Prediction with Online Learning | |
CN112699922A (zh) | 一种基于区域内距离的自适应聚类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |