CN112529190A

CN112529190A - 一种基于学习自动机随机点定位算法的多模态优化系统

Info

Publication number: CN112529190A
Application number: CN202011497670.0A
Authority: CN
Inventors: 张军旗; 仇鹏展; 王成; 康琦; 臧笛; 刘春梅
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19

Abstract

本发明涉及一种基于学习自动机随机点定位算法的多模态优化系统，包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块，初始化模块初始化系统参数，参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择，参数经过优化后得到反馈输入环境反馈模块，得到环境反馈，输入多模态随机点定位优化模块得到当前所有最优参数的估计值，当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时，多模态随机点定位优化模块将得到的所有最优参数输入到输出模块，输出模块输出所有最优参数对应的最优参数集。与现有技术相比，本发明具有同时找到所有全局最优参数、提升随机点定位方法的适用范围等优点。

Description

一种基于学习自动机随机点定位算法的多模态优化系统

技术领域

本发明涉及多模态优化领域，尤其是涉及一种基于学习自动机随机点定位算法的多模态优化系统。

背景技术

参数优化问题的目的是在给定的搜索空间内找到最优的参数设置，从而达到某些已知准则的最大或最小值。多模态参数优化问题是参数优化问题中的一个重要研究方向，其目的是在算法的一次执行过程中找到多个全局最优参数。多模态参数优化问题大量存在于实际的应用当中，如分布式信道选择、图像分割、服务选择、机器人路径规划等诸多实际优化问题，这些问题普遍存在着不止一个全局最优参数，需要对所有全局最优参数进行计算。

在大量的参数实际优化问题中，存在着各种各样的噪声，这些噪声可能由系统输入的扰动、系统输出或适应值的噪声甚至时变性引起，导致优化难度增加、优化性能急剧下降。

学习自动机是一种基于强化学习机制的概率自动机，以不确定环境下序贯决策的优化为目标，通过与随机环境交互来学习最优决策。作为典型的强化学习模型，学习自动机非常擅长处理与环境交互的学习问题，特别是当环境由于噪声具有一定随机性时，其强大的容错率可以在噪声干扰下收敛到正确的动作或决策。随机点定位算法是一种基于学习自动机的优化方法，其指的是一个智能体(机器人，学习机等等)通过随机环境的引导，在一维线性空间中寻找一个点或者一个参数的方法。其中，随机环境提供的信息可能是正确的，也可能是错误的。通常将随即环境返回正确信息的概率定义为p，则返回错误信息的概率为1-p。随机点定位算法可以看作是最优动作个数为无限情况下的一种学习自动机，其继承并发展了传统的学习自动机模型的优势，因此随机点定位算法展现出了在众多参数优化问题上的潜力。

随机点定位算法已经被应用于许多实际参数优化问题并取得了出色的优化效果，如随机流行病模型中的重要参数CP的学习，Goore博弈论，智能电网中的电源管理，分布式信道选择，解决最小权重连接控制集，服务选择，随机分散游戏和最佳传感器放置。然而，现有的随机点定位算法都只能找到单一的全局最优解。随着计算资源的可访问性和计算能力的急剧增加，实际参数优化问题变得越来越复杂，上述应用随机点定位算法解决的实际参数优化问题的搜索空间也不仅是一种单模态搜索空间，而更可能是具有多个最优参数的搜索空间，即多模态优化问题。然而作为一类重要的参数优化方法，目前还不存在解决多模态优化问题的随机点定位方法，因此，需要有效的多模态随机点定位方法，以解决实际应用中更加复杂的多模态参数优化问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于学习自动机随机点定位算法的多模态优化系统，利用历史反馈信息的统计特征，同时找到多个全局最优参数，弥补当前无法解决多模态参数优化问题的不足。

本发明的目的可以通过以下技术方案来实现：

一种基于学习自动机随机点定位算法的多模态优化系统，适用于分布式信道选择、图像分割、服务选择或机器人路径规划，包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块，所述初始化模块初始化系统参数，参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择，所述参数经过优化后得到相应反馈，输入到环境反馈模块，得到对应的环境反馈，所述环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值，当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时，多模态随机点定位优化模块将得到的所有最优参数输入到输出模块，输出模块输出所有最优参数对应的最优参数集。

所述初始化模块中系统参数包括最大迭代次数T、单个区间每轮采样数n、最优区间判定阈值ξ、子区间划分终止长度θ和初始参数子区间Δ＝{[0,1)}。

进一步地，所述参数选择模块在每轮迭代中，根据单个区间每轮采样数从每个参数子区间中等间隔选择n个参数作为采样点。

所述环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。

进一步地，所述随机点定位环境模型根据当前选择的参数，以相应的正面概率p来正确反馈选择参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

进一步地，所述随机点定位环境模型中存在以反面概率1-p来错误反馈估计参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

进一步地，若所述环境反馈向右移动，则将所述方向反馈记录为1，反之则记录为-1。

所述多模态随机点定位优化模块采集环境反馈的历史特征，根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间，根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。

进一步地，所述最优点的计算过程具体如下：

S1、根据每个参数子区间中的所有环境反馈

计算出每个参数子区间的统计特征，具体公式如下：

其中，_i为统计特征；

S2、根据所有参数子区间的统计特征

对所有参数子区间进行分类，具体公式如下：

其中，

表示

中最大的元素，ξ为最优区间判定阈值，若统计特征μ_i满足上述公式，则将对应的参数子区间Δ_i存入第一数组O，否则将对应的参数子区间Δ_i存入第二数组N；

S3、对于第一数组O中的每一个奇数区间，计算该区间对应的采样和的最大位置v，将

作为一个最优点λ的估计值；对于第一数组O中的每一个偶数区间，计算该区间对应的采样和的最大位置w，将

作为一个中点m的估计值；

S4、对于第一数组O中的每个长度大于子区间划分终止长度θ的参数子区间Δ_i＝[σ,γ)，判断估计点φ在该区间中的位置，若估计点φ靠近Δ_i的左侧，则将Δ_i从位置

划分为两个子区间，否则将Δ_i从位置

划分为两个子区间，所述估计点φ具体为步骤S3中的最优点λ或中点m，对于第二数组N中的每个参数子区间Δ_i，如果参数子区间Δ_i+1也在第二数组N中，则将Δ_i和Δ_i+1进行合并；

S5、判断当前迭代次数是否大于最大迭代次数，若是则转至步骤S6，否则返回参数选择模块进行下一次迭代；

S6、输出计算得到的所有最优点。

进一步地，所述步骤S3中的中点m具体为两个最优点的中点。

进一步地，所述步骤S4中若第一数组O中不包含任何元素，则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间，划分位置为该参数子区间的中点，同时第二数组N中其他参数子区间保持不变。

与现有技术相比，本发明具有以下有益效果：

本发明通过对整个参数搜索空间中的每个参数子区间进行参数选择，建立参数优化问题对应的随机点定位环境模型，根据模型得到选择的参数的反馈信息，利用环境反馈信息的历史统计特征，计算得到多模态参数优化问题中所有全局最优参数，提升了随机点定位方法的适用范围，提高了分布式信道选择、图像分割、服务选择或机器人路径规划中计算结果的准确性和计算精度。

附图说明

图1为本发明的流程示意图；

图2为本发明参数子区间划分的示意图，其中图(a)为估计点靠近参数子区间右侧的区间划分示意图，图(b)为靠近参数子区间左侧的区间划分示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于学习自动机随机点定位算法的多模态优化系统，适用于分布式信道选择、图像分割、服务选择或机器人路径规划，包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块，初始化模块初始化系统参数，参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择，参数经过优化后得到相应反馈，输入到环境反馈模块，得到对应的环境反馈，环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值，当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时，多模态随机点定位优化模块将得到的所有最优参数输入到输出模块，输出模块输出所有最优参数对应的最优参数集。

初始化模块中系统参数包括最大迭代次数T、单个区间每轮采样数n、最优区间判定阈值ξ、子区间划分终止长度θ和初始参数子区间Δ＝{[0,1)}。

参数选择模块在每轮迭代中，根据单个区间每轮采样数从每个参数子区间中等间隔选择n个参数作为采样点。

环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。

随机点定位环境模型根据当前选择的参数，以相应的正面概率p来正确反馈选择参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

随机点定位环境模型中存在以反面概率1-p来错误反馈估计参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

若环境反馈向右移动，则将方向反馈记录为1，反之则记录为-1。

多模态随机点定位优化模块采集环境反馈的历史特征，根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间，根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。

最优点的计算过程具体如下：

S1、根据每个参数子区间中的所有环境反馈

计算出每个参数子区间的统计特征，具体公式如下：

其中，_i为统计特征；

S2、根据所有参数子区间的统计特征

对所有参数子区间进行分类，具体公式如下：

其中，

表示

作为一个中点m的估计值；

划分为两个子区间，否则将Δ_i从位置

划分为两个子区间，估计点φ具体为步骤S3中的最优点λ或中点m，对于第二数组N中的每个参数子区间Δ_i，如果参数子区间Δ_i+1也在第二数组N中，则将Δ_i和Δ_i+1进行合并；

S6、输出计算得到的所有最优点。

步骤S3中的中点m具体为两个最优点的中点。

步骤S4中若第一数组O中不包含任何元素，则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间，划分位置为该参数子区间的中点，同时第二数组N中其他参数子区间保持不变。

本实施例中，最优参数个数分别设置为2和3，连续两个最优参数间的最小距离分别为0.4和0.1，以及环境正确反馈概率p分别为0.9，0.8，0.75共12个多模态环境中进行实验，进行5000次实验。

本实施例中，每次实验迭代次数T＝50000，其余系统参数分别为n＝10，ξ＝0.1，θ＝0.02，Δ＝{[0,1)}，得到每个环境下各个最优点的平均值，具体如表1所示：

表1实验结果表

如表1的结果所示，在每个环境下，本发明都能够以很小的误差找到所有的最优参数，最大误差不超过0.001。表明了本发明提出的基于随机点定位算法的多模态优化系统在多模态优化问题中的优越性。

此外，需要说明的是，本说明书中所描述的具体实施例子，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于学习自动机随机点定位算法的多模态优化系统，适用于分布式信道选择，其特征在于，包括初始化模块、参数选择模块、环境反馈模块、多模态随机点定位优化模块和输出模块，所述初始化模块初始化系统参数，参数选择模块对参数搜索空间中的每个参数子区间进行参数的迭代选择，所述参数经过优化后得到相应反馈，输入到环境反馈模块，得到对应的环境反馈，所述环境反馈输入多模态随机点定位优化模块得到当前所有最优参数的估计值，当多模态随机点定位优化模块中的迭代次数达到预设的最大迭代次数时，多模态随机点定位优化模块将得到的所有最优参数输入到输出模块，输出模块输出所有最优参数对应的最优参数集。

2.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述初始化模块中系统参数包括最大迭代次数、单个区间每轮采样数、最优区间判定阈值、子区间划分终止长度和初始参数子区间。

3.根据权利要求2所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述参数选择模块在每轮迭代中，根据单个区间每轮采样数从每个参数子区间中等间隔选择相应数量的参数作为采样点。

4.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述环境反馈模块根据参数具体的优化过程建立随机点定位环境模型。

5.根据权利要求4所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述随机点定位环境模型根据当前选择的参数，以相应的正面概率来正确反馈选择参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

6.根据权利要求5所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述随机点定位环境模型中存在以反面概率来错误反馈估计参数与最近目标参数的相对位置关系，作为方向反馈并进行编码。

7.根据权利要求1所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述多模态随机点定位优化模块采集环境反馈的历史特征，根据历史特征的特征值自适应地调整参数子区间并找到包含最优点的最优子区间，根据最优子区间的采样的统计值计算得到每个最优子区间中的最优点。

8.根据权利要求7所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述最优点的计算过程具体如下：

S1、根据每个参数子区间中的所有环境反馈

计算出每个参数子区间的统计特征，具体公式如下：

其中，μ_i为统计特征；

S2、根据所有参数子区间的统计特征

对所有参数子区间进行分类，具体公式如下：

其中，

表示

作为一个中点m的估计值；

S4、对于第一数组O中的每个长度大于子区间划分终止长度θ的参数子区间Δ_i＝[σ，γ)，判断估计点φ在该区间中的位置，若估计点φ靠近Δ_i的左侧，则将Δ_i从位置

划分为两个子区间，否则将Δ_i从位置

S6、输出计算得到的所有最优点。

9.根据权利要求8所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述步骤S3中的中点m具体为两个最优点的中点。

10.根据权利要求8所述的一种基于学习自动机随机点定位算法的多模态优化系统，其特征在于，所述步骤S4中若第一数组O中不包含任何元素，则随机将第二数组N中的一个长度大于子区间划分终止长度θ的参数子区间划分为两个子区间，划分位置为该参数子区间的中点，同时第二数组N中其他参数子区间保持不变。