CN117290811A

CN117290811A - 一种基于主动学习策略与库空间优化的符号回归方法

Info

Publication number: CN117290811A
Application number: CN202311181953.8A
Authority: CN
Inventors: 胡旺; 李权洪; 章语; 徐宇涵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-26

Abstract

本发明的目的在于提供一种基于主动学习策略与库空间优化的符号回归方法，属于数据处理技术领域，该方法包括：首先基于改进的主动学习策略选择数据，有效降低语义遗传规划中每颗子树的语义向量；然后会初始化一个由随机子树组成的库空间，并通过对库中的子树执行K‑中心聚类，在聚类基础上，通过计算每个语义向量的熵值，进一步缩小搜索空间；并在库搜索阶段采用余弦距离结合子树线性缩放来匹配最优的子树。本发明通过对语义向量进行降维，并对库空间进行缩小，在保证语义遗传规划中较高准确率的同时，大幅度降低训练时间，减少计算资源的消耗。

Description

一种基于主动学习策略与库空间优化的符号回归方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于主动学习策略与库空间优化的符号回归方法。

背景技术

数据处理技术是指用于收集、存储、处理和分析数据的一系列技术和方法，其中发现隐藏在数据背后的复杂关系，并转化为符合数据分布的数学表达式至关重要。符号回归(SymbolicRegression，SR)为这一问题提供了有效的解决途径。具体而言，符号回归的基本思想是根据已知的自变量和因变量之间的关系，通过一系列的符号操作来推导出一个数学表达式，该表达式能够最好地拟合已有的数据。这些符号操作包括加法、减法、乘法、除法、平方、开方等。其中它在由数学表达式组成的空间中进行搜索，试图找到拟合给定数据集的数学表达式。传统的方法主要使用演化计算技术，特别是遗传规划(Genetic Programming，GP)来解决这个问题。在基于GP的符号回归中，数学表达式被表示为符号树，其中，叶节点是输入变量和常数，非叶节点是操作符。GP算法通常初始化一个由许多符号树组成的种群，然后这个种群通过交叉、变异等方式一代代地进化。通常，GP算法会使用一个适应度评估函数来评估种群中每个个体的好坏，通过优胜劣汰的方式，种群搜索到最优的个体。其中个体适应度只取决于程序执行的最终效果，中间效应，如个体树的子树计算的值均被忽略。

近年来，在遗传规划中引入几何语义的方法受到大量关注，关键的创新点在于通过语义空间引导个体朝着更好的适应度方向发展，语义遗传规划从原始空间到语义空间的映射为设计语义算子提供了理论框架。几何语义算子旨在使传统算子的不确定性朝着确定性方向发展，通过语义设定界限，并通过迭代产生具有类似或优于其父代的子程序。目前，该研究方向仍在探索阶段，解决的思路各不相同。例如，一些方法提出了一种角度选择算子和两种角度几何搜索算子，通过利用角度感知为几何算子带来了新的几何性质，能够在每次迭代中逼近目标语义，更重要的是能够抵抗过拟合。此外，还有一些方法通过语义将结构较复杂的树型结构替换为结构简单的树型结构，从而降低计算成本。但，这些方法均需要花费大量时间在库搜索及语义向量的交叉变异交叉上。

因此，语义GP仍然是解决符号回归问题的一个简单有力的工具。但是随着问题规模的增加，搜索空间急剧膨胀，传统的语义GP方法搜索效率大大降低，很难在有限时间内得到正确的结果。语义GP的低效率来源于语义库的维护和搜索，以及语义向量的计算复杂性。因此本提案从这一因素出发，提出了一种新的高效的GP方法，可以解决之前的语义GP方法计算复杂度高，训练时间长的技术问题。

发明内容

本发明的目的在于提供一种基于主动学习策略与库空间优化的符号回归方法，用于解决上述现有技术中存在的技术问题，语义GP仍然是解决符号回归问题的一个简单有力的工具。但是随着问题规模的增加，搜索空间急剧膨胀，传统语义GP方法搜索效率大大降低，很难在有限时间内得到正确的结果。语义GP的低效率来源于其语义空间的大小以及库搜索空间的大小。

为了达到上述目的，本发明采用以下技术方案：

一种基于主动学习策略与库空间优化的符号回归方法，包括以下步骤：

S1:通过改进的主动学习策略衡量数据的信息性，多样性，代表性，从而对输入数据进行筛选，进而降低标记成本以及降低语义向量的维度；具体步骤如下：

S11：获取数据集，数据集里包含N个样本数据；对数据进行归一化，然后按照等比数列1，2，4，16，…通过迭代的方式依次选择等比数列对应个数的样本数据，假设已选出的样本总数用k表示，对于剩余未选出的N-k个样本数据计算它们与已选出样本之间的距离：

其中，x_n表示待选出样本集中的某个样本，x_m表示已选出样本集中的某个样本,表示x_n到k个已选出样本的最短距离，以衡量实现样本多样性。

S12：选取回归模型f(x)，将未选出的N-k个输入数据输入到回归模型中，得到输出/>计算回归结果与标记之间的距离：

其中，y_n表示样本x_n的标签，用于衡量数据的信息性。

S13：并通过对与/>进行操作运算，来综合代表数据的多样性与信息性，通过衡量数据的多样性和信息性来选择数据；

S14：利用DBSCAN聚类算法，对样本数据执行去除噪声的操作，选取具备代表性的数据；

S2:初始化种群，用树型结构表示数学表达式；

S3:将种群中所有个体树的所有子树构成初始库空间，计算出库空间中每颗子树的语义向量；进一步对库空间中所有个体树采用聚类算法，计算两两个体树语义向量的相似性做对比，衡量个体树之间的相似性，并通过相似性对比去掉相似的子树；

S4:每个个体树均可解码为数学表达式，并计算其对应的语义向量，通过对父代树的语义向量执行计算，产生一个新的向量，作为子代向量的值，得到目标语义；

S5:衡量库中子树语义与子代期望语义之间的相似性，选择出最优的子树；

S6：在库中找到一棵与期望语义最接近的子树后，在替换的过程中对库中选出的子树执行线性缩放，以降低库中子树语义与目标语义之间的误差。

本发明提供的一种基于主动学习策略与库空间优化的符号回归方法不仅可以保持语义遗传规划原始的准确性，并且能大幅度降低语义空间和库搜索空间，从而降低运行时间，加快问题的求解速度。

附图说明

图1为本发明实施例提供的一种基于主动学习策略与库空间优化的符号回归方法流程图。

图2为本发明实施例提供的基于主动学习策略进行数据选择流程图。

图3为本发明实施例提供的初始化库空间流程图。

图4为本发明实施例提供的不同迭代数语义GP优化前后的变化结果示意图。

图5为本发明实施例提供的对语义GP优化前后训练时间的结果示意图。

具体实施例

为使本发明的目的、技术方案和有益效果更加清楚明白，下面将结合具体实施例对本发明的具体实施方式作进一步地详细说明。

本实施例以镍基高温合金的蠕变寿命特征选择为例，获取了1200个镍基高温合计样本的蠕变寿命数据以及其对应的八项相关特征，分别是：γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、初始蠕变速率、外加应力和蠕变温度。

基于上述镍基高温合金蠕变寿命数据集，本实施例提供一种基于主动学习策略与库空间优化的符号回归方法，其流程如图1所示，具体包括以下步骤：

S1：通过改进的主动学习策略衡量数据的信息性，多样性，代表性，从而对输入数据进行筛选，进而降低标记成本以及降低语义向量的维度，具体步骤如下：

S11：获取镍基高温合金蠕变寿命数据集，给定单个样本的8个特征与标签，并对数据进行选择，包括：对特征进行数据归一化，其过程为：对于所输入样本的特征参数，基于原始数据的均值和标准差进行数据的标准化，经过标准化后的N个数据满足在某一特征内样本平均值为0，方差为1，其中数据集中所有样本各个特征的均值作为质心；

优先选出距离质心最近的一个样本数据，后续按照等比数列1，2，4，16，…依次选择等比数列对应个数的样本数据，已选出的样本总数用k表示，对于剩余未选出的N-k个样本数据计算它们与已选出样本之间的距离：

其中，x_n表示待选出样本集中的某个样本，x_m表示已选出样本集中的某个样本,表示x_n到k个已选出样本的最短距离，尽可能使得样本间的距离更大，以衡量实现样本多样性。

S12：将XGBoost模型作为回归模型f(x)，将未选出的N-k个输入数据输入到XGBoost模型中，得到输出/>计算回归结果与标签之间的距离：

其中，y_n表示样本x_n的标签，也即对应的真实回归结果；通过回归模型的输出结果与样本本身的真实结果作差，如果这个差值越大，说明模型越不容易回归出该样本的真实结果，样本包含的信息更多，可用于衡量数据的信息性；

S13：并通过对与/>相乘，来综合代表数据的多样性与信息性：

进一步对进行从大到小排序，选取前n个数据；

S14：然后利用DBSCAN聚类算法，去除噪声的同时，选取具备代表性的数据，步骤具体如下：

S141:初始化：设置半径ε和密度阈值MinPts；

S142:随机选择一个未被访问的数据点；

S143:检查该数据点的ε邻域内的数据点数量是否大于等于MinPts，如果是，则将该数据

点标记为核心点，否则标记为噪声点；

S144:如果该数据点是核心点，则从该点出发，将其半径ε邻域内的所有未被访问的数据点

加入到当前簇中；

S145:重复步骤4，直到当前簇中的所有数据点的ε邻域都被访问过；

S146:标记当前簇中的所有数据点为已访问；

S147:如果当前簇中的数据点数量大于等于MinPts，则将该簇加入到最终的聚类结果中；

S148:重复步骤S142-S147，直到所有的数据点都被访问过；

最终得到的聚类结果是一组簇，其中每个簇都是由核心点及其ε邻域内的数据点组成。同时还会有一些被标记为噪声点的数据点，它们不属于任何簇。

S2：初始化种群，用树型结构表示数学表达式的步骤具体如下：

利用进化算法与树形编码方式实现符号回归算法。拟议方法中，首先，我们需要定义一组数学操作符，如加法、减法、乘法、除法等，以及操作数，如整数或小数；这些操作符和操作数将用于构建数学表达式；通过递归的方式，从根节点开始构建子树；对于每个操作符节点，选择适当数量的子节点，并为每个子节点选择相应的操作符或操作数。这样递归地构建子树，直至遍历到叶子节点。

S3：初始化库空间并进行优化的步骤具体如下：

S31：首先将所有种群中个体树的所有子树组成为库空间，并将数据集中的数据带入到个体树中，计算出库空间中每颗子树的语义向量，所有子树语义向量组成语义空间；

S32：然后对库空间中所有子树采用K-中心聚类算法，具体步骤如下：

S321：对所有子树语义向量进行归一化：(原始值-最小值)/(最大值-最小值)，得到归一化后的聚类中心集合M；

S322：对初始化：设定聚类的数量K，随机选择K个数据点作为初始的聚类中心：

M＝m₁,m₂,…,m_K；

S323：距离计算：对于每个数据点x_i，计算其与每个中心点m_j的距离，中心点m_j是离质心最近的样本：

d(x_i,m_j)＝(x_i-c_j)²；

其中，c_j是中心点样本m_j对应的样本数据；

S324：分配：将每个数据点x_i分配给距离最近的中心点，即找到最小的距离：

j＝argmin_jd(x_i,c_j)

j为最小距离对应的下标索引，然后将数据点x_i分配给中心点m_j；

S325：更新：对于每个聚类，计算其所有分配给它的数据点的总距离，选择其中一个数据点作为新的中心点，使总距离最小化；

重复步骤S323-S325，直到中心点不再变化或达到预定的迭代次数。最终得到的聚类结果是一组簇，其中每个簇由一组数据点组成，这些数据点与同一个中心点最为接近；

S33：利用每个聚类簇中，簇中心的子树来代表整个簇，并进一步计算每个子树语义向量的熵值，两两语义向量的熵做对比，衡量子树之间的相似性，并通过阈值去掉相似的子树，从而缩小库空间，提高搜索效率。

S4：通过在语义空间中进行语义交叉和变异产生子代目标语义具体步骤如下：

通过选择算子，选择两个父代p₁,p₂，两个父代p₁,p₂的语义向量s(p₁),s(p₂)，交叉操作产生子代的目标语义：

o₁＝s(p₁)*k+(1-k)*s(p₂)

o₂＝s(p₁)*(1-k)+k*s(p₂)

其中，k为0到1的随机数，o₁、o₂为交叉操作产生的子代目标语义；

变异操作产生子代的目标语义为

m＝(s(p₁)+s(p₂))/2；

通过设置一个0到1之间的阈值，并在每轮产生一个0到1之间的随机数，进行判断，当产生的随机数大于设置的阈值，则执行交叉操作，否则执行变异操作。并更具执行的操作，得到最终的目标语义。

S5：随机期望算子找到子树并替换

在随机期望算子中，父代个体树随机选择一个节点，并进行语义反向传播，得到该节点的期望语义，在库中搜索所有子树，找到期望语义与库中子树语义最相似的子树，将该子树与期望语义对应的子树进行替换，使得最终整颗树的语义尽可能接近目标语义，其中衡量期望语义与库中子树语义之间相似性的关系采用了余弦距离：

其中，γ为余弦距离，t为期望语义，ct为子树语义；

S6：对库中匹配到的个体进行线性缩放如下：

每当执行库搜索时，期望语义与库中子树语义最相似的子树，最理想的状态是库中某个子树的语义恰好等于期望语义，往往是不可能的，甚至差别较大，因此将期望语义与库中选出的子树语义进行最小二乘，从而减小期望语义与库中子树语义的差距，这个过程涉及到计算最优的a和b系数，并使库中选出的子树整体乘以b再加上a，即可实现对库中子树语义的线性转化，使其语义更趋向于期望语义。a、b系数计算如下：

其中t为期望语义向量，ct为库中子树的语义向量；

执行上述过程，不断通过交叉变异迭代出新的个体，并对种群进行更新，最终利用评价指标选择出最优个体解，具体地，选择均方误差作为评价指标，均方误差最低的个体，为最优个体。

图4为不同迭代数语义GP优化前后的变化结果示意图，可以看出在通过基于改进的主动学习策略进行样本选择，以及库空间缩小后，与未改进前相比，准确率基本无变化。

图5为对语义GP优化前后训练时间的结果示意图，可以看出在通过基于改进的主动学习策略进行样本选择，以及库空间缩小后，与未改进前相比，训练时间大幅度降低。

Claims

1.一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，包括以下步骤：

S1:通过改进的主动学习策略衡量数据的信息性，多样性，代表性，对输入数据进行筛选，具体包括以下步骤：

其中，x_n表示待选出样本集中的某个样本，x_m表示已选出样本集中的某个样本,表示x_n到k个已选出样本的最短距离，以衡量实现样本多样性；

其中，y_n表示样本x_n的标签，用于衡量数据的信息性；

S13：通过对与/>进行操作运算，来综合代表数据的多样性与信息性，通过衡量数据的多样性和信息性来选择数据；

S14：利用聚类算法，对样本数据执行去除噪声的操作，选取具备代表性的数据；

S2：初始化种群，用树型结构表示数学表达式；

S3：种群中所有个体树的所有子树构成初始库空间，使用S1得到的数据集计算出库空间中每颗子树的语义向量；进一步对库空间中所有个体树采用聚类算法，计算两两个体树语义向量的相似性做对比，衡量个体树之间的相似性，并通过相似性对比去掉相似的子树；

S4:每个个体树均可解码为数学表达式，并计算其对应的语义向量，通过对父代树的语义向量执行计算操作，产生一个新的向量，作为子代向量的值，得到目标语义；

2.根据权利要求1所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，步骤S1中所述回归模型为XGBoost模型，所述聚类算法为DBSCAN聚类算法，去噪声的具体步骤如下：

S141：初始化：设置半径ε和密度阈值MinPts；

S142：随机选择一个未被访问的数据点；

S143：检查该数据点的ε邻域内的数据点数量是否大于等于MinPts，如果是，则将该数据点标记为核心点，否则标记为噪声点；

S144：如果该数据点是核心点，则从该点出发，将其半径ε邻域内的所有未被访问的数据点加入到当前簇中；

S145：重复步骤S144，直到当前簇中的所有数据点的ε邻域都被访问过；

S146：标记当前簇中的所有数据点为已访问；

S147：如果当前簇中的数据点数量大于等于MinPts，则将该簇加入到最终的聚类结果中；

S148：重复步骤S142-S147，直到所有的数据点都被访问过；

最终得到的聚类结果是一组簇，其中每个簇都是由核心点及其ε邻域内的数据点组成，同时还会有一些被标记为噪声点的数据点，它们不属于任何簇。

3.根据权利要求2所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤S2具体如下：

利用进化算法与树形编码方式实现符号回归算法；拟议方法中，首先，我们需要定义一组数学操作符，如加法、减法、乘法、除法等，以及操作数，如整数或小数；这些操作符和操作数将用于构建数学表达式；通过递归的方式，从根节点开始构建子树；对于每个操作符节点，选择适当数量的子节点，并为每个子节点选择相应的操作符或操作数；这样递归地构建子树，直至遍历到叶子节点。

4.根据权利要求3所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤S3具体如下：

S31：将所有种群中个体树的所有子树组成为库空间，并将数据集中的数据带入到个体树中，计算出库空间中每颗子树的语义向量，所有子树语义向量组成语义空间；

S32：对库空间中所有子树采用K-中心聚类算法，具体步骤如下：

M＝m₁，m₂，...，m_K；

d(x_i，m_j)＝(x_i-c_j)²；

其中，c_j是中心点样本m_j对应的样本数据；

j＝argmin_jd(x_i，c_j)

重复步骤S323-S325，直到中心点不再变化或达到预定的迭代次数；最终得到的聚类结果是一组簇，其中每个簇由一组数据点组成，这些数据点与同一个中心点最为接近；

5.根据权利要求4所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤S4具体如下：

通过选择算子，选择两个父代树p₁，p₂，两个父代树p₁，p₂的语义向量s(p₁)，s(p₂)，交叉操作产生子代的目标语义：

o₁＝s(p₁)*k+(1-k)*s(p₂)

o₂＝s(p₁)*(1-k)+k*s(p₂)

变异操作产生子代的目标语义为

m＝(s(p₁)+s(p₂))/2；

通过设置一个0到1之间的阈值，并在每轮产生一个0到1之间的随机数，进行判断，当产生的随机数大于设置的阈值，则执行交叉操作，否则执行变异操作，并根据执行的操作，得到最终的目标语义。

6.根据权利要求5所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤S5具体如下：

其中，γ为余弦距离，t为期望语义，ct为子树语义。

7.根据权利要求6所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤S6具体如下：

每当执行库搜索时，期望语义与库中子树语义最相似的子树，最理想的状态是库中某个子树的语义恰好等于期望语义，往往是不可能的，甚至差别较大，因此将期望语义与库中选出的子树语义进行最小二乘，从而减小期望语义与库中子树语义的差距，这个过程涉及到计算最优的a和b系数，并使库中选出的子树整体乘以b再加上a，即可实现对库中子树语义的线性转化，使其语义更趋向于期望语义；a、b系数计算如下：

其中t为期望语义向量，ct为库中子树的语义向量；

执行上述过程，不断通过交叉变异迭代出新的个体，并对种群进行更新，最终利用评价指标选择出最优个体解。

8.根据权利要求7所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，步骤S6中选择均方误差作为评价指标，均方误差最低的个体，为最优个体。