CN115270464A

CN115270464A - 一种大规模数据模型优化方法

Info

Publication number: CN115270464A
Application number: CN202210900120.1A
Authority: CN
Inventors: 徐广治; 魏曦; 林晖; 陈工; 王进; 吕慧超
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01

Abstract

本申请的实施例揭示了一种大规模数据模型优化方法包括：通过主成分分析对大规模数据模型中的变量维度进行分析，得到每个变量维度的总贡献度；根据变量维度的贡献度进行分组，得到多个子成分组；对多个子分组进行优化，得到大规模数据模型优化的最终解，所述最终解用于对大规模数据模型进行优化；通过采用主成分分析的策略对大规模数据模型中的变量维度进行分析，把携带主要信息的维度提取出来，实现提高大规模数据模型的优化效果。

Description

一种大规模数据模型优化方法

技术领域

本申请涉及一种数据优化领域，尤其涉及一种大规模数据模型优化方法。

背景技术

随着数字化治理及智能化应用的日益发展，尤其是大规模数据模型分析及应用领域中涉及的问题日显突出。对于现实中存在大规模优化问题，例如，飞机的翼型设计，需要数千个数据变量来表示机翼的复杂形状，随着被优化目标的维度数量不断增加，使得大规模数据模型的优化性能急剧下降。大规模数据模型的应用问题的出现给现代产业的发展带来了严峻的挑战，同时也给相关的技术发展提供了难得的机遇。

目前为止，主流的解决思路是采用随机的分组策略，将原始的大规模数据模型随机分成多组结构简单、维度数量更少的子模型，然后就可以分别优化每一个维度较少的子模型，然后把每个子模型的最优解组成大规模数据模型的最终解。在协同合作的基本算法框架中，关键的是分组策略的设计。然而在分组策略实践中，没有关于数据模型结构充足的先验知识，数据模型应按照何种规则分解是尚不清楚。因此，要想解决大规模数据模型优化问题，首先要设计一种符合规则的分组策略。然而当数据模型维度足够多时，各个决策变量维度具有较复杂的关联性时，采用随机分组策略的技术往往在分析变量维度之间的相关性上能力不强，最终表现出较差的性能效果。

发明内容

为了解决或部分解决上述问题，本申请提供一种大规模数据模型优化方法。

本申请提出一种大规模数据模型优化方法，所述大规模数据模型优化包括：通过主成分分析对大规模数据模型中的变量维度进行分析，得到每个变量维度的总贡献度；根据变量维度的贡献度进行分组，得到多个子成分组；对多个子分组进行优化，得到大规模数据模型优化的最终解，所述最终解用于对大规模数据模型进行优化。

在本实施例的一些示例中，所述通过主成分分析对大规模数据模型中的变量维度进行分析，得到所有变量维度的贡献度，包括：确定待分析的粒子群，根据待分析的粒子群得到数据矩阵，其中，每个粒子群中具有S个粒子，每个粒子中具有N个变量维度；通过主成分分析方法对数据矩阵进行线性变换，以得到由主成分构成的新样本；确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度；根据每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度。

在本实施例的一些示例中，通过主成分分析方法对数据矩阵进行线性变换，以得到由主成分构成的新样本，包括：

通过主成分分析方法将数据矩阵的信息带入第一预设公式，进行线性变换，以得到由主成分构成的新样本，所述第一预设公式为：

其中，Y₁为第一主成分。

在本实施例的一些示例中，通过主成分分析方法将数据矩阵的信息带入第一预设公式，进行线性变换，以得到由主成分构成的新样本，包括：

判断第一主成分是否包含足够信息；

当第一主成分未包含足够信息时，确定其他主成分Y_i和Y_j，结合其他主成分Y_i和Y_j构成新样本。

在本实施例的一些示例中，结合其他主成分Y_i和Y_j构成新样本之前，所述方法还包括：

使用预设约束条件，以使得其他主成分Y_i和Y_j相互独立；

其中预设约束条件为

Cov(Y_i,Y_j)＝0；

Cov(Y_i,Y_j)＝a′_i∑a_i,i,j＝1,2…,n。

在本实施例的一些示例中，判断第一主成分是否包含足够信息，包括：

通过预设获取公式获取第一主成分的信息量；

根据获取的信息量判断第一主成分是否包含足够信息；

其中，预设获取公式为：

Var(Y_i)＝a′_i∑a_i,i＝1,2…,n；

其中，所述a_i是系数向量。

在本实施例的一些示例中，通过主成分分析方法将数据矩阵的信息带入第一预设公式，进行线性变换之前，所述方法还包括：

对a_i进行正交约束，以使得a_ia′_i＝1。

在本实施例的一些示例中，确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度；每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度，包括：

根据预设贡献度公式确定粒子群中每个粒子的第一维在新样本中各主成分信息中的贡献度，所述预设贡献度公式为：

w₁₁a₁₁+w₁₂a₂₁+…w_1na_s1＝c₁

其中，a₁₁,a₂₁…a_s1表示粒子群中每个粒子的第一维在各主成分信息中的贡献度，w为权重系数。

依次迭代，并通过总贡献度计算公式计算出每个变量维度的总贡献度；

与现有技术相比，本申请具有如下有益效果：

本申请的提供的技术方案中，所述大规模数据模型优化包括：通过主成分分析对大规模数据模型中的变量维度进行分析，得到每个变量维度的总贡献度；根据变量维度的贡献度进行分组，得到多个子成分组；对多个子分组进行优化，得到大规模数据模型优化的最终解，所述最终解用于对大规模数据模型进行优化；通过采用主成分分析的策略对大规模数据模型中的变量维度进行分析，把携带主要信息的维度提取出来，并根据变量维度中信息占总信息量的比重，即变量维度的贡献度进行排列，贡献度大的决策变量分为一组，贡献度小的决策变量分为其他组，贡献度非常小的决策变量忽略不计，这样不仅按照贡献度的规则对变量维度进行分组，而且简约了一部分贡献度非常小的变量维度，起到了降维的作用。然后用差分进化算法轮流对每个子成分组进行优化，对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解，实现提高大规模数据模型的优化效果。

附图说明

图1是本申请实施例示出的一种大规模数据模型优化的基本流程示意图；

图2是本申请实施例示出的一种变量维度分组的示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

实施例一

请参阅图1，图1是根据一示例性实施例示出的一种大规模数据模型优化方法，所述大规模数据模型优化包括：

S101、通过主成分分析对大规模数据模型中的变量维度进行分析，得到每个变量维度的总贡献度；

S102、根据变量维度的总贡献度进行分组，得到多个子成分组；

S103、对多个子分组进行优化，得到大规模数据模型优化的最终解，所述最终解用于对大规模数据模型进行优化。

其中，Y₁为第一主成分。

判断第一主成分是否包含足够信息；

使用预设约束条件，以使得其他主成分Y_i和Y_j相互独立；

其中预设约束条件为

Cov(Y_i,T_j)＝0；

Cov(Y_i,Y_j)＝a′_i∑a_i,i,j＝1,2…,n。

通过预设获取公式获取第一主成分的信息量；

根据获取的信息量判断第一主成分是否包含足够信息；

其中，预设获取公式为：

Var(Y_i)＝a′_i∑a_i,i＝1,2…,n；

其中，所述a_i是系数向量。

对a_i进行正交约束，以使得a_ia′_i＝1。

w₁₁a₁₁+w₁₂a₂₁+…w_1na_s1＝c₁

其中，如果c_j的值较大，则意味着相应的维度包含的信息较多，对优化过程贡献较大。相反，则表示贡献较小。根据每一维度总贡献度的大小排序，可以将维度划分为不同的组，贡献度大的可以分为一组，贡献度很小的分为一组，分情况协同优化，对于贡献度更小的则可以忽略达到约简维度的目的。

然后通过差分进化算法轮流对每个子成分组进行优化，对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解，实现提高大规模数据模型的优化效果。

为了更好的理解本发明，本实施例提供一种更为具体的示例进行说明：

图2给出了变量维度分组的示意图，图中将全部的m维，分为{P1,P2…,Pk}k个子成分组，每个子成分组包含s维。Pkb代表分组后的个体，每个子成分组中的个体按照变异，交叉，选择操作，产生新的优秀个体替代之前的个体，最终确定出每个子成分组的最优值。

本发明介绍如何在此框架中使用主成分分析技术来解决大规模数据模型的全局优化问题。技术实施主要分为两个阶段：分组阶段和优化阶段。

分组阶段，如果大规模数据模型中总维度为1000维,则由每100个维度构成一个小组,每组的维度由贡献度大小排序选出，则可以分为10个子群体。具体的，分组方式如下：

其中，设x_i＝(x_i1,…,x_in)i＝1,…,s，代表粒子群的一个群体样本，其中s是粒子数，n是每个粒子的变量维度，则此粒子群的数据矩阵表示为：

其主成分分析法的线性变换为

其中a_i是系数向量，变换模型的方差和协方差定义如下：

Var(Y_i)＝a′_i∑a_i,i＝1,2…,n

Cov(Y_i,Y_j)＝a′_i∑a_i,i,j＝1,2…,n

利用主成分分析方法将一组原始粒子种群样本转换为由主成分构成的新样本。其中，Y₁被称为第一主成分，包含的信息量最大。选择方差Var(Y_i)来表征主成分携带的信息量。为了避免Var(Y_i)无穷大，本发明采用了对a_i的正交约束，即a_ia′_i＝1。当第一个主成分不能反映整个样本的足够信息时，可以结合使用其他主成分Y_j。然而，Y_i和Y_j可能同时包含重叠的公共信息。因此，利用另外的约束条件，Cov(Y_i,Y_j)＝0，保证Y_i和Y_j相互独立。通过利用拉格朗日乘子法可以得到，在约束条件下的系数向量。

从式子(5)可以观测到，经过主成分分析变换后，系数a₁₁,a₂₁…a_s1可表示原群体中各粒子的第一维在各主成分信息中的贡献度，贡献度强弱为a₁₁>a₂₁>…>a_s1。则各个粒子的第一维的总贡献度为

w₁₁a₁₁+w₁₂a₂₁+…w_1na_s1＝c₁

其中w为权重系数，以此类推则可以计算出每个变量维度的总贡献度，定义如下,

如果c_j的值较大，则意味着相应的维度包含的信息较多，对优化过程贡献较大。相反，则表示贡献较小。根据每一维度总贡献度的大小排序，可以将维度划分为不同的组，贡献度大的可以分为一组，贡献度很小的分为一组，分情况协同优化，对于贡献度更小的则可以忽略达到约简维度的目的。

能够理解的是，为了更好地利用群体信息，在后半过程中使用第二次主成分分析分组策略更新分组。

在优化阶段，在分组阶段形成的小组中用优化算法进行优化。

本发明提出了一种新型的大规模数据模型优化方法，基于协同合作进化框架的主成分分析的策略，并结合性能优良的差分进化算法，目的在于解决大规模数据模型中如何设计数据分组的关键问题，并提高大规模数据模型的优化效果。

协同合作进化的思想的关键是要把原问题中大规模变量维度分解为多个正交的子成分组。本方法的优点包括：

采用主成分分析的策略对大规模数据模型中的变量维度进行分析，把携带主要信息的维度提取出来，并根据变量维度中信息占总信息量的比重，即变量维度的贡献度进行排列，贡献度大的决策变量分为一组，贡献度小的决策变量分为其他组，贡献度非常小的决策变量忽略不计，这样不仅按照贡献度的规则对变量维度进行分组，而且简约了一部分贡献度非常小的变量维度，起到了降维的作用。然后用差分进化算法轮流对每个子成分组进行优化，对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解，实现提高大规模数据模型的优化效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例所提供的技术方案进行了详细介绍，本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大规模数据模型优化方法，其特征在于，所述大规模数据模型优化包括：

通过主成分分析对大规模数据模型中的变量维度进行分析，得到每个变量维度的总贡献度；

根据变量维度的总贡献度进行分组，得到多个子成分组；

对多个子分组进行优化，得到大规模数据模型优化的最终解，所述最终解用于对大规模数据模型进行优化。

2.根据权利要求1所述的大规模数据模型优化方法，其特征在于，所述通过主成分分析对大规模数据模型中的变量维度进行分析，得到所有变量维度的贡献度，包括：

确定待分析的粒子群，根据待分析的粒子群得到数据矩阵，其中，每个粒子群中具有S个粒子，每个粒子中具有N个变量维度；

通过主成分分析方法对数据矩阵进行线性变换，以得到由主成分构成的新样本；

确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度；

根据每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度。

3.根据权利要求1所述的大规模数据模型优化方法，其特征在于，通过主成分分析方法对数据矩阵进行线性变换，以得到由主成分构成的新样本，包括：

其中，Y₁为第一主成分。

4.根据权利要求3所述的大规模数据模型优化方法，其特征在于，通过主成分分析方法将数据矩阵的信息带入第一预设公式，进行线性变换，以得到由主成分构成的新样本，包括：

判断第一主成分是否包含足够信息；

5.根据权利要求4所述的大规模数据模型优化方法，其特征在于，结合其他主成分Y_i和Y_j构成新样本之前，所述方法还包括：

使用预设约束条件，以使得其他主成分Y_i和Y_j相互独立；

其中预设约束条件为

Cov(Y_i,Y_j)＝0；

Cov(Y_i,Y_j)＝a′_i∑a_i,i,j＝1,2…,n。

6.根据权利要求5所述的大规模数据模型优化方法，其特征在于，判断第一主成分是否包含足够信息，包括：

通过预设获取公式获取第一主成分的信息量；

根据获取的信息量判断第一主成分是否包含足够信息；

其中，预设获取公式为：

Var(Y_i)＝a′_i∑a_i,i＝1,2…,n；

其中，所述a_i是系数向量。

7.根据权利要求6所述的大规模数据模型优化方法，其特征在于，通过主成分分析方法将数据矩阵的信息带入第一预设公式，进行线性变换之前，所述方法还包括：

对a_i进行正交约束，以使得a_ia′_i＝1。

8.根据权利要求7所述的大规模数据模型优化方法，其特征在于，确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度；每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度，包括：

w₁₁a₁₁+w₁₂a₂₁+…w_1na_s1＝c₁