CN115270464A - 一种大规模数据模型优化方法 - Google Patents
一种大规模数据模型优化方法 Download PDFInfo
- Publication number
- CN115270464A CN115270464A CN202210900120.1A CN202210900120A CN115270464A CN 115270464 A CN115270464 A CN 115270464A CN 202210900120 A CN202210900120 A CN 202210900120A CN 115270464 A CN115270464 A CN 115270464A
- Authority
- CN
- China
- Prior art keywords
- principal component
- data model
- scale data
- information
- contribution degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请的实施例揭示了一种大规模数据模型优化方法包括:通过主成分分析对大规模数据模型中的变量维度进行分析,得到每个变量维度的总贡献度;根据变量维度的贡献度进行分组,得到多个子成分组;对多个子分组进行优化,得到大规模数据模型优化的最终解,所述最终解用于对大规模数据模型进行优化;通过采用主成分分析的策略对大规模数据模型中的变量维度进行分析,把携带主要信息的维度提取出来,实现提高大规模数据模型的优化效果。
Description
技术领域
本申请涉及一种数据优化领域,尤其涉及一种大规模数据模型优化方法。
背景技术
随着数字化治理及智能化应用的日益发展,尤其是大规模数据模型分析及应用领域中涉及的问题日显突出。对于现实中存在大规模优化问题,例如,飞机的翼型设计,需要数千个数据变量来表示机翼的复杂形状,随着被优化目标的维度数量不断增加,使得大规模数据模型的优化性能急剧下降。大规模数据模型的应用问题的出现给现代产业的发展带来了严峻的挑战,同时也给相关的技术发展提供了难得的机遇。
目前为止,主流的解决思路是采用随机的分组策略,将原始的大规模数据模型随机分成多组结构简单、维度数量更少的子模型,然后就可以分别优化每一个维度较少的子模型,然后把每个子模型的最优解组成大规模数据模型的最终解。在协同合作的基本算法框架中,关键的是分组策略的设计。然而在分组策略实践中,没有关于数据模型结构充足的先验知识,数据模型应按照何种规则分解是尚不清楚。因此,要想解决大规模数据模型优化问题,首先要设计一种符合规则的分组策略。然而当数据模型维度足够多时,各个决策变量维度具有较复杂的关联性时,采用随机分组策略的技术往往在分析变量维度之间的相关性上能力不强,最终表现出较差的性能效果。
发明内容
为了解决或部分解决上述问题,本申请提供一种大规模数据模型优化方法。
本申请提出一种大规模数据模型优化方法,所述大规模数据模型优化包括:通过主成分分析对大规模数据模型中的变量维度进行分析,得到每个变量维度的总贡献度;根据变量维度的贡献度进行分组,得到多个子成分组;对多个子分组进行优化,得到大规模数据模型优化的最终解,所述最终解用于对大规模数据模型进行优化。
在本实施例的一些示例中,所述通过主成分分析对大规模数据模型中的变量维度进行分析,得到所有变量维度的贡献度,包括:确定待分析的粒子群,根据待分析的粒子群得到数据矩阵,其中,每个粒子群中具有S个粒子,每个粒子中具有N个变量维度;通过主成分分析方法对数据矩阵进行线性变换,以得到由主成分构成的新样本;确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度;根据每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度。
在本实施例的一些示例中,通过主成分分析方法对数据矩阵进行线性变换,以得到由主成分构成的新样本,包括:
通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换,以得到由主成分构成的新样本,所述第一预设公式为:
其中,Y1为第一主成分。
在本实施例的一些示例中,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换,以得到由主成分构成的新样本,包括:
判断第一主成分是否包含足够信息;
当第一主成分未包含足够信息时,确定其他主成分Yi和Yj,结合其他主成分Yi和Yj构成新样本。
在本实施例的一些示例中,结合其他主成分Yi和Yj构成新样本之前,所述方法还包括:
使用预设约束条件,以使得其他主成分Yi和Yj相互独立;
其中预设约束条件为
Cov(Yi,Yj)=0;
Cov(Yi,Yj)=a′i∑ai,i,j=1,2…,n。
在本实施例的一些示例中,判断第一主成分是否包含足够信息,包括:
通过预设获取公式获取第一主成分的信息量;
根据获取的信息量判断第一主成分是否包含足够信息;
其中,预设获取公式为:
Var(Yi)=a′i∑ai,i=1,2…,n;
其中,所述ai是系数向量。
在本实施例的一些示例中,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换之前,所述方法还包括:
对ai进行正交约束,以使得aia′i=1。
在本实施例的一些示例中,确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度;每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度,包括:
根据预设贡献度公式确定粒子群中每个粒子的第一维在新样本中各主成分信息中的贡献度,所述预设贡献度公式为:
w11a11+w12a21+…w1nas1=c1
其中,a11,a21…as1表示粒子群中每个粒子的第一维在各主成分信息中的贡献度,w为权重系数。
依次迭代,并通过总贡献度计算公式计算出每个变量维度的总贡献度;
与现有技术相比,本申请具有如下有益效果:
本申请的提供的技术方案中,所述大规模数据模型优化包括:通过主成分分析对大规模数据模型中的变量维度进行分析,得到每个变量维度的总贡献度;根据变量维度的贡献度进行分组,得到多个子成分组;对多个子分组进行优化,得到大规模数据模型优化的最终解,所述最终解用于对大规模数据模型进行优化;通过采用主成分分析的策略对大规模数据模型中的变量维度进行分析,把携带主要信息的维度提取出来,并根据变量维度中信息占总信息量的比重,即变量维度的贡献度进行排列,贡献度大的决策变量分为一组,贡献度小的决策变量分为其他组,贡献度非常小的决策变量忽略不计,这样不仅按照贡献度的规则对变量维度进行分组,而且简约了一部分贡献度非常小的变量维度,起到了降维的作用。然后用差分进化算法轮流对每个子成分组进行优化,对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解,实现提高大规模数据模型的优化效果。
附图说明
图1是本申请实施例示出的一种大规模数据模型优化的基本流程示意图;
图2是本申请实施例示出的一种变量维度分组的示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
实施例一
请参阅图1,图1是根据一示例性实施例示出的一种大规模数据模型优化方法,所述大规模数据模型优化包括:
S101、通过主成分分析对大规模数据模型中的变量维度进行分析,得到每个变量维度的总贡献度;
S102、根据变量维度的总贡献度进行分组,得到多个子成分组;
S103、对多个子分组进行优化,得到大规模数据模型优化的最终解,所述最终解用于对大规模数据模型进行优化。
在本实施例的一些示例中,所述通过主成分分析对大规模数据模型中的变量维度进行分析,得到所有变量维度的贡献度,包括:确定待分析的粒子群,根据待分析的粒子群得到数据矩阵,其中,每个粒子群中具有S个粒子,每个粒子中具有N个变量维度;通过主成分分析方法对数据矩阵进行线性变换,以得到由主成分构成的新样本;确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度;根据每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度。
在本实施例的一些示例中,通过主成分分析方法对数据矩阵进行线性变换,以得到由主成分构成的新样本,包括:
通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换,以得到由主成分构成的新样本,所述第一预设公式为:
其中,Y1为第一主成分。
在本实施例的一些示例中,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换,以得到由主成分构成的新样本,包括:
判断第一主成分是否包含足够信息;
当第一主成分未包含足够信息时,确定其他主成分Yi和Yj,结合其他主成分Yi和Yj构成新样本。
在本实施例的一些示例中,结合其他主成分Yi和Yj构成新样本之前,所述方法还包括:
使用预设约束条件,以使得其他主成分Yi和Yj相互独立;
其中预设约束条件为
Cov(Yi,Tj)=0;
Cov(Yi,Yj)=a′i∑ai,i,j=1,2…,n。
在本实施例的一些示例中,判断第一主成分是否包含足够信息,包括:
通过预设获取公式获取第一主成分的信息量;
根据获取的信息量判断第一主成分是否包含足够信息;
其中,预设获取公式为:
Var(Yi)=a′i∑ai,i=1,2…,n;
其中,所述ai是系数向量。
在本实施例的一些示例中,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换之前,所述方法还包括:
对ai进行正交约束,以使得aia′i=1。
在本实施例的一些示例中,确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度;每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度,包括:
根据预设贡献度公式确定粒子群中每个粒子的第一维在新样本中各主成分信息中的贡献度,所述预设贡献度公式为:
w11a11+w12a21+…w1nas1=c1
其中,a11,a21…as1表示粒子群中每个粒子的第一维在各主成分信息中的贡献度,w为权重系数。
依次迭代,并通过总贡献度计算公式计算出每个变量维度的总贡献度;
其中,如果c_j的值较大,则意味着相应的维度包含的信息较多,对优化过程贡献较大。相反,则表示贡献较小。根据每一维度总贡献度的大小排序,可以将维度划分为不同的组,贡献度大的可以分为一组,贡献度很小的分为一组,分情况协同优化,对于贡献度更小的则可以忽略达到约简维度的目的。
然后通过差分进化算法轮流对每个子成分组进行优化,对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解,实现提高大规模数据模型的优化效果。
为了更好的理解本发明,本实施例提供一种更为具体的示例进行说明:
图2给出了变量维度分组的示意图,图中将全部的m维,分为{P1,P2…,Pk}k个子成分组,每个子成分组包含s维。Pkb代表分组后的个体,每个子成分组中的个体按照变异,交叉,选择操作,产生新的优秀个体替代之前的个体,最终确定出每个子成分组的最优值。
本发明介绍如何在此框架中使用主成分分析技术来解决大规模数据模型的全局优化问题。技术实施主要分为两个阶段:分组阶段和优化阶段。
分组阶段,如果大规模数据模型中总维度为1000维,则由每100个维度构成一个小组,每组的维度由贡献度大小排序选出,则可以分为10个子群体。具体的,分组方式如下:
其中,设xi=(xi1,…,xin)i=1,…,s,代表粒子群的一个群体样本,其中s是粒子数,n是每个粒子的变量维度,则此粒子群的数据矩阵表示为:
其主成分分析法的线性变换为
其中ai是系数向量,变换模型的方差和协方差定义如下:
Var(Yi)=a′i∑ai,i=1,2…,n
Cov(Yi,Yj)=a′i∑ai,i,j=1,2…,n
利用主成分分析方法将一组原始粒子种群样本转换为由主成分构成的新样本。其中,Y1被称为第一主成分,包含的信息量最大。选择方差Var(Yi)来表征主成分携带的信息量。为了避免Var(Yi)无穷大,本发明采用了对ai的正交约束,即aia′i=1。当第一个主成分不能反映整个样本的足够信息时,可以结合使用其他主成分Yj。然而,Yi和Yj可能同时包含重叠的公共信息。因此,利用另外的约束条件,Cov(Yi,Yj)=0,保证Yi和Yj相互独立。通过利用拉格朗日乘子法可以得到,在约束条件下的系数向量。
从式子(5)可以观测到,经过主成分分析变换后,系数a11,a21…as1可表示原群体中各粒子的第一维在各主成分信息中的贡献度,贡献度强弱为a11>a21>…>as1。则各个粒子的第一维的总贡献度为
w11a11+w12a21+…w1nas1=c1
其中w为权重系数,以此类推则可以计算出每个变量维度的总贡献度,定义如下,
如果cj的值较大,则意味着相应的维度包含的信息较多,对优化过程贡献较大。相反,则表示贡献较小。根据每一维度总贡献度的大小排序,可以将维度划分为不同的组,贡献度大的可以分为一组,贡献度很小的分为一组,分情况协同优化,对于贡献度更小的则可以忽略达到约简维度的目的。
能够理解的是,为了更好地利用群体信息,在后半过程中使用第二次主成分分析分组策略更新分组。
在优化阶段,在分组阶段形成的小组中用优化算法进行优化。
本发明提出了一种新型的大规模数据模型优化方法,基于协同合作进化框架的主成分分析的策略,并结合性能优良的差分进化算法,目的在于解决大规模数据模型中如何设计数据分组的关键问题,并提高大规模数据模型的优化效果。
协同合作进化的思想的关键是要把原问题中大规模变量维度分解为多个正交的子成分组。本方法的优点包括:
采用主成分分析的策略对大规模数据模型中的变量维度进行分析,把携带主要信息的维度提取出来,并根据变量维度中信息占总信息量的比重,即变量维度的贡献度进行排列,贡献度大的决策变量分为一组,贡献度小的决策变量分为其他组,贡献度非常小的决策变量忽略不计,这样不仅按照贡献度的规则对变量维度进行分组,而且简约了一部分贡献度非常小的变量维度,起到了降维的作用。然后用差分进化算法轮流对每个子成分组进行优化,对于贡献度大的子成分组可以提供较多的优化次数。最后把各个子成分组的最优解合成相对应的原问题的解,实现提高大规模数据模型的优化效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明实施例所提供的技术方案进行了详细介绍,本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种大规模数据模型优化方法,其特征在于,所述大规模数据模型优化包括:
通过主成分分析对大规模数据模型中的变量维度进行分析,得到每个变量维度的总贡献度;
根据变量维度的总贡献度进行分组,得到多个子成分组;
对多个子分组进行优化,得到大规模数据模型优化的最终解,所述最终解用于对大规模数据模型进行优化。
2.根据权利要求1所述的大规模数据模型优化方法,其特征在于,所述通过主成分分析对大规模数据模型中的变量维度进行分析,得到所有变量维度的贡献度,包括:
确定待分析的粒子群,根据待分析的粒子群得到数据矩阵,其中,每个粒子群中具有S个粒子,每个粒子中具有N个变量维度;
通过主成分分析方法对数据矩阵进行线性变换,以得到由主成分构成的新样本;
确定粒子群中每个粒子的每一维在新样本中各主成分信息中的贡献度;
根据每个粒子的每一维在各主成分信息中的贡献度确定每个变量维度的总贡献度。
4.根据权利要求3所述的大规模数据模型优化方法,其特征在于,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换,以得到由主成分构成的新样本,包括:
判断第一主成分是否包含足够信息;
当第一主成分未包含足够信息时,确定其他主成分Yi和Yj,结合其他主成分Yi和Yj构成新样本。
5.根据权利要求4所述的大规模数据模型优化方法,其特征在于,结合其他主成分Yi和Yj构成新样本之前,所述方法还包括:
使用预设约束条件,以使得其他主成分Yi和Yj相互独立;
其中预设约束条件为
Cov(Yi,Yj)=0;
Cov(Yi,Yj)=a′i∑ai,i,j=1,2…,n。
6.根据权利要求5所述的大规模数据模型优化方法,其特征在于,判断第一主成分是否包含足够信息,包括:
通过预设获取公式获取第一主成分的信息量;
根据获取的信息量判断第一主成分是否包含足够信息;
其中,预设获取公式为:
Var(Yi)=a′i∑ai,i=1,2…,n;
其中,所述ai是系数向量。
7.根据权利要求6所述的大规模数据模型优化方法,其特征在于,通过主成分分析方法将数据矩阵的信息带入第一预设公式,进行线性变换之前,所述方法还包括:
对ai进行正交约束,以使得aia′i=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900120.1A CN115270464A (zh) | 2022-07-28 | 2022-07-28 | 一种大规模数据模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900120.1A CN115270464A (zh) | 2022-07-28 | 2022-07-28 | 一种大规模数据模型优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270464A true CN115270464A (zh) | 2022-11-01 |
Family
ID=83771715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210900120.1A Pending CN115270464A (zh) | 2022-07-28 | 2022-07-28 | 一种大规模数据模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270464A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049658A (zh) * | 2023-03-30 | 2023-05-02 | 西安热工研究院有限公司 | 一种风电机组异常数据识别方法、系统、设备及介质 |
-
2022
- 2022-07-28 CN CN202210900120.1A patent/CN115270464A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049658A (zh) * | 2023-03-30 | 2023-05-02 | 西安热工研究院有限公司 | 一种风电机组异常数据识别方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ohsaka et al. | Dynamic influence analysis in evolving networks | |
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
Sun et al. | Large-scale multiple testing under dependence | |
Wood et al. | A stochastic memoizer for sequence data | |
CN110458187B (zh) | 一种恶意代码家族聚类方法和系统 | |
Erdoğan et al. | A data mining application in a student database | |
Ezard et al. | Algorithmic approaches to aid species' delimitation in multidimensional morphospace | |
EP2389624A1 (en) | Sampling analysis of search queries | |
Ruan et al. | DACIDR: deterministic annealed clustering with interpolative dimension reduction using a large collection of 16S rRNA sequences | |
Bräuning et al. | The dynamic factor network model with an application to international trade | |
CN115270464A (zh) | 一种大规模数据模型优化方法 | |
CN116186522A (zh) | 大数据核心特征提取方法、电子设备及存储介质 | |
CN115272797A (zh) | 分类器的训练方法、使用方法、装置、设备及存储介质 | |
CN106203508A (zh) | 一种基于Hadoop平台的图像分类方法 | |
Archer et al. | Bayesian estimation of discrete entropy with mixtures of stick-breaking priors | |
CN111340950B (zh) | 数字高程模型重建方法及装置 | |
Ao et al. | Entropy estimation via normalizing flow | |
Chakraborty et al. | A graph Laplacian prior for Bayesian variable selection and grouping | |
CN116503608A (zh) | 基于人工智能的数据蒸馏方法及相关设备 | |
CN106778812A (zh) | 聚类实现方法和装置 | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
Zhou et al. | Structural factor equation models for causal network construction via directed acyclic mixed graphs | |
CN110222190A (zh) | 数据增强方法、系统、设备及计算机可读存储介质 | |
CN113032553A (zh) | 信息处理装置和信息处理方法 | |
CN112509640B (zh) | 基因本体项名称生成方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |