CN116738214A

CN116738214A - 一种基于高阶张量的数据降维预处理方法

Info

Publication number: CN116738214A
Application number: CN202310968776.1A
Authority: CN
Inventors: 符蕴芳; 张艮山; 宋宇斐; 刘智国; 张惠涛
Original assignee: Shijiazhuang University
Current assignee: Shijiazhuang University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-12
Anticipated expiration: 2043-08-03
Also published as: CN116738214B

Abstract

本发明提供了一种基于高阶张量的数据降维预处理方法，属于降维处理技术领域，其方法包括：对目标制造构架进行维度解析，确定维度个数以及每个维度下的维度子数，构建得到高阶张量；确定高阶张量中每个维度下的降维值；对高阶张量中的每个维度进行SVD分解，获取得到对应维度的因子矩阵；基于获取到的因子矩阵，且结合对应维度的降维值，对高阶张量进行TUCKER分解，获取得到核张量；将基于核张量对应的测试结果与基于高阶张量对应的测试结果进行比较，若比较结果不满足需求标准，则调整获取对应维度的降维值的过程精度，重新获取新的核张量。在保证分析效果的同时，尽可能的降低计算量，提高分析效率。

Description

一种基于高阶张量的数据降维预处理方法

技术领域

本发明涉及降维处理技术领域，特别涉及一种基于高阶张量的数据降维预处理方法。

背景技术

现有针对智能制造评价的研究中，所采用的指标体系或成熟度模型大部分在一维尺度上进行分析，忽视了评价体系在多元空间上的信息关联性。张量分析是多线性或多因素分析方法之一，已经被广泛应用于机器学习与信号处理、视频恢复、图像分类、多关系预测、人脸识别、数据分析等领域中，主要是对高阶数据进行分析处理。多线性模型的有用信息通过张量分解得以保留，特别是不同维度之间的关联信息，张量处理在对系统内存的隐含结构进行挖掘以充分获取系统的综合信息。同时张量分解能更为有效的反映数据的多维结构，是高阶子空间分析的有效手段之一。易伟明等提出了通过基于张量理论建立三维的企业智能制造能力评价指标体系，然后基于TUCKER张量分解构建评价模型，最后结合实际数据给出了模型的训练过程，并用Frobenius 范数和相似性度量得到测试结果，为准确衡量企业智能制造能力提供了依据。然而，易伟明等人提出的方法需要根据多次实验的经验值取得构建多维张量数据各维度的较小秩，并不能自动化对张量进行深度的信息挖掘并降维处理获得与最佳秩接近的较小秩，即找到核张量与因子矩阵它们之间的强相互作用为企业能力评价等提供更有力的依据。如何用一个或多个低维的线性独立子空间近似原始高阶张量数据模型（用较小秩逼近），是基于高阶张量分析的企业智能制造数据降维预处理时面临的一个非常困难的问题。

因此，本发明提出一种基于高阶张量的数据降维预处理方法。

发明内容

本发明提供一种基于高阶张量的数据降维预处理方法，用以基于高阶张量分析对大数据量的信息进行降维处理，在保证分析效果的同时，尽可能的降低计算量，提高分析效率。

本发明提供一种基于高阶张量的数据降维预处理方法，包括：

步骤1：对目标制造构架进行维度解析，确定维度个数以及每个维度下的维度子数，构建得到高阶张量；

步骤2：确定所述高阶张量中每个维度下的降维值；

步骤3：对所述高阶张量中的每个维度进行SVD分解，获取得到对应维度的因子矩阵；

步骤4：基于获取到的因子矩阵，且结合对应维度的降维值，对所述高阶张量进行TUCKER分解，获取得到核张量；

步骤5：将基于核张量对应的测试结果与基于高阶张量对应的测试结果进行比较，若比较结果满足需求标准，则保留所述核张量不变，并进行数据降维预处理；

步骤6：若比较结果不满足需求标准，则调整获取对应维度的降维值的过程精度，重新获取新的核张量，直到满足需求标准。

优选的，对目标制造构架进行维度解析，确定维度个数以及每个维度下的维度子数，包括：

对所述目标制造构架进行逐层拆分，且结合架构主题独立性，确定主层并列数，并将所述主层并列数作为构架维度；

锁定每个主层独立主题基于所述目标制造构架的当下位置并向下拆分，且结合架构包含互联性，确定每个主层独立主题的向下包含数目，并作为对应维度下的维度子数。

优选的，确定所述高阶张量中每个维度下的降维值，包括：

对所述高阶张量进行模转置以及相乘处理，得到高阶矩阵；

对所述高阶矩阵进行SVD分解，得到对应维度下的m个特征值，并对m个特征值进行由大到小的排序，提取前n个特征值；

若，则将n作为对应维度的降维值，其中，/>表示对应维度下前n个特征值/>的累计和；/>表示对应维度下m个特征值/>的累加和；/>表示对应维度的设定阈值。

优选的，对所述高阶张量中的每个维度进行SVD分解，获取得到对应维度的因子矩阵，包括：

对所述高阶张量按照对应维度进行模展开，并对展开模进行SVD分解；

将分解结果中的左矩阵作为对应维度的因子矩阵。

优选的，基于获取到的因子矩阵，且结合对应维度的降维值，对所述高阶张量进行TUCKER分解，获取得到核张量，包括：

按照每个维度的降维值对高阶张量进行拆解，并与对应维度的因子矩阵进行模乘；

基于所有模乘结果，获取得到核张量。

优选的，将基于核张量对应的测试结果与基于高阶张量对应的测试结果进行比较，包括：

捕捉所述核张量的第一保留参数以及基于测试结果的第一反馈参数，并计算得到第一测试值；

其中，α表示第一测试值；n01表示第一保留参数的总个数n02表示基于测试结果的第一反馈参数的总个数；表示基于第i1个第一保留参数所对应的第i2个反馈参数的测试关联值；/>表示基于高阶张量的测试结果所确定的基于第i1个第一保留参数所对应的第i2个反馈参数的标准关联值；/>表示第i2个反馈参数的参数权重；表示所有/>中的最大值，且/>表示第i1个第一保留参数所对应的第i2个第一反馈参数的有效反馈因子，取值范围为(0,1)；γ3_i2表示第i2个第一反馈参数的标准化系数；G表示基于核张量与高阶张量的同参数下的匹配因子；sim(g01,g02)表示核张量对应的测试结果g01与高阶张量对应的测试结果g02的相似函数；

根据如下公式，确定对应第一测试值的调节系数；

其中，Y0表示调节系数；表示基于高阶张量的测试结果的第二测试值；/>表示变量函数；ε01表示基于测试值的微调量；

当所述调节系数为0时，判定比较结果满足需求标准；

否则，判定比较结果不满足需求标准。

优选的，若比较结果不满足需求标准，则调整获取对应维度的降维值的过程精度，重新获取新的核张量，直到满足需求标准，包括：

对相应维度下的信息进行内部信息关联挖掘以及外部信息关联挖掘，确定内部信息关联挖掘的第一信息、以及外部信息关联挖掘的第二信息；

将第一信息与第二信息进行交集处理，获取得到交集信息的交集个数u01；

若u01≥n，按照u01对相应维度的降维值的过程精度进行调整；

若u01＜n，且，则根据比较结果，从结果-扩展量数据库中调取第一扩展范围，且对所述第一信息进行第一挖掘，得到第一新个数d01；

其中，x01表示第一挖掘结果下的补充个数；[a1,a2]为第一扩展范围；U1表示第一信息中的信息个数；U2表示第二信息中的信息个数；

否则，对所述第二信息进行第二挖掘，且结合第一扩展范围，得到第二个数d02；

其中，x02表示第二挖掘结果下的补充个数；[]表示取整符号；ρ1表示第二信息扩展后的历史使用概率；

根据最后新个数，对相应维度的降维值的过程精度进行调整。

优选的，提取前n个特征值之后，还包括：

若，则继续提取第n个特征值之后的特征值进行相加比较，直到获取到边界触发值，得到对应的降维值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于高阶张量的数据降维预处理方法的流程图；

图2为本发明实施例中目标制造构架的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种基于高阶张量的数据降维预处理方法，如图1所示，包括：

步骤2：确定所述高阶张量中每个维度下的降维值；

该实施例中，目标制造构架可以为针对不同企业的智能制造构架，比如，该构架中包含生命周期、智能功能和系统层级。其中，生命周期维度对应制造过程，包括设计、生产、物流、销售、服务五个主要的活动环节。系统层级维度从制造系统构架上由下而上的分为五个层次，包括设备、控制、车间、企业和协同，层级间通过 IP 互联网协议进行互联，并体现装备智能化。智能功能维度也可以说是价值链，主要包括资源要素、系统集成、互联互通、信息融合和新兴业态五个方面。

其中，生命周期、智能功能和系统层级对应的为3个维度，且每个维度下的具体的5个内容为对应维度下的维度子数。

该实施例中，降维值指的是将对应维度下的维度子数由5压缩到3，也就是尽可能的降低计算量。

该实施例中，基于高阶张量对应的测试结果是原本基于目标制造构架的测试结果，是原先就存在的，且核张量对应的测试结果是进行维度以及维数缩小之后，来进行测试的，主要是为了验证，在降维之后所涉及到的有效信息是否与原本高阶张量所对应的有效信息匹配，以尽可能的保证降维后信息的有效性。

该实施例中，需求标准指的是核张量对应的测试结果与高阶张量对应的测试结果所对应预先设置的一个比较条件，为了保证核张量的有效。

该实施例中，降维值的过程精度指的是对降维值进行扩大调整，比如，是3，则调整到4，保证满足标准。

上述技术方案的有益效果是：基于高阶张量分析对大数据量的信息进行降维处理，在保证分析效果的同时，尽可能的降低计算量，提高分析效率。

本发明提供一种基于高阶张量的数据降维预处理方法，对目标制造构架进行维度解析，确定维度个数以及每个维度下的维度子数，包括：

该实施例中，如图2所示，为目标制造构架的结构图，且逐层拆分获取得到的独立主题为：生命周期、智能功能和系统层级，构架维度为3。

当下位置向下拆分指的是基于生命周期、智能功能和系统层级所在位置向下拆分，因为该构架是包含不同指示内容在内的，且包含互联性指的是对应独立主题下所包含的数目，比如包含5个，则将5作为维度子数。

上述技术方案的有益效果是：通过对构架进行逐层拆分以及向下拆分，便于确定构架维度以及不同维度下的维度子数，为确定每个维度的降维数提供基础。

本发明提供一种基于高阶张量的数据降维预处理方法，确定所述高阶张量中每个维度下的降维值，包括：

对所述高阶张量进行模转置以及相乘处理，得到高阶矩阵；

该实施例中，设定阈值是预先确定好的，且一般可以为对应维度数的一半并向下取整。

上述技术方案的有益效果是：通过对矩阵进行奇异值分解以及值大小排序，进而通过比较条件，来有效的确定初步的降维值，为后续预处理提供基础。

本发明提供一种基于高阶张量的数据降维预处理方法，对所述高阶张量中的每个维度进行SVD分解，获取得到对应维度的因子矩阵，包括：

将分解结果中的左矩阵作为对应维度的因子矩阵。

上述技术方案的有益效果是：通过对高阶张量进行模展开以及奇异值分解，便于有效确定出因子矩阵。

本发明提供一种基于高阶张量的数据降维预处理方法，基于获取到的因子矩阵，且结合对应维度的降维值，对所述高阶张量进行TUCKER分解，获取得到核张量，包括：

基于所有模乘结果，获取得到核张量。

上述技术方案的有益效果是：通过对高阶张量进行拆解，以及模乘，便于获取到包含有效信息的核张量。

本发明提供一种基于高阶张量的数据降维预处理方法，将基于核张量对应的测试结果与基于高阶张量对应的测试结果进行比较，包括：

根据如下公式，确定对应第一测试值的调节系数；

当所述调节系数为0时，判定比较结果满足需求标准；

否则，判定比较结果不满足需求标准。

该实施例中，比如，高阶张量的维度1中存在参数1、2、3，且降维后的对应维度1中只涉及参数1和参数2，此时，基于参数1和参数2对企业制造进行智能评价之后会获取得到评价结果，该评价结果中包括对该企业制造的结果参数，也就是反馈参数01、02，比如，参数1和2对应反馈参数01，参数3对应反馈参数02。

该实施例中，测试关联值指的是对应反馈参数的测试结果值。

该实施例中，标准化系数是为了保证计算的统一一致性。

上述技术方案的有益效果是：通过计算核张量与高阶张量之间的匹配因子以及相似情况，来确定第一测试值，进而通过与第二测试值进行比较，来有效确定调节系数，为是否满足需求标准提供依据，为降维处理提供便利。

本发明提供一种基于高阶张量的数据降维预处理方法，若比较结果不满足需求标准，则调整获取对应维度的降维值的过程精度，重新获取新的核张量，直到满足需求标准，包括：

若u01≥n，按照u01对相应维度的降维值的过程精度进行调整；

该实施例中，第一信息指的是对应维度下的信息，比如是生命周期维度下，设计、生产、物流、销售、服务之间的关联信息，以此来进行挖掘，确定可以新补充的信息，也就是该信息可以作为评价智能制造的依据，比如，筛选的3个维数为物流、销售、服务，此时，还需要将生产相关的信息补充进去，则维数变成了4个。

该实施例中，外部信息关联挖掘指的是与生命周期维度处于同级别的智能功能来进行一个挖掘，也就是尽可能的补充其他维度对该维度的一个影响，此处只是举例子说明下，但实际过程中所涉及到的维度的数量以及维度子数的大小是非常巨大的。

该实施例中，过程精度的调整也就是将维度值从n换为u01。

该实施例中，结果-扩展量数据库中包含不同的比较结果、基于该比较结果的比较结果差距以及对应的匹配扩展范围在内，因此，可以得到信息个数，也就是最后所获取的新个数肯定是小于对应维度下的维度子数的。

上述技术方案的有益效果是：通过对同维度下的信息进行内部与外部的关联挖掘、交集处理，来对过程精度进行调整，且通过进行u01与n的比较，来确定新个数，实现对降维值的有效调整，有效保证降低计算量的同时，不降低效果。

本发明提供一种基于高阶张量的数据降维预处理方法，提取前n个特征值之后，还包括：

该实施例中，边界触发值即为在时，继续提取第n个特征值之后的特征值进行相加，直到相加结果大于等于/>为止。

上述技术方案的有益效果是：通过特征值的相加，来满足边界触发，为后续降维提供有效基础。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于高阶张量的数据降维预处理方法，其特征在于，包括：

步骤2：确定所述高阶张量中每个维度下的降维值；

2.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，对目标制造构架进行维度解析，确定维度个数以及每个维度下的维度子数，包括：

3.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，确定所述高阶张量中每个维度下的降维值，包括：

对所述高阶张量进行模转置以及相乘处理，得到高阶矩阵；

4.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，对所述高阶张量中的每个维度进行SVD分解，获取得到对应维度的因子矩阵，包括：

将分解结果中的左矩阵作为对应维度的因子矩阵。

5.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，基于获取到的因子矩阵，且结合对应维度的降维值，对所述高阶张量进行TUCKER分解，获取得到核张量，包括：

基于所有模乘结果，获取得到核张量。

6.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，将基于核张量对应的测试结果与基于高阶张量对应的测试结果进行比较，包括：

，

根据如下公式，确定对应第一测试值的调节系数；

，

当所述调节系数为0时，判定比较结果满足需求标准；

否则，判定比较结果不满足需求标准。

7.根据权利要求1所述的基于高阶张量的数据降维预处理方法，其特征在于，若比较结果不满足需求标准，则调整获取对应维度的降维值的过程精度，重新获取新的核张量，直到满足需求标准，包括：

若u01≥n，按照u01对相应维度的降维值的过程精度进行调整；

，

8.根据权利要求3所述的基于高阶张量的数据降维预处理方法，其特征在于，提取前n个特征值之后，还包括：