CN114169452A - 工业大数据特征提取的信息防丢失方法及系统 - Google Patents

工业大数据特征提取的信息防丢失方法及系统 Download PDF

Info

Publication number
CN114169452A
CN114169452A CN202111508333.1A CN202111508333A CN114169452A CN 114169452 A CN114169452 A CN 114169452A CN 202111508333 A CN202111508333 A CN 202111508333A CN 114169452 A CN114169452 A CN 114169452A
Authority
CN
China
Prior art keywords
loss
data
divergence
reconstruction
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111508333.1A
Other languages
English (en)
Inventor
陈晓红
郑旭哲
梁伟
胡义勇
徐雪松
刘飞香
胡东滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202111508333.1A priority Critical patent/CN114169452A/zh
Publication of CN114169452A publication Critical patent/CN114169452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例中提供了一种工业大数据特征提取的信息防丢失方法及系统,属于数据处理技术领域,具体包括:获取待提取特征信息的工业大数据作为原始输入;对原始输入进行数字化和规范化,得到原始数据集;提取原始数据集中的特征数据,并根据特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;对原始输入进行自编码,生成中间变量;将散度损失、重构损失和分类损失约束中间变量。通过本公开的方案,对多维度且数据分布不一致的工业大数据进行预处理后,通过迭代学习得到散度损失、重构损失和分类损失,并在特征提取过程中,利用得到的损失函数对中间变量施加约束,提高了提取特征的质量。

Description

工业大数据特征提取的信息防丢失方法及系统
技术领域
本公开实施例涉及数据处理技术领域,尤其涉及一种工业大数据特征提取的信息防丢失方法及系统。
背景技术
目前,工业大数据已经成为数字智能工业领域的热门话题,工业大数据为制造业提高企业运行效率、整合企业产业链和实现企业创新驱动等优势的同时,却逐渐面临着数据量大、数据维度高等问题,使得后续利用工业大数据时系统复杂度高,数据处理效率低并且实现效果差。特征提取的方法将原始的输入数据的众多特征进行空间映射、信息提取从而得到一组全新的低维度特征,能够有效降低数据维度的同时保留最有效的特征并对原始数据中的噪声进行过滤,以提升后续任务的效率和效果。传统的方法中,在第一阶段高维数据降维中,由于对模型不存在任何约束,存在着关键信息的丢失和信息不对称的问题;在第二阶段特征提取中,仍然未施加任何约束,存在着引入一些不必要的变量的问题,使得数据中噪音过多。由于工业物联网中数据平衡性差、数据维度高、数据分布不一致问题突出将导致数据特征提取的质量进一步降低。
可见,亟需一种提高特征提取过程中的特征质量的工业大数据特征提取的信息防丢失方法。
发明内容
有鉴于此,本公开实施例提供一种工业大数据特征提取的信息防丢失方法及系统,至少部分解决现有技术中存在提取特征质量较差的问题。
第一方面,本公开实施例提供了一种工业大数据特征提取的信息防丢失方法,包括:
获取待提取特征信息的工业大数据作为原始输入;
对所述原始输入进行数字化和规范化,得到原始数据集;
提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
对所述原始输入进行自编码,生成中间变量;
将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
根据本公开实施例的一种具体实现方式,所述对所述原始输入进行数字化和规范化,得到原始数据集的步骤,包括:
剔除所述原始输入中的干扰数据并转换为预设的格式;
将转换格式后的数据中不同属性的数据进行分类,形成所述原始数据集。
根据本公开实施例的一种具体实现方式,所述提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失的步骤,包括:
对所述原始数据集进行自编码,生成连接变量;
根据所述连接变量计算自编码输出,并计算所述自编码输出对所述原始数据集内数据的保留度,作为所述重构损失;
根据所述连接变量与所述原始数据集之间分布的差别,计算所述散度损失;
根据所述连接变量生成预测值,并计算所述预测值与所述真实值之间的交叉熵损失作为所述分类损失;
根据所述重构损失、所述散度损失和所述分类损失形成总体损失;
根据预设的优化器对所述重构损失、所述散度损失、所述分类损失和所述总体损失进行学习后,再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数。
根据本公开实施例的一种具体实现方式,所述重构损失的表达式为
Figure BDA0003404197480000021
其中,
Figure BDA0003404197480000022
Figure BDA0003404197480000023
分别表示所述原数据集和所述自编码输出的第j列特征;
所述分类损失的表达式为
Figure BDA0003404197480000034
其中,y(i)和y(i)′分别表示所述真实值和所述预测值;
所述散度损失的表达式为
Figure BDA0003404197480000032
其中,
Figure BDA0003404197480000033
是重构项,表示Z分布与X(i)分布之间的散度,代表两者之间的相似关系。DKL[q(Z|X(i)||p(ω|X(i)))]表示q(Z|X(i))分布与p(ω|X(i))分布之间的近似性。
根据本公开实施例的一种具体实现方式,所述预设的优化器为Adam优化器。
根据本公开实施例的一种具体实现方式,所述再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数的步骤之后,所述方法还包括:
记录每次迭代的结果并根据不同损失函数生成对应的变化曲线。
第二方面,本公开实施例提供了一种工业大数据特征提取的信息防丢失系统,包括:
获取模块,用于获取待提取特征信息的工业大数据作为原始输入;
预处理模块,用于对所述原始输入进行数字化和规范化,得到原始数据集;
提取模块,用于提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
自编码模块,用于对所述原始输入进行自编码,生成中间变量;
约束模块,用于将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
本公开实施例中的工业大数据特征提取的信息防丢失方案,包括:获取待提取特征信息的工业大数据作为原始输入;对所述原始输入进行数字化和规范化,得到原始数据集;提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;对所述原始输入进行自编码,生成中间变量;将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
本公开实施例的有益效果为:通过本公开的方案,对包含多维度且数据分布不一致的工业大数据进行预处理后,通过迭代学习得到散度损失、重构损失和分类损失,并在特征提取过程中,利用散度损失、重构损失和分类损失对中间变量施加约束,提高了提取特征的质量。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法的流程示意图;
图2为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的特征提取过程示意图;
图3为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的损失函数变化曲线示意图;
图4为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的特征提取的优化效果图;
图5为本公开实施例提供的一种工业大数据特征提取的信息防丢失系统的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种工业大数据特征提取的信息防丢失方法,所述方法可以应用于工业大数据处理场景中的特征提取过程。
参见图1,为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
S101,获取待提取特征信息的工业大数据作为原始输入;
具体实施时,所述方法可以应用于特征提取的混合模型,例如,所述混合模型具体可以包括生成模型和分类模型,生成模型中可以包括编码模块、变分模块、解码模块,分类模型中可以包括前馈神经网络模块。可以在接受到特征提取指令时获取对应的工业大数据,然后将所述工业大数据作为所述原始输入。
S102,对所述原始输入进行数字化和规范化,得到原始数据集;
考虑到所述原始输入中的数据平衡性差、数据维度高和数据分布不一致的问题,可以先对所述原始输入进行数字化和规范化,得到所述原始数据。
S103,提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
具体实施时,考虑到在特征提取过程中会存在数据的损失,可以先通过深度学习的方法提取所述原始数据集中的特征数据,然后根据提取到的特征数据进行预设次数的迭代计算,然后得到所述散度损失、所述重构损失和所述分类损失。
S104,对所述原始输入进行自编码,生成中间变量;
例如,在特征提取过程中,需要通过所述生成模型将所述原始输入进行自编码处理,生成所述中间变量。
S105,将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
在得到所述中间变量后,可以将所述散度损失、所述重构损失和所述分类损失约束所述中间变量,对所述中间变量施加约束的效果尽可能的减少数据无关特征的影响,并保留数据的关键特征,减少数据特征提取过程中的信息丢失、信息不对称的问题,以使得特征提取过后的结果更加有意义。
本实施例提供的工业大数据特征提取的信息防丢失方法,通过对包含多维度且数据分布不一致的工业大数据进行预处理后,通过迭代学习得到散度损失、重构损失和分类损失,并在特征提取过程中,利用散度损失、重构损失和分类损失对中间变量施加约束,提高了提取特征的质量。
在上述实施例的基础上,步骤S102所述的,对所述原始输入进行数字化和规范化,得到原始数据集,包括:
剔除所述原始输入中的干扰数据并转换为预设的格式;
将转换格式后的数据中不同属性的数据进行分类,形成所述原始数据集。
具体实施时,考虑到所述原始输入中的无效数据和噪音数据较多,可以在得到所述原始输入后,剔除所述原始输入中的干扰数据并转换为预设的格式,然后将转换格式后的数据中不同属性的数据进行分类,形成所述原始数据集。对待提取特征信息的工业大数据的具体处理过程如图2所示。
在上述实施例的基础上,步骤S103所述的,提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失,包括:
对所述原始数据集进行自编码,生成连接变量;
根据所述连接变量计算自编码输出,并计算所述自编码输出对所述原始数据集内数据的保留度,作为所述重构损失;
根据所述连接变量与所述原始数据集之间分布的差别,计算所述散度损失;
根据所述连接变量生成预测值,并计算所述预测值与所述真实值之间的交叉熵损失作为所述分类损失;
根据所述重构损失、所述散度损失和所述分类损失形成总体损失;
根据预设的优化器对所述重构损失、所述散度损失、所述分类损失和所述总体损失进行学习后,再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数。
进一步的,所述重构损失的表达式为
Figure BDA0003404197480000071
其中,
Figure BDA0003404197480000072
Figure BDA0003404197480000073
分别表示所述原数据集和所述自编码输出的第j列特征;
所述分类损失的表达式为
Figure BDA0003404197480000077
其中,y(i)和y(i)′分别表示所述真实值和所述预测值;
所述散度损失的表达式为
Figure BDA0003404197480000075
其中,
Figure BDA0003404197480000076
是重构项,表示Z分布与X(i)分布之间的散度,代表两者之间的相似关系。DKL[q(Z|X(i)||p(ω|X(i)))]表示q(Z|X(i))分布与p(ω|X(i))分布之间的近似性。
可选的,所述预设的优化器为Adam优化器。
可选的,所述再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数的步骤之后,所述方法还包括:
记录每次迭代的结果并根据不同损失函数生成对应的变化曲线。
具体实施时,在优化过程中,目标模型可能会受到多种因素的影响,甚至在对训练过程中引入不必要的变量,因此可以引入三个损失函数来约束中间变量,以保证重建的中间变量与原始输入数据的分布一致,使构建的特征更具有意义和可解释性,总体损失函数
Figure BDA0003404197480000081
可以由公式给出:
Figure BDA0003404197480000082
其中,
Figure BDA0003404197480000083
代表了重构损失、
Figure BDA0003404197480000084
代表了分类损失和
Figure BDA0003404197480000085
代表了散度损失,具体定义如下所示:
首先,设计了
Figure BDA0003404197480000086
Figure BDA0003404197480000087
的重构损失
Figure BDA0003404197480000088
来衡量中间变量保留了多少原始输入信息,其定义如下:
Figure BDA0003404197480000089
Figure BDA00034041974800000816
Figure BDA00034041974800000815
分别代表了x(i)和x(i)′的第j列特征。
其次,为了衡量估计网络的分类损失,可以将真实值y和预测值y'之间的交叉熵损失定义为
Figure BDA00034041974800000812
可以由公式表示:
Figure BDA00034041974800000813
最后,衡量了中间变量和输入数据之间分布的差别,将中间变量与输入数据之间的散度损失定义为
Figure BDA00034041974800000814
具体可以由公式表示:
Figure BDA0003404197480000091
Figure BDA0003404197480000092
是重构项,表示Z分布与X(i)分布之间的散度,代表两者之间的相似关系。DKL[q(Z|X(i)||p(ω|X(i)))]表示q(Z|X(i))分布与p(ω|X(i))分布之间的近似性。
在优化过程中
Figure BDA0003404197480000093
是为了保证中间变量的基本特征,
Figure BDA0003404197480000094
是为中间变量提供更有意义的特征,
Figure BDA0003404197480000095
旨在以一种对抗性竞争的方式为中间变量提供更完整的特征信息。针对不平衡高维数据,在进行特征提取时,通过施加三个损失函数的约束,减少不必要变量的引入,同时尽可能将重要变量保留,使特征构建的更加有意义,提升估计网络的准确性。
如图3所示,其中,(a)代表重构损失
Figure BDA0003404197480000096
(b)代表散度损失
Figure BDA0003404197480000097
(c)代表分类损失
Figure BDA0003404197480000098
(d)代表总体损失
Figure BDA0003404197480000099
可以选择Adam优化器作为预设的优化器,学习率设置为0.005,最大迭代次数设置为200次。模型训练过程中,计算上述四个损失函数的损失值,通过集合将其每一次迭代的结果保留,并将其进一步可视化,比较并观察损失曲线趋势的变化。从图中不难看出:1、图3中(d)中方法的整体损失
Figure BDA00034041974800000910
在前10次迭代中迅速下降,并变得相对稳定,表明了本公开的实施例涉及的学习模式在工业大数据环境中的适应性。图3中(a)、(b)、(c)中方法的新设计的局部损失函数,包括重构损失函数、分类损失函数和散度损失函数在前20次训练过程中梯度下降合理,表明损失函数可以有效约束中间变量。可视化结果可以验证对中间变量施加约束的效果,尽可能的减少数据无关特征的影响,并保留数据的关键特征,减少数据特征提取过程中的信息丢失、信息不对称的问题,是特征提取过后的结果更加有意义,证明本公开实施例的工业大数据特征提取的信息防丢失方法的有效性。
下面将结合一个具体实施例对本方法进行说明,使用了UNSWNB15的开放数据集作为原始输入,其数据集中主要包含了42个特征,分为四类:基本特征、内容特征、时间特征和额外生产特征,利用one-hot编码技术对其进行数字化和规范化,部分数据表的表现形式如表1所示:
Figure BDA0003404197480000101
表1
通过上述预处理的方式以及数据清洗的方式对数据集进行处理,统计数据集中的标签类型,并按照数据标签的类型划分各自类别的训练集和测试集,划分的方式如表2所示:
Figure BDA0003404197480000102
Figure BDA0003404197480000111
表2
将训练集中的数据通过基于生成模型和分类模型的混合模型进行训练,并在训练过程中始终对于中间变量施加约束,使得中间变量的意义得到优化,在模型的训练中得到了86.9%的训练精度。将划分后的工业流量数据的测试集放入训练完成后的混合模型,以评估和验证模型的效果,模型的评估效果如表3所示:
Figure BDA0003404197480000112
表3
根据基于生成模型和分类模型的混合模型,验证通过对中间变量施加重构约束、分类约束和散度约束的方法对原始变量特征提取的优化效果。把输入数据中的异常数据和正常流量数据以不同颜色的点进行表示,通过PCA方法将原始输入数据和中间变量压缩成三维向量,并将其进一步可视化,比较并观察数据在三维视图中的潜在表示,以评估施加约束的方法对于特征提取优化的效果,特征提取的优化效果如图4所示。
与上面的方法实施例相对应,参见图5,本公开实施例还提供了一种工业大数据特征提取的信息防丢失系统50,包括:
获取模块501,用于获取待提取特征信息的工业大数据作为原始输入;
预处理模块502,用于对所述原始输入进行数字化和规范化,得到原始数据集;
提取模块503,用于提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
自编码模块504,用于对所述原始输入进行自编码,生成中间变量;
约束模块505,用于将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
图5所示系统可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种工业大数据特征提取的信息防丢失方法,其特征在于,包括:
获取待提取特征信息的工业大数据作为原始输入;
对所述原始输入进行数字化和规范化,得到原始数据集;
提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
对所述原始输入进行自编码,生成中间变量;
将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始输入进行数字化和规范化,得到原始数据集的步骤,包括:
剔除所述原始输入中的干扰数据并转换为预设的格式;
将转换格式后的数据中不同属性的数据进行分类,形成所述原始数据集。
3.根据权利要求1所述的方法,其特征在于,所述提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失的步骤,包括:
对所述原始数据集进行自编码,生成连接变量;
根据所述连接变量计算自编码输出,并计算所述自编码输出对所述原始数据集内数据的保留度,作为所述重构损失;
根据所述连接变量与所述原始数据集之间分布的差别,计算所述散度损失;
根据所述连接变量生成预测值,并计算所述预测值与所述真实值之间的交叉熵损失作为所述分类损失;
根据所述重构损失、所述散度损失和所述分类损失形成总体损失;
根据预设的优化器对所述重构损失、所述散度损失、所述分类损失和所述总体损失进行学习后,再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数。
4.根据权利要求3所述的方法,其特征在于,所述重构损失的表达式为
Figure FDA0003404197470000011
其中,
Figure FDA0003404197470000012
Figure FDA0003404197470000013
分别表示所述原数据集和自编码输出变量的第j列特征;
所述分类损失的表达式为
Figure FDA0003404197470000024
其中,y(i)和y(i)′分别表示所述真实值和所述预测值;
所述散度损失的表达式为
Figure FDA0003404197470000022
其中,
Figure FDA0003404197470000023
是重构项,表示Z分布与X(i)分布之间的散度,代表两者之间的相似关系,DKL[q(Z|X(i)||p(ω|X(i)))]表示q(Z|X(i))分布与p(ω|X(i))分布之间的近似性。
5.根据权利要求3所述的方法,其特征在于,所述预设的优化器为Adam优化器。
6.根据权利要求3所述的方法,其特征在于,所述再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数的步骤之后,所述方法还包括:
记录每次迭代的结果并根据不同损失函数生成对应的变化曲线。
7.一种工业大数据特征提取的信息防丢失系统,其特征在于,包括:
获取模块,用于获取待提取特征信息的工业大数据作为原始输入;
预处理模块,用于对所述原始输入进行数字化和规范化,得到原始数据集;
提取模块,用于提取所述原始数据集中的特征数据,并根据所述特征数据进行预设次数的迭代计算,得到散度损失、重构损失和分类损失;
自编码模块,用于对所述原始输入进行自编码,生成中间变量;
约束模块,用于将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。
CN202111508333.1A 2021-12-10 2021-12-10 工业大数据特征提取的信息防丢失方法及系统 Pending CN114169452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111508333.1A CN114169452A (zh) 2021-12-10 2021-12-10 工业大数据特征提取的信息防丢失方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111508333.1A CN114169452A (zh) 2021-12-10 2021-12-10 工业大数据特征提取的信息防丢失方法及系统

Publications (1)

Publication Number Publication Date
CN114169452A true CN114169452A (zh) 2022-03-11

Family

ID=80485453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111508333.1A Pending CN114169452A (zh) 2021-12-10 2021-12-10 工业大数据特征提取的信息防丢失方法及系统

Country Status (1)

Country Link
CN (1) CN114169452A (zh)

Similar Documents

Publication Publication Date Title
CN109271975B (zh) 一种基于大数据多特征提取协同分类的电能质量扰动识别方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN109711609B (zh) 基于小波变换和极限学习机的光伏电站输出功率预测方法
CN111311400A (zh) 基于gbdt算法的评分卡模型的建模方法及其系统
CN110212528B (zh) 一种配电网量测数据缺失重构方法
CN111428201B (zh) 基于经验模态分解和前馈神经网络对时序数据的预测方法
CN110909928B (zh) 能源负荷短期预测方法、装置、计算机设备及存储介质
CN109902340B (zh) 一种计及复杂气象耦合特性的多源-荷联合场景生成方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN112417835B (zh) 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112613536A (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN114548586A (zh) 一种基于混合模型的短期电力负荷预测方法及系统
CN112803398A (zh) 基于经验模态分解和深度神经网络的负荷预测方法及系统
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级系统
CN114880538A (zh) 基于自监督的属性图社团检测方法
CN114386452A (zh) 核电循环水泵太阳轮故障检测方法
CN117131022A (zh) 一种电力信息系统的异构数据迁移方法
CN112595918A (zh) 一种低压集抄故障的检测方法及装置
CN116776245A (zh) 一种基于机器学习的三相逆变器设备故障诊断方法
CN114169452A (zh) 工业大数据特征提取的信息防丢失方法及系统
CN114004530B (zh) 基于排序支撑向量机的企业电力信用分建模方法及系统
CN110852496A (zh) 一种基于lstm循环神经网络的天然气负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination