CN114169452A

CN114169452A - 工业大数据特征提取的信息防丢失方法及系统

Info

Publication number: CN114169452A
Application number: CN202111508333.1A
Authority: CN
Inventors: 陈晓红; 郑旭哲; 梁伟; 胡义勇; 徐雪松; 刘飞香; 胡东滨
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11

Abstract

本公开实施例中提供了一种工业大数据特征提取的信息防丢失方法及系统，属于数据处理技术领域，具体包括：获取待提取特征信息的工业大数据作为原始输入；对原始输入进行数字化和规范化，得到原始数据集；提取原始数据集中的特征数据，并根据特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；对原始输入进行自编码，生成中间变量；将散度损失、重构损失和分类损失约束中间变量。通过本公开的方案，对多维度且数据分布不一致的工业大数据进行预处理后，通过迭代学习得到散度损失、重构损失和分类损失，并在特征提取过程中，利用得到的损失函数对中间变量施加约束，提高了提取特征的质量。

Description

工业大数据特征提取的信息防丢失方法及系统

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种工业大数据特征提取的信息防丢失方法及系统。

背景技术

目前，工业大数据已经成为数字智能工业领域的热门话题，工业大数据为制造业提高企业运行效率、整合企业产业链和实现企业创新驱动等优势的同时，却逐渐面临着数据量大、数据维度高等问题，使得后续利用工业大数据时系统复杂度高，数据处理效率低并且实现效果差。特征提取的方法将原始的输入数据的众多特征进行空间映射、信息提取从而得到一组全新的低维度特征，能够有效降低数据维度的同时保留最有效的特征并对原始数据中的噪声进行过滤，以提升后续任务的效率和效果。传统的方法中，在第一阶段高维数据降维中，由于对模型不存在任何约束，存在着关键信息的丢失和信息不对称的问题；在第二阶段特征提取中，仍然未施加任何约束，存在着引入一些不必要的变量的问题，使得数据中噪音过多。由于工业物联网中数据平衡性差、数据维度高、数据分布不一致问题突出将导致数据特征提取的质量进一步降低。

可见，亟需一种提高特征提取过程中的特征质量的工业大数据特征提取的信息防丢失方法。

发明内容

有鉴于此，本公开实施例提供一种工业大数据特征提取的信息防丢失方法及系统，至少部分解决现有技术中存在提取特征质量较差的问题。

第一方面，本公开实施例提供了一种工业大数据特征提取的信息防丢失方法，包括：

获取待提取特征信息的工业大数据作为原始输入；

对所述原始输入进行数字化和规范化，得到原始数据集；

提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；

对所述原始输入进行自编码，生成中间变量；

将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。

根据本公开实施例的一种具体实现方式，所述对所述原始输入进行数字化和规范化，得到原始数据集的步骤，包括：

剔除所述原始输入中的干扰数据并转换为预设的格式；

将转换格式后的数据中不同属性的数据进行分类，形成所述原始数据集。

根据本公开实施例的一种具体实现方式，所述提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失的步骤，包括：

对所述原始数据集进行自编码，生成连接变量；

根据所述连接变量计算自编码输出，并计算所述自编码输出对所述原始数据集内数据的保留度，作为所述重构损失；

根据所述连接变量与所述原始数据集之间分布的差别，计算所述散度损失；

根据所述连接变量生成预测值，并计算所述预测值与所述真实值之间的交叉熵损失作为所述分类损失；

根据所述重构损失、所述散度损失和所述分类损失形成总体损失；

根据预设的优化器对所述重构损失、所述散度损失、所述分类损失和所述总体损失进行学习后，再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数。

根据本公开实施例的一种具体实现方式，所述重构损失的表达式为

其中，

和

分别表示所述原数据集和所述自编码输出的第j列特征；

所述分类损失的表达式为

其中，y⁽ⁱ⁾和y^(i)′分别表示所述真实值和所述预测值；

所述散度损失的表达式为

其中，

是重构项，表示Z分布与X⁽ⁱ⁾分布之间的散度,代表两者之间的相似关系。D_KL[q(Z|X⁽ⁱ⁾||p(ω|X⁽ⁱ⁾))]表示q(Z|X⁽ⁱ⁾)分布与p(ω|X⁽ⁱ⁾)分布之间的近似性。

根据本公开实施例的一种具体实现方式，所述预设的优化器为Adam优化器。

根据本公开实施例的一种具体实现方式，所述再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数的步骤之后，所述方法还包括：

记录每次迭代的结果并根据不同损失函数生成对应的变化曲线。

第二方面，本公开实施例提供了一种工业大数据特征提取的信息防丢失系统，包括：

获取模块，用于获取待提取特征信息的工业大数据作为原始输入；

预处理模块，用于对所述原始输入进行数字化和规范化，得到原始数据集；

提取模块，用于提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；

自编码模块，用于对所述原始输入进行自编码，生成中间变量；

约束模块，用于将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。

本公开实施例中的工业大数据特征提取的信息防丢失方案，包括：获取待提取特征信息的工业大数据作为原始输入；对所述原始输入进行数字化和规范化，得到原始数据集；提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；对所述原始输入进行自编码，生成中间变量；将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。

本公开实施例的有益效果为：通过本公开的方案，对包含多维度且数据分布不一致的工业大数据进行预处理后，通过迭代学习得到散度损失、重构损失和分类损失，并在特征提取过程中，利用散度损失、重构损失和分类损失对中间变量施加约束，提高了提取特征的质量。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法的流程示意图；

图2为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的特征提取过程示意图；

图3为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的损失函数变化曲线示意图；

图4为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法涉及的特征提取的优化效果图；

图5为本公开实施例提供的一种工业大数据特征提取的信息防丢失系统的结构示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种工业大数据特征提取的信息防丢失方法，所述方法可以应用于工业大数据处理场景中的特征提取过程。

参见图1，为本公开实施例提供的一种工业大数据特征提取的信息防丢失方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

S101，获取待提取特征信息的工业大数据作为原始输入；

具体实施时，所述方法可以应用于特征提取的混合模型，例如，所述混合模型具体可以包括生成模型和分类模型，生成模型中可以包括编码模块、变分模块、解码模块，分类模型中可以包括前馈神经网络模块。可以在接受到特征提取指令时获取对应的工业大数据，然后将所述工业大数据作为所述原始输入。

S102，对所述原始输入进行数字化和规范化，得到原始数据集；

考虑到所述原始输入中的数据平衡性差、数据维度高和数据分布不一致的问题，可以先对所述原始输入进行数字化和规范化，得到所述原始数据。

S103，提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；

具体实施时，考虑到在特征提取过程中会存在数据的损失，可以先通过深度学习的方法提取所述原始数据集中的特征数据，然后根据提取到的特征数据进行预设次数的迭代计算，然后得到所述散度损失、所述重构损失和所述分类损失。

S104，对所述原始输入进行自编码，生成中间变量；

例如，在特征提取过程中，需要通过所述生成模型将所述原始输入进行自编码处理，生成所述中间变量。

S105，将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。

在得到所述中间变量后，可以将所述散度损失、所述重构损失和所述分类损失约束所述中间变量，对所述中间变量施加约束的效果尽可能的减少数据无关特征的影响，并保留数据的关键特征，减少数据特征提取过程中的信息丢失、信息不对称的问题，以使得特征提取过后的结果更加有意义。

本实施例提供的工业大数据特征提取的信息防丢失方法，通过对包含多维度且数据分布不一致的工业大数据进行预处理后，通过迭代学习得到散度损失、重构损失和分类损失，并在特征提取过程中，利用散度损失、重构损失和分类损失对中间变量施加约束，提高了提取特征的质量。

在上述实施例的基础上，步骤S102所述的，对所述原始输入进行数字化和规范化，得到原始数据集，包括：

剔除所述原始输入中的干扰数据并转换为预设的格式；

具体实施时，考虑到所述原始输入中的无效数据和噪音数据较多，可以在得到所述原始输入后，剔除所述原始输入中的干扰数据并转换为预设的格式，然后将转换格式后的数据中不同属性的数据进行分类，形成所述原始数据集。对待提取特征信息的工业大数据的具体处理过程如图2所示。

在上述实施例的基础上，步骤S103所述的，提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失，包括：

对所述原始数据集进行自编码，生成连接变量；

进一步的，所述重构损失的表达式为

其中，

和

分别表示所述原数据集和所述自编码输出的第j列特征；

所述分类损失的表达式为

其中，y⁽ⁱ⁾和y^(i)′分别表示所述真实值和所述预测值；

所述散度损失的表达式为

其中，

可选的，所述预设的优化器为Adam优化器。

可选的，所述再次进行自编码并计算新的重构损失、散度损失、分类损失和总体损失直至达到预设次数的步骤之后，所述方法还包括：

具体实施时，在优化过程中，目标模型可能会受到多种因素的影响，甚至在对训练过程中引入不必要的变量，因此可以引入三个损失函数来约束中间变量，以保证重建的中间变量与原始输入数据的分布一致，使构建的特征更具有意义和可解释性，总体损失函数

可以由公式给出：

其中，

代表了重构损失、

代表了分类损失和

代表了散度损失，具体定义如下所示：

首先，设计了

和

的重构损失

来衡量中间变量保留了多少原始输入信息，其定义如下：

和

分别代表了x⁽ⁱ⁾和x^(i)′的第j列特征。

其次，为了衡量估计网络的分类损失，可以将真实值y和预测值y'之间的交叉熵损失定义为

可以由公式表示：

最后，衡量了中间变量和输入数据之间分布的差别，将中间变量与输入数据之间的散度损失定义为

具体可以由公式表示：

在优化过程中

是为了保证中间变量的基本特征，

是为中间变量提供更有意义的特征，

旨在以一种对抗性竞争的方式为中间变量提供更完整的特征信息。针对不平衡高维数据，在进行特征提取时，通过施加三个损失函数的约束，减少不必要变量的引入，同时尽可能将重要变量保留，使特征构建的更加有意义，提升估计网络的准确性。

如图3所示，其中，(a)代表重构损失

(b)代表散度损失

(c)代表分类损失

(d)代表总体损失

可以选择Adam优化器作为预设的优化器，学习率设置为0.005，最大迭代次数设置为200次。模型训练过程中，计算上述四个损失函数的损失值，通过集合将其每一次迭代的结果保留，并将其进一步可视化，比较并观察损失曲线趋势的变化。从图中不难看出:1、图3中(d)中方法的整体损失

在前10次迭代中迅速下降，并变得相对稳定，表明了本公开的实施例涉及的学习模式在工业大数据环境中的适应性。图3中(a)、(b)、(c)中方法的新设计的局部损失函数，包括重构损失函数、分类损失函数和散度损失函数在前20次训练过程中梯度下降合理，表明损失函数可以有效约束中间变量。可视化结果可以验证对中间变量施加约束的效果，尽可能的减少数据无关特征的影响，并保留数据的关键特征，减少数据特征提取过程中的信息丢失、信息不对称的问题，是特征提取过后的结果更加有意义，证明本公开实施例的工业大数据特征提取的信息防丢失方法的有效性。

下面将结合一个具体实施例对本方法进行说明，使用了UNSWNB15的开放数据集作为原始输入，其数据集中主要包含了42个特征，分为四类：基本特征、内容特征、时间特征和额外生产特征，利用one-hot编码技术对其进行数字化和规范化，部分数据表的表现形式如表1所示：

表1

通过上述预处理的方式以及数据清洗的方式对数据集进行处理，统计数据集中的标签类型，并按照数据标签的类型划分各自类别的训练集和测试集，划分的方式如表2所示：

表2

将训练集中的数据通过基于生成模型和分类模型的混合模型进行训练，并在训练过程中始终对于中间变量施加约束，使得中间变量的意义得到优化，在模型的训练中得到了86.9％的训练精度。将划分后的工业流量数据的测试集放入训练完成后的混合模型，以评估和验证模型的效果，模型的评估效果如表3所示：

表3

根据基于生成模型和分类模型的混合模型，验证通过对中间变量施加重构约束、分类约束和散度约束的方法对原始变量特征提取的优化效果。把输入数据中的异常数据和正常流量数据以不同颜色的点进行表示，通过PCA方法将原始输入数据和中间变量压缩成三维向量，并将其进一步可视化，比较并观察数据在三维视图中的潜在表示，以评估施加约束的方法对于特征提取优化的效果，特征提取的优化效果如图4所示。

与上面的方法实施例相对应，参见图5，本公开实施例还提供了一种工业大数据特征提取的信息防丢失系统50，包括：

获取模块501，用于获取待提取特征信息的工业大数据作为原始输入；

预处理模块502，用于对所述原始输入进行数字化和规范化，得到原始数据集；

提取模块503，用于提取所述原始数据集中的特征数据，并根据所述特征数据进行预设次数的迭代计算，得到散度损失、重构损失和分类损失；

自编码模块504，用于对所述原始输入进行自编码，生成中间变量；

约束模块505，用于将所述散度损失、所述重构损失和所述分类损失约束所述中间变量。

图5所示系统可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。