CN111970584A - 一种用于处理数据的方法、装置、设备以及存储介质 - Google Patents
一种用于处理数据的方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111970584A CN111970584A CN202010652841.6A CN202010652841A CN111970584A CN 111970584 A CN111970584 A CN 111970584A CN 202010652841 A CN202010652841 A CN 202010652841A CN 111970584 A CN111970584 A CN 111970584A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- health
- target data
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 230000036541 health Effects 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 230000008859 change Effects 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000035772 mutation Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003042 antagnostic effect Effects 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0079—Operation or maintenance aspects
- H04Q2011/0083—Testing; Monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0084—Quality of service aspects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本说明书一个或多个实施例提供一种用于处理数据的方法、装置、设备以及存储介质,该方法包括:获取目标数据;生成预设类别标识标注目标数据;根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系;对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。本申请通过在获取的数据中确定出与设备健康相关的数据,并作为待增强数据进行增强,提高了数据量,在减少数据采集工作的同时,以最小的成本代价获取必要的设备健康相关数据集。
Description
技术领域
本说明书一个或多个实施例涉及大数据技术领域,尤其涉及一种用于处理数据的方法、装置、设备以及存储介质。
背景技术
随着光网络传输设备的不断部署,海量的运维数据,如性能数据、告警数据、故障信息等,呈现出日益复杂而难以处理的状况。通过对海量运维数据进行初步分析可发现,与传输设备相关联的故障数据较少,告警数据存在大量冗余,且由于设备类型众多,产生了大量异构数据。经过数据预处理,大量冗余的告警得到了压缩,异构数据得到了统一规范。相应地,具备完整标签信息的数据将大大减少,不利于深度学习模型的训练——可用的设备健康画像数据稀少会严重导致模型训练过程出现过度拟合现象。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种,以解决的问题。
基于上述目的,本说明书一个或多个实施例提供了一种用于处理数据的方法,其特征在于,包括:
获取目标数据;
生成预设类别标识标注目标数据;
根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系;
对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
进一步地,在生成预设类别标识标注目标数据之前,该方法还包括:
确定目标数据中的性能数据;
响应于确定性能数据中包括相邻数据变化小于预设变化阈值的数据,在性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
进一步地,在生成预设类别标识标注目标数据之前,该方法还包括:
确定目标数据中的性能数据;
响应于确定性能数据中包括相邻数据变化大于预设变化阈值的数据,对性能数据对应的拟合曲线进行预设斜率的调节,得到调节后的目标数据。
进一步地,在生成预设类别标识标注目标数据之前,该方法还包括:
确定目标数据中的性能数据;
在性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
进一步地,对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强,包括:
利用生成对抗网络对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强;
其中,利用生成对抗网络对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强,包括:
根据与输入的与设备健康相关的带有预设类别标识的数据具有相同特征数的功率谱密度恒定的数据生成伪性能数据;
响应于确定伪性能数据与与设备健康相关的带有类别标识的数据的差异小于预设阈值,将伪性能数据作为数据增强后的数据输出。
进一步地,该方法还包括:对生成对抗网络进行训练;
其中,对生成对抗网络进行训练,包括:
获取训练样本集,训练样本集包括真实性能数据和对应的告警标识;
利用训练样本集训练生成对抗网络。
进一步地,该方法还包括:
对获取的目标数据进行预处理;以及
均衡化数据增强后的与设备健康相关的带有预设类别标识的数据中各标识对应的数据量。
一种用于处理数据的装置,其特征在于,包括:
数据获取单元,被配置为获取目标数据;
数据标注单元,被配置为生成预设类别标识标注目标数据;
设备健康相关数据确定单元,被配置为根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系;
数据增强单元,被配置为对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现如权利要求1至7任意一项的方法。
一种非暂态计算机可读存储介质,其特征在于,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行权利要求1至7任一项方法。
从上面可以看出,本说明书一个或多个实施例提供的用于处理数据的方法、装置、设备以及存储介质,通过在获取的数据中确定出与设备健康相关的数据,并作为待增强数据进行增强,提高了数据量,在减少数据采集工作的同时,以最小的成本代价获取必要的设备健康相关数据集。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个实施例的用于处理数据的方法的流程示意图;
图2为本说明书另一个实施例的用于处理数据的方法的流程示意图;
图3为本说明书一个实施例的用于处理数据的装置的结构示意图;
图4为本说明书一个实施例的用于处理数据的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1示出了可以应用于本申请的用于处理数据的方法的一个实施例的流程100。本实施例的用于处理数据的方法,包括以下步骤:
步骤101,获取目标数据。
本实施例中,用于处理数据的方法的执行主体一般为服务器。相应地,用于处理数据的装置一般设置于服务器中。用于处理数据的方法的执行主体可以从其他服务器、终端设备或数据库中通过与目标数据相应的接口或者根据需要获取的目标数据的数据标识获取目标数据。目标数据包括但不限于设备的运维数据。
步骤102,生成预设类别标识标注目标数据。
执行主体在获取目标数据后,可以生成预设类别标识标注目标数据。类别标识可以由执行主体随机或顺序生成。但每个目标数据只对应一个类别标识。示例的,预设类别标识可以是与设备健康画像相关的标签,例如可以是时间标签、位置标签、性能标签、告警标签、故障信息标签、板卡信息标签、温度标签等。用生成的预设类别标识标注目标数据,实际为将生成的预设类别标识与目标数据中对应的数据关联匹配起来,从而形成生成该目标数据的设备的健康画像。具体地,例如,用时间标签标注数据:2018-07-12 12:25:33;用温度标签标注数据:25℃。性能具体包括模块温度(℃)、输入光功率(dBm)、输出光功率(dBm)、激光器偏流(mA)、激光器温度(℃)等。因此,性能标签可以对应标注模块温度数据、输入光功率数据、输出光功率数据、激光器偏流数据以及激光器温度数据等。
步骤103,根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据。
执行主体在对目标数据进行预设类别标识标注后,可以根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据。预训练模型可以为预训练的卷积神经网络模型,该预训练的卷积神经网络模型用于表征类别标识与设备健康之间的对应关系。在将目标数据输入预训练的卷积神经网络模型中后,卷积神经网络模型会提取目标数据中与设备健康相关的类别标识对应的特征(也可以为对应的数据),并将与设备健康对应的数据及其类别标识输出,以确定目标数据中的与设备健康相关的数据。
示例的,对于异构数据,由于数据已做规范化处理,这里采用“存同去异”方式处理,根据确定出的带有标识的数据,去除传输设备间因异构而不同的运维数据,保留与设备健康相关的数据,数据空缺则补零。最终构建出适用所有光网络传输设备的健康画像数据集(也就是待增强数据,相当于目标数据中与设备健康相关的数据)。
步骤104,对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
执行主体在确定出目标数据中与设备健康相关的带有类别标识的数据后,可以对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。具体地,数据增强的意思可以是让有限的数据产生更多的等价数据。执行主体可以通过在确定出的与设备健康相关的带有预设类别标识的数据上叠加白噪声的方法进行数据增强。白噪声(whitenoise)是指功率谱密度在整个频域内是常数的噪声。数据中白噪声的叠加不会对数据产生干扰,反而可以用于增强数据。
本实施例中,通过在获取的数据中确定出与设备健康相关的数据,并作为待增强数据进行增强,提高了数据量,在减少数据采集工作的同时,以最小的成本代价获取必要的设备健康相关数据集。
继续参见图2,其示出了根据本申请的用于处理数据的方法的另一个实施例的流程200。如图2所示,本实施例的用于处理数据的方法可以包括以下步骤:
步骤201,获取目标数据。
执行主体在对目标数据进行采集时,是对一个或多个信号获取对象信息的过程。示例的,获取目标数据主要完成故障信息、告警数据、性能数据等光网络传输设备运维数据的采集。确定数据采集周期为TC。
步骤201的原理与步骤101的原理类似,此处不再赘述。
步骤202,对获取的目标数据进行预处理。
执行主体在得到目标数据后,可以对获取的目标数据进行预处理。具体地,数据预处理包括脏数据处理、告警压缩、性能缺失数据补齐、数据标准化。
其中,脏数据处理,例如,可以是对缺失数据、重复数据进行处理:对缺失一个性能值的性能数据,根据其特性,采用平均数、零、或者等比例随机数等来填补;对于缺失超过1个性能值的数据列直接丢弃。
告警数据压缩,例如,主要是去除冗余告警,即采用告警压缩算法从原始告警数据中筛选出最先发生的告警,删除之后连续衍生的告警。
性能缺失数据补齐,例如,可以是根据告警数据以及故障信息在定位与时间上与性能事件相关联的条件进行数据的关联匹配,条件如下:在定位关联上,告警或者故障事件与性能事件的定位在“节点-单板-端口”上一致;在时间关联上,性能事件的监测时间设定为从告警或者故障发生前的Ta,而性能事件的采集周期是Tc,因此会有n=(Tc/Ta)个性能事件与一个告警或故障相关联,将n个性能特征组成一组性能特征序列{an},并将{an}与告警或故障发生情况(设备健康程度)关联起来,形成一组关联数据列(就是待增强数据列)。
数据标准化,对数据进行规范化处理(为了保证结果的可靠性,需要对数据进行规范化(标准化)处理),并将处理好的数据汇总成数据集,存储到数据库中。
步骤203,确定目标数据中的性能数据。
根据预训练模型,确定出目标数据中与性能标识对应的与设备健康相关的性能数据。性能数据分为突变数据和缓变数据。
步骤204,响应于确定性能数据中包括相邻数据变化小于预设变化阈值的数据,在性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
执行主体在确定目标数据中的性能数据后,可以对性能数据的类别进行判定。通过对性能数据的初步分析,性能数据可以分为两大类别,分别为突变数据和缓变数据。性能数据中相邻数据变化小于预设变化阈值的数据即为缓变数据。通过简单地对性能数据进行初步分类,能够简化后续数据增强的步骤,并且可以更有针对性地对性能数据的特征进行增强,从而提高对数据增强后数据的质量。
具体地,确定性能数据中的缓变数据可以通过以下方式实现:在根据预训练模型,确定出目标数据中与性能标识对应的与设备健康相关的性能数据后,将这些性能数据拟合成曲线S,并对S进行一阶微分S’,记为ki=S’(i)。设定性能数据突变判据如公式(1)所示:
kn-1>K且sum(ε(ki-K))<N,i<=n-2, (1)
其中,K:突增阈值;N:用于调节突变次数;K:突变趋势。
若满足以上突变判据,则将S归类为突变数据列,反之为缓变数据列。
本实施例针对不同变化规律的数据类型(突变和渐变数据)可以分别建立缓变数据增强模型和自优化突变数据增强模型。通过分出不同类型的数据,可精准地针对不同类型数据的特性,进行初步数据调整,并将调整后的数据作为增强模型的输入,能够提高模型的收敛速度。
作为用于缓变性能数据的增强模型的输入数据,在归类为缓变数据列的性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据(根据传输设备工作频率、相应温度进行合理叠加),从而获取待增强数据,即为叠加后的目标数据。
步骤205,响应于确定性能数据中包括相邻数据变化大于预设变化阈值的数据,对性能数据对应的拟合曲线进行预设斜率的调节,得到调节后的目标数据。
性能数据中相邻数据变化大于预设变化阈值的数据为突变数据。通过对真实突变性能数据的分析,该类型性能数据所对应的拟合曲线在末端具有一个大斜坡,适合通过改变斜坡斜率获取新的待增强数据。
作为用于突变性能数据的增强模型的输入数据,对性能数据对应的拟合曲线进行预设斜率的调节,将斜率调的相对缓和,得到调节后的目标增强数据,即为用于突变性能数据的增强模型的输入数据。
在本实施例的一些可选的实现方式中,还可以对整体健康画像数据进行增强模型的建立、训练及应用,即不区分性能数据中的缓和数据和突变数据,根据性能数据整体建立健康画像数据增强模型,用于整体的性能数据的增强。具体可通过以下步骤实现:
步骤206,在性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
本实现方式中,通过直接在性能数据上叠加白噪声即与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据,作为整体健康画像数据增强模型的输入数据。
针对整体性能数据建立普适型数据生成的健康画像数据增强模型,可省去数据分类等工作,但一定程度上降低了模型收敛性能。在生成对抗网络模型中,导入真实性能数据训练判别模块DM,使用与真实性能数据同等特征数的白噪声序列作为生成模块GM的输入并生成伪性能数据,通过GM与DM的“零和博弈”使模型整体收敛,最终DM无法判别GM生成数据的真伪,导出的生成数据即为数据增强后的数据。
本实施例通过根据光网络传输设备健康画像相关联的性能数据的变化趋势,将其分类为渐变式数据和突变式数据,并分别采用叠加热噪声法及坡度调节法初步扩增数据量。
步骤207,生成预设类别标识标注目标数据。
步骤208,根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据。
步骤207-步骤208的原理与步骤102-步骤103的原理类似,此处不再赘述。
执行主体在确定出与设备健康相关的数据即待增强数据后,可以通过已训练的生成对抗网络(Generative Adversarial Nets)对待增强数据进行数据增强,具体可以通过以下步骤实现:
步骤209,根据与输入的与设备健康相关的带有预设类别标识的数据具有相同特征数的功率谱密度恒定的数据生成伪性能数据;
具体地,将与设备健康相关的带有预设类别标识的数据具有相同特征数的功率谱密度恒定的数据输入已训练的生成对抗网络中,生成对抗网络将其生成的数据(即生成的伪性能数据)与真实的与设备健康相关的带有预设类别标识的数据进行真假判别。
步骤210,响应于确定伪性能数据与设备健康相关的带有类别标识的数据差异小于预设阈值,将伪性能数据作为数据增强后的数据输出。
生成对抗网络将其生成的数据(即生成的伪性能数据)与真实的与设备健康相关的带有预设类别标识的数据进行真假判别,如此循环,不断更新每次判别的模型参数,使其具备更强的判别能力,直至确定伪性能数据与设备健康相关的带有类别标识的数据差异小于预设阈值时,即判别不出生成的数据与真实的与设备健康相关的带有预设类别标识的数据的真假为止,即可将生成的数据作为已增强的与设备健康相关的增强数据输出。
本实施例基于GANs生成对抗网络(Generative Adversarial Nets)的光网络传输设备健康画像数据增强方法,基于现网真实数据建立及训练生成式对抗网络模型,对采用叠加白噪声法和坡度调节法(调节性能数据拟合曲线的曲率)进行数据量扩增后的传输设备健康画像数据进行自适应增强,提高增强后数据的真实性。
在本实施例的一些可选的实现方式中,用于处理数据的方法还包括图2中未示出的以下步骤:均衡化数据增强后的与设备健康相关的带有预设类别标识的数据中各标识对应的数据量。
具体地,光网络传输设备中原始数据质量差,导致预处理后能够反应传输设备健康状况的各告警、故障标识相关的数据稀少、不均衡等问题。为满足深度网络模型训练数据量需求,采用已经训练好的数据增强模型对健康标识数据进行自适应扩增,并根据健康画像各标识数据量的差异均衡化各类标签数据,使增强后的数据集中带有预设类别标识的数据中各标识对应的数据量具备足量、高质、均衡等特点。
在本实施例的一些可选的实现方式中,用于处理数据的方法还包括图2中未示出的以下步骤:对生成对抗网络进行训练;其中,对生成对抗网络进行训练,包括:获取训练样本集,训练样本集包括真实性能数据和对应的告警标识;利用训练样本集训练生成对抗网络。
具体地,生成对抗网络中包含生成模块和判别模块。用训练集对生成模块进行训练后,可以应用训练过的生成模块根据输入的与真实性能数据和对应的告警标识的特征数相同的白噪声数据生成伪数据,并将生成的伪数据与训练集中的真数据(真实性能数据和对应的告警标识)一起输入判别模型。判别模型对输入的生成的伪数据与训练集中的真数据判断真假,并与生成模型循环对抗训练,直至判别模型判断不出生成的数据是真是假,则两个模型的能力越来越强,最终达到稳态,即可实现对数据的增强,输出可以以假乱真的增强后的数据。
如图3所示,本实施例的用于处理数据的装置300包括:数据获取单元301、数据标注单元302、设备健康相关数据确定单元303和数据增强单元304。
数据获取单元301,被配置为获取目标数据。
数据标注单元302,被配置为生成预设类别标识标注目标数据。
设备健康相关数据确定单元303,被配置为根据目标数据对应的预设类别标识以及预训练模型,确定目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系。
数据增强单元304,被配置为对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
在本实施例的一些可选的实现方式中,该装置还包括图3中未示出的:性能数据确定单元,被配置为确定目标数据中的性能数据;数据叠加单元,被配置为响应于确定性能数据中包括相邻数据变化小于预设变化阈值的数据,在性能数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
在本实施例的一些可选的实现方式中,该装置还包括图3中未示出的:曲线斜率调节单元,被配置为响应于确定性能数据中包括相邻数据变化大于预设变化阈值的数据,对性能数据对应的拟合曲线进行预设斜率的调节,得到调节后的目标数据。
在本实施例的一些可选的实现方式中,该装置还包括图3中未示出的:数据叠加单元,被配置为在目标数据上叠加与性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
在本实施例的一些可选的实现方式中,数据增强单元304进一步被配置为利用生成对抗网络对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强;其中,利用生成对抗网络对确定出的进行数据增强,包括:根据与输入的与设备健康相关的带有预设类别标识的数据具有相同特征数的功率谱密度恒定的数据生成伪性能数据;响应于确定伪性能数据与与设备健康相关的带有类别标识的数据的差异小于预设阈值,将伪性能数据作为数据增强后的数据输出。
在本实施例的一些可选的实现方式中,该装置还包括图3中未示出的:训练单元,被配置为对生成对抗网络进行训练;其中,对生成对抗网络进行训练,包括:获取训练样本集,训练样本集包括真实性能数据和对应的告警标识;利用训练样本集训练生成对抗网络。
在本实施例的一些可选的实现方式中,该装置还包括图3中未示出的:数据预处理单元,被配置为对获取的目标数据进行预处理;以及均衡化数据增强后的与设备健康相关的带有预设类别标识的数据中各标识对应的数据量。
本说明书实施例中支付涉及的技术载体,例如可以包括近场通信(Near FieldCommunication,NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service,SMS)、多媒体消息(Multimedia MessageService,MMS)等。
本说明书实施例中生物识别所涉及的生物特征,例如可以包括眼部特征、声纹、指纹、掌纹、心跳、脉搏、染色体、DNA、人牙咬痕等。其中眼纹可以包括虹膜、巩膜等生物特征。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种用于处理数据的方法,其特征在于,包括:
获取目标数据;
生成预设类别标识标注所述目标数据;
根据所述目标数据对应的预设类别标识以及预训练模型,确定所述目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系;
对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
2.根据权利要求1所述的方法,其特征在于,在所述生成预设类别标识标注所述目标数据之前,所述方法还包括:
确定所述目标数据中的性能数据;
响应于确定所述性能数据中包括相邻数据变化小于预设变化阈值的数据,在所述性能数据上叠加与所述性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
3.根据权利要求1所述的方法,其特征在于,在所述生成预设类别标识标注所述目标数据之前,所述方法还包括:
确定所述目标数据中的性能数据;
响应于确定所述性能数据中包括相邻数据变化大于预设变化阈值的数据,对所述性能数据对应的拟合曲线进行预设斜率的调节,得到调节后的目标数据。
4.根据权利要求1所述的方法,其特征在于,在所述生成预设类别标识标注所述目标数据之前,所述方法还包括:
确定所述目标数据中的性能数据;
在所述性能数据上叠加与所述性能数据具有相同特征数的功率谱密度恒定的数据,得到叠加后的目标数据。
5.根据权利要求2~4中任一项所述的方法,其特征在于,所述对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强,包括:
利用生成对抗网络对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强;
其中,所述利用生成对抗网络对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强,包括:
根据与输入的与设备健康相关的带有预设类别标识的数据具有相同特征数的功率谱密度恒定的数据生成伪性能数据;
响应于确定所述伪性能数据与所述与设备健康相关的带有类别标识的数据的差异小于预设阈值,将所述伪性能数据作为数据增强后的数据输出。
6.根据权利要求2~4中任一项所述的方法,其特征在于,所述方法还包括:对所述生成对抗网络进行训练;
其中,所述对所述生成对抗网络进行训练,包括:
获取训练样本集,所述训练样本集包括真实性能数据和对应的告警标识;
利用所述训练样本集训练所述生成对抗网络。
7.根据权利要求2~4中任一项所述的方法,其特征在于,还包括:
对获取的所述目标数据进行预处理;以及
均衡化数据增强后的与设备健康相关的带有预设类别标识的数据中各标识对应的数据量。
8.一种用于处理数据的装置,其特征在于,包括:
数据获取单元,被配置为获取目标数据;
数据标注单元,被配置为生成预设类别标识标注所述目标数据;
设备健康相关数据确定单元,被配置为根据所述目标数据对应的预设类别标识以及预训练模型,确定所述目标数据中与设备健康相关的数据,其中,预训练模型用于表征类别标识与设备健康的对应关系;
数据增强单元,被配置为对确定出的与设备健康相关的带有预设类别标识的数据进行数据增强。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652841.6A CN111970584A (zh) | 2020-07-08 | 2020-07-08 | 一种用于处理数据的方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652841.6A CN111970584A (zh) | 2020-07-08 | 2020-07-08 | 一种用于处理数据的方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111970584A true CN111970584A (zh) | 2020-11-20 |
Family
ID=73362157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010652841.6A Pending CN111970584A (zh) | 2020-07-08 | 2020-07-08 | 一种用于处理数据的方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111970584A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850929A (zh) * | 2021-09-18 | 2021-12-28 | 广州文远知行科技有限公司 | 一种标注数据流处理的展示方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
CN109145937A (zh) * | 2018-06-25 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 一种模型训练的方法及装置 |
CN110704221A (zh) * | 2019-09-02 | 2020-01-17 | 西安交通大学 | 一种基于数据增强的数据中心故障预测方法 |
CN110796248A (zh) * | 2019-08-27 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 数据增强的方法、装置、设备及存储介质 |
CN110888911A (zh) * | 2019-10-11 | 2020-03-17 | 平安科技(深圳)有限公司 | 样本数据处理方法、装置、计算机设备及存储介质 |
US20200110994A1 (en) * | 2018-10-04 | 2020-04-09 | International Business Machines Corporation | Neural networks using intra-loop data augmentation during network training |
-
2020
- 2020-07-08 CN CN202010652841.6A patent/CN111970584A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
CN109145937A (zh) * | 2018-06-25 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 一种模型训练的方法及装置 |
US20200110994A1 (en) * | 2018-10-04 | 2020-04-09 | International Business Machines Corporation | Neural networks using intra-loop data augmentation during network training |
CN110796248A (zh) * | 2019-08-27 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 数据增强的方法、装置、设备及存储介质 |
CN110704221A (zh) * | 2019-09-02 | 2020-01-17 | 西安交通大学 | 一种基于数据增强的数据中心故障预测方法 |
CN110888911A (zh) * | 2019-10-11 | 2020-03-17 | 平安科技(深圳)有限公司 | 样本数据处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
LIHUA CUI等: "Deep-learning-based failure prediction with data augmentation in optical transport networks", 《PROC. SPIE 11048, 17TH INTERNATIONAL CONFERENCE ON OPTICAL COMMUNICATIONS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850929A (zh) * | 2021-09-18 | 2021-12-28 | 广州文远知行科技有限公司 | 一种标注数据流处理的展示方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11126827B2 (en) | Method and system for image identification | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
CN112084959B (zh) | 一种人群图像处理方法及装置 | |
CN108009058A (zh) | 异常设备识别方法及装置和电子设备 | |
WO2019017178A1 (en) | METHOD AND APPARATUS FOR DYNAMICALLY IDENTIFYING A USER OF AN ACCOUNT FOR DISPLAYING IMAGES | |
CN111291668A (zh) | 活体检测方法、装置、电子设备及可读存储介质 | |
KR20210155655A (ko) | 이상 온도를 나타내는 객체를 식별하는 방법 및 장치 | |
CN113269010B (zh) | 一种人脸活体检测模型的训练方法和相关装置 | |
CN113850109A (zh) | 一种基于注意力机制和自然语言处理的视频图像告警方法 | |
CN110401488B (zh) | 一种解调方法及装置 | |
CN111738199A (zh) | 图像信息验证方法、装置、计算装置和介质 | |
CN111126358A (zh) | 人脸检测方法、装置、存储介质及设备 | |
CN111970584A (zh) | 一种用于处理数据的方法、装置、设备以及存储介质 | |
CN112910890B (zh) | 基于时间卷积网络的匿名网络流量指纹识别方法及设备 | |
CN109101858B (zh) | 动作识别方法及装置 | |
CN109858379A (zh) | 笑容真诚度检测方法、装置、存储介质和电子设备 | |
CN113947209A (zh) | 基于云边协同的集成学习方法、系统及存储介质 | |
CN117953581A (zh) | 动作识别的方法、装置、电子设备及可读存储介质 | |
CN112861696A (zh) | 一种异常行为识别方法、装置、电子设备及存储介质 | |
CN108596068B (zh) | 一种动作识别的方法和装置 | |
US11847810B2 (en) | Face-hand correlation degree detection method and apparatus, device and storage medium | |
CN115731620A (zh) | 检测对抗攻击的方法和训练对抗攻击检测模型的方法 | |
CN113762969B (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN115424346A (zh) | 一种人体坐姿检测方法、装置、计算机设备及系统 | |
CN109670393A (zh) | 人脸数据采集方法、设备、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201120 |