CN113535452A - 数据检测方法、装置、电子设备和存储介质 - Google Patents

数据检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113535452A
CN113535452A CN202110785184.7A CN202110785184A CN113535452A CN 113535452 A CN113535452 A CN 113535452A CN 202110785184 A CN202110785184 A CN 202110785184A CN 113535452 A CN113535452 A CN 113535452A
Authority
CN
China
Prior art keywords
data
detected
difference
reconstructed
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110785184.7A
Other languages
English (en)
Inventor
张磊
李俊
李心
宫韬
车骋
徐甲甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xunfei Intelligent Technology Co ltd
Original Assignee
Zhejiang Xunfei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xunfei Intelligent Technology Co ltd filed Critical Zhejiang Xunfei Intelligent Technology Co ltd
Priority to CN202110785184.7A priority Critical patent/CN113535452A/zh
Publication of CN113535452A publication Critical patent/CN113535452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种数据检测方法、装置、电子设备和存储介质,其中方法包括:确定待检测数据;基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;其中,所述重构模型是基于被标注为正常的正样本数据,以所述正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。本发明提升了数据检测方法的准确性和泛化能力。

Description

数据检测方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据检测方法、装置、电子设备和存储介质。
背景技术
在工业领域的生产过程中,随着设备运转,海量工业数据,例如设备运行时产生的音频数据、性能数据等,会不断产生。这些数据中,绝大部分属于相对平稳和相似的正常状态数据,而部分异常的数据,则意味着对应设备可能存在故障。因此,对工业数据进行检测,对于工业设备的持续监测有重要意义。
然而,目前的人工巡检方式受到人员经验的限制,且准确性和效率均得不到保障。此外,对于利用有监督训练方式的机器学习模型进行异常数据分类的方式,由于工业场景下异常样本数据稀少,会导致机器学习模型的分类效果受到训练数据中正常、异常数据比例失衡的影响,使得数据检测的准确性欠佳,且难以识别尚未出现过的异常类型。其中,正常数据为工业场景中各设备正常运行时产生的数据,而异常数据则为各设备存在异常时产生的数据。
发明内容
本发明提供一种数据检测方法、装置、电子设备和存储介质,用以解决现有技术中数据检测准确性和泛化能力欠佳的缺陷。
本发明提供一种数据检测方法,包括:
确定待检测数据;
基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;
基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;
其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
根据本发明提供的一种数据检测方法,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果,包括:
基于所述待检测数据与所述待检测数据的重构数据之间的差异,以及第一阈值,确定所述待检测数据的检测结果;
其中,所述第一阈值是基于各个负样本数据与所述各个负样本数据的重构数据之间的差异和/或所述各个正样本数据与所述各个正样本数据的重构数据之间的差异确定的。
根据本发明提供的一种数据检测方法,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,以及第一阈值,确定所述待检测数据的检测结果,包括:
基于所述待检测数据与所述待检测数据的重构数据之间的差异、所述第一阈值,以及第二阈值,确定所述待检测数据的检测结果;
其中,所述第二阈值是基于所述各个正样本数据与所述各个正样本数据的重构数据之间的差异和/或所述各个负样本数据与所述各个负样本数据的重构数据之间的差异确定的。
根据本发明提供的一种数据检测方法,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,之后还包括:
若所述待检测数据与所述待检测数据的重构数据之间的差异大于所述第二阈值且小于所述第一阈值,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值或所述第二阈值。
根据本发明提供的一种数据检测方法,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值或所述第二阈值,包括:
若所述待检测数据被标注为正常,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第二阈值;
若所述待检测数据被标注为异常,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值。
根据本发明提供的一种数据检测方法,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,之后还包括:
若所述待检测数据与所述待检测数据的重构数据之间的差异大于等于所述第一阈值,且所述待检测数据被标注为正常,则基于所述待检测数据,增量训练所述重构模型。
根据本发明提供的一种数据检测方法,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,包括:
对所述待检测数据进行编码,得到所述待检测数据的编码特征;
从正常样本特征库中选取与所述编码特征相似的若干个相似正常样本特征;
对所述若干个相似正常样本特征进行融合解码,得到所述待检测数据的重构数据;
其中,所述正常样本特征库是对所述正样本数据进行编码后构建得到的。
本发明还提供一种数据检测装置,包括:
数据确定单元,用于确定待检测数据;
数据重构单元,用于基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;
数据检测单元,用于基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;
其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述数据检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据检测方法的步骤。
本发明提供的数据检测方法、装置、电子设备和存储介质,基于正样本数据与正样本数据的重构数据之间的差异最小为训练目标训练得到重构模型,无需特意搜集异常数据,故正常数据、异常数据的失衡不会对数据检测产生负面影响;基于重构模型对待检测数据进行重构,得到待检测数据的重构数据,根据待检测数据与待检测数据的重构数据之间的差异,利用异常数据重构前后的差异较大这一特性,确定待检测数据的检测结果,提升了数据检测方法的准确性和泛化能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的数据检测方法的流程示意图之一;
图2为本发明提供的重构方法的流程示意图;
图3为本发明提供的数据检测方法的流程示意图之二;
图4为本发明提供的第一阈值和第二阈值的示意图;
图5为本发明提供的数据检测装置的结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在工业领域的生产过程中,随着设备运转,海量的工业数据,例如设备运行时产生的音频数据、性能数据等运行数据,会不断产生。对工业数据进行异常检测,对于工业设备的持续监测有重要意义。
目前的数据检测方式通常包括人工巡检方式和基于机器学习模型的检测方式。其中,人工巡检方式主要是行业专家对工业数据进行观察分析,辅以手动的特征计算,将数据分类。基于机器学习模型的检测方式中,则是通过历史的标注数据训练分类模型,通过模型来自动判断当前数据的类型。
然而,人工巡检方式受到人员经验的限制,且准确性和效率均得不到保障。此外,对于基于机器学习模型进行异常数据分类的方式,由于工业场景下异常样本数据稀少,会导致机器学习模型的分类效果受到训练数据中正常、异常数据比例失衡的影响,使得数据检测的准确性欠佳,且难以识别尚未出现过的异常类型。
对此,本发明实施例提供了一种数据检测方法。图1为本发明实施例提供的数据检测方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待检测数据。
其中,待检测数据可以为需要进行数据检测的工业数据,例如工业生产环境中各设备运行所形成的运行数据,包括设备运行的音频数据等,还可以为对工业数据进行特征提取后的特征数据,本发明实施例对此不作具体限定。
步骤120,基于重构模型,对待检测数据进行重构,得到待检测数据的重构数据;其中,重构模型是基于正样本数据与正样本数据的重构数据之间的差异最小为训练目标训练得到的;
步骤130,基于待检测数据与待检测数据的重构数据之间的差异,确定待检测数据的检测结果。
此处,考虑到工业场景下,设备正常运行是常态,设备故障是偶发状况,并且设备正常运行生成的正常数据具备高度的相似性,而设备故障生成的异常数据则与正常数据之间存在较大的差异。因此,可以利用上述规律,基于正样本数据,以正样本数据与正样本数据的重构数据之间的差异最小为训练目标,训练得到一个重构模型。此处,正样本数据为被标注为正常的样本数据,相应地,负样本数据为被标注为异常的样本数据。其中,正样本数据的重构数据是在模型训练过程中,重构模型对正样本数据进行重构得到的数据。由于重构模型的训练过程仅使用了正样本数据,因此训练好的重构模型对于正常数据的重构性能更佳,重构前后的数据差异更小,而对于异常数据的重构性能较差,重构前后的数据差异更大。利用重构模型的上述特性,可以准确地区分出正常数据和异常数据。
具体而言,可以将待检测数据输入至重构模型,利用重构模型对其进行重构,从而得到待检测数据的重构数据。其中,重构模型可以对待检测数据进行特征提取,再对提取得到的特征进行还原,实现待检测数据的重构。基于待检测数据与待检测数据的重构数据之间的差异,确定待检测数据的检测结果。其中,检测结果可以表征该待检测数据是正常数据还是异常数据。此处,由于重构模型对于正常数据的重构性能更佳,而对于异常数据的重构性能较差,因此,若待检测数据为正常数据,则待检测数据与待检测数据的重构数据之间的差异较小,反之则待检测数据与待检测数据的重构数据之间的差异较大。根据待检测数据与待检测数据的重构数据之间的差异大小,可以准确确定判断该待检测数据是否为异常数据。
需要说明的是,由于重构模型的训练过程仅需正样本数据,因此工业数据中正常数据、异常数据的失衡不会对重构模型或上述异常检测机制产生负面影响,提升了数据检测的准确性。此外,即使是之前未曾出现的异常数据,利用异常数据重构前后的差异较大这一特性,也可以将其准确检出,提升了数据检测方法的泛化能力。同时,由于部分偶发异常情况会导致工业设备产生干扰数据,如生产车间中短时的噪音源、周围机器临时停产检修等,若将这些干扰数据纳入模型训练,会使得模型的训练目标跑偏,影响数据检测效果。然而,重构模型在训练时仅使用正样本数据,上述干扰数据不会影响重构模型的训练效果,有效规避了上述问题。
本发明实施例提供的方法,基于正样本数据与正样本数据的重构数据之间的差异最小为训练目标训练得到重构模型,无需特意搜集异常数据,故正常数据、异常数据的失衡不会对异常检测产生负面影响;基于重构模型对待检测数据进行重构,得到待检测数据的重构数据,根据待检测数据与待检测数据的重构数据之间的差异,利用异常数据重构前后的差异较大这一特性,确定待检测数据的检测结果,提升了数据检测方法的准确性和泛化能力。
基于上述实施例,步骤130包括:
基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果;
其中,第一阈值是基于各个负样本数据与各个负样本数据的重构数据之间的差异和/或各个正样本数据与各个正样本数据的重构数据之间的差异确定的。
此处,可以基于被标注为异常的各个负样本数据与各个负样本数据的重构数据之间的差异,确定异常数据重构前后的差异的统计分布,从而确定第一阈值。其中,负样本数据的重构数据是基于训练好的重构模型对负样本数据进行重构得到的数据。例如,可以将各个负样本数据与各个负样本数据的重构数据之间差异的最小值,作为第一阈值。此处,由于仅在确定第一阈值时使用了少量的负样本数据,因此削弱了正常数据、异常数据的失衡带来的负面影响。
还可以基于被标注为正常的各个正样本数据与各个正样本数据的重构数据之间的差异,确定正常数据重构前后的差异的统计分布,预估异常数据重构前后的差异的统计分布,从而确定第一阈值。例如,可以选取各正样本数据对应的最大差异,或者在此基础上乘以预设比例系数或是在此基础上加上预设系数,作为第一阈值。又例如,根据所述统计分布,使预设比例(例如10%,5%,或者1%)的异常数据重构前后的差异小于某阈值,将此阈值作为第一阈值。
还可以结合各负样本数据与其重构数据之间的差异以及各正样本数据与其重构数据之间的差异,确定正常数据重构前后的差异的统计分布,以及异常数据重构前后的差异的统计分布,从而确定第一阈值。例如,可以确定负样本数据对应的最小差异,以及正样本数据对应的最大差异,选取位于二者之间且靠近负样本数据的最小差异的数值作为第一阈值。
将待检测数据与待检测数据的重构数据之间的差异与第一阈值进行比较,可以确定待检测数据的检测结果。例如,当待检测数据与待检测数据的重构数据之间的差异不小于第一阈值时,检测结果为异常数据。
本发明实施例提供的方法,基于各个负样本数据与各个负样本数据的重构数据之间的差异和/或各个正样本数据与各个正样本数据的重构数据之间的差异,确定第一阈值,从而基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果,削弱了正常数据、异常数据的失衡带来的负面影响。
基于上述任一实施例,基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果,包括:
基于待检测数据与待检测数据的重构数据之间的差异、第一阈值,以及第二阈值,确定待检测数据的检测结果;
其中,第二阈值是基于各个正样本数据与各个正样本数据的重构数据之间的差异和/或各个负样本数据与各个负样本数据的重构数据之间的差异确定的。
此处,可以基于各个正样本数据与各个正样本数据的重构数据之间的差异,可以确定正常数据重构前后的差异的统计分布,从而确定第二阈值。考虑到可能存在部分与异常数据比较接近的正样本数据,可以从各个正样本数据与各个正样本数据的重构数据之间的差异中选取一个较大值作为第二阈值。例如,可以从最大的差异开始从大到小选取固定比例(例如所有正样本数据个数的1%)的差异,然后将其中最小的差异作为第二阈值。
还可以基于各个负样本数据与各个负样本数据的重构数据之间的差异,确定异常数据重构前后的差异的统计分布,预估正常数据重构前后的差异的统计分布,从而确定第二阈值。例如,可以选取各负样本数据对应的最小差异,在此基础上除以预设比例系数或是在此基础上减去预设系数,作为第二阈值。
还可以结合各负样本数据与其重构数据之间的差异以及各正样本数据与其重构数据之间的差异,确定正常数据重构前后的差异的统计分布,以及异常数据重构前后的差异的统计分布,从而确定第二阈值。例如,可以确定负样本数据对应的最小差异,以及正样本数据对应的最大差异,选取位于二者之间且靠近正样本数据的最大差异的数值作为第二阈值。
基于待检测数据与待检测数据的重构数据之间的差异、第一阈值,以及第二阈值,可以确定待检测数据的检测结果。例如,当待检测数据与待检测数据的重构数据之间的差异不小于第一阈值时,检测结果为异常数据;当待检测数据与待检测数据的重构数据之间的差异不大于第二阈值时,检测结果为正常数据;当待检测数据与待检测数据的重构数据之间的差异介于第一阈值和第二阈值之间时,检测结果为可疑数据。
基于上述任一实施例,步骤120之后还包括:
若待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值,则基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值。
此处,随着工业生产环境以及设备运行状态的不断变换,基于正负样本数据确定的第一阈值和第二阈值可能不再适用于当前数据的检测,使得对于部分新产生的数据,难以确定其异常与否。例如,当待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值时,既无法将该待检测数据归入到正常数据一类,也无法将其归入到异常数据一类。此时,可以将上述无法确定是正常数据或异常数据的待检测数据的检测结果设为可疑数据。根据该可疑数据对第二阈值或第一阈值进行调整,具体可以基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值,以保证数据检测方法当前的有效性,进一步提高数据检测的准确性。
本发明实施例提供的方法,当待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值时,基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值,保证了数据检测方法当前的有效性,进一步提高了数据检测的准确性。
基于上述任一实施例,基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值,包括:
若待检测数据被标注为正常,则基于待检测数据与待检测数据的重构数据之间的差异,更新第二阈值;
若待检测数据被标注为异常,则基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值。
此处,当待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值时,该待检测数据为可疑数据。此时,可以对该待检测数据进行人工标注,确定其实际类别。
若该待检测数据被标注为正常,表明此时的第二阈值存在问题,使得没有将该待检测数据归入到正常数据一类。因此,可以基于待检测数据与待检测数据的重构数据之间的差异,更新第二阈值。此处,可以直接将该待检测数据与其重构数据之间的差异,作为新的第二阈值;也可以积累多个类似的待检测数据,即被人工标注为正常但检测结果为可疑数据的待检测数据,将各个待检测数据与其重构数据之间差异的最大值,作为新的第二阈值。
若该待检测数据被标注为异常,表明此时的第一阈值存在问题,使得没有将该待检测数据归入到异常数据一类。因此,可以基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值。此处,可以直接将该待检测数据与其重构数据之间的差异,作为新的第一阈值;也可以积累多个类似的待检测数据,即被人工标注为异常但检测结果为可疑数据的待检测数据,将各个待检测数据与其重构数据之间差异的最小值,作为新的第一阈值。
基于上述任一实施例,步骤120之后还包括:
若待检测数据与待检测数据的重构数据之间的差异大于等于第一阈值,且待检测数据被标注为正常,则基于待检测数据,增量训练重构模型。
此处,当待检测数据与待检测数据的重构数据之间的差异不小于第一阈值,但该待检测数据却被人工标注为正常时,表明该待检测数据是随着生产环境或设备运行状态变化,新产生的正常数据,但目前的重构模型对于该新产生的正常数据的重构性能较差,导致将该正常数据与异常数据混淆。因此,可以基于该待检测数据,对重构模型进行增量训练,使重构模型适应当前场景,从而保证数据检测方法当前的有效性。
本发明实施例提供的方法,当待检测数据与待检测数据的重构数据之间的差异大于等于第一阈值,且待检测数据被标注为正常时,基于待检测数据,增量训练重构模型,保证了数据检测方法当前的有效性。
需要说明的是,目前基于机器学习模型的数据检测方式中,为了保证检测方法当前的有效性,通常有两种更新模式:使用历史全量数据进行更新的全量更新模式,以及使用最近一段时间的数据进行更新的短期更新模式。相较于全量更新模式,上述实施例中利用可疑数据与其重构数据之间的差异更新第一阈值或第二阈值,以及利用误报的异常数据增量训练重构模型的方式,大大减少了计算量和存储空间。此外,由于短期更新模式,只利用最近一段时间内的数据,数据利用率偏低,且每次均使用近期数据对模型进行重新训练,导致分类标准的波动性大。而上述实施例中,在已训练好的重构模型基础上,利用历次误报的正常数据对重构模型进行增量训练,并利用检测过程中获取的可疑数据与其重构数据之间的差异更新第一阈值或第二阈值,会积累历史学习的知识,提高了数据利用率的同时,在获取足够的正常数据后,数据检测的判断标准会趋于稳定。
基于上述任一实施例,图2为本发明实施例提供的重构方法的流程示意图,如图2所示,步骤120包括:
步骤121,对待检测数据进行编码,得到待检测数据的编码特征;
步骤122,从正常样本特征库中选取与编码特征相似的若干个相似正常样本特征;
步骤123,对若干个相似正常样本特征进行融合解码,得到待检测数据的重构数据;
其中,正常样本特征库是对正样本数据进行编码后构建得到的。
此处,在实际应用中,可能会出现训练好的重构模型的泛化能力较强,导致重构模型对异常数据的重构性能也较佳,异常数据与其重构数据之间的差异也较小,从而造成漏检。对此,在重构模型训练过程中,引入Memory Bank机制,将对正样本数据进行编码后的结果保存,从而构建正常样本特征库。
在对待检测数据进行编码,得到待检测数据的编码特征之后,从正常样本特征库中选择若干个与上述编码特征较相似的相似正常样本特征。此处,可以计算正常样本特征库中各正常样本特征与上述编码特征之间的相似度,并选取相似度大于预设阈值的正常样本特征,作为上述相似正常样本特征。将上述若干个相似正常样本特征融合后进行解码,将解码结果作为待检测数据的重构数据。此处,由于解码时所依据的是从正常样本特征库中选取的正常样本特征,因此解码后的结果也比较接近训练时的正样本数据。因此,若正常数据经过上述方式重构后,所得的重构数据会更接近重构前的原始数据,相反,若异常数据经过上述方式重构后,重构数据与重构前的原始数据之间的差异会更大,进一步提高了数据检测的准确性。
需要说明的是,正样本数据和负样本数据的重构数据也可以通过上述方式得到。
本发明实施例提供的方法,通过对待检测数据进行编码,得到待检测数据的编码特征,并基于正常样本特征库,确定编码特征的若干个相似正常样本特征,从而对若干个相似正常样本特征进行融合解码,得到待检测数据的重构数据,进一步提高了数据检测的准确性。
基于上述任一实施例,图3为本发明实施例提供的数据检测方法的流程示意图之二,如图3所示,该方法包括:
步骤310、正常特征提取和学习。在前期,通过人工标注的形式来收集足够的正样本数据和少量负样本数据。其中,正样本数据和负样本数据可以是音频数据或是音频数据的音频特征数据,例如采用MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)滤波方式获取拟真人耳听觉的频率特征后转换的包含时间频率信息的语谱图。随后,利用重构模型在正样本数据中学习特征提取和解码过程。其中,重构模型可以为自编码器(AutoEncoder)模型。模型训练过程中,可以通过Memory Bank的机制构建正常样本特征库。随后,在正样本数据、负样本数据的混合验证集中,分别根据正样本数据重构前后的差异以及负样本数据重构前后的差异,设定初始的第一阈值和第二阈值,设定的第一阈值和第二阈值如图4所示。
其中,在设置第一阈值时,可以基于各负样本数据与其重构数据之间的差异确定得到,例如选取各负样本数据对应的最小差异作为第一阈值;也可以基于各正样本数据与其重构数据之间的差异确定得到,例如选取各正样本数据对应的最大差异,在此基础上乘以预设比例系数,如1.03,或是在此基础上加上预设系数,如0.01,作为第一阈值;还可以结合各负样本数据与其重构数据之间的差异以及各正样本数据与其重构数据之间的差异确定得到,例如确定负样本数据对应的最小差异,以及正样本数据对应的最大差异,选取位于二者之间且靠近负样本数据的最小差异的数值作为第一阈值。
在设置第二阈值时,可以基于各正样本数据与其重构数据之间的差异确定得到,例如选取各正样本数据对应的最大差异作为第二阈值;也可以基于各负样本数据与其重构数据之间的差异确定得到,例如选取各负样本数据对应的最小差异,在此基础上除以预设比例系数,如1.03,或是在此基础上减去预设系数,如0.01,作为第二阈值;还可以结合各负样本数据与其重构数据之间的差异以及各正样本数据与其重构数据之间的差异确定得到,例如确定负样本数据对应的最小差异,以及正样本数据对应的最大差异,选取位于二者之间且靠近正样本数据的最大差异的数值作为第二阈值。
320、新数据判断。工业设备持续运转产生新的数据后,可以基于正常样本特征库,利用重构模型对新数据进行重构,得到重构数据。以待检测数据为音频数据为例,可以将该待检测数据输入至重构模型中。此处,音频数据为将模拟音频信号进行数字化处理后的数据序列。利用训练好的重构模型对待检测数据进行音频特征提取,得到待检测数据的音频特征。随后,再根据上述音频特征中包含的语义信息对音频特征进行解码,将音频特征还原成与待检测数据长度一致的数据序列,作为待检测数据的重构数据。计算待检测数据与其重构数据间的差异,通过比较上述差异与第一阈值和第二阈值的大小,将待检测数据归类到正常数据、异常数据和可疑数据三类中的某一类中。
其中,可以计算待检测数据与其重构数据间的相似度,用数值1减去该相似度,作为二者之间的差异,此处的相似度可以利用余弦相似度等相似度算法计算得到,此时的差异为小于等于1的数值。还可以将待检测数据与其重构数据对齐后,利用统计方法计算两个数据序列间的方差或均方差,作为二者之间的差异。将上述差异与第一阈值和第二阈值进行比较。假设第一阈值为0.2688,第二阈值为0.2596,若计算得到的差异大于第一阈值,例如为0.2755,则待检测数据为异常数据;若计算得到的差异小于第一阈值且大于第二阈值,例如为0.2662,则待检测数据为可疑数据;若计算得到的差异小于第二阈值,例如为0.2537,则待检测数据为正常数据。
330、正常类别筛除。若新数据被分类为正常数据,属于与正常样本特征库中已有正常样本特征非常接近的数据,因此无需更新正常样本特征库。此外,由于正常数据属于出现概率较高、信息量较少、价值较低的数据,因此可以直接过滤。
340、异常分析。若新数据被分类为异常数据,需要对其特别关注,因此可将其保存并交由后续分析处理。
350、异常作为正常打回。若经过后续分析处理,发现被分类为异常数据的新数据是被误报的正常数据,则会打回到模型自学习过程,基于该新数据对重构模型进行增量学习,并更新正常样本特征库。
360、可疑类别标注。若新数据被分类为可疑数据,会先行保存并在后续的人工复检标注环节来确定其是正常数据还是异常数据。
370、可疑作为正常打回。若上述可疑数据被标注为正常,则基于上述可疑数据与其重构数据间的差异,更新第二阈值。
380、可疑作为异常打回。若上述可疑数据被标注为异常,则基于上述可疑数据与其重构数据间的差异,更新第一阈值。
基于上述任一实施例,图5为本发明实施例提供的数据检测装置的结构示意图,如图5所示,该装置包括:数据确定单元510、数据重构单元520和数据检测单元530。
其中,数据确定单元510用于确定待检测数据;
数据重构单元520用于基于重构模型,对待检测数据进行重构,得到待检测数据的重构数据;其中,重构模型是基于正样本数据与正样本数据的重构数据之间的差异最小为训练目标训练得到的;
数据检测单元530用于基于待检测数据与待检测数据的重构数据之间的差异,确定待检测数据的检测结果。
本发明实施例提供的装置,基于正样本数据与正样本数据的重构数据之间的差异最小为训练目标训练得到重构模型,并基于重构模型对待检测数据进行重构,得到待检测数据的重构数据,根据待检测数据与待检测数据的重构数据之间的差异,确定待检测数据的检测结果,提升了数据检测方法的准确性和泛化能力。
基于上述任一实施例,数据检测单元530用于:
基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果;
其中,第一阈值是基于各个负样本数据与各个负样本数据的重构数据之间的差异和/或各个正样本数据与各个正样本数据的重构数据之间的差异确定的。
本发明实施例提供的装置,基于各个负样本数据与各个负样本数据的重构数据之间的差异和/或各个正样本数据与各个正样本数据的重构数据之间的差异,确定第一阈值,从而基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果,削弱了正常数据、异常数据的失衡带来的负面影响。
基于上述任一实施例,基于待检测数据与待检测数据的重构数据之间的差异,以及第一阈值,确定待检测数据的检测结果,包括:
基于待检测数据与待检测数据的重构数据之间的差异、第一阈值,以及第二阈值,确定待检测数据的检测结果;
其中,第二阈值是基于各个正样本数据与各个正样本数据的重构数据之间的差异和/或各个负样本数据与各个负样本数据的重构数据之间的差异确定的。
基于上述任一实施例,该装置还包括更新单元,在基于重构模型,对待检测数据进行重构,得到待检测数据的重构数据之后,更新单元用于:
若待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值,则基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值。
本发明实施例提供的装置,当待检测数据与待检测数据的重构数据之间的差异大于第二阈值且小于第一阈值时,基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值,保证了数据检测方法当前的有效性,进一步提高了数据检测的准确性。
基于上述任一实施例,基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值或第二阈值,包括:
若待检测数据被标注为正常,则基于待检测数据与待检测数据的重构数据之间的差异,更新第二阈值;
若待检测数据被标注为异常,则基于待检测数据与待检测数据的重构数据之间的差异,更新第一阈值。
基于上述任一实施例,在基于重构模型,对待检测数据进行重构,得到待检测数据的重构数据之后,更新单元用于:
若待检测数据与待检测数据的重构数据之间的差异大于等于第一阈值,且待检测数据被标注为正常,则基于待检测数据,增量训练重构模型。
本发明实施例提供的装置,当待检测数据与待检测数据的重构数据之间的差异大于等于第一阈值,且待检测数据被标注为正常时,基于待检测数据,增量训练重构模型,保证了数据检测方法当前的有效性。
基于上述任一实施例,数据重构单元520用于:
对待检测数据进行编码,得到待检测数据的编码特征;
从正常样本特征库中选取与编码特征相似的若干个相似正常样本特征;
对若干个相似正常样本特征进行融合解码,得到待检测数据的重构数据;
其中,正常样本特征库是对正样本数据进行编码后构建得到的。
本发明实施例提供的装置,通过对待检测数据进行编码,得到待检测数据的编码特征,并基于正常样本特征库,确定编码特征的若干个相似正常样本特征,从而对若干个相似正常样本特征进行融合解码,得到待检测数据的重构数据,进一步提高了数据检测的准确性。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行数据检测方法,该方法包括:确定待检测数据;基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;其中,所述重构模型是基于所述正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数据检测方法,该方法包括:确定待检测数据;基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的数据检测方法,该方法包括:确定待检测数据;基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据检测方法,其特征在于,包括:
确定待检测数据;
基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;
基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;
其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
2.根据权利要求1所述的数据检测方法,其特征在于,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果,包括:
基于所述待检测数据与所述待检测数据的重构数据之间的差异,以及第一阈值,确定所述待检测数据的检测结果;
其中,所述第一阈值是基于各个负样本数据与所述各个负样本数据的重构数据之间的差异和/或所述各个正样本数据与所述各个正样本数据的重构数据之间的差异确定的。
3.根据权利要求2所述的数据检测方法,其特征在于,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,以及第一阈值,确定所述待检测数据的检测结果,包括:
基于所述待检测数据与所述待检测数据的重构数据之间的差异、所述第一阈值,以及第二阈值,确定所述待检测数据的检测结果;
其中,所述第二阈值是基于所述各个正样本数据与所述各个正样本数据的重构数据之间的差异和/或所述各个负样本数据与所述各个负样本数据的重构数据之间的差异确定的。
4.根据权利要求3所述的数据检测方法,其特征在于,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,之后还包括:
若所述待检测数据与所述待检测数据的重构数据之间的差异大于所述第二阈值且小于所述第一阈值,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值或所述第二阈值。
5.根据权利要求4所述的数据检测方法,其特征在于,所述基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值或所述第二阈值,包括:
若所述待检测数据被标注为正常,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第二阈值;
若所述待检测数据被标注为异常,则基于所述待检测数据与所述待检测数据的重构数据之间的差异,更新所述第一阈值。
6.根据权利要求2所述的数据检测方法,其特征在于,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,之后还包括:
若所述待检测数据与所述待检测数据的重构数据之间的差异大于等于所述第一阈值,且所述待检测数据被标注为正常,则基于所述待检测数据,增量训练所述重构模型。
7.根据权利要求1至6任一项所述的数据检测方法,其特征在于,所述基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据,包括:
对所述待检测数据进行编码,得到所述待检测数据的编码特征;
从正常样本特征库中选取与所述编码特征相似的若干个相似正常样本特征;
对所述若干个相似正常样本特征进行融合解码,得到所述待检测数据的重构数据;
其中,所述正常样本特征库是对所述正样本数据进行编码后构建得到的。
8.一种数据检测装置,其特征在于,包括:
数据确定单元,用于确定待检测数据;
数据重构单元,用于基于重构模型,对所述待检测数据进行重构,得到所述待检测数据的重构数据;
数据检测单元,用于基于所述待检测数据与所述待检测数据的重构数据之间的差异,确定所述待检测数据的检测结果;
其中,所述重构模型是基于正样本数据与所述正样本数据的重构数据之间的差异最小为训练目标训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述数据检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据检测方法的步骤。
CN202110785184.7A 2021-07-12 2021-07-12 数据检测方法、装置、电子设备和存储介质 Pending CN113535452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110785184.7A CN113535452A (zh) 2021-07-12 2021-07-12 数据检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110785184.7A CN113535452A (zh) 2021-07-12 2021-07-12 数据检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113535452A true CN113535452A (zh) 2021-10-22

Family

ID=78127458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110785184.7A Pending CN113535452A (zh) 2021-07-12 2021-07-12 数据检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113535452A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543727A (zh) * 2018-11-07 2019-03-29 复旦大学 一种基于竞争重构学习的半监督异常检测方法
CN111709491A (zh) * 2020-06-30 2020-09-25 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112326213A (zh) * 2019-08-05 2021-02-05 株式会社理光 异常数据检测方法及装置、机械故障检测方法及装置
WO2021056724A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 异常检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543727A (zh) * 2018-11-07 2019-03-29 复旦大学 一种基于竞争重构学习的半监督异常检测方法
CN112326213A (zh) * 2019-08-05 2021-02-05 株式会社理光 异常数据检测方法及装置、机械故障检测方法及装置
WO2021056724A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 异常检测方法、装置、电子设备及存储介质
CN111709491A (zh) * 2020-06-30 2020-09-25 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111967571B (zh) 一种基于mhma的异常检测方法和设备
CN109697207B (zh) 时序数据的异常监控方法及系统
US20190334784A1 (en) Methods and apparatus for analysing performance of a telecommunications network
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN110147323B (zh) 一种基于生成对抗网络的变更智能检查方法及装置
CN111711608B (zh) 一种电力数据网流量异常检测方法、系统及电子设备
CN109544399B (zh) 基于多源异构数据的输电设备状态评价方法及装置
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
CN112039903A (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN108306997B (zh) 域名解析监控方法及装置
CN116739829B (zh) 一种基于大数据的电力数据分析方法、系统及介质
CN113722134A (zh) 一种集群故障处理方法、装置、设备及可读存储介质
CN115061838A (zh) 一种故障检测方法及系统
CN113610156A (zh) 用于大数据分析的人工智能模型机器学习方法及服务器
CN114647558A (zh) 一种日志异常检测的方法和装置
CN110927497A (zh) 一种转辙机故障检测方法及装置
CN115705413A (zh) 异常日志的确定方法及装置
CN113670611A (zh) 一种轴承早期退化评估方法、系统、介质及电子设备
CN114238402A (zh) 告警数据处理方法、装置、存储介质以及电子设备
CN115514620B (zh) 一种异常检测的方法和云网络平台
CN115758086A (zh) 卷烟烘丝机故障检测的方法、装置、设备及可读存储介质
CN116361695A (zh) 异常数据检测方法以及装置
CN112102087A (zh) 一种交易异常检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination