CN115392403B - 一种异常变更检测方法、装置、设备及存储介质 - Google Patents
一种异常变更检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115392403B CN115392403B CN202211314781.2A CN202211314781A CN115392403B CN 115392403 B CN115392403 B CN 115392403B CN 202211314781 A CN202211314781 A CN 202211314781A CN 115392403 B CN115392403 B CN 115392403B
- Authority
- CN
- China
- Prior art keywords
- noise
- sample
- training
- original
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 216
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 8
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000002347 injection Methods 0.000 description 5
- 239000007924 injection Substances 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Automatic Analysis And Handling Materials Therefor (AREA)
Abstract
本发明公开了一种异常变更检测方法、装置、设备及存储介质。该方法包括:根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;向所述原始数据样本集中原始样本注入噪声,得到训练样本集;将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。本发明实施例可以提高异常变更的检测准确性,并提高训练样本标注效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常变更检测方法、装置、设备及存储介质。
背景技术
如今,各软件厂商越来越依赖于日趋复杂的软件服务系统,而这些软件系统的变更具有高频、不可避免、影响范围大等特点,这也对变更的操作流程和相关代码的质量带来了挑战。即使有针对变更全流程的监控,其仍可能会给软件服务系统引入新的问题,给软件厂商或客户带来经济上的损失。其中,在变更后实时监控,检测软件在变更后是否仍然处于正常状态,是该运维场景的关键所在。
软件厂商可选择基于对比或异常检测的方法来确定软件在变更后所处状态,前者比较变更前后的指标数据(KPI)是否相似,如果变更之后的数据形态差异较大,则认为此次变更是异常变更,由于没有考虑不同类别指标数据的形态差异性,导致判定的准确率不高,某些基于距离计算的方法也会导致判定效率过低;后者以变更前的指标数据训练模型,再用该模型来预测变更后的指标数据,据此获知变更后数据是否存在异常,由于需要对每条指标数据训练单独的模型,其训练开销过大,计算效率太低。
发明内容
本发明提供了一种异常变更检测方法、装置、设备及存储介质,以提高异常变更的检测准确性,并提高训练样本标注效率。
根据本发明的一方面,提供了一种异常变更检测方法,包括:
根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;
向所述原始数据样本集中原始样本注入噪声,得到训练样本集;
将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;
根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。
根据本发明的另一方面,提供了一种异常变更检测装置,包括:
原始样本生成模块,用于根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;
训练样本生成模块,用于向所述原始数据样本集中原始样本注入噪声,得到训练样本集;
训练样本标注模块,用于将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;
变更异常检测模块,用于根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的异常变更检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的异常变更检测方法。
本发明实施例通过向原始样本注入噪声,并根据注入噪声的噪声值来为训练样本对打标,减少生成训练标签过程中的人工参与,降低人工资源消耗;同时,通过孪生网络模型对异常变更进行检测,提高了异常变更检测的准确性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一实施例提供的一种异常变更检测方法的流程图;
图2A是根据本发明又一实施例提供的一种异常变更检测方法的流程图;
图2B是根据本发明又一实施例提供的一种注入噪声的示意图;
图3是根据本发明又一实施例提供的一种异常变更检测装置的结构示意图;
图4是实现本发明实施例的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明一实施例提供的一种异常变更检测方法的流程图,本实施例可适用于向样本注入噪声,根据注入噪声为样本进行打标,以提高样本标注效率的情况,该方法可以由异常变更检测装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于具备相应数据处理能力的电子设备中。如图1所示,该方法包括:
S110、根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集。
S120、向所述原始数据样本集中原始样本注入噪声,得到训练样本集。
S130、将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签。
其中,从数据采集系统中不断地采集机器相关和业务相关的指标,然后将其存储到时序数据库中,作为历史指标数据的数据来源。假设时序数据库中存储节点1-100的时序数据,节点1、10、20、……、90和100均为软件服务系统历史变更中的变更节点。历史同期数据样本由时序数据库中同一历史周期位置的时间长度相同的指标数据组成,例如节点22-23(数据样本A)与32-33(数据样本B)组成一份历史同期数据样本。随机时刻前后数据样本为任意随机节点时刻之前和之后时间长度相同的指标数据组成,例如随机时刻为节点8,则随机时刻前后数据样本为可以由节点7-8与8-9组成。需要说明的是,随机时刻可以是时序数据库中任意节点,并非必须是变更节点。
具体的,从时序数据库中取出历史同期数据和随机时刻前后数据,作为成对待处理的成对原始样本数据,得到原始样本数据集。成对的原始样本由于互为历史同期数据或随机时刻前后数据,较为相似,无法使孪生网络模型学习到样本不相似的特征。向原始样本中注入噪声,得到原始样本的增强样本。增强样本可以与原始样本相似,也可以和原始样本不相似,与原始样本相似的增强样本可以用来继续训练孪生网络模型学习相似特征,与原始样本不相似的增强样本可以用来训练孪生网络模型学习不相似特征。将原始样本和增强样本一并作为训练样本,从而生成由增强样本和原始样本组成的训练样本集。从训练样本集中获取两个时间长度相同的训练样本,组对得到训练样本对,若组成训练对的两个训练样本不相似,则该训练对的训练标签为不相似标签;若组成训练对的两个训练样本相似,则该训练对的训练标签为相似标签,从而分别训练孪生网络模型对相似和不相似特征的学习能力。
S140、根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。
其中,待检测指标数据为软件服务系统变更后一段时间内指标数据的序列片段,表征了指标数据在变更产生后的一段时间内的变化趋势。训练完成的孪生网络模型用于读取由两个等长的时间序列片段组成的序列对,根据学习到的相似和不相似特征,输出两个时间序列片段之间的距离值来表述相似程度,若距离值过高,则可以给出两个时间序列片段不相似的判定。
具体的,从时序数据库中获取待检测指标数据的历史同期数据和变更前数据,分别与待检测指标数据组对得到历史同期数据检测对和变更前后数据检测对。将历史同期数据检测对和变更前后数据检测对分别输入孪生网络模型,分别得到历史同期距离和变更前后距离。基于运维记录设定异常变更置信度阈值th,并分别为历史同期距离和变更前后距离设置各自的参考权重。对历史同期距离和变更前后距离进行加权相加,得到待检测指标数据的异常变更置信度,大于th则判定为异常,不大于th则判定为正常。
本发明实施例通过向原始样本注入噪声,并根据注入噪声的噪声值来为训练样本对打标,减少生成训练标签过程中的人工参与,降低人工资源消耗;同时,通过孪生网络模型对异常变更进行检测,提高了异常变更检测的准确性。
图2A为本发明又一实施例提供的一种异常变更检测方法的流程图,本实施例在上述实施例的基础上进行了优化改进。如图2A所示,该方法包括:
S210、根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集。
S220、向所述原始数据样本集中原始样本注入噪声,得到训练样本集。
S230、从训练样本集获取第一原始样本、第二原始样本、第一增强样本和第二增强样本;所述第一原始样本和所述第二原始样本互为历史同期数据或随机时刻前后数据;所述第一增强样本通过向第一原始样本注入第一噪声得到,第二增强样本通过向第二原始样本注入第二噪声得到;将所述第一原始样本与第二原始样本组合为训练样本对,并将该训练样本对的训练标签确定为相似负例;将所述第一原始样本与第一增强样本、所述第二原始样本与第一增强样本、第一原始样本与第二增强样本和第二原始样本与第二增强样本分别组合为待标注训练样本对,并根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签。
具体的,从训练样本集中获取任一成对的原始样本,例如属于历史同期的原始样本或属于随机时刻变更前后的原始样本,分别作为第一原始样本和第二原始样本,再从训练样本集中获取向第一原始样本注入第一噪声得到的第一增强样本,和向第二原始样本注入第二噪声得到的第二增强样本,将这四个样本一一组对,从而得到六个潜在的训练样本对。
1)对于由第一原始样本和第二原始样本组成的训练样本对,由于未对第一原始样本和第二原始样本注入噪声,相应的噪声属性值为0,可直接将其训练标签确定为相似负例。
2)对于由第一原始样本与第一增强样本、所述第二原始样本与第一增强样本、第一原始样本与第二增强样本和第二原始样本与第二增强样本分别组对得到的四个训练样本对,由于训练样本对存在一个未注入噪声的原始样本和一个注入噪声的增强样本,训练对是否相似取决于增强样本中注入噪声的噪声属性值。
3)对于由第一增强样本对和第二增强样本组成的训练样本对,由于同时需要对两个原始样本进行噪声注入,无法实现对两个增强样本之间相似度的控制,也难以确定该训练样本对的训练标签。因此,对于由两个增强样本组成的训练样本对,该训练样本对不会用于对模型进行训练。
可选的,所述噪声属性值至少包括下述至少一项:噪声幅度、噪声位置和噪声种类。
具体的,指标数据在运行时会出现波动,不同指标数据的波动幅度,波动位置以及波动种类可能有所不同。根据波动属性对指标数据进行分类,同一类别下的指标数据的波动属性具备一定的相似性或完全相同,训练相应类别数量的孪生网络模型,以对不同波动属性值的指标数据进行专门处理。相应的,若对指标数据进行分类的波动属性为波动幅度,则将噪声幅度作为噪声属性值,来得到相似或不相似训练样本对;若对指标数据进行分类的波动属性为波动位置,则将噪声位置作为噪声属性值,来得到相似或不相似的训练样本对;若对指标数据进行分类的波动属性为波动种类,则将噪声种类作为噪声属性值,来得到相似或不相似的训练样本对。
可选的,若所述噪声属性值为噪声幅度,则所述根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签包括:
获取原始样本的目标噪声等级,并确定所述目标噪声等级的目标标准噪声幅度;若所述第一噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为不相似正例;若所述第一噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为相似负例;若所述第二噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为不相似正例;若所述第二噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为相似负例。
其中,正例指的是训练对两个片段不相似,负例是指训练对两个片段相似。注入噪声获取到的不相似正例,是为了训练模型“两条输入有怎样的偏差的情况下,就应该给出不相似的判断”;而注入噪声获取到的相似负例,是为了增强模型鲁棒性,告诉模型“两条输入中,什么程度、什么类型的偏差是可以容忍的”。通过设计并利用不相似正例和相似负例对模型进行训练,可以降低模型的敏感度并防止过拟合,也能更符合生产环境中数据的真实运维情况。噪声等级与标准噪声幅度一一对应,噪声等级越高,相对应的标准噪声幅度也越高。标准噪声幅度用于表征相应噪声等级的最高幅度正常波动,例如可以是属于该噪声等级的指标数据在正常运维情况下出现的最高历史波动幅度。
具体的,在以历史波动幅度对指标数据进行分类的情况下,首先基于原始样本所属指标数据的历史波动幅度,来确定原始样本的目标噪声等级,并确定目标噪声等级对应的目标标准噪声幅度。待标注训练样本对由于噪声的注入,需要借助注入噪声的噪声幅度和目标标准噪声幅度的相对大小关系,来确定训练样本对中两个训练样本是否还保持一定的相似性。如果注入噪声的噪声幅度大于目标标准噪声幅度,则说明两个训练样本由于注入了幅度过大的噪声,不具备相似性,相应训练样本对的训练标签为不相似正例;反之,如果注入噪声的噪声幅度不大于目标标准噪声幅度,则说明注入的噪声未能影响到两者的相似性,相应训练样本对的训练标签为训练负例。
示例性的,图2B是根据本发明又一实施例提供的一种注入噪声的示意图。其中,五种噪声注入方式:水位漂移(LevelShift)、高斯噪声(GaussianNoise)、短暂脉冲噪声(Transient Noise)、突增突降(Ramping)、稳定变化(Steady Changes)。前三种噪声注入得到的是增强样本与相应原始样本依旧保证一定的相似性,后两者噪声注入得到的增强样本与相应原始样本不具备相似性。需要说明的,这些可注入噪声之间没有排他性,都是独立生成的。相似与不相似的差别本质上其实是噪声的幅度,前三种噪声的幅度如果过大,也会得到与原始样本不相似的增强样本。幅度的选择也是随机生成的,所以一旦确定了噪声的幅度,就相当于确定了标签。特定的增强方式每次得到的结果是不同的,因为噪声的添加是一个随机的过程,包括噪声的幅度、添加的位置都会随机变化。
可选的,所述获取原始样本的目标噪声等级包括:
获取指标历史数据中原始样本的历史数据,并根据所述历史数据确定所述原始样本所属指标数据的历史波动幅度;根据所述历史波动幅度确定所述原始样本的目标噪声等级。
具体的,先确定原始样本的抽取来源,即原始样本所属的指标数据,然后将该指标数据的噪声等级确定为原始样本的噪声等级。指标数据的噪声等级则需要先确定其历史波动幅度,然后根据该历史波动幅度确定该指标数据的噪声等级。指标数据的历史波动幅度可通过下述方式确定:设某个指标数据的时间序列为X,其中Xm表示在m时刻时间序列的值。运维时间序列多存在周期性,这是因为运维数据多和用户流量密切相关,而用户流量在不同日期的表现也大体相似,此种情况下数据的周期可以认为是1天或者1周;设序列周期为T,std是标准差函数,则指标数据的序列在不同周期的历史波动幅度N可以量化表达为:
其中,为历史波动幅度N设置i个分级区间(i≥2),例如0-N1,N1-N2,N2-N3、……、Ni-1-Ni,Ni>……>N1>0,各分级区间与噪声等级一一对应,从而得到i个噪声等级。根据指标数据的历史波动幅度N所落入的分级区间,确定该指标数据确定的噪声等级。
可选的,所述待检测指标数据为目标噪声等级的指标数据,所述孪生网络模型为目标噪声等级的目标孪生网络模型。
具体的,根据待检测指标数据的历史波动幅度确定目标噪声等级,然后多个候选孪生网络中,选取目标噪声等级的训练样本对训练得到的目标孪生模型,使用目标孪生网络模型来确定相应的历史同期距离和变更前后距离。基于历史波动幅度对指标数据进行分类,大幅减少了需要训练的模型的数量,且不同候选孪生网络模型的神经网络结构保持一致,具备通用性,仅在训练样本对和实际处理指标数据的噪声等级上有所不同。即设计并训练有限个通用性强的模型就可在保证异常检测准确性的同时,大幅度降低训练模型所需训练资源。
可选的,所述根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集包括:
选取目标噪声等级的指标数据,作为原始指标数据;在任一原始指标数据中随机抽取原始序列片段,并获取该原始序列片段的历史同期数据和随机时刻前后数据,得到原始数据样本;在分别从各原始指标数据中获取预设数量的原始数据样本后,生成原始数据样本集。
具体的,属于目标噪声等级的指标数据可能有多条,这些指标数据均可作为原始指标数据。在确定目标噪声等级的原始样本对数量要求后,选取任一条原始指标数据,从中随机抽取一段原始序列片段,以及该历史同期数据或随机时刻前后数据,得到成对的原始数据样本,重复上述抽取过程,直至得到目标数量对的原始数据样本。从而生成原始数据样本集。此外,虽然各原始数据指标的噪声等级相同,即历史波动幅度均落入了相同的分级区间,但具体的历史波动幅度数值难免有所差异,在重复抽取原始样本对时,可以从目标噪声等级下的各个原始指标数据中均抽取一定数量的原始样本对,以对目标噪声等级的孪生网络模型进行充分训练。
S240、根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。
本发明实施例通过根据基于历史波动幅度对指标数据进行分类,区分不同噪声等级的指标数据和孪生网络模型,大幅减少了需要训练的模型的数量,且不同候选孪生网络模型的神经网络结构保持一致,具备通用性。即设计并训练有限个通用性强的模型就可在保证异常检测准确性的同时,大幅度降低训练模型所需训练资源。
图3为本发明又一实施例提供的一种异常变更检测装置的结构示意图。如图3所示,该装置包括:
原始样本生成模块310,用于根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;
训练样本生成模块320,用于向所述原始数据样本集中原始样本注入噪声,得到训练样本集;
训练样本标注模块330,用于将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;
变更异常检测模块340,用于根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果。
本发明实施例所提供的异常变更检测装置可执行本发明任意实施例所提供的异常变更检测方法,具备执行方法相应的功能模块和有益效果
可选的,训练样本标注模块330包括:
待组对样本获取单元,用于从训练样本集获取第一原始样本、第二原始样本、第一增强样本和第二增强样本;所述第一原始样本和所述第二原始样本互为历史同期数据或随机时刻前后数据;所述第一增强样本通过向第一原始样本注入第一噪声得到,第二增强样本通过向第二原始样本注入第二噪声得到;
第一标签标注单元,用于将所述第一原始样本与第二原始样本组合为训练样本对,并将该训练样本对的训练标签确定为相似负例;
第二标签标注单元,用于将所述第一原始样本与第一增强样本、所述第二原始样本与第一增强样本、第一原始样本与第二增强样本和第二原始样本与第二增强样本分别组合为待标注训练样本对,并根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签。
可选的,所述噪声属性值至少包括下述至少一项:噪声幅度、噪声位置和噪声种类。
可选的,若所述噪声属性值为噪声幅度,则所述第二标签标注单元包括:
噪声幅度确定子单元,用于获取原始样本的目标噪声等级,并确定所述目标噪声等级的目标标准噪声幅度;
第一正例标注子单元,用于若所述第一噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为不相似正例;
第一负例标注子单元,用于若所述第一噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为相似负例;
第二正例标注子单元,用于若所述第二噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为不相似正例;
第二负例标注子单元,用于若所述第二噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为相似负例。
可选的,所述噪声幅度确定子单元具体同于:获取指标历史数据中原始样本的历史数据,并根据所述历史数据确定所述原始样本所属指标数据的历史波动幅度;根据所述历史波动幅度确定所述原始样本的目标噪声等级。
可选的,所述原始样本生成模块310包括:
原始指标确定单元,用于选取目标噪声等级的指标数据,作为原始指标数据;
原始样本获取单元,用于在任一原始指标数据中随机抽取原始序列片段,并获取该原始序列片段的历史同期数据和随机时刻前后数据,得到原始数据样本;
原始样本集生成单元,用于在分别从各原始指标数据中获取预设数量的原始数据样本后,生成原始数据样本集。
进一步说明的异常变更检测装置也可执行本发明任意实施例所提供的异常变更检测方法,具备执行方法相应的功能模块和有益效果。
图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(ROM)42、随机访问存储器(RAM)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序,来执行各种适当的动作和处理。在随机访问存储器(RAM)43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、只读存储器(ROM)42以及随机访问存储器(RAM)43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。
电子设备40中的多个部件连接至I/O接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如异常变更检测方法。
在一些实施例中,异常变更检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器(ROM)42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到随机访问存储器(RAM)43并由处理器41执行时,可以执行上文描述的异常变更检测方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行异常变更检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种异常变更检测方法,其特征在于,所述方法包括:
根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;
向所述原始数据样本集中原始样本注入噪声,得到训练样本集;
将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;
根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果;
其中,所述将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签包括:
从训练样本集获取第一原始样本、第二原始样本、第一增强样本和第二增强样本;所述第一原始样本和所述第二原始样本互为历史同期数据或随机时刻前后数据;所述第一增强样本通过向第一原始样本注入第一噪声得到,第二增强样本通过向第二原始样本注入第二噪声得到;
将所述第一原始样本与第二原始样本组合为训练样本对,并将该训练样本对的训练标签确定为相似负例;
将所述第一原始样本与第一增强样本、所述第二原始样本与第一增强样本、第一原始样本与第二增强样本和第二原始样本与第二增强样本分别组合为待标注训练样本对,并根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签;
其中,若所述噪声属性值为噪声幅度,则所述根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签包括:
获取原始样本的目标噪声等级,并确定所述目标噪声等级的目标标准噪声幅度;
若所述第一噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为不相似正例;
若所述第一噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为相似负例;
若所述第二噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为不相似正例;
若所述第二噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为相似负例。
2.根据权利要求1所述的方法,其特征在于,所述噪声属性值至少包括下述至少一项:噪声幅度、噪声位置和噪声种类。
3.根据权利要求1所述的方法,其特征在于,所述获取原始样本的目标噪声等级包括:
获取指标历史数据中原始样本的历史数据,并根据所述历史数据确定所述原始样本所属指标数据的历史波动幅度;
根据所述历史波动幅度确定所述原始样本的目标噪声等级。
4.根据权利要求1所述的方法,其特征在于,所述待检测指标数据为目标噪声等级的指标数据,所述孪生网络模型为目标噪声等级的目标孪生网络模型。
5.根据权利要求1所述的方法,其特征在于,所述根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集包括:
选取目标噪声等级的指标数据,作为原始指标数据;
在任一原始指标数据中随机抽取原始序列片段,并获取该原始序列片段的历史同期数据和随机时刻前/后数据,得到原始数据样本;
在分别从各原始指标数据中获取预设数量的原始数据样本后,生成原始数据样本集。
6.一种异常变更检测装置,其特征在于,所述装置包括:
原始样本生成模块,用于根据历史指标数据中历史同期数据样本和随机时刻前后数据样本,生成原始数据样本集;
训练样本生成模块,用于向所述原始数据样本集中原始样本注入噪声,得到训练样本集;
训练样本标注模块,用于将所述训练样本集中训练样本进行组对得到训练样本对,并根据所述训练样本对中训练样本所注入噪声的噪声属性值确定所述训练样本对的训练标签;
变更异常检测模块,用于根据所述训练样本对和训练标签对孪生网络模型进行训练,并根据训练完成的孪生网络模型对待检测指标数据进行处理,得到变更的异常检测结果;
其中,所述训练样本标注模块包括:
待组对样本获取单元,用于从训练样本集获取第一原始样本、第二原始样本、第一增强样本和第二增强样本;所述第一原始样本和所述第二原始样本互为历史同期数据或随机时刻前后数据;所述第一增强样本通过向第一原始样本注入第一噪声得到,第二增强样本通过向第二原始样本注入第二噪声得到;
第一标签标注单元,用于将所述第一原始样本与第二原始样本组合为训练样本对,并将该训练样本对的训练标签确定为相似负例;
第二标签标注单元,用于将所述第一原始样本与第一增强样本、所述第二原始样本与第一增强样本、第一原始样本与第二增强样本和第二原始样本与第二增强样本分别组合为待标注训练样本对,并根据第一噪声或第二噪声的噪声属性值确定所述待标注训练样本对的训练标签。
其中,若所述噪声属性值为噪声幅度,则所述第二标签标注单元包括:
噪声幅度确定子单元,用于获取原始样本的目标噪声等级,并确定所述目标噪声等级的目标标准噪声幅度;
第一正例标注子单元,用于若所述第一噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为不相似正例;
第一负例标注子单元,用于若所述第一噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第一噪声的待标注训练样本对的训练标签,确定为相似负例;
第二正例标注子单元,用于若所述第二噪声的噪声幅度大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为不相似正例;
第二负例标注子单元,用于若所述第二噪声的噪声幅度不大于所述目标标准噪声幅度,则将存在第二噪声的待标注训练样本对的训练标签,确定为相似负例。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的异常变更检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的异常变更检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314781.2A CN115392403B (zh) | 2022-10-26 | 2022-10-26 | 一种异常变更检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314781.2A CN115392403B (zh) | 2022-10-26 | 2022-10-26 | 一种异常变更检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115392403A CN115392403A (zh) | 2022-11-25 |
CN115392403B true CN115392403B (zh) | 2023-04-07 |
Family
ID=84128299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211314781.2A Active CN115392403B (zh) | 2022-10-26 | 2022-10-26 | 一种异常变更检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392403B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079785A (zh) * | 2019-11-11 | 2020-04-28 | 深圳云天励飞技术有限公司 | 一种图像识别方法、装置及终端设备 |
CN112329786B (zh) * | 2020-12-02 | 2023-06-16 | 深圳大学 | 一种翻拍图像检测方法、装置、设备及存储介质 |
CN113627317A (zh) * | 2021-08-06 | 2021-11-09 | 安徽工业大学 | 一种基于单样本学习的电机轴承故障诊断方法 |
-
2022
- 2022-10-26 CN CN202211314781.2A patent/CN115392403B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115392403A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287316A (zh) | 一种告警分类方法、装置、电子设备及存储介质 | |
CN111291096B (zh) | 数据集构建方法、装置和存储介质及异常指标检测方法 | |
CN115794578A (zh) | 一种电力系统的数据管理方法、装置、设备及介质 | |
CN115249043A (zh) | 数据分析方法、装置、电子设备及存储介质 | |
CN117649115A (zh) | 一种风险评估方法、装置、电子设备和存储介质 | |
CN115392403B (zh) | 一种异常变更检测方法、装置、设备及存储介质 | |
CN116228301A (zh) | 一种目标用户的确定方法、装置、设备及介质 | |
CN115860872A (zh) | 一种目标物品确定方法、装置、电子设备及存储介质 | |
CN115391160B (zh) | 一种异常变更检测方法、装置、设备及存储介质 | |
CN115665783A (zh) | 一种异常指标溯源方法、装置、电子设备及存储介质 | |
CN115601042A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN115168154A (zh) | 一种基于动态基线的异常日志检测方法、装置及设备 | |
CN114881112A (zh) | 一种系统异常检测方法、装置、设备及介质 | |
CN114443738A (zh) | 异常数据挖掘方法、装置、设备及介质 | |
CN114328123A (zh) | 异常确定方法、训练方法、装置、电子设备以及存储介质 | |
CN115378589B (zh) | 二进制密钥的随机性测试方法、装置、设备及介质 | |
CN117492822B (zh) | 变更对比方法、装置、电子设备及存储介质 | |
CN117609723A (zh) | 一种对象识别方法、装置、电子设备及存储介质 | |
CN117454174A (zh) | 异常检测模型训练、数据检测方法、装置、设备及介质 | |
CN118277916A (zh) | 企业所属行业识别方法、装置、设备及存储介质 | |
CN115563390A (zh) | 一种课程推荐列表的确定方法、装置、设备及存储介质 | |
CN115146997A (zh) | 基于电力数据的评估方法、装置、电子设备及存储介质 | |
CN116167978A (zh) | 一种模型更新方法、装置、电子设备及存储介质 | |
CN118154362A (zh) | 电力用户分类方法、装置、电子设备和存储介质 | |
CN118312623A (zh) | 一种故障识别知识图谱的构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |