CN113986674A - 时序数据的异常检测方法、装置和电子设备 - Google Patents
时序数据的异常检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113986674A CN113986674A CN202111279566.9A CN202111279566A CN113986674A CN 113986674 A CN113986674 A CN 113986674A CN 202111279566 A CN202111279566 A CN 202111279566A CN 113986674 A CN113986674 A CN 113986674A
- Authority
- CN
- China
- Prior art keywords
- time
- time sequence
- data
- sequences
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 230000005856 abnormality Effects 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 9
- 230000002123 temporal effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000013459 approach Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 21
- 238000004590 computer program Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种时序数据的异常检测方法、时序数据的异常检测装置和电子设备,该方法包括:响应于获得的时序数据,获取针对时序数据的多个特征序列,以及多个特征序列之间的指向性和共现性;将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合;基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率;以及生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
Description
技术领域
本公开涉及人工智能技术领域、金融领域,更具体地,涉及一种时序数据的异常检测方法、时序数据的异常检测装置和电子设备。
背景技术
随着云计算、大数据、人工智能等技术的不断发展,互联网技术(InternetTechnology,简称IT)基础架构日益复杂。业务产生的时序运维数据,在运维人员对系统异常及问题定位过程中起着非常重要的作用。
但是,随着应用场景的复杂和新技术的涌现,时序运维数据现呈指数级增长,通过传统运维工具和方法难以满足高效应急响应的需求。
发明内容
有鉴于此,本公开提供了一种时序数据的异常检测方法、时序数据的异常检测装置和电子设备,以至少部分地解决传统运维工具和方法难以满足针对大量运维数据的高效应急响应的需求的问题。
本公开的一个方面提供了一种时序数据的异常检测方法,包括:响应于获得的时序数据,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性;将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合;以及生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
在某些实施例中,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性包括:利用经训练的特征序列获取模型处理时序数据,得到针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性;其中,特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数。
在某些实施例中,特征序列获取模型的训练过程包括:利用经训练的特征序列获取模型处理历史时序数据,通过至少调整共现概率和惩罚项的取值,使得目标函数取得最大值或者最小值;其中,历史时序数据包括被标注为特征序列的时序数据段,目标函数取得最大值或者最小值时,特征序列获取模型输出的时序数据段趋近于被标注为特征序列的时序数据段。
在某些实施例中,上述方法还包括:在得到针对时序数据的多个特征序列之后,从多个特征序列中选取指定个数的特征序列,以便得到指定个数的候选时序段集合。
在某些实施例中,获取针对时序数据的多个特征序列包括:通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段,作为多个特征序列。
在某些实施例中,通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段包括:获取时序数据包括的具有指定长度的各时序数据段,得到时序数据段集合;获取各时序数据段的数据段向量和时序数据段集合的集合向量;以及将与集合向量相似度最高的指定个数数据段向量对应的时序数据段,作为距离时序数据最近的指定个数时序数据段。
在某些实施例中,将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合包括:对于时序数据中除去特征序列之外的至少部分时序数据段中的每一个,获取时序数据段分别相对于多个特征序列各自之间的距离;以及将时序数据段分类至与目标特征序列对应的时序段集合中;其中,目标特征序列是多个特征序列中与距离最小对应的特征序列,或者,目标特征序列是多个特征序列中与距离小于设定阈值对应的特征序列。
在某些实施例中,基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率包括:确定各特征序列被分配给各候选时序段的概率的特征序列概率组;基于特征序列概率组确定各特征序列针对同一时序数据段的概率加权值;以及基于各特征序列针对同一时序数据段的概率加权值确定多个候选时序段集合之间的归一化共现概率。
本公开的一个方面提供了一种时序数据的异常检测装置,包括:特征序列获取模块、分类模块、共现概率确定模块和图生成模块。其中,特征序列获取模块,用于响应于获得的时序数据,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性;分类模块用于将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合;共现概率确定模块用于基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率;以及图生成模块用于生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
在某些实施例中,特征序列获取模块包括:第一特征序列获取单元,和/或,第二特征序列获取单元。其中,第一特征序列获取单元用于利用经训练的特征序列获取模型处理时序数据,得到针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性;其中,特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数;第二特征序列获取单元用于通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段,作为多个特征序列。
在某些实施例中,上述装置还包括:模型训练模块,用于利用经训练的特征序列获取模型处理历史时序数据,通过至少调整共现概率和惩罚项的取值,使得目标函数取得最大值或者最小值;其中,历史时序数据包括被标注为特征序列的时序数据段,目标函数取得最大值或者最小值时,特征序列获取模型输出的时序数据段趋近于被标注为特征序列的时序数据段。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上的时序数据的异常检测方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上的时序数据的异常检测方法。
本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上的时序数据的异常检测方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的应用时序数据的异常检测方法、时序数据的异常检测装置和电子设备的应用场景示意图;
图2示意性示出了根据本公开实施例的可以应用时序数据的异常检测方法、时序数据的异常检测装置的示例性系统架构;
图3示意性示出了根据本公开实施例的时序数据的异常检测方法的流程图;
图4示意性示出了根据本公开实施例的获取特征序列的方法流程图;
图5示意性示出了根据本公开实施例的模型训练的方法流程图;
图6示意性示出了根据本公开另一实施例的获取特征序列的方法流程图;
图7示意性示出了根据本公开实施例的时序数据的异常检测装置的方框图;
图8示意性示出了根据本公开另一实施例的时序数据的异常检测的装置的方框图;以及
图9示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
随着云计算、大数据、人工智能等技术的出现和发展,IT基础架构日益复杂,业务产生的时序运维数据,在运维工程师对系统异常及问题定位时,起着非常重要的作用。但是,应用场景的复杂和新技术的涌现,时序运维数据呈现指数级增长,通过传统运维工具和方法难以满足高效应急响应的需求。为了解决上述问题,可以通过将时序数据建模分析,定位异常数据点,降维数据的同时帮助运维人员进行决策。
由于可解释的时序建模中大多是离散时序,可以在时间坐标轴上将时序分段,然后从分段中找出可判断异常的表示。例如,算法模型可以采用小波(shapelet),通过找到特殊的特征片段波用于时序分类,从而进行解释推理。
为了便于理解本公开实施例的技术方案,首先对部分术语进行说明。
shapelet是一条具有辨识性类别特征的时间序列数据,通过识别局部特征达到对时间序列准确分类的目的。
时间序列建模的目的是为了发现按时间排序的数据中的关系。关键问题是如何从一个时间序列中提取关键特征,相关技术中部分框架从经典的特性工程和表示学习到基于深度学习的模型。虽然部分方法取得了很好的效果,但缺乏可解释性。
经分析,相关技术中通常将shapelet视作静态的,但是,现实中shapelet是动态的。首先,相同的shapelet出现在不同的时间片可能会产生一系列不同的影响。例如,在访问高峰时段内用电量明显增加和在访问低谷时段内用电量明显增加所导致的原因可能完全不同。即,一个重要线索是shapelet是如何随时间发展的。本公开实施例中将时间序列中能够反映其在不同时间片上代表性的子序列称为时间感知shapelet。
本公开实施例提供的时序数据的异常检测方法包括时序数据段分类过程和有向加权图生成过程。其中,时序数据段分类过程包括:首先,响应于获得的时序数据,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性。然后,将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合。在执行完时序数据段分类过程之后进入有向加权图生成过程,生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
本公开实施例中,从时序数据中提取了多个特征序列,这些特征序列能够较好地表征该时序数据。在各种场景下,会对应存在不同的特征序列,以及特征序列之间的指向性和共现性。由于有向加权图中包括多个时序数据段集合之间的指向和共现概率,使得可以基于该指向和共现概率对异常进行解释,提升了异常时序数据的可解释性。
在本公开的技术方案中,所涉及的时序数据的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本公开实施例的应用时序数据的异常检测方法、时序数据的异常检测装置和电子设备的应用场景示意图。
如图1所示,是两组关于运维的时序数据,其中一组时序数据相对于另一组时序数据存在时序特征1和时序特征2,通过分析,可以预判该时序特征1对应于促销高峰时的时序特征。时序特征2对应于CPU异常时的时序特征。时序特征1和时序特征2之间存在较明显的指向性和较高的共现性。基于此,可以分析在促销高峰阶段的访问量较高,导致CPU负载较高,容易在运行一段时间后因负载过高而无法应对后续正常工作状态下出现的访问高峰。
图2示意性示出了根据本公开实施例的可以应用时序数据的异常检测方法、时序数据的异常检测装置的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等,用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互,以接收或发送信息等,如发送业务请求、业务数据、用户身份关联信息等。终端设备201、202、203可以安装有各种通讯客户端应用,例如,运维类应用、网页浏览器应用、银行类应用、电商类应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。
终端设备201、202、203包括但不限于智能手机、增强现实设备、平板电脑、膝上型便携计算机、网页交互等功能的电子设备。终端设备可以向服务器端发送异常检测请求等。
服务器205可以接收时序数据的异常检测的请求等,并对请求进行处理。例如,服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理,并将处理结果(如特征序列、异常检测结果等)反馈给终端设备。
需要说明的是,本公开实施例所提供的时序数据的异常检测方法可以由服务器205执行。相应地,本公开实施例所提供的时序数据的异常检测装置可以设置于服务器205中。应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图3示意性示出了根据本公开实施例的时序数据的异常检测方法的流程图。
如图3所示,该时序数据的异常检测方法可以包括操作S310~操作S340。
在操作S310中,响应于获得的时序数据,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性。
在本实施例中,时序数据可以在某种场景中产生的数据,该时序数据中可以包括多个特征序列,这些特征序列可以将该时序数据和其它时序数据区别开。特征序列可以是shapelet。例如,时序数据可以是通过kafka接入的流式实时运维数据等。
改进shapelet可解释的异常检测,通过定义局部和全局的两个要素来衡量shapelet在不同时间位置上的时序影响,进而设计时间感知的shapelet。这样便于基于时间感知的shapelet构建有向权重图(如进行时间演化图建模),通过图嵌入算法进行分析,让shapelet的可解释性更强,异常检测定位更加具备场景性和可解释性。
具体地,为捕获shapelet的动态性,定义两个要因素来衡量shapelet在不同时间位置上的时序影响。例如,定义一个局部因素ωn来表示特定shapelet的第n个元素的内部重要性。例如,在全局范围内,主要衡量跨片段的时间位置对shapelet的判别力的影响,且通过添加时序分段的权重,设定一个全局因素um,通过测量此类偏差捕获跨时序数据段的影响。其中,参数ωn和um与具体场景和特定的时序数据形状图相关。
也就是说,如果与当前时序数据对应的参数ωn和um与特定场景和特定的时序数据形状图相符,则可以推断当前时序数据是在该特定场景下产生的。其中,特定场景包括但不限于:节假日访问高峰、硬件异常、环境波动(如电网波动)等。
在操作S320中,将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合。
在本实施例中,为了提升确定异常检测的结果的准确度,不仅仅针对特征序列进行分析,而是针对所有时序数据进行分析。为了实现该目的,将时序数据中除去特征序列之外的时序数据段分别分类至距离最近的特征序列所在的类中。这样便于确定各类之间的指向和共现概率。
在操作S330中,基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率。
具体地,可以计算各特征序列被分配给各候选时序段的概率。特征序列和除去该特征序列之外的时序数据段的整体就是时序数据。可以基于各特征序列被分配给各候选时序段的概率,来确定各类之间的指向和共现概率。每一类对应一个候选时序段集合。每个时序数据段具有一系列的概率,该一系列的概率是当前时序数据段被分配至各候选时序段集合的概率组。上述概率与当前时序数据段和各特征序列之间的相似度相关,如相似度越高,则对应的概率值越大。例如,可以通过对上述特征序列概率进行加权求和的方式来确定各类之间的指向和共现概率。
在操作S340中,生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
通过构造的有向加权图(也可以称为shapelet演化图)进行建模,并学习shapelet和给定时间序列的表示。使用相关技术中的图嵌入算法(如DeepWalk)来获得节点shapelet的表示向量,然后对于在时间序列中的每个片段,将其分配到不同的shapelet所在的候选时序段集合,并且确定各候选时序段集合之间连线的权重,最后链接或聚合所有这些嵌入向量(表示向量)以获得时序数据(最原始事件序列)的表示向量,学习到的表示向量应用于各种下游时序任务。例如,基于已到达时序数据来预测未到达时序数据的属性等。
具体地,基于多个候选时序段集合之间的指向和共现概率完成构建有向加权图(也可以称为shapelet演化图)。shapelet演化图是有向加权图G=(V,E)。该shapelet演化图由k个顶点组成,每个顶点表示一个shapelet。每个有向边ei,j∈E与其权重ωi,j(参考式(8)中的ω),表示在相同的时间序列中,shapelet vi∈V跟着另一个shapelet vj∈V出现的概率。shapelet演化图中的路径可以自然反映出shapelet的演变及其转移模式。
这样就可以实现根据上述分析结果,结合运维场景进行可解释性异常检测分析。
图4示意性示出了根据本公开实施例的获取特征序列的方法流程图。
如图4所示,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性可以包括操作S401。
在操作S401,利用经训练的特征序列获取模型处理时序数据,得到针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性。
其中,特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数。
在某些实施例中,时序数据集定义如式(1)所示:
T={t1,…,t|T|} 式(1)
其中,每个时序数据(t1~t|T|)包括n个按照时间顺序排列的元素,例如t={x1,x2,…,xn}。T≥1,n是正整数。
s记为t的一个连续子序列(时序数据段)。例如,时序数据段可以表示为s={xi,…,xj},如果t能被切分成长度为l的m段,则此时t={xl*k+1,…,xl*k+l},0≤k≤m-1。为了区分这些时序数据段之间的差异,直观定义出两个不同时序数据段si,sj之间的欧几里得距离d(si,sj)。其中,l,m,i,j是正整数。但是,欧几里得不能处理不同的序列长度和时间转移。在时序建模的背景下,时间转换技术常常用于解决上述问题,该方法的核心是为给定的序列找到合适的对齐方法,可以定义如下:
以两个时序数据段si,sj为例,其长度分别为li,lj,定义对齐a=(a1,a2),即一对有两个长度为p的索引序列,且满足如式(2)所示的条件。
针对两个段si,sj的所有可能对齐,记为A(si,sj),则对应到一种时间转换方法DTW可以表示为如式(3)所示。
其中,T(si,sj|a)是针对两序列在对齐方式a下的预定义不相似性,将上述公式中最小对准值定为a*,
进一步定义时序数据段s和时间序列t(t={s1,…,sm})的不相似性,若在t中存在时序数据段s′与s的距离相当小,则定义s和t的距离如式(4)所示。
D(s,t)=min1≤k≤md(s,sk) 式(4)
根据定义,需要提取典型子序列,shapelet是提取典型子序列以及区分段的代表。其中,Shapelet是一条具有辨识性类别特征的时间序列数据,通过识别局部特征达到对时间序列准确分类的目的。
Shapelet v表示某类时序数据段。根据一些特定的标准可以将T分为两个集合,一个接近v的集合Spos(v,T),一个和v相对的集合Sneg(v,T)。特别是对时间序列的典型数据,正样本和负样本可以对应到两个不同的分组,可以表示为如式(5)所示:
L=-g(Spos(v,T),Sneg(v,T)) 式(5)
针对v,L表示正向样本和负向样本之间的不相似度。
S*(v,T)表示相对于分组T*的距离集合,函数g以两个有限集合作为输入,返回一个标量值表示两个集合之间的距离。
为捕获shapelet的动态性,定义两个要因素来衡量shapelets在不同时间位置上的时序影响,定义一个局部因素ωn来表示特定shapelet的第n个元素的内部重要性。Shapelet v与时序数据段S之间的距离可以被定义为如式(6)所示。
其中,a*指的是用DTW距离进行Shapelet与时序数据段的匹配衡量。在全局范围内,主要衡量跨时序数据段的时间位置对shapelet的判别力的影响。通过添加时序数据段的权重,设定一个全局因素um,使得可以通过测量此类偏差,来捕获跨时序数据段的影响。另外,shapelet v与时序t之间距离定义为如下:
其中,t被切分成m个段,即t={s1,…,sm}。参数ω,u与具体场景和特定的时序数据形状图相关。
根据运维数据的类型学习历史数据,设定ω和u,以及对应的shapelet。该过程可以通过模型训练来实现。
在某些实施例中,可以通过如下方式训练特征序列获取模型。
例如,特征序列获取模型的训练过程可以包括如下操作:利用经训练的特征序列获取模型处理历史时序数据,通过至少调整共现概率和惩罚项的取值,使得目标函数取得最大值或者最小值。
其中,历史时序数据包括被标注为特征序列的时序数据段,目标函数取得最大值或者最小值时,特征序列获取模型输出的时序数据段趋近于被标注为特征序列的时序数据段。
具体地,通过监督学习某类时序列运维数据,选择最重要具有时间意识的shapelet,并学习每一个shapelet对应的时间因素ωi和ui。特别的,针对一组带有标签的时序列T,从所有子序列中筛选可作为Shapelet的片段侯选池(即候选时序段集合),对于每个候选者v,目标函数可以如式(8)所示。
其中,λ,ε是超参数的惩罚系数,g函数和式(5)中的g函数一样用于计算两个特定集合间的距离分布。
图5示意性示出了根据本公开实施例的模型训练的方法流程图。
如图5所示,该模型训练的方法可以包括操作S501~操作S507。
在操作S501,根据运维数据类型学习历史数据,这样可以通过模型训练得到ω、μ和与该运维数据类型对应的shapelet。
模型可以是在使用的过程中进行迭代以提升模型预测精准度。例如,可以通过操作S502~操作S507实现模型迭代训练过程。
在操作S502,接入流式实时运维数据。
在操作S503,针对某类时序运维数据,获取k个shapelet片段侯选池。
在操作S504,构建shapelet演化图模型。
在操作S505,通过图嵌入算法分析演化图。
在操作S506,进行场景性和可解释性异常检测分析。
在操作S507,处理的时序运维数据写入数据库,这样便于基于历史写入数据库中的时序运维数据作为模型训练的训练数据,以便对特征序列获取模型进行迭代更新。
在某些实施例中,上述方法在得到针对时序数据的多个特征序列之后,还可以包括如下操作:从多个特征序列中选取指定个数的特征序列,以便得到指定个数的候选时序段集合。
具体地,在分别从多个shapelet的候选者中学习了时序因素后,选择损失最小的前k个shapelet作为最终具有时间意识的shapelet组成侯选池。k是正整数。
在某些实施例中,还可以通过聚类的方式来筛选shapelet。具体地,获取针对时序数据的多个特征序列包括:通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段,作为多个特征序列。
例如,通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段可以包括如下操作。
首先,获取时序数据包括的具有指定长度的各时序数据段,得到时序数据段集合。
然后,获取各时序数据段的数据段向量和时序数据段集合的集合向量。
接着,将与集合向量相似度最高的指定个数数据段向量对应的时序数据段,作为距离时序数据最近的指定个数时序数据段。
图6示意性示出了根据本公开另一实施例的获取特征序列的方法流程图。
如图6所示,可以通过执行操作S601~操作S604来获取特征序列。
在操作S601,用户可以输入时序数据序列T、序列长度(即时序数据段)l和侯选池长度(即特征序列的长度)。
在操作S602,计算时序数据序列T中所有长度为l的子序列(时序数据段),记为seq。
在操作S603,将seq中距离seq中心的距离最近的子序列的索引置为1。即寻找时序数据序列T中所有长度为l的子序列中,与seq的语义最相似(向量最接近或距离最小)的子序列。
在操作S604,依次在seq中抽取指定个数的距离seq中心最近的子序列,并将这些子序列作为特征序列。
通过以上方式可以选出与时序数据的语义最相似的时序数据段,并将其作为特征序列。
在某些实施例中,将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合可以包括如下操作。
对于时序数据中除去特征序列之外的至少部分时序数据段中的每一个:首先,获取时序数据段分别相对于多个特征序列各自之间的距离。然后,将时序数据段分类至与目标特征序列对应的时序段集合中。
其中,目标特征序列是多个特征序列中与距离最小对应的特征序列,或者,目标特征序列是多个特征序列中与距离小于设定阈值对应的特征序列。
例如,求解每个时序片段si到距离最近的几个shapelets时,根据训练数据集的实验统计计算出一个阈值δ,只要距离小于δ,即可判断时序片段距离很接近。这样就可以将时序片段Si分别分类至某个shapelet所在的类中。
在某些实施例中,基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率可以包括如下操作。
首先,确定各特征序列被分配给各候选时序段的概率的特征序列概率组。
接着,基于特征序列概率组确定各特征序列针对同一时序数据段的概率加权值。
然后,基于各特征序列针对同一时序数据段的概率加权值确定多个候选时序段集合之间的归一化共现概率。
在一个具体实施例中,将shapelets赋值给si,标记为vi,*,即vi,j是第j次对si的赋值,同时将shapelet的赋值概率标准化为如式(9)所示:
其中,max()是求最大值,min()是求最小值。此外,有如下预定义约束,如式(10)所示。
shapelets对应集合vi,*被分配给时序数据段si的概率为pi,*。按照时序特性,以此类推,就可以得到特征序列概率组shapelet组(j,k)。
然后,对于每个shapelet组(j,k),为vi,j到vi+1,j创建加权边,并通过权重pi,j·pi+1,k合并所有的重复边。然后,将从每个节点获得的边权重归一化为1,自然解释为每对节点之间的边缘权重。例如,将vi和vj转化为条件概率p(vj|vi),在相邻时间步长中可将shapeletvi转化为vj。
通过以上方式即可构造出shapelet演化图,再将图嵌入算法应用于shapelet特征的学习及时间序列表示,进而进行推理和解释。
本公开的另一方面还提供了一种时序数据的异常检测装置。
图7示意性示出了根据本公开实施例的时序数据的异常检测装置的方框图。
如图7所示,上述装置700可以包括:特征序列获取模块710、分类模块720、共现概率确定模块730和图生成模块740。
其中,特征序列获取模块710用于响应于获得的时序数据,获取针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性。
分类模块720用于将时序数据中除去特征序列之外的时序数据段,分别分类至以多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合。
共现概率确定模块730用于基于多个特征序列之间的指向性和共现性确定多个候选时序段集合之间的指向和共现概率。
图生成模块740用于生成针对多个候选时序段集合的有向加权图,以便基于有向加权图对时序数据进行异常检测,有向加权图的节点表征候选时序段集合,有向加权图的有向连线表征与有向连线相连的两个节点之间的指向和共现概率。
在某些实施例中,特征序列获取模块710可以包括:第一特征序列获取单元,和/或,第二特征序列获取单元。
其中,第一特征序列获取单元用于利用经训练的特征序列获取模型处理时序数据,得到针对时序数据的多个特征序列,以及针对多个特征序列之间的指向性和共现性;其中,特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数。
第二特征序列获取单元用于通过聚类的方式从时序数据包括的多个时序数据段中获取距离时序数据最近的指定个数时序数据段,作为多个特征序列。
在某些实施例中,上述装置700还可以包括模型训练模块。其中,模型训练模块用于利用经训练的特征序列获取模型处理历史时序数据,通过至少调整共现概率和惩罚项的取值,使得目标函数取得最大值或者最小值。
历史时序数据包括被标注为特征序列的时序数据段,目标函数取得最大值或者最小值时,特征序列获取模型输出的时序数据段趋近于被标注为特征序列的时序数据段。
在某些实施例中,特征序列获取模块710还可以包括数据段提取单元、向量化单元和特征序列确定单元。
数据段提取单元用于获取时序数据包括的具有指定长度的各时序数据段,得到时序数据段集合。
向量化单元用于获取各时序数据段的数据段向量和时序数据段集合的集合向量。
特征序列确定单元用于将与集合向量相似度最高的指定个数数据段向量对应的时序数据段,作为距离时序数据最近的指定个数时序数据段。
图8示意性示出了根据本公开另一实施例的时序数据的异常检测的装置的方框图。
如图8所示,该装置800可以包括历史数据线下学习模块、流式数据接入模块、获取shapelet侯选池模块、构建shapelet演化图模块、图嵌入算法及具体运维场景演化图分析及解释模块和运维数据写库模块。
其中,历史数据线下学习模块用于对存储在数据库中的历史运维数据进行线下分类学习,设定影响要素值和梳理对应的shapelet。
流式数据接入模块用于对接卡夫卡(kafka)实时接入流式运维数据。
获取shapelet侯选池模块用于针对某类时序运维数据,通过监督学习得到k个shapelet的片段侯选池。
构建shapelet演化图模块用于根据k个shapelet构建shapelet演化图模型。
图嵌入算法及具体运维场景演化图分析及解释模块用于通过图嵌入算法分析演化图,并结合运维场景及可解释性异常检测进行分析。
运维数据写库模块用于将处理过后的运维数据写库并更新。
需要说明的是,装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再一一赘述。
根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,特征序列获取模块710、分类模块720、共现概率确定模块730和图生成模块740中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,特征序列获取模块710、分类模块720、共现概率确定模块730和图生成模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,特征序列获取模块710、分类模块720、共现概率确定模块730和图生成模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的电子设备的方框图。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此通讯连接。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开实施例提供的时序数据的异常检测方法、时序数据的异常检测装置和电子设备可用于人工智能另领域在时序数据的异常检测的相关方面,也可用于除人工智能另领域之外的多种领域,如时序数据的异常检测的领域,此外还可以应用在金融领域。本公开实施例提供的时序数据的异常检测方法、时序数据的异常检测装置和电子设备的应用领域不做限定。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或时序数据的异常检测方法。
在该计算机程序被处理器901执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (12)
1.一种时序数据的异常检测方法,包括:
响应于获得的时序数据,获取针对所述时序数据的多个特征序列,以及所述多个特征序列之间的指向性和共现性;
将所述时序数据中除去所述特征序列之外的时序数据段,分别分类至以所述多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合;
基于所述多个特征序列之间的指向性和共现性确定所述多个候选时序段集合之间的指向和共现概率;以及
生成针对所述多个候选时序段集合的有向加权图,以便基于所述有向加权图对所述时序数据进行异常检测,所述有向加权图的节点表征候选时序段集合,所述有向加权图的有向连线表征与所述有向连线相连的两个节点之间的指向和共现概率。
2.根据权利要求1所述的方法,其中,所述获取针对所述时序数据的多个特征序列,以及针对所述多个特征序列之间的指向性和共现性包括:
利用经训练的特征序列获取模型处理所述时序数据,得到针对所述时序数据的多个特征序列,以及针对所述多个特征序列之间的指向性和共现性;
其中,所述特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数。
3.根据权利要求2所述的方法,其中,所述特征序列获取模型的训练过程包括:
利用经训练的特征序列获取模型处理历史时序数据,通过至少调整所述共现概率和所述惩罚项的取值,使得所述目标函数取得最大值或者最小值;
其中,所述历史时序数据包括被标注为特征序列的时序数据段,所述目标函数取得最大值或者最小值时,所述特征序列获取模型输出的时序数据段趋近于所述被标注为特征序列的时序数据段。
4.根据权利要求2所述的方法,还包括:在所述得到针对所述时序数据的多个特征序列之后,
从所述多个特征序列中选取指定个数的特征序列,以便得到指定个数的候选时序段集合。
5.根据权利要求1所述的方法,其中,所述获取针对所述时序数据的多个特征序列包括:
通过聚类的方式从所述时序数据包括的多个时序数据段中获取距离所述时序数据最近的指定个数时序数据段,作为所述多个特征序列。
6.根据权利要求5所述的方法,其中,所述通过聚类的方式从所述时序数据包括的多个时序数据段中获取距离所述时序数据最近的指定个数时序数据段包括:
获取所述时序数据包括的具有指定长度的各时序数据段,得到时序数据段集合;
获取各时序数据段的数据段向量和所述时序数据段集合的集合向量;以及
将与所述集合向量相似度最高的指定个数数据段向量对应的时序数据段,作为距离所述时序数据最近的指定个数时序数据段。
7.根据权利要求1~6任一项所述的方法,其中,所述将所述时序数据中除去所述特征序列之外的时序数据段,分别分类至以所述多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合包括:对于所述时序数据中除去所述特征序列之外的至少部分时序数据段中的每一个,
获取所述时序数据段分别相对于所述多个特征序列各自之间的距离;以及
将所述时序数据段分类至与目标特征序列对应的时序段集合中;
其中,所述目标特征序列是所述多个特征序列中与所述距离最小对应的特征序列,或者,所述目标特征序列是所述多个特征序列中与所述距离小于设定阈值对应的特征序列。
8.根据权利要求1~6任一项所述的方法,其中,所述基于所述多个特征序列之间的指向性和共现性确定所述多个候选时序段集合之间的指向和共现概率包括:
确定各特征序列被分配给各候选时序段的概率,得到特征序列概率组;
基于所述特征序列概率组确定各特征序列针对同一时序数据段的概率加权值;以及
基于各特征序列针对同一时序数据段的概率加权值确定多个候选时序段集合之间的归一化共现概率。
9.一种时序数据的异常检测装置,包括:
特征序列获取模块,用于响应于获得的时序数据,获取针对所述时序数据的多个特征序列,以及针对所述多个特征序列之间的指向性和共现性;
分类模块,用于将所述时序数据中除去所述特征序列之外的时序数据段,分别分类至以所述多个特征序列中的至少部分特征序列各自为代表的时序段集合中,得到多个候选时序段集合;
共现概率确定模块,用于基于所述多个特征序列之间的指向性和共现性确定所述多个候选时序段集合之间的指向和共现概率;以及
图生成模块,用于生成针对所述多个候选时序段集合的有向加权图,以便基于所述有向加权图对所述时序数据进行异常检测,所述有向加权图的节点表征候选时序段集合,所述有向加权图的有向连线表征与所述有向连线相连的两个节点之间的指向和共现概率。
10.根据权利要求9所述的装置,其中,所述特征序列获取模块包括:
第一特征序列获取单元,用于利用经训练的特征序列获取模型处理所述时序数据,得到针对所述时序数据的多个特征序列,以及针对所述多个特征序列之间的指向性和共现性;其中,所述特征序列获取模型的目标函数包括:正样本和负样本之间的差异度、共现概率、共现概率权重、惩罚项和惩罚项系数;
和/或
第二特征序列获取单元,用于通过聚类的方式从所述时序数据包括的多个时序数据段中获取距离所述时序数据最近的指定个数时序数据段,作为所述多个特征序列。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~8任一项所述的时序数据的异常检测方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时,实现根据权利要求1~8任一项所述的时序数据的异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279566.9A CN113986674B (zh) | 2021-10-28 | 2021-10-28 | 时序数据的异常检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279566.9A CN113986674B (zh) | 2021-10-28 | 2021-10-28 | 时序数据的异常检测方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113986674A true CN113986674A (zh) | 2022-01-28 |
CN113986674B CN113986674B (zh) | 2024-08-23 |
Family
ID=79745076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111279566.9A Active CN113986674B (zh) | 2021-10-28 | 2021-10-28 | 时序数据的异常检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113986674B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN115600131A (zh) * | 2022-11-28 | 2023-01-13 | 西安弘捷电子技术有限公司(Cn) | 基于图形化测试平台的自动测试系统 |
CN115793553A (zh) * | 2023-02-09 | 2023-03-14 | 北京徐工汉云技术有限公司 | 工程机械工况控制方法、装置、电子设备和存储介质 |
CN117435676A (zh) * | 2023-07-13 | 2024-01-23 | 南京电力设计研究院有限公司 | 基于子序列挖掘与有向加权图聚类的建筑能源管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814897A (zh) * | 2020-07-20 | 2020-10-23 | 辽宁大学 | 一种基于多层次shapelet的时间序列数据分类方法 |
US20210248462A1 (en) * | 2020-02-07 | 2021-08-12 | Nec Laboratories America, Inc. | Interpreting convolutional sequence model by learning local and resolution-controllable prototypes |
CN113515399A (zh) * | 2021-04-26 | 2021-10-19 | 中国工商银行股份有限公司 | 数据异常检测方法及装置 |
-
2021
- 2021-10-28 CN CN202111279566.9A patent/CN113986674B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210248462A1 (en) * | 2020-02-07 | 2021-08-12 | Nec Laboratories America, Inc. | Interpreting convolutional sequence model by learning local and resolution-controllable prototypes |
CN111814897A (zh) * | 2020-07-20 | 2020-10-23 | 辽宁大学 | 一种基于多层次shapelet的时间序列数据分类方法 |
CN113515399A (zh) * | 2021-04-26 | 2021-10-19 | 中国工商银行股份有限公司 | 数据异常检测方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN114722937B (zh) * | 2022-04-06 | 2024-07-16 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN115600131A (zh) * | 2022-11-28 | 2023-01-13 | 西安弘捷电子技术有限公司(Cn) | 基于图形化测试平台的自动测试系统 |
CN115600131B (zh) * | 2022-11-28 | 2023-03-07 | 西安弘捷电子技术有限公司 | 基于图形化测试平台的自动测试系统 |
CN115793553A (zh) * | 2023-02-09 | 2023-03-14 | 北京徐工汉云技术有限公司 | 工程机械工况控制方法、装置、电子设备和存储介质 |
CN115793553B (zh) * | 2023-02-09 | 2023-05-09 | 北京徐工汉云技术有限公司 | 工程机械工况控制方法、装置、电子设备和存储介质 |
CN117435676A (zh) * | 2023-07-13 | 2024-01-23 | 南京电力设计研究院有限公司 | 基于子序列挖掘与有向加权图聚类的建筑能源管理方法 |
CN117435676B (zh) * | 2023-07-13 | 2024-06-07 | 南京电力设计研究院有限公司 | 基于子序列挖掘与有向加权图聚类的建筑能源管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113986674B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348352B2 (en) | Contract lifecycle management | |
US10437556B2 (en) | Quota management in a dataset management system | |
CN113986674B (zh) | 时序数据的异常检测方法、装置和电子设备 | |
US20180314975A1 (en) | Ensemble transfer learning | |
US20170185913A1 (en) | System and method for comparing training data with test data | |
KR102359090B1 (ko) | 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템 | |
CN113051911B (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN115034315B (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
KR102330423B1 (ko) | 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템 | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
CN115759748A (zh) | 风险检测模型生成方法和装置、风险个体识别方法和装置 | |
US20230152787A1 (en) | Performance optimization of complex industrial systems and processes | |
KR102072901B1 (ko) | 패턴 태깅 기술 기반 전력 데이터 저장 관리 방법 및 시스템 | |
AU2021251463B2 (en) | Generating performance predictions with uncertainty intervals | |
CN116881027B (zh) | 原子服务组合通信方法、装置、电子设备和介质 | |
JP2023034537A (ja) | 概念ドリフト検出のための装置、方法、及びシステム | |
CN110059743B (zh) | 确定预测的可靠性度量的方法、设备和存储介质 | |
CN117057881A (zh) | 风险店铺识别方法及其装置、设备、介质、产品 | |
CN116863116A (zh) | 基于人工智能的图像识别方法、装置、设备及介质 | |
CN110674497A (zh) | 一种恶意程序相似度计算的方法和装置 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
US11514311B2 (en) | Automated data slicing based on an artificial neural network | |
JP2023535202A (ja) | コンテキスト・アウェア・アノマリ検出 | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
US12106191B2 (en) | Continuous learning process using concept drift monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |