CN111291096A - 数据集构建方法、装置和存储介质及异常指标检测方法 - Google Patents

数据集构建方法、装置和存储介质及异常指标检测方法 Download PDF

Info

Publication number
CN111291096A
CN111291096A CN202010139669.4A CN202010139669A CN111291096A CN 111291096 A CN111291096 A CN 111291096A CN 202010139669 A CN202010139669 A CN 202010139669A CN 111291096 A CN111291096 A CN 111291096A
Authority
CN
China
Prior art keywords
time series
time
sequence
time sequence
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010139669.4A
Other languages
English (en)
Other versions
CN111291096B (zh
Inventor
张戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010139669.4A priority Critical patent/CN111291096B/zh
Publication of CN111291096A publication Critical patent/CN111291096A/zh
Application granted granted Critical
Publication of CN111291096B publication Critical patent/CN111291096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了数据集构建的方法、装置和存储介质,以及异常指标检测网络训练方法及异常指标检测方法。用于构建数据集的方法包括:获取经标记的第一时间序列;对第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与第一时间序列相匹配的一个或多个时间序列作为第二时间序列;对第二时间序列进行标记,得到第二时间序列的属性;基于第二时间序列和第二时间序列的属性构建该数据集。通过本发明提供的方法,可以降低构建数据集所需的人力成本、时间成本,并提高数据集的准确性。

Description

数据集构建方法、装置和存储介质及异常指标检测方法
技术领域
本发明涉及人工智能和机器学习的技术领域,特别是涉及数据集构建方法、装置和存储介质及异常指标检测方法,以及异常指标检测网络训练方法及异常指标检测方法。
背景技术
在监控信息技术服务性能的过程中,通常可以存在多个反映被监控对象(特别地,例如正在运行的软件或程序)的性能或状况的指标,这些指标通常呈现为时间序列的形式。通过检测时间序列是否出现异常,可以确定被监控对象是否发生故障或其他突发情况,从而有助于及时排除故障或解决其他突发情况,和有助于保障被监控对象的稳定运行。这种检测可以通过例如基于大量时间序列样本训练的神经网络来自动地执行。然而,此类时间序列样本的标记涉及的专业知识较多,一般需要专业人员来完成。
发明内容
一般而言,在诸如软件或程序的被监控对象的运行过程中,发生异常的几率较低,从而时间序列中的大部分都是正常的时间序列,而只有很少的部分是异常的时间序列。因此,在通过人工标记获取异常样本时,往往需要专业人员查看海量的数据来标记所需数目的异常样本。这将耗费大量的人力成本和时间成本。本发明的实施例至少部分地解决上面提及的问题。
根据本发明的一方面,提供了一种用于构建数据集的方法。该方法包括:获取经标记的第一时间序列;对第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与第一时间序列相匹配的一个或多个时间序列作为第二时间序列;对第二时间序列进行标记,得到第二时间序列的属性;基于第二时间序列和第二时间序列的属性构建数据集。
在一些实施例中,该方法还包括:基于预定幅值调整与第一时间序列相对应的历史时间序列的各个数据点的值,调整后的历史时间序列作为第三时间序列;对第三时间序列进行标记,得到第三时间序列的属性;和基于第三时间序列和第三时间序列的属性扩充数据集。
在一些实施例中,对第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:基于预定时间窗,对第一时间序列和时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;通过计算加窗第一时间序列和各个加窗其他时间序列的相似度来对第一时间序列与时间序列库中的各个其他时间序列进行匹配。
在一些实施例中,对第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:基于预定时间窗,对第一时间序列和时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;分别对加窗第一时间序列和各个加窗其他时间序列进行分段聚合拟合,得到经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列;通过计算经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列的相似度来对第一时间序列与时间序列库中的各个其他时间序列进行匹配。
在一些实施例中,相似度包括时间序列的皮尔逊相似度或时间序列的距离。
在一些实施例中,基于预定幅值调整与第一时间序列相对应的历史时间序列的各个数据点的值包括:基于预定长度截取历史时间序列;基于预定幅值调整截取后的历史时间序列的各个数据点的值。
在一些实施例中,基于预定幅值调整与第一时间序列相对应的历史时间序列的各个数据点的值包括:基于预定幅值增大或减小与第一时间序列相对应的历史时间序列的各个数据点的值。
在一些实施例中,预定幅值选自区间[0.05, 0.50]或[0.05, 1.0]的区间。
根据本发明的另一方面,提供了一种异常指标检测网络的训练方法。该方法包括:获取用于异常指标检测网络的时间序列库,基于所获取的时间序列库,使用前述构建数据集的方法来构造训练数据集,使用数据集来训练异常指标检测网络以检测异常指标。
根据本发明的另一方面,提供了一种异常指标检测方法,包括:获取时间序列,时间序列包括目标数据点,目标数据点包括时间序列中在待测时间点上报的指标值;将时间序列输入到异常指标检测网络中,异常指标检测网络对时间序列进行处理得到针对目标数据点的异常检测结果,根据目标数据点的异常检测结果确定在待测时间点上报的指标是否异常,其中异常检测模型通过前述训练方法进行训练得到。
在一些实施例中,该方法还包括:响应于异常检测结果为时间序列异常而发送告警消息。
在一些实施例中,告警消息包括下列中的至少一个:短信告警消息、应用程序告警消息和小程序告警消息。
根据本发明的另一方面,提供了一种用于构建数据集的装置。该装置包括:获取模块,被配置成获取经标记的第一时间序列;匹配模块,被配置成对第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与第一时间序列相匹配的一个或多个时间序列作为第二时间序列;标记模块,被配置成对第二时间序列进行标记,得到第二时间序列的属性;构建模块,被配置成基于第二时间序列和第二时间序列的属性构建数据集。
根据本发明的另一方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用于构建数据集的方法的步骤。
根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用于构建数据集的方法的步骤。
本发明提供的数据集构建方法、装置和存储介质及异常指标检测方法,以及异常指标检测网络训练方法及异常指标检测方法通过在时间序列数据库中自动搜索与经标记的时间序列相匹配的另外的时间序列,和基于这样的时间序列构建数据集,可以使得标记人员不再需要逐一查看时间序列数据库中的各个时间序列来标记异常样本,而只需要判断自动搜索到的时间序列的属性,从而降低其标记所需的时间,加快获取异常样本的速度,提高数据集的构建效率。此外,该方法还可以通过调整与第一时间序列相对应的历史时间序列的各个数据点的值来构建时间序列,这可以进一步增加所获取的样本数量,有助于扩大所构建的数据集的规模。
根据在下文中所描述的实施例,本发明的这些和其他方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示意性示出了时间序列的示例;
图2示意性示出了时间序列的另一示例;
图3示意性示出了时间序列标注平台的示例界面;
图4示意性示出了根据相关技术的时间序列标记流程图;
图5示意性示出了根据相关技术的标记工具的示例界面;
图6示意性示出了本发明一个实施例的示例应用场景;
图7示意性示出了根据本发明一个实施例的标记工具的示例界面;
图8示意性示出了根据本发明一个实施例的构建数据集的方法的示例流程图;
图9示意性示出了根据本发明一个实施例对时间序列进行分段聚合拟合的示意图;
图10A和图10B示意性示出了根据本发明一个实施例对时间序列进行调整的示意图;
图11示意性示出了根据本发明一个实施例的用于构建数据集的装置的示例框图;
图12示意性示出了根据本发明一个实施例的异常指标检测网络的训练方法的示例流程图;
图13示意性示出了根据本发明一个实施例的异常指标检测方法的示例流程图;以及
图14示意性示出了可以实施本发明一个实施例的系统的示例框图。
具体实施方式
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
时间序列:一组按照时间发生先后顺序排列的数据点序列,数据点通常采取由时间戳和该时间戳所对应的数据值构成的(time,value)对的形式。针对一个时间序列,相邻数据点之间的时间间隔通常为一个恒定值,例如1秒钟、10秒钟、1分钟、5分钟、1小时等。本文所涉及的时间序列主要指监控类的时间序列,例如应用程序的在线用户数、请求次数、调用失败数、成功率等指标对应的时间序列。图1和图2分别示出了两个示例时间序列图100、200,系统可以例如每分钟上报一个监控数据点,这些数据点连接起来可以形成如图中所示的曲线图。可以看到,图1和图2中不仅示出了当前时间序列110、210,还示出了前一天(120、220)和一周前(130、230)的历史时间序列。
时间序列的异常点:在时间序列中,如果某些时间戳上的取值偏离了时间序列整体的趋势,或者与历史的走势明显不相符,则这种点可以被认为是异常点。图1和图2中的方框111、211分别标识了图1、图2所示时间序列110、210中的异常点。应注意,异常点的判断通常需要综合考虑整条时间序列以及相对应的历史时间序列,因此难以通过简单地阈值比较来准确判断某个点或某段时间内的多个点是否是异常点。
样本:在统计学中,样本指的是从全体数据中随机抽取的个体。通过对样本进行调查、分析和处理,可以大致获得全体数据的情况。在机器学习中,通常会设定正常样本和异常样本。正常样本指的是符合某种经验的样本,异常样本指的是不符合某种经验的样本。例如在图1和图2中,方框111、211标记的时间段就表示这条时间序列的部分异常样本点的集合。
告警:当系统出现故障时,相应的时间序列会出现异常,此时需要发送通知给相关人员,这种动作称为告警。但是,时间序列中的瞬时异常可能由于网络抖动等导致,从而无需告警。因此,一般而言,当时间序列中出现多个异常点(例如连续三分钟异常或者五分钟内有四个点异常)时,需要发送通知(例如通过微信、QQ等应用程序以及小程序、短信等)到相关人员并在标注平台上显示异常的时间序列的片段。图3示意性示出了标注平台的示例界面300。该标注平台可以显示待标注的出现异常的时间序列的片段,并且可选地,在显示当前异常的时间序列之外,还显示诸如昨天、一周前的历史时间序列以供参照。每个待标注的时间序列具有一个特定的标识ID。相关人员(例如,开发人员、运维人员)可以例如在接收到应用程序、小程序或短信通知之后在该平台上查看出现异常的时间序列。或者,相关人员也可以随时关注该标注平台,来即时查看出现异常的时间序列。相关人员通过比较判断可以在标注平台上进行标注,点击相对应的操作按钮标注为正样本或负样本。该标注平台通过今天、一天前和一周前的数据对比参照,使得标注人员能够专注到异常样本的标注工作中,有效地提高了时间序列标注的效率,从而获得大量的标注数据以提供给模型的训练和测试。在标注平台还存在搜索框,相关人员也可以在搜索框中基于标识ID来搜索待标注的时间序列。
DTW(Dynamic Time Warping) 动态时间规整:DTW可以计算两个时间序列的相似度,尤其适用于不同长度、不同节奏的时间序列(比如不同的人读同一个词的音频序列)。DTW将自动warping扭曲时间序列(即在时间轴上进行局部的缩放),使得两个序列的形态尽可能的一致,得到最大可能的相似度。
图4示意性示出了根据相关技术的时间序列标记方法的流程图400。该方法使用了无监督算法孤立森林(isolation forest)402和加速度的DTW算法(accelerated DTW)算法403来寻找时间序列的异常样本。该方案先对时间序列进行特征提取,然后对时间序列的特征工程进行无监督算法,得到一些潜在的异常。然后使用加速的 DTW 算法获得更多样本。最后由操作者401进行人工标注,获得时间序列的异常样本。
图5示意性示出了根据相关技术的标记工具的示例界面500。该标记工具可以用于查看整条时间序列,以及对时间序列中的数据点进行人工标记。然而,使用该工具对时间序列进行标记时,需要人工在时间序列上划出时间段,来标记该时间段是正常的还是异常的。图5所示的标记工具可以辅助获取异常的时间序列样本,但是这需要标记人员针对每一条时间序列,查看每一天的曲线图,然后手工划线得到异常时间段和正常时间段,进而获得时间序列的正常样本和异常样本。这种方式所需要的标记时间较长,获取样本的速度较慢,构建数据集的效率较低。
本发明的实施例提供了一种构建数据集的方法,其可以在一定程度上弥补图5所示的标记工具的上述不足。图6示意性示出了可以应用本发明一个实施例的示例场景600。
如图6所示,计算设备610上可以部署有数据集构建装置611和标注平台612。计算设备610可以是诸如台式计算机、膝上型计算机、平板、智能电话、可穿戴设备等的任何具有显示和计算能力的设备,或者也可以是具有显示或计算能力的设备的组合,例如显示器和服务器的组合。标注平台612上可以包括预设的异常检测算法,其可以访问时间序列数据库620中的时间序列,使用异常检测算法判断该时间序列是否出现异常,并向用户630呈现异常时间序列片段。用户630可以通过标注平台612的标记界面标记所呈现的时间序列的属性,例如将其标记为正样本或负样本。例如,用户630可以通过图3所示的界面300进行标记,界面300呈现了六个告警的时间序列,并在每一个的下方提供两个按钮以供选择,来将该时间序列标记为正样本或负样本。示例性地,用户630可以将正常时间序列标记为正样本,并将异常时间序列标记为负样本,或者反之亦可,本发明对此不做具体限定。此外,在标注平台612上不包括预设的异常检测算法时,用户630可以手动寻找一个或多个异常的时间序列或正常的时间序列,并完成标记。
用户630完成对当前时间序列的标记后,数据集构建装置611可以基于所标记的时间序列在时间序列数据库620中搜索相似的时间序列,并通过标注平台612将搜索到的时间序列呈现给用户630来进行标记。例如在图7所示的界面700中,界面700中呈现了四个相似的异常时间序列710、720、730、740,并在每一个的下方提供两个按钮以供选择,来将该时间序列标记为正样本或负样本。如此,在用户完成对一个样本的标记之后,数据集构建装置可以自动搜索时间序列数据库中的其他相似时间序列,并提供给用户进行批量标记,标记后的样本可以汇入数据集640。用户可以不再需要逐一查看时间序列来手动寻找这些相似时间序列,而只需判断所呈现的时间序列的属性并完成标记。这可以大大节省标记时间,并大大提高数据集640的构建效率。基于这种搜索机制,也可以较快地删除或修正一批标记错误的样本,从而有助于提高所构建的数据集640的准确性。此外,数据集构建装置611还可以基于所标记的时间序列,对其历史时间序列中的某些数据点进行调整,来构建异常时间序列,并提供给用户630进行标记。如此,可以增加可供标记的异常时间序列的数量,并增加所构建的数据集640中的样本数量。
所构建的数据集640可以用于训练异常指标检测网络650,经训练的异常指标检测网络650可以在标注平台612中使用,来检测时间序列是否出现异常。如此循环,可以逐步提高标注平台的准确性。
图8示意性示出了根据本发明一个实施例的构建数据集的方法800的示例流程图。
在步骤810中,获取经标记的第一时间序列。示例性地,标注平台612可以基于预设检测算法(例如阈值检测)向用户显示被判断为出现异常的时间序列片段,用户可以在诸如图3所示的界面300中查看所显示的时间序列片段,并判断其是否为异常或者是否为需要告警的异常,也即将其标记为正样本或负样本,来获取经标记的第一时间序列。或者,标注平台612可以不存在预设检测算法,而简单地向用户显示某个或若干个时间序列,用户可以手动查看这些时间序列,并将其认为有价值的片段标记为正样本或负样本,来获取经标记的第一时间序列。又或者,可以直接使用预先标记好的样本,作为经标记的第一时间序列。
在步骤820中,对第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与第一时间序列相匹配的一个或多个时间序列作为第二时间序列。示例性地,在获取到经标记的第一时间序列后(无论是标记为正样本或是负样本),该方法可以自动在时间序列库(诸如图6所示的时间序列数据库620)中寻找与该第一时间序列相匹配的一个或多个时间序列作为第二时间序列,并加入到待标记的候选集中。
在一些实施例中,上述对第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:基于预定时间窗,对第一时间序列和时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;通过计算加窗第一时间序列和各个加窗其他时间序列的相似度来对第一时间序列与时间序列库中的各个其他时间序列进行匹配。
示例性地,一条时间序列可能具有较长的时间长度,例如半天、一天等,而出现异常的时间序列片段(也即告警的时间序列)一般只具有很短的时间长度,例如3分钟、5分钟等。由于对时间序列是否存在异常的判断需要考虑出现异常前的时间序列的趋势,而不能只凭借出现异常的时间处的数据值来判断,因此在对时间序列进行匹配时,需要考虑大于异常片段或告警片段的时间段的时间长度。然而,对整条时间序列进行匹配会耗费过多不必要的计算资源,并且可能由于所考虑的时间长度过长而模糊掉需要关注的异常片段或告警片段对应的时间段。因此,可以选择适当的时间窗,来对第一时间序列和时间序列库中的各个其他时间序列进行加窗。可选地,窗口长度可以选择为n,当第一时间序列中出现异常的时间序列为(t1,t2)时,所选择的时间窗为(t2-n+1,t2)。例如,假设第一时间序列中出现异常的时段为9:50-10:00,所选择的时间窗可以为7:00-10:00。
示例性地,可以通过计算加窗第一时间序列和各个加窗其他时间序列的相似度来对其进行匹配。可选地,相似度可以包括时间序列的皮尔逊相似度或时间序列的距离。
下面,通过一具体示例来对上述过程进行说明。假设经标记的第一时间序列为时间序列X,当前与之进行匹配的时间序列为时间序列Y。时间序列X的告警时段为t1~t2,选择窗口长度n,则考虑X的子序列
Figure RE-802181DEST_PATH_IMAGE001
和Y的子序列
Figure RE-719322DEST_PATH_IMAGE002
。然后可以计算两个子序列的相似度,当相似度满足预设要求时,可以认为Y是与X相匹配的时间序列,并将Y加入到待标记的候选集中。上述相似度可以基于皮尔逊(Pearson)相似度或距离来计算。
皮尔逊相似度的计算方法如下。对于两条时间序列
Figure RE-686010DEST_PATH_IMAGE003
Figure RE-81219DEST_PATH_IMAGE004
而言,可以根据以下公式(1)来计算X与Y之间的皮尔逊相似度:
Figure RE-895591DEST_PATH_IMAGE005
(1)
其中,
Figure RE-655737DEST_PATH_IMAGE006
表示X和Y之间的皮尔逊系数。如果
Figure RE-922770DEST_PATH_IMAGE006
越接近1,就表示X与Y之间是正相关的,即X和Y越相似;如果
Figure RE-121670DEST_PATH_IMAGE006
越接近-1,就表示X与Y是反相关的。因此,在基于皮尔逊相似度对第一时间序列和其他时间序列进行匹配时,可以将皮尔逊相似度大于某个预设阈值的时间序列选择为相匹配的时间序列。
两条时间序列距离的计算方法如下。对于两条时间序列为
Figure RE-977500DEST_PATH_IMAGE007
Figure RE-970863DEST_PATH_IMAGE008
,可以通过
Figure RE-725193DEST_PATH_IMAGE009
范数来计算它们之间的距离,计算公式如下:
Figure RE-399888DEST_PATH_IMAGE010
(2)
Figure RE-923273DEST_PATH_IMAGE012
(3)
Figure RE-353117DEST_PATH_IMAGE014
(4)
Figure RE-781694DEST_PATH_IMAGE015
越小,表示X和Y距离越近,两者越相似;否则,表示X和Y距离很远,两者越不相似。因此在基于距离对第一时间序列和其他时间序列进行匹配时,可以将距离小于某个预设阈值的时间序列选择为相匹配的时间序列。当然,也可以使用其他的距离计算方法,例如余弦距离、欧氏距离等。
由上述描述可知,上述实施例中的匹配算法的时间复杂度为O(nm),其中n表示参与计算的时间序列的长度,m表示时间序列数据库中时间序列的条数。
在一些实施例中,上述对第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:基于预定时间窗,对第一时间序列和时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;分别对加窗第一时间序列和各个加窗其他时间序列进行分段聚合拟合,得到经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列;通过计算经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列的相似度来对第一时间序列与时间序列库中的各个其他时间序列进行匹配。
与前述实施例相比,这里的实施例仅增加了分段聚合拟合处理。因此,在此只对该处理进行详细描述,而省略对其他操作的描述。对于长度为n的时间序列
Figure RE-56817DEST_PATH_IMAGE016
而言,可以用一条长度为N(N<n)的新的时间序列
Figure RE-700288DEST_PATH_IMAGE017
来近似,其计算公式为:
Figure RE-973137DEST_PATH_IMAGE019
(5)
其中,
Figure RE-702059DEST_PATH_IMAGE020
就是长度为N的时间序列。类似地,对于长度为n的时间序列
Figure RE-780874DEST_PATH_IMAGE021
,也可以得到一条新的时间序列
Figure RE-468731DEST_PATH_IMAGE022
。然后,可以计算
Figure RE-240378DEST_PATH_IMAGE017
Figure RE-191017DEST_PATH_IMAGE023
的相似度作为上述X和Y的相似度。图9示出了根据本发明一个实施例对时间序列进行分段聚合拟合的示意图900,其中实线曲线910表示原始时间序列,虚线曲线920表示经分段聚合拟合的时间序列。可见,通过分段聚合拟合,可以减小参与相似度计算的时间序列的长度,从而降低相似度计算的时间复杂度。并且,通过适当选择分段聚合拟合后的时间序列的长度,可以有助于消除原始时间序列中的毛刺,从而有助于将更多的关注度放到时间序列的整体趋势上,和提高匹配的准确性。
在步骤830中,对第二时间序列进行标记,得到第二时间序列的属性。示例性地,可以通过诸如图7所示的界面700来向用户显示待标记的候选集中的时间序列(即第二时间序列)。例如,在显示第二时间序列时,可以使用文字、图形或特定颜色标识其中的与异常时段或告警时段(诸如前文所述的t1~t2)。用户可以查看所显示的时间序列并判断该异常时段或告警时段是否异常,然后选择将所显示的时间序列标记为正样本或负样本。随后,系统可以响应于用户的选择来标记相应时间序列的属性。
在步骤840中,基于第二时间序列和第二时间序列的属性构建该数据集。示例性地,第二时间序列及其属性可以被视为样本和样本标签,其可以被存入所构建的数据集以供后续使用。
在方法800的另一示例实施例中,还包括步骤850、860和870。当暂时无法搜索到相匹配的时间序列时,可以使用该方法来生成必要的样本数据。该方法可以针对已有时间序列随机在一些时间段进行异常样本的构造,再对其进行展示,以供用户进行标记,从而增加异常样本的数量。该方法的具体步骤如下。
在步骤850中,基于预定幅值调整与第一时间序列相对应的历史时间序列的各个数据点的值,调整后的历史时间序列作为第三时间序列。一般而言,被调整的历史时间序列通常是正常的时间序列。
在一些实施例中,基于预定幅值调整与第一时间序列相对应的历史时间序列的各个数据点的值包括:基于预定长度截取历史时间序列;基于预定幅值调整截取后的历史时间序列的各个数据点的值。
示例性地,图10A示出了一组原始时间序列,包括今天、昨天、一周前的时间序列。这组时间序列可以是某个经标记的时间序列(即第一时间序列)的历史时间序列。针对这些时间序列中的一个或多个,可以随机选择一些时间段
Figure RE-11205DEST_PATH_IMAGE024
,并调整这些时间段中的各个数据点的数据值,来生成异常的时间序列片段。例如,所选择的时间段长度可以为3~5分钟、20~30分钟等,本发明对此不作限定。
在一些实施例中,上述调整可以包括,基于预定幅值增大或减小与第一时间序列相对应的历史时间序列的各个数据点的值。以及,预定幅值可以选自区间[0.05, 0.50]或[0.05, 1.0]的区间。
示例性地,可以从[0.05, 0.50]或[0.05, 1.0]的区间中随机选择数字r,将所选择的时间段中的时间序列的数据点的值向上或向下波动比例r。例如,假设原始时间序列取值是
Figure RE-363689DEST_PATH_IMAGE025
,那么向上波动之后的时间序列在该时间戳
Figure RE-306237DEST_PATH_IMAGE026
的取值就是
Figure RE-931123DEST_PATH_IMAGE027
;而向下波动之后的时间序列在该时间戳
Figure RE-351740DEST_PATH_IMAGE026
的取值就是
Figure RE-824309DEST_PATH_IMAGE028
。图10B中示意性示出了调整后的时间序列,其中一条历史时间序列中的部分时间段内的数据值被向下波动了一定比例。六个方框1010示出了所选择的若干个时间段,这些时间段中的数据值被如图所示地向下波动。调整后的时间序列也可以类似地加入到待标记的候选集中。
在步骤860中,对第三时间序列进行标记,得到第三时间序列的属性。该步骤与上述步骤830基本一致,在此不再赘述。
在步骤870中,基于第三时间序列和第三时间序列的属性扩充数据集。该步骤与上述步骤840基本一致。示例性地,第三时间序列及其属性可以被视为样本和样本标签,其可以被存入所构建的数据集以供后续使用。
图11示意性示出了根据本发明一个实施例的用于构建数据集的装置611的示例框图。如图12所示,数据集构建装置611包括获取模块6111、匹配模块6112、标记模块6113和构建模块6114。获取模块6111被配置成获取经标记的第一时间序列。匹配模块6112被配置成对第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与第一时间序列相匹配的一个或多个时间序列作为第二时间序列。标记模块6113被配置成对第二时间序列进行标记,得到第二时间序列的属性。构建模块6114被配置成基于第二时间序列和第二时间序列的属性构建数据集。
应理解,这些模块可以由软件、固件、硬件或其组合来实现,后文将对此进一步描述。此外,该装置的各个模块的功能和优势已参照方法800和1000进行了详细描述,在此不再重复。
图12示意性示出了根据本发明一个实施例的异常指标检测网络的训练方法1300的示例流程图。
在步骤1210中,获取用于异常指标检测网络的时间序列库。示例性地,该时间序列库可以包括一个或多个业务线的在不同时间(例如不同日期)获得的多条时间序列,例如一个或多个应用程序的请求数、在线用户数、调用失败数等指标对应的时间序列。
在步骤1220中,基于所获取的时间序列库,使用参照图8描述的构建数据集的方法来构造训练数据集。
在步骤1230中,使用数据集来训练异常指标检测网络以检测异常指标。
示例性地,所训练的异常指标检测网络可以用于检测异常指标,可选地,该异常指标检测网络可以在标注平台612中使用,以监测时间序列中是否出现异常,并对异常的时间序列片段进行告警。但是,应理解,根据本发明一个实施例提供的构建数据集的方法构建的数据集还可以用于诸如告警收敛、告警屏蔽等的其他功能。例如,可以基于所标记的样本,来将后续出现的相似时间序列收敛为同一告警,以减少告警数量,避免相关人员疲于应对大量告警而忽略重要告警。或者,例如,可以基于某样本被标记为正常时间序列,而不再将相似的时间序列判断为异常,从而屏蔽对类似异常的告警,从而可以用于屏蔽不太关注的告警。
图13示意性示出了根据本发明一个实施例的异常指标检测方法1300的示例流程图。
在步骤1310中,获取时间序列,时间序列包括目标数据点,目标数据点包括时间序列中在待测时间点上报的指标值。
在步骤1320中,将时间序列输入到异常指标检测网络中,异常指标检测网络对时间序列进行处理得到针对目标数据点的异常检测结果,根据目标数据点的异常检测结果确定在待测时间点上报的指标是否异常,其中异常检测模型通过参照图12所描述的训练方法进行训练得到。
此外,可选地,该方法1300还包括步骤1330。在步骤1330中,响应于异常检测结果为时间序列异常而发送告警消息。告警消息可以包括下列中的至少一个:短信告警消息、应用程序告警消息和小程序告警消息。
图14示意性示出了一个示例系统1400,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备1410。
计算设备1410可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其他合适的计算设备或计算系统,其范围从具有大量存储器和处理器资源的全资源设备到具有有限的存储器和/或处理资源的低资源设备。在一些实施例中,上面关于图12描述的数据集构建装置611可以采取计算设备1410的形式。
如图所示,示例计算设备1410包括彼此通信耦合的处理系统1411、一个或多个计算机可读介质1412以及一个或多个I/O接口1413。尽管图中未示出,但是计算设备1410还可以包括总线或其他数据和命令传送系统,其将各种组件彼此耦合。总线可以包括不同总线结构的任何一个或组合,所述总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或局部总线。所述总线还涵盖了各种其他示例形式,例如控制和数据线。
处理系统1411代表使用硬件执行一个或多个操作的功能。因此,处理系统1411被图示为包括可被配置为处理器、功能块等的硬件元件1414。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件1414不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质1412被图示为包括存储器/存储装置1415。存储器/存储装置1415表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1415可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置1415可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。示例性地,存储器/存储装置1415可以包括图6所示的时间序列数据库620,以及也可以用于存储在数据集构建过程中生成的候选集、所构建的数据集等。计算机可读介质1412可以以下面进一步描述的各种其他方式进行配置。
一个或多个输入/输出接口1413代表允许用户使用各种输入设备向计算设备1410键入命令和信息并且还允许使用各种输出设备将信息呈现给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)、网卡、接收机等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、触觉响应设备、网卡、发射机等。示例性地,在应用数据集构建方法700、900的过程中,可以通过诸如显示器的输出设备向用户显示待标记的时间序列,以及用户可以使用诸如鼠标、触摸屏等的输入设备对所显示的时间序列进行标记。
计算设备1410还包括数据集构建策略1416。元学习策略1416可以作为计算程序指令存储在存储器/存储装置1415中。元学习策略1416可以连同处理系统1411一起实现关于图12描述的数据集构建装置611的各个模块的全部功能。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1410访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1410的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其他传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被(以这样的方式)设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其他无线介质的无线介质。
如前所述,硬件元件1414和计算机可读介质1412代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其他实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其他程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1414体现的一个或多个指令和/或逻辑。计算设备1410可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件1414,可以至少部分地以硬件来实现将模块实现为可由计算设备1410作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备1410和/或处理系统1411)可执行/可操作以实现本文所述的技术、模块和示例。
本文描述的技术可以由计算设备1410的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。计算设备1410的功能还可以通过使用分布式系统、诸如通过如下所述的平台1430在“云”1420上全部或部分地实现。
云1420包括和/或代表用于资源1432的平台1430。平台1430抽象云1420的硬件(例如,服务器)和软件资源的底层功能。资源1432可以包括在远离计算设备1410的服务器上执行计算机处理时可以使用的应用和/或数据。资源1432还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的客户网络提供的服务。
平台1430可以抽象资源和功能以将计算设备1410与其他计算设备连接。平台1430还可以用于抽象资源的分级以提供遇到的对于经由平台1430实现的资源1432的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统1400内。例如,功能可以部分地在计算设备1410上以及通过抽象云1420的功能的平台1430来实现。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且本文使用的词语“一”或“一个”不排除多个。虽然某些特征记载在相互不同的从属权利要求中,但是仅仅这个事实并不表明这些特征的组合不能被使用或实现。

Claims (15)

1.一种用于构建数据集的方法,所述方法包括:
获取经标记的第一时间序列;
对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与所述第一时间序列相匹配的一个或多个时间序列作为第二时间序列;
对所述第二时间序列进行标记,得到所述第二时间序列的属性;和
基于所述第二时间序列和所述第二时间序列的属性构建所述数据集。
2.如权利要求1所述的方法,还包括:
基于预定幅值调整与所述第一时间序列相对应的历史时间序列的各个数据点的值,调整后的所述历史时间序列作为第三时间序列;
对所述第三时间序列进行标记,得到所述第三时间序列的属性;和
基于所述第三时间序列和所述第三时间序列的属性扩充所述数据集。
3.如权利要求1或2所述的方法,所述对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:
基于预定时间窗,对所述第一时间序列和所述时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;
通过计算所述加窗第一时间序列和所述各个加窗其他时间序列的相似度来对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配。
4.如权利要求1或2所述的方法,所述对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配包括:
基于预定时间窗,对所述第一时间序列和所述时间序列库中的各个其他时间序列加窗,得到加窗第一时间序列和各个加窗其他时间序列;
分别对所述加窗第一时间序列和所述各个加窗其他时间序列进行分段聚合拟合,得到经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列;
通过计算所述经拟合的加窗第一时间序列和经拟合的各个加窗其他时间序列的相似度来对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配。
5.如权利要求3所述的方法,其中所述相似度包括所述时间序列的皮尔逊相似度或所述时间序列的距离。
6.如权利要求2所述的方法,所述基于预定幅值调整与所述第一时间序列相对应的历史时间序列的各个数据点的值包括:
基于预定长度截取所述历史时间序列;
基于预定幅值调整截取后的所述历史时间序列的各个数据点的值。
7.如权利要求2或6所述的方法,所述基于预定幅值调整与所述第一时间序列相对应的历史时间序列的各个数据点的值包括:
基于预定幅值增大或减小与所述第一时间序列相对应的历史时间序列的各个数据点的值。
8. 如权利要求2或6所述的方法,所述预定幅值选自区间[0.05, 0.50]或[0.05, 1.0]的区间。
9.一种异常指标检测网络的训练方法,包括:
获取用于所述异常指标检测网络的时间序列库,
基于所获取的时间序列库,使用如权利要求1-8中任一项所述的构建数据集的方法来构造训练数据集,
使用所述数据集来训练异常指标检测网络以检测异常指标。
10.一种异常指标检测方法,包括:
获取时间序列,所述时间序列包括目标数据点,所述目标数据点包括所述时间序列中在待测时间点上报的指标值;
将所述时间序列输入到异常指标检测网络中,所述异常指标检测网络对所述时间序列进行处理得到针对所述目标数据点的异常检测结果,根据所述目标数据点的异常检测结果确定在所述待测时间点上报的指标是否异常,其中所述异常检测模型通过如权利要求9所述的方法进行训练得到。
11.如权利要求10所述的方法,还包括:
响应于所述异常检测结果为所述时间序列异常而发送告警消息。
12.如权利要求11所述的方法,其中所述告警消息包括下列中的至少一个:短信告警消息、应用程序告警消息和小程序告警消息。
13.一种用于构建数据集的装置,所述装置包括:
获取模块,被配置成获取经标记的第一时间序列;
匹配模块,被配置成对所述第一时间序列与时间序列库中的各个其他时间序列进行匹配,得到与所述第一时间序列相匹配的一个或多个时间序列作为第二时间序列;
标记模块,被配置成对所述第二时间序列进行标记,得到所述第二时间序列的属性;
构建模块,被配置成基于所述第二时间序列和所述第二时间序列的属性构建所述数据集。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。
CN202010139669.4A 2020-03-03 2020-03-03 数据集构建方法、装置和存储介质及异常指标检测方法 Active CN111291096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139669.4A CN111291096B (zh) 2020-03-03 2020-03-03 数据集构建方法、装置和存储介质及异常指标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139669.4A CN111291096B (zh) 2020-03-03 2020-03-03 数据集构建方法、装置和存储介质及异常指标检测方法

Publications (2)

Publication Number Publication Date
CN111291096A true CN111291096A (zh) 2020-06-16
CN111291096B CN111291096B (zh) 2023-07-28

Family

ID=71026975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139669.4A Active CN111291096B (zh) 2020-03-03 2020-03-03 数据集构建方法、装置和存储介质及异常指标检测方法

Country Status (1)

Country Link
CN (1) CN111291096B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465604A (zh) * 2020-12-14 2021-03-09 深圳依时货拉拉科技有限公司 一种分发订单的方法、装置、计算机设备及计算机可读存储介质
CN113378967A (zh) * 2021-06-28 2021-09-10 哈尔滨工业大学 一种基于卷积神经网络与迁移学习的结构健康监测多元数据异常诊断方法
CN113591377A (zh) * 2021-07-23 2021-11-02 广州新科佳都科技有限公司 一种基于机理分析的站台门异常检测方法及装置
CN116113942A (zh) * 2020-07-23 2023-05-12 Pdf决策公司 依据工艺踪迹预测装备故障模式

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119100A1 (en) * 2009-10-20 2011-05-19 Jan Matthias Ruhl Method and System for Displaying Anomalies in Time Series Data
CN104572886A (zh) * 2014-12-23 2015-04-29 浙江大学 基于k线图表示的金融时间序列相似性查询方法
WO2018053536A2 (en) * 2016-09-19 2018-03-22 Applied Materials, Inc. Time-series fault detection, fault classification, and transition analysis using a k-nearest-neighbor and logistic regression approach
CN108460118A (zh) * 2018-02-13 2018-08-28 清华大学 基于近邻的时间序列数据修复方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109871401A (zh) * 2018-12-26 2019-06-11 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559420B (zh) * 2013-11-20 2016-09-28 苏州大学 一种异常检测训练集的构建方法及装置
CN107133343B (zh) * 2017-05-19 2018-04-13 哈工大大数据产业有限公司 基于时间序列近似匹配的大数据异常状态检测方法及装置
CN108063698B (zh) * 2017-12-15 2020-05-12 东软集团股份有限公司 设备异常检测方法和装置、及存储介质
CN108846058A (zh) * 2018-06-01 2018-11-20 阿里巴巴集团控股有限公司 一种时间序列中的异常数据校正方法、装置及处理设备
CN109460398B (zh) * 2018-10-12 2021-03-12 深圳绿米联创科技有限公司 时间序列数据的补全方法、装置及电子设备
CN110009371B (zh) * 2018-12-27 2023-06-20 创新先进技术有限公司 异常行为确定方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119100A1 (en) * 2009-10-20 2011-05-19 Jan Matthias Ruhl Method and System for Displaying Anomalies in Time Series Data
CN104572886A (zh) * 2014-12-23 2015-04-29 浙江大学 基于k线图表示的金融时间序列相似性查询方法
WO2018053536A2 (en) * 2016-09-19 2018-03-22 Applied Materials, Inc. Time-series fault detection, fault classification, and transition analysis using a k-nearest-neighbor and logistic regression approach
CN108460118A (zh) * 2018-02-13 2018-08-28 清华大学 基于近邻的时间序列数据修复方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109871401A (zh) * 2018-12-26 2019-06-11 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
单中南等: "时间序列半监督分类综述", 《河北省科学院学报》 *
杨锋等: "LVS:高效的时间序列上的语义窗口查询算法", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116113942A (zh) * 2020-07-23 2023-05-12 Pdf决策公司 依据工艺踪迹预测装备故障模式
CN112465604A (zh) * 2020-12-14 2021-03-09 深圳依时货拉拉科技有限公司 一种分发订单的方法、装置、计算机设备及计算机可读存储介质
CN113378967A (zh) * 2021-06-28 2021-09-10 哈尔滨工业大学 一种基于卷积神经网络与迁移学习的结构健康监测多元数据异常诊断方法
CN113378967B (zh) * 2021-06-28 2022-11-08 哈尔滨工业大学 一种基于卷积神经网络与迁移学习的结构健康监测多元数据异常诊断方法
CN113591377A (zh) * 2021-07-23 2021-11-02 广州新科佳都科技有限公司 一种基于机理分析的站台门异常检测方法及装置
CN113591377B (zh) * 2021-07-23 2023-01-03 广州新科佳都科技有限公司 一种基于机理分析的站台门异常检测方法及装置

Also Published As

Publication number Publication date
CN111291096B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111178456B (zh) 异常指标检测方法、装置、计算机设备和存储介质
Yang et al. Semi-supervised log-based anomaly detection via probabilistic label estimation
US11449712B2 (en) Anomaly detection and reporting for machine learning models
CN111291096A (zh) 数据集构建方法、装置和存储介质及异常指标检测方法
US11037060B2 (en) Analyzing sequence data using neural networks
US20190012553A1 (en) Diagnostic device, diagnosis method and computer program
WO2020207167A1 (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN115577114A (zh) 一种基于时序知识图谱的事件检测方法和装置
Su et al. Detecting outlier machine instances through gaussian mixture variational autoencoder with one dimensional cnn
US20220107858A1 (en) Methods and systems for multi-resource outage detection for a system of networked computing devices and root cause identification
US11847599B1 (en) Computing system for automated evaluation of process workflows
US20240143430A1 (en) Extended dynamic intelligent log analysis tool
US11996987B2 (en) Real-time diagnostic monitoring and connectivity issue resolution by a machine-learning data model
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
CN116701031A (zh) 一种微服务系统中的根因模型训练方法、分析方法及装置
e Oliveira et al. On the influence of overlap in automatic root cause analysis in manufacturing
CN115118574A (zh) 一种数据处理方法、装置及存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
EP4187472A1 (en) Method and apparatus for detecting false transaction orders
CN112767935A (zh) 唤醒指标监测方法、装置及电子设备
WO2024044652A1 (en) Automatic selection of data for target monitoring
CN112348615A (zh) 用于审核信息的方法和装置
Yang et al. A service selection framework for anomaly detection in IoT stream data
US20230136094A1 (en) Automatic, personalized, and explainable approach for measuring, monitoring, and improving data efficacy
CN112764957A (zh) 应用故障定界方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024865

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant