CN111597247A - 一种数据异常分析方法、装置及存储介质 - Google Patents

一种数据异常分析方法、装置及存储介质 Download PDF

Info

Publication number
CN111597247A
CN111597247A CN202010505227.7A CN202010505227A CN111597247A CN 111597247 A CN111597247 A CN 111597247A CN 202010505227 A CN202010505227 A CN 202010505227A CN 111597247 A CN111597247 A CN 111597247A
Authority
CN
China
Prior art keywords
reconciliation
data
analysis result
analysis
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010505227.7A
Other languages
English (en)
Inventor
黄锦鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010505227.7A priority Critical patent/CN111597247A/zh
Publication of CN111597247A publication Critical patent/CN111597247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种数据异常分析方法、装置及存储介质,该方法包括:获取目标操作行为的历史操作数据;基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果;所述对账分析模型基于样本操作数据进行机器学习训练得到;获取所述目标操作行为在所述目标时间内的真实操作数据;基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果。本发明能够提高数据对账的效率和智能性,降低人工成本,并实现根据历史数据预测未来数据变化趋势,主动发现数据中的异常,提高数据监控的质量、效率和准确率。

Description

一种数据异常分析方法、装置及存储介质
技术领域
本发明属于数据对账技术领域,具体涉及一种数据异常分析方法、装置及存储介质。
背景技术
数据对账主要是针对数据系统中数据消息流通时的收发消息进行核对和校验,以验证数据消息流通的正确性和可靠性。
现有技术主要采用如图1所示的基于规则策略的传统对账方式,该传统对账方式首先定义字段规则、单表规则、多表规则等以形成规则模版,当然也支持结构化查询语言(Structured Query Language,SQL)或脚本的自定规则,接着稽核规则和对账结果,当满足规则时触发相应的告警。
基于规则策略的传统对账,只要事先设定阈值建立规则,就可以实现对账,操作简单。但需要预先明确阈值才可生成规则,常需多次手动调整阈值,智能性较低;且传统对账需要人工分析数据,才可生成规则并实现对账,人工成本高且对账效率低;此外,传统对账无法根据历史数据预测未来数据变化趋势主动发现数据中的异常(比如,异常点和离群值)。
发明内容
为了提高数据对账的效率和智能性,降低人工成本,并实现根据历史数据预测未来数据变化趋势,主动发现数据中的异常,本发明提出一种数据异常分析方法、装置及存储介质。
一方面,本发明提出了一种数据异常分析方法,所述方法包括:
获取目标操作行为的历史操作数据;
基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果;所述对账分析模型基于样本操作数据进行机器学习训练得到;
获取所述目标操作行为在所述目标时间内的真实操作数据;
基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果。
另一方面,本发明提出了一种数据异常分析装置,所述装置包括:
历史操作数据获取模块,用于获取目标操作行为的历史操作数据;
对账分析结果获取模块,用于基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果;所述对账分析模型基于样本操作数据进行机器学习训练得到;
真实操作数据获取模块,用于获取所述目标操作行为在所述目标时间内的真实操作数据;
异常数据分析结果确定模块,用于基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果。
另一方面,本发明提出了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的数据异常分析方法。
另一方面,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的数据异常分析方法。
本发明实施例提出一种数据异常分析方法、装置及存储介质,使用基于机器学习训练得到的对账分析模型对历史操作数据进行对账分析处理,得到目标操作行为在未来一段时间内(即目标时间内)的对账分析结果,当系统运行到目标时间内时,可以获取到目标操作行为在该目标时间内的真实操作数据,接着对比真实操作数据和对账分析结果,以确定目标操作行为在所述目标时间内的异常数据分析结果(比如,异常点和离群值)。可见,使用基于机器学习训练得到的对账分析模型的智能对账,不需要预先设置阈值即可产生对账功能,提高数据对账的智能性,减少人工干预,人工成本低且对账效率高,同时能够能根据历史数据预测未来数据变化趋势,主动发现数据中的异常。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是现有技术中的基于规则策略的传统对账方式的流程示意图。
图2是本发明实施例提供的一种数据异常分析系统的架构图。
图3是本发明实施例提供的一种数据异常分析方法的实施环境示意图。
图4是本发明实施例提供的一种数据异常分析的流程示意图。
图5是本发明实施例提供的另一种数据异常分析的流程示意图。
图6是本发明实施例提供的工单操作数据的一种数据结构。
图7是本发明实施例提供的将图6中的数据导入存储库中的部分数据结构。
图8是本发明实施例提供的可视化界面的一种结构示意图。
图9是本发明实施例提供的使用个数统计函数训练得到的总量对账分析模型对图6中的历史操作数据进行分析,预测未来数据总量上涨或下降趋势的一种结果示意图。
图10是本发明实施例提供的另一种数据异常分析的流程示意图。
图11是本发明实施例提供的另一种数据异常分析的流程示意图。
图12是本发明实施例提供的构建所述明细对账分析模型的一种流程示意图。
图13是本发明实施例提供的区块链系统的一个可选的结构示意图。
图14是本发明实施例提供的区块结构一个可选的示意图。
图15是本发明实施例提供的一种数据异常分析装置的结构示意图。
图16是本发明实施例提供的一种服务器结构示意图。
具体实施方式
随着人工智能(Artificial Intelligence,AI)的研究和进步,AI在多个领域展开研究和应用。AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
具体地,本发明实施例提供的方案涉及人工智能的机器学习(Machine Learning,ML)技术。ML是门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML通常包括深度学习、增强学习、迁移学习、归纳学习、示教学习等技术。
具体地,本发明实施例提供的基于对账分析模型对历史操作数据进行对账分析处理,得到目标操作行为在目标时间内的对账分析结果的过程、基于总量对账分析模型对历史操作数据进行总量对账分析处理,得到目标操作行为在目标时间内的总量对账分析结果的过程、基于明细对账分析模型对历史操作数据进行至少一个维度的明细对账分析,得到目标操作行为在目标时间内的至少一个明细对账分析结果的过程,涉及ML中的深度学习技术等。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。具体地,云技术包括安全、大数据、数据库、行业应用、网络、存储、管理工具、计算等技术领域。
具体地,本发明实施例涉及云技术中的管理工具技术领域。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图2是本发明实施例提供的一种数据异常分析系统的架构图,该数据异常分析系统可以作为数据异常分析方法的一种实施环境。如图2所示,该系统至少可以包括:数据源、数据采集器(Beats)、开源的服务器端数据处理管道(Logstash)、搜索与数据分析引擎(Elasticsearch)、报警模块和可视化模块(Kibana)。
具体地,数据源用于存储需要进行数据对账的数据。
具体地,Beats为轻量型的单一功能数据采集器,用于从需要进行数据对账的数据源中采集数据。
具体地,Logstash用于收集Beats上报的数据,并用于对收集到的数据进行数据处理,如过滤脏数据或进行数据转换等,之后将脏数据过滤或数据转换后的数据发送到合适的“存储库”。
具体地,本发明实施例中可以使用Elasticsearch作为“存储库”,其中,Elasticsearch既可以包含实现基于规则策略的传统对账的传统对账模块(Watcher模块),又可以包含实现基于机器学习的智能对账模块(Machine Learning模块)。其中,MachineLearning模块包括但不限于有监督学习模块、非监督学习模块或半监督学习模块。以非监督学习模块为例,则Machine Learning模块可以为非监督型贝叶斯学派的机器学习,其有着17个算法模型,能够使用时序数据建立模型跑起单指标、多指标和种群等任务以发现数据中的规律,从而检测数据中的异常点和离群值进行告警,并基于历史数据预测未来趋势,具有无须大费周章即可构建卓越机器学习算法模型的优点。
具体地,Machine Learning模块可以进一步包括索引模块(Index)、数据反馈模块(Datafeeds)和检测模块(Detector),Index可以用于存储原始数据上报的操作数据和Detector的分析结果,Datafeeds可以用于根据时间窗口(span)的范围,获取操作数据,比如,获取时间窗口为5分钟的操作数据量或获取时间窗口为10分钟的操作数据量等。Detector可以用于对时间窗口内的操作数据进行模型训练,并根据训练好的模型对需要进行对账的数据进行对账,得到分析结果,并将分析结果存储在Index中。具体地,Watcher模块可以包含SQL或脚本的自定规则。
具体地,本发明实施例中的数据对账可以包括总量对账和明细对账,总量对账可以包括对操作数据的总数量进行对账分析,比如,操作数据对应的请求的总数量、成功的操作请求的总数量或失败的操作请求的总数量等。明细对账可以包括对操作数据对应的一条条操作明细记录进行对账分析,该操作明细记录可以包括但不限于操作数据值、操作时间、操作内容、网际互联协议(Internet Protocol,IP)、用户信息等。其中,总量对账可以基于机器学习的Machine Learning模块来实现,明细对账可以是Machine Learning模块和Watcher模块共同作用的结果。
具体地,Kibana用于进行管理追踪数据对账的效果。
具体地,报警模块用于对异常数据进行报警,以及时通知业务方。
需要说明的是,图2仅仅是一种示例。
图3是本发明实施例提供的一种数据异常分析方法的实施环境示意图。如图3所示,该实施环境至少可以包括终端01和服务器02,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。比如,终端01通过有线或无线通信方式向服务器02上传相应的操作数据等,服务器02通过有线或无线通信方式向终端01展示将该操作数据的异常数据分析结果等。
具体地,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
具体地,服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
需要说明的是,图3仅仅是一种示例。
图4是本发明实施例提供的一种数据异常分析方法的流程示意图。本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。本发明实施例提供的数据异常分析方法可以应用于ETL过程中或数据仓库建设中的数据对账,当然也可以用于包含各种基于规则策略传统对账的数据治理系统中的数据对账,其中,ETL是Extract-Transform-Load的缩写,其用来描述将数据从来源端经过萃取、转换、加载至目的端的过程。具体的如图4所示,该方法可以包括:
S101.获取目标操作行为的历史操作数据。
本发明实施例中,目标操作行为可以是终端的用户消费图2中的数据源所产生的各种消费行为。
在需要通过历史操作数据预测未来数据变化趋势,主动发现异常数据分析结果时,可以使用图2中的Beats从数据源中获取目标操作行为在某个历史时间段内的历史操作数据,接着使用图2中的Logstash收集Beats上报的历史操作数据,并对该历史操作数据进行脏数据过滤或数据转换处理。
本发明实施例中,脏数据过滤是指,对数据进行重新审核和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据的一致性,便于对数据进行下一步操作。在本发明实施例中,对历史操作数据进行审核检验,可以采用合适的过滤方法,例如随机插补法、热平台插补法、建模法和噪音处理等方法,对历史操作数据中的缺失值、重复值、错误值进行删除和填充等,可以理解的是,本发明实施例中,对于数据过滤方法并不做限定,可根据业务需要选择合适的过滤方法对历史操作数据进行过滤。数据过滤的核心目的是清除操作数据中噪声数据,因此,可以先进行噪声分析,为了提高脏数据过滤的精度,可以将历史操作数据按照操作时间的先后顺序划分为若干个历史操作数据段,对每个历史操作数据段分别进行噪声分析,当噪声数据出现概率大于预设阈值时,判定该历史操作数据段需要进行脏数据过滤。进一步的,噪音分析具体为:获取每个历史操作数据段内噪声数据值出现的概率P,其中P=M\N,M为每个历史操作数据段内噪声数据出现的次数,N为相应的历史操作数据段内操作总数,当P值大于预设P0时,标记该历史操作数据段为待过滤字段,其中噪声数据可以是缺失值、错误值以及不一致值等。通过上述过滤方法可以提高对历史操作数据中脏数据过滤准确率和效率,避免不必要的脏数据的存在降低后续的异常数据分析结果的确定的精度,从而提高异常数据分析结果确定的准确率和效率。
本发明实施例中,数据转换处理是指将操作数据转换为易与处理的数据格式。比如,可以将历史操作数据中的字段取值为value值,此处将字段取值为value值而非Key键,原因在于将字段取值为value值可以提高系统处理速度,进而提高异常数据分析结果确定的效率。其中,value指的是数值,Key指的是关键字。
S103.基于对账分析模型对历史操作数据进行对账分析处理,得到目标操作行为在目标时间内的对账分析结果;对账分析模型基于样本操作数据进行机器学习训练得到。
本发明实施例中,可以通过图2中的Logstash将脏数据过滤或数据转换后的历史操作数据发送至Elasticsearch,通过Elasticsearch中的对账分析模型对历史操作数据进行对账分析处理,从而得到目标操作行为在目标时间内的对账分析结果。该目标时间可以为历史操作数据对应的历史时间之后预设时间的时间。
其中,S103中的对账分析模型包括图2所示的Elasticsearch中的智能对账模型,在该智能对账模型为监督学习模型时,其通过样本操作数据及其对应的对账标签进行机器学习训练得到,在该对账分析模型时非监督学习模型时,其通过样本操作数据进行机器学习训练得到。经训练后的机器学习模型能够根据历史操作数据预测未来数据变化趋势。
可见,使用基于机器学习训练的智能对账,不需要预先设置阈值即可产生对账功能,提高数据对账的智能性,减少人工干预,人工成本低且对账效率高,同时能够能根据历史数据预测未来数据变化趋势。
S105.获取目标操作行为在目标时间内的真实操作数据。
本发明实施例中,在系统运行到目标时间内时,可以通过图2中的Beats从数据源中获取目标操作行为在该目标时间内的真实操作数据,并对该真实操作数据进行脏数据过滤或数据转换处理。对真实操作数据进行脏数据过滤或数据转换处理过程与S101中相同,具体请参见S101的描述,在此不再赘述。
S107.基于真实操作数据和对账分析结果,确定目标操作行为在目标时间内的异常数据分析结果。
本发明实施例中,S107可以包括:
对真实操作数据进行统计分析,得到目标操作行为在目标时间的真实统计分析结果。
对比真实统计分析结果和对账分析结果。
将与对账分析结果之间的差异大于或等于预设差异阈值的真实统计分析结果,作为异常数据分析结果。
在实际应用中,统计分析的类型可以根据对账分析模型的目的,也即对账分析结果的属性信息来确定,假设对账分析结果为根据历史操作数据预测目标时间内的数据总量变化趋势,则统计分析可以为对真实操作数据进行的总量统计分析,该总量统计分析包括但不限于个数统计、求和、求平均值、求最大值、求最小值等,从而得到目标操作行为在目标时间内各个目标时间点的真实统计分析结果。接着在各个目标时间点内,将真实统计分析结果和对账分析结果进行比对,若在某个目标时间点二者差异较大,则说明有可能是真实操作数据在该目标时间点存在异常情况导致的,此时,可以将该某个目标时间点的真实统计分析结果,作为异常数据分析结果。
由于真实统计分析结果是根据真实操作数据进行统计得到的,在实际应用中,可以将该真实统计分析结果在该某个目标时间点对应的真实操作数据,作为该异常数据分析结果,从而实现根据历史操作数据预测未来数据变化趋势,主动发现数据异常点和离群值。
本发明实施例中,在S107之后,该方法还可以包括:对异常数据分析结果进行报警,及时通知业务方,以使业务方做出相应的调整,避免异常情况长时间存在对系统造成的影响。
在一个可行的实施例中,如图5所示,该对账分析模型包括总量对账分析模型,该对账分析结果包括总量对账分析结果,则S103可以包括:
S103101.基于总量对账分析模型对历史操作数据进行总量对账分析处理,得到目标操作行为在目标时间内的总量对账分析结果。
其中,总量对账分析模型基于历史样本操作数据进行总量对账学习训练得到。
本实施例中的总量对账可以是:对目标操作行为在目标时间的操作数据的总数量进行对账分析,比如,在目标时间内,操作数据对应的请求的总数量、成功的操作请求的总数量或失败的操作请求的总数量等。
相应地,继续如图5所示,S107可以包括:
S107101.对真实操作数据进行总量统计分析,得到目标操作行为在目标时间内的真实总量分析结果。
S107103.对比真实总量分析结果和总量对账分析结果。
S107105.将与总量对账分析结果之间的差异大于或等于预设总量差异阈值的真实总量分析结果,作为异常数据分析结果。
以下,以历史操作数据为某工单操作数据为例上述对总量对账分析进行详细说明,该工单操作数据的一种数据结构可以如图6所示,从图6中可以看出,其为2019年7月14日的操作数据:
1)通过图2中的Beats从数据源中获取图6中的历史操作数据,同时使用Logstash对历史操作数据进行脏数据过滤或数据转换处理,并将脏数据过滤或数据转换处理后的历史操作数据导入Elasticsearch。图7为将图6中的数据导入Elasticsearch后的部分数据结构,其中的t202_ticket_operation*”为索引,匹配该图中的“_index”字段的内容,后续会根据该索引选择数据源进而创建机器训练学习任务。“@timestamp”数据写入时间,总量对账分析模型就是依据这个时间字段建立的。“message”字段存放业务侧上报的内容
3)在Elasticsearch安装Machine Learning模块,接着可在Kibana的可视化界面中根据Elasticsearch的Machine Learning模块创建机器学习的任务。图8所示为Kibana的一种结构示意图,在该Kibana中可以选择不同的创建机器训练学习任务的方式,该创建不同的机器训练学习任务的方式包括但不限于:
a.单一指标:使用单一指标作为模型特征参数
b.多指标:使用多指标作为模型特征参数
c.种群指标:种群分析,找出不合群的点
d.高级指标:可以灵活的设置各种模型指标。
如果选择了单一指标模型,则表明使用单一指标作为模型特征参数进行训练,则可以训练处根据单一指标进行对账的模型,如果选择使用多指标模型,则可以训练处根据多指标作为进行对账的模型,如果选择种群指标模型,则可以训练出根据种群指标进行对账的模型,如果选择高级指标模型,则可以灵活设置根据各种指标进行对象的模型。
本发明实施例中选择单一指标模型,以对历史操作数据进行总量对账分析,从而主动发现数据中的异常。
4)由于不同的聚合函数和时间窗口对模型的作用是不一样的,因此可以通过调整时间窗口和不同的聚合函数,训练出一个能够根据历史操作数据进行未来预测的总量对账分析模型,即通过选择合适的聚合函数和进行时间窗口的调整,以让Machine Learning模块基于历史样本操作数据训练出合适的总量对账分析模型,其中,该聚合函数包括但不限于个数统计函数(non_zero_count)、求和函数(SUM函数)、最大值函数(MAX函数)、最小值函数(MIN函数)、平均值函数(AVERAGE函数)等。
综上所述,总量对账分析模型的训练过程可以包括:
获取历史样本操作数据。
基于所述历史样本操作数据,确定机器训练学习任务。
基于所述历史样本操作数据对预设机器学习模型进行总量对账学习训练,在学习训练的过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的结果与所述机器训练学习任务相匹配;将当前的预设机器学习模型作为所述总量对账分析模型。
S103101中,在总量对账分析模型训练好之后,可以根据该总量对账分析模型对某一历史时间段内的历史操作数据进行总量对账分析,得到目标操作行为在未来一段时间内(即目标时间内)的总量对账分析结果,该总量对账分析结果包括但不限于该目标操作行为在目标时间内的总量上涨趋势或总量下降趋势,该上涨趋势或下降趋势可以通过总量对账分析模型输出的具体数值来体现。当系统运行到该目标时间内时,通过Beats从数据源中采集该目标时间段内的真实操作数据。S107101中,可以根据总量对账分析模型的训练过程中所使用的聚合函数的类型,对该真实操作数据进行总量统计,得到目标操作行为在目标时间的真实总量分析结果,假设总量对账分析模型的训练过程中所使用的聚合函数为个数统计函数(non_zero_count),则S107101中可以通过non_zero_count函数对该真实操作数据进行总量统计分析,得到目标操作行为在目标时间段内的各个目标时间点的操作的数量(即真实总量分析结果)。S107103中,可以将S107101中得到的真实总量分析结果与S103101中的总量对账分析结果在目标时间段内的各个目标时间点进行比对。S107105中,若某个目标时间点二者差异较大,则说明有可能在该某个时间点真实操作数据存在异常,此时,可以将该某个目标时间点的真实总量分析结果作为该异常数据分析结果。
由于真实总量分析结果是根据真实操作数据进行统计得到的,在实际应用中,可以将该真实总量分析结果在该目标时间点对应的真实操作数据,作为异常点和离群值(即异常数据分析结果),从而实现根据历史操作数据预测未来总量数据变化趋势,主动发现数值中的异常点和离群值。
图9所示为使用个数统计函数训练得到的总量对账分析模型对图6中的历史操作数据进行分析,预测未来数据总量上涨或下降趋势的一种结果示意图,其中横轴表示操作数据的操作时间,纵轴表示个数统计函对应的数值。如图9所示,将历史操作数据输入到该总量对账分析模型之后,可以得出如下分析结果:12:00的真实总量分析结果为136(真实总量分析结果由系统运行到相应时间的真实操作数据,使用个数统计函数进行分析而确定),而通过总量对账分析模型得出的总量对账分析结果(即个数统计函数值)为527.1,17:00的真实总量分析结果为121(真实总量分析结果由系统运行到相应时间的真实操作数据,使用个数统计函数进行分析而确定),而通过总量对账分析模型得出的总量对账分析结果为672.7。可见,17:00的真实总量分析结果远远小于模型预测出的结果(总量对账分析结果大约是真实总量分析结果的6倍),表明2019年09月13日系统收到的工单操作记录出现骤减,低于往常同时段的总量,且17:00-18:00的情况较为严重,则可以将17:00-18:00对应的真实操作数据作为异常点或离群点,并将该异常情况反馈给业务侧,使得业务侧可以及时修复数据上报链路上的漏洞。
继续如图9所示,总量对账分析模型不仅可以得出总量对象对账分析结果,还可以得出模型得分、多时间窗户口影响、严重程度、身份标识等。
具体地,模型得分指的:总量对账分析模型对目标时间内的某个目标时间点进行预测后的得分,可以用于表征模型预测的准确率。
多时间窗口影响指的是:使用训练过程中的时间窗口和聚合函数训练出的模型,对历史操作数据进行对账处理之后,得到的函数值比较高。
严重程度指的是:每个目标时间点对应的操作数据出现异常的严重程度,该严重程序可以通过该目标时间点的模型得分和函数值确定。
在一个可行的实施例中,如图10所示,在S107103之后,该方法还可以包括:
S1071041.在总量对账分析结果优于真实总量分析结果,且真实总量分析结果与总量对账分析结果之间的差异大于预设总量差异阈值时,扩容相应的客户端的数据资源。
S1071043.在真实总量分析结果优于总量对账分析结果,且真实总量分析结果与总量对账分析结果之间的差异大于预设总量差异阈值时,缩减相应的客户端的数据资源。
本发明实施例中,在S1071041中,如果总量对账分析结果优于真实总量分析结果,且真实总量分析结果与总量对账分析结果之间的差异大于预设总量差异阈值,比如,如图9中,17:00的总量对账分析模型得出的总量对账分析结果672.7优于真实总量分析结果为121,且二者之间差异较大,则表明17:00的工单操作记录出现骤减,此时,可以及时通知扩容下端消费该数据源的消费者的消费资源和消费性能。在S1071043中,如果某一目标时间点的真实总量分析结果优于总量对账分析结果,且二者之间的差异较大,则表明在该时间点工单操作记录出现剧增,高于往常同时段的总量,此时,可以及时通知缩减下端消费该数据源的消费者的消费资源。本发明实施例过上述方式,实现了根据历史操作数据预测未来总量数据变化趋势,有效的动态规划下端消费者的消费性能或资源情况,提高系统的稳定性和资源的高效使用。
在另一个可行的实施例中,如图11所示,该对账分析模型可以包括明细对账分析模型,该对账分析结果可以包括明细对账分析结果,则S103可以包括:
S103301.基于明细对账分析模型对历史操作数据进行至少一个维度的明细对账分析,得到目标操作行为在目标时间内的至少一个明细对账分析结果。
其中,明细训练模型基于样本历史数据的进行明细对账学习训练得到。
本发明实施例中的明细对账可以为:对目标操作行为在目标时间的操作数据对应的一条条操作明细记录进行对账分析,该操作明细记录可以包括但不限于操作数据值、操作时间、操作内容、网际互联协议(Internet Protocol,IP)、用户信息等。
具体地,明细对账又可以包括指标对账和维度对账,其中,维度对账是指从不同的维度对每条操作明细记录进行对账分析,比如,以操作内容的维度对每条操作记录进行对账分析、以IP的维度对每条操作记录进行对账分析、以操作时间的维度对每条操作记录进行对账分析等;指标对账一般是指数值型的,比如,以操作内容的维度去分析,未来某个时间内具有相同操作内容的用户有多少个、以IP的维度去分析,未来某个时间内处于相同地区的用户有多少个、以操作时间的维度去分析,未来某个时间内有多少个用户同时在操作等。
由于明细对账包括指标对账和维度对账,因此,明细对账分析模型的训练过程应该充分考虑指标对账和维度对账,使训练出的明细对账分析模型能够对历史操作数据进行至少一个维度的明细对账分析,从而得到目标操作行为在目标时间内的至少一个明细对账分析结果,即该至少一个明细对账分析可以为训练过程中的所涉及的数值型的指标对象相对应。
相应地,如图12所示,该方法还包括构建明细对账分析模型的步骤,该构建明细对账分析模型可以包括:
S201.获取历史样本操作数据。
S203.基于历史样本操作数据,确定机器训练学习任务。
S205.在机器训练学习任务为非多指标任务时,基于历史样本操作数据对预设机器学习模型进行预设维度的明细对账学习训练,在学习训练的过程中调整预设机器学习模型的模型参数至预设机器学习模型输出的结果与非多指标任务相匹配;将当前的预设机器学习模型作为明细对账分析模型;预设维度与非多指标任务相对应。
S207.在机器训练学习任务为多指标任务时,对多指标任务进行维度相关性分析,得到多指标任务对应的维度分析结果;基于历史样本数据和维度分析结果,对预设机器学习模型进行多维度的明细对账学习训练,在学习训练的过程中调整预设机器学习模型的模型参数至预设机器学习模型输出的结果与多指标任务相匹配;将当前的预设机器学习模型作为明细对账分析模型;多维度与维度分析结果相对应。
其中,S201可以通过图2中的Beats从数据源中获取某一个时间段的历史样本操作数据。S203中可以在图8所示的Kibana可视化界面中选择并创建不同的机器学习的任务。对于非多指标任务(比如Kibana可视化界面中的单一指标任务、种群任务或高级任务),则在S205中,可以通过选择不同的聚合函数和某一时间段的不同时间窗口(比如,5分钟、10分钟等),对预设机器学习模型进行与非多指标任务对应的维度的明细对账学习训练,在训练学习过程中,不断调整预设机器学习模型的模型参数,至预设机器学习模型的输出结果与非多指标任务相匹配,将学习训练得到的机器学习模型作为明细对账分析模型。具体以机器训练学习任务为单一指标任务为例进行说明:假设该单一指标任务为“以IP的维度去分析未来某个时间内处于某个相同地区的用户有多少个”,则在训练过程中,可以首先确定“未来某个时间内处于某个相同地区的用户的数量”,接着可以选择不同的聚合函数和不同的时间窗口,对预设机器学习模型进行IP维度的机器学习训练,在训练学习过程中,不断调整预设机器学习模型的模型,至该预设机器学习模型的输出结果与“未来某个时间内处于某个相同地区的用户的数量”相匹配,即明细对账分析模型被训练为能够用于对历史操作数据进行IP为维度的明细对账分析,从而得到未来某个时间内,处于某个相同地区的用户的数量。
对于多指标任务,则在S207中,可以预先通过可选模块对多指标任务进行维度相关性分析,找出与该多指标任务相关的各个维度(即维度分析结果),接着选择不同的聚合函数和某一历史时间段的不同时间窗口,根据不同时间窗口的历史样本操作数据和该维度分析结果对预设机器学习模型进行与该维度分析结果相关的多维度的明细对账学习训练,在训练学习过程中,不断调整预设机器学习模型的模型参数,至预设机器学习模型的输出结果与多指标任务相匹配,将学习训练得到的模型作为明细对账分析模型。假设,该多指标任务包括:“以操作时间的维度去分析,未来某个时间内具有相同操作内容的用户有多少个”、“以IP的维度去分析,未来某个时间内处于相同地区的用户有多少个”、以操作时间的维度去分析,未来某个时间内有多少个用户同时在操作”等,则对上述三个指标任务进行相关性分析,得到与上述三个指标任务相关的维度为操作时间和IP,则在训练过程中,可以首选确定历史样本操作数据在未来某个时间内具有相同操作内容的用户的数量、在未来某个时间内处于相同地区的用户的数量以及在未来某个时间内同时操作的用户数量,接着可以选择不同的聚合函数和不同的时间窗口,对预设机器学习模型进行IP和时间维度的机器学习训练,在训练学习过程中,不断调整预设机器学习模型的模型参数,至该预设机器学习模型的参数输出与上述三个指标任务的结果相匹配,即明细对账分析模型被训练为能够用于对历史操作数据进行IP和时间为维度的明细对账分析,从而得到未来某个时间内的多维度分析结果。
相应地,如图11所示,S107可以包括:
S107301.对真实操作数据进行明细统计分析,得到目标操作行为在目标时间内的真实明细分析结果。
S107303.对比真实明细分析结果和明细对账分析结果。
S107305.将与明细对账分析结果之间的差异大于或等于预设明细差异阈值的真实明细分析结果,作为候选异常数据分析结果。
S107307.在候选异常数据分析结果对应的数值大于或等于预设对账阈值时,将候选异常数据分析结果作为异常数据分析结果。
本发明实施例中,当系统运行到该目标时间内时,可以通过Beats从数据源中采集该目标时间段内的真实操作数据。在S107301中,可以根据明细对账分析模型的训练过程中所使用的聚合函数的类型,对该真实操作数据进行明细对账分析,得到目标操作行为在目标时间的明细对账分析结果。在S107305中,可以将明细对账分析结果与真实明细分析结果在目标时间段内的各个目标时间点进行比对。在S107305中,若某个目标时间点二者差异较大,则说明有可能是真实操作数据存在异常导致的,此时可以将该某个目标时间点的真实明细分析结果作为候选异常数据分析结果。由于本发明实施例中的明细对账是基于机器学习的智能对账和基于规则策略的传统对账的共同作用的结果,因此,还可以根据相应的规则(包括但不限于字段规则、单表规则、多表规则、SQL或脚本的自定规则等)设置一个预设对账阈值,并将基于器学习的智能对账的分析结果(即候选异常数据分析结果)与该预设对账阈值进行进一步的对比,在S107307中,如果候选异常数据分析结果对应的数值大于或等于预设对账阈值时,将可以将该候选异常数据分析结果作为该异常数据分析结果,否则,则说明候选异常数据分析结果是由于机器学习的智能对账出现误判造成的。可见,对于明细对账,在智能对账的基础上,增加一个传统对账的分析处理,可以避免由于智能对账出现误判造成的明细对账分析精度较低的缺陷,从而提高明细对账分析的准确率和对账系统的稳定性。
由于候选异常数据分析结果是根据真实操作数据进行统计得到的,在实际应用中,可以将该候选异常数据分析结果在该目标时间点对应的真实操作数据,作为该异常数据分析结果,从而实现根据历史操作数据预测未来明细数据变化趋势,主动发现异常点和离群值。
在另一个可行的实施例中,本发明实施例除了根据历史操作数据预测未来变化趋势,以主动发现异常点和离群值之外,还可以根据图2中的Elasticsearch直接对当前操作数据进行检测,从而直接得出当前操作数据中的异常点和离群值,并进行告警。
在该实施例中,对于总量对账而言,可以根据样本操作数据建立总量对账分析模型,基于该总量对账分析模型对当前操作数据进行总量对账处理,得到该当前操作数据对应总量异常数据分析结果(比如,异常点和离群值)。其中该总量对账分析模型的训练过程与上述S103101中的大致相同,即首先可以在Kibana可视化界面中选择相应的指标作为模型特征参数,接着选择不同的聚合函数和进行时间窗口的调整,通过样本操作数据训练处一个能够对当前操作数据进行总量对账分析,直接得到当前操作数据中的异常的总量对账分析模型。
对于明细对账而言,可以根据样本操作数据建立明细对账分析模型,基于该明细对账分析模型对当前操作数据进行明细对账处理,得到该当前操作数据对应明细异常数据分析结果(比如,异常点和离群值)。其中,该明细对账分析模型的训练过程与上述S201-S207中的大致相同,即首先可以在Kibana可视化界面中选择相应的指标作为模型特征参数,对于非多指标任务(比如Kibana可视化界面中的单一指标任务、种群任务、高级任务),可以选择不同的聚合函数和进行时间窗口的调整,通过样本操作数据训练出一个能够对当前操作数据进行明细对账分析,得到当前操作数据中的异常的明细对账分析模型。
而对于多指标任务,与S207相同的是,可以预先通过可选模块对多指标任务进行维度相关性分析,找出与该多指标任务相关的各个维度(即维度分析结果),接着选择不同的聚合函数和进行时间窗口的调整,通过样本操作数据训练出一个能够对当前操作数据进行明细对账分析,得到当前操作数据中的异常的明细对账分析模型。
本发明实施例中,直接检测当前操作数据中的异常点和离群值的过程中所涉及的明细对账,也可以是基于机器学习的智能对账和基于规则策略的传统对账的共同作用的结果,因此,还可以根据相应的规则(包括但不限于字段规则、单表规则、多表规则、SQL或脚本的自定规则等)设置一个预设对账阈值,并将基于器学习的智能对账的分析结果与该预设对账阈值进行进一步的对比,如果基于机器学习的智能对账的分析结果对应的数值大于或等于预设对账阈值时,将可以将基于机器学习的智能对账的分析结果作为最终的异常数据分析结果,否则,则说明基于机器学习的智能对账的分析结果是由于智能对账的误判造成的,从而提高明细对账分析的准确率。
在一个可行的实施例中,S101中的历史操作数据、S103中的对账分析结果、S105中的真实操作数据、S107中的异常数据分析结果、S103101中的总量对账分析结果、S107101中的真实总量分析结果、S103301中的明细对账分析结果、S201中的历史样本操作数据、S207中的维度分析结果等中的至少在一个可以存储于区块链系统中。参见图13,图13所示是本发明实施例提供的区块链系统的一个可选的结构示意图,多个节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,TransmissionControl Protocol)协议之上的应用层协议。在区块链系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
参见图13示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
参见图14,图14为本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块。
本发明实施例提供的数据异常分析方法,通过基于机器学习训练得到的对账分析模型对历史操作数据进行对账分析处理,得到目标操作行为在未来一段时间内(即目标时间内)的对账分析结果,当系统运行到目标时间内时,可以获取到目标操作行为在该目标时间内的真实操作数据,接着对比真实操作数据和对账分析结果,以确定目标操作行为在目标时间内的异常数据分析结果(比如,异常点和离群值)。可见,使用基于机器学习训练得到的对账分析模型的智能对账,不需要预先设置阈值即可产生对账功能,提高数据对账的智能性,减少人工干预,人工成本低且对账效率高,同时能够也能根据历史数据预测未来变化趋势主动发现异常数据分析结果(比如,异常点和离群值)。具体地:
对于总量对账而言:总量对账可以直接基于机器学习的智能对账来实现,一方面,基于智能对账,不需要预先设置阈值即可产生总量对账功能,提高总量数据对账的智能性,减少人工干预,人工成本低且对账效率高,另一方面还能够根据历史数据预测未来总量数据变化趋势主动发现数据中的异常点和离群值,另一方面,还能够根据总量预测结果,有效的动态规划下端消费者的消费性能或资源情况(比如扩容或缩减下端消费该数据源的消费者的消费资源等),提高系统的稳定性和资源的高效使用。
对于明细对账而言:明细对账是基于机器学习的智能对账和基于规则策略的传统对账的共同作用的结果,一方面,在智能对账过程中,不需要预先设置阈值即可产生总量对账功能,提高总量数据对账的智能性,对账效率高,另一方面,由于明细对账所涉及的内容较多,范围较广,智能对账有可能会产生误判,基于此,可以在智能对账的基础上增加一个传统对账分析的步骤,即基于传统对账对智能对账的明细分析结果进行进一步分析,降低智能对账的误判率,进一步提高明细对账的准确率;另一方面,还能够根据历史数据预测未来明细数据变化趋势主动发现数据中的异常点和离群值;另一方面,对于多指标任务的明细对账分析模型的训练过程中,可以通过可选模块对该多指标任务进行相关性分析,以训练出精度和效率均较高的明细对账分析模型,从而进一步提高明细对账分析的准确率和效率。
如图15所示,本发明实施例提供了一种数据异常分析装置,该装置可以包括:
历史操作数据获取模块301,可以用于获取目标操作行为的历史操作数据。
对账分析结果获取模块303,可以用于基于对账分析模型对历史操作数据进行对账分析处理,得到目标操作行为在目标时间内的对账分析结果;对账分析模型基于样本操作数据进行机器学习训练得到。
真实操作数据获取模块305,可以用于获取目标操作行为在目标时间内的真实操作数据。
异常数据分析结果确定模块307,可以用于基于真实操作数据和对账分析结果,确定目标操作行为在目标时间内的异常数据分析结果。
本发明实施例中,装置还可以包括:第一数据预处理模块,数据预处理模块可以用于:对历史操作数据进行脏数据过滤或数据转换处理。
相应地,装置还可以包括:第二数据预处理模块,第二数据预处理模块,可以用于对真实操作数据进行脏数据过滤或数据转换处理。
具体地,装置还可以包括报警模块,报警模块可以用于对异常数据分析结果进行报警。
在一个可行的实施例中,该对账分析模型包括总量对账分析模型,该对账分析结果包括总量对账分析结果,则对账分析结果获取模块303可以用于基于总量对账分析模型对历史操作数据进行总量对账分析处理,得到目标操作行为在目标时间内的总量对账分析结果;
其中,总量对账分析模型基于历史样本操作数据进行总量对账学习训练得到。
相应地,异常数据分析结果确定模块307可以包括:
总量统计分析单元,可以用于对真实操作数据进行总量统计分析,得到目标操作行为在目标时间内的真实总量分析结果。
第一对比单元,可以用于对比真实总量分析结果和总量对账分析结果。
第一分析结果确定单元,可以用于将与总量对账分析结果之间的差异大于或等于预设总量差异阈值的真实总量分析结果,作为异常数据分析结果。
进一步地,该装置还可以包括:
扩容模块,可以用于在总量对账分析结果优于真实总量分析结果,且真实总量分析结果与总量对账分析结果之间的差异大于预设总量差异阈值时,扩容相应的客户端的数据资源;
缩减模块,可以用于在真实总量分析结果优于总量对账分析结果,且真实总量分析结果与总量对账分析结果之间的差异大于预设总量差异阈值时,缩减相应的客户端的数据资源。
在另一个可行的实施例中,该对账分析模型包括明细对账分析模型,该对账分析结果包括明细对账分析结果,则对账分析结果获取模块303可以用于:基于明细对账分析模型对历史操作数据进行至少一个维度的明细对账分析,得到目标操作行为在目标时间内的至少一个明细对账分析结果;其中,明细训练模型基于样本历史数据的进行明细对账学习训练得到。
相应地,异常数据分析结果确定模块307可以包括:
明细统计分析单元,可以用于对真实操作数据进行明细统计分析,得到目标操作行为在目标时间内的真实明细分析结果。
第二对比单元,可以用于对比真实明细分析结果和明细对账分析结果。
候选异常数据分析结果确定单元,可以用于将与明细对账分析结果之间的差异大于或等于预设明细差异阈值的真实明细分析结果,作为候选异常数据分析结果。
第二分析结果确定单元,可以用于在候选异常数据分析结果对应的数值大于或等于预设对账阈值时,将候选异常数据分析结果作为异常数据分析结果。
相应地,该装置还可以包括明细对账分析模型构建模块,明细对账分析模型构建模块包括:
历史样本操作数据获取单元,可以用于获取历史样本操作数据。
机器训练学习任务确定单元,可以用于基于历史样本操作数据,确定机器训练学习任务。
第一学习训练单元,可以用于在机器训练学习任务为非多指标任务时,基于历史样本操作数据对预设机器学习模型进行预设维度的明细对账学习训练,在学习训练的过程中调整预设机器学习模型的模型参数至预设机器学习模型输出的结果与非多指标任务相匹配;将当前的预设机器学习模型作为明细对账分析模型;预设维度与非多指标任务相对应。
第二学习训练单元,可以用于在机器训练学习任务为多指标任务时,对多指标任务进行维度相关性分析,得到多指标任务对应的维度分析结果;基于历史样本数据和维度分析结果,对预设机器学习模型进行多维度的明细对账学习训练,在学习训练的过程中调整预设机器学习模型的模型参数至预设机器学习模型输出的结果与多指标任务相匹配;将当前的预设机器学习模型作为明细对账分析模型;多维度与维度分析结果相对应。
需要说明的是,本发明实施例提供的装置实施例与上述方法实施例基于相同的发明构思。
本发明实施例还提供了一种数据异常分析的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的数据异常分析方法。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种数据异常分析方法相关的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的数据异常分析方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的数据异常分析方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图16是本发明实施例提供的一种数据异常分析方法的服务器的硬件结构框图。如图16所示,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,CPU)410(处理器410可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器430,一个或一个以上存储应用程序423或数据422的存储介质420(例如一个或一个以上海量存储设备)。其中,存储器430和存储介质420可以是短暂存储或持久存储。存储在存储介质420的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器410可以设置为与存储介质420通信,在服务器400上执行存储介质420中的一系列指令操作。服务器400还可以包括一个或一个以上电源460,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口440,和/或,一个或一个以上操作系统421,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器400的通信供应商提供的无线网络。在一个实例中,输入输出接口440包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口440可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图16所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器400还可包括比图16中所示更多或者更少的组件,或者具有与图16所示不同的配置。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据异常分析方法,其特征在于,所述方法包括:
获取目标操作行为的历史操作数据;
基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果;所述对账分析模型基于样本操作数据进行机器学习训练得到;
获取所述目标操作行为在所述目标时间内的真实操作数据;
基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对账分析模型包括总量对账分析模型,所述对账分析结果包括总量对账分析结果,则所述基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果,包括:
基于所述总量对账分析模型对所述历史操作数据进行总量对账分析处理,得到所述目标操作行为在所述目标时间内的总量对账分析结果;
其中,所述总量对账分析模型基于历史样本操作数据进行总量对账学习训练得到。
3.根据权利要求2所述的方法,其特征在于,所述基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果,包括:
对所述真实操作数据进行总量统计分析,得到所述目标操作行为在所述目标时间内的真实总量分析结果;
对比所述真实总量分析结果和所述总量对账分析结果;
将与所述总量对账分析结果之间的差异大于或等于预设总量差异阈值的真实总量分析结果,作为所述异常数据分析结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述总量对账分析结果优于所述真实总量分析结果,且所述真实总量分析结果与所述总量对账分析结果之间的差异大于所述预设总量差异阈值时,扩容相应的客户端的数据资源;
在所述真实总量分析结果优于所述总量对账分析结果,且所述真实总量分析结果与所述总量对账分析结果之间的差异大于所述预设总量差异阈值时,缩减相应的客户端的数据资源。
5.根据权利要求1所述的方法,其特征在于,所述对账分析模型包括明细对账分析模型,所述对账分析结果包括明细对账分析结果,则所述基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果,包括:
基于所述明细对账分析模型对所述历史操作数据进行至少一个维度的明细对账分析,得到所述目标操作行为在目标时间内的至少一个明细对账分析结果;
其中,所述明细训练模型基于样本历史数据的进行明细对账学习训练得到。
6.根据权利要求5所述的方法,其特征在于,所述基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果,包括:
对所述真实操作数据进行明细统计分析,得到所述目标操作行为在所述目标时间内的真实明细分析结果;
对比所述真实明细分析结果和所述明细对账分析结果;
将与所述明细对账分析结果之间的差异大于或等于预设明细差异阈值的真实明细分析结果,作为候选异常数据分析结果;
在所述候选异常数据分析结果对应的数值大于或等于预设对账阈值时,将所述候选异常数据分析结果作为所述异常数据分析结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括构建所述明细对账分析模型的步骤,所述构建所述明细对账分析模型,包括:
获取历史样本操作数据;
基于所述历史样本操作数据,确定机器训练学习任务;
在所述机器训练学习任务为非多指标任务时,基于所述历史样本操作数据对预设机器学习模型进行预设维度的明细对账学习训练,在学习训练的过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的结果与所述非多指标任务相匹配;将当前的预设机器学习模型作为所述明细对账分析模型;所述预设维度与所述非多指标任务相对应;
在所述机器训练学习任务为多指标任务时,对所述多指标任务进行维度相关性分析,得到所述多指标任务对应的维度分析结果;基于所述历史样本数据和所述维度分析结果,对预设机器学习模型进行多维度的明细对账学习训练,在学习训练的过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的结果与所述多指标任务相匹配;将当前的预设机器学习模型作为所述明细对账分析模型;所述多维度与所述维度分析结果相对应。
8.根据权利要求1所述的方法,其特征在于,在所述基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果之前,所述方法还包括:
对所述历史操作数据进行脏数据过滤或数据转换处理;
相应地,在所述基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果之前,所述方法还包括:
对所述真实操作数据进行脏数据过滤或数据转换处理。
相应地,在所述基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果之后,所述方法还包括:
对所述异常数据分析结果进行报警。
9.一种数据异常分析装置,其特征在于,所述装置包括:
历史操作数据获取模块,用于获取目标操作行为的历史操作数据;
对账分析结果获取模块,用于基于对账分析模型对所述历史操作数据进行对账分析处理,得到所述目标操作行为在目标时间内的对账分析结果;所述对账分析模型基于样本操作数据进行机器学习训练得到;
真实操作数据获取模块,用于获取所述目标操作行为在所述目标时间内的真实操作数据;
异常数据分析结果确定模块,用于基于所述真实操作数据和所述对账分析结果,确定所述目标操作行为在所述目标时间内的异常数据分析结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的数据异常分析方法。
CN202010505227.7A 2020-06-05 2020-06-05 一种数据异常分析方法、装置及存储介质 Pending CN111597247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010505227.7A CN111597247A (zh) 2020-06-05 2020-06-05 一种数据异常分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010505227.7A CN111597247A (zh) 2020-06-05 2020-06-05 一种数据异常分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111597247A true CN111597247A (zh) 2020-08-28

Family

ID=72182163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010505227.7A Pending CN111597247A (zh) 2020-06-05 2020-06-05 一种数据异常分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111597247A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380237A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 数据库隐患sql的预测方法、装置、终端及存储介质
CN112579728A (zh) * 2020-12-18 2021-03-30 成都民航西南凯亚有限责任公司 基于海量数据全文检索的行为异常识别方法及装置
CN112862536A (zh) * 2021-02-25 2021-05-28 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN112927072A (zh) * 2021-01-20 2021-06-08 北京航空航天大学 一种基于区块链的反洗钱仲裁方法、系统及相关装置
CN113420195A (zh) * 2021-05-28 2021-09-21 国网河北省电力有限公司营销服务中心 智能电表故障类型确定方法及系统
CN113485991A (zh) * 2021-07-07 2021-10-08 李钟华 一种区块链大数据分析方法
CN114005039A (zh) * 2021-12-31 2022-02-01 成都国星宇航科技有限公司 基于遥感图像的农作物长势评估方法、装置及电子设备
CN115017127A (zh) * 2022-05-25 2022-09-06 厦门市美亚柏科信息股份有限公司 一种自动巡检采集设备的方法、装置和存储介质
CN115408449A (zh) * 2022-10-28 2022-11-29 支付宝(杭州)信息技术有限公司 一种用户行为的处理方法、装置及设备
CN116187936A (zh) * 2023-02-03 2023-05-30 上海麦德通软件技术有限公司 一种基于云平台的工单智能生成系统
CN116756494A (zh) * 2023-08-22 2023-09-15 之江实验室 数据异常值处理方法、装置、计算机设备和可读存储介质
CN117235062A (zh) * 2023-11-10 2023-12-15 广州汇通国信科技有限公司 基于数据中台的业务系统数据建模方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380237A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 数据库隐患sql的预测方法、装置、终端及存储介质
CN112380237B (zh) * 2020-11-13 2024-03-01 深圳市兴海物联科技有限公司 数据库隐患sql的预测方法、装置、终端及存储介质
CN112579728A (zh) * 2020-12-18 2021-03-30 成都民航西南凯亚有限责任公司 基于海量数据全文检索的行为异常识别方法及装置
CN112927072B (zh) * 2021-01-20 2023-08-29 北京航空航天大学 一种基于区块链的反洗钱仲裁方法、系统及相关装置
CN112927072A (zh) * 2021-01-20 2021-06-08 北京航空航天大学 一种基于区块链的反洗钱仲裁方法、系统及相关装置
CN112862536A (zh) * 2021-02-25 2021-05-28 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN112862536B (zh) * 2021-02-25 2023-07-11 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN113420195A (zh) * 2021-05-28 2021-09-21 国网河北省电力有限公司营销服务中心 智能电表故障类型确定方法及系统
CN113485991A (zh) * 2021-07-07 2021-10-08 李钟华 一种区块链大数据分析方法
CN114005039A (zh) * 2021-12-31 2022-02-01 成都国星宇航科技有限公司 基于遥感图像的农作物长势评估方法、装置及电子设备
CN115017127A (zh) * 2022-05-25 2022-09-06 厦门市美亚柏科信息股份有限公司 一种自动巡检采集设备的方法、装置和存储介质
CN115408449A (zh) * 2022-10-28 2022-11-29 支付宝(杭州)信息技术有限公司 一种用户行为的处理方法、装置及设备
CN116187936B (zh) * 2023-02-03 2023-08-29 上海麦德通软件技术有限公司 一种基于云平台的工单智能生成系统
CN116187936A (zh) * 2023-02-03 2023-05-30 上海麦德通软件技术有限公司 一种基于云平台的工单智能生成系统
CN116756494A (zh) * 2023-08-22 2023-09-15 之江实验室 数据异常值处理方法、装置、计算机设备和可读存储介质
CN116756494B (zh) * 2023-08-22 2024-01-23 之江实验室 数据异常值处理方法、装置、计算机设备和可读存储介质
CN117235062A (zh) * 2023-11-10 2023-12-15 广州汇通国信科技有限公司 基于数据中台的业务系统数据建模方法
CN117235062B (zh) * 2023-11-10 2024-07-23 广州汇通国信科技有限公司 基于数据中台的业务系统数据建模方法

Similar Documents

Publication Publication Date Title
CN111597247A (zh) 一种数据异常分析方法、装置及存储介质
CN108628929B (zh) 用于智能存档和分析的方法和装置
US10832087B1 (en) Advanced training of machine-learning models usable in control systems and other systems
US10685283B2 (en) Demand classification based pipeline system for time-series data forecasting
US7698239B2 (en) Self-evolving distributed system performance using a system health index
US10372734B2 (en) Controlling operation of a machine by performing reconciliation using a distributed cluster of nodes
US10592666B2 (en) Detecting anomalous entities
US8924328B1 (en) Predictive models for configuration management of data storage systems
Azzeh A replicated assessment and comparison of adaptation techniques for analogy-based effort estimation
US11354583B2 (en) Automatically generating rules for event detection systems
Jeong et al. Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
JP2023534696A (ja) ネットワークトポロジーにおけるアノマリー検知
CN112583640A (zh) 一种基于知识图谱的服务故障检测方法及装置
US20150326446A1 (en) Automatic alert generation
Xie et al. Logm: Log analysis for multiple components of hadoop platform
Molan et al. RUAD: Unsupervised anomaly detection in HPC systems
US11321581B2 (en) Detecting and mitigating anomalies and degradation associated with devices and their operations
CN110011990A (zh) 内网安全威胁智能分析方法
CN117675691B (zh) 路由器的远程故障监控方法、装置、设备及存储介质
Agrawal et al. Analyzing and predicting failure in hadoop clusters using distributed hidden markov model
Naseri et al. Evaluating workflow trust using hidden markov modeling and provenance data
Shih et al. Implementation and visualization of a netflow log data lake system for cyberattack detection using distributed deep learning
Tang et al. Bayesian network structure learning from big data: A reservoir sampling based ensemble method
CN113469377B (zh) 联邦学习审计方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination