CN113537659A - 识别项目异常的方法和装置 - Google Patents

识别项目异常的方法和装置 Download PDF

Info

Publication number
CN113537659A
CN113537659A CN202010289409.5A CN202010289409A CN113537659A CN 113537659 A CN113537659 A CN 113537659A CN 202010289409 A CN202010289409 A CN 202010289409A CN 113537659 A CN113537659 A CN 113537659A
Authority
CN
China
Prior art keywords
data
time point
target
actual
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010289409.5A
Other languages
English (en)
Inventor
唐明鉴
段戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010289409.5A priority Critical patent/CN113537659A/zh
Publication of CN113537659A publication Critical patent/CN113537659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供识别项目异常的方法以及相关装置。本申请提供的技术方案中,获取第一目标项目的第一时间序列,第一时间序列中包括T1个时间点的数据,T1为正整数;使用马科夫转换自回归模型对第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值;使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定第一预测数据时,所述马科夫转换自回归模型中参数的值为第一目标值;基于第一预测数据和第一实际数据,对第一目标项目进行异常识别,第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。本申请提供的技术方案,能够对项目进行异常识别。

Description

识别项目异常的方法和装置
技术领域
本申请涉及信息处理领域,并且,更具体地,涉及异常识别方法和异常识别装置。
背景技术
按照时间的先后顺序排列的数据称为时间序列数据。时间序列数据广泛存在于金融、交通、气象和财经等领域,与我们的生活息息相关。例如,从股票交易市场采集的交易流数据,网站监控指标数据等等,都可构成时间序列数据。
如何处理和分析这些形态各异的时间序列数据,并从中学习出一些有用的价值信息,已引起研究者的广泛关注。近年来许多学者在时间序列数据的挖掘方面做了很多工作,相关的研究主要集中在时间序列数据分割,时间序列数据的聚类和时间序列数据的分类,时间序列数据的模式发现等方向。
最初,在时间序列数据的挖掘中,大部分挖掘任务的目的是为了发现那些频繁出现的模式,期望发现某种规律,异常数据通常被作为噪声而忽略。然而,尽管异常数据是不经常发生的事件,但异常数据背后可能隐藏着一些重要信息,也就是说,异常数据的发现往往能提供更有价值的知识。例如,在金融领域,跟踪信用卡顾客的使用情况之后,当顾客在某段时期内的信用卡使用情况异常时,能够及时报告,以预防信用欺诈。因此,异常风险识别也成为机器学习与数据挖掘中最重要的任务之一,即如何实现异常数据的识别,称为亟待解决的技术问题。
发明内容
本申请提供异常识别方法以及相关装置,能够对项目进行异常识别。
第一方面,本申请提供一种异常识别方法,该方法包括:获取第一目标项目的第一时间序列,所述第一时间序列中包括T1个时间点的数据,T1为正整数;使用马科夫转换自回归模型对所述第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值;使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定所述第一预测数据时,所述马科夫转换自回归模型中参数的值为所述第一目标值;基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,所述第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。
该异常识别方法中,先通过目标项目的真实时间序列中的数据来拟合马科夫转换自回归模型的参数值,然后再将这些参数值带回马科夫转换自回归模型,并利用该马科夫转换自回归模型来预测目标项目中的目标时间点的预测数据,这样,基于该预测数据与目标时间的真实数据,可以识别出该目标项目是否存在异常。
此外,即使目标项目的时间序列中的数据呈非线性或非正态分布,该方法使用马科夫转换自回归模型仍然可以对该时间序列进行拟合,以及正确预测出目标时间点的预测数据,从而可以避免因不能正确获得目标项目的预测数据而导致异常识别错误的问题。也就是说,本申请提出的异常识别方法可以提高异常识别的准确率。
结合第一方面,在第一种可能的实现方式中,所述第一实际数据包括M个维度的数据,M为正整数。其中,所述基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,包括:根据所述第一预测数据和所述第一实际数据,确定所述第一实际偏差率信息,所述第一实际偏差率信息用于表示M个第一实际偏差率的概率分布,所述M个第一实际偏差率中的第k个第一实际偏差率为所述第一实际数据中的第k维数据相对于所述第一预测数据中的第k维数据的偏差率,k为正整数且从1取至M;根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,所述第一基准偏差率信息用于表示M个第一基准偏差率的概率分布,所述M个第一基准偏差率中的第k个第一基准偏差率为第一基准项目的时间序列中位于所述第一目标时间点的第k维数据相对于所述第一基准项目位于所述第一目标时间点的第k维预测数据的偏差率,所述第一基准项目与所述第一目标项目为类型相同的不同项目。
该实现方式中,获取目标项目在目标时间点的每个维度的实际数据和每个维度的预测数据,并可以根据同一纬度的实际数据和预测数据确定该维度实际数据的偏差率,以及根据每个维度的实际数据的偏差率确定这M维数据的概率分布情况,然后再对该概率分布情况和目标时间点的基准概率分布情况进行进一步的分析,以根据分析结果确定目标项目是否异常。
该实现方式通过获取M个维度数据的偏差率的概率分布以及对该概率分布进行统一分析,使得即使目标项目的目标时间点的数据是多维的,也可以将多个维度的数据关联起来,从整体上来分析目标项目是否异常,从而可以提高异常识别的准确率。此外,该实现方式关联多维数据的方式较为简便,容易实现。
结合第一种可能的实现方式,在第二种可能的实现方式中,所述根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,包括:根据所述第一实际偏差率信息和所述第一基准偏差率信息,确定所述第一实际偏差率信息和所述第一基准偏差率信息之间的第一相对熵;根据所述第一相对熵,确定所述第一目标项目在所述第一目标时间点的第一异常风险分值;根据所述第一异常风险分值对所述第一目标项目进行异常识别。
该实现方式中,基于目标时间点的实际偏差率信息和基准偏差率信息对目标项目进行异常识别时,可以先计算实际偏差率信息与基准偏差率信息的相对熵,然后根据该相对熵的大小来对目标项目进行异常风险打分,以及根据异常风险分值来确定目标项目是否存在异常。
结合第二种可能的实现方式,在第三种可能的实现方式中,所述第一目标项目为N个目标项目中的一个,所述第一异常风险分值为N个异常风险分值中的一个,所述N个异常风险分值与所述N个目标项目一一对应,所述N个异常分析分值中除所述第一异常风险分值以外的任意异常风险分值的获取方式与所述第一异常风险分值的获取方式相同,N为大于1的整数,所述N个目标项目的类型相同。其中,所述根据所述第一异常风险分值对所述第一目标项目进行异常识别,包括:所述第一异常风险分值大于所述N个异常风险分值中的S个异常风险分值时,确定所述第一目标项目存在异常,S为预设的正整数。
也就是说,有多个类型相同的目标项目进行异常识别时,可以使用前述方法获取每个目标项目的异常风险分值,然后将异常风险分值排在前S位的目标项目确定为存在异常风险的项目。这样,可以优先获知异常风险大的项目并对这些项目进行安全处理,以减少损失。
结合第三种可能的实现方式,在第四种可能的实现方式中,所述N个异常风险分值的第二异常风险值为所述N个目标项目中的第二目标项目在第二目标时间点的异常风险分值,所述第二时间点与所述第一时间点为不同的时间点。
也就是,即使待识别的多个目标项目的目标时间点不相同,也可以使用本申请的方法获取各个目标项目的目标时间点的异常风险分值,然后基于这些异常风险分值确定哪些目标项目为最终的异常项目。
例如,目标项目的目标时间点可以为目标项目的最后一个时间点。也就是说,即使各个目标项目的时间序列不同,也可以使用本申请的方法确定各个目标项目进行异常风险分值以及基于这些异常风险分值从这些目标项目中确定最终的异常项目。
结合第一种至第四种中任意一种可能的实现方式,在第五种可能的实现方式中,所述方法还包括:获取所述第一基准项目的时间序列,所述第一基准项目的时间序列包括多个时间点的数据,所述多个时间点中每个时间点的数据中包括M个维度的数据;使用所述马科夫转换回归模型对所述第一基准项目的时间序列进行拟合,以确定所述马科夫转换自回归模型的参数的第一基准值;使用所述马科夫转换自回归模型,确定所述第一基准项目的时间序列中每个时间点的M维预测数据,其中,确定所述每个时间点的M维预测数据时,所述马科夫转换自回归模型的参数的值为所述第一基准值;基于所述每个时间点的第k维预测数据和所述每个时间点的第k维实际基准数据,确定所述每个时间点的第k维实际基准数据的偏差率,所述每个时间点的第k维实际基准数据为所述第一基准项目的时间序列中位于所述每个时间点的第k维数据;基于所述每个时间点的M维实际基准数据的偏差率,确定所述每个时间点的基准偏差率信息,所述每个时间点的基准偏差率信息用于表示所述每个时间点的M维实际基准数据的偏差率的概率分布。
本申请的方法中,可以计算历史项目的每个时间点的M维数据的偏差率的概率分布,并将每个时间点的概率分布记录下来作为该时间的基准偏差率信息。
第二方面,本申请提供一种识别项目异常的装置,该装置包括:获取模块,用于:获取第一目标项目的第一时间序列,所述第一时间序列中包括T1个时间点的数据,T1为正整数;拟合模块,用于:使用马科夫转换自回归模型对所述第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值;确定模块,用于:使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定所述第一预测数据时,所述马科夫转换自回归模型中参数的值为所述第一目标值;识别模块,用于:基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,所述第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。
结合第二方面,在第一种可能的实现方式中,所述第一实际数据和所述第一预测数据均包括M个维度的数据,M为正整数。其中,所述识别模块具体用于:根据所述第一预测数据和所述第一实际数据,确定第一实际偏差率信息,所述第一实际偏差率信息用于表示M个第一实际偏差率的概率分布,所述M个第一实际偏差率中的第k个第一实际偏差率为所述第一实际数据中的第k维数据相对于所述第一预测数据中的第k维数据的偏差率,k为正整数且从1取至M;根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,所述第一基准偏差率信息用于表示M个第一基准偏差率的概率分布,所述M个第一基准偏差率中的第k个第一基准偏差率为第一基准项目的时间序列中位于所述第一目标时间点的第k维数据相对于所述第一基准项目位于所述第一目标时间点的第k维预测数据的偏差率,所述第一基准项目与所述第一目标项目为类型相同的不同项目。
结合第一种可能的实现方式,在第二种可能的实现方式中,所述识别模块具体用于:根据所述第一实际偏差率信息和所述第一基准偏差率信息,确定所述第一实际偏差率信息和所述第一基准偏差率信息之间的第一相对熵;根据所述第一相对熵,确定所述第一目标项目在所述第一目标时间点的第一异常风险分值;根据所述第一异常风险分值对所述第一目标项目进行异常识别。
结合第二种可能的实现方式,在第三种可能的实现方式中,所述第一目标项目为N个目标项目中的一个,所述第一异常风险分值为N个异常风险分值中的一个,所述N个异常风险分值与所述N个目标项目一一对应,所述N个异常分析分值中除所述第一异常风险分值以外的任意异常风险分值的获取方式与所述第一异常风险分值的获取方式相同,N为大于1的整数,所述N个目标项目的类型相同。其中,所述识别模块具体用于:在所述第一异常风险分值大于所述N个异常风险分值中的S个异常风险分值时,确定所述第一目标项目存在异常,S为预设的正整数。
结合第三种可能的实现方式,在第四种可能的实现方式中,所述N个异常风险分值的第二异常风险值为所述N个目标项目中的第二目标项目在第二目标时间点的异常风险分值,所述第二时间点与所述第一时间点为不同的时间点。
结合第一种至第四种中任意一种可能的实现方式,在第五种可能的实现方式中,所述获取模块还用于:获取所述第一基准项目的时间序列,所述第一基准项目的时间序列包括多个时间点的数据,所述多个时间点中每个时间点的数据包括M个维度的数据。所述拟合模块还用于:使用所述马科夫转换回归模型对所述第一基准项目的时间序列进行拟合,以确定所述马科夫转换自回归模型的参数的第一基准值。所述确定模块还用于:使用所述马科夫转换自回归模型,确定所述第一基准项目的时间序列中每个时间点的M维预测数据,其中,确定所述每个时间点的M维预测数据时,所述马科夫转换自回归模型的参数的值为所述第一基准值。所述确定模块还用于:基于所述每个时间点的第k维预测数据和所述每个时间点的第k维实际基准数据,确定所述每个时间点的第k维实际基准数据的偏差率,所述每个时间点的第k维实际基准数据为所述第一基准项目的时间序列中位于所述每个时间点的第k维数据。所述确定模块还用于:基于所述每个时间点的M维实际基准数据的偏差率,确定所述每个时间点的基准偏差率信息,所述每个时间点的基准偏差率信息用于表示所述每个时间点的M维实际基准数据的偏差率的概率分布。
第三方面,提供了一种识别项目异常的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。
第四方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面或其中任意一种实现方式中的方法。
第五方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或其中任意一种实现方式中的方法。
第六方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面或其中任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或其中任意一种实现方式中的方法。
附图说明
图1是本申请一个实施例的识别项目异常的方法的示意性流程图;
图2是本申请另一个实施例的识别项目异常的方法的示意性流程图;
图3是本申请一个实施例的识别项目异常的装置的示意性结构图;
图4是本申请一个实施例的识别项目异常的装置的示意性部署图;
图5是本申请一个实施例的计算设备的示意性结构图;
图6是本申请一个实施例的系统架构的示意性结构图。
具体实施方式
下面先介绍本申请技术方案可以应用于银行项目、金融项目、财经项目、工程交付与运营项目等。例如,工程经营管理中,可以将历史交付完成的盈利项目提取的全周期的不同经营指标时间序列作为训练时间序列将正在交付中的不同项目到目前为止的经营指标序列作为打分时间序列,使用本申请的技术方案来获知正在运营的不同项目到目前为止的经营指标的异常。
下面将结合附图,对本申请中的技术方案进行描述。
图1是本申请一个实施例的异常识别方法的示例性流程图。图1所示的方法至少包括S110至S140。
S110,获取第一目标项目的第一时间序列,所述第一时间序列中包括T1个时间点的数据,T1为正整数。
其中,第一目标项目是指待识别的项目,例如可以是银行项目、财经项目、金融项目、工程项目、管理服务项目等等;待识别项目在每个时间点会产生一些对应的数据,一个时间点对应的数据简称为该时间点的数据,多个时间点的数据按照时间排列即得到第一时间序列;一个时间点的长度可以是多年、一年、多月、一个季度、一月、多天、一天、多个小时、一个小时等等;第一时间序列中可以包括一个或多个时间点的数据。
例如,第一目标项目为天气温度变化监测项目时,第一时间序列可以包括12个时间点的数据,这12个时间点与一年中的12个月份一一对应,每个时间点的数据即为每个月的平均温度。
又如,第一目标项目为电商平台首款项目时,第一时间序列可以包括365个时间点的数据,这365个时间点与一年中的365天一一对应,每个时间点的数据即为每天的首款数额。
S120,使用马科夫转换自回归模型对所述第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值。
自回归模型是统计上的一种处理时间序列的方法,其用同一变量的前期历史数据来预测当前数据。
马科夫转换自回归模型可以理解为:将时间序列中不同时间点的数据看作目标项目的不同状态,将时间序列中不同时间点的数据的变化看作目标项目的状态的转换,将时间序列看作马尔科夫链,并利用前面时间点的数据来预测后面时间点数据。
本步骤中,使用马科夫转换自回归模型对第一时间序列进行拟合,可以理解为:将第一时间序列中不同时间点的数据看作第一目标项目的不同状态,将第一时间序列中不同时间点的数据的变化看作第一目标项目的状态的转换,假设马科夫转换模型中的参数为未知数,将这些状态代入马科夫转换自回归模型,求解马科夫转换自回归模型的参数的值,其中,求解得到的参数值可以称为第一目标值。
本实施例中,马科夫转换自回归模型的一种数学表达式如式(1)所示:
Figure BDA0002449807690000061
其中,et表示随机白噪声并呈0至1之间的正态分布;
Figure BDA0002449807690000062
表示马科夫链St的自回归参数;P表示自回归过程的阶;
Figure BDA0002449807690000063
是马科夫转换自回归模型的系数;
Figure BDA0002449807690000064
表示St的状态方差;St为一个具有q种状态的马科夫链,它的转换概率可定义为一个大小为q×q的矩阵Γ=[′Υa,b],该矩阵中元素′γa,b代表示由状态a转换到状态b的概率,即P(St=b|St-1=a),对于所有的a,b∈St,0<′γa,b<1。
对于时间点t的预测值xt,它的条件概率符合式(2)所示的正态分布:
Figure BDA0002449807690000065
其中,“N()”表示正态分布。
针对上述示例性马科夫转换自回归模型进行拟合时,将第一时间序列中的数据代入式(1)中进行拟合,即可得到式(1)中的
Figure BDA0002449807690000066
Figure BDA0002449807690000067
其中,xt即为第一时间序列中第t个时间点的数据。
S130,使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定所述第一预测数据时,所述马科夫转换自回归模型中参数的值为所述第一目标值。
也就是说,将S120中拟合得到参数的第一目标值代入马科夫转换自回归模型中,然后利用代入第一目标值之后的马科夫转换自回归模型来依次预测第一时间序列对应的时间点的预测数据,直到预测得到第一目标时间点的数据。
例如,可以先将第一时间序列中第一个时间点的数据作为第一个时间点的预测数据,然后根据第一个时间点的预测数据和式(2)预测第二时间点的预测数据,直到根据第一目标时间之前的时间点的预测数据预测和式(2)得到第一目标时间点的预测数据。为了后续描述方面,将第一目标时间点的预测数据称为第一预测数据。
传统的自回归模型,例如基于统计的自回归模型中,通常是假设同一变量的前期历史数据与当前时期数据之间呈线性关系。但是,在很多项目中,例如对于时间跨度很大的工程类运营项目,不同的时间点所呈现出的运营指标很可能不是线性关系,这种情况下,如果仍然使用传统的基于统计的自回归模型来预测数据,并进一步基于该预测数据来对该项目进行异常识别,往往会出现误警报的现象,从而降低异常识别的有效性。
而本实施例中,将第一时间序列中不同时间点的数据看作第一目标项目的不同状态,将第一时间序列中不同时间点的数据的变化看作第一目标项目的状态的转换,并使用马科夫转换自回归模型来对第一目标项目的第一时间序列中的数据进行拟合,可以得到马科夫转换自回归模型中的参数值,从而可以进一步利用该参数值和该马科夫转换自回归模型基于前期历史数据来确定第一目标时间点的预测数据。
因此,使用本实施例的方法,即使前后时间点的数据之间为非线性关系或前后时间点之间的数据呈非正态分布,例如,第一目标项目包括多个具有多个阶段且这多个阶段间的数据呈跳跃性变化,马科夫转换自回归模型也可以根据前面时间点的数据推测得到后面时间点的数据,从而可以继续后续操作,即根据预测的数据来确定第一目标项目是否异常,进而可以避免异常误识别,最终提高异常的识别准确率。
本实施例中,第一目标项目的第一目标时间点可以是第一目标项目的T1个时间点中的任意时间点。例如,第一目标时间点可以是第一时间序列中的最后一个时间点,该最后一个时间点也可以称为最大时间点。
S140,基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,所述第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。
异常识别的目的在于发现数据集中的小概率事件或小概率模式。所谓的异常可以理解为数据集中的小部分对象,该小部分对象与数据集中的其它数据表现不一致或者大大地偏离其它数据以至于被怀疑是由不同的机制生成的。异常也可以称为孤立点、异常点。异常识别是科学风险控制体系中的重要一环,在公司的智能化运营与风险揭示体系中,承载着客观地,及之地与有效地揭示风险的使命。
基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,可以包括:根据第一预测数据和第一实际数据确定第一目标项目是否存在异常;或者,可以包括:根据第一预测数据和第一实际数据确定第一目标项目的异常风险值。
本实施例的异常识别方法中,先通过第一目标项目的真实时间序列中的数据来拟合马科夫转换自回归模型的参数值,然后再将这些参数值带回马科夫转换自回归模型,并利用该马科夫转换自回归模型来预测第一目标项目中的第一目标时间点的预测数据,这样,基于该预测数据与第一目标时间点的真实数据,可以对该第一目标项目进行异常识别。
此外,即使目标项目的时间序列中的数据呈非线性或非正态分布,该方法使用马科夫转换自回归模型仍然可以对该时间序列进行拟合,以及正确预测出目标时间点的预测数据,从而可以避免因不能正确获得目标项目的预测数据而导致异常识别错误的问题。也就是说,本申请提出的异常识别方法可以提高异常识别的准确率。
时间序列数据的传统异常识别方法中,会将时间序列数据中于标准信号或者常见信号而言的离群数据识别为异常。
在一些应用场景中,第一目标项目在第一目标时间点的第一实际数据可以包括一个或多个维度的数据,为了描述方面,将第一实际数据的数据维度即为M,M为正整数。
这些应用场景中,基于第一预测数据和第一实际数据,对第一目标项目进行异常识别,可以包括:根据第一预测数据和第一实际数据,确定第一实际偏差率信息,第一实际偏差率信息用于表示M个第一实际偏差率的概率分布,这M个第一实际偏差率中的第k个第一实际偏差率为第一实际数据中的第k维数据相对于第一预测数据中的第k维数据的偏差率,k为正整数且从1取至M;根据第一实际偏差率信息和第一基准偏差率信息,对第一目标项目进行异常识别,第一基准偏差率信息用于表示M个第一基准偏差率的概率分布,这M个第一基准偏差率中的第k个第一基准偏差率为第一基准项目的时间序列中位于第一目标时间点的第k维数据相对于第一基准项目位于第一目标时间点的第k维预测数据的偏差率,第一基准项目与所述第一目标项目为类型相同的不同项目。
该实现方式中,获取目标项目在目标时间点的每个维度的实际数据和每个维度的预测数据,并可以根据同一纬度的实际数据和预测数据确定该维度实际数据的偏差率,以及根据每个维度的实际数据的偏差率确定这M维数据的概率分布情况,然后再对该概率分布情况和目标时间点的基准概率分布情况进行进一步的分析,以根据分析结果确定目标项目是否异常。
该实现方式通过获取M个维度数据的偏差率的概率分布以及对该概率分布进行统一分析,使得即使目标项目的目标时间点的数据是多维的,也可以将多个维度的数据关联起来,从整体上来分析目标项目是否异常,从而可以提高异常识别的准确率。此外,该实现方式关联多维数据的方式较为简便,容易实现。
根据第一预测数据和第一实际数据确定第一实际偏差率信息,可以包括:计算第一预测数据中每个维度的预测数据和第一实际数据中同一维度的实际数据之间的差值,并计算该每个维度的数据差值与第一实际数据中同一维度的实际数据的比值,将该比值作为第一目标时间点的该维度的数据偏差率;根据所有维度的数据偏差率确定所有维度数据偏差率的概率分布情况,并通过第一实际偏差率信息来标识该概率分布。
若将第一目标时间点记为t,则第一目标时间点的第k维的数据偏差率可以通过式(3)计算得到。
Figure BDA0002449807690000081
其中,rt k表示第一目标时间点的第k维数据偏差率,
Figure BDA0002449807690000082
表示第一目标时间点的第k维实际数据,
Figure BDA0002449807690000083
表示第一目标时间点的第k维预测数据,k的取值从1取至M,且为整数。
在一些实现方式中,可以通过softmax函数,基于M个维度的数据偏差率,确定这M个维度数据偏差率的概率分布情况。例如,可以通过式(4)计算这M个维度数据偏差率的概率分布。
Figure BDA0002449807690000084
本实施例中,在一些可能的实现方式中,获得第一目标项目在第一目标时间点的第一实际偏差率信息之后,可以根据第一实际偏差率信息和第一基准偏差率信息,对第一目标项目进行异常识别。例如,可以根据第一实际偏差率信息和第一基准偏差率信息,确定第一实际偏差率信息和第一基准偏差率信息之间的相对熵,为了后续描述方便,将该相对熵称为第一相对熵;根据第一相对熵,确定第一目标项目在第一目标时间点的第一异常风险分值;以及根据第一异常风险分值对第一目标项目进行异常识别。
其中,相对熵(relative entropy),又被称为KL散度(Kullback-Leiblerdivergence,KLD)或信息散度(information divergence),是两个概率分布(probabilitydistribution)间差异的非对称性度量。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。
该实现方式中,基于目标时间点的实际偏差率信息和基准偏差率信息对目标项目进行异常识别时,可以先计算实际偏差率信息与基准偏差率信息的相对熵,然后根据该相对熵的大小来对目标项目进行异常风险打分,以及根据异常风险分值来确定目标项目是否存在异常。计算实际偏差率信息与基准偏差率信息的相对熵的一种方式如式(5)所示。
Figure BDA0002449807690000091
其中,rt'表示第一实际数据的M维数据偏差率的概率分布,rt”表示第一预测数据的M维数据偏差率的概率分布,DKL(rt'||rt”)表示第一相对熵。
在一些实现方式中,第一目标时间点的基准偏差率信息可以有多个,即存在多个第一基准偏差率信息,这多个第一基准偏差率信息与多个不同的历史项目一一对应,且每个第一基准偏差率信息是由对应的历史项目在第一目标时间点的预测数据和实际数据确定的。这种实现方式中,可以循环计算第一实际偏差率信息与每一个第一基准偏差率信息的相对熵,并将计算得到的多个相对熵的平均值作为最终的相对熵,然后根据该最终的相对熵确定第一目标项目是否存在异常。
在一些实现方式中,根据相对熵确定第一目标项目是否异常时,可以根据该相对熵确定第一目标项目的异常风险分值,并基于该异常风险分值确定第一目标项目是否异常。例如,可以将该相对熵作为第一目标项目的异常风险分值。为了后续描述方便,可以将第一目标项目的异常风险分值称为第一异常风险分值。
在一些实现方式中,基于第一异常风险分值确定第一目标项目是否异常时,可以将第一异常风险分值与预设的阈值进行比较,若大于该阈值,则可以确定第一目标项目异常。
在一些实现方式中,可以获取多个与第一目标项目类型相同的不同目标项目,并采用上述相同的方式获取每一个目标项目的异常风险分值;然后可以将这第一目标项目和这多个目标项目中异常风险分值排在前面S位的目标项目确定为异常项目,S可以是预设的正整数。
也就是说,有多个类型相同的目标项目进行异常识别时,可以使用前述方法获取每个目标项目的异常风险分值,然后将异常风险分值排在前S位的目标项目确定为存在异常风险的项目。这样,可以优先获知异常风险大的项目并对这些项目进行安全处理,以减少损失。
在一些应用场景中,上述包含第一目标项目在内的多个目标项目的目标时间点可以相同,也可以不相同。
例如,多个目标项目的目标时间点为各自的最后一个时间点,且这多个目标项目当前所处的阶段不同时,这多个目标项目的目标时间点也就不同。
例如,在大型工程经营管理领域,项目的重要经营指标(例如核算收入,成本,贡献毛利等)往往以时间序列数据的形式存在着,由于不同的项目会处于不同的阶段,导致各个项目之间的经营指标时序长度上的不同(项目处于初始阶段,冲刺阶段,收尾阶段),即各个项目的当前最大时间点不同。
本实施例的方法中,因为是使用各个项目的目标时间点的实际偏差率信息和目标时间点的基准偏差率信息来计算各个项目的异常风险分值,且根据异常风险分值来进行异常识别,所以,即使各个目标项目的目标时间点不同,即所处的阶段不同,也可以使用本申请的方法确定这多个项目中的异常项目,从而实现异常识别。
本实施例的方法中的各个时间点的基准偏差率信息的获取方式可以参考实际偏差率信息的获取方式。
例如,获取第一基准项目的时间序列,第一基准项目的时间序列包括多个时间点的数据,所述多个时间点中每个时间点的数据中包括M个维度的数据;使用马科夫转换回归模型对第一基准项目的时间序列进行拟合,以确定马科夫转换自回归模型的参数的第一基准值;使用马科夫转换自回归模型,确定第一基准项目的时间序列中每个时间点的M维预测数据,其中,确定所述每个时间点的M维预测数据时,所述马科夫转换自回归模型的参数的值为所述第一基准值;基于所述每个时间点的第k维预测数据和所述每个时间点的第k维实际基准数据,确定所述每个时间点的第k维实际基准数据的偏差率,所述每个时间点的第k维实际基准数据为所述第一基准项目的时间序列中位于所述每个时间点的第k维数据;基于所述每个时间点的M维实际基准数据的偏差率,确定所述每个时间点的基准偏差率信息,所述每个时间点的基准偏差率信息用于表示所述每个时间点的M维实际基准数据的偏差率的概率分布。
也就是说,若一个项目作为待识别的项目,则可以仅获取该项目中的一个目标时间点(例如最大时间点)的实际偏差率信息,并根据该实际偏差率信息与该目标时间点的基准偏差率信息进行异常识别;若一个项目作为基准项目,则可以获取该项目中每个时间点的实际偏差率信息,并记录这些实际偏差率信息,以便于对其他项目进行异常识别时,这些实际偏差率信息可以作为基准偏差率信息对其他项目进行异常识别。
通常来说,基准项目为已完成的项目,且经过相关领域的专家评估过该项目没有异常,或者或异常较小,可以忽略。
本申请提出的一种方法中,可以对待处理的项目进行标记,以区分该项目是待识别的项目还是基准项目。这样,在获取数据偏差率时,若根据上述标记确定该项目为待识别项目,则可以仅获取该项目的一个目标时间点的实际偏差率信息,并继续根据该实际偏差率信息与基准偏差率信息对该项目进行异常识别;若根据上述标记确定该项目为基准项目,则可以获取该项目每一个时间点的实际偏差率信息,并将这些实际偏差率信息记录下来作为基准偏差率信息,且可以不用根据该实际偏差率信息对该项目进行异常识别。
本实施例的上述内容中涉及的时间序列可以是各个项目的原始时间序列,也可以是经过预处理得到的时间序列。此处所述的预处理可以包括标准化处理、扩展平均处理和方差处理中的一种或多种处理。
例如,待处理的项目(例如目标项目或基准项目)的原始时间序列中的各个维度的数据之间的计量单位不一样,或者不同项目的原始时间序列中相同维度的数据之间的计量单位不一样的情况下,可以先对项目的原始时间序列进行标准化处理,以去除计量单位的影响。
对原始时间序列进行标准化处理时,针对每个时间点中的每个维度的数据,将该数据除上原始时间序列中的指定时间点中同一维度的数据。例如,指定时间点可以是原始时间序列中的第一个时间点。
对项目的原始时间序列或者标准化处理后的时间序列进行扩展平均处理,可以使得处理后的时间序列更加平滑,以消除数据中的噪音,从而可以避免噪音对候选异常识别的干扰,进而提高异常识别的准确率。
例如,可以将第一个时间点至第t个时间点的数据的和除上t的结果作为扩展平均处理后的第t个时间点的数据,t为正整数,且小于或等于待处理的时间序列的长度。
对项目的原始时间序列、标准化处理后的时间序列或扩展平均后的时间序列进行方差处理,可以提高时间序列的平稳性,从而可以帮助模型更好地捕捉时间序列中的数据的特征,进而提高异常识别的准确率。
例如,可以将待处理的时间序列中第t个时间点的数据减去第t-1个时间点的数据的结果作为方差处理后第t个时间点的数据,t为大于1的正整数,且小于或等于待处理的时间序列的长度,其中,可以将待处理时间序列中的第一时间点的数据作为第一个时间点方差处理后的数据。
图2为本申请的一个实施例的异常识别方法的示例性流程图。如图2所示,该方法可以包括S201至S212。
假设给定N个M维的不同长度的时间序列Y=<Y1,Y2,…,Yi,…YN>,其中,Yi表示第i个时间序列,i为整数,且i从1取至N,M为正整数,N为正整数;第i个时间序列表示为
Figure BDA0002449807690000111
其中,Yi,t表示第i个时间序列中第t个时间点的数据,t为整数,且t从1取至Ti,Ti为第i个时间序列的长度;第i个时间序列中的第t个时间点的数据Yit可以进一步表示为
Figure BDA0002449807690000112
表示第i个时间序列中第t个时间点的第k维数据,k为整数,且从1取至M。假设还给定时间序列标签L=(l1,l2,…,li,…,lN),其中,li为0或1。若li为0,表示第i个时间序列归为训练时间序列,即第i个时间序列对应的项目作为基准项目;若li为1,则表示第i个时间序列为打分时间序列,即第i个时间序列对应的项目为待识别的目标项目。
这N个时间序列中,可以包括基于专家提供的规则针对指定项目或任务生成的时间序列,也可以包括指定项目或任务的实际时间序列,且该实际时间序列中每个时间点的数据均满足指定要求。
S201,标准化处理。该步骤可以由标准化生成器执行。
例如,对于给定的第i个时间序列,针对时间点t的第k个维度的数据
Figure BDA0002449807690000113
根据公式(6)进行归原标准化的预处理。
Figure BDA0002449807690000114
其中,i∈{1,2,…,N},k∈{1,2,…,M},t∈{1,2,…,Ti}。
原始时间序列可能存在计量单位的不同,通过归原标准化可以实现不同维度之间的可比性,也是不同时间序列之间异常打分与风险排序的基础。
S202,扩展平均处理。该步骤可以由平滑生成器执行。
对于标准化处理后的时间序列Y'=<Y1',Y2',…,Yi',…YN'>,
Figure BDA0002449807690000115
Figure BDA0002449807690000116
可以通过公式(7)进行扩展平均处理。
Figure BDA0002449807690000117
其中,i∈{1,2,…,N},k∈{1,2,…,M},t∈{1,2,…,Ti}。
扩展平均能使时间序列变得更加平滑,帮助消除潜在的数据噪音,以消除数据噪音对于后续异常识别算法的干扰。
S203,方差处理。该步骤可以由差分生成器处理。
对于扩展平滑后的时间序列Y”=<Y1”,Y2”,…,Yi”,…YN”>,
Figure BDA0002449807690000121
Figure BDA0002449807690000122
可以通过公式(8)进行方差处理。方差处理可以称为差分处理。
Figure BDA0002449807690000123
其中,i∈{1,2,…,N},k∈{1,2,…,M},t∈{2,…,Ti}。
方差处理能有效去除时间序列中的一些变化特征来平稳它的均值,从而提高时间序列的平稳性,帮助预测模型更好地捕捉时间序列数据中稳定的预测特征。
方差处理后得到目标时间序列Y”'=<Y1”',Y2”',…,Yi”',…YN”'>,
Figure BDA0002449807690000124
Figure BDA0002449807690000125
i∈{1,2,…,N},k∈{1,2,…,M},t∈{2,…,Ti}。
本实施例中,S201至S203可以统称为时间序列的预处理。预处理之后可以输出处理完成的时间序列,输出处理完成的时间序列的过程可以由输出生成器实现。
S204,使用马科夫转化自回归模型对目标时间序列进行拟合。
例如,使用马科夫转化自回归模型,对预处理后的每个目标时间序列的每个维度,进行单独的拟合。
马科夫转换自回归模型的一种数学表达式如公式(1)所示。也就是说,可以利用公式(2)对每个时间序列的每个维度的数据单独进行拟合。其中,针对每个时间序列,xt为S203中的
Figure BDA00024498076900001212
拟合后,针对每个时间序列的每个维度的数据,可以得到对应的模型参数值。
S205,使用马科夫转换自回归模型进行数据预测。
例如,将每个时间序列的每个维度的数据对应的模型参数值代入马科夫转换模型后,可以利用公式(2)预测得到该时间序列的该维度的预测数据。
S206,计算偏差率。
假设第i个时间序列中第t个时间点的第k个维度的实际数据记为
Figure BDA0002449807690000126
S205中预测得到的第i个时间序列中第t个时间点的第k个维度的预测数据记为
Figure BDA0002449807690000127
则可以通过公式(9)来计算第i个时间序列中第t个时间点的第k个维度的数据的偏差率
Figure BDA0002449807690000128
Figure BDA0002449807690000129
其中,i∈{1,2,…,N},k∈{1,2,…,M},t∈{2,…,Ti}。
S207,计算偏差率的概率分布。
若第i个时间序列第t个时间点上的M个维度的数据偏差率记为
Figure BDA00024498076900001210
则可以通过Softmax函数的转换,得到第i个时间序列在时间点t上的偏差率的概率分布。具体地,可以通过公式(10)计算得到第i个时间序列在时间点t上的偏差率的概率分布。
Figure BDA00024498076900001211
S208,针对每个时间序列,判断该时间序列是训练时间序列还是打分时间序列。若是训练时间序列,则执行S209,否则执行S210。
具体地,可以根据每个时间序列对应的标签判断该时间序列是训练时间序列还是打分时间序列,其中,标签为0,表示对应的时间序列为训练时间序列;标签为0,则对应的时间序列为打分时间序列。
S209,生成基准偏差率信息。
具体地,记录训练时间序列中每个时间点的数据偏差率的概率分布。所有训练时间序列的素有时间点的偏差率概率分布构成的集合可以称为基线库。
S210,生成实际偏差率信息。
具体地,只保留打分时间序列的最大时间点的偏差率概率分布。
S211,计算异常风险分值。
异常风险分值的计算只针对于打分时间序列。例如,针对一个打分时间序列,可以计算该打分时间序列的最大时间点的偏差率概率分布与基线库中对应该最大时间点的偏差率概率分布之间的KLD距离。若基线库中包括了多个该最大时间点的偏差率概率分布,则计算该打分时间序列的最大时间点的偏差率概率分布与基线库中对应该最大时间点的每个偏差率概率分布之间的KLD距离,并计算得到的所有KLD距离的平均值作为该打分时间序列的异常风险分值。
若第i个时间序列为打分时间序列,且将其在最大时间点Ti的偏差率概率分布即为
Figure BDA0002449807690000131
k∈{1,2,…,M};若基线库中包括X个对应时间点Ti的偏差率概率分布,且这X个偏差率概率分布中的第j个偏差率概率分布记为
Figure BDA0002449807690000132
k∈{1,2,…,M},j∈{1,2,…,X},则该打分时间序列的异常风险分值outi,T的示例性计算公式如式(11)所示。
Figure BDA0002449807690000133
通常,在基于基准偏差率和实际偏差率计算异常风险分值时,可以先对齐这两种偏差率的时间戳。
S212,异常风险分值排序。
在计算完成所有打分时间序列的异常风险分值之后,可以先对所有异常风险分值进行[0,1]的线性归一化处理。例如,假设N个时间序列均为打分时间序列,这N个时间序列的异常风险分值记为o=(o1,o2,…,oN),则对这N个异常风险分值中的第i个异常风险分值oi进行归一化处理时,可以通过公式(12)来实现。
Figure BDA0002449807690000134
其中,omin表示N个异常风险分值中里面的最小值,omax表示这N个异常风险分值中里面的最大值,
Figure BDA0002449807690000135
表示对oi进行归一化处理得到的结果。
基于归一化的结果,可进一步通过公式(13)确定这N个异常风险分值中第i个异常风险分值归一化后的结果
Figure BDA0002449807690000136
的排名Ranki
Figure BDA0002449807690000137
其中,
Figure BDA0002449807690000138
表示N个归一化后的异常风险分值中小于
Figure BDA0002449807690000139
的个数。
本实施例中,异常风险分值与排名以及对应的时间序列标识会作为最后的输出,帮助风险专家更好地定位风险。
本实施例不依赖于风险先验知识,通过学习历史各个时间序列中各个时间点中各个维度上的普遍偏差率规律,并根据这些普遍偏差率规律来对当前的时间序列的最大时点的异常风险进行量化打分与评估。其中,利用马可夫转换自回归模型对时间序列进行拟合,可以更好地拟合阶段性转变类的时间序列异常(例如工程实施类项目的经营指标的时间序列的异常),并且可以动态地运用最适配的参数来预测各个时间点的数据,从而可以有效降低异常误警报率。此外,本实施例的方法可以对多维度时间序列进行异常打分,以及可以对不同长度的时间序列进行异常打分与排名。
本实施例应用在管理服务项目异常经营恶化项目的识别中,对2019年7月正在交付中的328个项目做风险的识别与量化之后,从打分排名前30的项目中,成功识别10个管控中的重大风险项目,识别率达到了30%。对于风险定位效率的评估,从排名前三十的项目中成功识别27个初始至今(initial to date,ITD)实际恶化额项目与16个ITD实际贡毛恶化项目,识别率分别为90%和53%。
图3为本申请一个实施例的识别项目异常的装置300的示意性结构图。该装置可以包括获取模块310、拟合模块320、确定模块330和识别模块340。装置300可以实现图1或图2中的方法。
例如,获取模块310可以用于执行S110,拟合模块320可以用于执行S120,确定模块330可以用于执行S130,识别模块340可以用于执行S140。
又如,获取模块310可以用于执行S201至S203,拟合模块320可以用于执行S204,确定模块330可以用于执行S205,识别模块340可以用于执行S206至S212。
图4为本申请一个实施例的识别项目异常的装置的示意性部署图。如图4所示,识别项目异常的装置可以由云服务提供商在云服务平台抽象成一种云服务提供给用户,用户在云服务平台购买该云服务后,云环境利用该云服务向用户提供识别项目异常的云服务。
例如,用户可以通过应用程序接口(application program interface,API)或者通过云服务平台提供的网页界面上传待识别的项目的时间序列至云环境,由识别项目异常的装置接收待识别的项目的时间序列,并使用图1或图2所示的方法识别该项目的异常,最终的识别结果由识别项目异常的装置返回至用户所在的边缘设备。
当识别项目异常的装置为软件装置时,该装置也可以单独部署在任意环境的一个计算设备上,例如,单独部署在一个计算设备上或者单独部署在数据中心中的一个计算设备上。
图5为本申请一个实施例的计算设备的示例性结构图。如图5所示,计算设备500包括总线501、处理器502、通信接口503和存储器504。
处理器502、存储器504和通信接口503之间通过总线通信。其中,处理器502可以为中央处理器。存储器504可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器504还可以包括非易失性存储器(2non-volatilememory,2NVM),例如只读存储器(2read-only memory,2ROM),快闪存储器,硬盘驱动器(hard disk drive,HDD)或固态启动器(solid state disk,SSD)。存储器504中存储有识别项目异常的装置所包括的可执行代码,处理器502读取存储器504中的该可执行代码以执行识别项目异常的方法。存储器504中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUXTM,UNIXTM,WINDOWSTM等。
例如,存储器504中存储有基准偏差率以及根据基准偏差率识别项目异常的可执行代码;处理器502读取并执行这些可执行代码,以识别项目是否存在异常。
其中,计算设备500根据基准偏差率识别项目异常的实现方式,可以参考图1或图2中的相关内容。
图6为本申请一个实施例的系统架构600的示意图。执行设备610由一个或多个服务器实现,可选的,可以与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备。执行设备610可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备610可以使用数据存储系统650中的数据,或者调用数据存储系统650中的程序代码实现本申请中的识别项目异常的方法,例如图1或图2所示的方法。
用户可以操作各自的用户设备(例如本地设备601和本地设备602)与执行设备610进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备610进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
例如,执行设备610中可以部署有基准偏差率;本地设备602采集到待识别项目的时间序列之后,可以向执行设备610上传该时间序列;执行设备610基于该基准偏差率对该时间序列进行异常识别。
在另一种实现中,执行设备610的一个方面或多个方面可以由每个本地设备实现,例如,本地设备601可以为执行设备610提供本地数据或反馈计算结果。
需要注意的,执行设备610的所有功能也可以由本地设备实现。例如,本地设备601实现执行设备610的功能并为自己的用户提供服务,或者为本地设备602的用户提供服务。
本申请一个实施例的识别项目异常的装置中,可以包括图5中所示的处理器502、存储器504和通信接口503,该实施例的装置中的处理器502、存储器504和通信接口503之间可以执行图1或图2中的方法。
本申请一个实施例的芯片汇总,可以包括图5中所示的处理器502、存储器504和通信接口503,该实施例的装置中的处理器502、存储器504和通信接口503之间可以执行图1或图2中的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种识别项目异常的方法,其特征在于,包括:
获取第一目标项目的第一时间序列,所述第一时间序列中包括T1个时间点的数据,T1为正整数;
使用马科夫转换自回归模型对所述第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值;
使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定所述第一预测数据时,所述马科夫转换自回归模型中参数的值为所述第一目标值;
基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,所述第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。
2.根据权利要求1所述的方法,其特征在于,所述第一实际数据和所述第一预测数据均包括M个维度的数据,M为正整数;
其中,所述基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,包括:
根据所述第一预测数据和所述第一实际数据,确定第一实际偏差率信息,所述第一实际偏差率信息用于表示M个第一实际偏差率的概率分布,所述M个第一实际偏差率中的第k个第一实际偏差率为所述第一实际数据中的第k维数据相对于所述第一预测数据中的第k维数据的偏差率,k为正整数且从1取至M;
根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,所述第一基准偏差率信息用于表示M个第一基准偏差率的概率分布,所述M个第一基准偏差率中的第k个第一基准偏差率为第一基准项目的时间序列中位于所述第一目标时间点的第k维数据相对于所述第一基准项目位于所述第一目标时间点的第k维预测数据的偏差率,所述第一基准项目与所述第一目标项目为类型相同的不同项目。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,包括:
根据所述第一实际偏差率信息和所述第一基准偏差率信息,确定所述第一实际偏差率信息和所述第一基准偏差率信息之间的第一相对熵;
根据所述第一相对熵,确定所述第一目标项目在所述第一目标时间点的第一异常风险分值;
根据所述第一异常风险分值对所述第一目标项目进行异常识别。
4.根据权利要求3所述的方法,其特征在于,所述第一目标项目为N个目标项目中的一个,所述第一异常风险分值为N个异常风险分值中的一个,所述N个异常风险分值与所述N个目标项目一一对应,所述N个异常分析分值中除所述第一异常风险分值以外的任意异常风险分值的获取方式与所述第一异常风险分值的获取方式相同,N为大于1的整数,所述N个目标项目的类型相同;
其中,所述根据所述第一异常风险分值对所述第一目标项目进行异常识别,包括:
所述第一异常风险分值大于所述N个异常风险分值中的S个异常风险分值时,确定所述第一目标项目存在异常,S为预设的正整数。
5.根据权利要求4所述的方法,其特征在于,所述N个异常风险分值的第二异常风险值为所述N个目标项目中的第二目标项目在第二目标时间点的异常风险分值,所述第二时间点与所述第一时间点为不同的时间点。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述第一基准项目的时间序列,所述第一基准项目的时间序列包括多个时间点的数据,所述多个时间点中每个时间点的数据包括M个维度的数据;
使用所述马科夫转换回归模型对所述第一基准项目的时间序列进行拟合,以确定所述马科夫转换自回归模型的参数的第一基准值;
使用所述马科夫转换自回归模型,确定所述第一基准项目的时间序列中每个时间点的M维预测数据,其中,确定所述每个时间点的M维预测数据时,所述马科夫转换自回归模型的参数的值为所述第一基准值;
基于所述每个时间点的第k维预测数据和所述每个时间点的第k维实际基准数据,确定所述每个时间点的第k维实际基准数据的偏差率,所述每个时间点的第k维实际基准数据为所述第一基准项目的时间序列中位于所述每个时间点的第k维数据;
基于所述每个时间点的M维实际基准数据的偏差率,确定所述每个时间点的基准偏差率信息,所述每个时间点的基准偏差率信息用于表示所述每个时间点的M维实际基准数据的偏差率的概率分布。
7.一种识别项目异常的装置,其特征在于,包括:
获取模块,用于:获取第一目标项目的第一时间序列,所述第一时间序列中包括T1个时间点的数据,T1为正整数;
拟合模块,用于:使用马科夫转换自回归模型对所述第一时间序列进行拟合,以确定所述马科夫转换自回归模型中的参数的第一目标值;
确定模块,用于:使用所述马科夫转换自回归模型,确定所述T1个时间点中的第一目标时间点的第一预测数据,其中,确定所述第一预测数据时,所述马科夫转换自回归模型中参数的值为所述第一目标值;
识别模块,用于:基于所述第一预测数据和第一实际数据,对所述第一目标项目进行异常识别,所述第一实际数据包括所述第一时间序列中位于所述第一目标时间点的数据。
8.根据权利要求7所述的装置,其特征在于,所述第一实际数据和所述第一预测数据均包括M个维度的数据,M为正整数;
其中,所述识别模块具体用于:
根据所述第一预测数据和所述第一实际数据,确定第一实际偏差率信息,所述第一实际偏差率信息用于表示M个第一实际偏差率的概率分布,所述M个第一实际偏差率中的第k个第一实际偏差率为所述第一实际数据中的第k维数据相对于所述第一预测数据中的第k维数据的偏差率,k为正整数且从1取至M;
根据所述第一实际偏差率信息和第一基准偏差率信息,对所述第一目标项目进行异常识别,所述第一基准偏差率信息用于表示M个第一基准偏差率的概率分布,所述M个第一基准偏差率中的第k个第一基准偏差率为第一基准项目的时间序列中位于所述第一目标时间点的第k维数据相对于所述第一基准项目位于所述第一目标时间点的第k维预测数据的偏差率,所述第一基准项目与所述第一目标项目为类型相同的不同项目。
9.根据权利要求8所述的装置,其特征在于,所述识别模块具体用于:
根据所述第一实际偏差率信息和所述第一基准偏差率信息,确定所述第一实际偏差率信息和所述第一基准偏差率信息之间的第一相对熵;
根据所述第一相对熵,确定所述第一目标项目在所述第一目标时间点的第一异常风险分值;
根据所述第一异常风险分值对所述第一目标项目进行异常识别。
10.根据权利要求9所述的装置,其特征在于,所述第一目标项目为N个目标项目中的一个,所述第一异常风险分值为N个异常风险分值中的一个,所述N个异常风险分值与所述N个目标项目一一对应,所述N个异常分析分值中除所述第一异常风险分值以外的任意异常风险分值的获取方式与所述第一异常风险分值的获取方式相同,N为大于1的整数,所述N个目标项目的类型相同;
其中,所述识别模块具体用于:
在所述第一异常风险分值大于所述N个异常风险分值中的S个异常风险分值时,确定所述第一目标项目存在异常,S为预设的正整数。
11.根据权利要求10所述的装置,其特征在于,所述N个异常风险分值的第二异常风险值为所述N个目标项目中的第二目标项目在第二目标时间点的异常风险分值,所述第二时间点与所述第一时间点为不同的时间点。
12.根据权利要求11所述的装置,其特征在于,所述获取模块还用于:获取所述第一基准项目的时间序列,所述第一基准项目的时间序列包括多个时间点的数据,所述多个时间点中每个时间点的数据包括M个维度的数据;
所述拟合模块还用于:使用所述马科夫转换回归模型对所述第一基准项目的时间序列进行拟合,以确定所述马科夫转换自回归模型的参数的第一基准值;
所述确定模块还用于:使用所述马科夫转换自回归模型,确定所述第一基准项目的时间序列中每个时间点的M维预测数据,其中,确定所述每个时间点的M维预测数据时,所述马科夫转换自回归模型的参数的值为所述第一基准值;
所述确定模块还用于:基于所述每个时间点的第k维预测数据和所述每个时间点的第k维实际基准数据,确定所述每个时间点的第k维实际基准数据的偏差率,所述每个时间点的第k维实际基准数据为所述第一基准项目的时间序列中位于所述每个时间点的第k维数据;
所述确定模块还用于:基于所述每个时间点的M维实际基准数据的偏差率,确定所述每个时间点的基准偏差率信息,所述每个时间点的基准偏差率信息用于表示所述每个时间点的M维实际基准数据的偏差率的概率分布。
13.一种识别项目异常的装置,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述存储器用于存储指令;
所述处理器用于执行所述存储器中存储的指令,以使得所述装置执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读介质,其特征在于,包括指令,当所述指令在处理器上运行时,使得所述处理器执行如权利要求1至6中任一项所述的方法。
CN202010289409.5A 2020-04-14 2020-04-14 识别项目异常的方法和装置 Pending CN113537659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010289409.5A CN113537659A (zh) 2020-04-14 2020-04-14 识别项目异常的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010289409.5A CN113537659A (zh) 2020-04-14 2020-04-14 识别项目异常的方法和装置

Publications (1)

Publication Number Publication Date
CN113537659A true CN113537659A (zh) 2021-10-22

Family

ID=78087835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010289409.5A Pending CN113537659A (zh) 2020-04-14 2020-04-14 识别项目异常的方法和装置

Country Status (1)

Country Link
CN (1) CN113537659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031545A (zh) * 2022-06-09 2022-09-09 佛山众陶联供应链服务有限公司 用马科夫链测算窑炉温度点对瓷砖变形影响的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031545A (zh) * 2022-06-09 2022-09-09 佛山众陶联供应链服务有限公司 用马科夫链测算窑炉温度点对瓷砖变形影响的方法及系统

Similar Documents

Publication Publication Date Title
Verbraken et al. Development and application of consumer credit scoring models using profit-based classification measures
Sensini Selection of Determinants in Corporate Financial Distress
CN110400022B (zh) 自助柜员机现金用量预测方法及装置
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
CN110704730A (zh) 基于大数据的产品数据推送方法、系统及计算机设备
CN113095927B (zh) 一种反洗钱可疑交易识别方法及设备
KR102330423B1 (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN117041017B (zh) 数据中心的智能运维管理方法及系统
Luna et al. Adaptive fuzzy system to forecast financial time series volatility
Bidyuk et al. Methods for forecasting nonlinear non-stationary processes in machine learning
Bidyuk et al. Forecasting nonlinear nonstationary processes in machine learning task
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
Dfuf et al. Variable importance analysis in imbalanced datasets: A new approach
Sungkono et al. Patterns of fraud detection using coupled Hidden Markov Model
CN113537659A (zh) 识别项目异常的方法和装置
CN110796379B (zh) 业务渠道的风险评估方法、装置、设备及存储介质
CN116909712A (zh) 基于机器学习的智能任务调度系统及其方法
US20210042318A1 (en) Data processing apparatus, method, and medium storing program
KR102543211B1 (ko) 비정형 기업 데이터를 이용한 기업성장 예측 시스템
CN113095604B (zh) 产品数据的融合方法、装置、设备及存储介质
Zang Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network
CN110570301A (zh) 风险识别方法、装置、设备及介质
Reddy et al. Comparison of Extreme Logistic Regression Algorithm and Random Forest Algorithm for Efficient Prediction of Car Loan Default with Improved Accuracy, Precision, and Recall on Personal Loan Dataset
Zeng et al. Selection Of Variables And Indicators In Financial Distress Prediction Model-Svm Method Based On Sparse Principal Component Analysis
CN115131138A (zh) 基于企业财务稳健度的信用评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination