CN110399903A - 异常数据的检测方法及装置、计算机可读存储介质 - Google Patents

异常数据的检测方法及装置、计算机可读存储介质 Download PDF

Info

Publication number
CN110399903A
CN110399903A CN201910574422.2A CN201910574422A CN110399903A CN 110399903 A CN110399903 A CN 110399903A CN 201910574422 A CN201910574422 A CN 201910574422A CN 110399903 A CN110399903 A CN 110399903A
Authority
CN
China
Prior art keywords
data
target monitoring
monitoring parameter
storage
accounting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910574422.2A
Other languages
English (en)
Other versions
CN110399903B (zh
Inventor
邱景诚
曹倩
顾少丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lake Information Technology Co Ltd
Original Assignee
Shanghai Lake Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lake Information Technology Co Ltd filed Critical Shanghai Lake Information Technology Co Ltd
Priority to CN201910574422.2A priority Critical patent/CN110399903B/zh
Publication of CN110399903A publication Critical patent/CN110399903A/zh
Application granted granted Critical
Publication of CN110399903B publication Critical patent/CN110399903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

一种异常数据的检测方法及装置、计算机可读存储介质,所述异常数据的检测方法,包括:获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。采用上述方案,能够提高异常数据检测的准确度。

Description

异常数据的检测方法及装置、计算机可读存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种异常数据的检测方法及装置、计算机可读存储介质。
背景技术
在大数据时代,通过对数据进行分析,可以从数据中挖掘信息,从而实现数据的使用。
在数据使用过程中,具有偏差的异常数据可能会导致决策者做出错误的决策。对于一些对数据较为敏感的应用场景,如一些根据数据进行全自动操作以及规则引擎等应用场景中,一旦数据出现异常,则会对用户造成较大的影响。
然而,目前对异常数据检测的准确度较低。
发明内容
本发明实施例解决的技术问题为异常数据检测的准确度较低。
为解决上述技术问题,本发明实施例提供一种异常数据的检测方法,包括:获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
可选的,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
可选的,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
可选的,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
可选的,所述计算所述目标监控参数对应的异常数据范围,包括:将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
可选的,所述异常数据的检测方法,还包括:当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
本发明实施例还提供一种异常数据的检测装置,包括:第一获取单元,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;第一计算单元,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;第二获取单元,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;第二计算单元,适于计算所述目标监控参数对应的异常数据范围;输出单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
可选的,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
可选的,所述第一计算单元,适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
可选的,所述第一计算单元,适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
可选的,所述第二计算单元,适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
可选的,所述异常数据的检测装置,还包括:入库单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
本发明实施例还提供一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一异常数据的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一异常数据的检测方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
此外,每个目标监控参数均对应有异常数据范围,从而根据不同的目标监控参数可以为之设定相匹配的异常数据范围,进一步提高异常数据判断的准确度。
附图说明
图1是本发明实施例中的一种异常数据的检测方法的流程图;
图2是本发明实施例中的一种异常数据的检测装置的结构示意图。
具体实施方式
在数据使用过程中,具有偏差的异常数据可能会导致决策者做出错误的决策。对于一些对数据较为敏感的应用场景,如一些根据数据进行全自动操作以及规则引擎等应用场景中,一旦数据出现异常,则会对用户造成较大的影响。然而,目前对异常数据检测的准确度较低。
在本发明实施例中,根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中的一种异常数据的检测方法的流程图。具体可以包括如下步骤:
步骤11,获取目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据。
在具体实施中,目标监控参数的类型可以为连续型;例如,目标监控参数的类型包括金额、年龄等中的至少一种。目标监控参数的类型也可以为类别型;例如,目标监控参数的类型包括性别、户籍所在地以及职业等中的至少一种。
在具体实施中,目标监控参数的数目可以为一个,也可以为多个。当目标监测参数的数目为多个时,多个目标监控参数的类型可以相同,也可以不同,也即多个目标监测参数的类型可以均为连续型,也可以均为类别型,还可以部分目标监控参数为连续型,部分目标监控参数为类别型。
在本发明实施例中,准备入库的数据可以称为待入库数据,在待入库数据入库之前,可以对待入库数据进行检测,确认是否存在异常数据,以确保入库数据的正确性。
在具体实施中,可以获取目标监控参数在当前时间段的待入库数据,以及与当前时间段相邻的前一时间段的参考数据。
在本发明实施例中,每个时间段的时长可以为1天,也可以为2天,还可以为20小时,或者其他取值。例如,时间段的时长为1天,今天为2018年8月8日,则当前时间段为今天,当前时间段相邻的前一时间段为昨天2018年8月7日,可以获取今天的待入库数据以及昨天的参考数据。
步骤12,根据待入库数据以及参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,在获取到待入库数据以及参考数据之后,可以根据待入库数据以及参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标。当目标监控参数得数目为多个时,可以根据每个目标监测参数分别对应的待入库数据以及参考数据,计算每个目标监测参数在当前时间段对应的群体稳定性指标。
在具体实施中,当目标监控参数的类型不同时,目标监测参数在当前时间段对应的群体稳定性指标计算过程有所不同,以下进行举例说明:
在本发明一实施例中,当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
例如,目标监控参数的类型为连续型,如目标监控参数为金额、年龄等。获取目标监控参数前后连续两天的数据,分别记为D1,D2,其中,D1为待入库数据,D2为参考数据。计算D1的最小值、最大值以及9个十分位数,得到v=(min,f1,f2,……,f9,max),以min,f1,f2,……,f9,max为切分点将D1平均划分为10个份额,计算每个份额中的数据的占比,得到10个份额的数据的占比集合P=(p1,p2,……,p10)。计算D2的最小值、最大值以及9个十分位数,得到v’=(min’,f’1,f’2,……,f’9,max’),以min’,f’1,f’2,……,f’9,max’为切分点将D2平均划分为10个份额,计算每个份额中的数据的占比,得到10个份额的数据的占比集合Q=(q1,q2,……,q10)。
可以采用采用如下公式(1)计算目标监控参数在当前时间段对应的群体稳定性指标:
其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
在本发明另一实施例中,当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,当目标监控参数在待入库数据中的类别较多时,可以将相近的类别进行合并,以控制合并之后的目标监控参数的类别数目。例如,目标监控参数合并后的类别数目不超过10个,可以理解的是,合并后的类别数目也可以为其他取值。当目标监控参数为户籍所在地时,户籍所在地取地市,以地市划分时,类别数目为20个,超过10个,为了控制目标监控参数的类别数目,可以将同一省份的地市合并至省,如将南京市、扬州市以及无锡市合并至江苏类别。
例如,目标监控参数为类别型,如性别、户籍省份等。获取目标监控参数前后连续两天的数据,分别记为D1和D2,其中,D1为待入库数据,D2为参考数据。确定D1中目标监控参数的每一个可能的类别的v=(v1,v2,……,vn),计算每个类别的占比,得到P=(p1,p2,……,pn)。确定D2中目标监控参数的可能的类别v’=(v’1,v’2,……,v’n),计算每个类别的占比,得到Q=(q1,q2,……,qn)。若取值过多可先将取值进行适当的合并,把可能的取值数控制在10个以内。可以采用如下公式(2)计算目标监控参数在当前时间段的群体稳定性指标(PSI)值,也即计算P与Q的PSI值:
其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
步骤13,获取目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算目标监控参数对应的异常数据范围。
在具体实施中,可以获取目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标。例如,时间段的时长为1天,可以获取过去一个月内的30个历史时间段分别对应的群体稳定性指标。
在本发明实施例中,可以采用如下方式计算目标监控参数对应的异常数据范围:将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标。计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数,根据所述下四分位数以及所述上四分位数计算四分位距。基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
上四分位是指通过四分位数统计描述分析方法描述偏态数据的离散程度。将全部数据从小到大排列,正好排列在下1/4位置上的数就叫做下四分位数(按照百分比,也就是25%位置上的数),排在上1/4位置上的数就叫上四分位数(按照百分比,也就是75%位置上的数),四分位距就是指上下四分位数之间的差值,也可以称为四分位数间距。
在本发明实施例中,可以采用如下公式(3)计算目标监控参数对应的异常报警阈值:
T=Q3+A*IQR; (3)
其中,IQR为四分位距IQR=Q3-Q1,Q3为上四分位数;Q1为下四分位数,A为容忍度值。
在具体实施中,当计算得到目标监控参数对应的异常报警阈值之后,可以确定目标监控参数对应的异常数据范围。例如,异常数据范围为(T,+∞)。
在具体实施中,根据对异常数据的容忍度的大小设定容忍度值,例如,A取1.5,则T=Q3+1.5*IQR。可以理解的是,容忍度A还可以存在其他取值,当容忍度值取值越大,则对异常数据的容忍度越大。
在具体实施中,一个目标监控参数可以对应一个异常数据范围,也可以对应两个异常数据范围,具体根据实际需求进行设定即可。
例如,获取的15个历史时间段对应的PSI,如表1所示:
表1
Date1 Date2 PSI
2018/5/1 2018/4/30 0.0061
2018/5/2 2018/5/1 0.0052
2018/5/3 2018/5/2 0.0048
2018/5/4 2018/5/3 0.0068
2018/5/5 2018/5/4 0.0045
2018/5/6 2018/5/5 0.0087
2018/5/7 2018/5/6 0.0067
2018/5/8 2018/5/7 0.0097
2018/5/9 2018/5/8 0.0121
2018/5/10 2018/5/9 0.0074
2018/5/11 2018/5/10 0.0072
2018/5/12 2018/5/11 0.0087
2018/5/13 2018/5/12 0.0076
2018/5/14 2018/5/13 0.0068
2018/5/15 2018/5/14 0.0055
将15个历史时间段对应的PSI,按照各历史时间段对应的群体稳定性指标PSI的取值从小到大依次排列,得到排序后的15个群体稳定性指标PSI,如表2所示:
表2
Date1 Date2 PSI
2018/5/5 2018/5/4 0.0045
2018/5/3 2018/5/2 0.0048
2018/5/2 2018/5/1 0.0052
2018/5/15 2018/5/14 0.0055
2018/5/1 2018/4/30 0.0061
2018/5/7 2018/5/6 0.0067
2018/5/4 2018/5/3 0.0068
2018/5/14 2018/5/13 0.0068
2018/5/11 2018/5/10 0.0072
2018/5/10 2018/5/9 0.0074
2018/5/13 2018/5/12 0.0076
2018/5/6 2018/5/5 0.0087
2018/5/12 2018/5/11 0.0087
2018/5/8 2018/5/7 0.0097
2018/5/9 2018/5/8 0.0121
由表2中的15个群体稳定性指标PSI可得到,下四分位数Q1为0.0055,上四分位数Q3为0.0087,计算得到IQR=Q3-Q1=0.0087-0.0055=0.0032,A取1.5,T=Q3+A*IQR=0.0087+1.5*0.0032=0.0135,从而得到异常数据范围为(0.0135,+∞)。
步骤14,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,输出数据异常提醒。
在具体实施中,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则输出异常数据提醒。
在具体实施中,当目标监控参数的数目为多个时,每个目标监控参数对应的异常数据范围可以不同,设定的容忍度取值也可以不同,异常数据范围以及容忍度取值可以根据异常数目的类型、目标监控参数对某业务事件的影响程度等因素进行设定。
在本发明实施例中,当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
例如,目标监控参数在当前时间段对应的群体稳定性指标为0.2001,异常数据范围为(0.0135,+∞),0.2001处于(0.0135,+∞)内,则为异常数据,可以输出异常数据提醒。
又如,目标监控参数在当前时间段对应的群体稳定性指标为0.0079,异常数据范围为(0.0135,+∞),0.0079处于(0.0135,+∞)之外,则为正常数据,可以将目标监控参数在当前时间段对应的待入库数据入库。
由上可知,根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
通过对待入库数据进行检测,可以及时发现数据的异常,便于发现并追溯异常原因,及时对异常情况进行处理,以避免造成损失。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种异常数据的检测装置。
参照图2,给出了本发明实施例中的一种异常数据的检测装置的结构示意图。异常数据的检测装置20可以包括:第一获取单元21、第一计算单元22、第二获取单元23、第二计算单元24以及输出单元25,其中:
第一获取单元21,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
第一计算单元22,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
第二获取单元23,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;
第二计算单元24,适于计算所述目标监控参数对应的异常数据范围;
输出单元25,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
在具体实施中,所述目标监控参数可以包括以下至少一种类型:连续型以及类别型。
在具体实施中,所述第一计算单元22,可以适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,所述第一计算单元22,可以适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
在具体实施中,所述第一计算单元22,可以适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,所述第一计算单元22,可以适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
在具体实施中,所述第二计算单元24,可以适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
在具体实施中,异常数据的检测装置20还可以包括:入库单元26,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
在具体实施中,异常数据的检测装置20的工作原理及工作流程,可以参考本发明提供的上述任一实施例中的异常数据的检测方法中的描述,此处不再赘述。
本发明实施例还提供一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行本发明上述任一实施例所述的异常数据的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述任一实施例所述的异常数据的检测方法的步骤。
需要说明的是,上述涉及到个人隐私的信息,都需要事先获得当事人的授权和许可,仅在获得当事人的授权前提下进行相关操作,而且仅在当事人许可的范围内进行使用。
需要说明的是,上述涉及到个人隐私的信息,都需要事先获得当事人的授权和许可,仅在获得当事人的授权前提下进行相关操作,而且仅在当事人许可的范围内进行使用。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (18)

1.一种异常数据的检测方法,其特征在于,包括:
获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;
当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
2.根据权利要求1所述的异常数据的检测方法,其特征在于,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
3.根据权利要求2所述的异常数据的检测方法,其特征在于,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;
将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;
根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
4.根据权利要求3所述的异常数据的检测方法,其特征在于,所述根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:
其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
5.根据权利要求2所述的异常数据的检测方法,其特征在于,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;
获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;
根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
6.根据权利要求5所述的异常数据的检测方法,其特征在于,所述根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:
其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
7.根据权利要求1~6任一项所述的异常数据的检测方法,其特征在于,所述计算所述目标监控参数对应的异常数据范围,包括:
将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;
计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;
根据所述下四分位数以及所述上四分位数计算四分位距;
基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
8.根据权利要求1~6任一项所述的异常数据的检测方法,其特征在于,还包括:
当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
9.一种异常数据的检测装置,其特征在于,包括:
第一获取单元,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
第一计算单元,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
第二获取单元,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;
第二计算单元,适于计算所述目标监控参数对应的异常数据范围;
输出单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
10.根据权利要求9所述的异常数据的检测装置,其特征在于,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
11.根据权利要求10所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
12.根据权利要求11所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
13.根据权利要求10所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
14.根据权利要求13所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
15.根据权利要求9~14任一项所述的异常数据的检测装置,其特征在于,所述第二计算单元,适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
16.根据权利要求9~14任一项所述的异常数据的检测装置,其特征在于,还包括:入库单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
17.一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的异常数据的检测方法的步骤。
18.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的异常数据的检测方法的步骤。
CN201910574422.2A 2019-06-28 2019-06-28 异常数据的检测方法及装置、计算机可读存储介质 Active CN110399903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910574422.2A CN110399903B (zh) 2019-06-28 2019-06-28 异常数据的检测方法及装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910574422.2A CN110399903B (zh) 2019-06-28 2019-06-28 异常数据的检测方法及装置、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110399903A true CN110399903A (zh) 2019-11-01
CN110399903B CN110399903B (zh) 2021-07-13

Family

ID=68322586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910574422.2A Active CN110399903B (zh) 2019-06-28 2019-06-28 异常数据的检测方法及装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110399903B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925816A (zh) * 2021-02-24 2021-06-08 北京云从科技有限公司 一种异常数据检测方法、装置、机器可读介质及设备
CN113672446A (zh) * 2020-05-14 2021-11-19 百度在线网络技术(北京)有限公司 监控参数确定方法、装置、设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326575B1 (en) * 2009-02-23 2012-12-04 Bank Of America Corporation Machine-based population stability index selection
US20140279378A1 (en) * 2013-03-13 2014-09-18 Bank Of America Corporation Model performance simulator
CN104135521A (zh) * 2014-07-29 2014-11-05 广东省环境监测中心 环境自动监测网络的数据异常值标识方法及系统
CN104408143A (zh) * 2014-12-01 2015-03-11 北京国双科技有限公司 网页数据的监测方法和装置
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及系统
CN105262647A (zh) * 2015-11-27 2016-01-20 广州神马移动信息科技有限公司 一种异常指标检测方法及装置
CN108234524A (zh) * 2018-04-02 2018-06-29 广州广电研究院有限公司 网络数据异常检测的方法、装置、设备及存储介质
CN108460678A (zh) * 2017-02-22 2018-08-28 北京数信互融科技发展有限公司 资产筛选、质量监测、预测全流程互联网金融资产管理云平台
CN109003091A (zh) * 2018-07-10 2018-12-14 阿里巴巴集团控股有限公司 一种风险防控处理方法、装置及设备
CN109241043A (zh) * 2018-08-13 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109615226A (zh) * 2018-12-12 2019-04-12 焦点科技股份有限公司 一种运营指标异常监测方法
CN109740099A (zh) * 2018-12-30 2019-05-10 北京奇艺世纪科技有限公司 一种数据异常定位方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326575B1 (en) * 2009-02-23 2012-12-04 Bank Of America Corporation Machine-based population stability index selection
US20140279378A1 (en) * 2013-03-13 2014-09-18 Bank Of America Corporation Model performance simulator
CN104135521A (zh) * 2014-07-29 2014-11-05 广东省环境监测中心 环境自动监测网络的数据异常值标识方法及系统
CN104408143A (zh) * 2014-12-01 2015-03-11 北京国双科技有限公司 网页数据的监测方法和装置
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及系统
CN105262647A (zh) * 2015-11-27 2016-01-20 广州神马移动信息科技有限公司 一种异常指标检测方法及装置
CN108460678A (zh) * 2017-02-22 2018-08-28 北京数信互融科技发展有限公司 资产筛选、质量监测、预测全流程互联网金融资产管理云平台
CN108234524A (zh) * 2018-04-02 2018-06-29 广州广电研究院有限公司 网络数据异常检测的方法、装置、设备及存储介质
CN109003091A (zh) * 2018-07-10 2018-12-14 阿里巴巴集团控股有限公司 一种风险防控处理方法、装置及设备
CN109241043A (zh) * 2018-08-13 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109615226A (zh) * 2018-12-12 2019-04-12 焦点科技股份有限公司 一种运营指标异常监测方法
CN109740099A (zh) * 2018-12-30 2019-05-10 北京奇艺世纪科技有限公司 一种数据异常定位方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BILAL YURDAKUL: "Statistical Properties of Population Stability Index", 《SCHOLARWORKS AT WMU》 *
李波: "信用风险内部评级模型的验证方法研究", 《金融纵横》 *
杨海平: "《商业银行小微企业批量授信管理 产品、流程、案例、风控》", 30 September 2015 *
王文静 等: "基于规则引擎的金融风控系统", 《计算机与现代化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672446A (zh) * 2020-05-14 2021-11-19 百度在线网络技术(北京)有限公司 监控参数确定方法、装置、设备以及存储介质
CN113672446B (zh) * 2020-05-14 2023-09-15 百度在线网络技术(北京)有限公司 监控参数确定方法、装置、设备以及存储介质
CN112925816A (zh) * 2021-02-24 2021-06-08 北京云从科技有限公司 一种异常数据检测方法、装置、机器可读介质及设备

Also Published As

Publication number Publication date
CN110399903B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN104408547A (zh) 一种基于数据挖掘的医保欺诈行为的检测方法
JP6869347B2 (ja) リスク制御イベント自動処理の方法および装置
CN103366091B (zh) 基于多级阈值指数加权平均的异常报税数据检测方法
US11915311B2 (en) User score model training and calculation
WO2018228049A1 (zh) 数据库性能指标的监测方法、装置、设备及存储介质
CN110399903A (zh) 异常数据的检测方法及装置、计算机可读存储介质
WO2019041764A1 (zh) 团体保费评估的方法、装置、计算机设备及存储介质
US20140365253A1 (en) System for Calculating, Analyzing and Tracking Regulatory Recovery in a Relational Database relating to Regulatory Management
US20190220924A1 (en) Method and device for determining key variable in model
CN111160329A (zh) 一种根因分析的方法及装置
CN107924488A (zh) 创建对象模型的方法
CN108519760A (zh) 一种基于变点检测理论的制丝过程稳态识别方法
CN104484375A (zh) 在项目分析流程中自动建立数据库的方法及系统
CN110196797A (zh) 适于信用评分卡系统的自动优化方法和系统
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN105719181A (zh) 风险等级评估方法及装置
CN108961071A (zh) 自动预测组合业务收益的方法及终端设备
CN114860759A (zh) 一种数据处理方法、装置、设备及可读存储介质
CN111913945A (zh) 一种数据治理方法、装置及存储介质
CN111626586B (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN109686400A (zh) 一种富集程度检验方法、装置及可读介质、存储控制器
CN112817957B (zh) 一种数据一致性的智能检查方法及装置
CN111258894B (zh) 软件风险的评价方法、装置、存储介质及电子设备
CN115097513B (zh) 能谱计数窗口的定位方法、装置、电子设备及存储介质
CN116386878B (zh) 用于职业健康智能管理平台的处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant