CN110399903B - 异常数据的检测方法及装置、计算机可读存储介质 - Google Patents
异常数据的检测方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN110399903B CN110399903B CN201910574422.2A CN201910574422A CN110399903B CN 110399903 B CN110399903 B CN 110399903B CN 201910574422 A CN201910574422 A CN 201910574422A CN 110399903 B CN110399903 B CN 110399903B
- Authority
- CN
- China
- Prior art keywords
- data
- target monitoring
- time period
- monitoring parameter
- current time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
一种异常数据的检测方法及装置、计算机可读存储介质,所述异常数据的检测方法,包括:获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。采用上述方案,能够提高异常数据检测的准确度。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种异常数据的检测方法及装置、计算机可读存储介质。
背景技术
在大数据时代,通过对数据进行分析,可以从数据中挖掘信息,从而实现数据的使用。
在数据使用过程中,具有偏差的异常数据可能会导致决策者做出错误的决策。对于一些对数据较为敏感的应用场景,如一些根据数据进行全自动操作以及规则引擎等应用场景中,一旦数据出现异常,则会对用户造成较大的影响。
然而,目前对异常数据检测的准确度较低。
发明内容
本发明实施例解决的技术问题为异常数据检测的准确度较低。
为解决上述技术问题,本发明实施例提供一种异常数据的检测方法,包括:获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
可选的,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
可选的,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
可选的,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
可选的,所述计算所述目标监控参数对应的异常数据范围,包括:将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
可选的,所述异常数据的检测方法,还包括:当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
本发明实施例还提供一种异常数据的检测装置,包括:第一获取单元,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;第一计算单元,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;第二获取单元,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;第二计算单元,适于计算所述目标监控参数对应的异常数据范围;输出单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
可选的,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
可选的,所述第一计算单元,适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
可选的,所述第一计算单元,适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
可选的,所述第一计算单元,适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
可选的,所述第二计算单元,适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
可选的,所述异常数据的检测装置,还包括:入库单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
本发明实施例还提供一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一异常数据的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一异常数据的检测方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
此外,每个目标监控参数均对应有异常数据范围,从而根据不同的目标监控参数可以为之设定相匹配的异常数据范围,进一步提高异常数据判断的准确度。
附图说明
图1是本发明实施例中的一种异常数据的检测方法的流程图;
图2是本发明实施例中的一种异常数据的检测装置的结构示意图。
具体实施方式
在数据使用过程中,具有偏差的异常数据可能会导致决策者做出错误的决策。对于一些对数据较为敏感的应用场景,如一些根据数据进行全自动操作以及规则引擎等应用场景中,一旦数据出现异常,则会对用户造成较大的影响。然而,目前对异常数据检测的准确度较低。
在本发明实施例中,根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中的一种异常数据的检测方法的流程图。具体可以包括如下步骤:
步骤11,获取目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据。
在具体实施中,目标监控参数的类型可以为连续型;例如,目标监控参数的类型包括金额、年龄等中的至少一种。目标监控参数的类型也可以为类别型;例如,目标监控参数的类型包括性别、户籍所在地以及职业等中的至少一种。
在具体实施中,目标监控参数的数目可以为一个,也可以为多个。当目标监测参数的数目为多个时,多个目标监控参数的类型可以相同,也可以不同,也即多个目标监测参数的类型可以均为连续型,也可以均为类别型,还可以部分目标监控参数为连续型,部分目标监控参数为类别型。
在本发明实施例中,准备入库的数据可以称为待入库数据,在待入库数据入库之前,可以对待入库数据进行检测,确认是否存在异常数据,以确保入库数据的正确性。
在具体实施中,可以获取目标监控参数在当前时间段的待入库数据,以及与当前时间段相邻的前一时间段的参考数据。
在本发明实施例中,每个时间段的时长可以为1天,也可以为2天,还可以为20小时,或者其他取值。例如,时间段的时长为1天,今天为2018年8月8日,则当前时间段为今天,当前时间段相邻的前一时间段为昨天2018年8月7日,可以获取今天的待入库数据以及昨天的参考数据。
步骤12,根据待入库数据以及参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,在获取到待入库数据以及参考数据之后,可以根据待入库数据以及参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标。当目标监控参数得数目为多个时,可以根据每个目标监测参数分别对应的待入库数据以及参考数据,计算每个目标监测参数在当前时间段对应的群体稳定性指标。
在具体实施中,当目标监控参数的类型不同时,目标监测参数在当前时间段对应的群体稳定性指标计算过程有所不同,以下进行举例说明:
在本发明一实施例中,当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
例如,目标监控参数的类型为连续型,如目标监控参数为金额、年龄等。获取目标监控参数前后连续两天的数据,分别记为D1,D2,其中,D1为待入库数据,D2为参考数据。计算D1的最小值、最大值以及9个十分位数,得到v=(min,f1,f2,……,f9,max),以min,f1,f2,……,f9,max为切分点将D1平均划分为10个份额,计算每个份额中的数据的占比,得到10个份额的数据的占比集合P=(p1,p2,……,p10)。计算D2的最小值、最大值以及9个十分位数,得到v’=(min’,f’1,f’2,……,f’9,max’),以min’,f’1,f’2,……,f’9,max’为切分点将D2平均划分为10个份额,计算每个份额中的数据的占比,得到10个份额的数据的占比集合Q=(q1,q2,……,q10)。
可以采用采用如下公式(1)计算目标监控参数在当前时间段对应的群体稳定性指标:
在本发明另一实施例中,当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,当目标监控参数在待入库数据中的类别较多时,可以将相近的类别进行合并,以控制合并之后的目标监控参数的类别数目。例如,目标监控参数合并后的类别数目不超过10个,可以理解的是,合并后的类别数目也可以为其他取值。当目标监控参数为户籍所在地时,户籍所在地取地市,以地市划分时,类别数目为20个,超过10个,为了控制目标监控参数的类别数目,可以将同一省份的地市合并至省,如将南京市、扬州市以及无锡市合并至江苏类别。
例如,目标监控参数为类别型,如性别、户籍省份等。获取目标监控参数前后连续两天的数据,分别记为D1和D2,其中,D1为待入库数据,D2为参考数据。确定D1中目标监控参数的每一个可能的类别的v=(v1,v2,……,vn),计算每个类别的占比,得到P=(p1,p2,……,pn)。确定D2中目标监控参数的可能的类别v’=(v’1,v’2,……,v’n),计算每个类别的占比,得到Q=(q1,q2,……,qn)。若取值过多可先将取值进行适当的合并,把可能的取值数控制在10个以内。可以采用如下公式(2)计算目标监控参数在当前时间段的群体稳定性指标(PSI)值,也即计算P与Q的PSI值:
步骤13,获取目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算目标监控参数对应的异常数据范围。
在具体实施中,可以获取目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标。例如,时间段的时长为1天,可以获取过去一个月内的30个历史时间段分别对应的群体稳定性指标。
在本发明实施例中,可以采用如下方式计算目标监控参数对应的异常数据范围:将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标。计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数,根据所述下四分位数以及所述上四分位数计算四分位距。基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
上四分位是指通过四分位数统计描述分析方法描述偏态数据的离散程度。将全部数据从小到大排列,正好排列在下1/4位置上的数就叫做下四分位数(按照百分比,也就是25%位置上的数),排在上1/4位置上的数就叫上四分位数(按照百分比,也就是75%位置上的数),四分位距就是指上下四分位数之间的差值,也可以称为四分位数间距。
在本发明实施例中,可以采用如下公式(3)计算目标监控参数对应的异常报警阈值:
T=Q3+A*IQR; (3)
其中,IQR为四分位距IQR=Q3-Q1,Q3为上四分位数;Q1为下四分位数,A为容忍度值。
在具体实施中,当计算得到目标监控参数对应的异常报警阈值之后,可以确定目标监控参数对应的异常数据范围。例如,异常数据范围为(T,+∞)。
在具体实施中,根据对异常数据的容忍度的大小设定容忍度值,例如,A取1.5,则T=Q3+1.5*IQR。可以理解的是,容忍度A还可以存在其他取值,当容忍度值取值越大,则对异常数据的容忍度越大。
在具体实施中,一个目标监控参数可以对应一个异常数据范围,也可以对应两个异常数据范围,具体根据实际需求进行设定即可。
例如,获取的15个历史时间段对应的PSI,如表1所示:
表1
Date1 | Date2 | PSI |
2018/5/1 | 2018/4/30 | 0.0061 |
2018/5/2 | 2018/5/1 | 0.0052 |
2018/5/3 | 2018/5/2 | 0.0048 |
2018/5/4 | 2018/5/3 | 0.0068 |
2018/5/5 | 2018/5/4 | 0.0045 |
2018/5/6 | 2018/5/5 | 0.0087 |
2018/5/7 | 2018/5/6 | 0.0067 |
2018/5/8 | 2018/5/7 | 0.0097 |
2018/5/9 | 2018/5/8 | 0.0121 |
2018/5/10 | 2018/5/9 | 0.0074 |
2018/5/11 | 2018/5/10 | 0.0072 |
2018/5/12 | 2018/5/11 | 0.0087 |
2018/5/13 | 2018/5/12 | 0.0076 |
2018/5/14 | 2018/5/13 | 0.0068 |
2018/5/15 | 2018/5/14 | 0.0055 |
将15个历史时间段对应的PSI,按照各历史时间段对应的群体稳定性指标PSI的取值从小到大依次排列,得到排序后的15个群体稳定性指标PSI,如表2所示:
表2
Date1 | Date2 | PSI |
2018/5/5 | 2018/5/4 | 0.0045 |
2018/5/3 | 2018/5/2 | 0.0048 |
2018/5/2 | 2018/5/1 | 0.0052 |
2018/5/15 | 2018/5/14 | 0.0055 |
2018/5/1 | 2018/4/30 | 0.0061 |
2018/5/7 | 2018/5/6 | 0.0067 |
2018/5/4 | 2018/5/3 | 0.0068 |
2018/5/14 | 2018/5/13 | 0.0068 |
2018/5/11 | 2018/5/10 | 0.0072 |
2018/5/10 | 2018/5/9 | 0.0074 |
2018/5/13 | 2018/5/12 | 0.0076 |
2018/5/6 | 2018/5/5 | 0.0087 |
2018/5/12 | 2018/5/11 | 0.0087 |
2018/5/8 | 2018/5/7 | 0.0097 |
2018/5/9 | 2018/5/8 | 0.0121 |
由表2中的15个群体稳定性指标PSI可得到,下四分位数Q1为0.0055,上四分位数Q3为0.0087,计算得到IQR=Q3-Q1=0.0087-0.0055=0.0032,A取1.5,T=Q3+A*IQR=0.0087+1.5*0.0032=0.0135,从而得到异常数据范围为(0.0135,+∞)。
步骤14,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,输出数据异常提醒。
在具体实施中,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则输出异常数据提醒。
在具体实施中,当目标监控参数的数目为多个时,每个目标监控参数对应的异常数据范围可以不同,设定的容忍度取值也可以不同,异常数据范围以及容忍度取值可以根据异常数目的类型、目标监控参数对某业务事件的影响程度等因素进行设定。
在本发明实施例中,当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
例如,目标监控参数在当前时间段对应的群体稳定性指标为0.2001,异常数据范围为(0.0135,+∞),0.2001处于(0.0135,+∞)内,则为异常数据,可以输出异常数据提醒。
又如,目标监控参数在当前时间段对应的群体稳定性指标为0.0079,异常数据范围为(0.0135,+∞),0.0079处于(0.0135,+∞)之外,则为正常数据,可以将目标监控参数在当前时间段对应的待入库数据入库。
由上可知,根据目标监控参数在当前时间段的待入库数据以及与当前时间段相邻的前一时间段的参考数据,计算目标监控参数在当前时间段对应的群体稳定性指标,当目标监控参数在当前时间段对应的群体稳定性指标处于异常数据范围内时,则判定待入库数据为异常数据,输出数据异常提醒,异常数据范围根据目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标计算得到,在确定异常数据范围时,可以综合目标监控参数的历史变化趋势,从而可以提高对待入库数据的异常情况判断的准确度。
通过对待入库数据进行检测,可以及时发现数据的异常,便于发现并追溯异常原因,及时对异常情况进行处理,以避免造成损失。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种异常数据的检测装置。
参照图2,给出了本发明实施例中的一种异常数据的检测装置的结构示意图。异常数据的检测装置20可以包括:第一获取单元21、第一计算单元22、第二获取单元23、第二计算单元24以及输出单元25,其中:
第一获取单元21,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
第一计算单元22,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
第二获取单元23,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;
第二计算单元24,适于计算所述目标监控参数对应的异常数据范围;
输出单元25,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒。
在具体实施中,所述目标监控参数可以包括以下至少一种类型:连续型以及类别型。
在具体实施中,所述第一计算单元22,可以适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,所述第一计算单元22,可以适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;M为份额总数目;pi为所述排序后的待入库数据在第i份额中的占比;qi为所述排序后的参考数据在第i份额中的占比;为取的自然对数。
在具体实施中,所述第一计算单元22,可以适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
在具体实施中,所述第一计算单元22,可以适于采用如下公式计算所述目标监控参数在当前时间段对应的群体稳定性指标:其中,PSI为所述目标监控参数在当前时间段对应的群体稳定性指标;C为类别总数目;pi为所述合并后的待入库数据在第i类别中的占比;qi为所述合并后的参考数据在第i类别中的占比;为取的自然对数。
在具体实施中,所述第二计算单元24,可以适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
在具体实施中,异常数据的检测装置20还可以包括:入库单元26,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
在具体实施中,异常数据的检测装置20的工作原理及工作流程,可以参考本发明提供的上述任一实施例中的异常数据的检测方法中的描述,此处不再赘述。
本发明实施例还提供一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行本发明上述任一实施例所述的异常数据的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述任一实施例所述的异常数据的检测方法的步骤。
需要说明的是,上述涉及到个人隐私的信息,都需要事先获得当事人的授权和许可,仅在获得当事人的授权前提下进行相关操作,而且仅在当事人许可的范围内进行使用。
需要说明的是,上述涉及到个人隐私的信息,都需要事先获得当事人的授权和许可,仅在获得当事人的授权前提下进行相关操作,而且仅在当事人许可的范围内进行使用。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种异常数据的检测方法,其特征在于,包括:
获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标,计算所述目标监控参数对应的异常数据范围;
当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒;
其中,所述计算所述目标监控参数对应的异常数据范围,包括:
将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;
计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;
根据所述下四分位数以及所述上四分位数计算四分位距;
基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
2.根据权利要求1所述的异常数据的检测方法,其特征在于,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
3.根据权利要求2所述的异常数据的检测方法,其特征在于,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;
将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;
根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
5.根据权利要求2所述的异常数据的检测方法,其特征在于,所述根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标,包括:
当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;
获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;
根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
7.根据权利要求1~6任一项所述的异常数据的检测方法,其特征在于,还包括:
当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
8.一种异常数据的检测装置,其特征在于,包括:
第一获取单元,适于获取目标监控参数在当前时间段的待入库数据以及与所述当前时间段相邻的前一时间段的参考数据;
第一计算单元,适于根据所述待入库数据以及所述参考数据,计算所述目标监控参数在当前时间段对应的群体稳定性指标;
第二获取单元,适于获取所述目标监控参数在之前的N个历史时间段分别对应的群体稳定性指标;
第二计算单元,适于计算所述目标监控参数对应的异常数据范围;
输出单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围内时,输出数据异常提醒;
其中,所述第二计算单元,适于将所述之前的N个历史时间段分别对应的群体稳定性指标按照数值从小到大进行排列,得到排序后的N个群体稳定性指标;计算所述排序后的N个群体稳定性指标的下四分位数以及上四分位数;根据所述下四分位数以及所述上四分位数计算四分位距;基于所述四分位距以及所述上四分位数,计算所述目标监控参数对应的异常数据范围。
9.根据权利要求8所述的异常数据的检测装置,其特征在于,所述目标监控参数包括以下至少一种类型:连续型以及类别型。
10.根据权利要求9所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于当所述目标监控参数的类型为连续型时,将所述待入库数据按照大小进行排序,得到排序后的待入库数据;将所述排序后的待入库数据按照预设的划分方式划分成M份额,统计所述排序后的待入库数据在每个份额中的占比;将所述参考数据按照大小进行排序,得到排序后的参考数据;将所述排序后的参考数据按照预设的划分方式划分成M份额,统计所述排序后的参考数据在每个份额中的占比;根据所述排序后的待入库数据在每个份额中的占比以及所述排序后的参考数据在每个份额中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
12.根据权利要求9所述的异常数据的检测装置,其特征在于,所述第一计算单元,适于当所述目标监控参数的类型为类别型时,获取所述目标监控参数在所述待入库数据中的所有类别;将所述目标监控参数在所述待入库数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的待入库数据;统计所述合并后的待入库数据在每个类别中的占比;获取所述目标监控参数在所述参考数据中的所有类别;将所述目标监控参数在所述参考数据中的所有类别按照预设合并条件,合并至C个类别,得到合并后的参考数据;统计所述合并后的参考数据在每个类别中的占比;根据所述合并后的待入库数据在每个类别中的占比以及所述合并后的参考数据在每个类别中的占比,计算所述目标监控参数在当前时间段对应的群体稳定性指标。
14.根据权利要求8~13任一项所述的异常数据的检测装置,其特征在于,还包括:入库单元,适于当所述目标监控参数在当前时间段对应的群体稳定性指标处于所述异常数据范围之外时,将所述待入库数据入库。
15.一种异常数据的检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至7任一项所述的异常数据的检测方法的步骤。
16.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至7任一项所述的异常数据的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910574422.2A CN110399903B (zh) | 2019-06-28 | 2019-06-28 | 异常数据的检测方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910574422.2A CN110399903B (zh) | 2019-06-28 | 2019-06-28 | 异常数据的检测方法及装置、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110399903A CN110399903A (zh) | 2019-11-01 |
CN110399903B true CN110399903B (zh) | 2021-07-13 |
Family
ID=68322586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910574422.2A Active CN110399903B (zh) | 2019-06-28 | 2019-06-28 | 异常数据的检测方法及装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399903B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672446B (zh) * | 2020-05-14 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 监控参数确定方法、装置、设备以及存储介质 |
CN112688922B (zh) * | 2020-12-11 | 2024-07-12 | 深圳前海微众银行股份有限公司 | 数据传输方法、系统、设备及介质 |
CN112925816A (zh) * | 2021-02-24 | 2021-06-08 | 北京云从科技有限公司 | 一种异常数据检测方法、装置、机器可读介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326575B1 (en) * | 2009-02-23 | 2012-12-04 | Bank Of America Corporation | Machine-based population stability index selection |
CN104135521A (zh) * | 2014-07-29 | 2014-11-05 | 广东省环境监测中心 | 环境自动监测网络的数据异常值标识方法及系统 |
CN104408143A (zh) * | 2014-12-01 | 2015-03-11 | 北京国双科技有限公司 | 网页数据的监测方法和装置 |
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
CN108460678A (zh) * | 2017-02-22 | 2018-08-28 | 北京数信互融科技发展有限公司 | 资产筛选、质量监测、预测全流程互联网金融资产管理云平台 |
CN109003091A (zh) * | 2018-07-10 | 2018-12-14 | 阿里巴巴集团控股有限公司 | 一种风险防控处理方法、装置及设备 |
CN109241043A (zh) * | 2018-08-13 | 2019-01-18 | 蜜小蜂智慧(北京)科技有限公司 | 一种数据质量检测方法及装置 |
CN109740099A (zh) * | 2018-12-30 | 2019-05-10 | 北京奇艺世纪科技有限公司 | 一种数据异常定位方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279378A1 (en) * | 2013-03-13 | 2014-09-18 | Bank Of America Corporation | Model performance simulator |
CN105262647A (zh) * | 2015-11-27 | 2016-01-20 | 广州神马移动信息科技有限公司 | 一种异常指标检测方法及装置 |
CN108234524B (zh) * | 2018-04-02 | 2020-08-21 | 广州广电研究院有限公司 | 网络数据异常检测的方法、装置、设备及存储介质 |
CN109615226B (zh) * | 2018-12-12 | 2020-12-29 | 焦点科技股份有限公司 | 一种运营指标异常监测方法 |
-
2019
- 2019-06-28 CN CN201910574422.2A patent/CN110399903B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326575B1 (en) * | 2009-02-23 | 2012-12-04 | Bank Of America Corporation | Machine-based population stability index selection |
CN104135521A (zh) * | 2014-07-29 | 2014-11-05 | 广东省环境监测中心 | 环境自动监测网络的数据异常值标识方法及系统 |
CN104408143A (zh) * | 2014-12-01 | 2015-03-11 | 北京国双科技有限公司 | 网页数据的监测方法和装置 |
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
CN108460678A (zh) * | 2017-02-22 | 2018-08-28 | 北京数信互融科技发展有限公司 | 资产筛选、质量监测、预测全流程互联网金融资产管理云平台 |
CN109003091A (zh) * | 2018-07-10 | 2018-12-14 | 阿里巴巴集团控股有限公司 | 一种风险防控处理方法、装置及设备 |
CN109241043A (zh) * | 2018-08-13 | 2019-01-18 | 蜜小蜂智慧(北京)科技有限公司 | 一种数据质量检测方法及装置 |
CN109740099A (zh) * | 2018-12-30 | 2019-05-10 | 北京奇艺世纪科技有限公司 | 一种数据异常定位方法和装置 |
Non-Patent Citations (3)
Title |
---|
Statistical Properties of Population Stability Index;Bilal Yurdakul;《ScholarWorks at WMU》;20181231;第1-60页 * |
信用风险内部评级模型的验证方法研究;李波;《金融纵横》;20170930(第9期);第64-73页 * |
基于规则引擎的金融风控系统;王文静 等;《计算机与现代化》;20190515(第285期);第30-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110399903A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751371B (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
CN110399903B (zh) | 异常数据的检测方法及装置、计算机可读存储介质 | |
US11093519B2 (en) | Artificial intelligence (AI) based automatic data remediation | |
CN107528722B (zh) | 一种时间序列中异常点检测方法及装置 | |
CN111143102B (zh) | 异常数据检测方法、装置、存储介质及电子设备 | |
US11455640B2 (en) | Transaction indicator monitoring methods, apparatuses, and devices | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN103366091B (zh) | 基于多级阈值指数加权平均的异常报税数据检测方法 | |
US11755004B2 (en) | Analysis system, analysis method, and storage medium | |
CN111324639A (zh) | 数据监测方法、装置及计算机可读存储介质 | |
CN110874674A (zh) | 一种异常检测方法、装置及设备 | |
CN114528934A (zh) | 时序数据异常检测方法、装置、设备及介质 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN114996257A (zh) | 数据量异常检测方法、装置、介质及程序产品 | |
CN113988723A (zh) | 一种基于用电数据异常分析的用户行为锁定方法和系统 | |
CN111831517A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116365519B (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN110458713B (zh) | 模型监控方法、装置、计算机设备及存储介质 | |
CN113255096A (zh) | 基于向前逐步回归的高损线路异常台区定位方法及系统 | |
JP2010152431A (ja) | 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法 | |
CN114325232B (zh) | 一种故障定位方法和装置 | |
CN115242457A (zh) | 一种日志数据的检测方法、装置、电子设备和存储介质 | |
CN112989402A (zh) | 一种用户权限确定方法及装置 | |
CN118296565B (zh) | 基于数据挖掘的动力电池事故溯源管控系统 | |
CN115576850B (zh) | 数据指标测试方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |