CN111767938B - 一种异常数据检测方法、装置及电子设备 - Google Patents
一种异常数据检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111767938B CN111767938B CN202010389120.0A CN202010389120A CN111767938B CN 111767938 B CN111767938 B CN 111767938B CN 202010389120 A CN202010389120 A CN 202010389120A CN 111767938 B CN111767938 B CN 111767938B
- Authority
- CN
- China
- Prior art keywords
- data
- index
- training data
- feature
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 117
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 279
- 230000003068 static effect Effects 0.000 claims abstract description 102
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims description 39
- 238000010219 correlation analysis Methods 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010835 comparative analysis Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及一种异常数据检测方法、装置及电子设备,本申通过接收对待测训练数据进行异常检测的数据检测请求;根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;分别获取所述待测训练数据和所述参考训练数据的静态指标;将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常,利用参考训练数据的静态指标作为参考标准,将待测训练数据和参考训练数据的静态指标的对比,判断对比分析指标是否满足正常指标范围,实现检测待测训练数据中是否存在异常数据,以保证推理服务质量。
Description
技术领域
本申请涉及数据分析领域,尤其涉及一种异常数据检测方法、装置及电子设备。
背景技术
大数据时代,基于人工智能的在线推理服务在广告、推荐等业务场景中使用的十分广泛,推理服务是用于将最适合用户的个性化广告/媒体内容推送给用户,并通过用户是否点击、购买等,来衡量推理服务的实际转化率,转化率越高,推理服务的效果也就越高。但是,目前用于训练推理服务的训练数据一般是通过收集用户的相关数据和其他相应数据等得到,一旦这些数据中存在异常数据,很可能会影响推理服务的实际转化率。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种异常数据检测方法、装置及电子设备。
第一方面,本申请提供了一种异常数据检测方法,所述方法包括:
接收对待测训练数据进行异常检测的数据检测请求;
根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
分别获取所述待测训练数据和所述参考训练数据的静态指标;
将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常。
可选地,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个。
可选地,通过以下方式计算预设数据的稠密度特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个浮点型数据确定为稠密特征数据;
对多个所述稠密特征数据进行数据统计处理,得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息;
对多个所述稠密特征数据进行平均值运算,得到稠密平均值;
对多个所述稠密特征数据进行中值运算,得到稠密中值;
对多个所述稠密特征数据进行方差运算,得到稠密方差;
从多个所述稠密特征数据选取最大值,得到最大稠密特征数据;
从多个所述稠密特征数据选取最小值,得到最小稠密特征数据;
将所述稠密平均值、稠密中值、稠密方差、最大稠密特征数据、最小稠密特征数据以及稠密特征数据分布信息分别确定为所述稠密特征指标。
可选地,通过以下方式计算预设数据的稀疏特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个整数型数据确定为稀疏特征数据;
统计多个所述稀疏特征数据的数量,得到稀疏特征数据数量;
计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例,得到重复比例;
计算多个所述稀疏特征数据中数值为零的稀疏特征数据个数与所述稀疏特征数据数量的比值,得到零占比;
将所述稀疏特征数据数量、重复比例以及零占比分别确定为所述稀疏特征指标。
可选地,通过以下方式计算预设数据的稀疏特征长度指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
计算所述预设数据的数据特征中稀疏特征数据的特征长度,得到稀疏特征长度指标。
可选地,通过以下方式计算预设数据的零占比指标,所述预设数据为所述待测训练数据或所述参考训练数据:
计算所述预设数据的数据特征中零的个数;
计算零的个数与所述预设数据的数据特征的总量的比值,得到零占比指标。
可选地,通过以下方式计算预设数据的相关性分析指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
根据所述预设数据的数据特征确定与数据特征对应的数据标签和多个特征标签以及每个所述特征标签对应的数据特征值;
针对每个所述特征标签,计算所述特征标签与所述数据标签的皮尔逊相关性系数,得到相关性分析指标。
可选地,确定所述待测训练数据异常的步骤之后,还包括:
在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;
根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;
剔除所述待测训练数据中位于异常数据范围内的数据。
第二方面,本申请提供了一种异常数据检测装置,包括:
接收模块,用于接收对待测训练数据进行异常检测的数据检测请求;
第一获取模块,用于根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
第二获取模块,用于分别获取所述待测训练数据和所述参考训练数据的静态指标;
对比模块,用于将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
第一确定模块,用于若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常。
可选地,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个。
可选地,异常数据检测装置还包括:稠密特征指标计算模块,所述稠密特征指标计算模块用于通过以下方式计算预设数据的稠密度特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个浮点型数据确定为稠密特征数据;
对多个所述稠密特征数据进行数据统计处理,得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息;
对多个所述稠密特征数据进行平均值运算,得到稠密平均值;
对多个所述稠密特征数据进行中值运算,得到稠密中值;
对多个所述稠密特征数据进行方差运算,得到稠密方差;
从多个所述稠密特征数据选取最大值,得到最大稠密特征数据;
从多个所述稠密特征数据选取最小值,得到最小稠密特征数据;
将所述稠密平均值、稠密中值、稠密方差、最大稠密特征数据、最小稠密特征数据以及稠密特征数据分布信息分别确定为所述稠密特征指标。
可选地,异常数据检测装置还包括:稀疏特征指标计算模块,所述稀疏特征指标计算模块用于通过以下方式计算预设数据的稀疏特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个整数型数据确定为稀疏特征数据;
统计多个所述稀疏特征数据的数量,得到稀疏特征数据数量;
计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例,得到重复比例;
计算多个所述稀疏特征数据中数值为零的稀疏特征数据个数与所述稀疏特征数据数量的比值,得到零占比;
将所述稀疏特征数据数量、重复比例以及零占比分别确定为所述稀疏特征指标。
可选地,异常数据检测装置还包括:稀疏特征长度指标计算模块,所述稀疏特征长度指标计算模块用于通过以下方式计算预设数据的稀疏特征长度指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
计算所述预设数据的数据特征中稀疏特征数据的特征长度,得到稀疏特征长度指标。
可选地,异常数据检测装置还包括:零占比指标计算模块,所述零占比指标计算模块用于通过以下方式计算预设数据的零占比指标,所述预设数据为所述待测训练数据或所述参考训练数据:
计算所述预设数据的数据特征中零的个数;
计算零的个数与所述预设数据的数据特征的总量的比值,得到零占比指标。
可选地,异常数据检测装置还包括:相关性分析指标计算模块,所述相关性分析指标计算模块用于通过以下方式计算预设数据的相关性分析指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
根据所述预设数据的数据特征确定与数据特征对应的数据标签和多个特征标签以及每个所述特征标签对应的数据特征值;
针对每个所述特征标签,计算所述特征标签与所述数据标签的皮尔逊相关性系数,得到相关性分析指标。
可选地,异常数据检测装置还包括:
第二确定模块,用于在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;
第三确定模块,用于根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;
剔除模块,用于剔除所述待测训练数据中位于异常数据范围内的数据。
第三方面,本申请提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面任一所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例通过获取当前产出周期之前产出周期的的参考训练数据作为参考标准,将待测训练数据与参考训练数据进行对比得到的对比分析指标,再通过判断对比分析指标是否满足正常指标范围,实现检测待测训练数据中是否存在异常数据,进而保证推理服务质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种异常数据检测方法的流程图;
图2为本申请实施例提供的另一种异常数据检测方法的流程图;
图3为本申请实施例提供的另一种异常数据检测方法的流程图;
图4为本申请实施例提供的另一种异常数据检测方法的流程图;
图5为本申请实施例提供的另一种异常数据检测方法的流程图;
图6为本申请实施例提供的另一种异常数据检测方法的流程图;
图7为申请实施例提供的一种异常数据检测装置的结构示意图;
图8为申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前训练数据一般是通过收集用户的使用数据和平台对应的数据等自动生成的,这些数据中不可避免的有脏数据、异常数据,所以构建的训练数据的质量高低凸显的尤为重要,基于此本发明实施例提供了一种异常数据检测方法,应用于服务器中,如图1所示,所述方法包括:
步骤S101,接收对待测训练数据进行异常检测的数据检测请求;
在本发明实施例中,待测训练数据可以是用户指定的数据源中的需要进行异常检测的数据,另外,在服务器中可以预先存储有用户画像、业务数据等,以便在接收到用户输入的异常检测的数据检测请求时,可以获取到待测训练数据。
步骤S102,根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
在本发明实施例中,数据源是用于存储制作好的训练数据,其中,训练数据的格式可以根据实际情况而定,例如:在一个推荐系统框架中,用户的历史操作行为都会被收集并且被投递到Pingback自动引用通知中,再通过预先设置的程序将这些用户历史操作行为制作成TFRecord格式的训练数据存储至数据源中。
在该步骤中,在接收到用户指定数据源中的待测训练数据后,继续从数据源中获取产出周期位于所述待测训练数据之前的参考训练数据,例如:用户指定对20号的训练数据进行数据异常检测,该训练数据的产出周期以天为单位,则可以从数据源中获取20号之前(19号、18号...)的训练数据作为参考训练数据。一般情况下,会选择19号的训练数据作为参考训练数据,即选取当前需要测试的待测训练数据前一产出周期的训练数据作为参考训练数据,因为往往训练数据不是一成不变的,所以为了保证检测的精确度,可以优先选取产出周期位于所述待测训练数据前一周期的训练数据作为参考训练数据。
步骤S103,分别获取所述待测训练数据和所述参考训练数据的静态指标;
在本发明实施例中,静态指标可以是用于体现训练数据的静态特性的指标可以是数据量、数据中包含的数据实例(example)个数以及数据类型等等与时间无关的指标,即静态指标,具体的静态指标中包含的用于体现训练数据的静态特性的指标数量可以根据实际情况而定,可以只有一个也可以有多个。
在该步骤中,静态指标的计算唯一,对于属于不同产出周期的训练数据和参考训练数据均采用同样的计算方式计算得到静态指标,例如:在实际应用中将训练数据中的包含的数据实例个数作为唯一静态指标,则分别计算待测训练数据中的数据实例的数量和参考训练数据中数据实例的数量。
另外,静态指标可以在每个产出周期后进行计算并存储,以使每个产出周期的训练数据的静态指标都已经预先计算完成,在实际应用中需要对训练数据进行数据异常检测时,仅需从预设的静态指标存储区获取待测训练数据和参考训练数据的静态指标即可。
步骤S104,将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
本发明实施例通过获取当前产出周期之前产出周期的参考训练数据作为参考标准,利用与待测训练数据类型相同且数据产出周期不同的参考训练数据作为参考标准,不仅可以避免数据类型不同造成数据异常检测结果的偏差,也适用于对周期性变化的训练数据进行数据异常检测,相较于传统设置阈值的方式,大幅提升了数据异常检测的精确度。
另外,由于训练数据的更新频率快,数据变化量大,所以本发明实施例设置了静态指标,通过将待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,统一了数据变化的衡量标准,代替传统使用设置固定阈值检测异常数据的方式,即便产出周期性变化的训练数据,也可以通过计算训练数据的静态指标,以产出周期早的训练数据的静态指标作为参考标准,判断产出周期晚的训练数据是否出现异常。
步骤S105,若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常。
在本发明实施例中,正常指标范围可以根据实际情况而定,例如:用户指定的训练数据是周期成长型数据,则正常指标范围可以设置为涨幅区间,当待测训练数据的数据量相较于参考训练数据的数据量的增长幅度没有超过预设涨幅,代表待测训练数据正常,若待测训练数据相较于参考训练数据的涨幅超过预设涨幅,说明待测训练数据异常,此时,需要返回给用户数据异常的数据检测结果。
本发明实施例通过获取当前产出周期之前产出周期的参考训练数据作为参考标准,将待测训练数据与参考训练数据进行对比得到的对比分析指标,代替传统使用设置固定阈值检测异常数据的方式,即便产出周期性变化的训练数据,也可以通过计算训练数据的静态指标,以产出周期早的训练数据的静态指标作为参考标准,再通过判断对比分析指标是否位于正常指标范围内的方式,实现检测待测训练数据中是否存在异常数据,以保证推理服务质量。
在本发明的又一实施例中,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个。
在本发明实施例中,静态指标是指用于反映训练数据特征的信息,例如训练数据的分布、数量等需要关注的数据特征信息。
优选地,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个,具体设置可以根据实际情况而定,例如:在实际应用中,用户只需要对一组成长型数据进行数据异常检测,所以只需要在静态指标中设置数据量指标这项衡量标准,再例如:用户需要对一组包含多个稀疏特征数据的数据进行数据异常检测,所以需要在静态指标中设置稀疏特征指标、稀疏特征长度指标以及零占比指标,实现对待检测的数据进行有针对性的指标分析。
再例如:静态指标中包含有多项用于表示训练数据的静态特性的指标时(例如静态指标包含稀疏特征指标、稀疏特征长度指标以及零占比指标),将待测训练数据的静态指标与所述参考训练数据的静态指标进行对比的过程,采用将训练数据和参考训练数据的静态指标中相同的指标对应的值以一对一的方式进行对比,直至静态指标中的全部指标均进行对比后,得到包含多个指标对比结果的对比分析指标。
进一步的,在本发明的又一实施例中,提供了静态指标的具体计算方式,所述静态指标中可以包括:稠密特征指标,其中稠密特征值是指float浮点型数据,在实际应用中,由于数据的类型都是通过模式化的输入方式录入或者产出,所以通过读取数据的对应字段即可确定数据的类型,进而对某一特定类型的数据进行分析,如图2所示,通过以下方式计算预设数据的稠密度特征指标:
步骤S201,确定所述预设数据的数据特征;
在本发明实施例中,预设数据的数据特征可以是预先计算完成的,其中数据特征的设置可以根据实际情况而定,在实际应用中,往往会设置多个数据特征用于分析训练数据,每个数据特征可以用一个或者多个值来表示,从而从某个特点的方面反映训练数据的特征,例如:数据源中相同种类的训练数据都需要计算数据特征A和数据特征B,待测训练数据的数据特征A的值和数据特征B的值与参考训练数据的数据特征A的值和数据特征B的值可以相同也可以不同。
步骤S202,将所述待测训练数据的数据特征中的多个浮点型数据确定为稠密特征数据;
在本发明实施例中,待测训练数据的数据特征中可以包含预设多项用于对数据的表达的feature特征,且每个feature对应一个值,选取这些feature对应的值中浮点型数据作为稠密特征数据,得到多个稠密特征数据。
步骤S203,对多个所述稠密特征数据进行数据统计处理,得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息;
在本发明实施例中,对多个所述稠密特征数据进行数据统计处理的方式包括统计多个稠密特征数据的分位数,以得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息,当需要将不同数据产出周期的训练数据的该项指标进行对比时,即可基于WRS库对两个Quantiles分位数(N数值分布)做比较,最终得到一个数值(数值越小越好,代表数据产出正常)。
另外,出于对数据异常检测结果精确度的考虑,还可以计算多个稠密特征数据的最大、最小、中值、平均、方差,以对待测训练数据进行全方位的分析,具体地:
步骤S204,对多个所述稠密特征数据进行平均值运算,得到稠密平均值;
步骤S205,对多个所述稠密特征数据进行中值运算,得到稠密中值;
步骤S206,对多个所述稠密特征数据进行方差运算,得到稠密方差;
步骤S207,从多个所述稠密特征数据选取最大值,得到最大稠密特征数据;
步骤S208,从多个所述稠密特征数据选取最小值,得到最小稠密特征数据;
步骤S209,将所述稠密平均值、稠密中值、稠密方差、最大稠密特征数据、最小稠密特征数据以及稠密特征数据分布信息分别确定为所述稠密特征指标;
本发明实施例通过分析预设数据的数据特征feature中稠密特征数据得分布特征,以对数据特征中对应值为浮点型数据的feature进行分析,进而得到预设数据的稠密特征数据的分布信息、稠密平均值、稠密中值、稠密方差、最大稠密特征数据、以及最小稠密特征数据,其中预设数据可以是待测训练数据也可以是参考训练数据,因此可以使用一套相同的指标作为标准,确定待测训练数据的稠密特征指标与参考训练数据的稠密特征指标的差异,由于参考训练数据的数据产出周期先于待测训练数据的数据产出周期,所以在实际应用中,在确保参考训练数据正常的情况下以参考训练数据的稠密特征指标作为参考基准,若待测训练数据中的数据出现异常时(通过会直观的反映在数据两端极值上(最大值,最小值),或者分布信息(正太分布等)、平均值、终止、方差等数据指标发生变化),所以将两者的静态指标进行对比后,即可结合预设的判断条件判断待测训练数据中是否出现异常数据,以便能够快速发现数据产出异常的问题,提示相关负责人员对数据源进行对应的检修工作。
另外,本发明实施例针对于数据特征中的浮点型数据进行指标分析,相较于现有技术没有对数据类型加以区分,能够提升数据异常检测的精确度,避免因为数据类型差异影响检测结果。
进一步的,在本发明的又一实施例中,针对数据特征中的整数型数据的指标计算,还提供了静态指标的具体计算方式,所述静态指标包括:稀疏特征指标,如图3所示,通过以下方式计算预设数据的稀疏特征指标:
步骤S301,确定所述预设数据的数据特征;
在本发明实施例中,预设数据的数据特征可以是预先计算完成的,其中数据特征的设置可以根据实际情况而定,在实际应用中,往往会设置多个数据特征用于分析训练数据,每个数据特征可以用一个或者多个值来表示,从而从某个特点的方面反映训练数据的特征,例如:数据源中相同种类的训练数据都需要计算数据特征A和数据特征B,待测训练数据的数据特征A的值和数据特征B的值与参考训练数据特征A的值和数据特征B的值可以相同也可以不同。
步骤S302,将所述预设数据的数据特征中的多个整数型数据确定为稀疏特征数据;
在本发明实施例中,待测训练数据的数据特征中可以包含预设多项用于对数据的表达的feature特征,且每个feature对应一个值,选取这些feature对应的值中整数型数据作为稀疏特征数据,得到多个稀疏特征数据。
步骤S303,统计多个所述稀疏特征数据的数量,得到稀疏特征数据数量;
在本发明实施例中,其中每个系数值的数量对应多个系数值,还有
步骤S304,计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例,得到重复比例;
在本发明实施例中,对于数据特征中某个的feature而定,不同的数据实例中对应该feature都有一个值,本发明实施例通过对稀疏特征中不同数据实例中相同的feature对应的值分析,分析出这些feature对应的值中重复的值占feature对应值的总数的比例,便于数据后期编码或者训练,例如:训练数据中有10个数据实例,对每个数据实例分析出feature得到10个值,假设feature是地址,10个值中可能用不同的字符串形式表示不同数据实例产出的地址,计算产出地址产出的数据实例占数据实例总数的比值,可以直观的反映样本复杂度,便于后期去重等降低样本复杂度的工作展开,因此本发明实施例通过计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例的方式,能够确定样本的复杂度,进而可以确定feature选取是否恰当,或者数据产出是否异常(重复比例越高代表数据异常概率越高)。
步骤S305,计算多个所述稀疏特征数据中的零与所述稀疏特征数据数量的比值,得到零占比;
在本发明实施例中,若稀疏特征数据中多数的值都为0,则可以确定该训练数据出现异常,或者feature选取的不好,所以本发明实施例通过设置对零占比的分析可以最直观的分析训练数据的质量高低。
步骤S306,将所述稀疏特征数据数量、重复比例以及零占比分别确定为所述稀疏特征指标。
在本发明实施例中,通过计算稀疏特征数据数量、重复比例以及零占比生成稀疏特征指标,能够直观的反映训练数据的数据特征中的稀疏特征。其中预设数据可以是待测训练数据也可以是参考训练数据,因此可以使用一套相同的稀疏特征指标作为标准,确定待测训练数据的稠密特征指标与参考训练数据的稀疏特征指标的差异。由于参考训练数据的数据产出周期先于待测训练数据的数据产出周期,所以在实际应用中,在确保参考训练数据正常的情况下以参考训练数据的稠密特征指标作为参考基准,若待测训练数据中的数据出现异常时,训练数据中零占比会增加、稀疏特征数据的重复比例增加再或者稀疏数据数量增加,所以本发明实施例通过将待测训练数据的稀疏特征指标与参考训练数据的稀疏特征指标,能够实现从稀疏特征的角度判断待测训练数据中是否出现异常数据,进而能够反映出数据特征选取的好坏(例如数据特征选取的不好,容易造成训练数据的数据特征中出现很多0值)或者数据是否出现异常的问题。
另外,相较于现有技术没有对数据类型加以区分,本发明实施例针对于数据特征中的整数型数据进行指标分析,能够提升数据异常检测的精确度,避免因为数据类型差异影响检测结果。
可选地,在本发明的又一实施例中,还提供了静态指标的具体计算方式,所述静态指标包括:稀疏特征长度指标,通过以下方式计算预设数据的稀疏特征长度指标:
确定所述预设数据的数据特征,并计算所述预设数据的数据特征中稀疏特征数据特征长度,得到稀疏特征长度指标。
在本发明实施例中,确定所述预设数据的数据特征的数据特征的过程可以参照上述实施例,此处便不再赘述。
在实际应用中一个训练数据中会包含多个数据实example,一个example中包含多个需要分析的feature,以每个feature为单位,确定不同的example中feature对应的值中的稀疏特征值的个数,即可确定了稀疏特征长度指标,能够直观的反映数据的组成,例如在实际应用中每个feature在正常情况下是用两个数值表示,而数据异常的情况下feature对应数值增加到三个或者三个以上,即可判断产出数据异常,达到检测异常数据的目的。
可选地,在本发明的又一实施例中,还提供了静态指标的具体计算方式,所述静态指标包括:零占比指标,如图4所示,,通过以下方式计算预设数据的零占比指标:
步骤S401,计算所述预设数据的数据特征中零的个数;
步骤S402,计算零的个数与所述待测训练数据的数据特征的总量的比值,得到零占比指标。
在本发明实施例中,参照上述实施例中对稀疏特征数据零占比的计算过程,本发明实施例是对训练数据的全部数据特征中的0进行统计,同理,再对参考训练数据进行同样的指标分析,将两者的静态指标进行对比后,即可结合预设的指标阈值判断待测训练数据中是否出现异常数据。例如:训练数据的零占比指标为2%,参考训练数据的零占比指标为4%,人为规定领占比指标浮动在5个百分点内都为正常,所以可以确定该训练数据未出现异常,若训练数据的零占比指标为12%,则说明训练数据出现异常。
本发明实施例通过在静态指标中设置零占比指标,能够最直观的分析训练数据的质量高低,当训练数据中零占比指标相较于其他周期的浮动超过指标阈值,则说明feature选取的不好,以至于在训练数据的数据特征中多出现了很多零值,进而能够帮助工程设计人员重新考量对数据的feature的选取。
可选地,在本发明的又一实施例中,还提供了静态指标的具体计算方式,所述静态指标包括:相关性分析指标,如图5所示,通过以下方式计算预设数据的相关性分析指标:
步骤S501,确定所述预设数据的数据特征;
在本发明实施例中,预设数据的数据特征可以是预先计算完成的,其中数据特征的设置可以根据实际情况而定,具体的应用实例可以参照上述实施例。
步骤S502,根据所述预设数据的数据特征确定与数据特征对应的数据标签和多个特征标签以及每个所述特征标签对应的数据特征值;
在本发明实施例中预设数据中的多个特征标签feature可以是人为预先设置的,具体选取过程可以参照上述实施例,此处不再赘述。
其中,数据标签(label)label在具体应用实例中可以理解为一个用于表示训练数据特征的特殊的feature,一般label的取值是0或者1,例如:在视频推荐领域中label用于表示一个最终的结果,即用户看了视频label为1,没有看视频label为0。
步骤S503,针对每个所述特征标签,计算所述特征标签与所述数据标签的皮尔逊相关性系数,得到相关性分析指标。
在本发明实施例中,预设数据的label与多个预设数据特征feature在空间中可以理解为一个向量,空间的各个方向根据实际情况而定,例如在视频推荐领域中空间中的不同方向可以代表不同视频类型,而label与多个预设feature在空间中以向量的形式表示,所以基于每个所述特征标签,都计算所述特征标签与所述数据标签的皮尔逊相关性系数即可得到相关性分析指标,能够反映多个预设feature与label的线性关系,最终可以实现调整feature,以使label更多的为1,达到期望效果。进而可以通过将待测训练数据的相关性分析指标与参考训练数据的相关性分析指标进行对比,以参考训练数据的相关性分析指标作为衡量标准,判断待测训练数据的相关性分析指标是否出现异常,若待测训练数据的相关性分析指标异常,则说明待测训练数据的数据标签与数据特征设置出错,所以导致待测训练数据的相关性分析指标与衡量标准出现偏差,即待测训练数据中出现异常数据。
另外,需要说明的是静态指标的具体设置是可以根据实际情况而定的,可以是稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个,也可以根据实际情况对静态指标进行添加,例如常规的数据量指标,待测训练数据的数据特征中包含用于表示一个周期内数据生产量的feature,也可以包括用于表示每个数据对应的数据实例的数量的feature等等用于反映训练数据某一方面总量的feature,最终通过获取这些feature对应的值,可以得到数据量指标,同理,参考训练数据做同样的指标分析,最终通过比较两个不同周期的训练数据的数据量指标的变化量,即可确定数据量的变化趋势,最后再判断变化趋势是否处于预估范围内,进而可以确定待测训练数据是否出现异常。
在本发明的又一实施例中,步骤S105,确定所述待测训练数据异常的步骤之后,如图6所示,还包括:
步骤S601,在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;
在本发明实施例中,静态指标中可能包含有很多具体指标项,例如稀疏特征指标中包含有稀疏特征数据数量、重复比例以及零占比,每个具体的指标项都对应由训练数据的数据特征计算得到,所以在所述对比分析指标位于与所述对比分析指标对应的正常指标范围外的情况下,本发明实施例首先确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标(因为对比指标中可能包含多个需要对比的指标项,而并不是每个指标项都会出现异常)。
在确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标的步骤中,具体可以采用逐项对比的方式,例如在实际应用中,静态指标包含指标a和指标b,指标a对应的正常指标范围为A区间,指标b对应的正常指标范围为B区间,分别将指标与其对应的正常指标范围对比,从而得到异常静态指标。
步骤S602,根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;
在该步骤中,由于静态指标是根据数据特征计算得到,而数据特征是用于反映数据的特征(例如分布特征、疏特征或者稠密特征等等),所以通过上述关联关系可以确定与静态指标相对应的数据范围(即一部分用于计算静态指标的数据),所以当确定静态指标异常时,确定与异常静态指标的异常数据范围即可实现对异常数据的定位。
步骤S603,剔除所述待测训练数据中位于异常数据范围内的数据。
本发明实施例通过将待测训练数据中的异常数据剔除,从而提高训数据的样本质量,保证训练效果。例如在实际应用中,基于人工智能的在线推理服务在广告、推荐等业务场景中使用的十分广泛,推理服务是用于将最适合用户的个性化广告/媒体内容推送给用户,并通过用户是否点击、购买等,来衡量推理服务的实际转化率,转化率越高,推理服务的效果也就越高,所以需要确保用于训练推理服务的训练数据的质量,剔除训练数据中存在异常数据,避免异常数据影响推理服务的实际转化率。
在本发明的又一实施例中,还提供了一种异常数据检测装置,如图7所示,包括:
接收模块01,用于接收对待测训练数据进行异常检测的数据检测请求;
第一获取模块02,用于根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
第二获取模块03,用于分别获取所述待测训练数据和所述参考训练数据的静态指标;
对比模块04,用于将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
第一确定模块05,用于若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常。
可选地,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个。
可选地,异常数据检测装置还包括:稠密特征指标计算模块,所述稠密特征指标计算模块用于通过以下方式计算预设数据的稠密度特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个浮点型数据确定为稠密特征数据;
对多个所述稠密特征数据进行数据统计处理,得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息;
对多个所述稠密特征数据进行平均值运算,得到稠密平均值;
对多个所述稠密特征数据进行中值运算,得到稠密中值;
对多个所述稠密特征数据进行方差运算,得到稠密方差;
从多个所述稠密特征数据选取最大值,得到最大稠密特征数据;
从多个所述稠密特征数据选取最小值,得到最小稠密特征数据;
将所述稠密平均值、稠密中值、稠密方差、最大稠密特征数据、最小稠密特征数据以及稠密特征数据分布信息分别确定为所述稠密特征指标。
可选地,异常数据检测装置还包括:稀疏特征指标计算模块,所述稀疏特征指标计算模块用于通过以下方式计算预设数据的稀疏特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个整数型数据确定为稀疏特征数据;
统计多个所述稀疏特征数据的数量,得到稀疏特征数据数量;
计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例,得到重复比例;
计算多个所述稀疏特征数据中数值为零的稀疏特征数据个数与所述稀疏特征数据数量的比值,得到零占比;
将所述稀疏特征数据数量、重复比例以及零占比分别确定为所述稀疏特征指标。
可选地,异常数据检测装置还包括:稀疏特征长度指标计算模块,所述稀疏特征长度指标计算模块用于通过以下方式计算预设数据的稀疏特征长度指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
计算所述预设数据的数据特征中稀疏特征数据的特征长度,得到稀疏特征长度指标。
可选地,异常数据检测装置还包括:零占比指标计算模块,所述零占比指标计算模块用于通过以下方式计算预设数据的零占比指标,所述预设数据为所述待测训练数据或所述参考训练数据:
计算所述预设数据的数据特征中零的个数;
计算零的个数与所述预设数据的数据特征的总量的比值,得到零占比指标。
可选地,异常数据检测装置还包括:相关性分析指标计算模块,所述相关性分析指标计算模块用于通过以下方式计算预设数据的相关性分析指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
根据所述预设数据的数据特征确定与数据特征对应的数据标签和多个特征标签以及每个所述特征标签对应的数据特征值;
针对每个所述特征标签,计算所述特征标签与所述数据标签的皮尔逊相关性系数,得到相关性分析指标。
可选地,异常数据检测装置还包括:
第二确定模块,用于在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;
第三确定模块,用于根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;
剔除模块,用于剔除所述待测训练数据中位于异常数据范围内的数据。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信,
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下步骤:
通过获取当前产出周期之前产出周期的的参考训练数据作为参考标准,将待测训练数据与参考训练数据进行对比得到的对比分析指标,再通过判断对比分析指标是否满足正常指标范围,实现检测待测训练数据中是否存在异常数据,进而保证推理服务质量。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的异常数据检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的异常数据检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种异常数据检测方法,其特征在于,所述方法包括:
接收对待测训练数据进行异常检测的数据检测请求,所述待测训练数据为用于将最适合用户的个性化广告/媒体内容推送给用户的训练数据;
根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
分别获取所述待测训练数据和所述参考训练数据的静态指标,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个;
将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常;
确定所述待测训练数据异常的步骤之后,还包括:
在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;
根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;
剔除所述待测训练数据中位于异常数据范围内的数据。
2.根据权利要求1所述的异常数据检测方法,其特征在于,通过以下方式计算预设数据的稠密度特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个浮点型数据确定为稠密特征数据;
对多个所述稠密特征数据进行数据统计处理,得到用于表示多个所述稠密特征数据的数值分布区间的稠密特征数据分布信息;
对多个所述稠密特征数据进行平均值运算,得到稠密平均值;
对多个所述稠密特征数据进行中值运算,得到稠密中值;
对多个所述稠密特征数据进行方差运算,得到稠密方差;
从多个所述稠密特征数据选取最大值,得到最大稠密特征数据;
从多个所述稠密特征数据选取最小值,得到最小稠密特征数据;
将所述稠密平均值、稠密中值、稠密方差、最大稠密特征数据、最小稠密特征数据以及稠密特征数据分布信息分别确定为所述稠密特征指标。
3.根据权利要求1所述的异常数据检测方法,其特征在于,通过以下方式计算预设数据的稀疏特征指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
将所述预设数据的数据特征中的多个整数型数据确定为稀疏特征数据;
统计多个所述稀疏特征数据的数量,得到稀疏特征数据数量;
计算多个所述稀疏特征数据中数值大小相同的稀疏特征数据占所述稀疏特征数据总数的比例,得到重复比例;
计算多个所述稀疏特征数据中数值为零的稀疏特征数据个数与所述稀疏特征数据数量的比值,得到零占比;
将所述稀疏特征数据数量、重复比例以及零占比分别确定为所述稀疏特征指标。
4.根据权利要求1所述的异常数据检测方法,其特征在于,通过以下方式计算预设数据的稀疏特征长度指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
计算所述预设数据的数据特征中稀疏特征数据的特征长度,得到稀疏特征长度指标。
5.根据权利要求1所述的异常数据检测方法,其特征在于,通过以下方式计算预设数据的零占比指标,所述预设数据为所述待测训练数据或所述参考训练数据:
计算所述预设数据的数据特征中零的个数;
计算零的个数与所述预设数据的数据特征的总量的比值,得到零占比指标。
6.根据权利要求1所述的异常数据检测方法,其特征在于,通过以下方式计算预设数据的相关性分析指标,所述预设数据为所述待测训练数据或所述参考训练数据:
确定所述预设数据的数据特征;
根据所述预设数据的数据特征确定与数据特征对应的数据标签和多个特征标签以及每个所述特征标签对应的数据特征值;
针对每个所述特征标签,计算所述特征标签与所述数据标签的皮尔逊相关性系数,得到相关性分析指标。
7.一种异常数据检测装置,其特征在于,包括:
接收模块,用于接收对待测训练数据进行异常检测的数据检测请求,所述待测训练数据为用于将最适合用户的个性化广告/媒体内容推送给用户的训练数据;
第一获取模块,用于根据所述数据检测请求在数据源中获取待测训练数据及产出周期位于所述待测训练数据之前的参考训练数据;
第二获取模块,用于分别获取所述待测训练数据和所述参考训练数据的静态指标,所述静态指标包括:稠密特征指标、稀疏特征指标、稀疏特征长度指标、零占比指标以及相关性分析指标中的一个或多个;
对比模块,用于将所述待测训练数据的静态指标和所述参考训练数据的静态指标进行对比,得到对比分析指标;
第一确定模块,用于若所述对比分析指标位于与所述对比分析指标对应的正常指标范围外,则确定所述待测训练数据异常;确定所述待测训练数据异常的步骤之后,还包括:在所述待测训练数据的静态指标中,确定与位于对应的正常指标范围外的对比分析指标对应的异常静态指标;根据所述异常静态指标,在所述待测训练数据中确定异常数据范围;剔除所述待测训练数据中位于异常数据范围内的数据。
8.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389120.0A CN111767938B (zh) | 2020-05-09 | 2020-05-09 | 一种异常数据检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389120.0A CN111767938B (zh) | 2020-05-09 | 2020-05-09 | 一种异常数据检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767938A CN111767938A (zh) | 2020-10-13 |
CN111767938B true CN111767938B (zh) | 2023-12-19 |
Family
ID=72719296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010389120.0A Active CN111767938B (zh) | 2020-05-09 | 2020-05-09 | 一种异常数据检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767938B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808689B (zh) * | 2021-09-22 | 2023-06-20 | 上海妙一生物科技有限公司 | 一种参考数据管理方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256237A (zh) * | 2017-05-23 | 2017-10-17 | 中国电子科技集团公司第二十八研究所 | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 |
CN107357844A (zh) * | 2017-06-26 | 2017-11-17 | 广州视源电子科技股份有限公司 | 离群点检测方法和装置 |
CN107846453A (zh) * | 2017-10-25 | 2018-03-27 | 迈普通信技术股份有限公司 | 数据处理方法及装置 |
CN108053432A (zh) * | 2017-11-14 | 2018-05-18 | 华南理工大学 | 基于局部icp的室内稀疏点云场景的配准方法 |
CN108964076A (zh) * | 2018-07-17 | 2018-12-07 | 广东电网有限责任公司电网规划研究中心 | 区域电网无功规划评价方法及系统、计算机设备、介质 |
WO2019036095A1 (en) * | 2017-08-17 | 2019-02-21 | Siemens Aktiengesellschaft | DEFRONTED DETECTION BASED ON A DEVOLVED CONVOLUTION NEURONAL NETWORK FOR TRANSACTIVE ENERGY SYSTEMS |
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
CN109978379A (zh) * | 2019-03-28 | 2019-07-05 | 北京百度网讯科技有限公司 | 时序数据异常检测方法、装置、计算机设备和存储介质 |
CN110888788A (zh) * | 2019-10-16 | 2020-03-17 | 平安科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
WO2020078059A1 (zh) * | 2018-10-17 | 2020-04-23 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8836788B2 (en) * | 2012-08-06 | 2014-09-16 | Cloudparc, Inc. | Controlling use of parking spaces and restricted locations using multiple cameras |
US10176389B2 (en) * | 2016-06-09 | 2019-01-08 | International Business Machines Corporation | Methods and systems for moving traffic obstacle detection |
CN109521725A (zh) * | 2017-09-20 | 2019-03-26 | 西门子公司 | 检测异常数据的方法、装置和设备以及机器可读介质 |
US20190147462A1 (en) * | 2017-11-10 | 2019-05-16 | Target Brands, Inc. | Hybrid demand model for promotion planning |
US20200136923A1 (en) * | 2018-10-28 | 2020-04-30 | Netz Forecasts Ltd. | Systems and methods for prediction of anomalies |
-
2020
- 2020-05-09 CN CN202010389120.0A patent/CN111767938B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256237A (zh) * | 2017-05-23 | 2017-10-17 | 中国电子科技集团公司第二十八研究所 | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 |
CN107357844A (zh) * | 2017-06-26 | 2017-11-17 | 广州视源电子科技股份有限公司 | 离群点检测方法和装置 |
WO2019036095A1 (en) * | 2017-08-17 | 2019-02-21 | Siemens Aktiengesellschaft | DEFRONTED DETECTION BASED ON A DEVOLVED CONVOLUTION NEURONAL NETWORK FOR TRANSACTIVE ENERGY SYSTEMS |
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
CN107846453A (zh) * | 2017-10-25 | 2018-03-27 | 迈普通信技术股份有限公司 | 数据处理方法及装置 |
CN108053432A (zh) * | 2017-11-14 | 2018-05-18 | 华南理工大学 | 基于局部icp的室内稀疏点云场景的配准方法 |
CN108964076A (zh) * | 2018-07-17 | 2018-12-07 | 广东电网有限责任公司电网规划研究中心 | 区域电网无功规划评价方法及系统、计算机设备、介质 |
WO2020078059A1 (zh) * | 2018-10-17 | 2020-04-23 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
CN109978379A (zh) * | 2019-03-28 | 2019-07-05 | 北京百度网讯科技有限公司 | 时序数据异常检测方法、装置、计算机设备和存储介质 |
CN110888788A (zh) * | 2019-10-16 | 2020-03-17 | 平安科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111767938A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194430B (zh) | 一种样本筛选方法及装置,电子设备 | |
CN113518011B (zh) | 异常检测方法和装置、电子设备及计算机可读存储介质 | |
CN109165691B (zh) | 用于识别作弊用户的模型的训练方法、装置及电子设备 | |
CN112734494A (zh) | 一种销量预测方法、装置、终端设备及可读存储介质 | |
CN112737894B (zh) | 网络质量监控方法和装置、存储介质和电子设备 | |
KR101733708B1 (ko) | 시스템으로부터 획득되는 측정 값들을 평가하기 위한 방법 및 시스템 | |
CN111860698B (zh) | 确定学习模型的稳定性的方法和装置 | |
CN111767938B (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN116028730A (zh) | 搜索资源异常识别方法、装置及电子设备 | |
CN114049072B (zh) | 指标确定方法、装置、电子设备和计算机可读介质 | |
CN117041017A (zh) | 数据中心的智能运维管理方法及系统 | |
CN113205189B (zh) | 训练预测模型的方法、预测方法及装置 | |
CN114519519A (zh) | 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质 | |
CN113673454A (zh) | 遗留物检测方法、相关设备和存储介质 | |
Zhou et al. | Performance evaluation method for network monitoring based on separable temporal exponential random graph models with application to the study of autocorrelation effects | |
CN115567371B (zh) | 一种异常检测方法、装置、设备及可读存储介质 | |
CN114938339A (zh) | 一种数据处理方法和相关装置 | |
CN112069797B (zh) | 一种基于语义的语音质检方法和装置 | |
CN111984867B (zh) | 一种网络资源确定方法及装置 | |
Tang et al. | A nonparametric control chart for monitoring count data mean | |
Yu et al. | Performance of the Shiryaev‐Roberts‐type scheme in comparison to the CUSUM and EWMA schemes in monitoring weibull scale parameter based on Type I censored data | |
CN112598118B (zh) | 有监督学习的标注异常处理方法、装置、存储介质及设备 | |
CN113128220B (zh) | 文本判别的方法、装置、电子设备及存储介质 | |
CN115391160B (zh) | 一种异常变更检测方法、装置、设备及存储介质 | |
CN112149546B (zh) | 一种信息处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |