CN106445938A - 一种数据检测方法及装置 - Google Patents
一种数据检测方法及装置 Download PDFInfo
- Publication number
- CN106445938A CN106445938A CN201510474635.XA CN201510474635A CN106445938A CN 106445938 A CN106445938 A CN 106445938A CN 201510474635 A CN201510474635 A CN 201510474635A CN 106445938 A CN106445938 A CN 106445938A
- Authority
- CN
- China
- Prior art keywords
- data
- discrete data
- data set
- detection
- discrete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据检测方法及装置,该方法包括:接收针对离散数据集合的检测请求,确定所述检测请求所对应的离散数据集合,及该离散数据集合对应的检测方式,根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据是否异常。通过本方法,改变了现有技术中需要人工介入对离散数据进行检测的方式,检测过程可由检测设备自动执行,在有效提升对离散数据进行检测的便捷性的同时,也有效提升了检测的效率和准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据检测方法及装置。
背景技术
随着信息技术的发展,大数据已经成为信息行业发展中的一种崭新的数据资源。不同的网络服务商通过对大数据进行相应的处理(如:对大数据进行数据挖掘、数据集成等),可为用户提供丰富的各类数据服务。
大数据中往往包括类型多样的数据,其中一种重要的数据类型称为离散数据(在统计学中,数据按变量值是否连续可分为连续数据与离散数据两种),例如:人员编号、性别属性值等等均属于离散数据。
在实际应用中,离散数据中可能会出现异常(异常的离散数据是脏数据的一种),造成离散数据出现异常的原因多样,如:某些离散数据由相应的业务系统生成,在此情况下,如果业务系统中的某些业务逻辑出现问题,那么,其产生的离散数据就可能出现异常。
现有技术中,为了检测离散数据中是否存在脏数据,通常采用的方式是对离散数据进行人工检测,即:在离散数据产生后,通过人工介入的方式,针对生成的离散数据按照不同的方式进行划分,并由人工进行判断划分后的离散数据是否存在异常。
采用人工介入的方式对离散数据进行检测,在海量离散数据的情况下,效率和准确性均较低。
发明内容
本申请实施例提供一种数据检测方法,用以解决现有技术中的离散数据检测方式存在的效率和准确性较低的问题。
本申请实施例还提供一种数据检测装置,用以解决现有技术中的离散数据检测方式存在的效率和准确性较低的问题。
本申请实施例提供的一种数据检测方法,包括:
接收针对离散数据的检测请求;
确定所述检测请求所对应的离散数据,及该离散数据对应的检测方式;
根据确定出的所述检测方式,对所述离散数据进行检测,以判断所述离散数据是否异常。
本申请实施例提供的一种数据检测装置,包括:
接收模块,用于接收针对离散数据的检测请求;
确定模块,用于确定所述检测请求所对应的离散数据,及该离散数据对应的检测方式;
检测模块,用于根据确定出的所述检测方式,以对所述离散数据进行检测,判断所述离散数据是否异常。
本申请实施例提供一种数据检测方法及装置,通过该方法,在针对待测试的离散数据集合的检测请求的触发下,可以实现自动根据该检测请求确定出待测试的离散数据集合以及与该离散数据集合相匹配的检测方式,并通过该检测方式,对该待检测的离散数据集合是否异常进行检测。通过本方法,改变了现有技术中需要人工介入对离散数据进行检测的方式,检测过程可由检测设备自动执行,在有效提升对离散数据进行检测的便捷性的同时,也有效提升了检测的效率和准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的数据检测过程;
图2a为本申请实施例提供的数据检测方法在实际应用中的系统架构示意图;
图2b为本申请实施例提供的数据检测装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例对应的实际应用场景下,离散数据存储在大数据下的数据仓库中,其中,数据仓库可以看作是一种针对大数据进行存储的存储环境。该数据仓库还可以对其中存储的各类数据进行归纳、重组、整合等操作,供不同的使用者使用。
需要说明的是,上述的数据仓库为网络服务商的服务系统提供了海量的数据支持。比如,服务系统中的离散数据均可以存储在数据仓库中,相应地,服务系统也可以从数据仓库中提取需要的离散数据。其中,存储在数据仓库中的离散数据可以是由网络服务商自身的服务系统运行所产生的离散数据(如:各类业务数据),也可以是不同的开发者所开发的应用在运行时生成的离散数据。
当服务系统需要使用数据仓库中的上述数据时,数据仓库就会根据该服务系统的指示,将对应的数据进行整合而“生产”出来。具体地,对数据仓库中的离散数据进行整合生成的操作,可以由运行在该数据仓库上的数据生产系统完成。
例如:某一用户在网络服务商的服务系统中运行统计任务(可看作一种进程),该统计任务用于统计该用户自一年以前至今,在指定网站中所购买商品使用的金额。那么,该统计任务运行后,数据仓库中的生产系统就会根据该统计任务,集成并提取属于该用户的自一年以前至今的金额数据,反馈给用户。
显然,上述的金额数据中的不同额度值往往不是在某一数值区间内的连续取值,而是间断且离散的取值,所以,金额数据就是一种离散数据。在本申请中,由数据仓库的数据生产系统所生成的离散数据可看作是一个离散数据集合,该离散数据集合中包含了多个离散数据。正如上例中统计的金额数据,就可以看作是一个离散数据集合,而其中用户购买每一种商品的金额,就是该离散数据集合中的离散数据。
但是,数据仓库中所存储的离散数据可能存在冗余或错误,这样就会导致数据仓库整合后的离散数据集合存在异常。为了避免整合后的离散数据集合中的异常情况对后续的处理过程造成影响,因此在本申请实施例中,提供了一种数据检测方法,具体而言,如图1所示。
图1为本申请实施例提供的数据检测过程,该过程具体包括以下步骤:
S101,接收针对离散数据集合的检测请求。
当数据仓库生成了相应的离散数据集合之后,为了保证该离散数据集合的准确性,故数据仓库可以针对所述离散数据集合生成相应的检测请求,以触发该请求的接收方对生产出的所述离散数据集合进行检测。
当然,作为本申请实施例中的一种可选方式,本申请中对离散数据集合进行检测的操作,可以由具有数据检测功能的设备(如:服务器)完成。在实际应用场景中,为了对海量的离散数据集合进行检测,单一一台检测设备无法承受大量的工作负荷,所以,可以采用分布式系统的方式或者服务器集群(形成具有数据检测功能的检测系统),来完成对海量离散数据集合的检测操作。
本申请中所述的数据检测设备,可以设置在数据仓库中,也可以设置在网络服务商后台的服务系统中,当然,这里并不构成对本申请的限定。
S102,确定所述检测请求所对应的离散数据集合,及该离散数据集合对应的检测方式。
需要说明的是,在实际应用中,数据仓库中包含大量原始的离散数据,并且,数据仓库可以同时整合生成不同的离散数据,为了保证整合生成的不同离散数据集合在进行检测时不发生混乱,所以,数据仓库会在已经整合生成的离散数据集合的基础上,生成与该离散数据对应的检测请求。从而,以所述检测请求的接收方为某检测设备为例,当该检测设备接收到了检测请求后,可以根据该检测请求中包含的离散数据集合标识,唯一确定出与该检测请求相对应的离散数据集合,即确定该标识所对应的离散数据集合。
当仅存在一个离散数据集合时,该检测请求中也可以不包含离散数据集合标识,从而所述检测请求的接收方可以直接响应于该检测请求,确定存在的该一个离散数据集合为该检测请求所对应的、默认的离散数据集合。
由于不同的离散数据集合中离散数据的类型、数据构成均不相同,如果针对不同的离散数据集合,仅采用单一的检测方式,可能会造成检测结果不准确的情况,所以,在本申请实施例中,对不同的离散数据集合进行检测时,可以采用不同的检测方式。为达到该目的,经过上述步骤确定出检测请求所对应的离散数据集合之后,可以根据所述离散数据集合进一步确定该离散数据集合对应的检测方式。
本申请中,既可以根据预先建立的检测方式与离散数据类型之间的对应关系,来确定离散数据集合对应的检测方式;也可以根据预设的检测配置信息,来确定离散数据集合对应的检测方式。当然,这里并不构成对本申请的限定。
S103,根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据是否异常。若是,则执行步骤S104;否则,则执行步骤S105。
由于出现了异常的离散数据集合,将影响后续对数据进行处理时的准确性,所以,当检测到离散数据集合出现了异常后,就将执行步骤S104。反之,对于正常的离散数据集合,就可以执行步骤S105。
本申请实施例中,如不考虑根据判断结果对离散数据集合进行处理,则也可以在得到判断结果后,不执行步骤S104或步骤S105。
S104,对所述离散数据集合进行相应处理。
在本申请实施例中,为了最大程度降低异常的离散数据集合对后续处理过程的影响,可以对异常的离散数据集合进行处理,例如:根据异常的离散数据集合,修复前续的业务运行逻辑。又例如:对于出现异常的离散数据集合,可以向开发者用户发送通知消息,以告知开发者用户该离散数据集合中出现了异常,后续可由该开发者用户对异常的离散数据集合进行修正调整。这里对离散数据集合进行处理的方式并不构成对本申请的限定。
S105,将所述离散数据集合进行存储。
对于没有出现异常的离散数据集合,将不会对后续的数据处理过程造成影响,故这些离散数据集合就可以确定是正常的,那么,检测设备就会将正常的离散数据集合进行存储,以便后续对这些正常的离散数据集合进行使用。
通过上述步骤,本申请实施例中,相应的检测设备在接收到了针对待检测的离散数据集合的检测请求后,就会根据该检测请求,确定出待检测的离散数据集合,以及与该离散数据相匹配的检测方式,再通过该检测方式,对该待检测的离散数据集合进行检测。从而确定出离散数据集合是否出现异常。通过本方法,改变了现有技术中需要人工介入对离散数据进行检测的方式,在有效提升对离散数据进行检测的便捷性的同时,也有效提升了检测的效率和准确性。
在实际应用中,当数据仓库针对其中存储的数据进行整理生成了相应的离散数据集合后,通常会将生成的离散数据集合以数据表的形式,临时存储在数据仓库的不同分区中。为了能够保证数据检测设备准确地查找到生成的离散数据集合,数据仓库可以将待检测的离散数据集合所存储的数据表的标识、在数据仓库中的分区等存储位置信息,携带在检测请求中,一并发送至数据检测设备。
因此,当数据检测设备接收到了检测请求后,就可以根据其中携带的离散数据集合的存储位置信息,确定并查找到离散数据集合,也即,本申请上述步骤S102中,确定所述检测请求所对应的离散数据集合,具体包括:获取所述检测请求中包含的所述离散数据集合的存储位置信息,根据所述存储位置信息,查找所述离散数据集合。
例如:某开发者用户在数据仓库中运行某查询任务,查询指定的5名用户的贷款利率数据。相应的数据生产系统就会根据运行的查询任务,在数据仓库中查询并整合生成这5名用户的贷款利率数据集合(属于一种离散数据集合),并将生成的贷款利率数据集合以数据表的方式存储在了数据仓库的分区A中。假设,该贷款利率数据集合的存储位置信息为“贷款利率表A-101”,显然,该存储位置信息中不仅反映了,贷款利率数据集合所在的分区(字符“A-101”中“A”就表示了数据仓库中的分区A)、也标示出了数据表的具体名称(字符“A-101”中“101”就是数据表的名称)。当然,该示例只是为了清楚说明存储位置信息的表现形式,并不作为对本申请的限定。
当数据检测设备接收到了检测请求后,就可以根据检测请求中所携带的离散数据集合的上述存储位置信息,查询到具体的离散数据集合。
而在实际应用中,不同的离散数据集合通常匹配有不同的检测方式,那么,在查询到了具体的离散数据集合后,便可以确定该离散数据集合所匹配的检测方式。需要说明的是,在本申请实施例中的一种可选方式下,针对离散数据集合的检测方式,通常由相应的开发者用户进行配置,也即,本申请实施例中的检测设备提供不同类型的检测方式,由开发者用户进行选择,当然,为了提升对离散数据集合进行检测的准确性,开发者用户可以针对某一离散数据集合,选择多种检测方式,从而,检测设备就可以针对离散数据集合进行多项检测。
开发者用户所选定的检测方式,会以检测方式信息的形式,保存在相应的配置信息中。故在本申请实施例中,确定所述离散数据对应的检测方式,具体包括:获取与所述离散数据集合相匹配的检测配置信息(其中,所述检测配置信息中包含有检测方式信息),读取所述检测配置信息中包含的检测方式,确定所述检测方式信息对应的检测方式,作为所述离散数据集合对应的检测方式。
当数据检测设备确定出需要检测的离散数据,以及与该离散数据相匹配的检测方式后,数据检测设备就可以对离散数据进行检测。在本申请实施例中根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据集合是否异常,具体可以包括:根据所述检测方式,确定所述离散数据集合中相应的离散数据的指定特征,采集所述离散数据的指定特征作为待测样本数据,通过比对预设的标准数据与所述待测样本数据,判断所述待测样本数据与标准数据是否匹配,若是,则判定所述离散数据集合正常;否则,则判定所述离散数据集合异常。
换言之,本申请实施例中对离散数据集合的检测方式,就是对离散数据集合中,部分或全部的离散数据的指定特征进行检测,如果离散数据的某种指定特征出现了异常,那么,也就表示该离散数据集合是异常的。
需要说明的是,“相应的离散数据”,是指与通过执行步骤S102确定出的“检测方式”对应的离散数据。举例而言,若该检测方式包括“确定所述离散数据集合中所有离散数据的指定特征”,则所述的“相应的离散数据”,是指离散数据集合中的所有离散数据;而若该检测方式包括“确定所述离散数据集合的某个子集合中的离散数据的指定特征”,则所述的“相应的离散数据”,是指该子集合中的所有离散数据;以此类推。
为了清楚的阐述本申请中的检测过程,下面将以不同的检测方式为例进行详细说明。
一、对相应的离散数据的类别的数量进行检测
实际应用中,离散数据集合中的某些离散数据,拥有不同的类别,在某些情况下,类别的多少就能反映出该离散数据集合是否异常。
也即,在该场景下,当所述指定特征为所述相应的离散数据的类别的数量时,所述标准数据为类别的预设标准数量,那么,判断所述待测样本数据与标准数据是否匹配,具体为:判断所述相应的离散数据的类别的数量是否匹配所述类别的预设标准数量。
例如:假设,某离散数据集合是5名用户的性别数据集合,这5名用户的性别数据具体如下表1a所示:
用户 | 性别 |
用户1 | 1 |
用户2 | 1 |
用户3 | 2 |
用户4 | 1 |
用户5 | 2 |
表1a
针对上述表1a中的性别数据,假设相应的指定特征为性别数据的类别的数量,那么,对上述表1a所示的性别数据进行采集后,可得到表1b所示的两组待测样本数据:
性别为1 | 性别为2 |
用户1 | 用户3 |
用户2 | 用户5 |
用户4 |
表1b
在表1b中,性别数据按照性别划分为两组数据,也即,类别的数量为2。显然,人类性别的数量通常是固定的,即类别的预设标准数量就为2(表示只有两种性别),那么,表1b中以性别进行采集后,得到的类别的数量与预设标准数量相匹配。所以,可以认为上述表1a的性别数据是正常的(在实际应用中,如果以性别进行采集后只得到一组数据,那么,该待测样本数据也可以认为是正常的)。当然,如果对性别进行采集后的类别的数量超过2,那么,就证明待测样本数据出现了异常,也即,离散数据集合是异常的。
一、对相应的离散数据的类别数量的变化率进行检测
实际应用中的某些情况下,只通过相应的离散数据的类别的数量多少来确定离散数据集合是否异常并不一定准确。例如:假设离散数据集合是针对某应用程序进行测试后,所得到的不同类别的测试结果出现次数的统计数据集合,该离散数据集合如下表2所示:
测试结果 | 次数 |
异常九类 | 1 |
异常三类 | 1 |
异常五类 | 2 |
异常四类 | 1 |
表2
对应用程序的测试结果中,允许存在多类异常类别的测试结果,在这样的情况下,如果只采集测试结果的类别的数量(表2中有4种测试结果,也即,类别的个数也为4),来判断测试是否通过,那么,将影响对应用程序测试的准确性。
所以,在该场景下,当所述指定特征为所述相应的离散数据的类别数量的变化率时,所述标准数据为类别数量的预设标准变化率区间,那么,判断所述待测样本数据与标准数据是否匹配,具体为:判断相应的离散数据的类别数量的变化率是否落入所述类别数量的预设标准变化率区间。
延续表2对应的示例,假设上一次针对该应用程序的测试后,没有出现异常结果(即,类别数量为0),而本次测试后,表2中的测试结果类别为4(即指定特征为4),假设针对该应用程序的各次测试结果,可接受的异常结果的变化率为[1,3](也即,此时的预设标准变化率区间为[1,3]),显然,表2中离散数据的指定特征(为4)并未落入到预设标准变化率区间中,因此,可以认为此次测试结果不通过。
在上述两种方式中,指定特征均是与离散数据集合中离散数据的类别数量相关。除此之外,指定特征还可以与离散数据对应的数据值相关。
三、对相应的离散数据的数据值进行检测
在该场景下,当所述待测样本数据为相应的离散数据的数据值时,所述标准数据为标准数据值,那么,判断所述待测样本数据与标准数据是否匹配,具体为:判断相应的离散数据的数据值是否符合所述标准数据值。
例如:假设离散数据集合为5名用户的贷款利率数据,如下表3所示:
用户 | 贷款利率 |
用户1 | 1.9 |
用户2 | 1.7 |
用户3 | 1.8 |
用户4 | 1.7 |
用户5 | 0.9 |
表3
其中,表3中各用户对应的贷款利率值就是离散数据的数据值。并假设用户的贷款利率至少为1.5(也即,标准数据值为1.5),显然,用户5的贷款利率0.9低于该标准数据值1.5,因此,可以认为表3中的贷款利率数据异常。
四、对相应的离散数据的数据值的变化率进行检测
与上述基于类别数量的变化率的检测方式类似,实际应用中的某些情况下,离散数据的数据值也存在一定范围的波动,那么,在这样的情况下,只通过数据值的大小来确定离散数据集合是否异常并不一定准确。
所以,在该场景下,当所述指定特征为离散数据的数据值的变化率时,所述标准数据为数据值的预设标准变化率区间,判断所述待测样本数据与标准数据是否匹配,具体为:判断所述离散数据的数据值的变化率是否落入所述预设的标准变化率区间。
例如:假设离散数据集合是针对某应用程序进行测试后,所得到的不同类别测试结果出现的次数,该离散数据集合如下表4a所示:
测试结果 | 次数 |
异常一类 | 12 |
异常二类 | 10 |
表4a
表4a中,异常的测试结果类别所出现的次数,就是离散数据的数据值,假设历史数据中,测试结果类别为“异常一类”出现次数的均值为3,测试结果类别为“异常二类”出现次数的均值为2,那么,本次测试的测试结果中,异常一类的变化率为4、异常二类的变化率为5。假设,标准变化率区间为[1.5~3.5],显然,本次测试所得到的测试结果类型的次数,已经超出了标准变化率区间的范围,这就表明,本次测试得到的结果出现了异常。
上述内容仅作为本申请实施例中的可选方式,并不构成对本申请的限定。显然,通过上述的检测方式,可以针对离散数据集合进行不同方面的检测,尤其在实际应用中,用户针对待测试的离散数据集合,可以配置多种检测方式,从而有效地提升了对离散数据集合检测的准确性,而且,用户所配置的检测方式将由相应的检测设备自动执行,不需要检测过程中的人工介入,有效提升了对离散数据集合进行检测的效率。
以上为本申请实施例提供的数据检测方法,在实际应用中,本申请中的上述方法,可以通过如图2a所示的系统架构实现,在图2a所示的架构中,由运行在数据仓库上的数据生产系统向离散数据监控系统发送检测请求,相应地,离散数据监控系统中的监控触发模块会根据该检测请求进行初始化操作,包括:校验该检测请求的信息格式、与该检测请求对应的离散数据集合、确定相应的检测方式等操作。完成了初始化操作后,就会由监控采集模块进一步采集待测样本数据,再由监控校验数据完成对样本数据的检测。
其中,监控采集模块可以通过数据库(DataBase,DB)、开放数据处理服务(Open Data Processing Service,ODPS)平台或Hive(一种数据仓库工具),采集到样本数据和标准数据。监控校验模块在检测到离散数据集合为正常后,会将离散数据集合存储在DB中,以便后续使用。
基于同样的思路,本申请实施例还提供一种数据检测装置,如图2b所示。
在图2b中,所述数据检测装置包括:接收模块201、确定模块202以及检测模块203,其中,
所述接收模块201,用于接收针对离散数据集合的检测请求。
所述确定模块202,用于确定所述检测请求所对应的所述离散数据集合,及该离散数据集合对应的检测方式。
所述检测模块203,用于根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据集合是否异常。若是,则对所述离散数据集合进行相应处理;否则,则将所述离散数据集合进行存储。
在本申请实施例中,所述检测请求中携带有所述离散数据集合的存储位置信息,此时,所述确定模块202,具体用于获取所述检测请求中包含的所述离散数据集合的存储位置信息,根据所述存储位置信息,查找所述离散数据集合。
在查找到了所述离散数据后,便可以确定与该离散数据相匹配的检测方式,故所述确定模块202,具体用于获取与所述离散数据集合相匹配的检测配置信息;其中,所述检测配置信息中包含有检测方式信息;读取所述检测配置信息中包含的检测方式信息,确定所述检测方式信息对应的检测方式。
在本申请实施例中,所述检测模块203,具体用于根据所述检测方式,确定所述离散数据集合中相应的离散数据的指定特征,采集所述离散数据的指定特征作为待测样本数据,通过比对预设的标准数据与所述待测样本数据,判断所述待测样本数据与标准数据是否匹配,若是,则判定所述离散数据集合正常;否则,则判定所述离散数据集合异常。
在一种实施方式中,当所述指定特征为类别的数量时,所述标准数据为类别的预设标准数量。此时,所述检测模块203,具体用于判断所述类别的数量是否匹配所述类别的预设标准数量。
在一种实施方式中,当所述指定特征为类别数量的变化率时,所述标准数据为类别数量的预设标准变化率区间。此时,所述检测模块203,具体用于判断所述类别数量的变化率是否落入所述类别数量的预设标准变化率区间。
在一种实施方式中,当所述指定特征为所述数据值时,所述标准数据为标准数据值。此时,所述检测模块203,具体用于判断所述数据值是否符合所述标准数据值。
在一种实施方式中,当所述指定特征为数据值的变化率时,所述标准数据为数据值的预设标准变化率区间。此时,所述检测模块203,具体用于判断所述数据值的变化率是否落入所述预设的标准变化率区间。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种数据检测方法,其特征在于,包括:
接收针对离散数据集合的检测请求;
确定所述检测请求所对应的所述离散数据集合,及所述离散数据集合对应的检测方式;
根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据集合是否异常。
2.如权利要求1所述的方法,其特征在于,所述检测请求中携带有所述离散数据集合的存储位置信息;
确定所述检测请求所对应的所述离散数据集合,具体包括:
获取所述检测请求中包含的所述离散数据集合的存储位置信息;
根据所述存储位置信息,查找所述离散数据集合。
3.如权利要求1所述的方法,其特征在于,确定所述离散数据集合对应的检测方式,具体包括:
获取与所述离散数据集合相匹配的检测配置信息;其中,所述检测配置信息中包含有检测方式信息;
读取所述检测配置信息中包含的检测方式信息;
确定所述检测方式信息对应的检测方式。
4.如权利要求1所述的方法,其特征在于,根据确定出的所述检测方式,对所述离散数据集合进行检测,以判断所述离散数据集合是否异常,具体包括:
根据所述检测方式,确定所述离散数据集合中相应的离散数据的指定特征;
采集所述离散数据的指定特征作为待测样本数据;
通过比对预设的标准数据与所述待测样本数据,判断所述待测样本数据与标准数据是否匹配;
若是,则判定所述离散数据集合正常;
否则,则判定所述离散数据集合异常。
5.如权利要求4所述的方法,其特征在于,当所述指定特征为类别的数量时,所述标准数据为类别的预设标准数量;
判断所述待测样本数据与标准数据是否匹配,具体包括:
判断所述类别的数量是否匹配所述类别的预设标准数量。
6.如权利要求4所述的方法,其特征在于,当所述指定特征为类别数量的变化率时,所述标准数据为类别数量的预设标准变化率区间;
判断所述待测样本数据与标准数据是否匹配,具体包括:
判断所述类别数量的变化率是否落入所述类别数量的预设标准变化率区间。
7.如权利要求4所述的方法,其特征在于,当所述指定特征为数据值时,所述标准数据为标准数据值;
判断所述待测样本数据与标准数据是否匹配,具体包括:
判断所述数据值是否符合所述标准数据值。
8.如权利要求4所述的方法,其特征在于,当所述指定特征为数据值的变化率时,所述标准数据为数据值的预设标准变化率区间;
判断所述待测样本数据与标准数据是否匹配,具体包括:
判断所述数据值的变化率是否落入所述预设的标准变化率区间。
9.一种数据检测装置,其特征在于,包括:
接收模块,用于接收针对离散数据集合的检测请求;
确定模块,用于确定所述检测请求所对应的所述离散数据集合,及该离散数据集合对应的检测方式;
检测模块,用于根据确定出的所述检测方式,对所述离散数据集合进行检测,判断所述离散数据集合是否异常。
10.如权利要求9所述的装置,其特征在于,所述检测请求中携带有所述离散数据集合的存储位置信息;
所述确定模块,具体用于获取所述检测请求中包含的所述离散数据集合的存储位置信息,根据所述存储位置信息,查找所述离散数据集合。
11.如权利要求9所述的装置,其特征在于,所述确定模块,具体用于获取与所述离散数据集合相匹配的检测配置信息;其中,所述检测配置信息中包含有检测方式信息;读取所述检测配置信息中包含的检测方式信息,确定所述检测方式信息对应的检测方式。
12.如权利要求9所述的装置,其特征在于,所述检测模块,具体用于根据所述检测方式,确定所述离散数据集合中相应的离散数据的指定特征,采集所述离散数据的指定特征作为待测样本数据,通过比对预设的标准数据与所述待测样本数据,判断所述待测样本数据与标准数据是否匹配,若是,则判定所述离散数据集合正常;否则,则判定所述离散数据集合异常。
13.如权利要求12所述的装置,其特征在于,当所述指定特征为类别的数量时,所述标准数据为类别的预设标准数量;
所述检测模块,具体用于判断所述类别的数量是否匹配所述类别的预设标准数量。
14.如权利要求12所述的装置,其特征在于,当所述指定特征为类别数量的变化率时,所述标准数据为类别数量的预设标准变化率区间;
所述检测模块,具体用于判断所述类别数量的变化率是否落入所述类别数量的预设标准变化率区间。
15.如权利要求12所述的装置,其特征在于,当所述指定特征为数据值时,所述标准数据为标准数据值;
所述检测模块,具体用于判断所述数据值是否符合所述标准数据值。
16.如权利要求12所述的装置,其特征在于,当所述指定特征为所述数据值的变化率时,所述标准数据为数据值的预设标准变化率区间;
所述检测模块,具体用于判断所述数据值的变化率是否落入所述预设的标准变化率区间。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510474635.XA CN106445938B (zh) | 2015-08-05 | 2015-08-05 | 一种数据检测方法及装置 |
PCT/CN2016/090826 WO2017020725A1 (zh) | 2015-08-05 | 2016-07-21 | 一种数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510474635.XA CN106445938B (zh) | 2015-08-05 | 2015-08-05 | 一种数据检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106445938A true CN106445938A (zh) | 2017-02-22 |
CN106445938B CN106445938B (zh) | 2021-03-23 |
Family
ID=57943765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510474635.XA Active CN106445938B (zh) | 2015-08-05 | 2015-08-05 | 一种数据检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106445938B (zh) |
WO (1) | WO2017020725A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682349A (zh) * | 2017-10-19 | 2018-02-09 | 广东小天才科技有限公司 | 一种检测干扰数据的方法及设备 |
CN111427928A (zh) * | 2020-03-26 | 2020-07-17 | 京东数字科技控股有限公司 | 一种数据质量检测方法及装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018221092A1 (de) | 2018-12-06 | 2020-06-10 | BSH Hausgeräte GmbH | Wasserführendes Haushaltsgerät |
CN111541575B (zh) * | 2020-04-30 | 2023-06-09 | 重庆富民银行股份有限公司 | 一种用于闭源网络设备的自动化巡检方法及系统 |
DE102020210389A1 (de) | 2020-08-14 | 2022-02-17 | BSH Hausgeräte GmbH | Fluidführendes Haushaltsgerät |
DE102022207949A1 (de) | 2021-08-04 | 2023-02-09 | BSH Hausgeräte GmbH | Fluidführendes Haushaltsgerät |
CN117236694B (zh) * | 2023-09-26 | 2024-06-07 | 国家市场监督管理总局国家标准技术审评中心 | 一种基于大数据的国内外标准指标的比对方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1713182A (zh) * | 2004-06-23 | 2005-12-28 | 微软公司 | 数据透视中的异常检测 |
CN101290611A (zh) * | 2007-04-20 | 2008-10-22 | 中芯国际集成电路制造(上海)有限公司 | 数据中异常点的检测方法和装置 |
CN101571891A (zh) * | 2008-04-30 | 2009-11-04 | 中芯国际集成电路制造(北京)有限公司 | 异常数据检验方法和装置 |
US20110032098A1 (en) * | 2009-08-06 | 2011-02-10 | Cheng-Yun Yang | Portable electronic apparatus with a user physical status sensing and warning circuit |
CN102319060A (zh) * | 2011-09-19 | 2012-01-18 | 广州天绎智能科技有限公司 | 体温异常检测方法与检测系统 |
CN103020166A (zh) * | 2012-11-26 | 2013-04-03 | 宁波电业局 | 一种电力实时数据异常检测方法 |
CN103076104A (zh) * | 2012-11-15 | 2013-05-01 | 江苏省电力公司淮安供电公司 | 电力电缆温度在线监测数据的处理方法 |
CN103684910A (zh) * | 2013-12-02 | 2014-03-26 | 北京工业大学 | 一种基于工业控制系统网络流量的异常检测方法 |
-
2015
- 2015-08-05 CN CN201510474635.XA patent/CN106445938B/zh active Active
-
2016
- 2016-07-21 WO PCT/CN2016/090826 patent/WO2017020725A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1713182A (zh) * | 2004-06-23 | 2005-12-28 | 微软公司 | 数据透视中的异常检测 |
CN101290611A (zh) * | 2007-04-20 | 2008-10-22 | 中芯国际集成电路制造(上海)有限公司 | 数据中异常点的检测方法和装置 |
CN101571891A (zh) * | 2008-04-30 | 2009-11-04 | 中芯国际集成电路制造(北京)有限公司 | 异常数据检验方法和装置 |
US20110032098A1 (en) * | 2009-08-06 | 2011-02-10 | Cheng-Yun Yang | Portable electronic apparatus with a user physical status sensing and warning circuit |
CN102319060A (zh) * | 2011-09-19 | 2012-01-18 | 广州天绎智能科技有限公司 | 体温异常检测方法与检测系统 |
CN103076104A (zh) * | 2012-11-15 | 2013-05-01 | 江苏省电力公司淮安供电公司 | 电力电缆温度在线监测数据的处理方法 |
CN103020166A (zh) * | 2012-11-26 | 2013-04-03 | 宁波电业局 | 一种电力实时数据异常检测方法 |
CN103684910A (zh) * | 2013-12-02 | 2014-03-26 | 北京工业大学 | 一种基于工业控制系统网络流量的异常检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682349A (zh) * | 2017-10-19 | 2018-02-09 | 广东小天才科技有限公司 | 一种检测干扰数据的方法及设备 |
CN111427928A (zh) * | 2020-03-26 | 2020-07-17 | 京东数字科技控股有限公司 | 一种数据质量检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2017020725A1 (zh) | 2017-02-09 |
CN106445938B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445938A (zh) | 一种数据检测方法及装置 | |
CN108989150B (zh) | 一种登录异常检测方法及装置 | |
CN105868373B (zh) | 电力业务信息系统关键数据处理方法及装置 | |
CN110347561B (zh) | 监控告警方法及终端设备 | |
CN104756106A (zh) | 表征数据存储系统中的数据源 | |
CN111092880B (zh) | 一种网络流量数据提取方法及装置 | |
CN107276851B (zh) | 一种节点的异常检测方法、装置、网络节点及控制台 | |
CN107168995A (zh) | 一种数据处理方法及服务器 | |
CN110489314A (zh) | 模型异常检测方法、装置、计算机设备和存储介质 | |
US20140089040A1 (en) | System and Method for Customer Experience Measurement & Management | |
CN110275878B (zh) | 业务数据检测方法、装置、计算机设备及存储介质 | |
CN107633015A (zh) | 一种数据处理方法、装置及设备 | |
US20140115400A1 (en) | Device and method for fault management of smart device | |
CN106021054A (zh) | 一种对bmc升降级稳定性进行测试的方法及装置 | |
CN110221933A (zh) | 代码缺陷辅助修复方法及系统 | |
CN113095931A (zh) | 贷后风险监控方法、装置及计算机设备 | |
CN105868956A (zh) | 一种数据处理方法及装置 | |
CN116757702A (zh) | 交易数据的确定方法和装置、处理器及电子设备 | |
CN112085588B (zh) | 规则模型的安全性的确定方法、装置和数据处理方法 | |
CN113886373A (zh) | 一种数据处理方法、装置及电子设备 | |
CN109582555A (zh) | 数据异常检测方法、装置、检测系统及存储介质 | |
CN117033552A (zh) | 情报评价方法、装置、电子设备及存储介质 | |
CN107896232B (zh) | 一种ip地址评估方法及装置 | |
CN116380228A (zh) | 衡器运行监测方法、系统、终端及存储介质 | |
CN116319255A (zh) | 一种基于kpi的根因定位方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |