CN104461761A - 数据校验方法、装置和服务器 - Google Patents

数据校验方法、装置和服务器 Download PDF

Info

Publication number
CN104461761A
CN104461761A CN201410746433.1A CN201410746433A CN104461761A CN 104461761 A CN104461761 A CN 104461761A CN 201410746433 A CN201410746433 A CN 201410746433A CN 104461761 A CN104461761 A CN 104461761A
Authority
CN
China
Prior art keywords
data
time period
sample data
correct
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410746433.1A
Other languages
English (en)
Other versions
CN104461761B (zh
Inventor
吕本伟
罗盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410746433.1A priority Critical patent/CN104461761B/zh
Publication of CN104461761A publication Critical patent/CN104461761A/zh
Application granted granted Critical
Publication of CN104461761B publication Critical patent/CN104461761B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据校验方法、装置和服务器,主要涉及互联网技术领域,主要目的在于保证数据的正确性。方法包括:接收外部服务器发送的外部服务器上执行的计算任务中的数据;从接收的数据中提取样本数据;根据预设的校验策略,判断样本数据是否正确;根据样本数据是否正确,来判断外部服务器上的数据是否正确。根据本发明,从外部服务器发送的数据中提取样本数据,并按照既定的校验策略进行校验,样本数据是否正确也就反映了从外部服务器接收的数据是否正确;同时,由于只对样本数据进行了校验计算,所以由数据校验带来的负担非常小。

Description

数据校验方法、装置和服务器
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种数据校验方法、装置和服务器。
背景技术
在目前的互联网技术领域,对数据的准确性有着非常高的要求,错误的数据往往会产生不良的影响。
例如,某游戏厂商的服务器上运行着游戏程序,产生的数据需要传输到数据分析商的服务器进行数据分析,以得到能够指导游戏厂商合理运营游戏的结果。对于数据分析商服务器上进行的数据分析,不管是游戏厂商发送的数据存在问题,还是采用的数据分析算法不正确,都会造成得到错误的分析结果。游戏厂商按照错误的分析结果来指导自己的运营,必定会产生不良后果。可见,如果确保数据的准确性是一个重要的课题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据校验方法、装置和服务器。
依据本发明的一个方面,提供了一种数据校验方法,其包括:接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;从接收的数据中提取样本数据;根据预设的校验策略,判断所述样本数据是否正确;根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
依据本发明的另一个方面,提供了一种数据校验装置,其包括:数据接收模块,用于接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;样本数据提取模块,用于从接收的数据中提取样本数据;第一判断模块,用于根据预设的校验策略,判断所述样本数据是否正确;第二判断模块,用于根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
依据本发明的再一个方面,提供了一种服务器,其包括:前述的数据校验装置。
根据以上技术方案,可知本发明的数据校验方法、装置和服务器至少具有以下优点:
从外部服务器发送的数据中提取样本数据,并按照既定的校验策略进行校验,样本数据是否正确也就反映了从外部服务器接收的数据是否正确;同时,由于只对样本数据进行了校验计算,所以由数据校验带来的负担非常小。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的数据校验方法的流程图;
图2示出了根据本发明的一个实施例的数据校验方法的流程图;
图3示出了根据本发明的一个实施例的数据校验方法的流程图;
图4示出了根据本发明的一个实施例的数据校验方法的流程图;
图5示出了根据本发明的一个实施例的数据校验方法的流程图;
图6示出了根据本发明的一个实施例的数据校验装置的框图;
图7示出了根据本发明的一个实施例的数据校验装置的框图;
图8示出了根据本发明的一个实施例的数据校验装置的框图;
图9示出了根据本发明的一个实施例的数据校验装置的框图;
图10示出了根据本发明的一个实施例的数据校验装置的框图;
图11示出了根据本发明的一个实施例的服务器的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤110,接收外部服务器发送的外部服务器上执行的计算任务中的数据。本实施例中,对计算任务的类型不进行限制,其可以根据具体业务来制定。
步骤120,从接收的数据中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。在本实施例中,所提取的样本数据的数据量远小于所接收的全部数据的数据量。
步骤130,根据预设的校验策略,判断样本数据是否正确。在本实施例中,对校验策略不进行限制,其可以根据具体业务来灵活制定。
步骤140,根据样本数据是否正确,来判断外部服务器上的数据是否正确。根据本实施例的技术方案,样本数据是否正确也就反映了从外部服务器接收的数据是否正确;同时,由于只对样本数据进行了校验计算,所以由数据校验带来的负担非常小。
根据图1,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家上线时间分析(计算任务)。从数据分析商服务器获取分析结果,并从分析结果数据中提取少量作为样本数据,发现其中记录的玩家上线时间为每天25小时,超过每天24小时的值域范围(校验策略),明显有悖常理,所以可判断样本数据中存在错误,进而可判断数据分析商服务器进行玩家上线时间分析过程中的数据存在错误。
如图2所示,本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤210,接收外部服务器发送的外部服务器上执行的计算任务中的数据。
步骤220,从接收的数据中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
步骤230,获取样本数据的属性。在本实施例中,对属性不进行限制,属性包括但不限于字段含义、类型、值域范围中的一种或多种。
步骤240,将样本数据的属性,与预设的数据字典中的对计算任务的数据所定义的属性进行比较。在本实施例中,数据字典中已经规定了正确的属性,则与数据字典不一致的属性必然是错误的属性。
步骤250,根据样本数据的属性与数据字典中的属性是否一致,来判断样本数据是否正确。
步骤260,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图2,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家购买道具金额分析(计算任务)。从数据分析商服务器获取用于进行计算的源数据,并从源数据中提取少量作为样本数据,从中可以发现起包含了“PM 9:15”,其为时间数据(类型),而数据字典中规定的源数据应当是货币数据(类型),二者不一致,则可判断样本数据错误,进而可判断数据分析商服务器进行玩家消费金额分析过程中的数据存在错误。
如图3所示,本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤310,接收外部服务器发送的外部服务器上执行的计算任务中的数据。
步骤320,根据预设的每个周期、每个时间段的时间长度,获取计算任务在一个周期中的第一时间段内的数据作为样本数据,以及获取计算任务在另一周期内的与第一时间段对应的第二时间段内产生的数据作为样本数据,其中每个周期包括多个时间段。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。在本实施例中,对周期、时间段的长短不进行限制,例如,一周期可以是一天,一个时间段可以是一个小时。
步骤330,将第一时间段的数据与第二时间段的数据进行比较。在本实施例中,第一时间段和第二时间段是不同的周期中相应的时间段,两个时间段内的数据应当类似,如果出现较大的差异则说明存在其中一个时间段的数据不正确。
步骤340,根据第一时间段的数据与第二时间段的数据的差距大小,判断样本数据是否正确。
步骤350,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图3,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家注册行为分析(计算任务)。从数据分析商服务器获取计算得到的结果数据,从结果数据中提取12月1日的17点-18点时间段(第一时间段)内玩家注册数量为10000个(样本数据),提取12月2日的17点-18点时间段(第二时间段)内玩家注册数量为30个(样本数据),比较可知二者之间的差距过大,可判断其中至少一个人数值存在错误,进而可以判断数据分析商服务器进行玩家注册行为分析过程中的数据存在错误。
如图4所示,本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤410,接收外部服务器发送的外部服务器上执行的计算任务中的数据。本实施例中,对计算任务的类型不进行限制,其可以根据具体业务来制定。
步骤420,根据预设的每个时间段的时间长度,获取计算任务在一个时间段内的数据作为样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
步骤430,统计时间段的数据的数据量。
步骤440,将时间段的数据的数据量,与预设的每个时间段对应的数据量进行比较。
步骤450,根据时间段的数据的数据量与每个时间段对应的数据量之间的差距大小,判断样本数据是否正确。
步骤460,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图4,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家注册行为分析(计算任务)。从数据分析商服务器获取用于计算的源数据,从源数据中提取12月1日的17点-18点时间段内产生的数据量为20K,而预设的每个小时内应当产生的数据量为200-300K,对比可知所选时间段内的数据量过少,可判断是存在数据丢失的问题,进而可以判断数据分析商服务器进行玩家注册行为分析过程中的数据存在错误。
如图5所示,本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤510,接收外部服务器发送的外部服务器上执行的计算任务中的数据。计算任务使用的计算策略为第一计算策略。
步骤520,提取计算任务使用的源数据,以及提取计算任务采用第一计算策略对源数据进行计算得到的第一结果数据,作为样本数据。
步骤530,根据预设的第二计算策略对源数据进行计算得到第二结果数据。
步骤540,将第一结果数据与第二结果数据进行比较。
步骤550,根据第一结果数据与第二结果数据是否一致,判断样本数据是否正确。在本实施例的技术方案中,当第一结果数据和第二结果数据不一致时,表明第一计算策略和第二计算策略之一存在错误,当确保第二计算策略无误,则说明第一计算策略存在错误,使用第一计算策略的计算任务得到的数据都存在错误。
步骤560,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图5,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行游戏数据分析(计算任务),该数据分析过程采用算法A。从数据分析商服务器获取用于计算的源数据,从源数据中提取少量作为样本数据;查询可知通过算法A对样本数据计算得到了结果1;通过另一种算法B对样本数据计算得到结果2,比较后发现结果1和结果2不同;已知算法B是正确的算法,则算法A必然存在错误,进而可以判断数据分析商服务器进行游戏数据分析过程中的数据存在错误。
本发明的一个实施例中提供了一种数据校验方法,其包括:
步骤110,接收外部服务器发送的外部服务器上执行的计算任务中的数据,并将接收的数据记录在预设的日志文件中。
步骤120,从接收的数据中提取样本数据,即从日志文件中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
步骤130,根据预设的校验策略,判断样本数据是否正确。
步骤140,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据本实施例的技术方案,记录日志文件的好处在于,可以实时接收外部服务器的数据,并延时进行样本数据的提取,避免数据提取工作带来的负担过大。
如图6所示,本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块610,接收外部服务器发送的外部服务器上执行的计算任务中的数据。本实施例中,对计算任务的类型不进行限制,其可以根据具体业务来制定。
样本数据提取模块620,从接收的数据中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。在本实施例中,所提取的样本数据的数据量远小于所接收的全部数据的数据量。
第一判断模块630,根据预设的校验策略,判断样本数据是否正确。在本实施例中,对校验策略不进行限制,其可以根据具体业务来灵活制定。
第二判断模块640,根据样本数据是否正确,来判断外部服务器上的数据是否正确。根据本实施例的技术方案,样本数据是否正确也就反映了从外部服务器接收的数据是否正确;同时,由于只对样本数据进行了校验计算,所以由数据校验带来的负担非常小。
根据图6,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家上线时间分析(计算任务)。从数据分析商服务器获取分析结果,并从分析结果数据中提取少量作为样本数据,发现其中记录的玩家上线时间为每天25小时,超过每天24小时的值域范围(校验策略),明显有悖常理,所以可判断样本数据中存在错误,进而可判断数据分析商服务器进行玩家上线时间分析过程中的数据存在错误。
如图7所示,本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块710,接收外部服务器发送的外部服务器上执行的计算任务中的数据。
样本数据提取模块720,从接收的数据中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
属性获取模块730,获取样本数据的属性。在本实施例中,对属性不进行限制,属性包括但不限于字段含义、类型、值域范围中的一种或多种。
第一比较模块740,将样本数据的属性,与预设的数据字典中的对计算任务的数据所定义的属性进行比较。在本实施例中,数据字典中已经规定了正确的属性,则与数据字典不一致的属性必然是错误的属性。
第一判断模块750,根据样本数据的属性与数据字典中的属性是否一致,来判断样本数据是否正确。
第二判断模块760,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图7,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家购买道具金额分析(计算任务)。从数据分析商服务器获取用于进行计算的源数据,并从源数据中提取少量作为样本数据,从中可以发现起包含了“PM 9:15”,其为时间数据(类型),而数据字典中规定的源数据应当是货币数据(类型),二者不一致,则可判断样本数据错误,进而可判断数据分析商服务器进行玩家消费金额分析过程中的数据存在错误。
如图8所示,本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块810,接收外部服务器发送的外部服务器上执行的计算任务中的数据。
样本数据提取模块820,根据预设的每个周期、每个时间段的时间长度,获取计算任务在一个周期中的第一时间段内的数据作为样本数据,以及获取计算任务在另一周期内的与第一时间段对应的第二时间段内产生的数据作为样本数据,其中每个周期包括多个时间段。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。在本实施例中,对周期、时间段的长短不进行限制,例如,一周期可以是一天,一个时间段可以是一个小时。
第二比较模块830,将第一时间段的数据与第二时间段的数据进行比较。在本实施例中,第一时间段和第二时间段是不同的周期中相应的时间段,两个时间段内的数据应当类似,如果出现较大的差异则说明存在其中一个时间段的数据不正确。
第一判断模块840,根据第一时间段的数据与第二时间段的数据的差距大小,判断样本数据是否正确。
第二判断模块850,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图8,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家注册行为分析(计算任务)。从数据分析商服务器获取计算得到的结果数据,从结果数据中提取12月1日的17点-18点时间段(第一时间段)内玩家注册数量为10000个(样本数据),提取12月2日的17点-18点时间段(第二时间段)内玩家注册数量为30个(样本数据),比较可知二者之间的差距过大,可判断其中至少一个人数值存在错误,进而可以判断数据分析商服务器进行玩家注册行为分析过程中的数据存在错误。
如图9所示,本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块910,接收外部服务器发送的外部服务器上执行的计算任务中的数据。本实施例中,对计算任务的类型不进行限制,其可以根据具体业务来制定。
样本数据提取模块920,根据预设的每个时间段的时间长度,获取计算任务在一个时间段内的数据作为样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
数据量统计模块930,统计时间段的数据的数据量。
第三比较模块940,将时间段的数据的数据量,与预设的每个时间段对应的数据量进行比较。
第一判断模块950,根据时间段的数据的数据量与每个时间段对应的数据量之间的差距大小,判断样本数据是否正确。
第二判断模块960,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图9,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行玩家注册行为分析(计算任务)。从数据分析商服务器获取用于计算的源数据,从源数据中提取12月1日的17点-18点时间段内产生的数据量为20K,而预设的每个小时内应当产生的数据量为200-300K,对比可知所选时间段内的数据量过少,可判断是存在数据丢失的问题,进而可以判断数据分析商服务器进行玩家注册行为分析过程中的数据存在错误。
如图10所示,本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块1010,接收外部服务器发送的外部服务器上执行的计算任务中的数据。计算任务使用的计算策略为第一计算策略。
样本数据提取模块1020,提取计算任务使用的源数据,以及提取计算任务采用第一计算策略对源数据进行计算得到的第一结果数据,作为样本数据。
计算模块1030,根据预设的第二计算策略对源数据进行计算得到第二结果数据。
第四比较模块1040,将第一结果数据与第二结果数据进行比较。
第一判断模块1050,根据第一结果数据与第二结果数据是否一致,判断样本数据是否正确。在本实施例的技术方案中,当第一结果数据和第二结果数据不一致时,表明第一计算策略和第二计算策略之一存在错误,当确保第二计算策略无误,则说明第一计算策略存在错误,使用第一计算策略的计算任务得到的数据都存在错误。
第二判断模块1060,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据图10,例如,游戏厂商服务器的游戏数据发送到数据分析商服务器(外部服务器)以进行游戏数据分析(计算任务),该数据分析过程采用算法A。从数据分析商服务器获取用于计算的源数据,从源数据中提取少量作为样本数据;查询可知通过算法A对样本数据计算得到了结果1;通过另一种算法B对样本数据计算得到结果2,比较后发现结果1和结果2不同;已知算法B是正确的算法,则算法A必然存在错误,进而可以判断数据分析商服务器进行游戏数据分析过程中的数据存在错误。
本发明的一个实施例中提供了一种数据校验装置,其包括:
数据接收模块610,接收外部服务器发送的外部服务器上执行的计算任务中的数据,并将接收的数据记录在预设的日志文件中。
样本数据提取模块620,从接收的数据中提取样本数据,即从日志文件中提取样本数据。在本实施例中,样本数据既可以为计算任务使用的源数据,也可以为计算任务得到的结果数据。
第一判断模块630,根据预设的校验策略,判断样本数据是否正确。
第二判断模块640,根据样本数据是否正确,来判断外部服务器上的数据是否正确。
根据本实施例的技术方案,记录日志文件的好处在于,可以实时接收外部服务器的数据,并延时进行样本数据的提取,避免数据提取工作带来的负担过大。
根据图11所示,本发明的一个实施例中提供了一种服务器,其包括:图6至图10对应的任一实施例中的数据校验装置。
根据前述的实施例可知,本实施例的服务器从外部服务器发送的数据中提取样本数据,并按照既定的校验策略进行校验,样本数据是否正确也就反映了从外部服务器接收的数据是否正确;同时,由于只对样本数据进行了校验计算,所以由数据校验带来的负担非常小。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据校验装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
A1、一种数据校验方法,其包括:
接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;
从接收的数据中提取样本数据;
根据预设的校验策略,判断所述样本数据是否正确;
根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
A2、根据A1所述的数据校验方法,其中,根据预设的校验策略,判断所述样本数据是否正确,具体包括:
获取所述样本数据的属性;
将所述样本数据的属性,与预设的数据字典中的对所述计算任务的数据所定义的属性进行比较;
根据所述样本数据的属性与所述数据字典中的属性是否一致,来判断所述样本数据是否正确。
A3、根据A2所述的数据校验方法,其中,所述属性包括字段含义、类型、值域范围中的一种或多种。
A4、根据A1所述的数据校验方法,其中,从接收的数据中提取样本数据,具体包括:
根据预设的每个周期、每个时间段的时间长度,获取所述计算任务在一个周期中的第一时间段内的数据作为所述样本数据,以及获取所述计算任务在另一周期内的与所述第一时间段对应的第二时间段内产生的数据作为所述样本数据,其中所述每个周期包括多个时间段;
根据预设的校验策略,判断所述样本数据是否正确,具体包括:
将所述第一时间段的数据与所述第二时间段的数据进行比较;
根据所述第一时间段的数据与所述第二时间段的数据的差距大小,判断所述样本数据是否正确。
A5、根据A1所述的数据校验方法,其中,从接收的数据中提取样本数据,具体包括:
根据预设的每个时间段的时间长度,获取所述计算任务在一个时间段内的数据作为所述样本数据;
根据预设的校验策略,判断所述样本数据是否正确,具体包括:
统计所述时间段的数据的数据量;
将所述时间段的数据的数据量,与预设的所述每个时间段对应的数据量进行比较;
根据所述时间段的数据的数据量与所述每个时间段对应的数据量之间的差距大小,判断所述样本数据是否正确。
A6、根据A1至A5中任一项所述的数据校验方法,其中,所述样本数据为所述计算任务使用的源数据,或所述计算任务得到的结果数据。
A7、根据A1所述的数据校验方法,其中,所述计算任务使用的计算策略为第一计算策略;从接收的数据中提取样本数据,具体包括:
提取所述计算任务使用的源数据,以及提取所述计算任务采用所述第一计算策略对所述源数据进行计算得到的第一结果数据,作为所述样本数据;
根据预设的校验策略,判断所述样本数据是否正确,具体包括:
根据预设的第二计算策略对所述源数据进行计算得到第二结果数据;
将所述第一结果数据与所述第二结果数据进行比较;
根据所述第一结果数据与所述第二结果数据是否一致,判断所述样本数据是否正确。
A8、根据A1所述的数据校验方法,其中,还包括:
将所述接收的数据记录在预设的日志文件中;
从接收的数据中提取样本数据,具体包括:
从所述日志文件中提取所述样本数据。
A9、一种数据校验装置,其包括:
数据接收模块,用于接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;
样本数据提取模块,用于从接收的数据中提取样本数据;
第一判断模块,用于根据预设的校验策略,判断所述样本数据是否正确;
第二判断模块,用于根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
A10、根据A9所述的数据校验装置,其中,还包括:
属性获取模块,用于获取所述样本数据的属性;
第一比较模块,用于将所述样本数据的属性,与预设的数据字典中的对所述计算任务的数据所定义的属性进行比较;
所述第一判断模块根据所述样本数据的属性与所述数据字典中的属性是否一致,来判断所述样本数据是否正确。
A11、根据A10所述的数据校验装置,其中,所述属性包括字段含义、类型、值域范围中的一种或多种。
A12、根据A9所述的数据校验装置,其中,
所述样本数据提取模块根据预设的每个周期、每个时间段的时间长度,获取所述计算任务在一个周期中的第一时间段内的数据作为所述样本数据,以及获取所述计算任务在另一周期内的与所述第一时间段对应的第二时间段内产生的数据作为所述样本数据,其中所述每个周期包括多个时间段;
所述装置还包括:
第二比较模块,用于将所述第一时间段的数据与所述第二时间段的数据进行比较;
所述第一判断模块根据所述第一时间段的数据与所述第二时间段的数据的差距大小,判断所述样本数据是否正确。
A13、根据A9所述的数据校验装置,其中,所述样本数据提取模块根据预设的每个时间段的时间长度,获取所述计算任务在一个时间段内的数据作为所述样本数据;
所述装置还包括:
数据量统计模块,用于统计所述时间段的数据的数据量;
第三比较模块,用于将所述时间段的数据的数据量,与预设的所述每个时间段对应的数据量进行比较;
所述第一判断模块根据所述时间段的数据的数据量与所述每个时间段对应的数据量之间的差距大小,判断所述样本数据是否正确。
A14、根据A9至A13中任一项所述的数据校验装置,其中,所述样本数据为所述计算任务使用的源数据,或所述计算任务得到的结果数据。
A15、根据A9所述的数据校验装置,其中,所述计算任务使用的计算策略为第一计算策略;所述样本数据提取模块提取所述计算任务使用的源数据,以及提取所述计算任务采用所述第一计算策略对所述源数据进行计算得到的第一结果数据,作为所述样本数据;
所述装置还包括:
计算模块,用于根据预设的第二计算策略对所述源数据进行计算得到第二结果数据;
第四比较模块,用于将所述第一结果数据与所述第二结果数据进行比较;
所述第一判断模块根据所述第一结果数据与所述第二结果数据是否一致,判断所述样本数据是否正确。
A16、根据A9所述的数据校验装置,其中,还包括:
日志记录模块,用于将所述接收的数据记录在预设的日志文件中;
所述样本数据提取模块从所述日志文件中提取所述样本数据。
A17、一种服务器,其包括:
A9至A16中任一项所述的数据校验装置。

Claims (10)

1.一种数据校验方法,其包括:
接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;
从接收的数据中提取样本数据;
根据预设的校验策略,判断所述样本数据是否正确;
根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
2.根据权利要求1所述的数据校验方法,其中,根据预设的校验策略,判断所述样本数据是否正确,具体包括:
获取所述样本数据的属性;
将所述样本数据的属性,与预设的数据字典中的对所述计算任务的数据所定义的属性进行比较;
根据所述样本数据的属性与所述数据字典中的属性是否一致,来判断所述样本数据是否正确。
3.根据权利要求2所述的数据校验方法,其中,所述属性包括字段含义、类型、值域范围中的一种或多种。
4.根据权利要求1所述的数据校验方法,其中,从接收的数据中提取样本数据,具体包括:
根据预设的每个周期、每个时间段的时间长度,获取所述计算任务在一个周期中的第一时间段内的数据作为所述样本数据,以及获取所述计算任务在另一周期内的与所述第一时间段对应的第二时间段内产生的数据作为所述样本数据,其中所述每个周期包括多个时间段;
根据预设的校验策略,判断所述样本数据是否正确,具体包括:
将所述第一时间段的数据与所述第二时间段的数据进行比较;
根据所述第一时间段的数据与所述第二时间段的数据的差距大小,判断所述样本数据是否正确。
5.根据权利要求1所述的数据校验方法,其中,从接收的数据中提取样本数据,具体包括:
根据预设的每个时间段的时间长度,获取所述计算任务在一个时间段内的数据作为所述样本数据;
根据预设的校验策略,判断所述样本数据是否正确,具体包括:
统计所述时间段的数据的数据量;
将所述时间段的数据的数据量,与预设的所述每个时间段对应的数据量进行比较;
根据所述时间段的数据的数据量与所述每个时间段对应的数据量之间的差距大小,判断所述样本数据是否正确。
6.一种数据校验装置,其包括:
数据接收模块,用于接收外部服务器发送的所述外部服务器上执行的计算任务中的数据;
样本数据提取模块,用于从接收的数据中提取样本数据;
第一判断模块,用于根据预设的校验策略,判断所述样本数据是否正确;
第二判断模块,用于根据所述样本数据是否正确,来判断所述外部服务器上的数据是否正确。
7.根据权利要求6所述的数据校验装置,其中,还包括:
属性获取模块,用于获取所述样本数据的属性;
第一比较模块,用于将所述样本数据的属性,与预设的数据字典中的对所述计算任务的数据所定义的属性进行比较;
所述第一判断模块根据所述样本数据的属性与所述数据字典中的属性是否一致,来判断所述样本数据是否正确。
8.根据权利要求7所述的数据校验装置,其中,所述属性包括字段含义、类型、值域范围中的一种或多种。
9.根据权利要求6所述的数据校验装置,其中,
所述样本数据提取模块根据预设的每个周期、每个时间段的时间长度,获取所述计算任务在一个周期中的第一时间段内的数据作为所述样本数据,以及获取所述计算任务在另一周期内的与所述第一时间段对应的第二时间段内产生的数据作为所述样本数据,其中所述每个周期包括多个时间段;
所述装置还包括:
第二比较模块,用于将所述第一时间段的数据与所述第二时间段的数据进行比较;
所述第一判断模块根据所述第一时间段的数据与所述第二时间段的数据的差距大小,判断所述样本数据是否正确。
10.一种服务器,其包括:
权利要求6至9中任一项所述的数据校验装置。
CN201410746433.1A 2014-12-08 2014-12-08 数据校验方法、装置和服务器 Expired - Fee Related CN104461761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410746433.1A CN104461761B (zh) 2014-12-08 2014-12-08 数据校验方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410746433.1A CN104461761B (zh) 2014-12-08 2014-12-08 数据校验方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN104461761A true CN104461761A (zh) 2015-03-25
CN104461761B CN104461761B (zh) 2017-11-21

Family

ID=52907858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410746433.1A Expired - Fee Related CN104461761B (zh) 2014-12-08 2014-12-08 数据校验方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN104461761B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649414A (zh) * 2015-11-04 2017-05-10 阿里巴巴集团控股有限公司 一种数据仓库数据异常的预检测方法和设备
CN109471723A (zh) * 2018-10-23 2019-03-15 北京奇虎科技有限公司 一种用于对任务的处理结果进行验证的方法及系统
CN109525863A (zh) * 2017-09-20 2019-03-26 北京国双科技有限公司 收视数据展示方法和装置
WO2019140652A1 (en) * 2018-01-19 2019-07-25 Microsoft Technology Licensing, Llc. Facilitating detection of data errors using existing data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952929A (zh) * 2005-10-20 2007-04-25 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
US20080168339A1 (en) * 2006-12-21 2008-07-10 Aquatic Informatics (139811) System and method for automatic environmental data validation
CN102163251A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种游戏作弊的识别方法和设备
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法
CN102468906A (zh) * 2010-11-04 2012-05-23 腾讯科技(深圳)有限公司 一种联网游戏中交互逻辑容错的方法以及联网游戏容错系统
CN102480381A (zh) * 2010-11-29 2012-05-30 腾讯科技(深圳)有限公司 一种校验网络业务运营数据的方法及装置
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN103218415A (zh) * 2013-03-27 2013-07-24 互爱互动(北京)科技有限公司 基于数据仓库的数据处理系统和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952929A (zh) * 2005-10-20 2007-04-25 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
US20080168339A1 (en) * 2006-12-21 2008-07-10 Aquatic Informatics (139811) System and method for automatic environmental data validation
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法
CN102163251A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种游戏作弊的识别方法和设备
CN102468906A (zh) * 2010-11-04 2012-05-23 腾讯科技(深圳)有限公司 一种联网游戏中交互逻辑容错的方法以及联网游戏容错系统
CN102480381A (zh) * 2010-11-29 2012-05-30 腾讯科技(深圳)有限公司 一种校验网络业务运营数据的方法及装置
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN103218415A (zh) * 2013-03-27 2013-07-24 互爱互动(北京)科技有限公司 基于数据仓库的数据处理系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖国荣: ""数据质量分析方法及其在银行系统中的应用"", 《华南理工大学硕士学位论文》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649414A (zh) * 2015-11-04 2017-05-10 阿里巴巴集团控股有限公司 一种数据仓库数据异常的预检测方法和设备
CN106649414B (zh) * 2015-11-04 2020-01-31 阿里巴巴集团控股有限公司 一种数据仓库数据异常的预检测方法和设备
CN109525863A (zh) * 2017-09-20 2019-03-26 北京国双科技有限公司 收视数据展示方法和装置
WO2019140652A1 (en) * 2018-01-19 2019-07-25 Microsoft Technology Licensing, Llc. Facilitating detection of data errors using existing data
US11275649B2 (en) 2018-01-19 2022-03-15 Microsoft Technology Licensing, Llc Facilitating detection of data errors using existing data
CN109471723A (zh) * 2018-10-23 2019-03-15 北京奇虎科技有限公司 一种用于对任务的处理结果进行验证的方法及系统
CN109471723B (zh) * 2018-10-23 2023-10-27 三六零科技集团有限公司 一种用于对任务的处理结果进行验证的方法及系统

Also Published As

Publication number Publication date
CN104461761B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN103235913B (zh) 一种用于识别、拦截捆绑软件的系统、设备及方法
US9244809B1 (en) Validating code of an extract, transform and load (ETL) tool
US8972940B2 (en) Systems and methods for identifying software performance influencers
US9471470B2 (en) Automatically recommending test suite from historical data based on randomized evolutionary techniques
US20120137138A1 (en) Package audit tool
CN106815524B (zh) 恶意脚本文件的检测方法及装置
US10698962B2 (en) Analysis of data utilization
CN110474900B (zh) 一种游戏协议测试方法及装置
CN104461761A (zh) 数据校验方法、装置和服务器
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
CN104462985A (zh) bat漏洞的检测方法以及装置
EP2722783A2 (en) License verification method and apparatus
CN105117499A (zh) 基于云盘的文件显示方法及装置
KR20180129623A (ko) 연관된 다중 파일 정적 분석 장치
Bjesse What is formal verification?
US10671456B2 (en) Method and device for acquiring application information
EP3477523B1 (en) System, method and computer program product for detecting infeasible events in dynamic programs
CN107729407B (zh) 用户行为分析方法及服务器
CN111597093B (zh) 一种异常处理方法、装置及其设备
CN112464242A (zh) 一种网页平台漏洞采集方法、系统、终端及存储介质
US9514032B2 (en) Real-time usage checking of dynamically generated program output
CN107704484B (zh) 网页错误信息处理方法、装置、计算机设备和存储介质
CN108255629B (zh) 断点数据获取方法及终端设备
CN107180047B (zh) 文件的生成方法和装置
CN106202319B (zh) 一种异常url验证方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171121

Termination date: 20211208

CF01 Termination of patent right due to non-payment of annual fee