CN105740361B - 全量数据完整度的检测方法及装置 - Google Patents

全量数据完整度的检测方法及装置 Download PDF

Info

Publication number
CN105740361B
CN105740361B CN201610052564.9A CN201610052564A CN105740361B CN 105740361 B CN105740361 B CN 105740361B CN 201610052564 A CN201610052564 A CN 201610052564A CN 105740361 B CN105740361 B CN 105740361B
Authority
CN
China
Prior art keywords
data
list
full dose
access track
integrity degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610052564.9A
Other languages
English (en)
Other versions
CN105740361A (zh
Inventor
汤奇峰
李炳辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201610052564.9A priority Critical patent/CN105740361B/zh
Publication of CN105740361A publication Critical patent/CN105740361A/zh
Application granted granted Critical
Publication of CN105740361B publication Critical patent/CN105740361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种全量数据完整度的检测方法及装置,所述检测方法包括:提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;根据匹配验证的结果,计算所述全量数据的完整度。本发明全量数据完整度的检测方法可以提高对互联网中的全量数据完整度检测的准确性和可靠性,同时,不仅可以评估所述全量数据的完整度,还可以进一步对数据发生丢失的位置进行定位。

Description

全量数据完整度的检测方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种全量数据完整度的检测方法及装置。
背景技术
随着互联网技术的高速发展,电子产品大量普及,尤其是PC(Personal Computer,个人电脑)、手机等,使得中国的互联网使用人数飞速地攀升,那么,由互联网所产生的相关数据也在快速地膨胀,采集相关数据的企业也越来越多。在获取到这些互联网数据时,数据是否具备完整性十分重要,那么,如何检测并验证数据的完整程度则是一个需要解决的问题。
在现有技术中,对互联网中的数据的相关的验证方法主要集中总结为两种,分别为:经验验证法和抽样验证法。其中,经验验证法需要依靠相关行业中具有较深经验的人员对所述数据的总量进行统计,并凭借经验值进行验证;抽样验证法则是基于对所提供的数据采取抽样的方式进行统计,再根据统计的结果来进行判定。然而,经验验证法过度依赖于相关业务人员的素质和经验,抽样验证法则依赖于抽样选取的字段和抽样方法,容易跳过采样。上述两种验证方法均需要根据数据总量得到一个统计指标,才能判断数据的完整性程度。然而,由于所述数据在采集和存储的过程中可能由于某些原因引入噪音数据,如:网络传输的骤然中断导致所述数据的部分内容被写坏而形成坏行,所述被引入噪声的数据在不影响数据总量的基础上会有较大的概率绕过抽样,从而干扰到验证的结果,使验证结果不准确。
因此,现有技术的互联网中的全量数据面临着完整度无法被准确验证的问题。
发明内容
本发明解决的技术问题是互联网中的全量数据完整度的准确而有效验证的问题。
为解决上述技术问题,本发明实施例提供一种全量数据完整度的检测方法,包括:
提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
根据匹配验证的结果,计算所述全量数据的完整度。
可选地,在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
可选地,在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
可选地,对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
可选地,进行匹配验证之前,还包括:分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
可选地,对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证包括:
提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP;
根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证。
可选地,计算所述全量数据的完整度包括:确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次;在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次;计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。
可选地,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。
为解决上述技术问题,本发明实施例还提供一种全量数据完整度的检测装置,包括:
第一IP数据提取单元,适于提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
数据加载单元,适于加载基准数据;
第二IP数据提取单元,适于提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
匹配验证单元,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
完整度计算单元,适于根据匹配验证的结果,计算所述全量数据的完整度。
可选地,所述全量数据完整度的检测装置还包括:IP归一化单元,适于在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
可选地,所述全量数据完整度的检测装置还包括:IP去重单元,适于在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
可选地,所述全量数据完整度的检测装置还包括:访问轨迹数据归一化单元,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
可选地,所述全量数据完整度的检测装置还包括:数据归并单元,适于在进行匹配验证之前,分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
可选地,所述匹配验证单元包括:交集IP提取单元,适于提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP;
所述匹配验证单元根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证。
可选地,所述完整度计算单元适于确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次,在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次,计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。
可选地,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供的全量数据完整度的检测方法包括:提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;根据匹配验证的结果,计算所述全量数据的完整度。本发明全量数据完整度的检测方法通过将获取的可信的基准数据作为匹配验证标准并获取所述基准数据中具有完整性的访问轨迹数据,将所述全量数据的访问轨迹数据与所述基准数据的访问轨迹数据进行一一匹配验证,可以提高对互联网中的全量数据完整度检测的准确性和可靠性,对所述全量数据进行评估。同时,本发明实施例对所述全量数据的验证,不仅可以获得完整的全量数据在所有全量数据的总量中占据的比例,以评估互联网大数据的整体完整度,还可以获得每一个IP对应的访问轨迹的匹配结果,还可以评估哪些数据在数据获取的过程中发生丢失,对数据发生丢失的位置进行定位。
进一步而言,本发明实施例对获取的全量数据的所述第一IP列表进行归一化和去重处理,并且针对所述第一IP列表和第二IP列表的访问轨迹数据进行数据字段的归一化处理,使本发明实施例的全量数据完整度检测方法可以适用于不同数据源提供的全量数据中。
进一步而言,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次;本发明实施例分析用户的访问轨迹和对应频次,并应用基于时间戳的匹配算法对所述全量数据和基准数据进行匹配验证;并且,基于对所述全量数据的数据验证粗细程度,可依据所述URL列表和/或域名列表有针对性地进行数据完整度检测。
附图说明
图1是本发明全量数据完整度的检测方法实施例的流程图;
图2是本发明全量数据完整度的检测方法实施例的另一流程图;
图3是本发明全量数据完整度的检测装置实施例的结构框图。
具体实施方式
随着大数据时代的到来,互联网上的用户行为逐渐都被记录下来作为数据的形式保留,采集数据的企业也越来越多。同时数据交易市场也在不断的完善和发展,因此提供数据的外部数据源也越来越多。那么,在面对海量数据时,通过对所提供的数据的完整度进行验证来评价所述数据则具有重要的意义,会直接影响对所述数据的使用。然而,正如背景部分所述,现有技术的互联网中的全量数据仍面临着完整度无法被准确且有效验证的问题。
本发明实施例通过提取全量数据中的第一IP(Internet Protocol,网络之间互连的协议)列表,以及所述第一IP列表的访问轨迹数据,加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证,根据匹配验证的结果,计算所述全量数据的完整度,可以提高对互联网中的全量数据完整度检测的准确性和可靠性,对所述全量数据进行评估。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种全量数据完整度的检测方法的流程图。如图1所示的全量数据完整度的检测方法,可以包括如下步骤:
步骤S101:提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
步骤S102:加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
步骤S103:对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
步骤S104:根据匹配验证的结果,计算所述全量数据的完整度。
本发明实施例全量数据完整度的检测方法的具体实施可以基于Mapreduce编程模型和分布式文件系统(Hadoop Distributed File System,HDFS)的计算架构。
图2为本发明实施例全量数据完整度的检测方法的另一个流程图。
如图2所示,在本发明实施例可以基于所述全量数据,选择其验证日期,扫描数据并提取所有的IP字段列表,并根据所述全量数据的字段顺序,确定待筛选的IP字段的存储位置,将其存储。在执行所述步骤S101之后,还可以扫描所述全量数据中验证日期的部分,根据预先确定的字段存储位置对全量数据进行拆分,提取所需的IP字段,进而还可以执行步骤S105:对所述第一IP列表进行归一化处理,以便于处理;具体地,可以将不同数据的IP格式统一转换成一个长整形数字。
并且,在对所述第一IP列表进行归一化处理后,可以执行步骤S106:剔除所述第一IP列表中重复的IP,以避免重复验证。
在步骤S101和步骤S102中,所述访问轨迹数据可以包括:在时间轴上访问的URL(Uniform Resource Locator,统一资源定位符)列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。
所述基准数据可以通过收集某些特定网站的用户访问数据获取,也可以是第三方可信的用户访问轨迹数据;本发明实施例采用基于特定网站全站部署的代码所收集到的用户访问轨迹数据作为验证的所述基准数据。通过所述基准数据,可以获取每个IP在时间轴上确定的行为轨迹,以及在每个轨迹点访问的频次。例如:某个IP在时间轴上的某个时间访问了某个URL,共访问了多少次。
在所述步骤S101和步骤S102之后,本发明实施例还可以执行步骤S107:所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
所述步骤S107是可选的。对于所述全量数据,由于采集方式的不同,对所述访问轨迹数据中的数据字段的定义也不尽相同,对于相同的数据字段可能有不同的称谓,也可能采取不同的编码方式进行存储。例如:同一个IP字段可以被存储为1.1.1.1,也可以将其转化为长整形数字;再如:时间轴上的验证时间字段,可以被存储为日期字符串,也可以被存储为1970年以来的秒数。为了使所述访问轨迹数据不因为格式的不同而影响所述全量数据与基准数据匹配验证的结果,可以选择对所述访问轨迹数据进行数据字段的归一化处理。本发明实施例中的归一化处理是一种简化计算的方式,将有量纲的表达式变换转化为无量纲的表达式。
本发明实施例对获取的全量数据的所述第一IP进行归一化和去重处理,并且针对所述第一IP列表和第二IP列表的访问轨迹数据进行数据字段的归一化处理,使本发明实施例的全量数据完整度检测方法可以适用于不同数据源提供的全量数据中。
在进行所述步骤S103所述的匹配验证之前,还可以执行步骤S108:分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。如以上所述,所述访问轨迹数据可以包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。那么,基于对所述全量数据验证的粗细程度,可以对所述访问轨迹数据分两种方式进行提取:第一种提取格式是提取在时间轴上访问的URL,第二种提取格式是提取在时间轴上访问的域名,提取后,将所述第一IP列表中的相同时间戳下相同的域名列表和/或URL列表的访问频次进行归并,然后输出;同理,所述基准数据中第二IP列表的相同时间戳下相同的域名列表和/或URL列表的访问频次也进行相应地归并。
在本发明实施例中,当对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证时,可以首先提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP,再根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证。即本发明方案仅对所述全量数据与所述基准数据中交集IP对应的访问轨迹数据进行完整性验证。
在所述基准数据中,时间轴上的每一个独立的IP在某时间戳上具有访问的URL和/或域名,同时,此IP在所述全量数据中出现,也具有对应的访问轨迹数据,那么,对应于所述全量数据验证的粗细程度,可以对所述交集IP的两份数据(即所述全量数据和基准数据)对应的域名列表(对应粗验证)和/或URL列表(对应细验证)进行匹配验证并得出验证结果。
在所述步骤S103——对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证中,由于IP在验证日期内可能有多次访问记录,其访问的时间戳可作为数据匹配验证的依据。若匹配到的访问轨迹数据(例如:URL)对应的访问轨迹有多个时间戳,那么对应IP访问的访问轨迹数据(例如:URL)会对应形成一时间戳列表,需先对此时间戳列表按照时间从小到大进行排序,再进行一一匹配。服务器记录IP访问的域名和URL,且由于所述全量数据在网络传输时可能存在传输时间不同步等现象,从而导致所述全量数据中具有一定的时间差波动,因此,用户在访问时会被记录为不同时间戳。在本发明实施例中,对所述交集IP的两份数据(即所述全量数据和基准数据)对应的域名列表和/或URL列表进行匹配验证时可以采用时间戳严格对准的标准进行验证,也可以选择一个或几个偏差时间范围,在以上所述的两份数据的匹配验证中,允许具有一定的偏差时间范围;并且,在数据匹配验证中,即同一IP的两份访问轨迹数据的时间戳只能匹配验证一次,不能多匹配,也不能漏匹配。
以对所述全量数据进行细验证,在对应URL列表的时间戳匹配验证中允许有所述偏差时间范围为例,如上所述,此列表是按照时间先后顺序排序后得到的,如:假设在所述基准数据中,某一IP访问某一URL的时间戳为A[1,1,2,3,4,4,5],在所述全量数据中,对应的URL的时间戳为B[1,3,3,4,5,6],设定所述偏差时间范围为1秒,那么,A[1,1,2,3,4,4,5]和B[1,3,3,4,5,6]的匹配验证过程可以参考为:A[1]与B[1]比较,匹配第1次,A[2]与B[2]不匹配,分别删除A[1]与B[1],剩余C[1,2,3,4,4,5]和D[3,3,4,5,6],C[1]和D[1],超过了偏差时间范围,删除C[1],剩余E[2,3,4,4,5]和D[3,3,4,5,6],比较E[1]和D[1],匹配第2次,比较E[2]和D[2],匹配第3次,比较E[3]和D[3],匹配第4次,比较E[4]和D[4],匹配第5次,比较E[5]和D[5],匹配第6次,因此,以上例子中的A[1,1,2,3,4,4,5]和B[1,3,3,4,5,6],最终匹配6次,表示在相同IP下的相同URL对应的时间戳的匹配。
在本发明实施例中,所述计算所述全量数据的完整度可以包括:确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次;在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次;计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。针对以上举例,我们认为A中访问轨迹为7次,两份数据(即所述全量数据和基准数据)共匹配6次,那么,此次的访问轨迹数据的完整度为6/7*100=85.71%。
那么,所述全量数据的完整度检测可以将若干个单次的访问轨迹数据完整度进行汇总而获得。
本发明实施例对所述全量数据的验证,不仅可以获得完整的全量数据在所有全量数据的总量中占据的比例,以评估互联网大数据的整体完整度,还可以获得每一个IP对应的访问轨迹的匹配结果,还可以评估哪些数据在数据获取的过程中发生丢失,对数据发生丢失的位置进行定位。
进一步而言,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次;本发明实施例分析用户的访问轨迹和对应频次,并应用基于时间戳的匹配算法对所述全量数据和基准数据进行匹配验证;并且,基于对所述全量数据的数据验证粗细程度,可依据所述URL列表和/或域名列表有针对性地进行数据完整度检测。
为了解决以上所述的技术问题,本发明实施例还提供一种全量数据完整度的检测装置,如图3所示的全量数据完整度的检测装置300可以包括:
第一IP数据提取单元301,适于提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
数据加载单元302,适于加载基准数据;
第二IP数据提取单元303,适于提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
匹配验证单元304,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
完整度计算单元305,适于根据匹配验证的结果,计算所述全量数据的完整度。
在具体实施中,所述全量数据完整度的检测装置300还可以包括:IP归一化单元306,适于在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
在具体实施中,所述全量数据完整度的检测装置300还可以包括:IP去重单元307,适于在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
在具体实施中,所述全量数据完整度的检测装置300还可以包括:访问轨迹数据归一化单元308,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
在具体实施中,所述全量数据完整度的检测装置300还可以包括:数据归并单元309,适于在进行匹配验证之前,分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
在具体实施中,所述匹配验证单元304可以包括:交集IP提取单元3041,适于提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP;
所述匹配验证单元304根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证。
在具体实施中,所述完整度计算单元305适于确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次,在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次,计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。
所述全量数据完整度的检测装置300的更多信息请参考以上实施例中对所述全量数据完整度的检测方法的相关描述,此处不再赘述。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (12)

1.一种全量数据完整度的检测方法,其特征在于,包括:
提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证,包括:提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP;根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
根据匹配验证的结果,计算所述全量数据的完整度,计算所述全量数据的完整度包括:确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次;在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次;计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。
2.如权利要求1所述的全量数据完整度的检测方法,其特征在于,在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
3.如权利要求2所述的全量数据完整度的检测方法,其特征在于,在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
4.如权利要求1所述的全量数据完整度的检测方法,其特征在于,对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
5.如权利要求1所述的全量数据完整度的检测方法,其特征在于,进行匹配验证之前,还包括:分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
6.如权利要求1所述的全量数据完整度的检测方法,其特征在于,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。
7.一种全量数据完整度的检测装置,其特征在于,包括:
第一IP数据提取单元,适于提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
数据加载单元,适于加载基准数据;
第二IP数据提取单元,适于提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
匹配验证单元,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;所述匹配验证单元包括交集IP提取单元,适于提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集
IP;所述匹配验证单元根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
完整度计算单元,适于根据匹配验证的结果,计算所述全量数据的完整度,所述完整度计算单元适于确定所述交集IP的访问轨迹数据在所述全量数据与所述基准数据中的匹配频次,记为第一频次,在所述基准数据中确定所述交集IP的访问轨迹数据的总频次,记为第二频次,计算所述第一频次与第二频次的商,以作为所述全量数据的完整度。
8.如权利要求7所述的全量数据完整度的检测装置,其特征在于,还包括:IP归一化单元,适于在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
9.如权利要求8所述的全量数据完整度的检测装置,其特征在于,还包括:IP去重单元,适于在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
10.如权利要求7所述的全量数据完整度的检测装置,其特征在于,还包括:访问轨迹数据归一化单元,适于对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
11.如权利要求7所述的全量数据完整度的检测装置,其特征在于,还包括:数据归并单元,适于在进行匹配验证之前,分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
12.如权利要求7所述的全量数据完整度的检测装置,其特征在于,所述访问轨迹数据包括:在时间轴上访问的URL列表及其访问频次,和/或在时间轴上访问的域名列表及其访问频次。
CN201610052564.9A 2016-01-26 2016-01-26 全量数据完整度的检测方法及装置 Active CN105740361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610052564.9A CN105740361B (zh) 2016-01-26 2016-01-26 全量数据完整度的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610052564.9A CN105740361B (zh) 2016-01-26 2016-01-26 全量数据完整度的检测方法及装置

Publications (2)

Publication Number Publication Date
CN105740361A CN105740361A (zh) 2016-07-06
CN105740361B true CN105740361B (zh) 2019-01-29

Family

ID=56247577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610052564.9A Active CN105740361B (zh) 2016-01-26 2016-01-26 全量数据完整度的检测方法及装置

Country Status (1)

Country Link
CN (1) CN105740361B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951360B (zh) * 2017-03-27 2020-08-04 网宿科技股份有限公司 数据统计完整度计算方法和系统
CN108011993B (zh) * 2017-12-07 2021-07-16 北京百悟科技有限公司 IP地址信息的存储、IPv4地址的查询的方法及系统
CN111181962B (zh) * 2019-12-30 2022-04-12 科来网络技术股份有限公司 一种数据完整度合并系统
CN112765275A (zh) * 2021-01-26 2021-05-07 成都佳发安泰教育科技股份有限公司 基于单一时间坐标系的数据同步交换方法、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697B (zh) * 2011-12-20 2015-01-07 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN103810184B (zh) * 2012-11-07 2017-09-26 阿里巴巴集团控股有限公司 确定网站页面地址流转率的方法、优化方法及其装置
CN103136335B (zh) * 2013-01-31 2016-06-29 北京百分点信息科技有限公司 一种基于数据平台的数据控制方法
CN103399871B (zh) * 2013-07-09 2018-06-12 北京奇安信科技有限公司 获取一个主域名相关联的二级域名信息的设备和方法
CN105187439A (zh) * 2015-09-25 2015-12-23 北京奇虎科技有限公司 钓鱼网站检测方法及装置

Also Published As

Publication number Publication date
CN105740361A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740361B (zh) 全量数据完整度的检测方法及装置
CN106201886B (zh) 一种实时数据任务的验证的代理方法及装置
CN104685490B (zh) 结构化和非结构化数据自适应分组的系统和方法
CN109241343B (zh) 一种刷量用户识别系统、方法及装置
CN107122297A (zh) 用于测试接口的请求消息生成的方法及设备
CN107633380A (zh) 一种数据防泄漏系统的任务审批方法和系统
TW201737072A (zh) 一種對應用程序進行項目評估的方法及系統
CN107122258A (zh) 用于测试接口的状态码校验的方法及设备
CN105868256A (zh) 处理用户行为数据的方法和系统
CN109309596B (zh) 一种压力测试方法、装置及服务器
US10592327B2 (en) Apparatus, system, and method for analyzing logs
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN108304328B (zh) 一种众包测试报告的文本描述生成方法、系统及装置
US10057155B2 (en) Method and apparatus for determining automatic scanning action
CN106776341A (zh) 客户端程序的测试错误定位方法及装置
Cuttone et al. Inferring human mobility from sparse low accuracy mobile sensing data
JP4627539B2 (ja) 負荷試験システムおよび負荷試験データ作成方法、ならびにそのプログラム
CN110750433A (zh) 接口测试方法和装置
CN110889036A (zh) 一种多维度信息的处理方法、装置及终端设备
Wang et al. Patterns of news dissemination through online news media: A case study in China
CN115757150A (zh) 一种生产环境测试方法、装置、设备及存储介质
CN106301975A (zh) 一种数据检测方法及其装置
WO2019142391A1 (ja) データ分析支援システム及びデータ分析支援方法
Kong et al. Recommending code reviewers for proprietary software projects: A large scale study
CN107040603A (zh) 用于确定应用程序App活跃场景的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant