CN106528510A - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN106528510A
CN106528510A CN201611028109.1A CN201611028109A CN106528510A CN 106528510 A CN106528510 A CN 106528510A CN 201611028109 A CN201611028109 A CN 201611028109A CN 106528510 A CN106528510 A CN 106528510A
Authority
CN
China
Prior art keywords
target data
address
key word
destination address
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611028109.1A
Other languages
English (en)
Inventor
王利鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Service Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201611028109.1A priority Critical patent/CN106528510A/zh
Publication of CN106528510A publication Critical patent/CN106528510A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种数据处理的方法及装置,该方法,包括:获取至少一个目标地址;从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;对各个所述目标地址对应的目标数据进行排重处理。本发明提供了一种数据处理的方法及装置,能够提高获取网页中目标数据的效率。

Description

一种数据处理的方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种数据处理的方法及装置。
背景技术
互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,通过分析从网页中抽取出用户需要的数据内容。并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。
现有技术中,在获取网页中的数据时,用户找到需要获取的网页,操作相关工具从当前网页中提取出数据。
通过上述描述可见,现有技术中,获取网页中数据的效率较低。
发明内容
本发明实施例提供了一种数据处理的方法及装置,能够提高获取网页中目标数据的效率。
一方面,本发明实施例提供了一种数据处理的方法,包括:
获取至少一个目标地址;
从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
对各个所述目标地址对应的目标数据进行排重处理。
进一步地,所述对各个所述目标地址对应的目标数据进行排重处理,包括:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
进一步地,在所述获取至少一个目标地址之前,进一步包括:
预先设置目标网站对应的地址解析规则;
所述获取至少一个目标地址,包括:
根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
进一步地,所述预先设置目标网站对应的地址解析规则,包括:
确定所述目标网站的地址构建规则;
根据所述地址构建规则,设置所述地址解析规则。
进一步地,所述根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址,包括:
根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址;
对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
另一方面,本发明实施例提供了一种数据处理的装置,包括:
获取单元,用于获取至少一个目标地址;
抽取单元,用于从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
排重单元,用于对各个所述目标地址对应的目标数据进行排重处理。
进一步地,所述排重单元,具体用于:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
进一步地,进一步包括:设置单元,用于设置目标网站对应的地址解析规则;
所述获取单元,用于根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
进一步地,所述设置单元,用于确定所述目标网站的地址构建规则,根据所述地址构建规则,设置所述地址解析规则。
进一步地,所述所述获取单元,用于根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址,对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
在本发明实施例中,获取至少一个目标地址,从每个目标地址对应的网页中,抽取用户所需要的目标数据,对抽取的目标数据进行排重处理,无需用户对每个网页通过操作相关工具来抽取数据,提高了获取网页中目标数据的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种数据处理的方法的流程图;
图2是本发明一实施例提供的另一种数据处理的方法的流程图;
图3是本发明一实施例提供的一种数据处理的装置的示意图;
图4是本发明一实施例提供的另一种数据处理的装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据处理的方法,该方法可以包括以下步骤:
步骤101:获取至少一个目标地址;
步骤102:从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
步骤103:对各个所述目标地址对应的目标数据进行排重处理。
在本发明实施例中,获取至少一个目标地址,从每个目标地址对应的网页中,抽取用户所需要的目标数据,对抽取的目标数据进行排重处理,无需用户对每个网页通过操作相关工具来抽取数据,提高了获取网页中目标数据的效率。
在本发明一实施例中,所述对各个所述目标地址对应的目标数据进行排重处理,包括:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
在本发明实施例中,通过公式一、公式二和公式三确定出每个目标地址对应的目标数据的最终相似参数。根据公式四,确定出每两个目标数据对应的综合相似参数,通过每两个目标数据对应的综合相似参数中1的个数来确定每两个目标数据是否相似。每个关键词的哈希值为一个二进制数。最终相似参数也是一个二进制数。每两个目标数据对应一个综合相似参数。预设个数可以为3。举例来说,当前目标数据是一段文字,从中抽取出3个关键词分别是:“网页”“算法”“数据”,出现次数分别是:6次,3次,2次。计算出“网页”这个关键词的哈希值为:101101,根据公式一,计算出“网页”这个关键词的关键词相似参数依次为:-6,6,-6,-6,6,-6。计算出“算法”这个关键词的哈希值为:011001,根据公式一,计算出“算法”这个关键词的关键词相似参数依次为:3,-3,-3,3,3,-3。计算出“数据”这个关键词的哈希值为:110001,根据公式一,计算出“数据”这个关键词的关键词相似参数依次为:-2,-2,2,2,2,-2。根据公式二,计算出当前目标数据的第1个目标数据相似参数为(-6)+3+(-2)=-5。其他的目标数据相似参数依次为:1,-7,-1,11,-11。根据公式三,确定当前目标数据的最终相似参数为:010010。假设计算出第一目标数据的最终相似参数为:010010,第二目标数据的最终相似参数为:110110。根据公式四,计算出第一目标数据和第二目标数据对应的综合相似参数为:100100。当预设个数为3时,由于第一目标数据和第二目标数据对应的综合相似参数中1的个数为2小于3,所以确定第一目标数据和第二目标数据相似。需要对第一目标数据和第二目标数据进行排重处理。排除每两个相似的目标数据中的任意一个目标数据,具体包括:删除两个相似的目标数据中的任意一个目标数据。以上述的第一目标数据和第二目标数据为例,可以删除第一目标数据或第二目标数据。
在本发明一实施例中,在所述获取至少一个目标地址之前,进一步包括:
预先设置目标网站对应的地址解析规则;
所述获取至少一个目标地址,包括:
根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
在本发明实施例中,一个目标网站中可能有多个网页,每个网页有对应的目标地址,通过设置目标网站的地址解析规则,无需知道目标网站的所有目标地址,即可通过地址解析规则解析出该目标网站的目标地址。用户无需手动查找每个目标地址,提高了抽取网页中目标数据的效率。
在本发明一实施例中,所述预先设置目标网站对应的地址解析规则,包括:
确定所述目标网站的地址构建规则;
根据所述地址构建规则,设置所述地址解析规则。
在本发明实施例中,地址构建规则是指目标网站中网址的格式,例如:网址由主域名、多级子域名、多级目录构成。
在本发明一实施例中,所述根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址,包括:
根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址;
对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
在本发明实施例中,通过地址解析规则解析出的至少一个待处理地址中可能存在重复的地址,为了避免重复抽取相同的网页,对待处理地址进行排重处理,能够加快目标数据的抽取速度。具体地,可以通过布隆过滤器实现对至少一个待处理地址的排重处理。
在获取目标数据后,还可以对目标数据进行整合处理,也就是将获取的目标数据通过某组关键字建立对应关系,其实质是关键字之间的匹配,使得用户可以通过关键字来查找所需要的目标数据。
另外,在对各个目标地址对应的目标数据进行排重处理时,可以通过Simhash算法进行排重处理。
如图2所示,本发明实施例提供了一种数据处理的方法,该方法可以包括以下步骤:
步骤201:获取至少一个目标地址。
具体地,至少一个目标地址可以是至少一个url(Uniform Resource Locator,统一资源定位符)地址。可以将至少一个url地址存储到url队列中。可以通过web爬虫从url队列中获取目标地址进行处理。
步骤202:从每个目标地址对应的网页中,抽取每个目标地址对应的目标数据。
具体地,可以通过web爬虫从目标地址对应的网页抽取目标数据。在抽取当前网页的目标数据时可以根据预设的抽取规则来抽取。其中,抽取规则可以包括:根据网站中网页的模板中,抽取模板中指定模块中的目标数据,这里的指定模块可以是面积最大的模块。
步骤203:分别从每个目标数据中抽取预设数量个出现次数最多的关键词,分别确定每个目标数据中每个关键词的出现次数。
步骤204:分别计算每个目标数据中每个关键词的哈希值。
具体地,可以通过MD2、MD4、MD5和SHA-1等哈希算法计算哈希值。
步骤205:根据公式一确定每个目标数据的每个关键词的关键词相似参数。
其中,公式一为:
其中,Wi为当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为当前目标数据的第j个关键词的哈希值从右开始的第i位的值,Nj为第j个关键词的出现次数。
步骤206:根据公式二确定每个目标数据的每个目标数据相似参数。
其中,公式二为:
其中,Ai为当前目标数据的第i个目标数据相似参数,n为预设数量。
步骤207:根据公式三,确定每个目标数据的最终相似参数。
其中,公式三为:
其中,Bi为当前目标数据的最终相似参数从右开始的第i位的值。
步骤208:根据公式四,确定每两个目标地址对应的目标数据的综合相似参数。
其中,公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为第一目标数据和第二目标数据的综合相似参数。
步骤209:确定每两个目标数据的综合相似参数中1的个数,在当前两个目标数据的综合相似参数中1的个数小于等于预设个数时,确定当前两个目标数据相似,在当前两个目标数据的综合相似参数中1的个数大于预设个数时,确定当前两个目标数据不相似。
步骤210:排除每两个相似的目标数据中的任意一个目标数据。
具体地,可以删除两个相似的目标数据中的一个。可以将排重处理后的目标数据存储到数据库中。
另外,周期性检测每个目标地址对应的网页的源代码是否发生改变,如果是,则重新从源代码发生改变的网页中抽取对应的目标数据。
在本发明实施例中,可以对不同类型的目标数据进行采集,比如股票信息、电商数据、论坛博客等。用户可自定义网页上自己需要的数据内容,比如时间、标题、正文等。支持翻页网页的数据采集。网页信息维护自动化,抓取页面内容有所改变时系统会自动更新并对新内容进行采集。保证良好的兼容性,支持跨平台
在本发明实施例中,可以依据用户事前配置好的规则进行数据采集工作,包括网页下载规则和地址解析规则以及抽取规则等。并采用分布式处理,由采集平台将配置好的采集任务传送到不同的服务器上,对网站的大量数据开始采集工作并提供实时监控功能。同时采集平台可以对服务器集群进行监控、管理、分析等操作。
如图3、图4所示,本发明实施例提供了一种数据处理的装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的一种数据处理的装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种数据处理的装置,包括:
获取单元401,用于获取至少一个目标地址;
抽取单元402,用于从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
排重单元403,用于对各个所述目标地址对应的目标数据进行排重处理。
在本发明一实施例中,所述排重单元,具体用于:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
在本发明一实施例中,该装置进一步包括:设置单元,用于设置目标网站对应的地址解析规则;
所述获取单元,用于根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
在本发明一实施例中,所述设置单元,用于确定所述目标网站的地址构建规则,根据所述地址构建规则,设置所述地址解析规则。
在本发明一实施例中,所述所述获取单元,用于根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址,对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,获取至少一个目标地址,从每个目标地址对应的网页中,抽取用户所需要的目标数据,对抽取的目标数据进行排重处理,无需用户对每个网页通过操作相关工具来抽取数据,提高了获取网页中目标数据的效率。
2、在本发明实施例中,一个目标网站中可能有多个网页,每个网页有对应的目标地址,通过设置目标网站的地址解析规则,无需知道目标网站的所有目标地址,即可通过地址解析规则解析出该目标网站的目标地址。用户无需手动查找每个目标地址,提高了抽取网页中目标数据的效率。
3、在本发明实施例中,通过地址解析规则解析出的至少一个待处理地址中可能存在重复的地址,为了避免重复抽取相同的网页,对待处理地址进行排重处理,能够加快目标数据的抽取速度。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
获取至少一个目标地址;
从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
对各个所述目标地址对应的目标数据进行排重处理。
2.根据权利要求1所述的方法,其特征在于,
所述对各个所述目标地址对应的目标数据进行排重处理,包括:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
W j , i = ( - 1 ) X j , i N j ,
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
A i = Σ j = 1 n W j , i ,
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
B i = 1 , A i > 0 0 , A i ≤ 0 ,
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
3.根据权利要求1所述的方法,其特征在于,
在所述获取至少一个目标地址之前,进一步包括:
预先设置目标网站对应的地址解析规则;
所述获取至少一个目标地址,包括:
根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
4.根据权利要求3所述的方法,其特征在于,
所述预先设置目标网站对应的地址解析规则,包括:
确定所述目标网站的地址构建规则;
根据所述地址构建规则,设置所述地址解析规则。
5.根据权利要求3或4所述的方法,其特征在于,
所述根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址,包括:
根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址;
对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
6.一种数据处理的装置,其特征在于,包括:
获取单元,用于获取至少一个目标地址;
抽取单元,用于从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;
排重单元,用于对各个所述目标地址对应的目标数据进行排重处理。
7.根据权利要求6所述的装置,其特征在于,
所述排重单元,具体用于:
针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;
计算每个所述关键词的哈希值;
根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:
W j , i = ( - 1 ) X j , i N j ,
其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;
根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:
A i = Σ j = 1 n W j , i ,
其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;
根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:
B i = 1 , A i > 0 0 , A i ≤ 0 ,
其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;
根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:
C=D xor F,
其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;
判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;
排除每两个相似的目标数据中的任意一个目标数据。
8.根据权利要求6所述的装置,其特征在于,
进一步包括:设置单元,用于设置目标网站对应的地址解析规则;
所述获取单元,用于根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。
9.根据权利要求8所述的装置,其特征在于,
所述设置单元,用于确定所述目标网站的地址构建规则,根据所述地址构建规则,设置所述地址解析规则。
10.根据权利要求8或9所述的装置,其特征在于,
所述所述获取单元,用于根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址,对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。
CN201611028109.1A 2016-11-18 2016-11-18 一种数据处理的方法及装置 Pending CN106528510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611028109.1A CN106528510A (zh) 2016-11-18 2016-11-18 一种数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611028109.1A CN106528510A (zh) 2016-11-18 2016-11-18 一种数据处理的方法及装置

Publications (1)

Publication Number Publication Date
CN106528510A true CN106528510A (zh) 2017-03-22

Family

ID=58352969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611028109.1A Pending CN106528510A (zh) 2016-11-18 2016-11-18 一种数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN106528510A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319987A1 (en) * 2007-06-19 2008-12-25 Daisuke Takuma System, method and program for creating index for database
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105260457A (zh) * 2015-10-14 2016-01-20 南京大学 一种面向共指消解的多语义网实体对比表自动生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319987A1 (en) * 2007-06-19 2008-12-25 Daisuke Takuma System, method and program for creating index for database
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105260457A (zh) * 2015-10-14 2016-01-20 南京大学 一种面向共指消解的多语义网实体对比表自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王源: "一种基于Simhash的文本快速去重算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈春玲 等: "基于Simhash算法的重复数据删除技术的研究与改进", 《南京邮电大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置

Similar Documents

Publication Publication Date Title
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
US8768926B2 (en) Techniques for categorizing web pages
CA2779366C (en) Method and system for processing information of a stream of information
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
CN103984753B (zh) 一种网络爬虫去重特征值的提取方法和装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN104462396B (zh) 字符串处理方法和装置
CN104778164B (zh) 检测重复url的方法及装置
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN102945246B (zh) 网络信息数据的处理方法及装置
CN105631007A (zh) 一种行业技术信息搜集方法及系统
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
CN106021418A (zh) 新闻事件的聚类方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Thakur et al. Detection of malicious URLs in big data using RIPPER algorithm
KR20080084567A (ko) 특허 검색 결과에 대한 신뢰도 검증방법
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN106528510A (zh) 一种数据处理的方法及装置
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法
JP6739379B2 (ja) 情報処理装置、情報処理方法、プログラム、および広告情報処理システム
Narwal Improving web data extraction by noise removal
US20170060998A1 (en) Method and apparatus for mining maximal repeated sequence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322

WD01 Invention patent application deemed withdrawn after publication