CN106547764A - 网页数据去重的方法及装置 - Google Patents

网页数据去重的方法及装置 Download PDF

Info

Publication number
CN106547764A
CN106547764A CN201510601060.3A CN201510601060A CN106547764A CN 106547764 A CN106547764 A CN 106547764A CN 201510601060 A CN201510601060 A CN 201510601060A CN 106547764 A CN106547764 A CN 106547764A
Authority
CN
China
Prior art keywords
data
web
search engine
distributed search
banner information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510601060.3A
Other languages
English (en)
Inventor
史立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510601060.3A priority Critical patent/CN106547764A/zh
Publication of CN106547764A publication Critical patent/CN106547764A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页数据去重的方法及装置,涉及信息技术领域,解决了现有的网页数据去重的准确率较低的问题。本发明的主要技术方案为:首先从待插入的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。本发明主要用于去除重复的网页数据。

Description

网页数据去重的方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种网页数据去重的方法及装置。
背景技术
分布式搜索引擎提供了针对大规模数据的各种查询功能,可方便用户从不同方面对数据进行分类和统计,特别方便用户对网络上各种媒体的实时数据进行存储和快速查询。然而,要搭建一个这样的实时数据查询系统,首先需要建立数据搜集系统,然后对搜集的数据进行整理和分类,再利用分布式搜索引擎对这些不同格式的数据进行索引,最后根据这些索引进行数据的查询和展示。在实际处理过程中。由于网络传播传媒的信息的速度非常快,当新的热门话题和消息出现时,原文很快会被其他的人引用,即引用者在自己的网页中会给出指向该热门话题或者消息的链接,因此,大量的重复引用链接会导致爬虫在爬取数据时,将大量重复的网页数据插入到分布式搜索引擎中去。
目前,是通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重处理。然而,当该话题或信息被其他网站正常转发时,由于网页内容相似,会出现分布式搜索引擎中的网页数据被误删的状况,因此现有的网页数据去重方式的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种网页数据去重的方法及装置,主要目的是提高网页数据去重的准确率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种网页数据去重的方法,该方法包括:
从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据;
根据所述网页内容数据和所述网页标记数据生成网页标识信息;
判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
另一方面,本发明实施例还提供了一种网页数据去重的装置,该装置包括:
获取单元,用于从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据;
生成单元,用于根据所述网页内容数据和所述网页标记数据生成网页标识信息;
判断单元,用于判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
存储单元,用于若分布式搜索引擎中未存储所述网页标识信息,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种网页数据去重的方法及装置,首先从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。与目前通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重相比,本发明实施例根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种网页数据去重的方法流程图;
图2为本发明实施例提供的另一种网页数据去重的方法流程图;
图3为本发明实施例提供的一种网页数据去重的装置的组成框图;
图4为本发明实施例提供的另一种网页数据去重的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种网页数据去重的方法,如图1所示,所述方法包括:
101、从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据。
其中,所述待插入的网页数据可以通过网络爬虫爬取,还可以通过从第三方购买获得,本发明实施例不做具体限定。需要说明的是,所述待插入的网页数据是将要插入到分布式搜索引擎中的网页数据,所述分布式搜索引擎具体可以为ElasticSearch搜索引擎(基于Lucene的搜索服务器)、百度搜索引擎、Google搜索引擎等,本发明实施例不做具体限定。
对于本发明实施例,从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据的具体过程可以为:首先获取待插入的网页数据,然后对所述待插入的网页数据进行解析,最后从解析的结果中获取网页内容数据和网页标记数据。在本发明实施例中,对所述待插入的网页数据进行解析后,所述待插入的网页数据可以解析成多个类型的数据,具体可以包括网页内容数据、网页标题数据、网页链接、网页更新时间数据和网页访问量等数据,本发明实施例不做具体限定。其中,所述网页内容数据为待插入的网页数据中的网页内容数据,所述网页标记数据是待插入的网页数据中的一些表示网页本身属性的数据,所述网页标记数据用于标识所述待插入的网页数据,所述网页标记数据具体可以为网页标题和网页链接等数据,本发明实施例不做具体限定。
102、根据所述网页内容数据和所述网页标记数据生成网页标识信息。
在本发明实施例中,可以通过计算所述网页内容数据和所述网页标记数据的哈希值得到网页标识信息,还可以通过计算所述网页内容数据和所述网页标记数据的MAC(Message Authentication Code,消息认证码算法)值得到网页标识信息,本发明实施例不做具体限定。需要说明的是,通过计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,生成的网页标识信息是固定位数的且唯一不重复的。
需要说明的是,可以分别计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,然后将计算的结果连接起来作为网页标识信息,例如,计算所述网页内容数据得到的哈希值作为网页标识信息的前缀部分,计算所述网页标记数据得到的哈希值作为网页标识信息的后缀部分,然后将这两个哈希结果依次联合起来,形成一个固定位数的网页标识信息;还可以统一计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,将得到的结果直接作为网页标识信息,本发明实施例不做具体限定。
103、判断分布式搜索引擎中是否存储有所述网页标识信息。
其中,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息。需要说明的是,所述分布式搜索引擎中存储的各个网页数据和与所述各个网页数据分别对应的网页标识信息,可以是预先存储的,还可以是网络爬虫实时爬取更新的,本发明实施例不做具体限定。
例如,根据所述网页内容数据和所述网页标记数据生成网页标识信息为11000110101,然后从分布式搜索引擎中查找数据为11000110101的标识信息,若查找到,则说明分布式搜索引擎中存储有所述网页标识信息11000110101;若未查找到,则说明分布式搜索引擎中未存储有所述网页标识信息11000110101。
104、若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
对于本发明实施例,若所述标识信息未在所述分布式搜索引擎中存储,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中;若所述标识信息已在所述分布式搜索引擎中存储,则无需将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中,只需将分布式搜索引擎中对应的网页标识信息的重复个数对应加1,在本发明实施例中,设置分布式搜索引擎中对应的网页标识信息的重复个数,可以使后续管理人员方便的统计出分布式搜索引擎中各个网页数据分别对应的重复个数,从而提高了用户体验。
在本发明实施例中,首先根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,若所述网页标识信息未在分布式搜索引擎中存储,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。需要说明的是,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
本发明实施例提供的一种网页数据去重的方法,首先从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。与目前通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重相比,本发明实施例根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
本发明实施例提供了另一种网页数据去重的方法,如图2所示,所述方法包括:
201、从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据。
其中,所述待插入的网页数据可以通过网络爬虫爬取,还可以通过从第三方购买获得,本发明实施例不做具体限定。需要说明的是,所述待插入的网页数据是将要插入到分布式搜索引擎中的网页数据,所述分布式搜索引擎具体可以为ElasticSearch搜索引擎(基于Lucene的搜索服务器)、百度搜索引擎、Google搜索引擎等,本发明实施例不做具体限定。
对于本发明实施例,从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据的具体过程可以为:首先获取待插入的网页数据,然后对所述待插入的网页数据进行解析,最后从解析的结果中获取网页内容数据和网页标记数据。在本发明实施例中,对所述待插入的网页数据进行解析后,所述待插入的网页数据可以解析成多个类型的数据,具体可以包括网页内容数据、网页标题数据、网页链接、网页更新时间数据和网页访问量等数据,本发明实施例不做具体限定。其中,所述网页内容数据为待插入的网页数据中的网页内容数据,所述网页标记数据是待插入的网页数据中的一些表示网页本身属性的数据,所述网页标记数据用于标识所述待插入的网页数据,所述网页标记数据具体可以为网页标题和网页链接等数据,本发明实施例不做具体限定。
对于本发明实施例,所述方法还包括:从待插入的网页数据中获取网页更新时间数据,所述网页更新时间数据用于表示获取的待插入的网页数据的更新时间。在本发明实施例,从待插入的网页数据中获取网页更新时间数据,并在后续步骤中将网页更新时间数据存储到分布式搜索引擎中,可以方便管理人员通过所述网页更新时间数据对分布式搜索引擎中,单位时间内的处理的数据量进行统计。
202、根据所述网页内容数据和所述网页标记数据生成网页标识信息。
在本发明实施例中,可以通过计算所述网页内容数据和所述网页标记数据的哈希值得到网页标识信息,还可以通过计算所述网页内容数据和所述网页标记数据的MAC(Message Authentication Code,消息认证码算法)值得到网页标识信息,本发明实施例不做具体限定。需要说明的是,通过计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,生成的网页标识信息是固定位数的且唯一不重复的。
对于本发明实施例,可以分别计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,然后将计算的结果连接起来作为网页标识信息,例如,计算所述网页内容数据得到的哈希值作为网页标识信息的前缀部分,计算所述网页标记数据得到的哈希值作为网页标识信息的后缀部分,然后将这两个哈希结果依次联合起来,形成一个固定位数的网页标识信息;还可以统一计算所述网页内容数据和所述网页标记数据的哈希值或MAC值,将得到的结果直接作为网页标识信息,本发明实施例不做具体限定。
对于本发明实施例,所述根据所述网页内容数据和所述网页标记数据生成网页标识信息包括:通过对所述网页内容数据和所述网页标记数据进行哈希运算,生成网页标识信息。在本发明实施例中,由于哈希值是唯一且紧凑数据,且若只更改所述网页内容数据或所述网页标记数据中的任一字母,随后计算所述网页内容数据和所述网页标记数据的哈希值,都会产生变化,因此通过对所述网页内容数据和所述网页标记数据进行哈希运算,生成网页标识信息,是唯一标识且不重复的,由此,所述网页标识信息可以唯一标识所述待插入的网页数据。
在本发明实施例中,所述网页标记数据包括网页链接和网页标题信息。需要说明的是,通常相同的网页链接就可以唯一确定一个网页数据的内容,但是考虑到网页链接对应的网页内容可能已经被更新,这时该网页链接对应的网页内容应该被作为一个新的网页数据被获取下来。所以,通过网页内容数据、网页链接和网页标题信息的可以唯一的确认一个网页数据。
203、根据所述网页标识信息确定所述待插入的网页数据在分布式搜索引擎中对应的存储区间。
其中,所述分布式搜索引擎中至少包括一个存储区间,所述存储空间中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息。需要说明的是,所述分布式搜索引擎中的存储空间是预先划分的,并且所述分布式搜索引擎中的存储空间的个数可以根据用户的实际需求进行设置,还可以由系统默认配置,例如,所述存储空间的个数具体可以为10个、50个、100个等,本发明实施例不做具体限定。所述分布式搜索引擎中的各个存储空间分别存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息,并且各个存储空间中存储的数据互不相同。
对于本发明实施例,可以通过对所述网页标识信息进行哈希运算取余的方式,确认待插入的网页数据在分布式搜索引擎对应的存储空间,还可以通过截取网页标识信息中的前几位数据或是后几位数据的方式,确认待插入的网页数据在分布式搜索引擎对应的存储空间,本发明实施例不做具体限定。例如,将所述分布式搜索引擎划分成10个存储空间,并且是通过对所述网页标识信息进行哈希运算取余的方式,确认待插入的网页数据在分布式搜索引擎对应的存储空间,若余数为0则对应分布式搜索引擎中的第一个存储区间,若余数为1则对应分布式搜索引擎中的第二个存储区间,以此类推分别确认各个待插入的网页数据在分布式搜索引擎中分别对应的存储区间。
204、判断所述存储区间中是否存储有所述网页标识信息。
对于本发明实施例,由于所述存储区间中存储的数据量大大少于整个分布式搜索引擎中的存储的数据量,因此通过判断所述存储区间是否存储有所述网页标识信息,可提高判断待插入的网页数据是否在分布式搜索引擎中的速度,进而提高了网页数据去重的效率。需要说明的是,所述分布式搜索引擎中的各个存储区间可以分别对应一台服务器,每个存储区间中的数据可以由一台独立的服务器进行存储,因此在判断存储区间中是否存储有所述网页标识信息时,只需查找与该存储区间对应的服务器即可,而无需再通过网络跳转至其余的服务器查找是否存储所述网页标识信息,从而将分布式搜索引擎中的各个存储区间分别设置对应的一台服务器,可以进一步地提高判断所述网页标识信息是否在所述存储区间的速度。
205a、若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
对于本发明实施例,若所述标识信息未在所述存储区间中存储,则将所述则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述存储区间中;若所述标识信息已在所述存储区间中存储,则无需将所述待插入的网页数据与所述则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述存储区间中,只需将所述存储区间中对应的网页标识信息的次数标记信息对应加1,在本发明实施例中,设置所述存储区间中对应的网页标识信息的次数标记信息,可以使后续管理人员方便的统计出分布式搜索引擎中各个网页数据分别对应的重复个数,从而提高了用户体验。
对于本发明实施例,所述将待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中包括:将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。在本发明实施例中,所述网页内容数据和所述网页标记数据是待插入的网页数据中的网页本身属性的数据,并且所述网页内容数据和所述网页标记数据可以唯一确认一个网页数据;将网页更新时间数据存储到分布式搜索引擎中,可以方便管理人员通过所述网页更新时间数据对分布式搜索引擎中,单位时间内的处理的数据量进行统计。因此,将仅将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息存储到所述分布式搜索引擎中,可以节省分布式搜索引擎的存储空间。
对于本发明实施例,将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中之后,还可以对分布式搜索引擎中存储的网页内容数据和网页标记数据进行预处理,以方便后续提供检索服务。其中,最重要的就是提取网页内容中的关键词,然后根据提取的关键词建立索引文件。其他还包括分词(中文)、判断网页类型、分析超链接、计算网页的重要度或丰富度等,本发明实施例不做具体限定。
在本发明实施例中,首先根据网页内容数据和网页标记数据生成网页标识信息,然后根据所述网页标识信息确定所述待插入的网页数据在分布式搜索引擎中对应的存储区间,再判断所述存储区间中是否存储有所述网页标识信息,若所述网页标识信息未在所述存储区间中存储,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。需要说明的是,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
205b、若是,则将所述分布式搜索引擎中与所述网页标识信息对应的次数标记信息进行累加。
在本发明实施例中,步骤205b是步骤205a的并列步骤,所述分布式搜索引擎中还存储有与所述各个网页标识信息分别对应的次数标记信息。需要说明的是,所述次数标记信息用于表示分布式搜索引擎中网页数据被查找的次数,即网页数据的重复出现的次数。当存在一条新的网页数据插入到分布式搜索引擎中时,则将分布式搜索引擎中与该条网页数据对应的次数标记信息设置为1,若再有相同的网页数据插入到分布式搜索引擎中,则将与该条数据对应的次数标记信息对应加1。对于本发明实施例,若分布式搜索引擎中存有待插入的网页数据,则将所述分布式搜索引擎中与已存有的待插入的网页数据对应的次数标记信息进行累加,可以使后台人员了解到所述待插入的网页数据出现的次数,从而提高了用户体验。
对于本发明实施例,可以应用的场景如下所示,但不仅限于此,包括:首先从待插入的网页数据中获取到网页内容数据和网页标记数据,然后根据网页内容数据和网页标记数据生成的网页标识信息为1011011010,在根据所述网页标识信息1011011010获取所述分布式搜索引擎中对应的存储区间为第一存储区间,最后从所述第一存储区间中查找是否存在网页标识信息1011011010,若在所述第一存储区间中查找到所述网页标识信息1011011010,则说明待插入的网页数据已经在第一存储区间中存储,无需再将所述待插入的数据插入到分布式搜索引擎中;若在所述第一存储区间中未查找到所述网页标识信息1011011010,则说明待插入的网页数据未在所述第一存储区间中存储,则将所述网页内容数据和所述网页标记数据存储到所述第一存储区间中。对于本发明实施例,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
本发明实施例提供的另一种网页数据去重的方法,首先从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。与目前通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重相比,本发明实施例根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
进一步地,本发明实施例提供了一种网页数据去重的装置,如图3所示,所述装置包括:获取单元31、生成单元32、判断单元33、存储单元34。
获取单元31,用于从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据。
生成单元32,用于根据所述网页内容数据和所述网页标记数据生成网页标识信息。
判断单元33,用于判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息。
存储单元34,用于若分布式搜索引擎中未存储所述网页标识信息,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
需要说明的是,本发明实施例提供的一种网页数据去重的装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
本发明实施例提供了一种网页数据去重的装置,首先从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。与目前通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重相比,本发明实施例根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
进一步地,本发明实施例提供了另一种网页数据去重的装置,如图4所示,所述装置包括:获取单元41、生成单元42、判断单元43、存储单元44。
获取单元41,用于从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据。
生成单元42,用于根据所述网页内容数据和所述网页标记数据生成网页标识信息。
判断单元43,用于判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息。
存储单元44,用于若分布式搜索引擎中未存储所述网页标识信息,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
进一步地,所述装置还包括:确定单元45,
所述确定单元45,用于根据所述网页标识信息确定所述待插入的网页数据在所述分布式搜索引擎中对应的存储区间,所述分布式搜索引擎中至少包括一个存储区间,所述存储空间中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息。
所述判断单元43,具体用于判断所述存储区间中是否存储有所述网页标识信息。
所述获取单元41,还用于从待插入的网页数据中获取网页更新时间数据。
所述存储单元44,具体用于将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
所述生成单元42,具体用于通过对所述网页内容数据和所述网页标记数据进行哈希运算,生成网页标识信息。
进一步地,所述装置还包括:累加单元46。
累计单元46,用于若分布式搜索引擎中存储有所述网页标识信息,则将所述分布式搜索引擎中与所述网页标识信息对应的次数标记信息进行累加。
进一步地,所述网页标记数据包括网页链接和网页标题信息。
需要说明的是,本发明实施例提供的另一种网页数据去重的装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述。
本发明实施例提供的另一种网页数据去重的装置,首先从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。与目前通过计算分布式搜索引擎中网页内容的相似度方式,对分布式搜索引擎中的网页内容相似度高的网页数据进行去重相比,本发明实施例根据网页内容数据和网页标记数据生成网页标识信息,然后根据生成的网页标识信息判断所述待插入的网页数据是否与分布式搜索引擎中存储的数据重复,由于根据网页内容数据和网页标记数据生成的网页标识信息可唯一标识所述待插入的网页数据,因此通过网页标识信息判断待插入的网页数据是否重复,可以提高网页数据去重的准确率。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种网页数据去重的方法,其特征在于,包括:
从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据;
根据所述网页内容数据和所述网页标记数据生成网页标识信息;
判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
2.根据权利要求1所述的网页数据去重的方法,其特征在于,所述根据所述网页内容数据和所述网页标记数据生成网页标识信息之后,所述方法还包括:
根据所述网页标识信息确定所述待插入的网页数据在所述分布式搜索引擎中对应的存储区间,所述分布式搜索引擎中至少包括一个存储区间,所述存储空间中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
所述判断分布式搜索引擎中是否存储有所述网页标识信息包括:
判断所述存储区间中是否存储有所述网页标识信息。
3.根据权利要求2所述的网页数据去重的方法,其特征在于,所述方法还包括:
从待插入的网页数据中获取网页更新时间数据;
所述将待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中包括:
将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
4.根据权利要求1所述的网页数据去重的方法,其特征在于,所述根据所述网页内容数据和所述网页标记数据生成网页标识信息包括:
通过对所述网页内容数据和所述网页标记数据进行哈希运算,生成网页标识信息。
5.根据权利要求1所述的网页数据去重的方法,其特征在于,所述分布式搜索引擎中还存储有与所述各个网页标识信息分别对应的次数标记信息,所述判断分布式搜索引擎中是否存储有所述网页标识信息之后,所述方法还包括:
若是,则将所述分布式搜索引擎中与所述网页标识信息对应的次数标记信息进行累加。
6.根据权利要求1-5中任一所述的网页数据去重的方法,其特征在于,所述网页标记数据包括网页链接和网页标题信息。
7.一种网页数据去重的装置,其特征在于,包括:
获取单元,用于从待插入分布式搜索引擎的网页数据中获取网页内容数据和网页标记数据;
生成单元,用于根据所述网页内容数据和所述网页标记数据生成网页标识信息;
判断单元,用于判断分布式搜索引擎中是否存储有所述网页标识信息,所述分布式搜索引擎中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
存储单元,用于若分布式搜索引擎中未存储所述网页标识信息,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
8.根据权利要求7所述的网页数据去重的装置,其特征在于,所述装置还包括:确定单元;
所述确定单元,用于根据所述网页标识信息确定所述待插入的网页数据在所述分布式搜索引擎中对应的存储区间,所述分布式搜索引擎中至少包括一个存储区间,所述存储空间中存储有各个网页数据和与所述各个网页数据分别对应的网页标识信息;
所述判断单元,具体用于判断所述存储区间中是否存储有所述网页标识信息。
9.根据权利要求8所述的网页数据去重的装置,其特征在于,
所述获取单元,还用于从待插入的网页数据中获取网页更新时间数据;
所述存储单元,具体用于将所述网页内容数据、所述网页标记数据、所述网页更新时间数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。
10.根据权利要求7所述的网页数据去重的装置,其特征在于,
所述生成单元,具体用于通过对所述网页内容数据和所述网页标记数据进行哈希运算,生成网页标识信息。
CN201510601060.3A 2015-09-18 2015-09-18 网页数据去重的方法及装置 Pending CN106547764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510601060.3A CN106547764A (zh) 2015-09-18 2015-09-18 网页数据去重的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510601060.3A CN106547764A (zh) 2015-09-18 2015-09-18 网页数据去重的方法及装置

Publications (1)

Publication Number Publication Date
CN106547764A true CN106547764A (zh) 2017-03-29

Family

ID=58362338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510601060.3A Pending CN106547764A (zh) 2015-09-18 2015-09-18 网页数据去重的方法及装置

Country Status (1)

Country Link
CN (1) CN106547764A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981659A (zh) * 2019-03-29 2019-07-05 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN110347465A (zh) * 2019-06-28 2019-10-18 北京明略软件系统有限公司 一种数据维护方法及装置
WO2020006909A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置
WO2020006908A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103778163A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种基于指纹的网页快速去重算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103778163A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种基于指纹的网页快速去重算法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020006909A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置
WO2020006908A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置
CN109981659A (zh) * 2019-03-29 2019-07-05 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN109981659B (zh) * 2019-03-29 2021-07-09 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN110347465A (zh) * 2019-06-28 2019-10-18 北京明略软件系统有限公司 一种数据维护方法及装置

Similar Documents

Publication Publication Date Title
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN103678412B (zh) 一种文档检索的方法及装置
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN102722709B (zh) 一种垃圾图片识别方法和装置
US20120284270A1 (en) Method and device to detect similar documents
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN109063509A (zh) 一种基于关键词语义排序的可搜索加密方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN103198067A (zh) 一种业务搜索方法及系统
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN105654201B (zh) 一种广告流量预测方法及装置
CN106250424A (zh) 一种日志上下文内容的搜索方法、装置及系统
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN106547764A (zh) 网页数据去重的方法及装置
CN102855309A (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US9262510B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN112256880A (zh) 文本识别方法和装置、存储介质及电子设备
CN107741958A (zh) 一种数据处理方法及系统
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN105653576A (zh) 信息搜索的方法及装置、人工座席服务方法及系统
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170329

RJ01 Rejection of invention patent application after publication