CN102063498A - 基于内容特征信息对链接进行去重处理的方法与设备 - Google Patents

基于内容特征信息对链接进行去重处理的方法与设备 Download PDF

Info

Publication number
CN102063498A
CN102063498A CN 201010624368 CN201010624368A CN102063498A CN 102063498 A CN102063498 A CN 102063498A CN 201010624368 CN201010624368 CN 201010624368 CN 201010624368 A CN201010624368 A CN 201010624368A CN 102063498 A CN102063498 A CN 102063498A
Authority
CN
China
Prior art keywords
links
link
resource file
characteristic information
content characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010624368
Other languages
English (en)
Other versions
CN102063498B (zh
Inventor
姚远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taile Culture Technology Co.,Ltd.
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010624368 priority Critical patent/CN102063498B/zh
Publication of CN102063498A publication Critical patent/CN102063498A/zh
Application granted granted Critical
Publication of CN102063498B publication Critical patent/CN102063498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法与设备。其中,去重设备获取多个第一链接;对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接;对所述第一链接集进行去重处理。本发明使得存储这些链接的设备减少了存储空间,并降低了对这些链接进行后期检测的成本,同时在将去重后的链接作为搜索结果提供给用户时,使得用户获得更好的搜索体验。

Description

基于内容特征信息对链接进行去重处理的方法与设备
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的技术。
背景技术
随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许多用户上传至网络,这必然造成相同的资源文件被重复上传。同时,不同的网站也会转载、引用以及提供下载相同的资源文件,这进一步扩大了网络中重复资源文件的数量。
然后,搜索引擎通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取网页时,对抓取到的网页不做区分,这些网页中可能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重,搜索引擎在抓取这些网页后,需要大量的存储空间来存储这些网页,并且还需要分配更多的检测设备对存储的网页进行后期检测。
因此,如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法与设备。
根据本发明的一个方面,提供了一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法,其中,该方法包括以下步骤:
a获取多个第一链接,其中,所述第一链接指向资源文件;
b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;
c根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接;
d对所述第一链接集进行去重处理。
根据本发明的另一个方面,还提供了一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的设备,其中,该设备包括:
获取装置,用于获取多个第一链接,其中,所述第一链接指向资源文件;
处理装置,用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;
分组装置,用于根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接;
去重装置,用于对所述第一链接集进行去重处理。
与现有技术相比,本发明基于内容特征信息对指向相同资源文件的多个链接进行去重处理,使得存储这些链接的设备,如搜索引擎服务器减少相应的存储空间,并降低了对这些链接进行后期检测的成本,同时在将去重后的链接作为搜索结果提供给用户时,使得用户获得更好的搜索体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重设备的示意图;
图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重设备。其中,去重设备1包括获取装置11、处理装置12、分组装置13和去重装置14。具体地,获取装置11获取多个第一链接,其中,所述第一链接指向资源文件;随后,处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;接着,分组装置13根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;随后,去重装置14对所述第一链接集进行去重处理。
在此,去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计算设备,其中,计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例,其他现有的或今后可能出现的去重设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,获取装置11获取多个第一链接,其中,所述第一链接指向资源文件。具体地,获取装置11从诸如其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取多个第一链接,其中,这些第一链接指向资源文件。例如,获取装置11通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第一链接的请求,并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一链接,其中,这些第一链接指向资源文件。又如,获取装置11通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个链接,并根据这些链接指向的内容,获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取第一链接的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息。具体地,处理装置12根据获取装置11获取的多个第一链接,获取这些第一链接所指向的资源文件,并对这些资源文件执行基于摘要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,获取装置11获取多个第一链接,处理装置12根据这些第一链接,获取这些第一链接所指向的多个资源文件的前10k字节数据,并基于MD5算法对每个资源文件的前10k字节数据求MD5值,这些MD5值即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,分组装置13根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。具体地,分组装置13根据处理装置12获取的与每个第一链接对应的内容特征信息,并结合每个第一链接所属的站点,对这些第一链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接。例如,根据处理装置12获取的与每个第一链接对应的内容特征信息,分组装置13先对具有相同内容特征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,去重装置14对所述第一链接集进行去重处理。具体地,去重装置14对分组装置13获得的多个第一链接集进行去重处理,诸如保留每个第一链接集中最新抓取的2个第一链接、保留每个第一链接集中权威度最高的3个第一链接等。例如,分组装置13获得多个第一链接集,去重装置14对部分第一链接集保留其中最新抓取的2个第一链接,对其余部分的第一链接集保留其中权威度最高的3个第一链接。在此,去重装置14可以从诸如其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取这些第一链接的权威度。本领域技术人员应能理解上述对第一链接集去重的方式以及第一链接的权威度的来源仅为举例,其他现有的或今后可能出现的对第一链接集去重的方式或者第一链接的权威度的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,获取装置11、处理装置12、分组装置13和去重装置14是持续不断工作的。具体地,获取装置11获取多个第一链接,其中,所述第一链接指向资源文件;随后,处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;接着,分组装置13根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;随后,去重装置14对所述第一链接集进行去重处理。在此,本领域技术人员应理解“持续”是指获取装置11、处理装置12、分组装置13和去重装置14分别按照设定的或实时调整的工作模式要求进行第一链接的获取、内容特征信息的获取,第一链接集的获取以及去重,直至去重设备1在较长时间内停止获取包括指向资源文件的第一链接。
优选地,所述去重装置中对所述第一链接集的去重处理基于但不限于,以下至少任一项:
1)所述第一链接集中第一链接的抓取时间;
2)所述第一链接集中第一链接的产生时间;
3)所述第一链接集中第一链接对应的网页的流量;
4)所述第一链接集中第一链接对应的网页的权威度。
具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第一链接集去重处理的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),处理装置12还按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容特征信息。具体地,处理装置12还按照预定数据量,如第一链接所指向的资源文件的头部10k字节数据、尾部10k字节数据、或者两者的结合,对该资源文件执行基于摘要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,获取装置11获取多个第一链接,处理装置12根据这些第一链接,获取这些第一链接所指向的多个资源文件的头部10k字节数据,并基于SHA算法对每个资源文件的头部10k字节数据求SHA序列,这些SHA序列即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述预定数据量基于但不限于,以下至少任一项:
1)所述资源文件的预定大小的头部数据;
2)所述资源文件的预定大小的尾部数据;
3)所述资源文件的全部数据。
具体地,处理装置12根据摘要算法,诸如MD5算法、SHA算法等,不但可以对资源文件的全部数据计算内容特征信息,还可以仅基于资源文件的预定大小的头部数据或者尾部数据,甚至是预定大小的头部数据与预定大小的尾部数据相结合,计算与资源文件相对应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例,其他现有的或今后可能出现的预定数据量如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
特别地,在资源文件的数据量较大的应用场景,如果只对资源文件的部分数据计算内容特征信息,可以极大地降低计算成本,同时提高处理效率,以更快地对第一链接进行分组,从而在计算量尽可能小的情况下,实现对第一链接集的去重,降低了第一链接的存储设备的存储压力和后期数据检测压力。
在另一个优选实施例中(参照图1),分组装置13还根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包括多个内容特征信息相同的第一链接;根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所述第一链接集。具体地,分组装置13还根据与每个第一链接相对应的内容特征信息,对这些第一链接进行分组,以获取一个或多个候选链接集,其中,每个候选链接集包括具有相同内容特征信息的第一链接;并根据每个候选链接集中第一链接所属的站点,对这些候选链接集再次分组,获得一个多个第一链接集,其中,这(些)第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。例如,根据处理装置12获取的与每个第一链接对应的内容特征信息,分组装置13先对具有相同内容特征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,分组装置13还根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。具体地,分组装置13根据处理装置12获取的与每个第一链接相对应的内容特征信息,并结合每个第一链接所指向的资源文件的资源相关信息,诸如资源文件的格式、时长等,以及每个第一链接所属的站点,对这些第一链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息及相同资源相关信息的第一链接。例如,根据处理装置12每个第一链接对应的资源文件的头部10k字节数据计算获得内容特征信息,分组装置13先对资源文件的时长相同的第一链接分组,获得多个第一分组;再对每一个第一分组进行分组,以获得多个第二分组,其中,每个第二分组包括具有相同内容特征信息的第一链接;再对这些第二分组中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述资源相关信息包括但不限于,以下至少任一项:
1)资源文件的格式;
2)资源文件的时长;
3)资源文件的数据量大小;
4)资源文件的图片尺寸。
具体地,资源文件的格式指每个第一链接所指向的资源文件的格式,如视频文件的mp4格式、rmvb格式、mov格式等,音乐文件的cd格式、mp3格式、wma格式等,或者图片文件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐文件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资源文件的图片尺寸指每个第一链接所指向的图片文件的尺寸,即图片文件的长和宽,有时用图片文件的分辨率来表示。特别地,在处理装置12仅对第一链接所指向的资源文件的部分数据计算内容特征信息的情况下,结合这些资源文件的资源相关信息,分组装置13能够更快地对第一链接进行分组,同时极大地降低了处理装置12和分组装置13的数据处理压力,提高了去重设备1的去重效率,减轻了第一链接的存储设备的存储压力和后期数据检测压力。本领域技术人员应能理解上述资源相关信息仅为举例,其他现有的或今后可能出现的资源相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图1),去重设备1还包括预处理装置(未示出),该预处理装置对所述第一链接集进行预处理操作,以获得待去重的第一链接集;其中,所述预处理操作基于但不限于,以下至少任一项:
1)所述第一链接集中第一链接的数量;
2)所述第一链接集中第一链接所指向的资源文件的数据量;随后,去重装置14还对所述待去重的第一链接集进行去重处理。具体地,预处理装置对分组装置13获取的第一链接集进行预处理操作,诸如过滤包含第一链接的数量低于第一阈值的第一链接集、过滤包含的第一链接所指向的资源文件的数据量小于第二阈值的第一链接集,以获得需要去重装置14进行去重的第一链接集;随后,去重装置14还对经过预处理装置处理的待去重第一链接集进行去重处理。例如,分组装置13获取多个第一链接集,预处理装置过滤这些第一链接集中包含第一链接的数量低于3且包含的第一链接所指向的资源文件的数据量小于10k字节的第一链接集,以获得待去重的第一链接集;随后,去重装置14对这些待去重的第一链接集进行去重处理。本领域技术人员应能理解上述预处理操作的参考因素仅为举例,其他现有的或今后可能出现的预处理操作的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要算法包括但不限于,以下至少任一项:
1)MD5算法;
2)SHA算法。
具体地,MD5算法的全称是Message-Digest Algorithm 5(信息-摘要算法),其将整个资源文件当作一个大文本信息,通过不可逆的字符串变换算法,产生唯一的MD5值。SHA算法是一种数据加密算法,其思想是接收一段明文,然后以一种不可逆的方式将它转换成一段(通常更小)密文,也可以简单的理解为取一串输入码(称为预映射或信息),并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域技术人员应能理解上述摘要算法仅为举例,其他现有的或今后可能出现的摘要算法如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述资源文件包括但不限于,以下至少任一项:
1)音乐文件;
2)视频文件;
3)图片文件;
4)文本文件。
具体地,每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。处理装置12可以根据这些资源文件的部分或者全部数据计算内容特征信息。分组装置13可以基于这些资源文件的内容特征信息,并结合这些资源文件的资源相关信息及对应这些资源文件的第一链接所属的站点对与这些资源文件分别对应的第一链接进行分组,得到多个第一链接集。去重装置14可以对每个指向相同资源文件的第一链接集去重。本领域技术人员应能理解上述资源文件仅为举例,其他现有的或今后可能出现的资源文件如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法流程图。具体地,在步骤S1中,去重设备1获取多个第一链接,其中,所述第一链接指向资源文件;随后,在步骤S2中,去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;随后,在步骤S4中,去重设备1对所述第一链接集进行去重处理。
在此,去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计算设备,其中,计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例,其他现有的或今后可能出现的去重设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,在步骤S1中,去重设备1获取多个第一链接,其中,所述第一链接指向资源文件。具体地,在步骤S1中,去重设备1从诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取多个第一链接,其中,这些第一链接指向资源文件。例如,在步骤S1中,去重设备1通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第一链接的请求,并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一链接,其中,这些第一链接指向资源文件。又如,在步骤S1中,去重设备1通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个链接,并根据这些链接指向的内容,获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取第一链接的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息。具体地,在步骤S2中,去重设备1根据其在步骤S1中获取的多个第一链接,获取这些第一链接所指向的资源文件,并对这些资源文件执行基于摘要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,在步骤S1中,去重设备1获取多个第一链接;在步骤S2中,去重设备1根据这些第一链接,获取这些第一链接所指向的多个资源文件的前10k字节数据,并基于MD5算法对每个资源文件的前10k字节数据求MD5值,这些MD5值即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。具体地,在步骤S3中,去重设备1根据其在步骤S2中获取的与每个第一链接对应的内容特征信息,并结合每个第一链接所属的站点,对这些第一链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接。例如,根据其在步骤S2中获取的与每个第一链接对应的内容特征信息,在步骤S3中,去重设备1先对具有相同内容特征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S4中,去重设备1对所述第一链接集进行去重处理。具体地,在步骤S4中,去重设备1对其在步骤S3中获得的多个第一链接集进行去重处理,诸如保留每个第一链接集中最新抓取的2个第一链接、保留每个第一链接集中权威度最高的3个第一链接等。例如,在步骤S3中,去重设备1获得多个第一链接集;在步骤S4中,去重设备1对部分第一链接集保留其中最新抓取的2个第一链接,对其余部分的第一链接集保留其中权威度最高的3个第一链接。在此,去重装置14可以从诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取这些第一链接的权威度。本领域技术人员应能理解上述对第一链接集去重的方式以及第一链接的权威度的来源仅为举例,其他现有的或今后可能出现的对第一链接集去重的方式或者第一链接的权威度的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,步骤S1、步骤S2、步骤S3和步骤S4是持续不断工作的。具体地,在步骤S1中,去重设备1获取多个第一链接,其中,所述第一链接指向资源文件;随后,在步骤S2中,去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;随后,在步骤S4中,去重设备1对所述第一链接集进行去重处理。在此,本领域技术人员应理解“持续”是指去重设备1在步骤S1、步骤S2、步骤S3和步骤S4分别按照设定的或实时调整的工作模式要求进行第一链接的获取、内容特征信息的获取,第一链接集的获取以及去重,直至去重设备1在较长时间内停止获取包括指向资源文件的第一链接。
优选地,所述步骤S4中对所述第一链接集的去重处理基于但不限于,以下至少任一项:
1)所述第一链接集中第一链接的抓取时间;
2)所述第一链接集中第一链接的产生时间;
3)所述第一链接集中第一链接对应的网页的流量;
4)所述第一链接集中第一链接对应的网页的权威度。
具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第一链接集去重处理的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图2),在步骤S2中,去重设备1还按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容特征信息。具体地,在步骤S2中,去重设备1还按照预定数据量,如第一链接所指向的资源文件的头部10k字节数据、尾部10k字节数据、或者两者的结合,对该资源文件执行基于摘要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,在步骤S1中,去重设备1获取多个第一链接;在步骤S2中,去重设备1根据这些第一链接,获取这些第一链接所指向的多个资源文件的头部10k字节数据,并基于SHA算法对每个资源文件的头部10k字节数据求SHA序列,这些SHA序列即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述预定数据量基于但不限于,以下至少任一项:
1)所述资源文件的预定大小的头部数据;
2)所述资源文件的预定大小的尾部数据;
3)所述资源文件的全部数据。
具体地,在步骤S2中,去重设备1根据摘要算法,诸如MD5算法、SHA算法等,不但可以对资源文件的全部数据计算内容特征信息,还可以仅基于资源文件的预定大小的头部数据或者尾部数据,甚至是预定大小的头部数据与预定大小的尾部数据相结合,计算与资源文件相对应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例,其他现有的或今后可能出现的预定数据量如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
特别地,在资源文件的数据量较大的应用场景,如果只对资源文件的部分数据计算内容特征信息,可以极大地降低计算成本,同时提高处理效率,以更快地对第一链接进行分组,从而在计算量尽可能小的情况下,实现对第一链接集的去重,降低了第一链接的存储设备的存储压力和后期数据检测压力。
在另一个优选实施例中(参照图2),在步骤S3中,去重设备1还根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包括多个内容特征信息相同的第一链接;根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所述第一链接集。具体地,在步骤S3中,去重设备1还根据与每个第一链接相对应的内容特征信息,对这些第一链接进行分组,以获取一个或多个候选链接集,其中,每个候选链接集包括具有相同内容特征信息的第一链接;并根据每个候选链接集中第一链接所属的站点,对这些候选链接集再次分组,获得一个多个第一链接集,其中,这(些)第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。例如,根据其在步骤S2中获取的与每个第一链接对应的内容特征信息,在步骤S3中,去重设备1先对具有相同内容特征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S3中,去重设备1还根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。具体地,在步骤S3中,去重设备1根据其在步骤S2中获取的与每个第一链接相对应的内容特征信息,并结合每个第一链接所指向的资源文件的资源相关信息,诸如资源文件的格式、时长等,以及每个第一链接所属的站点,对这些第一链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属于同一站点且具有相同内容特征信息及相同资源相关信息的第一链接。例如,根据其在步骤S2中每个第一链接对应的资源文件的头部10k字节数据计算获得内容特征信息,在步骤S3中,去重设备1先对资源文件的时长相同的第一链接分组,获得多个第一分组;再对每一个第一分组进行分组,以获得多个第二分组,其中,每个第二分组包括具有相同内容特征信息的第一链接;再对这些第二分组中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述资源相关信息包括但不限于,以下至少任一项:
1)资源文件的格式;
2)资源文件的时长;
3)资源文件的数据量大小;
4)资源文件的图片尺寸。
具体地,资源文件的格式指每个第一链接所指向的资源文件的格式,如视频文件的mp4格式、rmvb格式、mov格式等,音乐文件的cd格式、mp3格式、wma格式等,或者图片文件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐文件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资源文件的图片尺寸指每个第一链接所指向的图片文件的尺寸,即图片文件的长和宽,有时用图片文件的分辨率来表示。特别地,在去重设备1仅对第一链接所指向的资源文件的部分数据计算内容特征信息的情况下,结合这些资源文件的资源相关信息,去重设备1能够更快地对第一链接进行分组,同时极大地降低了其数据处理压力,提高了去重效率,减轻了第一链接的存储设备的存储压力和后期数据检测压力。本领域技术人员应能理解上述资源相关信息仅为举例,其他现有的或今后可能出现的资源相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图2),该过程还包括步骤S5(未示出),在步骤S5中,去重设备1对所述第一链接集进行预处理操作,以获得待去重的第一链接集;其中,所述预处理操作基于但不限于,以下至少任一项:
1)所述第一链接集中第一链接的数量;
2)所述第一链接集中第一链接所指向的资源文件的数据量;随后,在步骤S4中,去重设备1还对所述待去重的第一链接集进行去重处理。具体地,在步骤S5中,去重设备1对其在步骤S3中获取的第一链接集进行预处理操作,诸如过滤包含第一链接的数量低于第一阈值的第一链接集、过滤包含的第一链接所指向的资源文件的数据量小于第二阈值的第一链接集,以获得需要进行去重的第一链接集;随后,在步骤S4中,去重设备1还对经过步骤S5处理的待去重第一链接集进行去重处理。例如,在步骤S3中,去重设备1获取多个第一链接集;在步骤S5中,去重设备1过滤这些第一链接集中包含第一链接的数量低于3且包含的第一链接所指向的资源文件的数据量小于10k字节的第一链接集,以获得待去重的第一链接集;随后,在步骤S4中,去重设备1对这些待去重的第一链接集进行去重处理。本领域技术人员应能理解上述预处理操作的参考因素仅为举例,其他现有的或今后可能出现的预处理操作的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要算法包括但不限于,以下至少任一项:
1)MD5算法;
2)SHA算法。
具体地,MD5算法的全称是Message-Digest Algorithm 5(信息-摘要算法),其将整个资源文件当作一个大文本信息,通过不可逆的字符串变换算法,产生唯一的MD5值。SHA算法是一种 数据加密算法 ,其思想是接收一段明文,然后以一种不可逆的方式将它转换成一段(通常更小)密文,也可以简单的理解为取一串输入码(称为预映射或信息),并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域技术人员应能理解上述摘要算法仅为举例,其他现有的或今后可能出现的摘要算法如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述资源文件包括但不限于,以下至少任一项:
1)音乐文件;
2)视频文件;
3)图片文件;
4)文本文件。
具体地,每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。在步骤S2中,去重设备1可以根据这些资源文件的部分或者全部数据计算内容特征信息。在步骤S3中,去重设备1可以基于这些资源文件的内容特征信息,并结合这些资源文件的资源相关信息及对应这些资源文件的第一链接所属的站点对与这些资源文件分别对应的第一链接进行分组,得到多个第一链接集。在步骤S4中,去重设备1可以对每个指向相同资源文件的第一链接集去重。本领域技术人员应能理解上述资源文件仅为举例,其他现有的或今后可能出现的资源文件如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法,其中,该方法包括以下步骤:
a获取多个第一链接,其中,所述第一链接指向资源文件;
b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;
c根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;
d对所述第一链接集进行去重处理。
2.根据权利要求1所述的方法,其中,所述步骤d中对所述第一链接集的去重处理基于以下至少任一项:
-所述第一链接集中第一链接的抓取时间;
-所述第一链接集中第一链接的产生时间;
-所述第一链接集中第一链接对应的网页的流量;
-所述第一链接集中第一链接对应的网页的权威度。
3.根据权利要求1或2所述的方法,其中,所述步骤b还包括:
-按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容特征信息。
4.根据权利要求3所述的方法,其中,所述预定数据量基于以下至少任一项:
-所述资源文件的预定大小的头部数据;
-所述资源文件的预定大小的尾部数据;
-所述资源文件的全部数据。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤c还包括:
-根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包括多个内容特征信息相同的第一链接;
-根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所述第一链接集。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c还包括:
-根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。
7.根据权利要求6所述的方法,其中,所述资源相关信息包括以下至少任一项:
-资源文件的格式;
-资源文件的时长;
-资源文件的数据量大小;
-图片类型资源文件的图片尺寸。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括:
-对所述第一链接集进行预处理操作,以获得待去重的第一链接集;
其中,所述预处理操作基于以下至少任一项:
-所述第一链接集中第一链接的数量;
-所述第一链接集中第一链接所指向的资源文件的大小;
其中,所述步骤d还包括:
-对所述待去重的第一链接集进行去重处理。
9.根据权利要求1至8中任一项所述的方法,其中,所述摘要算法包括以下至少任一项:
-MD5算法;
-SHA算法。
10.根据权利要求1至9中任一项所述的方法,其中,所述资源文件包括以下至少任一项:
-音乐文件;
-视频文件;
-图片文件;
-文本文件。
11.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重设备,其中,该设备包括:
获取装置,用于获取多个第一链接,其中,所述第一链接指向资源文件;
处理装置,用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;
分组装置,用于根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;
去重装置,用于对所述第一链接集进行去重处理。
12.根据权利要求11所述的设备,其中,所述去重装置中对所述第一链接集的去重处理基于以下至少任一项:
-所述第一链接集中第一链接的抓取时间;
-所述第一链接集中第一链接的产生时间;
-所述第一链接集中第一链接对应的网页的流量;
-所述第一链接集中第一链接对应的网页的权威度。
13.根据权利要求11或12所述的设备,其中,所述处理装置还用于:
-按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容特征信息。
14.根据权利要求13所述的设备,其中,所述预定数据量基于以下至少任一项:
-所述资源文件的预定大小的头部数据;
-所述资源文件的预定大小的尾部数据;
-所述资源文件的全部数据。
15.根据权利要求11至14中任一项所述的设备,其中,所述分组装置还用于:
-根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包括多个内容特征信息相同的第一链接;
-根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。
16.根据权利要求11至15中任一项所述的设备,其中,所述分组装置还用于:
-根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。
17.根据权利要求16所述的设备,其中,所述资源相关信息包括以下至少任一项:
-资源文件的格式;
-资源文件的时长;
-资源文件的数据量大小;
-图片类型资源文件的图片尺寸。
18.根据权利要求11至17中任一项所述的设备,其中,该设备还包括:
预处理装置,用于对所述第一链接集进行预处理操作,以获得待去重的第一链接集;
其中,所述预处理操作基于以下至少任一项:
-所述第一链接集中第一链接的数量;
-所述第一链接集中第一链接所指向的资源文件的大小;
其中,所述去重装置还用于:
-对所述待去重的第一链接集进行去重处理。
19.根据权利要求11至18中任一项所述的设备,其中,所述摘要算法包括以下至少任一项:
-MD5算法;
-SHA算法。
20.根据权利要求11至19中任一项所述的设备,其中,所述资源文件包括以下至少任一项:
-音乐文件;
-视频文件;
-图片文件;
-文本文件。
CN 201010624368 2010-12-31 2010-12-31 基于内容特征信息对链接进行去重处理的方法与设备 Active CN102063498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010624368 CN102063498B (zh) 2010-12-31 2010-12-31 基于内容特征信息对链接进行去重处理的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010624368 CN102063498B (zh) 2010-12-31 2010-12-31 基于内容特征信息对链接进行去重处理的方法与设备

Publications (2)

Publication Number Publication Date
CN102063498A true CN102063498A (zh) 2011-05-18
CN102063498B CN102063498B (zh) 2013-01-30

Family

ID=43998773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010624368 Active CN102063498B (zh) 2010-12-31 2010-12-31 基于内容特征信息对链接进行去重处理的方法与设备

Country Status (1)

Country Link
CN (1) CN102063498B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法
CN103258005A (zh) * 2013-04-12 2013-08-21 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行处理的方法和装置
CN103365898A (zh) * 2012-03-30 2013-10-23 浙江盘石信息技术有限公司 一种好友信息分享的处理方法和系统
CN103514282A (zh) * 2013-09-29 2014-01-15 北京奇虎科技有限公司 一种视频搜索结果展示方法及装置
CN103678527A (zh) * 2013-12-02 2014-03-26 Tcl集团股份有限公司 一种基于视频标题和内容的视频过滤方法和系统
CN104123337A (zh) * 2014-05-28 2014-10-29 北京百度网讯科技有限公司 一种预测报考信息的方法和装置
CN104978431A (zh) * 2015-07-13 2015-10-14 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN105530372A (zh) * 2015-12-03 2016-04-27 小米科技有限责任公司 消息显示方法、装置及终端设备
CN105991312A (zh) * 2015-01-30 2016-10-05 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN113627132A (zh) * 2021-08-27 2021-11-09 北京智慧星光信息技术有限公司 数据去重标记码生成方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079034A (zh) * 2006-07-10 2007-11-28 腾讯科技(深圳)有限公司 消除文件存储系统中冗余文件的系统及方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079034A (zh) * 2006-07-10 2007-11-28 腾讯科技(深圳)有限公司 消除文件存储系统中冗余文件的系统及方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法
CN103365898B (zh) * 2012-03-30 2016-10-26 浙江盘石信息技术股份有限公司 一种好友信息分享的处理方法和系统
CN103365898A (zh) * 2012-03-30 2013-10-23 浙江盘石信息技术有限公司 一种好友信息分享的处理方法和系统
CN103258005A (zh) * 2013-04-12 2013-08-21 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行处理的方法和装置
CN103258005B (zh) * 2013-04-12 2017-02-08 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行处理的方法和装置
CN103514282A (zh) * 2013-09-29 2014-01-15 北京奇虎科技有限公司 一种视频搜索结果展示方法及装置
CN103678527A (zh) * 2013-12-02 2014-03-26 Tcl集团股份有限公司 一种基于视频标题和内容的视频过滤方法和系统
CN103678527B (zh) * 2013-12-02 2017-10-24 Tcl集团股份有限公司 一种基于视频标题和内容的视频过滤方法和系统
CN104123337B (zh) * 2014-05-28 2018-03-23 北京百度网讯科技有限公司 一种预测报考信息的方法和装置
CN104123337A (zh) * 2014-05-28 2014-10-29 北京百度网讯科技有限公司 一种预测报考信息的方法和装置
CN105991312A (zh) * 2015-01-30 2016-10-05 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN105991312B (zh) * 2015-01-30 2019-06-18 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN104978431A (zh) * 2015-07-13 2015-10-14 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN105530372A (zh) * 2015-12-03 2016-04-27 小米科技有限责任公司 消息显示方法、装置及终端设备
CN113627132A (zh) * 2021-08-27 2021-11-09 北京智慧星光信息技术有限公司 数据去重标记码生成方法、系统、电子设备及存储介质
CN113627132B (zh) * 2021-08-27 2024-04-02 智慧星光(安徽)科技有限公司 数据去重标记码生成方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN102063498B (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN102063498B (zh) 基于内容特征信息对链接进行去重处理的方法与设备
US8849836B2 (en) Method for measuring similarity of diverse binary objects comprising bit patterns
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
US11424760B2 (en) System and method for data compaction and security with extended functionality
CN102833298A (zh) 分布式的重复数据删除系统及其处理方法
KR20120112696A (ko) 평판 시스템을 통한 멀웨어 탐지
CN104933056A (zh) 统一资源定位符去重方法及装置
WO2014067063A1 (zh) 重复数据检索方法及设备
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN101807208A (zh) 视频指纹快速检索方法
CN104965826A (zh) 基于浏览器的检索方法及检索装置
CN105812427A (zh) 文件上传和下载方法、装置、及文件服务器
CN103152430A (zh) 一种缩减数据占用空间的云存储方法
CN106503003A (zh) 一种可扩展标记语言xml文档的压缩、解压方法和装置
CN103369002A (zh) 一种资源下载的方法及系统
CN101354718B (zh) 确定文件包资源标识信息的方法及装置
CN102930004B (zh) 哈希值存储方法、装置及芯片
CN103108033A (zh) 文件上传方法及系统
CN108090186A (zh) 一种大数据平台上的电力数据去重方法
CN112632568A (zh) 温度数据的存储和采集方法、系统、电子设备和存储介质
US20240113728A1 (en) System and method for data compaction and security with extended functionality
CN116894013A (zh) 文件的处理方法、装置、存储介质及电子设备
CN108874941B (zh) 基于卷积特征和多重哈希映射的大数据url去重方法
Yoo et al. A study on a carving method for deleted NTFS compressed files
CN106855930B (zh) 一种安全可靠的大数据存储系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160329

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Patentee after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220421

Address after: 518057 3305, floor 3, building 1, aerospace building, No. 51, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Taile Culture Technology Co.,Ltd.

Address before: 2108, floor 2, building 23, No. 18, anningzhuang East Road, Qinghe, Haidian District, Beijing 100027

Patentee before: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right