CN111368227B - 一种url处理方法以及装置 - Google Patents

一种url处理方法以及装置 Download PDF

Info

Publication number
CN111368227B
CN111368227B CN201811591777.4A CN201811591777A CN111368227B CN 111368227 B CN111368227 B CN 111368227B CN 201811591777 A CN201811591777 A CN 201811591777A CN 111368227 B CN111368227 B CN 111368227B
Authority
CN
China
Prior art keywords
urls
information
path
url
path sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811591777.4A
Other languages
English (en)
Other versions
CN111368227A (zh
Inventor
沈馨悦
刘翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811591777.4A priority Critical patent/CN111368227B/zh
Publication of CN111368227A publication Critical patent/CN111368227A/zh
Application granted granted Critical
Publication of CN111368227B publication Critical patent/CN111368227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种URL处理方法以及装置,该方法包括:获得目标主机域名对应的多个URL;获得在多个URL中位于相同位置、内容不同的路径子信息的数量;根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。通过使用该方法,可实现URL归一化处理的过程与URL所指向的网络资源的业务场景或业务场景下的业务需求相结合,可制定与URL所指向的网络资源的业务场景或业务场景下的业务需求相适应的URL归一化方法,可满足具体业务场景下对URL归一化处理结果的准确性和个性化需求。

Description

一种URL处理方法以及装置
技术领域
本申请涉及网络数据通信技术领域,具体涉及一种URL(统一资源定位符,UniformResource Locator)处理方法。本申请同时涉及一种URL处理装置以及一种电子设备。本申请另外涉及一种URL处理方法、一种URL处理装置以及一种电子设备。本申请另外涉及一种搜索系统以及一种URL归一化搜索引擎装置。
背景技术
搜索引擎(Search Engine)是指根据预定策略、运用特定的计算机程序从互联网上搜集、组织和处理网络资源,并接受用户对上述网络资源的检索服务,以及将相关网络资源展示给用户的系统。通过统一资源定位符URL对网络资源进行定位是获得网络资源的基本途径,在通过搜索引擎对网络资源进行搜索时,可能出现如下情况:大量形式各异但实质等价的URL存在于待搜索URL列表中;并且,具备搜索意义的网络资源可能对应大量冗余的URL,例如在搜索商铺页面时,待搜索URL列表中会存在大量该商铺所包含的商品所对应的URL。因此,会造成具有等价URL指向的网络资源被重复搜索、下载以及建立索引(缺乏内容去重模块时)。
为了减少对同一网络资源进行重复搜索、下载或建立索引所造成的搜索时间、内存消耗、存储空间以及其它计算资源的浪费,提高搜索引擎的工作效率,需要对URL进行归一化处理。现有的URL归一化处理方法主要为简单正则表达式匹配方法和白名单匹配方法。
然而上述方法存在以下不足:
简单正则表达式匹配方法和白名单匹配方法均为基于固定规则的无差别URL归一化方法,其只适用于部分简单场景下的URL集合,无法根据URL中各字段的语义特征和特定网络资源的实质性特征对URL进行归一化处理,无法结合具体业务场景下的业务需求对网络资源所对应的URL进行归一化处理,因此,上述归一化过程缺乏针对性和自适应性,无法满足具体业务场景下对URL归一化处理结果的准确性和个性化需求。
发明内容
本申请提供一种URL处理方法,以解决现有的无法满足具体业务场景下对URL归一化处理结果的准确性和个性化需求的问题。本申请另外提供一种URL处理装置以及一种电子设备。本申请还提供一种搜索系统以及一种URL归一化搜索引擎装置。本申请另外提供一种URL处理方法、一种URL处理装置以及一种电子设备。
本申请提供一种URL处理方法,该方法包括如下步骤:
获得目标主机域名对应的多个URL;
获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
可选的,所述获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量,包括:
分别对所述多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和所述路径子信息在所属URL中的位置;
对在所述多个URL中位于相同位置、内容不同的路径子信息的数量进行统计,获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量。
可选的,所述分别对所述多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和所述路径子信息在所属URL中的位置,包括
针对所述多个URL中的第一URL,以所述第一URL中相邻两个分隔符之间的路径子信息为单位,对所述第一URL的路径信息进行拆分,获得所述第一URL的路径子信息和所述路径子信息在所述第一URL中的位置。
可选的,所述根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,包括:
将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;
如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理。
可选的,所述在所述多个URL中位于相同位置、内容不同的路径子信息中,相同位置为所述多个URL中的第一位置;
所述归一化阈值包括:与所述多个URL中的第一位置对应的归一化阈值;
所述将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在所述多个URL中位于第一位置、内容不同的路径子信息的数量与该第一位置对应的归一化阈值进行比较;
所述如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在所述多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过所述第一位置对应的归一化阈值,则对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,所述对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在所述多个URL中位于区别于所述第一位置的第二位置、内容不同的路径子信息的数量与该第二位置对应的归一化阈值进行比较;
如果在所述多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过所述第二位置对应的归一化阈值,则对在所述多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,所述在所述多个URL中位于相同位置、内容不同的路径子信息中,相同位置为所述多个URL中的第一位置;
所述归一化阈值包括:所述目标主机域名对应的归一化阈值;
所述将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在所述多个URL中位于第一位置、内容不同的路径子信息的数量与所述目标主机域名对应的归一化阈值进行比较;
所述如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在所述多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过所述目标主机域名对应的归一化阈值,则对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,所述对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在所述多个URL中位于区别于所述第一位置的第二位置、内容不同的路径子信息的数量与所述目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过所述目标主机域名对应的归一化阈值,则对在所述多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,所述归一化阈值通过对预定网络内容的出现频率进行熵值计算所获得的结果来确定;所述预定网络内容为所述目标主机域名对应的历史URL所指向的网络内容。
可选的,所述归一化阈值通过对预定网络内容的出现频率进行数据统计所获得的结果来确定;所述预定网络内容为所述目标主机域名对应的历史URL所指向的网络内容。
可选的,所述将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
采用通配符将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
可选的,在所述对所述多个URL中的路径信息进行归一化处理之后,还包括:将所述归一化处理之后获得的相同URL进行合并,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合。
可选的,还包括:将所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合存储至待搜索列表中。
可选的,所述获得目标主机域名所对应的多个URL,包括:
确定需要进行URL归一化处理的目标主机域名;
获取预定时间内所述目标主机域名下所对应的URL。
本申请还提供一种URL处理方法,包括:
获得目标主机域名对应的多个原始URL;
输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理。
可选的,除所述至少两个URL外,至少有一个输出的URL中位于所述相同位置的路径子信息未被归一化处理。
可选的,所述针对所述多个原始URL进行归一化处理后的URL的数量小于所述多个原始URL的数量。
可选的,在所述至少两个URL中的区别于所述相同位置的至少一个未经过归一化处理的路径子信息,为所述至少两个URL所对应的原始URL中位于所述相同位置的被归一化处理之前的路径子信息。
本申请还提供一种搜索系统,包括:搜索引擎调度端、URL归一化搜索引擎装置以及数据存储器;
所述搜索引擎调度端,用于确定当前搜索任务所对应的目标主机域名,并且获取所述目标主机域对应的多个URL,以及将所述多个URL提供给所述URL归一化搜索引擎装置;
所述URL归一化搜索引擎装置,用于获得所述搜索引擎调度端提供的所述多个URL;获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得归一化处理之后的URL待搜索列表;获得所述URL待搜索列表中的URL对应的网页内容,并将所述网页内容进行解析,获得所述网页内容中的目标数据,将所述目标数据提供给所述数据存储器;
所述数据存储器,用于存储所述目标数据。
本申请还提供一种URL归一化搜索引擎装置,包括:URL归一化组件、URL列表管理器、网页下载器以及网页解析器;
所述URL归一化组件用于获得目标主机域名所对应的多个URL;获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得经归一化处理后的URL;将所述经归一化处理后的URL提供给所述URL列表管理器;
所述URL列表管理器用于对经归一化处理后的URL和已爬取URL进行管理,并将所述经归一化处理后的URL提供给所述网页下载器;
所述网页下载器用于获得所述归一化处理后的URL对应的网页内容,并将所述网页内容提供给所述网页解析器;
所述网页解析器用于将所述网页下载器提供的网页内容进行解析,获得所述网页内容中的目标数据,以及提取出所述网页内容对应的已爬取URL;将所述目标数据进行输出;将所述已爬取URL返回至所述URL列表管理器。
本申请还提供一种URL处理装置,包括:
多个URL获得单元,用于获得目标主机域名所对应的多个URL;
路径子信息的数量获得单元,用于获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
归一化处理单元,用于根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
本申请还提供一种电子设备,包括:
处理器;存储器,用于存储URL处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个URL;
获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
本申请还提供一种URL处理装置,包括:
原始URL获得单元,用于获得目标主机域名对应的多个原始URL;
归一化处理后的URL输出单元,用于输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理。
本申请还提供一种电子设备,包括:
处理器;存储器,用于存储URL处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个原始URL;
输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理。
与现有技术相比,本申请具有以下优点:
本申请提供的URL处理方法,根据目标主机域名对应的多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。该方法的归一化处理对象为目标主机域名下的多个URL,处理方式为基于目标主机域名对应的多个URL中位于相同位置、内容不同的路径子信息的数量。因此,归一化处理的过程可与URL所指向的网络资源的具体业务场景或业务场景下的业务需求相结合,可针对URL所指向的网络资源的业务场景或业务场景下的业务需求制定与之相适应的URL归一化方法,可满足具体业务场景下对URL归一化处理结果的准确性和个性化需求。
附图说明
图1是本申请第一实施例提供的方法流程图;
图2是本申请第二实施例提供的方法流程图;
图3是本申请第三实施例提供的系统示意图;
图4是本申请第四实施例提供的URL归一化搜索引擎装置示意图;
图5是本申请第五实施例提供的装置单元框图;
图6是本申请第六实施例提供的电子设备示意图;
图7是本申请第七实施例提供的装置单元框图;
图8是本申请第八实施例提供的电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
为了减少对同一网络资源进行重复搜索、下载或建立索引所造成的搜索时间、内存消耗、存储空间以及其它计算资源的浪费,提高搜索引擎的工作效率,需要对URL进行归一化处理。现有的URL归一化处理方法主要为简单正则表达式匹配方法和白名单匹配方法。
简单正则表达式匹配方法通过固定规则对URL的路径和请求字段进行遍历匹配,以此实现将不同URL的相同字段进行归一化处理的目的。例如,采用该方法对不同主机域名下的“主机域名1/products/chatRoom”和“主机域名2/chatRoom/00001”两条URL进行归一化处理时,预定的归一化规则可以为:将字段“chatRoom”归一化为“*”,获得的归一化处理结果为“主机域名1/products/*”和“主机域名2/*/00001”。
白名单匹配方法通过对URL中的自定义元素设置固定的白名单,以此确保该自定义元素不会被归一化。如针对上述“主机域名1/products/chatRoom”和“主机域名2/chatRoom/00001”两条URL中的“chatRoom”字段,如果将该字段存入白名单,则对于“主机域名1/products/chatRoom”和“主机域名2/chatRoom/00001”两个URL而言,“chatRoom”字段均不会被归一化处理。
然而,在实际应用场景下,“chatRoom”在上述两个URL中具有不同的语义特征,例如在“主机域名1/products/chatRoom”中,“chatRoom”字段可作为不具有重要语义信息的弱业务字段,在进行网络资源搜索时,该类型业务字段所对应的网络资源不具有搜索意义,因此可将其进行归一化处理,但在“主机域名2/chatRoom/00001”中,“chatRoom”字段被作为具有重要语义信息的强业务字段,在进行网络资源搜索时,该类型业务字段所对应的网络资源具有搜索意义,因此其不应被归一化处理。在该种情况下采用上述两种URL归一化处理方法均缺乏针对性和自适应性,无法满足具体业务场景下对URL归一化处理结果的准确性和个性化需求。
针对上述场景,为了提高URL归一化处理过程的针对性和自适应性,满足具体业务场景下对URL归一化处理结果的准确性和个性化需求,本申请提供了一种URL处理方法、与该方法相对应的URL处理装置以及电子设备。本申请还另外提供一种URL处理方法、与该方法相对应的URL处理装置以及电子设备。本申请还提供一种搜索系统以及一种URL归一化搜索引擎装置。以下提供实施例对所述方法、装置、电子设备、搜索系统以及URL归一化搜索引擎装置进行详细说明。
本申请第一实施例提供一种URL处理方法,该方法的应用主体可以为搜索引擎装置中的URL归一化组件,图1为本申请第一实施例提供的方法流程图,以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图1所示,本实施例提供的URL处理方法包括如下步骤:
S101,获得目标主机域名对应的多个URL。
URL又叫做网页地址,是互联网上的标准资源的地址,用于表示互联网上的资源位置和访问这些资源的方法,其是与互联网相连的机器上的任何可访问对象的一个指针,互联网上的所有文件目录、文件、文档、图像、声音以及与互联网相连的任何形式的数据等网络资源都对应有唯一确定的URL。
URL的一般形式为<协议>://<主机域名>:<端口>/<路径信息>,其中,主机域名指的是用于存储URL所指向的网络资源的主机在互联网上的域名,也称网站名,路径信息用于确定指向网络资源的具体路径,例如,“主机域名1/products/chatRoom”中,超文本传送协议HTTP的协议名称及其默认端口号均省略,主机域名为“主机域名1”,路径信息为“products/chatRoom”。同一主机域名可对应多个网络资源,例如电子商务领域的平台服务器聚合了品类繁多的商品、店铺等海量网络资源,每个网络资源所对应的URL均以该平台服务器的域名作为主机域名,即该主机域名可对应多个统一资源定位符URL。
目标主机域名指的是预先确定的需要将其对应的URL进行归一化处理的主机域名,本步骤用于获得目标主机域名所对应的多个统一资源定位符URL,该过程具体包括:
首先,确定需要对其名下的URL进行归一化处理的目标主机域名,该过程可基于预先制定的规则进行确定,例如基于网站的业务场景进行确定,不同网站对应不同的网络应用场景,任一网站所对应的网络应用场景即为该网站的业务场景,例如可将产生流量较多的重要业务场景对应的网站作为目标网站,将该目标网站所对应的主机域名作为目标主机域名。或者基于网站所对应的URL数量进行确定,当网站所对应的URL的数量达到预定值时,将该网站所对应的主机域名作为目标主机域名。
其次,获取预定时间内该目标主机域名下的多个URL,例如,通过与目标主机建立连接的方式获取预定时间间隔内、目标主机域名下的全部或部分URL。
S102,获得在上述多个URL中位于相同位置、内容不同的路径子信息的数量。
在上述步骤获得目标主机域名对应的多个统一资源定位符URL之后,本步骤用于获得在上述多个URL中位于相同位置、内容不同的路径子信息的数量。
路径子信息指的是在层级结构的网络资源中、每一层级的从属网络页面所对应的URL中路径信息的组成单元。包含路径信息的URL均指向层级结构网络资源的网络页面,URL的每一个路径子信息均对应一个从属网络页面,针对目标主机域名下的网络资源的搜索请求,需通过对多个层级的从属网络页面进行定位和查找,对任一层级的从属网络页面进行查找的过程均需相应的路径子信息。例如,在URL“主机域名1/products/chatRoom”中,路径信息中的“products”和“chatRoom”均为路径子信息。
在本实施例中,所述获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量的方式为:
首先,分别对上述多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和该路径子信息在其所属的URL中的位置。拆分的过程具体为:针对上述多个URL中的第一URL,以该第一URL中相邻两个分隔符之间的路径子信息为单位,对该第一URL的路径信息进行拆分,获得第一URL的路径子信息以及该路径子信息在第一URL中的位置。第一URL可以为上述多个URL中的任意一个URL,并且,任意一个URL中的最后一个分隔符之后的信息也为该URL的路径子信息。
路径子信息在其所属的URL中的位置可按照预定规则进行定义,在本实施例中,路径子信息在其所属的URL中的位置,可以是指该路径子信息在其所属的URL包含的所有路径子信息中的位置排序信息,例如,对于上述“主机域名1/products/chatRoom”,将其路径信息按上述方法进行拆分后所获得的路径子信息“products”和“chatRoom”,其在URL中的位置分别为“路径1”和“路径2”;对于“主机域名1/products/clothes”,其路径子信息“products”和“clothes”在该URL中的位置分别为“路径1”和“路径2”;对于“主机域名1/chatRoom/0001”,其路径子信息“chatRoom”和“0001”在该URL中的位置分别对应“路径1”和“路径2”。
其次,对在上述多个URL中位于相同位置、内容不同的路径子信息的数量进行统计,获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量。例如,在上述三个URL的相同位置“路径1”处的路径子信息分别为“products”、“products”、“chatRoom”,则该三个URL中位于相同位置“路径1”、内容不同的路径子信息的数量为2个;在上述三个URL的相同位置“路径2”处的路径子信息分别为“chatRoom”“clothes”“0001”,该三个URL中位于相同位置“路径2”、内容不同的路径子信息的数量为3个。
S103,根据在上述多个URL中位于相同位置、内容不同的路径子信息的数量,对上述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
在上述步骤获得在多个URL中位于相同位置、内容不同的路径子信息的数量之后,本步骤用于根据该数量对上述多个URL中的路径信息进行归一化处理,获得目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
对上述多个URL中的路径信息进行归一化处理的过程可以为:将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,如果在上述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过该归一化阈值,则对在上述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理。
采用上述方式对URL进行归一化处理的原因在于:同一主机域名下的多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过预设的归一化阈值,则表明上述多个URL中的相同位置处的路径子信息为该目标主机域名下不具有重要语义信息的弱业务字段,在进行网络搜索时,该弱业务字段所对应的网络资源不具有搜索意义,例如,对于小说网站而言,网络爬虫根据URL爬取该网站上的资源时,无需对网络小说第1页至第100页的内容分别爬取,即,网络小说第1页至第100页的内容不具有搜索意义,网络小说第1页至第100页的内容所对应的URL路径子信息为该小说网站下不具有重要语义信息的弱业务字段。对应的,上述小说网站上某本网络小说的网页所对应的URL路径子信息可认为是该小说网站下具有重要语义信息的强业务字段。
在本实施例中,路径子信息为强业务字段或者弱业务字段的判断标准需基于上述预设的归一化阈值,不同的业务场景以及业务需求可对应不同的归一化阈值,即,针对不同的主机域名或者同一主机域名下的URL中不同路径子信息的位置,均可有特定的归一化阈值与之相对应。
本实施例中,归一化阈值可通过对预定网络内容的出现频率进行熵值计算所获得的结果来确定,预定网络内容为目标主机域名对应的历史URL所指向的网络内容,网络内容的出现频率指的是网络内容被搜索的频率,网络内容所对应的熵值越大,则表明该网络内容对网站的影响程度越大,其为重要网络内容的概率则越大;归一化阈值也可通过对上述预定网络内容的出现频率进行数据统计所获得的结果来确定,重要网络内容的出现频率与需进行归一化处理的URL所指向的网络内容的出现频率具有较大差异,同一网络内容的出现频率越高,则表明该网络内容为重要网络内容的概率越大。在本实施例中,可结合目标主机域名所对应网站的业务场景和业务需求,根据不同业务场景和业务需求下对重要网络内容的划分标准不同,确定出目标主机域名所对应的归一化阈值,或者确定出目标主机域名下的URL中不同路径子信息的位置所对应的归一化阈值。
在本实施例中,上述在多个URL中位于相同位置、内容不同的路径子信息中,相同位置可以为URL中的第一位置,该第一位置可以为URL的路径信息中预先被指定的路径自信息的位置,也可以为URL的路径信息中的任意一个路径子信息所处的位置。例如上述步骤S102中的三个URL中的相同位置“路径1”或者“路径2”均可作为第一位置,上述归一化阈值为与URL的第一位置对应的归一化阈值,即,URL的每一个路径子信息所处的位置均有归一化阈值与之相对应,每个位置所对应的归一化阈值可以不同;例如,“路径1”对应的归一化阈值为15,“路径2”对应的归一化阈值为50。上述在多个URL中位于相同位置、内容不同的路径子信息的数量可以是指在多个URL中位于第一位置、内容不同的路径子信息的数量;对上述多个URL中的路径信息进行归一化处理的过程为:将在多个URL中位于第一位置、内容不同的路径子信息的数量与该第一位置对应的归一化阈值进行比较;如果在上述多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过该第一位置对应的归一化阈值,则对在上述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
在另一实施方式中,除了为上述与第一位置对应的归一化阈值,归一化阈值还可以为上述目标主机域名对应的归一化阈值,即,目标主机域名下的多个URL中处于不同位置的路径子信息对应同一个归一化阈值,该种情况下,对上述多个URL中的路径信息进行归一化处理的过程为:将在多个URL中位于第一位置、内容不同的路径子信息的数量与上述目标主机域名对应的归一化阈值进行比较;如果在多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过该目标主机域名对应的归一化阈值,则对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
上述对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还可将在多个URL中位于区别于上述第一位置的第二位置、内容不同的路径子信息的数量与上述目标主机域名对应的归一化阈值或者该第二位置对应的归一化阈值进行比较,并且根据比较结果确定是否对在多个URL中位于第二位置、内容不同的路径子信息进行归一化处理,如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过上述目标主机域名对应的归一化阈值或者第二位置对应的归一化阈值,则对在上述多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
在本实施例中,上述将在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理的方式为:采用通配符将在上述多个URL中位于相同路径位置、内容不同的路径子信息进行替换,例如,将上述三个URL中的“路径2”所对应的路径子信息进行归一化处理的结果分别为:“主机域名1/products/*”、“主机域名1/products/*”、“主机域名1/chatRoom/*”。
在上述对所述多个URL中的路径信息进行归一化处理之后,还需将所述归一化处理之后获得的相同URL进行合并,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合,并且将该URL集合存储至待搜索列表中。
需要说明的是,如果上述在多个URL中位于第一位置、内容不同的路径子信息的数量小于该目标主机域名对应的归一化阈值,或者在上述多个URL中位于第一位置、内容不同的路径子信息的数量小于该第一位置对应的归一化阈值,则不对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
本实施例提供的URL处理方法,根据目标主机域名对应的多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,具体为将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,如果在上述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过该归一化阈值,则对在上述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。该方法的归一化处理对象为目标主机域名下的多个URL,处理方式为基于目标主机域名对应的多个URL中位于相同位置、内容不同的路径子信息的数量与预设的归一化阈值的比较结果,归一化阈值的设定需结合URL所指向的网络资源的业务场景或业务场景下的业务需求,以此实现归一化处理的过程与URL所指向的网络资源的具体业务场景或业务场景下的业务需求相结合,可针对URL所指向的网络资源的业务场景或业务场景下的业务需求制定与之相适应的URL归一化方法,因此可满足具体业务场景下对URL归一化处理结果的准确性和个性化需求。
本申请第二实施例提供一种URL处理方法,如图2所示,该方法包括如下步骤:
S201,获得目标主机域名对应的多个原始URL。
多个原始URL指的是目标主机域名下的多个需要进行归一化处理的URL,本步骤可参照本申请第一实施例中的步骤S101的内容,在此不再赘述。
S202,输出针对上述多个原始URL进行归一化处理后的URL。
本步骤用于输出针对上述多个原始URL进行归一化处理后的URL,并且,输出的经归一化处理后的URL的数量至少为两个,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理,并且针对多个原始URL进行归一化处理后的URL的数量明显小于上述多个原始URL的数量。
在本实施例中,除上述至少两个URL中位于至少一个相同位置的路径子信息都已被归一化处理之外,输出的URL中还可包含至少一个URL的位于上述相同位置的路径子信息未被归一化处理,即,并非所有的原始URL的相同位置的路径子信息都需进行归一化处理,对于某些特定的路径子信息可予以保留,例如,位于原始URL的相同位置的相同路径子信息的数量达到或超过一定阈值时,该部分路径子信息可予以保留。
在本实施例中,在所述至少两个URL中的区别于所述相同位置的至少一个未经过归一化处理的路径子信息,为所述至少两个URL所对应的原始URL中位于所述相同位置的被归一化处理之前的路径子信息。具体可将上述归一化处理后的URL与原始URL进行比对,确定出在上述相同位置处所对应的被归一化处理之前的路径子信息A,并将该路径子信息A在上述输出的经归一化处理的至少两个URL中进行遍历,在输出的至少两个URL中,至少有一个URL的区别于上述相同位置处存在上述路径子信息A,例如,原始URL分别为“主机域名1/products/chatRoom”、“主机域名1/products/clothes”、“主机域名1/chatRoom/0001”,输出的经归一化处理后的URL为“主机域名1/products/*”和“主机域名1/chatRoom/*”,对于路径子信息“chatRoom”,其在“主机域名1/products/chatRoom”中被归一化为“*”,而在“主机域名1/chatRoom/*”中没有被归一化。
本申请第三实施例提供一种搜索系统,如图3所示,该搜索系统300包括:搜索引擎调度端301、URL归一化搜索引擎装置302以及数据存储器303;
搜索引擎调度端301,用于确定当前搜索任务所对应的目标主机域名,并且获取目标主机域对应的多个URL,以及将多个URL提供给URL归一化搜索引擎装置;
URL归一化搜索引擎装置302,用于获得搜索引擎调度端提供的多个URL;获得在多个URL中位于相同位置、内容不同的路径子信息的数量;根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得归一化处理之后的URL待搜索列表;获得URL待搜索列表中的URL对应的网页内容,并将网页内容进行解析,获得网页内容中的目标数据,将该目标数据提供给数据存储器;
数据存储器303,用于存储URL归一化搜索引擎装置302提供的目标数据。
本申请第四实施例提供一种URL归一化搜索引擎装置,该装置包括:URL归一化组件401、URL列表管理器402、网页下载器403以及网页解析器404;
URL归一化组件401,用于获得目标主机域名所对应的多个URL;获得在多个URL中位于相同位置、内容不同的路径子信息的数量;根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得经归一化处理后的URL;将经归一化处理后的URL提供给URL列表管理器;
URL列表管理器402,用于对经归一化处理后的URL和已爬取URL进行管理,并将经归一化处理后的URL提供给网页下载器;
网页下载器403,用于获得归一化处理后的URL对应的网页内容,并将网页内容提供给网页解析器;
网页解析器404,用于将网页下载器提供的网页内容进行解析,获得网页内容中的目标数据,以及提取出网页内容对应的已爬取URL;将目标数据进行输出;将已爬取URL返回至URL列表管理器。
上述第一实施例提供了一种URL处理方法,与之相对应的,本申请第五实施例还提供了一种URL处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图5理解该实施例,图5为本实施例提供的装置的单元框图,如图5所示,本实施例提供的装置包括:
多个URL获得单元501,用于获得目标主机域名所对应的多个URL;
路径子信息的数量获得单元502,用于获得在多个URL中位于相同位置、内容不同的路径子信息的数量;
归一化处理单元503,用于根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
可选的,获得在多个URL中位于相同位置、内容不同的路径子信息的数量,包括:
分别对多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和路径子信息在期所属的URL中的位置;
对在多个URL中位于相同位置、内容不同的路径子信息的数量进行统计,获得在多个URL中位于相同位置、内容不同的路径子信息的数量。
可选的,分别对多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和路径子信息在其所属的URL中的位置,包括:针对多个URL中的第一URL,以第一URL中相邻两个分隔符之间的路径子信息为单位,对第一URL的路径信息进行拆分,获得第一URL的路径子信息和路径子信息在第一URL中的位置。
可选的,根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,包括:
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理。
可选的,在多个URL中位于相同位置、内容不同的路径子信息中,相同位置为多个URL中的第一位置;
归一化阈值包括:与多个URL中的第一位置对应的归一化阈值;
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在多个URL中位于第一位置、内容不同的路径子信息的数量与该第一位置对应的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过第一位置对应的归一化阈值,则对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在多个URL中位于区别于第一位置的第二位置、内容不同的路径子信息的数量与该第二位置对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过第二位置对应的归一化阈值,则对在多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,在多个URL中位于相同位置、内容不同的路径子信息中,相同位置为多个URL中的第一位置;
归一化阈值包括:目标主机域名对应的归一化阈值;
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在多个URL中位于第一位置、内容不同的路径子信息的数量与目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过目标主机域名对应的归一化阈值,则对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在多个URL中位于区别于第一位置的第二位置、内容不同的路径子信息的数量与目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过目标主机域名对应的归一化阈值,则对在多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,归一化阈值通过对预定网络内容的出现频率进行熵值计算所获得的结果来确定;预定网络内容为目标主机域名对应的历史URL所指向的网络内容。
可选的,归一化阈值通过对预定网络内容的出现频率进行数据统计所获得的结果来确定;预定网络内容为目标主机域名对应的历史URL所指向的网络内容。
可选的,将在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
采用通配符将在多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
可选的,在对多个URL中的路径信息进行归一化处理之后,还包括:将归一化处理之后获得的相同URL进行合并,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合。
可选的,还包括:将所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合存储至待搜索列表中。
可选的,获得目标主机域名所对应的多个URL,包括:
确定需要进行URL归一化处理的目标主机域名;
获取预定时间内目标主机域名下所对应的URL。
在上述的实施例中,提供了一种URL处理方法以及一种URL处理装置,此外,本申请第六实施例还提供一种电子设备,该电子设备实施例如下:
请参考图6理解本实施例,图6为本实施例提供的电子设备的示意图。
如图6所示,电子设备包括:处理器601;存储器602;
存储器602,用于存储URL处理程序,程序在被处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个URL;
获得在多个URL中位于相同位置、内容不同的路径子信息的数量;
根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL。
可选的,获得在多个URL中位于相同位置、内容不同的路径子信息的数量,包括:
分别对多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和路径子信息在其所属的URL中的位置;
对在多个URL中位于相同位置、内容不同的路径子信息的数量进行统计,获得在多个URL中位于相同位置、内容不同的路径子信息的数量。
可选的,分别对多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和路径子信息在其所属的URL中的位置,包括:针对多个URL中的第一URL,以第一URL中相邻两个分隔符之间的路径子信息为单位,对第一URL的路径信息进行拆分,获得第一URL的路径子信息和路径子信息在第一URL中的位置。
可选的,根据在多个URL中位于相同位置、内容不同的路径子信息的数量,对多个URL中的路径信息进行归一化处理,包括:
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理。
可选的,在多个URL中位于相同位置、内容不同的路径子信息中,相同位置为多个URL中的第一位置;
归一化阈值包括:与多个URL中的第一位置对应的归一化阈值;
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在多个URL中位于第一位置、内容不同的路径子信息的数量与该第一位置对应的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过第一位置对应的归一化阈值,则对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在多个URL中位于区别于第一位置的第二位置、内容不同的路径子信息的数量与该第二位置对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过第二位置对应的归一化阈值,则对在多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,在多个URL中位于相同位置、内容不同的路径子信息中,相同位置为多个URL中的第一位置;
归一化阈值包括:目标主机域名对应的归一化阈值;
将在多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在多个URL中位于第一位置、内容不同的路径子信息的数量与目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过归一化阈值,则对在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过目标主机域名对应的归一化阈值,则对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
可选的,对在多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在多个URL中位于区别于第一位置的第二位置、内容不同的路径子信息的数量与目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过目标主机域名对应的归一化阈值,则对在多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
可选的,归一化阈值通过对预定网络内容的出现频率进行熵值计算所获得的结果来确定;预定网络内容为目标主机域名对应的历史URL所指向的网络内容。
可选的,归一化阈值通过对预定网络内容的出现频率进行数据统计所获得的结果来确定;预定网络内容为目标主机域名对应的历史URL所指向的网络内容。
可选的,将在多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
采用通配符将在多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
可选的,在对多个URL中的路径信息进行归一化处理之后,还包括:将归一化处理之后获得的相同URL进行合并,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合。
可选的,还包括:将所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合存储至待搜索列表中。
可选的,获得目标主机域名所对应的多个URL,包括:
确定需要进行URL归一化处理的目标主机域名;
获取预定时间内目标主机域名下所对应的URL。
上述第二实施例提供了一种URL处理方法,与之相对应的,本申请第七实施例还提供了一种URL处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图7理解该实施例,图7为本实施例提供的装置的单元框图,如图7所示,本实施例提供的装置包括:
原始URL获得单元701,用于获得目标主机域名对应的多个原始URL;
归一化处理后的URL输出单元702,用于输出针对多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理。
可选的,除至少两个URL外,至少有一个输出的URL中位于相同位置的路径子信息未被归一化处理。
可选的,针对多个原始URL进行归一化处理后的URL的数量小于多个原始URL的数量。
可选的,在至少两个URL中的区别于相同位置的至少一个未经过归一化处理的路径子信息,为至少两个URL所对应的原始URL中位于相同位置的被归一化处理之前的路径子信息。
在上述的实施例中,提供了一种URL处理方法以及一种URL处理装置,此外,本申请第八实施例还提供一种电子设备,该电子设备实施例如下:
请参考图8理解本实施例,图8为本实施例提供的电子设备的示意图。
如图8所示,电子设备包括:处理器801;存储器802;
存储器802,用于存储URL处理程序,程序在被处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个原始URL;
输出针对多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理。
可选的,除至少两个URL外,至少有一个输出的URL中位于相同位置的路径子信息未被归一化处理。
可选的,针对多个原始URL进行归一化处理后的URL的数量小于多个原始URL的数量。
可选的,在至少两个URL中的区别于相同位置的至少一个未经过归一化处理的路径子信息,为至少两个URL所对应的原始URL中位于相同位置的被归一化处理之前的路径子信息。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (22)

1.一种URL处理方法,其特征在于,包括:
获得目标主机域名对应的多个URL;
获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL,所述对所述多个URL中的路径信息进行归一化处理,包括:将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
2.根据权利要求1所述的方法,其特征在于,所述获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量,包括:
分别对所述多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和所述路径子信息在所属URL中的位置;
对在所述多个URL中位于相同位置、内容不同的路径子信息的数量进行统计,获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述多个URL中的每个URL的路径信息进行拆分,获得每个URL的路径子信息和所述路径子信息在所属URL中的位置,包括:
针对所述多个URL中的第一URL,以所述第一URL中相邻两个分隔符之间的路径子信息为单位,对所述第一URL的路径信息进行拆分,获得所述第一URL的路径子信息和所述路径子信息在所述第一URL中的位置。
4.根据权利要求1所述的方法,其特征在于,所述在所述多个URL中位于相同位置、内容不同的路径子信息中,所述相同位置为所述多个URL中的第一位置;
所述归一化阈值包括:与所述多个URL中的第一位置对应的归一化阈值;
所述将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在所述多个URL中位于第一位置、内容不同的路径子信息的数量与该第一位置对应的归一化阈值进行比较;
所述如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在所述多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过所述第一位置对应的归一化阈值,则对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
5.根据权利要求4所述的方法,其特征在于,所述对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在所述多个URL中位于区别于所述第一位置的第二位置、内容不同的路径子信息的数量与该第二位置对应的归一化阈值进行比较;
如果在所述多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过所述第二位置对应的归一化阈值,则对在所述多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
6.根据权利要求1所述的方法,其特征在于,所述在所述多个URL中位于相同位置、内容不同的路径子信息中,所述相同位置为所述多个URL中的第一位置;
所述归一化阈值包括:所述目标主机域名对应的归一化阈值;
所述将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较,包括:将在所述多个URL中位于第一位置、内容不同的路径子信息的数量与所述目标主机域名对应的归一化阈值进行比较;
所述如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:
如果在所述多个URL中位于第一位置、内容不同的路径子信息的数量达到或超过所述目标主机域名对应的归一化阈值,则对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理。
7.根据权利要求6所述的方法,其特征在于,所述对在所述多个URL中位于第一位置、内容不同的路径子信息进行归一化处理之后,还包括:
将在所述多个URL中位于区别于所述第一位置的第二位置、内容不同的路径子信息的数量与所述目标主机域名对应的归一化阈值进行比较;
如果在多个URL中位于第二位置、内容不同的路径子信息的数量达到或超过所述目标主机域名对应的归一化阈值,则对在所述多个URL中位于第二位置、内容不同的路径子信息进行归一化处理。
8.根据权利要求1、4-7中任一项所述的方法,其特征在于,所述归一化阈值通过对预定网络内容的出现频率进行熵值计算所获得的结果来确定;所述预定网络内容为所述目标主机域名对应的历史URL所指向的网络内容。
9.根据权利要求1、4-7中任一项所述的方法,其特征在于,所述归一化阈值通过对预定网络内容的出现频率进行数据统计所获得的结果来确定;所述预定网络内容为所述目标主机域名对应的历史URL所指向的网络内容。
10.根据权利要求1所述的方法,其特征在于,在所述对所述多个URL中的路径信息进行归一化处理之后,还包括:
将所述归一化处理之后获得的相同URL进行合并,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合。
11.根据权利要求10所述的方法,其特征在于,还包括:
将所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL集合存储至待搜索列表中。
12.根据权利要求1所述的方法,其特征在于,所述获得目标主机域名所对应的多个URL,包括:
确定需要进行URL归一化处理的目标主机域名;
获取预定时间内所述目标主机域名下所对应的URL。
13.一种URL处理方法,其特征在于,包括:
获得目标主机域名对应的多个原始URL;
输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理,所述对所述多个原始URL进行归一化处理,包括:将在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行替换。
14.根据权利要求13所述的方法,其特征在于,除所述至少两个URL外,至少有一个输出的URL中位于所述相同位置的路径子信息未被归一化处理。
15.根据权利要求13所述的方法,其特征在于,所述针对所述多个原始URL进行归一化处理后的URL的数量小于所述多个原始URL的数量。
16.根据权利要求13所述的方法,其特征在于,在所述至少两个URL中的区别于所述相同位置的至少一个未经过归一化处理的路径子信息,为所述至少两个URL所对应的原始URL中位于所述相同位置的被归一化处理之前的路径子信息。
17.一种搜索系统,其特征在于,包括:搜索引擎调度端、URL归一化搜索引擎装置以及数据存储器;
所述搜索引擎调度端,用于确定当前搜索任务所对应的目标主机域名,并且获取所述目标主机域对应的多个URL,以及将所述多个URL提供给所述URL归一化搜索引擎装置;
所述URL归一化搜索引擎装置,用于获得所述搜索引擎调度端提供的所述多个URL;获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得归一化处理之后的URL待搜索列表;获得所述URL待搜索列表中的URL对应的网页内容,并将所述网页内容进行解析,获得所述网页内容中的目标数据,将所述目标数据提供给所述数据存储器;
所述数据存储器,用于存储所述目标数据;
其中,所述对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
18.一种URL归一化搜索引擎装置,其特征在于,包括:URL归一化组件、URL列表管理器、网页下载器以及网页解析器;
所述URL归一化组件,用于获得目标主机域名所对应的多个URL;获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得经归一化处理后的URL;将所述经归一化处理后的URL提供给所述URL列表管理器;
所述URL列表管理器,用于对经归一化处理后的URL和已爬取URL进行管理,并将所述经归一化处理后的URL提供给所述网页下载器;
所述网页下载器,用于获得所述归一化处理后的URL对应的网页内容,并将所述网页内容提供给所述网页解析器;
所述网页解析器,用于将所述网页下载器提供的网页内容进行解析,获得所述网页内容中的目标数据,以及提取出所述网页内容对应的已爬取URL;将所述目标数据进行输出;将所述已爬取URL返回至所述URL列表管理器。
19.一种URL处理装置,其特征在于,包括:
多个URL获得单元,用于获得目标主机域名所对应的多个URL;
路径子信息的数量获得单元,用于获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
归一化处理单元,用于根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL,所述对所述多个URL中的路径信息进行归一化处理,包括:将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
20.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储URL处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个URL;
获得在所述多个URL中位于相同位置、内容不同的路径子信息的数量;
根据在所述多个URL中位于相同位置、内容不同的路径子信息的数量,对所述多个URL中的路径信息进行归一化处理,获得所述目标主机域名对应的、经归一化处理后的用于爬取网络内容的URL,所述对所述多个URL中的路径信息进行归一化处理,包括:将在所述多个URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个URL中位于相同路径位置、内容不同的路径子信息进行替换。
21.一种URL处理装置,其特征在于,包括:
原始URL获得单元,用于获得目标主机域名对应的多个原始URL;
归一化处理后的URL输出单元,用于输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理,所述对所述多个原始URL中的路径信息进行归一化处理,包括:将在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行替换。
22.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储URL处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标主机域名对应的多个原始URL;
输出针对所述多个原始URL进行归一化处理后的URL,其中,在输出的至少两个URL中,位于至少一个相同位置的路径子信息都已被归一化处理,所述对所述多个原始URL中的路径信息进行归一化处理,包括:将在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量与预定的归一化阈值进行比较;如果在所述多个原始URL中位于相同位置、内容不同的路径子信息的数量达到或超过所述归一化阈值,则对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理;
其中,所述对在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行归一化处理,包括:采用通配符将在所述多个原始URL中位于相同路径位置、内容不同的路径子信息进行替换。
CN201811591777.4A 2018-12-25 2018-12-25 一种url处理方法以及装置 Active CN111368227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811591777.4A CN111368227B (zh) 2018-12-25 2018-12-25 一种url处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811591777.4A CN111368227B (zh) 2018-12-25 2018-12-25 一种url处理方法以及装置

Publications (2)

Publication Number Publication Date
CN111368227A CN111368227A (zh) 2020-07-03
CN111368227B true CN111368227B (zh) 2023-06-27

Family

ID=71208084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811591777.4A Active CN111368227B (zh) 2018-12-25 2018-12-25 一种url处理方法以及装置

Country Status (1)

Country Link
CN (1) CN111368227B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291089A (zh) * 2020-10-23 2021-01-29 全知科技(杭州)有限责任公司 一种基于流量的应用系统识别和定义方法
CN112804373B (zh) * 2020-12-30 2022-10-14 微医云(杭州)控股有限公司 接口域名确定方法、装置、电子设备及存储介质
CN112783837B (zh) * 2021-01-12 2024-01-30 北京首汽智行科技有限公司 一种api文档查找方法
CN114301874B (zh) * 2021-11-10 2022-11-18 北京邮电大学 基于IPv4地址地理位置信息的IPv6地址定位方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
CN104573033A (zh) * 2015-01-15 2015-04-29 国家计算机网络与信息安全管理中心 一种动态url过滤方法及装置
CN105005600A (zh) * 2015-07-02 2015-10-28 焦点科技股份有限公司 一种访问日志中url的预处理方法
CN106095979A (zh) * 2016-06-20 2016-11-09 百度在线网络技术(北京)有限公司 Url合并处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063406A1 (en) * 2007-08-27 2009-03-05 Amit Golander Method, Service and Search System for Network Resource Address Repair
US10073918B2 (en) * 2014-08-12 2018-09-11 Entit Software Llc Classifying URLs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
CN104573033A (zh) * 2015-01-15 2015-04-29 国家计算机网络与信息安全管理中心 一种动态url过滤方法及装置
CN105005600A (zh) * 2015-07-02 2015-10-28 焦点科技股份有限公司 一种访问日志中url的预处理方法
CN106095979A (zh) * 2016-06-20 2016-11-09 百度在线网络技术(北京)有限公司 Url合并处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许杰.云安全模式下恶意URL实时检测系统的设计与测试 .中国优秀硕士学位论文全文数据库.2015,全文. *

Also Published As

Publication number Publication date
CN111368227A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368227B (zh) 一种url处理方法以及装置
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US20150199433A1 (en) Method and system for search engine indexing and searching using the index
US20070005652A1 (en) Apparatus and method for gathering of objectional web sites
US9331957B2 (en) Cache control for web application resources
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
WO2013106595A2 (en) Processing store visiting data
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
US20110093533A1 (en) Generating site maps
CN111008348A (zh) 反爬虫方法、终端、服务器及计算机可读存储介质
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
US10931688B2 (en) Malicious website discovery using web analytics identifiers
Al-Asadi et al. Discovering similar user navigation behavior in web log data
CN110619075A (zh) 一种网页识别方法与设备
CN104202418A (zh) 为内容提供商推荐商业的内容分发网络的方法和系统
CN106897297B (zh) 网站栏目间访问路径的确定方法及装置
CN110677270B (zh) 一种域名的可缓存性分析方法及系统
CN110717036B (zh) 一种统一资源定位符的去重方法、装置及电子设备
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质
CN108009171B (zh) 一种提取内容数据的方法和装置
CN109145220B (zh) 数据处理方法、装置及电子设备
US20140372361A1 (en) Apparatus and method for providing subscriber big data information in cloud computing environment
US9996621B2 (en) System and method for retrieving internet pages using page partitions
CN113660277B (zh) 一种基于复用埋点信息的反爬虫方法及处理终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant