CN106095979B - Url合并处理方法和装置 - Google Patents

Url合并处理方法和装置 Download PDF

Info

Publication number
CN106095979B
CN106095979B CN201610444527.2A CN201610444527A CN106095979B CN 106095979 B CN106095979 B CN 106095979B CN 201610444527 A CN201610444527 A CN 201610444527A CN 106095979 B CN106095979 B CN 106095979B
Authority
CN
China
Prior art keywords
url
value
verification
generalized
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610444527.2A
Other languages
English (en)
Other versions
CN106095979A (zh
Inventor
马宇峰
王晓元
叶峻
邓鸣捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610444527.2A priority Critical patent/CN106095979B/zh
Publication of CN106095979A publication Critical patent/CN106095979A/zh
Application granted granted Critical
Publication of CN106095979B publication Critical patent/CN106095979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种URL合并处理方法和装置。所述方法包括:获取与目标网站对应的URL集合;根据URL的构成规范,对URL集合中的URL进行结构拆分,生成与URL对应的特征集;根据与特征集中包括的结构标识对应的结构值的数据特征,获取结构标识中的泛化标识;根据泛化标识,对URL集合中的URL进行合并处理,生成至少一个URL合并簇。本发明的技术方案可以实现将具有相似结构的网页所对应的URL合并起来的技术效果,不仅大大降低了带宽与存储消耗,也使得网页的分类合并技术有了更简便快捷的方式。

Description

URL合并处理方法和装置
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种URL合并处理方法和装置。
背景技术
随着Web2.0的到来,互联网的数据呈现着爆炸性的增长,一个突出的表现便是URL(Uniform Resource Locator,统一资源定位符)数量的增长。为了进一步增强用户体验、或记录用户点击时的一些会话信息,网站会对应产出很多重复URL,这些重复URL仅有少部分字符串不一致,但对应的是同样、或者相似的网页内容。
重复URL大量存在,给网页抓取、解析的工作带来极大挑战。例如:搜索引擎在网页抓取过程中需要反复抓取类似内容的文档,极大地占用了带宽和存储资源;再例如:在使用一些基于链接的网页排序算法时,这些相似性较大的网页URL将影响各个链接的网页排序分数计算;此外,在进行网站安全性检测时,大量结构类似的网页被反复检测,也会带来极大的资源耗费。
发明内容
有鉴于此,本发明实施例提供了一种URL合并处理方法和装置,以减轻由网络中存在的大量重复URL所带来的资源压力。
在第一方面,本发明实施例提供了一种URL合并处理方法,包括:
获取与目标网站对应的URL集合;
根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与 URL对应的特征集,其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识;
根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇。
在第二方面,本发明实施例提供了一种URL合并处理装置,包括:
URL集合获取模块,用于获取与目标网站对应的URL集合;
URL特征集生成模块,用于根据URL的构成规范,对所述URL集合中的 URL进行结构拆分,生成与URL对应的特征集,其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
泛化标识获取模块,用于根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识;
URL合并簇生成模块,用于根据所述泛化标识,对所述URL集合中的URL 进行合并处理,生成至少一个URL合并簇。
本发明实施例获取与同一网站对应的全部URL,根据URL的构成规范,对各URL进行结构拆分,生成与各URL分别对应的特征集,根据特征集中包括的结构标识对应的结构值的数据特征,对各URL进行泛化处理,并基于泛化处理结果对各URL进行合并,可以实现将具有相似结构的网页所对应的URL合并起来的技术效果,不仅大大降低了带宽与存储消耗,也使得网页的分类合并技术有了更简便快捷的方式。
附图说明
图1a是本发明第一实施例的一种URL合并处理方法的流程图;
图1b是本发明第一实施例的一种对URL进行结构拆分并生成与URL对应的特征集的示意图;
图2是本发明第二实施例的一种URL合并处理方法的流程图;
图3a是本发明第三实施例的一种URL合并处理方法的流程图;
图3b是本发明第三实施例的一种计算与结构值集合对应的信息熵的流程示意图;
图4是本发明第四实施例的一种URL合并处理装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
第一实施例
图1a为本发明第一实施例提供的一种URL合并处理方法的流程图,本实施例的方法可以由URL合并处理装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于完成URL合并处理功能的服务器中。本实施例的方法具体包括:
110、获取与目标网站对应的URL集合。
一般来说,网站就是多个网页的集合,一个网页对应一个独立的URL地址。为了获取与一个目标网站(例如,www.baidu.com)对应的全部URL地址。在现有技术中,主要可以通过网络爬虫的方式,在网络中抓取与该目标网站对应的URL集合。其中,所述URL集合中包括至少一个与目标网站中的网页对应的URL地址。
但是,在互联网网站上,存在着数据孤岛问题,也就是存在着大量的URL 无法通过超链接来直接抵达。这些URL往往掩藏在网站的搜索结果页面下、或者是通过某些特殊的操作才能让用户访问到。因此,如果通过网络爬虫抓取的方式来获取与一个目标网站对应的URL来生成URL集合,则会出现网站中很多URL无法被获取到的技术问题。
在本发明实施例的一个优选的实施方式中,发明人提出了一种不使用网络爬虫抓取,而是通过获取用户在目标网站下的浏览日志信息的方式,来获取与一个目标网站对应的URL集合的方法,以避免上述技术问题的出现,从而可以更系统全面地分析整个网站下的URL特征结构。也即:根据用户的浏览日志信息,获取与目标网站对应的URL集合。
一般来说,当用户对一个网站进行网页访问时,用户访问网页所使用的浏览器,以及网站的服务器均生成相应的用户浏览日志信息,该浏览日志信息中记录有用户所访问的网页的URL地址。
通过获取上述用户浏览日志信息(典型的,通过设定的网络统计工具),即可获取与目标网站对应的URL集合。
120、根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集。
可以理解的是,URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。相应的,网络中存在的各种URL是必须满足一定的构成规范的。
其中,基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/ 文件名.文件后缀?参数=值#标志。
相应的,可以根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集。其中,所述特征集具体包括:至少一个结构标识,以及与所述结构标识对应的结构值。
进一步的,所述结构标识具体可以包括:协议标识、至少一个域名标识、至少一个路径标识以及至少一个参数标识。
其中,在图1b中示出了本发明第一实施例的一种对URL进行结构拆分并生成与URL对应的特征集的示意图。如图1b所示,待拆分的URL地址具体为:
http://m.ctrip.com/html5/trains/?sourceid=497&allianceid=4897;
通过根据URL的标准语法,识别出该URL中包括的特殊符号(典型的:“://”、“/”、“?”以及“&”等),即可完成对该URL地址的结构拆分。
特殊的,如果在URL的域名以及路径部分,识别出下划线“_”时,应当看作“/”继续进行分割,以实现将域名部分划分为多个域名,将路径部分划分为多个路径。
如图1b所示,与该URL地址对应的结构标识可以包括:协议标识(schema)、子域名标识(sub domain)、顶级域名(top domain)、第一路径标识(path_0)、第二路径标识(path_1)、第一参数标识(sourceid)以及第二参数标识(allianceid)。
根据上述结构标识对该URL地址进行结构拆分,可以确定与协议标识对应的结构值为http、与子域名标识对应的结构值m、与顶级域名对应的结构值为 ctrip.com、与第一路径标识对应的结构值为html5、与第二路径标识对应的结构值为trains、与第一参数标识对应的结构值为497、以及与第二参数标识对应的结构值为4897。
相应的,可以得到与该URL地址对应的特征集为:{schema:http;sub domain: m;top domain:ctrip.com;path_0:html5;path_1:trains;sourceid:497;allianceid:4897}。
130、根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识。
本发明实施例所依据的假设为:具有相同结构的URL地址,页面功能相同;即具有相似结构的URL地址所对应的网页,也应该具有相似的结构。为了更加直观的进行说明,首先对一些重复URL示例如下:
http://stockpage.10jqka.com.cn/600429/company/?tj=1;
http://stockpage.10jqka.com.cn/600428/company/?tj=3;
通过示例可以看出,第一个URL与第二个URL之间仅有少部分字符串不一致,但实际上两者对应的是同样、或者相似的网页内容。
从直观理解上看,这两个URL应该具有同一功能,描述的同一类型的内容,因此可以将这两个URL进行合并处理,合并方法就是将URL中的特定位置值进行泛化处理,例如,将这两个URL地址泛化为:
http://stockpage.10jqka.com.cn/*/company/?tj=*;
http://stockpage.10jqka.com.cn/*/company/?tj=*,其中“*”代表被泛化的内容。
通过上述泛化处理后,即可将这两个URL合并于同一URL集合中。因此,本实施例的方法的核心在于如何确定URL中的哪些位置的数据可以被泛化。
在本实施例中,主要根据与结构标识对应的结构值的数据特征,确定与哪种类型的结构值对应的结构标识可以被泛化。
可以理解的是,如果一个结构值的不确定性很高,说明该不确定性的内容无法用来表征同一类型的网页内容,则该不确定性高的结构值可以被泛化处理。因此,可以通过结构值的不确定性,来确定URL中的哪些结构标识可以被泛化;
另一方面,数据长度比较大的结构值,或者包含数字或者字母内容比较多的结构值,其一般可以用于表征同一类型的多个相似网页,因此可以通过结构值的数据类型,和/或结构值的数据长度,来确定URL中的哪些结构标识可以被泛化。
140、根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇。
在本实施例中,在获取泛化标识后,可以通过比对URL集合中各URL所包含的泛化标识是否相同,实现对所述URL集合中的URL进行合并处理;还可以根据所述泛化标识,生成与各URL对应的泛化结构符,即:带有“*”等泛化符的URL地址,通过比对与各URL对应的泛化结构符是否相同,实现对对所述URL集合中的各URL进行合并处理等,本实施例对此并不进行限制。
本发明实施例获取与同一网站对应的全部URL,根据URL的构成规范,对各URL进行结构拆分,生成与各URL分别对应的特征集,根据特征集中包括的结构标识对应的结构值的数据特征,对各URL进行泛化处理,并基于泛化处理结果对各URL进行合并,可以实现将具有相似结构的网页所对应的URL合并起来的技术效果,不仅大大降低了带宽与存储消耗,也使得网页的分类合并技术有了更简便快捷的方式。
需要重点说明的是,通过本实施例的URL合并处理方法只采用少量的抓取带宽和计算资源,即可将结构相似度较高的网页分组到一个合并簇中,对于同一合并簇中的网页仅需要抽样分析即可得到该合并簇内所有网页的特征信息,可以有效缓解资源压力,也为更为高级的网页分析奠定基础,对了解网站的整体结构有较大帮助。
本发明实施例的技术方案的产出是目标网站下所有的URL合并簇,每个合并簇可以用URL树状图或者正则表达式来展示。该URL合并簇可以具体用于:
1、主题爬虫:属于同一个合并簇的URL,可以认为有相似的内容、相同的主题,针对性地爬取一个URL合并簇中的若干URL,可以大幅降低全面爬取的代价;
2、网站安全性监测:对于目标网站下的每个URL合并簇,仅需要针对每个簇抽样几个URL进行检测,即可得到整个URL合并簇的安全性情况;
3、网页结构性聚类与分析:可以根据泛化后的结果,将具有相同功能的 URL簇聚集起来作为一种功能类型集合,而每个URL合并簇仅需要写一份解析规则,即可进行全面解析;
4、构建站点拓扑图:用泛化后的URL泛化结构符来代替之前的具体URL 超链接,可以准确得到目标网站内部的关键路径和URL泛化结构符之间的关系,找到真正有意义的站点拓扑骨架。
第二实施例
图2是本发明第二实施例的一种URL合并处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将获取与目标网站对应的URL 集合优化为:根据用户的浏览日志信息,获取与目标网站对应的URL集合;同时,还优选包括:依次获取一个所述URL合并簇作为验证簇;从所述验证簇中,获取至少两个URL作为验证URL;下载与所述验证URL对应的至少两个验证网页的网页内容;如果根据所述网页内容,识别所述验证网页之间的网页结构不相同,则将所述验证簇中的URL进行解合并;
此外,将根据所述网页内容,识别所述验证网页之间的网页结构不相同具体优化为:分别获取各所述验证网页中包括的至少一个按钮;如果确定不同验证网页中的按钮的路径关联信息不满足相似网页条件,则识别所述验证网页之间的网页结构不相同。相应的,本实施例的方法具体包括:
210、根据用户的浏览日志信息,获取与目标网站对应的URL集合。
220、根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集。
其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
230、根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识。
240、根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇。
在本实施例中,进一步包括对URL合并簇的合并效果进行验证的操作,验证同一URL合并簇中包括的至少两个URL是否具有相同或者相近的网页结构以及页面功能。如果验证通过,则该URL合并簇中的各URL可以合并在一起;否则,该URL合并簇中的各URL则不能合并在一起。其中,可以通过人工抽样验证的方式对URL合并簇进行验证,在本实施例中,则给出了一种自动化验证的方式。
250、依次获取一个所述URL合并簇作为验证簇。
260、从所述验证簇中,获取至少两个URL作为验证URL。
270、下载与所述验证URL对应的至少两个验证网页的网页内容。
280、分别获取各所述验证网页中包括的至少一个按钮。
290、判断不同验证网页中的按钮的路径关联信息是否满足相似网页条件:若是,执行2100;否则,执行2110。
所述路径关联信息包括下述至少一项:按钮在页面中的层次、按钮的类名、按钮的名称以及按钮的标识名。
2100、识别所述验证网页之间的网页结构相同,执行2130。
2110、识别所述验证网页之间的网页结构不相同,执行2120。
2120、将所述验证簇中的URL进行解合并,执行2130。
2130、判断是否完成对全部URL合并簇的处理:若是,结束流程;否则,返回执行250。
在本实施例中,通过自动化检查特定元素(典型的,与URL地址对应的网页中包括的按钮)的路径关联信息是否一致的方法,对URL合并簇中包括的 URL地址进行验证。
即:对于抽样出来的第一URL地址url_a以及第二URL地址url_b,下载其对应的网页,得到与这两个网页上所有的button(按钮)对应的路径关联信息 (button在页面的层次关系、以及该button上的类名以及button的标识信息),如果各个button的路径关联信息均一致,则可以认为抽样的url_a以及url_b具有相同的网页结构,可以归集为同一个URL合并簇,该URL合并簇可用,对于未通过该验证的URL合并簇,其内部的URL则不能泛化在一起。
本实施例的技术方案在生成URL合并簇之后,继续对URL合并簇的可用性进行验证,获取验证簇中包括的至少两个URL对应的网页的网页内容后,分别获取各网页中包括的至少一个按钮,通过判断不同验证网页中的按钮的路径关联信息是否满足相似网页条件,来确定上述网页的网页结构是否相同,上述验证过程保证了与相同或者相似的网页对应的URL被合并于一个URL合并簇中,保证了合并处理生成的URL合并簇的可用性。
第三实施例
图3是本发明第三实施例的一种URL合并处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识具体优化为:根据与所述URL集合中各URL分别对应的特征集,生成与各所述结构标识分别对应的结构值集合;根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值;根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识;
同时,将根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇具体优化为:根据所述泛化标识,生成与所述URL 集合中各URL分别对应的泛化结构符;将所述泛化结构符相同的各URL归集于同一URL合并簇中。相应的,本实施例的方法具体包括:
310、根据用户的浏览日志信息,获取与目标网站对应的URL集合。
320、根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集。
其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
330、根据与所述URL集合中各URL分别对应的特征集,生成与各所述结构标识分别对应的结构值集合。
在一个具体的例子中,与URL1对应的特征集为:{schema:http;sub domain: m;top domain:ctrip.com;path_0:html5;path_1:trains;sourceid:497;allianceid:4897};
与与URL2对应的特征集为:{schema:http;sub domain:n;top domain:ctrip.com;path_0:html5;path_1:trains;sourceid:3215;allianceid:123}。
则:与结构标识schema对应的结构值集合为{http};与结构标识sub domain 对应的结构值集合为{m,n};与结构标识top domain对应的结构值集合为 {ctrip.com};与结构标识path_0对应的结构值集合为{html5};与结构标识path_1 对应的结构值集合为{trains};与结构标识sourceid对应的结构值集合为{497, 3215}以及与结构标识allianceid对应的结构值集合为{4897,123}。
340、根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值。
在本实施例中,可以通过各种方式计算与结构标识对应的泛化权重值,例如,人工设定的方式,计算不同结构值集合对应的信息熵的方式以及根据结构值集合的数据长度,和/或数据类型对各结构值集合进行评分的方式,计算与各结构值集合对应的结构标识的泛化权重值,本实施例对此并不进行限制。
在本实施例的一个优选的实施方式中,根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值具体可以包括:
统计所述结构值集合中,与不同取值的结构值分别对应的结构值数量;根据所述与不同取值的结构值分别对应的结构值数量,计算与各所述结构值集合分别对应的信息熵;将计算得到的所述信息熵作为与所述结构值集合对应的结构标识的泛化权重值。
如第一实施例所述,可以通过结构值的不确定性,来确定URL中的哪些结构标识可以被泛化,结构值的不确定性越大,与结构值对应的结构标识越有可能被泛化。具体的,可以通过计算信息熵的方式,来计算一个结构值的不确定性。信息熵值越大表明该结构值部分的不确定性越大。而极度不确定的部分是无法用于表征同一类型网页的,故信息熵越大,则越应该被泛化。在图3b是本发明第三实施例的一种计算与结构值集合对应的信息熵的流程示意图。
其中,信息熵的计算公式为:
Figure BDA0001022637760000131
其中,n为一个结构值集合中包括的结构值不同取值的数量;pi代表结构值集合中第i个取值的结构值的出现概率,pi=第i个取值的结构值数量/结构值集合中包括的结构值总数量。
如图3b所示,与结构标识sub domain对应的结构值集合中包括的结构值不同取值的数量n=3,其中,这3个结构值的取值分别为“m”、“3g”以及“www”。在该结构值集合中:取值为“m”的结构值数量为80000;取值为“3g”的结构值数量为40000,取值为“www”的结构值数量为75000;相应的,该结构值集合中包括的结构值总数量为80000+40000+75000=195000。
进而可以计算与“m”对应的p1=80000/195000=0.4103,与“3g”对应的 p2=40000/195000=0.2051,与“www”对应的p3=75000/195000=0.3846。
将上述计算得到的p1、p2以及p3带入公式:
Figure BDA0001022637760000141
即可得到对应的信息熵值0.459。
在本实施例的另一个优选的实施方式中,根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值具体还可以包括:
根据所述结构值集合中结构值的数据类型,和/或结构值的数据长度,对各所述结构值集合进行评分;将评分结果作为与所述结构值集合对应的结构标识的泛化权重值。
在一个具体的例子中,一个结构值集合中包括的结构值的数据长度越长,数据类型(典型的,字母以及数字等)种类越多,以及数字形式的数据越多,则该结构值集合的评分值越大,相应的,该结构值集合对应的结构标识的泛化权重值的也越大。
350、根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识。
在本实施例中,在计算得到与各结构标识分别对应的泛化权重值之后,可以根据各泛化权重值的取值,获取所述结构标识中的泛化标识。典型的,泛化权重值越大,其越有可能被确定为泛化标识。
其中,可以通过直接设定泛化分界点来确定泛化标识,例如,如果泛化权重值的取值为[0,1],则可以设定一个泛化分界点为0.7,即:将泛化权重值大于0.7的结构标识确定为泛化标识;
在本实施例的一个优选的实施方式中,还可以根据泛化标识之间的相关性,也就是说,可以被泛化的结构标识的泛化权重值的取值总是类似的这一推断,根据与各所述结构标识分别对应的泛化权重值,对各所述结构标识进行聚类,生成泛化标识集以及非泛化标识集,将所述泛化标识集中包括的结构标识作为所述泛化标识。
例如,与各结构标识对应的泛化权重值分别为0.7、0.74、0.81、0.21、0.25、 0.23,通过聚类处理后,生成两个聚类簇{0.7,074,0.81}以及{0.21,0.25,0.23},进而可以将聚类簇{0.7,074,0.81}作为泛化标识集,并将该泛化标识集中包括的结构标识作为所述泛化标识,即将与0.7、0.74以及0.81分别对应的结构标识作为泛化标识。
360、根据所述泛化标识,生成与所述URL集合中各URL分别对应的泛化结构符。
如前例,URL集合中包括的两个URL为:
http://m.ctrip.com/html5/trains/?sourceid=497&allianceid=4897;以及
http://n.ctrip.com/html5/trains/?sourceid=3215&allianceid=123;
如果最终确定的泛化标识为:sub domain、sourceid以及allianceid;则可以生成与上述两个URL分别对应的泛化结构符(典型的,将与泛化标识对应的结构值使用“*”代替):
http://*.ctrip.com/html5/trains/?sourceid=*&allianceid=*;以及
http://*.ctrip.com/html5/trains/?sourceid=*&allianceid=*。
370、将所述泛化结构符相同的各URL归集于同一URL合并簇中。
相应的,可以将http://m.ctrip.com/html5/trains/?sourceid=497&allianceid= 4897;以及http://n.ctrip.com/html5/trains/?sourceid=3215&allianceid=123归集于同一URL合并簇中。
本实施例的技术方案完全无需下载URL对应的页面,完全依据用户对URL 的访问情况,通过针对URL的结构化信息提取,完成URL集合化工作,采用其他的方案均无法达到此效果。本实施例的优势在于:不需要通过网络爬虫,而是通过用户浏览日志信息归纳,即可得到URL泛化的结果,优于需要通过网络爬虫、分析URL超链接进行URL合并处理的方式。本实施例的方法有效降低资源消耗,也解决了网络链接孤岛问题,从对网站的覆盖层面优于现有技术。
综上,本发明不依赖于传统的爬虫技术,充分利用搜集到的用户浏览日志信息,将具有相似结构的网页所对应的URL聚集起来,对于属于同一个URL 合并簇的URL集合而言,仅需要抽样几条即可得到该集合中所有URL对应的网页结构特征(例如是否存在网络漏洞、是否存在待提交的表单等),甚至可以认为属于同一个URL合并簇的URL集合对应着相同类型的页面.
例如:http://detail.zol.com.cn/cell_phone/index*.shtml均为手机的介绍页面, http://bbs.zol.com.cn/sjbbs/*.html均为手机的论坛页面等,不仅大大降低了带宽与存储消耗,也使得网页的分类有了更简便快捷的方式,更能够提供网站的整体拓扑结构。
第四实施例
图4是本发明第四实施例的一种URL合并处理装置的结构图。如图4所示,所述装置包括:URL集合获取模块41、URL特征集生成模块42、泛化标识获取模块43以及URL合并簇生成模块44。其中:
URL集合获取模块41,用于获取与目标网站对应的统一资源定位符URL 集合。
URL特征集生成模块42,用于根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集,其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值。
泛化标识获取模块43,用于根据与结构标识对应的结构值的数据特征,获取所述结构标识中的泛化标识。
URL合并簇生成模块44,用于根据所述泛化标识,对所述URL集合中的 URL进行合并处理,生成至少一个URL合并簇。
本发明实施例获取与同一网站对应的全部URL,根据URL的构成规范,对各URL进行结构拆分,生成与各URL分别对应的特征集,根据特征集中包括的结构标识对应的结构值的数据特征,对各URL进行泛化处理,并基于泛化处理结果对各URL进行合并,可以实现将具有相似结构的网页所对应的URL合并起来的技术效果,不仅大大降低了带宽与存储消耗,也使得网页的分类合并技术有了更简便快捷的方式。
在上述各实施例的基础上,所述URL集合获取模块,具体可以用于:根据用户的浏览日志信息,获取与目标网站对应的URL集合。
在上述各实施例的基础上,所述装置还可以包括:URL合并簇验证模块,其中,所述URL合并簇验证模块可以包括:
验证簇获取单元,用于依次获取一个所述URL合并簇作为验证簇;
验证URL获取单元,用于从所述验证簇中,获取至少两个URL作为验证 URL;
网页内容下载单元,用于下载与所述验证URL对应的至少两个验证网页的网页内容;
解合并单元,用于如果根据所述网页内容,识别所述验证网页之间的网页结构不相同,则将所述验证簇中的URL进行解合并。
在上述各实施例的基础上,所述结构标识可以包括:协议标识、至少一个域名标识、至少一个路径标识以及至少一个参数标识。
在上述各实施例的基础上,所述泛化标识获取模块可以包括:
结构值集合生成单元,用于根据与所述URL集合中各URL分别对应的特征集,生成与各所述结构标识分别对应的结构值集合;
泛化权重值计算单元,用于根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值;
泛化标识获取单元,用于根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识。
在上述各实施例的基础上,所述泛化权重值计算单元具体可以用于:
统计所述结构值集合中,与不同取值的结构值分别对应的结构值数量;
根据所述与不同取值的结构值分别对应的结构值数量,计算与各所述结构值集合分别对应的信息熵;
将计算得到的所述信息熵作为与所述结构值集合对应的结构标识的泛化权重值。
在上述各实施例的基础上,所述泛化权重值计算单元具体可以用于:
根据所述结构值集合中结构值的数据类型,和/或结构值的数据长度,对各所述结构值集合进行评分;
将评分结果作为与所述结构值集合对应的结构标识的泛化权重值。
在上述各实施例的基础上,所述泛化标识获取单元具体可以用于:
根据泛化标识之间的相关性,以及与各所述结构标识分别对应的泛化权重值,对各所述结构标识进行聚类,生成泛化标识集以及非泛化标识集;
将所述泛化标识集中包括的结构标识作为所述泛化标识。
在上述各实施例的基础上,所述解合并单元具体可以用于:
分别获取各所述验证网页中包括的至少一个按钮;
如果确定不同验证网页中的按钮的路径关联信息不满足相似网页条件,则识别所述验证网页之间的网页结构不相同。
在上述各实施例的基础上,所述路径关联信息可以包括下述至少一项:
按钮在页面中的层次、按钮的类名、按钮的名称以及按钮的标识名。
在上述各实施例的基础上,所述泛化标识获取模块,可以用于:
根据所述泛化标识,生成与所述URL集合中各URL分别对应的泛化结构符;
将所述泛化结构符相同的各URL归集于同一URL合并簇中。
本发明实施例所提供的URL合并处理装置可用于执行本发明任意实施例提供的URL合并处理方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种URL合并处理方法,其特征在于,包括:
获取与目标网站对应的统一资源定位符URL集合;
根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集,其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
根据与所述URL集合中各URL分别对应的特征集,生成与各所述结构标识分别对应的结构值集合;
根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值;
根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识;
根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇。
2.根据权利要求1所述的方法,其特征在于,获取与目标网站对应的URL集合包括:
根据用户的浏览日志信息,获取与目标网站对应的URL集合。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
依次获取一个所述URL合并簇作为验证簇;
从所述验证簇中,获取至少两个URL作为验证URL;
下载与所述验证URL对应的至少两个验证网页的网页内容;
如果根据所述网页内容,识别所述验证网页之间的网页结构不相同,则将所述验证簇中的URL进行解合并。
4.根据权利要求1或2所述的方法,其特征在于,所述结构标识包括:协议标识、至少一个域名标识、至少一个路径标识以及至少一个参数标识。
5.根据权利要求1所述的方法,其特征在于,根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值具体包括:
统计所述结构值集合中,与不同取值的结构值分别对应的结构值数量;
根据所述与不同取值的结构值分别对应的结构值数量,计算与各所述结构值集合分别对应的信息熵;
将计算得到的所述信息熵作为与所述结构值集合对应的结构标识的泛化权重值。
6.根据权利要求1所述的方法,其特征在于,根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值具体包括:
根据所述结构值集合中结构值的数据类型,和/或结构值的数据长度,对各所述结构值集合进行评分;
将评分结果作为与所述结构值集合对应的结构标识的泛化权重值。
7.根据权利要求1所述的方法,其特征在于,根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识包括:
根据泛化标识之间的相关性,以及与各所述结构标识分别对应的泛化权重值,对各所述结构标识进行聚类,生成泛化标识集以及非泛化标识集;
将所述泛化标识集中包括的结构标识作为所述泛化标识。
8.根据权利要求3所述的方法,其特征在于,根据所述网页内容,识别所述验证网页之间的网页结构不相同包括:
分别获取各所述验证网页中包括的至少一个按钮;
如果确定不同验证网页中的按钮的路径关联信息不满足相似网页条件,则识别所述验证网页之间的网页结构不相同。
9.根据权利要求8所述的方法,其特征在于,所述路径关联信息包括下述至少一项:
按钮在页面中的层次、按钮的类名、按钮的名称以及按钮的标识名。
10.根据权利要求1或2所述的方法,其特征在于,根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇包括:
根据所述泛化标识,生成与所述URL集合中各URL分别对应的泛化结构符;
将所述泛化结构符相同的各URL归集于同一URL合并簇中。
11.一种URL合并处理装置,其特征在于,包括:
URL集合获取模块,用于获取与目标网站对应的统一资源定位符URL集合;
URL特征集生成模块,用于根据URL的构成规范,对所述URL集合中的URL进行结构拆分,生成与URL对应的特征集,其中,所述特征集包括:至少一个结构标识,以及与所述结构标识对应的结构值;
泛化标识获取模块包括:结构值集合生成单元,用于根据与所述URL集合中各URL分别对应的特征集,生成与各所述结构标识分别对应的结构值集合;泛化权重值计算单元,用于根据所述结构值集合中各结构值的数据特征,计算与所述结构值集合对应的结构标识的泛化权重值;泛化标识获取单元,用于根据与各结构标识分别对应的泛化权重值,获取所述结构标识中的泛化标识;
URL合并簇生成模块,用于根据所述泛化标识,对所述URL集合中的URL进行合并处理,生成至少一个URL合并簇。
12.根据权利要求11所述的装置,其特征在于,所述URL集合获取模块,具体用于:
根据用户的浏览日志信息,获取与目标网站对应的URL集合。
13.根据权利要求11或12所述的装置,其特征在于,还包括:URL合并簇验证模块,其中,所述URL合并簇验证模块包括:
验证簇获取单元,用于依次获取一个所述URL合并簇作为验证簇;
验证URL获取单元,用于从所述验证簇中,获取至少两个URL作为验证URL;
网页内容下载单元,用于下载与所述验证URL对应的至少两个验证网页的网页内容;
解合并单元,用于如果根据所述网页内容,识别所述验证网页之间的网页结构不相同,则将所述验证簇中的URL进行解合并。
14.根据权利要求11或12所述的装置,其特征在于,所述结构标识包括:协议标识、至少一个域名标识、至少一个路径标识以及至少一个参数标识。
15.根据权利要求11所述的装置,其特征在于,所述泛化权重值计算单元具体用于:
统计所述结构值集合中,与不同取值的结构值分别对应的结构值数量;
根据所述与不同取值的结构值分别对应的结构值数量,计算与各所述结构值集合分别对应的信息熵;
将计算得到的所述信息熵作为与所述结构值集合对应的结构标识的泛化权重值。
16.根据权利要求11所述的装置,其特征在于,所述泛化权重值计算单元具体用于:
根据所述结构值集合中结构值的数据类型,和/或结构值的数据长度,对各所述结构值集合进行评分;
将评分结果作为与所述结构值集合对应的结构标识的泛化权重值。
17.根据权利要求11所述的装置,其特征在于,所述泛化标识获取单元具体用于:
根据泛化标识之间的相关性,以及与各所述结构标识分别对应的泛化权重值,对各所述结构标识进行聚类,生成泛化标识集以及非泛化标识集;
将所述泛化标识集中包括的结构标识作为所述泛化标识。
18.根据权利要求13所述的装置,其特征在于,所述解合并单元具体用于:
分别获取各所述验证网页中包括的至少一个按钮;
如果确定不同验证网页中的按钮的路径关联信息不满足相似网页条件,则识别所述验证网页之间的网页结构不相同。
CN201610444527.2A 2016-06-20 2016-06-20 Url合并处理方法和装置 Active CN106095979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610444527.2A CN106095979B (zh) 2016-06-20 2016-06-20 Url合并处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610444527.2A CN106095979B (zh) 2016-06-20 2016-06-20 Url合并处理方法和装置

Publications (2)

Publication Number Publication Date
CN106095979A CN106095979A (zh) 2016-11-09
CN106095979B true CN106095979B (zh) 2020-05-08

Family

ID=57237471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610444527.2A Active CN106095979B (zh) 2016-06-20 2016-06-20 Url合并处理方法和装置

Country Status (1)

Country Link
CN (1) CN106095979B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708952B (zh) * 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN109145230A (zh) * 2017-06-15 2019-01-04 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN107317892B (zh) * 2017-06-30 2020-08-07 北京知道创宇信息技术股份有限公司 一种网络地址的处理方法、计算设备及可读存储介质
CN108388796B (zh) * 2018-02-24 2021-08-31 深圳壹账通智能科技有限公司 动态域名验证方法、系统、计算机设备和存储介质
CN110737851B (zh) * 2018-07-03 2022-09-09 百度在线网络技术(北京)有限公司 超链的语义化方法、装置、设备及计算机可读存储介质
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN111368227B (zh) * 2018-12-25 2023-06-27 阿里巴巴集团控股有限公司 一种url处理方法以及装置
CN110008419B (zh) * 2019-03-11 2023-07-14 创新先进技术有限公司 网页去重方法、装置及设备
CN110825947B (zh) * 2019-10-31 2024-03-08 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
CN110830987B (zh) * 2019-11-27 2023-11-24 王培根 一种城区污水处理率评估计算方法、装置及设备
CN111935133A (zh) * 2020-08-06 2020-11-13 北京顶象技术有限公司 白名单生成方法及装置
CN117493414B (zh) * 2023-11-03 2024-05-31 山东三木众合信息科技股份有限公司 一种数据管理筛选方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103678333A (zh) * 2012-09-03 2014-03-26 北京千橡网景科技发展有限公司 用于提高统一资源定位符提取准确率的方法和设备
CN103714093A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种网站重点页面的挖掘方法及装置
CN104778164A (zh) * 2014-01-09 2015-07-15 中国银联股份有限公司 检测重复url的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN103678333A (zh) * 2012-09-03 2014-03-26 北京千橡网景科技发展有限公司 用于提高统一资源定位符提取准确率的方法和设备
CN103714093A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种网站重点页面的挖掘方法及装置
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN104778164A (zh) * 2014-01-09 2015-07-15 中国银联股份有限公司 检测重复url的方法及装置

Also Published As

Publication number Publication date
CN106095979A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106095979B (zh) Url合并处理方法和装置
Oh et al. Advanced evidence collection and analysis of web browser activity
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN107590169B (zh) 一种运营商网关数据的预处理方法及系统
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
Dwivedi et al. A review paper on data preprocessing: A critical phase in web usage mining process
CN109905288B (zh) 一种应用服务分类方法及装置
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
Nalawade et al. Forensic analysis and evidence collection for web browser activity
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN105095175B (zh) 获取截短的网页标题的方法及装置
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
KR102214990B1 (ko) 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR100989320B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법
CN109522466B (zh) 一种分布式爬虫系统
Korra et al. Web Usage Mining: An Implementation View

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant