CN104899219B - 伪静态url的筛除方法、系统及网页爬取方法、系统 - Google Patents

伪静态url的筛除方法、系统及网页爬取方法、系统 Download PDF

Info

Publication number
CN104899219B
CN104899219B CN201410081110.5A CN201410081110A CN104899219B CN 104899219 B CN104899219 B CN 104899219B CN 201410081110 A CN201410081110 A CN 201410081110A CN 104899219 B CN104899219 B CN 104899219B
Authority
CN
China
Prior art keywords
url
character field
similarity
web page
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410081110.5A
Other languages
English (en)
Other versions
CN104899219A (zh
Inventor
王笑天
董晓琼
罗启武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201410081110.5A priority Critical patent/CN104899219B/zh
Publication of CN104899219A publication Critical patent/CN104899219A/zh
Application granted granted Critical
Publication of CN104899219B publication Critical patent/CN104899219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种伪静态URL的筛除方法、系统及网页爬取方法、系统。该筛除方法包括以下步骤:获取待测URL列表;读取URL正则列表并建立一数据库;选取一URL与正则表达式逐一匹配;将数据库中的URL根据路径分类;比对该URL和同路径URL的参数及值以确定是否设标志位;根据URL相似度及网页结构相似度决定是否设标志位;将该URL存储至数据库中。本发明的伪静态URL的筛除方法、系统及网页爬取方法、系统针对网站使用的伪静态技术,实现了对伪静态URL的自动识别,以过滤大量重复、无用的伪静态URL,提取有价值的URL进行安全检测,提高了爬行效率和爬行准确性。

Description

伪静态URL的筛除方法、系统及网页爬取方法、系统
技术领域
本发明涉及一种伪静态URL的筛除方法、系统及网页爬取方法、系统。
背景技术
随着互联网技术迅猛发展,静态网页的时代已然成为历史,如今WEB2.0模式的影响力使得越来越多的网站向着动态、交互性的方向快速转变。由于针对JS技术(JS即JavaScript,是一种基于对象和事件驱动的客户端脚本语言)和伪静态技术的应用愈发广泛,基于传统获取网页源码的爬虫已力不从心。
如今,大型网站的内容越来越多,为了提高访问速度和获得良好的搜索引擎优化,大部分网站都会使用伪静态技术。伪静态是相对真实静态而言的,伪静态技术实际上利用了动态脚本处理方法通,但展现方式是以静态页面的方式,从而在利用动态脚本的同时保持了对搜索引擎的友好面。采用伪静态技术的链接会按照规则生成一系列URL,而现有的爬虫技术由于没有网页相似度方面的检测,因而会将伪静态的URL作为新产生的URL收录在数据库中。如此就造成在安全检测等方面的应用中,爬虫会提取大部分相同或是同一个伪静态规则对应的同一个URL,导致扫描效率大幅下降。
发明内容
本发明要解决的技术问题是为了克服现有技术中的爬虫难以识别采用伪静态的URL,从而导致爬虫会提取大量相同的伪静态规则对应的URL,造成扫描效率大幅下降的缺陷,提出一种伪静态URL的筛除方法、系统及网页爬取方法、系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种伪静态URL的筛除方法,其特点在于,包括以下步骤:
S1、获取记录有多个URL的一待测URL列表;
S2、读取一URL正则列表,该URL正则列表包括若干正则表达式,并建立一数据库;
S3、从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S41、在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
S42、将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并执行S5,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下执行S43,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下执行S7
S43、判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则执行S7,若否则对该URL设置爬虫标志位和检测标志位并执行S5
S5、计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S6,其中该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
S6、采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
S7、将该URL存储至该数据库、从该待测URL列表中删除该URL并返回S3
S8、通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL并返回S3,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL并返回S3
本领域技术人员应当理解,URL即统一资源定位符,其是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。完整的、带有授权部分的普通统一资源定位符语法大体如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。步骤S2中读取的该URL正则列表实际上可以是人工导入的伪静态规则的识别逻辑,即以人工编写的若干正则表达式来实现伪静态规则的识别逻辑。举例来说,若某网站具有大量的类似www.xx.com/news_022.html、www.xx.com/news_81.html路径的URL,人工编写一正则表达式以识别此类以news+下划线+数字+.html为路径的网页为伪静态网页。步骤S2中建立的该数据库,既可以是预存入部分URL,也可以是建立初始状态为空的数据库。
步骤S3用于将URL与正则表达式进行匹配。如果与正则表达式匹配成功,则认定URL是伪静态URL,这时执行S8以将该URL与其相应的hash(即散列值,也称为哈希)存入该数据库,若相应的散列值在数据库中已经存有,则不再重复存储该URL和相应的散列值,以保证每一类伪静态URL在数据库中的唯一性。在上述筛除方法中,步骤S3优先执行,如果匹配成功则跳过后面的步骤,从而提高判别伪静态网页的速度。
URL根据参数的值分为数字型和非数字型以及GET和POST提交类型。在步骤S41~S43中,从该数据库中搜索和当前URL路径相同的URL分类进行遍历比较,比较参数和参数的值。其中该第一阈值可以由本领域技术人员根据实际情况进行设置,举例来说通常可以设置为3~5。根据参数和参数的值的比对情况确定该URL是否需要进行爬取和检测,相应地,如果判断该URL需要进行爬取和检测则对该URL设置爬虫标志位和检测标志位。在此种情况下还需要同该数据库中的和当前URL路径不同的URL进行遍历比较,即步骤S5~S6。反之,对于在该数据库中已经存储有和该URL相似度较高或者重复的URL,则不对该URL设置标志位。
在步骤S5中实质上是对URL本身,即对URL的字符串的相似度进行比较,在步骤S6则是对URL相对应的网页正文的相似度进行比较。其中,URL相似度定义为编辑距离,即相比较的两个URL的字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
较佳地,该URL和任意一不同路径URL的URL相似度由该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定,其中一类字符段的相同字符段频数通过下述步骤确定:
S501、根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数;
S502、根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数;
S503、计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
其中,每一类字符段对应一预设规则,预设规则可以根据字符段的分类要求进行预先设置。
较佳地,该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
上述公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度;
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
较佳地,g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12,其中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。
较佳地,S6包括以下步骤:
S61、从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签包括以下html标签中的全部或部分:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”;
S62、采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度;
S63、判断S62计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
本发明还提供了一种网页爬取方法,其特点在于,包括上述筛除方法,该网页爬取方法还包括步骤S9和在该筛除方法执行前进行的步骤S0
S0为:读取初始URL,并爬取该初始URL对应的网页正文,从中提取URL并将提取的URL加入到该待测URL列表中,然后执行S1
S3为:判断该待测URL列表是否为空,若是则执行S9,若否则从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S9为:从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并返回S0
本领域技术人员应当理解,实际上上述步骤S0的执行分为两种情况。第一种情况下S0相当于上述网页爬取方法中的初始步骤,这时的初始URL通常是由用户手动进行设置或者预设。第二种情况下则是在上述网页爬取方法的进行过程中执行步骤S0,这时初始URL是由步骤S9从该数据库中选取的符合条件的URL,并不受用户的输入或者设置的控制。
较佳地,S0为:读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行S1
其中,ajax是指Asynchronous JavaScript and XML,是一种用于创建快速动态网页的技术,QTWebkit引擎是一种现有的开源浏览器引擎。针对用户交互点击或滑动等操作才能触发的URL链接,通过调用QTWebkit API(应用程序编程接口)获取网页正文DOM(即文件对象模型)树,并对其遍历,筛选出可能存在交互的DOM对象,再通过QTWebkit API模拟操作JS触发DOM对象的逻辑,获得动态链接。对于ajax之类没有生成网页正文的链接,通过HOOK QTWebkit中的QNetworkAccessManager类的Createrequest方法,触发HTTP请求来获取动态链接。
本发明还提供了一种伪静态URL的筛除系统,其特点在于,包括:
URL列表模块,用于获取记录有多个URL的一待测URL列表;
正则列表模块,用于建立一数据库以及读取一URL正则列表,该URL正则列表包括若干正则表达式;
正则表达式匹配模块,用于在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块,其中在该待测URL列表发生变化时是指以下两种情况:读取了新的URL正则列表以及原有URL正则列表中的URL被删除;
URL路径分类模块,用于在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
参数比对模块,用于将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并启用相似度判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下启用第一判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下启用第一更新模块;
第一判断模块,用于判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则启用第一更新模块,若否则对该URL设置爬虫标志位和检测标志位并启用URL相似度判断模块;
URL相似度判断模块,用于计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用网页结构相似度判断模块,其中该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
网页结构相似度判断模块,用于采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块;
第一更新模块,用于将该URL存储至该数据库,从该待测URL列表中删除该URL;
第二更新模块,用于通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL。
较佳地,URL相似度判断模块用于根据该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定该URL和任意一不同路径URL的URL相似度;
URL相似度判断模块包括一相同字符段频数单元,该相同字符段频数单元用于首先根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数,然后根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数,最后计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
较佳地,该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
上述公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度;
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
较佳地,g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12,其中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。
较佳地,网页结构相似度判断模块包括一噪声标签移除单元和一子树匹配单元;
该噪声标签移除单元用于从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签包括以下html标签中的全部或部分:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”;
该子树匹配单元用于采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度,然后判断计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块。
本发明还提供了一种网页爬取系统,其特点在于,包括了上述的筛除系统以及初始化模块和待爬取URL选取模块;
初始化模块用于读取初始URL,并爬取该初始URL对应的网页正文,从中提取URL并将提取的URL加入到该待测URL列表中,然后执行URL列表模块;
该正则表达式匹配模块用于判断该待测URL列表是否为空,若是则启用待爬取URL选取模块,若否则在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块;
待爬取URL选取模块用于从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并启用初始化模块。
本领域技术人员容易理解,该网页爬取系统中的正则表达式匹配模块和上述筛除系统中的是有所不同的。
较佳地,初始化模块用于读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行URL列表模块。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明的伪静态URL的筛除方法、系统及网页爬取方法、系统针对网站使用的伪静态技术,实现了对伪静态URL的自动识别,以过滤大量重复、无用的伪静态URL,提取有价值的URL进行安全检测,提高了爬行效率和爬行准确性。并且,还通过QTwebkit引擎模拟操作行为,实现了对JS、AJAX等动态链接的提取,增加了爬虫抓取网页的全面性。
附图说明
图1为本发明实施例1的伪静态URL的筛除方法的流程图。
图2为本发明实施例3的伪静态URL的筛除系统的示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
参考图1所示,本实施例的伪静态URL的筛除方法,包括以下步骤:
S1、获取记录有多个URL的一待测URL列表;
S2、读取一URL正则列表,该URL正则列表包括若干正则表达式,并建立一数据库;
S3、从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S41、在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
S42、将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并执行S5,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下执行S43,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下执行S7
S43、判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则执行S7,若否则对该URL设置爬虫标志位和检测标志位并执行S5
S5、计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S6,其中该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
S6、采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
S7、将该URL存储至该数据库、从该待测URL列表中删除该URL并返回S3
S8、通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL并返回S3,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL并返回S3
其中,步骤S3用于将URL与正则表达式进行匹配。如果与正则表达式匹配成功,则认定URL是伪静态URL,这时执行S8以将该URL与其相应的散列值存入该数据库,若相应的散列值在数据库中已经存有,则不再重复存储该URL和相应的散列值,以保证每一类伪静态URL在数据库中的唯一性。在上述筛除方法中,步骤S3优先执行,如果匹配成功则跳过后面的步骤,从而提高判别伪静态网页的速度。
URL根据参数的值分为数字型和非数字型以及GET和POST提交类型。在步骤S41~S43中,从该数据库中搜索和当前URL路径相同的URL分类进行遍历比较,比较参数和参数的值。其中该第一阈值可以由本领域技术人员根据实际情况进行设置,本实施例中将其设置为3。根据参数和参数的值的比对情况确定该URL是否需要进行爬取和检测,相应地,如果判断该URL需要进行爬取和检测则对该URL设置爬虫标志位和检测标志位。在此种情况下还需要同该数据库中的和当前URL路径不同的URL进行遍历比较,即步骤S5~S6。反之,对于在该数据库中已经存储有和该URL相似度较高或者重复的URL,则不对该URL设置标志位。
在步骤S5中实质上是对URL本身,即对URL的字符串的相似度进行比较,在步骤S6则是对URL相对应的网页正文的相似度进行比较。其中,URL相似度定义为编辑距离,即相比较的两个URL的字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
本实施例中,该URL和不同路径URL的URL相似度由该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定。一类字符段的相同字符段频数通过下述步骤确定:
S501、根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数;
S502、根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数;
S503、计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
每一类字符段对应一预设规则,预设规则根据字符段的分类要求进行预先设置。
具体来说,本实施例中该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
在这一公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度。其中以下标1标记仅和该URL自身的属性相关的参数,以下标12标记同时和该URL及该任意一不同路径URL相关的参数。
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
更进一步地,上述公式中g(cha12,num12,non12,per12)一项可由下式定义:g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12。式中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。
本实施例的筛除方法中,S6包括以下步骤:
S61、从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签为以下html标签:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”。
S62、采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度;
S63、判断S62计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
实施例2
本实施例的网页爬取方法和实施例1的筛除方法相比,差别仅在于:
本实施例的网页爬取方法还包括步骤S9和在该筛除方法执行前进行的步骤S0,并且步骤S3相比于实施例1有所不同。
S0为:读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行S1
S3为:判断该待测URL列表是否为空,若是则执行S9,若否则从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S9为:从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并返回S0
本领域技术人员应当理解,上述步骤S0的执行分为两种情况。第一种情况下S0相当于上述网页爬取方法中的初始步骤,这时的初始URL通常是由用户手动进行设置或者预设。第二种情况下则是在上述网页爬取方法的进行过程中执行步骤S0,这时初始URL是由步骤S9从该数据库中选取的符合条件的URL,并不受用户的输入或者设置的控制。
实施例3
如图2所示,本实施例的伪静态URL的筛除系统包括:
URL列表模块1,用于获取记录有多个URL的一待测URL列表;
正则列表模块2,用于建立一数据库以及读取一URL正则列表,该URL正则列表包括若干正则表达式;
正则表达式匹配模块3,用于在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块,其中在该待测URL列表发生变化时是指以下两种情况:读取了新的URL正则列表以及原有URL正则列表中的URL被删除;
URL路径分类模块4,用于在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
参数比对模块5,用于将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并启用相似度判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下启用第一判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下启用第一更新模块;
第一判断模块6,用于判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则启用第一更新模块,若否则对该URL设置爬虫标志位和检测标志位并启用URL相似度判断模块;
URL相似度判断模块7,用于计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用网页结构相似度判断模块,其中该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
网页结构相似度判断模块8,用于采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块;
第一更新模块9,用于将该URL存储至该数据库,从该待测URL列表中删除该URL;
第二更新模块10,用于通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL。
其中,URL相似度判断模块用于根据该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定该URL和任意一不同路径URL的URL相似度。
URL相似度判断模块包括一相同字符段频数单元,该相同字符段频数单元用于首先根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数,然后根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数,最后计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
具体地,该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
上述公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度。
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
上述公式中,g(cha12,num12,non12,per12)一项由下式确定:g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12,其中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。本实施例中a1+a2+a3+a4+a5+a6+a7=1,这7项系数的取值可由本领域技术人员根据实际需要进行设置。
并且,网页结构相似度判断模块包括一噪声标签移除单元和一子树匹配单元;
该噪声标签移除单元用于从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签为以下html标签:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”。
该子树匹配单元用于采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度,然后判断计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块。
实施例4
本实施例的网页爬取系统和实施例3相比,差别仅在于,该网页爬取系统还包括初始化模块和待爬取URL选取模块,并且其中的正则表达式匹配模块和实施例3有所不同。
该初始化模块用于读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行URL列表模块。
该正则表达式匹配模块用于判断该待测URL列表是否为空,若是则启用待爬取URL选取模块,若否则在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块。
该待爬取URL选取模块用于从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并启用初始化模块。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (14)

1.一种伪静态URL的筛除方法,其特征在于,包括以下步骤:
S1、获取记录有多个URL的一待测URL列表;
S2、读取一URL正则列表,该URL正则列表包括若干正则表达式,并建立一数据库;
S3、从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S41、在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
S42、将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并执行S5,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下执行S43,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下执行S7
S43、判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则执行S7,若否则对该URL设置爬虫标志位和检测标志位并执行S5
S5、计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S6
其中,该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
S6、采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
S7、将该URL存储至该数据库、从该待测URL列表中删除该URL并返回S3
S8、通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL并返回S3,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL并返回S3
2.如权利要求1所述的筛除方法,其特征在于,该URL和任意一不同路径URL的URL相似度由该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定,其中一类字符段的相同字符段频数通过下述步骤确定:
S501、根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数;
S502、根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数;
S503、计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
3.如权利要求2所述的筛除方法,其特征在于,该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
上述公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度;
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
4.如权利要求3所述的筛除方法,其特征在于,g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12,其中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。
5.如权利要求1-4中任意一项所述的筛除方法,其特征在于,S6包括以下步骤:
S61、从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签包括以下html标签中的全部或部分:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”;
S62、采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度;
S63、判断S62计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并执行S7,若否则执行S7
6.一种网页爬取方法,其特征在于,包括了如权利要求1-5中任意一项所述的筛除方法,该网页爬取方法还包括步骤S9和在该筛除方法执行前进行的步骤S0
S0为:读取初始URL,并爬取该初始URL对应的网页正文,从中提取URL并将提取的URL加入到该待测URL列表中,然后执行S1
S3为:判断该待测URL列表是否为空,若是则执行S9,若否则从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则执行S8,若和所有正则表达式匹配失败则执行S41
S9为:从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并返回S0
7.如权利要求6所述的网页爬取方法,其特征在于,S0为:读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行S1
8.一种伪静态URL的筛除系统,其特征在于,包括:
URL列表模块,用于获取记录有多个URL的一待测URL列表;
正则列表模块,用于建立一数据库以及读取一URL正则列表,该URL正则列表包括若干正则表达式;
正则表达式匹配模块,用于在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块;
URL路径分类模块,用于在该数据库中搜索和该URL具有相同路径的URL作为同路径URL,将该数据库中的其他URL作为不同路径URL;
参数比对模块,用于将该URL逐一同所有同路径URL进行参数及参数的值的比对,在同所有同路径URL的比对结果均为参数不相同的情况下,对该URL设置爬虫标志位和检测标志位并启用URL相似度判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于非数字型的情况下启用第一判断模块,在同至少一个同路径URL的比对结果为参数相同且参数的值属于数字型的情况下启用第一更新模块;
第一判断模块,用于判断同路径URL中和该URL具有相同参数的URL的个数是否大于预设的一第一阈值,若是则启用第一更新模块,若否则对该URL设置爬虫标志位和检测标志位并启用URL相似度判断模块;
URL相似度判断模块,用于计算该URL和各个不同路径URL的URL相似度,并判断URL相似度的最大值是否大于预设的一第二阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用网页结构相似度判断模块,其中该URL和任意一不同路径URL的URL相似度定义为两者的编辑距离;
网页结构相似度判断模块,用于采用网页结构相似度算法计算该URL和各个不同路径URL对应的网页正文的相似度,并判断计算得到的网页正文的相似度的最大值是否大于预设的一第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块;
第一更新模块,用于将该URL存储至该数据库,从该待测URL列表中删除该URL;
第二更新模块,用于通过预设的一散列函数将该URL处理为一散列值,判断该数据库中是否存有该散列值,若是则从该待测URL列表中删除该URL,若否则将该URL及该散列值存储至该数据库、然后从该待测URL列表中删除该URL。
9.如权利要求8所述的筛除系统,其特征在于,URL相似度判断模块用于根据该URL的扩展名、该URL的参数以及该URL和该任意一不同路径URL中至少一类字符段的相同字符段频数确定该URL和任意一不同路径URL的URL相似度;
URL相似度判断模块包括一相同字符段频数单元,该相同字符段频数单元用于首先根据该类字符段相对应的预设规则分别从该URL和该任意一不同路径URL中提取满足该预设规则的字符段,并记录该URL包含的字符段个数,然后根据在URL中的先后顺序对比从该URL和该任意一不同路径URL中提取的字符段,并记录两者中提取的相一致的字符段的个数作为一致字符段个数,最后计算一致字符段个数和该URL对应的字符段个数的比值作为该类字符段的相同字符段频数,每一类字符段为满足相应预设规则的URL中的字符段,该URL中任意一类字符段的相同字符段频数。
10.如权利要求9所述的筛除系统,其特征在于,该URL和该任意一不同路径URL的URL相似度由以下公式定义:
S12=a1*d12+a2*f(ext1)+g(cha12,num12,non12,per12)+a3*h(par1);
上述公式中,d12为该URL和该任意一不同路径URL的编辑距离,ext1为该URL的扩展名、f为预设的扩展名集至数集的映射,par1为该URL的参数、h为预设的参数集至数集的映射,cha12、num12、non12、per12依次分别为该URL中字母类字符段、数字类字符段、第三类字符段和第四类字符段的相同字符段频数,g为预设的一函数,a1、a2、a3为预设的系数,S12为该URL和该任意一不同路径URL的URL相似度;
其中,字母类字符段、数字类字符段及第三类字符段分别对应的预设规则分别为将URL中的所有字母、数字及第三类字符划分为字母、数字及第三类字符连续排列的字符段,且划分形成的字符段的个数最少,第三类字符为除字母、数字和百分号以外的所有字符,第四类字符段对应的预设规则为从URL中提取所有由百分号及其后连续排列的两个数字所形成的字符段。
11.如权利要求10所述的筛除系统,其特征在于,g(cha12,num12,non12,per12)=a4*cha12+a5*num12+a6*non12+a7*per12,其中a4、a5、a6、a7为预设的系数,在该URL的扩展名ext1为html、xml或htm时f(ext1)=1,ext1为其他扩展名时f(ext1)=0,在该URL的参数par1为空时h(par1)=0,在par1不为空时h(par1)=1。
12.如权利要求8-11任意一项所述的筛除系统,其特征在于,网页结构相似度判断模块包括一噪声标签移除单元和一子树匹配单元;
该噪声标签移除单元用于从该URL和各个不同路径URL对应的网页正文中去除所有噪声标签,其中噪声标签包括以下html标签中的全部或部分:
“br”、“p”、“font”、“em”、“label”、“span”、“strong”、“b”、“u”、“i”、“big”、“small”、“sup”、“sub”;
该子树匹配单元用于采用基于子树最优有序匹配规则的相似度度量方法或者基于子树最优自由匹配规则的相似度度量方法计算去除噪声标签后的该URL和各个不同路径URL对应的网页正文的相似度,然后判断计算得到的网页正文的相似度的最大值是否大于该第三阈值,若是则对该URL取消爬虫标志位和检测标志位的设置并启用第一更新模块,若否则启用第一更新模块。
13.一种网页爬取系统,其特征在于,包括了如权利要求8-12中任意一项所述的筛除系统以及初始化模块和待爬取URL选取模块;
初始化模块用于读取初始URL,并爬取该初始URL对应的网页正文,从中提取URL并将提取的URL加入到该待测URL列表中,然后执行URL列表模块;
正则表达式匹配模块用于判断该待测URL列表是否为空,若是则启用待爬取URL选取模块,若否则在该待测URL列表发生变化时从该待测URL列表中选取一URL与该若干正则表达式逐一匹配,若和任意一正则表达式匹配成功则启用第二更新模块,若和所有正则表达式匹配失败则启用URL路径分类模块;
待爬取URL选取模块用于从该数据库中选取一个设置有爬虫标志位和检测标志位的URL作为该初始URL,并启用初始化模块。
14.如权利要求13所述的网页爬取系统,其特征在于,初始化模块用于读取初始URL,并爬取该初始URL对应的网页正文,识别其中是否有ajax或js动态生成的URL链接,若否则直接从中提取URL并将提取的URL加入到该待测URL列表中,若是则采用QTWebkit引擎动态模拟浏览器行为以抓取动态URL并将抓取的URL加入到待测URL列表中,然后执行URL列表模块。
CN201410081110.5A 2014-03-06 2014-03-06 伪静态url的筛除方法、系统及网页爬取方法、系统 Active CN104899219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410081110.5A CN104899219B (zh) 2014-03-06 2014-03-06 伪静态url的筛除方法、系统及网页爬取方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410081110.5A CN104899219B (zh) 2014-03-06 2014-03-06 伪静态url的筛除方法、系统及网页爬取方法、系统

Publications (2)

Publication Number Publication Date
CN104899219A CN104899219A (zh) 2015-09-09
CN104899219B true CN104899219B (zh) 2019-06-18

Family

ID=54031886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410081110.5A Active CN104899219B (zh) 2014-03-06 2014-03-06 伪静态url的筛除方法、系统及网页爬取方法、系统

Country Status (1)

Country Link
CN (1) CN104899219B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776636A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN105630983A (zh) * 2015-12-28 2016-06-01 努比亚技术有限公司 一种资源获取优化装置和方法
CN106294755B (zh) * 2016-08-11 2019-09-24 上海携程商务有限公司 用于url分类的网页推荐系统及网页推荐方法
CN107846383A (zh) * 2016-09-20 2018-03-27 中国电信股份有限公司 伪静态网站安全检查方法和装置
CN108733674B (zh) * 2017-04-14 2021-10-08 宁德时代新能源科技股份有限公司 一种a2l文件合并方法及装置
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN108200191B (zh) * 2018-01-29 2019-03-22 杭州电子科技大学 利用微扰法的客户端动态url相关脚本字符串检测系统
CN109783728B (zh) * 2018-12-29 2021-10-19 安徽听见科技有限公司 页面爬虫规则更新方法及系统
CN111191098B (zh) * 2019-12-25 2022-10-18 山石网科通信技术股份有限公司 数据过滤方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522348A (ja) * 1999-04-30 2003-07-22 ヤフー! インコーポレイテッド ウェブページを再フォーマットするための方法及び装置
CN103761257A (zh) * 2013-12-30 2014-04-30 优视科技有限公司 基于移动浏览器的网页处理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522348A (ja) * 1999-04-30 2003-07-22 ヤフー! インコーポレイテッド ウェブページを再フォーマットするための方法及び装置
CN103761257A (zh) * 2013-12-30 2014-04-30 优视科技有限公司 基于移动浏览器的网页处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于Apache服务器的URL伪静态分析与实现";梁兴波等;《信息科技》;20140228;全文

Also Published As

Publication number Publication date
CN104899219A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104899219B (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
US9614862B2 (en) System and method for webpage analysis
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN106095979B (zh) Url合并处理方法和装置
US10110658B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
CN103064956B (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
CN105760379B (zh) 一种基于域内页面关联关系检测webshell页面的方法及装置
US20090063538A1 (en) Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
Pol et al. A survey on web content mining and extraction of structured and semistructured data
JP2008515049A (ja) 文書構造に基づいた検索結果の表示
RU2016104525A (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
CN107862039A (zh) 网页数据获取方法、系统和数据匹配推送方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN106547803B (zh) 爬取网站增量资源的方法和装置
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
JP6423529B2 (ja) ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム
CN103617225B (zh) 一种关联网页搜索方法和系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN105512225A (zh) 一种从网页中提取主要内容的方法及装置
JP5423470B2 (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
CN111061972A (zh) 一种用于url路径匹配的ac查找优化方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160201

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant