CN105022824A - 无效链接的识别方法和装置 - Google Patents

无效链接的识别方法和装置 Download PDF

Info

Publication number
CN105022824A
CN105022824A CN201510430940.9A CN201510430940A CN105022824A CN 105022824 A CN105022824 A CN 105022824A CN 201510430940 A CN201510430940 A CN 201510430940A CN 105022824 A CN105022824 A CN 105022824A
Authority
CN
China
Prior art keywords
link
identified
page
invalid
response page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510430940.9A
Other languages
English (en)
Other versions
CN105022824B (zh
Inventor
李菲
张龙
毛冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN201510430940.9A priority Critical patent/CN105022824B/zh
Publication of CN105022824A publication Critical patent/CN105022824A/zh
Application granted granted Critical
Publication of CN105022824B publication Critical patent/CN105022824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种无效链接的识别方法和装置,通过获取待识别链接对应的URL,根据待识别链接对应的URL构造多个无效链接,进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面,确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度,若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定待识别链接为无效链接。所述方法中,通过主动构造无效链接的样本,根据待识别链接和无效链接对应的响应页面的相似度确定无效链接,提高了无效链接识别的准确性。

Description

无效链接的识别方法和装置
技术领域
本发明涉及互联网技术,尤其涉及一种无效链接的识别方法和装置。
背景技术
随着互联网技术的发展,出现了大量的网站,网站中不可避免的存在一些缺陷和漏洞。目前技术中主要通过爬虫技术主动进行web扫描获取网站链接,从而根据获取的链接获得网站结构,发现网站的缺陷和漏洞。爬虫获取的链接大都来自于网站的响应页面,这些响应页面中包括的链接有一些无效链接,无效链接即不存在的链接。用户通过浏览器访问无效链接后最直接的反应就是返回页面不存在。
现有技术中对无效链接的判断,通常是根据网站返回的状态码进行判断,例如,如果链接对应的响应页面不存在,那么网站返回状态码404,爬虫装置确定该链接为无效链接。由于网站行为是可以自行配置的,对于无效链接网站可以返回正常状态码,因此只根据状态码判断无效链接会造成大量的误判,导致无效链接的识别准确性差。将无效链接误判为有效链接会导致网站规模急剧膨胀,不利于网站的维护。
发明内容
本发明实施例提供一种无效链接的识别方法和装置,能够提高无效链接识别的准确性。
本发明第一方面提供一种无效链接的识别方法,包括:
获取待识别链接对应的统一资源符URL,所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名;
根据所述待识别链接对应的URL构造多个无效链接,所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,所述多个无效链接对应的URL包括的目录、文件名和扩展名,与所述第一目录、第一文件名和第一扩展名中的至少一个不同;
获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面;
确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度;
若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接。
可选的,所述确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度,包括:
对所述多个无效链接对应的响应页面分别进行去噪处理;
对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到所述每个无效链接对应的响应页面聚合后的类别;
对所述多个无效链接对应的响应页面的类别进行聚类运算,得到所述多个无效链接对应的响应页面聚合后的类别;
对所述待识别链接对应的响应页面进行聚类运算,得到所述待识别链接对应的响应页面聚合后的类别;
确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度;
所述若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接,包括:
若所述待识别链接对应的响应页面聚合后的任意一个类别,与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值,则确定所述待识别链接为无效链接。
可选的,所述根据所述待识别链接对应的URL构造多个无效链接,包括:
获取N个第二文件名,以及获取M个第二扩展名,将所述N个第二文件名和所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数;
将所述第一文件名与所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到M个无效链接;
构造I个第二目录,用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录,得到I个无效链接,I为大于或等于1的正整数。
可选的,所述根据所述待识别链接对应的URL构造多个无效链接对应的URL之前,所述方法还包括:
确定所述待识别链接是否已经被识别过;
若所述待识别链接已经被识别过,则从数据库中查找所述待识别链接的信息,根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接;
若所述待识别链接没有被识别过,则确定所述待识别链接对应的页面是否是重定向页面;
若所述待识别对应的页面不是重定向页面,则根据所述待识别链接对应的URL构造所述多个无效链接对应的URL。
可选的,所述方法还包括:
若所述待识别链接对应的页面为重定向页面,则获取所述重定向页面的响应页面;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面不存在,则确定所述重定向页面对应的链接为无效链接;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在,则确定所述重定向页面对应的链接是否被识别过;
若所述重定向页面对应的链接被识别过,则从所述数据库中查找所述重定向页面对应的链接的信息,根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接;
若所述重定向页面对应的链接没有被识别过,则根据所述重定向页面对应的链接构造多个无效链接。
可选的,所述方法还包括:若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值,则确定所述待识别链接为有效链接。
可选的,在确定所述待识别链接为无效链接之后,所述方法还包括:
将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。
本发明第二方面提供一种无效链接的识别装置,包括:
第一获取模块,用于获取待识别链接对应的统一资源符URL,所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名,;
构造模块,用于根据所述待识别链接对应的URL构造多个无效链接,所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,所述多个无效链接对应的URL包括的目录、文件名和扩展名,与所述第一目录、第一文件名和第一扩展名中的至少一个不同;
第二获取模块,用于获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面;
确定模块,用于确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度;
识别模块,用于若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接。
可选的,所述确定模块包括:
去噪单元,用于对所述多个无效链接对应的响应页面分别进行去噪处理;
聚类单元,用于对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到所述每个无效链接对应的响应页面聚合后的类别;
所述聚类单元,还用于对所述多个无效链接对应的响应页面的类别进行聚类运算,得到所述多个无效链接对应的响应页面聚合后的类别;
所述聚类单元,还用于对所述待识别链接对应的响应页面进行聚类运算,得到所述待识别链接对应的响应页面聚合后的类别;
确定单元,用于确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度;
所述识别模块具体用于:若所述待识别链接对应的响应页面聚合后的任意一个类别,与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值,则确定所述待识别链接为无效链接。
可选的,所述构造模块具体用于:
获取N个第二文件名,以及获取M个第二扩展名,将所述N个第二文件名和所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数;
将所述第一文件名与所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到M个无效链接;
构造I个第二目录,用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录,得到I个无效链接,I为大于或等于1的正整数。
可选的,所述无效链接的识别装置还包括预处理模块,所述预处理模块用于:
确定所述待识别链接是否已经被识别过;
若所述待识别链接已经被识别过,则从数据库中查找所述待识别链接的信息,根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接;
若所述待识别链接没有被识别过,则确定所述待识别链接对应的页面是否是重定向页面;
若所述待识别对应的页面不是重定向页面,则指示所述构造模块根据所述待识别链接对应的URL构造所述多个无效链接。
可选的,所述预处理模块还用于:
若所述待识别链接对应的页面为重定向页面,则获取所述重定向页面的响应页面;
若所述重定向页面的应页面中包括的状态码指示所述重定向页面不存在,则确定所述重定向页面对应的链接为无效链接;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在,则确定所述重定向页面对应的链接是否被识别过;
若所述重定向页面对应的链接被识别过,则从所述数据库中查找所述重定向页面对应的链接的信息,根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接;
若所述重定向页面对应的链接没有被识别过,则指示所述构造模块根据所述重定向页面对应的链接构造多个无效链接。
可选的,所述识别模块还用于:
若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值,则确定所述待识别链接为有效链接。
可选的,所述无效链接的识别装置还包括:
更新模块,用于将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。
本发明提供的无效链接的识别方法和装置,通过获取待识别链接对应的URL,根据待识别链接对应的URL构造多个无效链接,进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面,确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度,若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定待识别链接为无效链接。所述方法中,通过主动构造无效链接的样本,根据待识别链接和无效链接对应的响应页面的相似度确定无效链接,提高了无效链接识别的准确性。
附图说明
图1为本发明实施例一提供的识别无效链接的方法的流程图;
图2为本发明实施例二提供的无效链接的识别方法的流程图;
图3为本发明实施例三提供的无效链接的识别方法的流程图;
图4为本发明实施例四提供的一种无效链接的识别装置的结构示意图;
图5为本发明实施例五提供的一种无效链接的识别装置的结构示意图;
图6为本发明实施例六提供的一种无效链接的识别装置的结构示意图。
具体实施方式
图1为本发明实施例一提供的识别无效链接的方法的流程图,本实施例的方法可以由无效链接的识别装置执行,如图1所示,本实施例的方法可以包括:
步骤101、获取待识别链接对应的统一资源符(Uniform Resource Locator,简称URL),该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名。
待识别链接通常由用户输入,例如,用户通过浏览器点击网页上的一个链接之后,浏览器会向服务器发送该链接,无效链接的识别装置就能够获取到该链接对应的URL,在互联网中,每个页面都唯一对应一个URL,URL即通常所说的网址。
URL通常由三部分组成:协议、服务器域名或IP地址、资源文件名。其中,协议部分用于指示通信所使用的协议,常用的协议有超文本传输协议(Hypertext Transfer Protocol,简称HTTP)、文件传输协议(File TransferProtocol,简称FTP)、网际Gopher协议(The Internet Gopher Protocol,简称GOPHER)、基于安全套接层的超文本传输协议(Hyper Text Transfer Protocolover Secure Socket Layer,简称HTTPS)以及电子邮件协议(Mailto Protocol)等。服务器域名或IP地址部分不仅仅包括服务器的IP地址或服务器的域名,还可以包括端口号或链接服务器必须的用户名称和密码。资源文件名部分通常以等级结构包含资源的路径,不同等级之间通过斜线(/)隔开,例如,常见的资源文件名部分包括目录和文件名,一个目录下包含多个文件名,文件名从属于目录,文件名之后还会有文件名的扩展名,资源文件名部分还可以包括其他参数。例如,URL:http://www.baidu/test/admin.php,其中,http://为协议的格式,www.baidu为服务器的域名,test为目录,admin.php为文件名。
步骤102、根据待识别链接对应的URL构造多个无效链接,多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,多个无效链接对应的URL包括的目录、文件名和扩展名,与第一目录、第一文件名和第一扩展名中的至少一个不同。
其中,多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,多个无效链接对应的URL包括的目录、文件名和扩展名,与第一目录、第一文件名和第一扩展名中的至少一个不同,具体为:多个无效链接对应的URL包括的文件名与第一文件名不同,第一目录和多个无效链接对应的URL包括的目录相同,第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者,第一目录和多个无效链接对应的URL包括的目录不同,多个无效链接对应的URL包括的文件名与第一文件名相同,第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者,第一扩展名和多个无效链接对应的URL包括的扩展名不同,第一目录和多个无效链接对应的URL包括的目录相同,多个无效链接对应的URL包括的文件名与第一文件名相同。或者,多个无效链接对应的URL包括的文件名与第一文件名不同,第一目录和多个无效链接对应的URL包括的目录不同,第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者,多个无效链接对应的URL包括的文件名与第一文件名不同,第一扩展名和多个无效链接对应的URL包括的扩展名不同,第一目录和多个无效链接对应的URL包括的目录相同。或者,第一扩展名和多个无效链接对应的URL包括的扩展名不同,第一目录和多个无效链接对应的URL包括的目录不同,多个无效链接对应的URL包括的文件名与第一文件名相同。或者,第一扩展名和多个无效链接对应的URL包括的扩展名、第一目录和多个无效链接对应的URL包括的目录、多个无效链接对应的URL包括的文件名与第一文件名均不同。
具体可以通过以下方式构造多个无效链接:
(1)获取N个第二文件名,以及获取M个第二扩展名,将N个第二文件名和M个第二扩展名进行任意组合后,替换待识别链接对应的URL中包括的第一文件名和第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数。其中,第二文件名可以随机生成,或者,按照预先设定的构造规则生成,生成的第二文件名的个数可以预先规定好,第二扩展名与服务器上存储的文件的类型有关。
(2)将第一文件名与M个第二扩展名进行任意组合后,替换待识别链接对应的URL中包括的第一文件名和第一扩展名,得到M个无效链接。
由于有些web服务器对文件名敏感,如果全部采用随机文件名,采集到的无效链接的样本不够全面,因此,本实施例中用待识别链接的第一文件名与M个第二扩展名进行组合后获得无效链接。
(3)构造I个第二目录,用I个第二目录替换待识别链接对应的URL中包括的第一目录,得到I个无效链接,I为大于或等于1的正整数。
本实施例中,构造的无效链接的样本越多,则对于后续无效链接的识别更加准确,因此,可以通过用第二目录替换待识别链接对应的URL中包括的第一目录,扩大无效链接的样本。
步骤103、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。
具体的,无效链接的识别装置向服务器发送多个无效链接,服务器会向无效链接的识别装置返回每个无效链接对应的响应页面。同样,无效链接的识别装置也向服务器发送待识别链接,服务器向无效链接的识别装置返回待识别链接对应的响应页面。
步骤104、确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度。
可以采用现有的任意一种方式确定两个响应页面的相似度。
步骤105、若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定待识别链接为无效链接。
本实施例中,相似度阈值预先设定好,若待识别链接对应的响应页面和某个无效链接中的对应响应页面的相似度大于相似度阈值,说明待识别链接对应的响应页面和无效链接中的对应响应页面很相似,则将待识别链接确定为无效链接。若待识别链接对应的响应页面和多个无效链接中的所有无效链接的响应页面的相似度均小于或等于相似度阈值,则确定待识别链接为有效链接。
本实施例中,通过获取待识别链接对应的URL,根据待识别链接对应的URL构造多个无效链接,进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面,确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度,若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定待识别链接为无效链接。所述方法中,通过主动构造无效链接的样本,根据待识别链接和无效链接对应的响应页面的相似度确定无效链接,提高了无效链接识别的准确性。
进一步,若构造的无效链接的样本数足够多,那么就能够全面的识别出所有的无效链接,进而能够准确的获知网站结构。
实施例一中若构造的无效链接数量多,在确定待识别链接对应的响应页面和无效链接对应的响应页面的相似度时,计算量会很大且很耗时,本发明实施例二在实施例一的基础上进行了进一步的优化。图2为本发明实施例二提供的无效链接的识别方法的流程图,如图2所示,本实施例提供的方法可以包括以下步骤。
步骤201、获取待识别链接对应的URL,该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名。
步骤202、根据待识别链接对应的URL构造多个无效链接,多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,多个无效链接对应的URL包括的目录、文件名和扩展名,与第一目录、第一文件名和第一扩展名中的至少一个不同。
步骤203、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。
步骤201-203的具体实现方式请参照实施例一中步骤101-103的具体实现方式,这里不再赘述。
步骤204、对多个无效链接对应的响应页面分别进行去噪处理。
无效链接对应的响应页面中会包含一些与无效链接的构造相关的特征,这些与无效链接的构造相关的特征会影响无效链接对应的响应页面的聚类,因此在去噪处理时需要剔除掉与无效链接的构造相关的特征。与无效链接的构造相关的特征通常是一些随机构造的字符串,例如,待识别链接对应的URl为http://www.test.com/a/index.php,构造的无效链接对应的URL为http://www.test.com/a/rfcmjiwe.php,其中,无效链接对应的URL中的字符串‘rfcmjiwe’为随机构造的,若该无效链接对应的响应页面中有与随机字符串‘rfcmjiwe’相关的内容,那么需要剔除掉这些随构造不同而变化的部分,留下的是页面不变的元素,最大程度的提升准确性。如果不剔除掉这部分,就会影响后续与待识别链接对应的响应页面之间相似度的对比。
另外,无效链接对应的响应页面的DOM可能不是一个规范的DOM结构,主要由以下两方面的因素引起:一方面在网站开发者并不是完全遵守规范来编写网页,另一方面在去噪时剔除掉了可变因子,导致DOM结构不是一个完整的规范的DOM结构。因此,在去噪处理后还需要对无效链接对应的响应页面进行统一编码,对无效链接对应的响应页面进行修正、删除、配对等,使无效链接对应的响应页面的DOM结果为规范的DOM结构。另外,各页面的编码是多种多样,有utf8、gbk等多种格式,为了方便我们统一处理和维护,需要对各种编码进行统一处理。
步骤205、对多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到每个无效链接对应的响应页面聚合后的类别。
每个无效链接对应的响应页面中都包括文档对象模型(Document ObjectModel,简称DOM),DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系,可以把DOM认为是页面上数据和结构的一个树形表示。
对于某个无效链接,首先提取该无效链接对应的响应页面的DOM树的所有叶子节点的路径,一棵DOM树包括:根节点、非叶子节点和叶子节点,每个节点都有标识、属性、内容等。叶子节点的路径即从根节点到叶子节点所经过的路径。假设DOM树D共有n个叶子节点,那么DOM树D的所有叶子节点的路径表示为D={D1,D2……Di……Dj……Dn}。Dn是根节点到第n个叶子节点的路径,Dn具体可以表示为:Dn=[Pn1,Pn2……Pnx],Pnx表示路径上的节点。
在提取该无效链接对应的响应页面的DOM树的所有叶子节点的路径之后,根据各叶子节点的路径之间的相似度进行聚类运算,将各叶子节点的路径进行合并。例如,若第i个叶子节点的路径Di与第j个叶子节点路径Dj的相似度小于α|时,即Di-Dj|<α,则认为Di和Dj可以聚合为一类,α为预先设置的参数,聚合后的类别可以用路径Di或Dj表示。通过聚合运算将DOM树D的所有叶子节点的路径聚合为集合T,T={T1,T2……Tm},集合T中的任意两个类别的相似度大于β,β为预先设置的参数,任意两个类别的相似度大于β说明集合T已经收敛。
步骤206、对多个无效链接对应的响应页面的类别进行聚类运算,得到多个无效链接对应的响应页面聚合后的类别。
在步骤205中是对每个无效链接内部的多个叶子节点的路径进行聚合,本步骤是进行无效链接之间的聚合,假设多个无效链接在步骤205聚合后共有K个类别,共同组成集合C={C1,C2……Ck},Ck表示第k个类别,那么对K个类别进行聚合,当|Ci-Cj|>γ,认为Ci和Cj相似,可归并为一类,Ci和Cj表示K个类别中的任意两个类别,通过对K个类别进行聚合,最终得到多个无效链接聚合后的类别集合R={R1,R2……Rs}。
步骤207、对待识别链接对应的响应页面进行聚类运算,得到待识别链接对应的响应页面聚合后的类别。
对待识别链接对应的响应页面进行聚合时,可以采用与步骤205中相同的方法,这里不再赘述。
步骤205-207通过聚合将相似的路径进行合并,减少了本实施例中提到的路径都是指叶子节点的路径,例如,待识别链接对应的响应页面的DOM树中原来有10条路径,进行聚合后只有三条路径。
步骤208、确定待识别链接对应的响应页面聚合后的类别与多个无效链接对应的响应页面聚合后的类别的相似度。
待识别链接对应的响应页面聚合后的类别可能有多个,多个无效链接对应的响应页面聚合后的类别也可能有多个,每个类别表示一的路径,类别中具体包括该条路径上每个节点的标识、节点的属性和节点的内容等信息。
步骤209、若待识别链接对应的响应页面聚合后的任意一个类别,与多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于相似度阈值,则确定待识别链接为无效链接。
例如,待识别链接对应的响应页面聚合后的类别为两个T1和T2,多个无效链接对应的响应页面聚合后的类别为三个R1、R2和R3,那么,需要分别计算T1与R1、R2、R3的相似度,以及T2与R1、R2、R3的相似度,只要T1或T2与R1、R2、R3中的任意一个类别的相似度大于相似度阈值,就确定待识别链接为无效链接。
若待识别链接对应的响应页面聚合后的所有类别与多个无效链接对应的响应页面聚合后的所有类别的相似度均小于或等于相似度阈值,则确定但判断链接为有效链接。
步骤210、将待识别链接和多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立多个无效链接对应的响应页面聚合后的类别与第一目录的对应关系。
本实施例中,以目录为单位存储无效链接对应的响应页面聚合后的类别,如果再有该目录下的链接要进行判断时,可以不再进行无效链接的构造,直接对待识别链接对应的响应页面进行聚类运算,得到待识别链接对应的响应页面聚合后的类别,确定待识别链接对应的响应页面聚合后的类别与该目录下的多个无效链接对应的响应页面聚合后的类别的相似度。
本实施例中,通过对每个无效链接对应的响应页面和待识别链接对应的响应页面进行聚类运算,进一步对多个无效链接对应的响应页面的类别进行聚类运算,将多个无效链接中相似的响应页面进行合并,以减少无效链接对应的响应页面的内容,后续在进行相似度计算时,只需要计算待识别链接对应的响应页面聚合后的类别与多个无效链接对应的响应页面聚合后的类别的相似度,从而减小了相似度的计算量,节省了相似度计算所需的时间,提高了无效链接的识别效率。
图3为本发明实施例三提供的无效链接的识别方法的流程图,如图3所示,本实施例提供的方法包括以下步骤:
步骤301、获取待识别链接对应的URL。
该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名,第一扩展名为第一文件名的扩展名。
步骤302、确定待识别链接是否已经被识别过。
若待识别链接已经被识别过,则执行步骤303。若待识别链接没有被识别过,则执行步骤304。
步骤303、从数据库中查找待识别链接的信息,根据待识别链接的信息确定待识别链接为无效链接或有效链接。
数据库用于保存已经被识别过的所有链接、已经被识别过的所有链接的信息,以及以目录为单位保存目录下的多个无效链接对应的响应页面聚合后的类别。其中,已经被识别过的所有链接的信息中包括该被识别过的链接为有效链接或者无效链接。
步骤303之后执行步骤312。
步骤304、确定待识别链接对应的页面是否是重定向页面。
若待识别链接对应的页面不为重定向页面,则执行步骤305,若待识别链接对应的页面是重定向页面,则执行步骤310。
步骤305、根据待识别链接对应的URL构造多个无效链接。
步骤305的具体实现方式可参照实施例一中步骤102的具体实现方式,这里不再赘述。
步骤306、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。
步骤307、确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度。
步骤308、若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定待识别链接为无效链接。
步骤307-309的具体实现方式可参照实施例二中步骤204-209,这里不再赘述。
步骤309、输出判断结果。
步骤310、将重定向页面对应的链接作为待判定链接,确定重定向页面对应的链接为有效链接或无效链接。
其中,步骤310具体可以包括以下子步骤401-409(图3中未示出),步骤310执行之后执行步骤309。
步骤401、获取重定向页面的响应页面。
步骤402、确定重定向页面的状态码是否指示重定向页面不存在。
若重定向页面的状态码指示所述重定向页面不存在,则执行步骤403。若重定向页面的状态码指示重定向页面存在,则执行步骤404。
步骤403、确定重定向页面对应的链接为无效链接。
步骤404、确定重定向页面对应的链接是否被识别过。
若重定向页面对应的链接被识别过,则执行步骤405,若重定向页面对应的链接没有被识别过,则执行步骤406。
步骤405、从数据库中查找重定向页面对应的链接的信息,根据重定向页面对应的链接的信息确定重定向页面对应的链接为无效链接或有效链接。
步骤406、根据重定向页面对应的链接构造多个无效链接。
步骤407、获取多个无效链接对应的响应页面和重定向页面的响应页面。
步骤408、确定重定向页面的响应页面和多个无效链接对应的响应页面的相似度。
步骤409、若重定向页面的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定重定向页面为无效链接。
本实施例中,在获取到待识别链接对应的URL之后,通过确定待识别链接是否已经被识别过,若待识别链接被识别过,则执行从数据库中查找待识别链接的信息,根据待识别链接的信息确定待识别链接是无效链接还是有效链接,进一步提高了无效链接的识别效率。
图4为本发明实施例四提供的一种无效链接的识别装置的结构示意图,如图4所示,本实施例提供的无效链接的识别装置包括:
第一获取模块11,用于获取待识别链接对应的统一资源符URL,所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名,;
构造模块12,用于根据所述待识别链接对应的URL构造多个无效链接,所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,所述多个无效链接对应的URL包括的目录、文件名和扩展名,与所述第一目录、第一文件名和第一扩展名中的至少一个不同;
第二获取模块13,用于获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面;
确定模块14,用于确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度;
识别模块15,用于若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接。
可选的,所述构造模块12具体用于:获取N个第二文件名,以及获取M个第二扩展名,将所述N个第二文件名和所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数;
将所述第一文件名与所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到M个无效链接;
构造I个第二目录,用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录,得到I个无效链接,I为大于或等于1的正整数。
可选的,所述识别模块15还用于:若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值,则确定所述待识别链接为有效链接。
本实施例提供的无效链接的识别装置,可用于执行实施例一的方法,具体实现方式和技术效果类似,这里不再赘述。
图5为本发明实施例五提供的一种无效链接的识别装置的结构示意图,如图5所示,本实施例在实施例4的基础上,所述确定模块14包括:
去噪单元141,用于对所述多个无效链接对应的响应页面分别进行去噪处理;
聚类单元142,用于对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到所述每个无效链接对应的响应页面聚合后的类别;
所述聚类单元142,还用于对所述多个无效链接对应的响应页面的类别进行聚类运算,得到所述多个无效链接对应的响应页面聚合后的类别;
所述聚类单元142,还用于对所述待识别链接对应的响应页面进行聚类运算,得到所述待识别链接对应的响应页面聚合后的类别;
确定单元143,用于确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度;
所述识别模块15具体用于:若所述待识别链接对应的响应页面聚合后的任意一个类别,与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值,则确定所述待识别链接为无效链接。
进一步的,本实施例的无效链接的识别装置还包括:更新模块16,用于将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。
本实施例提供的无效链接的识别装置,可用于执行实施例二的方法,具体实现方式和技术效果类似,这里不再赘述。
图6为本发明实施例六提供的一种无效链接的识别装置的结构示意图,如图6所示,本实施例在实施例四的基础上,无效链接的识别装置还包括预处理模块17,所述预处理模块17用于:
确定所述待识别链接是否已经被识别过;
若所述待识别链接已经被识别过,则从数据库中查找所述待识别链接的信息,根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接;
若所述待识别链接没有被识别过,则确定所述待识别链接对应的页面是否是重定向页面;
若所述待识别对应的页面不是重定向页面,则指示所述构造模块12根据所述待识别链接对应的URL构造所述多个无效链接。
若所述待识别链接对应的页面为重定向页面,则获取所述重定向页面的响应页面;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面不存在,则确定所述重定向页面对应的链接为无效链接;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在,则确定所述重定向页面对应的链接是否被识别过;
若所述重定向页面对应的链接被识别过,则从所述数据库中查找所述重定向页面对应的链接的信息,根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接;
若所述重定向页面对应的链接没有被识别过,则指示所述构造模块12根据所述重定向页面对应的链接构造多个无效链接。
本实施例提供的无效链接的识别装置,可用于执行实施例三的方法,具体实现方式和技术效果类似,这里不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种无效链接的识别方法,其特征在于,包括:
获取待识别链接对应的统一资源符URL,所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名;
根据所述待识别链接对应的URL构造多个无效链接,所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,所述多个无效链接对应的URL包括的目录、文件名和扩展名,与所述第一目录、第一文件名和第一扩展名中的至少一个不同;
获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面;
确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度;
若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接。
2.根据权利要求1所述的方法,其特征在于,确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度,包括:
对所述多个无效链接对应的响应页面分别进行去噪处理;
对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到所述每个无效链接对应的响应页面聚合后的类别;
对所述多个无效链接对应的响应页面的类别进行聚类运算,得到所述多个无效链接对应的响应页面聚合后的类别;
对所述待识别链接对应的响应页面进行聚类运算,得到所述待识别链接对应的响应页面聚合后的类别;
确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度;
所述若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接,包括:
若所述待识别链接对应的响应页面聚合后的任意一个类别,与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值,则确定所述待识别链接为无效链接。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述待识别链接对应的URL构造多个无效链接,包括:
获取N个第二文件名,以及获取M个第二扩展名,将所述N个第二文件名和所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数;
将所述第一文件名与所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到M个无效链接;
构造I个第二目录,用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录,得到I个无效链接,I为大于或等于1的正整数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别链接对应的URL构造多个无效链接对应的URL之前,所述方法还包括:
确定所述待识别链接是否已经被识别过;
若所述待识别链接已经被识别过,则从数据库中查找所述待识别链接的信息,根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接;
若所述待识别链接没有被识别过,则确定所述待识别链接对应的页面是否是重定向页面;
若所述待识别对应的页面不是重定向页面,则根据所述待识别链接对应的URL构造所述多个无效链接对应的URL。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述待识别链接对应的页面为重定向页面,则获取所述重定向页面的响应页面;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面不存在,则确定所述重定向页面对应的链接为无效链接;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在,则确定所述重定向页面对应的链接是否被识别过;
若所述重定向页面对应的链接被识别过,则从所述数据库中查找所述重定向页面对应的链接的信息,根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接;
若所述重定向页面对应的链接没有被识别过,则根据所述重定向页面对应的链接构造多个无效链接。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值,则确定所述待识别链接为有效链接。
7.根据权利要求2所述的方法,其特征在于,在确定所述待识别链接为无效链接之后,所述方法还包括:
将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。
8.一种无效链接的识别装置,其特征在于,包括:
第一获取模块,用于获取待识别链接对应的统一资源符URL,所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名;
构造模块,用于根据所述待识别链接对应的URL构造多个无效链接,所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名,所述多个无效链接对应的URL包括的目录、文件名和扩展名,与所述第一目录、第一文件名和第一扩展名中的至少一个不同;
第二获取模块,用于获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面;
确定模块,用于确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度;
识别模块,用于若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值,则确定所述待识别链接为无效链接。
9.根据权利要求8所述的装置,其特征在于,所述确定模块包括:
去噪单元,用于对所述多个无效链接对应的响应页面分别进行去噪处理;
聚类单元,用于对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算,得到所述每个无效链接对应的响应页面聚合后的类别;
所述聚类单元,还用于对所述多个无效链接对应的响应页面的类别进行聚类运算,得到所述多个无效链接对应的响应页面聚合后的类别;
所述聚类单元,还用于对所述待识别链接对应的响应页面进行聚类运算,得到所述待识别链接对应的响应页面聚合后的类别;
确定单元,用于确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度;
所述识别模块具体用于:若所述待识别链接对应的响应页面聚合后的任意一个类别,与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值,则确定所述待识别链接为无效链接。
10.根据权利要求8或9所述的装置,其特征在于,所述构造模块具体用于:
获取N个第二文件名,以及获取M个第二扩展名,将所述N个第二文件名和所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到N*M个无效链接,M和N均为大于或等于1的正整数;
将所述第一文件名与所述M个第二扩展名进行任意组合后,替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名,得到M个无效链接;
构造I个第二目录,用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录,得到I个无效链接,I为大于或等于1的正整数。
11.根据权利要求8所述的装置,其特征在于,还包括预处理模块,所述预处理模块用于:
确定所述待识别链接是否已经被识别过;
若所述待识别链接已经被识别过,则从数据库中查找所述待识别链接的信息,根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接;
若所述待识别链接没有被识别过,则确定所述待识别链接对应的页面是否是重定向页面;
若所述待识别对应的页面不是重定向页面,则指示所述构造模块根据所述待识别链接对应的URL构造所述多个无效链接。
12.根据权利要求11所述的装置,其特征在于,所述预处理模块还用于:
若所述待识别链接对应的页面为重定向页面,则获取所述重定向页面的响应页面;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面不存在,则确定所述重定向页面对应的链接为无效链接;
若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在,则确定所述重定向页面对应的链接是否被识别过;
若所述重定向页面对应的链接被识别过,则从所述数据库中查找所述重定向页面对应的链接的信息,根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接;
若所述重定向页面对应的链接没有被识别过,则指示所述构造模块根据所述重定向页面对应的链接构造多个无效链接。
13.根据权利要求8所述的装置,其特征在于,所述识别模块还用于:
若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值,则确定所述待识别链接为有效链接。
14.根据权利要求9所述的装置,其特征在于,还包括:
更新模块,用于将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中,并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。
CN201510430940.9A 2015-07-21 2015-07-21 无效链接的识别方法和装置 Active CN105022824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510430940.9A CN105022824B (zh) 2015-07-21 2015-07-21 无效链接的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510430940.9A CN105022824B (zh) 2015-07-21 2015-07-21 无效链接的识别方法和装置

Publications (2)

Publication Number Publication Date
CN105022824A true CN105022824A (zh) 2015-11-04
CN105022824B CN105022824B (zh) 2018-07-03

Family

ID=54412793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510430940.9A Active CN105022824B (zh) 2015-07-21 2015-07-21 无效链接的识别方法和装置

Country Status (1)

Country Link
CN (1) CN105022824B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787038A (zh) * 2016-02-25 2016-07-20 北京搜狗科技发展有限公司 一种挖掘统一资源定位符转换规则的方法及电子设备
CN106844475A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 确定隐藏的url的方法及装置
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN108207119A (zh) * 2016-10-17 2018-06-26 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
CN108664493A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
WO2019085691A1 (zh) * 2017-10-30 2019-05-09 清华大学 基于one-hot编码机制的无监督异常访问检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853719B1 (en) * 2002-02-11 2010-12-14 Microsoft Corporation Systems and methods for providing runtime universal resource locator (URL) analysis and correction
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置
CN102752154A (zh) * 2012-07-29 2012-10-24 西北工业大学 Web网站死链检测方法
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853719B1 (en) * 2002-02-11 2010-12-14 Microsoft Corporation Systems and methods for providing runtime universal resource locator (URL) analysis and correction
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置
CN102752154A (zh) * 2012-07-29 2012-10-24 西北工业大学 Web网站死链检测方法
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787038A (zh) * 2016-02-25 2016-07-20 北京搜狗科技发展有限公司 一种挖掘统一资源定位符转换规则的方法及电子设备
CN105787038B (zh) * 2016-02-25 2019-04-30 北京搜狗科技发展有限公司 一种挖掘统一资源定位符转换规则的方法及电子设备
CN108207119A (zh) * 2016-10-17 2018-06-26 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
CN108207119B (zh) * 2016-10-17 2021-06-01 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
US11361046B2 (en) 2016-10-17 2022-06-14 Google Llc Machine learning classification of an application link as broken or working
CN106844475A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 确定隐藏的url的方法及装置
CN108664493A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
CN108664493B (zh) * 2017-03-29 2021-09-03 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN107729395B (zh) * 2017-09-20 2020-11-24 杭州安恒信息技术股份有限公司 一种冗余页面的发现方法
WO2019085691A1 (zh) * 2017-10-30 2019-05-09 清华大学 基于one-hot编码机制的无监督异常访问检测方法及装置

Also Published As

Publication number Publication date
CN105022824B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN105022824A (zh) 无效链接的识别方法和装置
CN100565526C (zh) 一种针对网页作弊的反作弊方法及系统
US8799310B2 (en) Method and system for processing a uniform resource locator
US10210240B2 (en) Systems and methods for code parsing and lineage detection
US9734149B2 (en) Clustering repetitive structure of asynchronous web application content
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN105095067A (zh) 用户界面元素对象识别及自动化测试的方法和装置
US9135383B2 (en) Table model circuit simulation acceleration using model caching
US20090083266A1 (en) Techniques for tokenizing urls
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN104778164A (zh) 检测重复url的方法及装置
CN103399872A (zh) 对网页抓取进行优化的方法和装置
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
US10223086B2 (en) Systems and methods for code parsing and lineage detection
CN115062206B (zh) 一种网页元素的搜索方法和电子设备
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN104281693A (zh) 一种语义搜索方法及系统
CN115391568A (zh) 基于知识图谱的实体分类方法、系统、终端及存储介质
CN114596070A (zh) 一种基于知识图谱的产品优化设计平台构建方法
CN103870590A (zh) 具有报错特征的网页识别方法和装置
WO2021074922A1 (en) System and method for identification of web elements used in automation test case

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing

Patentee after: NSFOCUS Technologies Group Co.,Ltd.

Patentee after: NSFOCUS TECHNOLOGIES Inc.

Address before: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing

Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.