CN106708952B - 一种网页聚类方法及装置 - Google Patents

一种网页聚类方法及装置 Download PDF

Info

Publication number
CN106708952B
CN106708952B CN201611068233.0A CN201611068233A CN106708952B CN 106708952 B CN106708952 B CN 106708952B CN 201611068233 A CN201611068233 A CN 201611068233A CN 106708952 B CN106708952 B CN 106708952B
Authority
CN
China
Prior art keywords
url
attribute
label
weight
rewriting rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611068233.0A
Other languages
English (en)
Other versions
CN106708952A (zh
Inventor
郭洋洋
刘少彬
李菲
李虎
刘丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN201611068233.0A priority Critical patent/CN106708952B/zh
Publication of CN106708952A publication Critical patent/CN106708952A/zh
Priority to JP2019528069A priority patent/JP6827116B2/ja
Priority to US16/463,084 priority patent/US11023540B2/en
Priority to PCT/CN2017/112883 priority patent/WO2018095411A1/zh
Application granted granted Critical
Publication of CN106708952B publication Critical patent/CN106708952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页聚类方法及装置,用于实现按照网页框架对网页进行聚类,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。通过上述方法,可以将具有相同页面框架结构的网页聚为一类,从而克服了现有聚类方法无法根据网页框架进行聚类的问题,提供了一种更适用于涉及页面框架的处理过程的聚类方法。

Description

一种网页聚类方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页聚类方法及装置。
背景技术
现有的网页聚类方法主要是基于网页文本特征的聚类,即提取关键内容或出现频率较高的词汇作为特征值进行聚类,从而将内容相似的页面聚为一类,这种聚类方法仅适用于如文本检索等文本处理方面可以明显提高处理效率。
但是,网页除具备文本特征外,还具有包含超链接、内容半结构化、规模庞大、格式异构等特点,对于具有相同网页框架的同一类网页,其文本特征可能存在差异,即,根据网页的文本特征进行聚类并不能将相同框架的网页聚为一类,因此,根据网页文本特征聚类的方法在与网页框架有关的处理方面并不适用。相同框架的页面有着相同的业务流程或数据处理流程,若能够将相同框架的页面聚为一类,那么其中的一个页面就可以代表这一类页面。在针对大型框架类站点进行处理的应用,比如爬虫、站点地图、漏洞检测等方面,采用这种网页聚类技术,可以在保证结果全面的情况下,大大提高效率。因此,目前仍缺少一种可以按照网页框架结构对网页聚类的方法。
发明内容
本发明提供一种网页聚类方法及装置,用以解决现有技术中存在的不能按照网页框架对网页进行聚类的问题。
本发明实施例提供一种网页聚类方法,包括:
获取多个待聚类页面的统一资源定位符URL;
针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。
可选地,针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类,包括:
将多个待聚类页面的URL作为URL集合;
根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;
确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;
从URL集合中删除同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。
可选地,根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则,包括:
从URL集合中提取第一URL和第二URL,确定第一URL和第二URL的重写规则;
方法还包括:
若第一URL和第二URL的重写规则为不可信的重写规则,则从URL集合中提取第三URL和第四URL,确定第三URL和第四URL的重写规则,并返回确定两个不同URL的重写规则是否可信重写规则的步骤,第三URL和第四URL中至少有一个为URL集合中除第一URL和第二URL之外的其它URL。
可选地,通过以下方法判断重写规则是否可信,包括:
若重写规则的表现形式为纯字母或纯数字,且纯字母或纯数字的位数不确定,则重写规则不可信。
可选地,针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类,包括:
针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;
对比各URL的指纹特征值之间的差值是否低于设定阈值;
若低于设定阈值,则确定各URL为可聚类。
可选地,根据HTML文件中的标签信息,获取HTML文件的指纹特征值,包括:
从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;
依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;
根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。
可选地,根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值,包括:
HTML文件中的位置包括头中尾各部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;
标签的属性包括身份属性、类别属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,身份属性的属性权重值高于非典型属性的属性权重值,类别属性的属性权重值高于非典型属性的属性权重值。
本发明实施例提供一种网页聚类装置,包括:
爬取模块,用于获取多个待聚类页面的统一资源定位符URL;
分类模块,用于针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
判断模块,用于针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。
可选地,分类模块具体用于:
将多个待聚类页面的URL作为URL集合;
根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;
确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;
从URL集合中删除同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。
可选地,分类模块具体还用于:
从URL集合中提取第一URL和第二URL,确定第一URL和第二URL的重写规则;
分类模块还用于:
当第一URL和第二URL的重写规则为不可信的重写规则时,从URL集合中提取第三URL和第四URL,确定第三URL和第四URL的重写规则,并返回确定两个不同URL的重写规则是否可信重写规则的步骤,第三URL和第四URL中至少有一个为URL集合中除第一URL和第二URL之外的其它URL。
可选地,分类模块通过以下方法判断重写规则是否可信,包括:
若重写规则的表现形式为纯字母或纯数字,且纯字母或纯数字的位数不确定,则重写规则不可信。
可选地,判断模块具体用于:
针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;
对比各URL的指纹特征值之间的差值是否低于设定阈值;
若低于设定阈值,则确定各URL为可聚类。
可选地,判断模块具体用于:
从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;
依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;
根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。
可选地,判断模块具体用于:
将HTML文件中的位置包括头中尾三部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;
标签的属性包括身份属性、类别属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,身份属性的属性权重值高于非典型属性的属性权重值,类别属性的属性权重值高于非典型属性的属性权重值。
综上所述,本发明实施例提供一种网页聚类方法及装置,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。本发明实施例中通过对URL重写规则进行分类,获得了对待聚类页面的URL的初步分类,之后,通过提取页面框架并根据页面框架对URL的分类进行验证,经过这种先分类再验证的处理,可以将具有相同页面框架结构的网页聚为一类,从而克服了现有聚类方法无法根据网页框架进行聚类的问题,提供了一种更适用于涉及页面框架的处理过程的聚类方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网页聚类方法流程示意图;
图2为本发明实施例提供的一种站点树示意图;
图3为本发明实施例提供的一个运用网页聚类进行漏洞扫描的流程示意图;
图4为本发明实施例提供的一种网页聚类装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种网页聚类方法流程示意图,如图1所示,包括以下步骤:
S101:获取多个待聚类页面的统一资源定位符URL;
S102:针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
S103:针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。
具体实施过程中,本发明所公开的分类方法既适用于网页漏洞扫描,也适用于网页检索分析、站点数据统计等多种处理过程。
在步骤S101的具体实施过程中,待聚类页面的统一资源定位符(UniformResource Locator,URL)是通过爬虫算法获取的。URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。对于待聚类页面,每一个页面都拥有自己专属的URL。一般,这些待聚类页面都源自于同一个根URL,多为一个网站的首页,采用爬虫算法,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。可选地,爬取网页之后,对爬取的网页进行去重,将去重后的网页作为待聚类网页。
可选地,通过站点数的形式将待聚类网页的URL存储下来。待聚类网页的URL层级对应于站点树的层级,一个URL为站点树上的一个叶子结点。图2为本发明实施例提供的一种站点树示意图。如图2所示,站点树共包括3个层级,第一层级为根URL0,第二层级包括URL1、URL2和URL3,第三层级包括URL4、URL5、URL6和URL7,其中,URL4、URL5和URL6为URL1的子层级,URL7为URL3的子层级。以网站首页http://a为例,分别对上述8个URL进行举例说明,http://a为URL0,http://a/b为URL1,http://a/c为URL2,http://a/d为URL3,http://a/b/e为URL4,http://a/b/f为URL5,http://a/b/g为URL6,http://a/b/h为URL7。
在步骤S102的具体实施过程中,重写规则指的是经过重定向处理之后的同级URL,且目录特征相同的URL的表征规则,将具有相同表征规则的URL聚为一类,例如,图2中第三层级的同级URL为URL4:http://a/b/e,URL5:http://a/b/f,URL6:http://a/b/g,URL7:http://a/b/h,其中,URL4、URL5和URL6都为URL1:http://a/b的子URL,因此它们具有相同的目录特征,需从URL4、URL5和URL6中提取重写规则。此处重写规则具体指的是URL的表述规则,例如对于URL http://ent.163.com/photoview/615398.html和URL http://ent.163.com/photoview/615409.html,根据这两个URL提取的重写规则为:http://ent.163.com/photoview/%6d.html,其中,%6d表示的是URL的html文件名为6位数,http://ent.163.com/photoview表示的是这两个URL的目录特征。
可选地,本发明实施例提供一种按重写规则分类的方法,包括:将多个待聚类页面的URL作为URL集合;根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;从URL集合中删除所述同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。具体实施过程中,以URL集合A为例,A={URLa,URLb,URLc,URLd,URLe},从集合A中提取任意两个URL,如URLa和URLd,根据这两个URL的表现形式提取它们的重写规则,然后,判断这个重写规则是否可信,若可信,则根据这个重写规则,从集合A中查找符合这个规则的URL,并将这些URL作为同一个URL分类,例如,URLe也符合这个重写规则,则,URLa、URLd和URLe为同一个URL分类;之后,从集合A中删除URLa、URLd和URLe之后,对集合A中剩下的URL继续进行上述操作,直至对所有的URL都完成分类。可选地,若根据URLa和URLd提取的重写规则不可信,则从URLc、URLb和URLe中再提取两个URL重复上述过程,也可以保留URLa,从URLc、URLb和URLe中再提取一个URL与URLa进行规则提取。
本发明实施例提供一种判断重写规则是否可信的方法,包括:若所述重写规则的表现形式为纯字母或纯数字,且所述纯字母或所述纯数字的位数不确定,则所述重写规则不可信。例如,Ewafoij.html和2323232.html生成的规则.{%d},无法得到确定位数的规则,因此此规则不可信,可选地,进一步将非不可信URL分为可信URL和部分可信URL,对于如111.html和222.html生成的规则%3d.html,%3d表示由3位数字字符组成,这种规则即为可信规则,而对于如abcd_cdf001和abcd_wxyzm生成的规则abcd_.{%d},虽然含有确切的字母字符,但{%d}所示数字字符位数不确定,因此为部分可信URL。可选地,将部分可信URL和不可信URL存于特征库中,当遍历所有待聚类URL都无法获得可信URL时,从特征库中调取部分可信URL或者不可信URL进行聚类。
表一为本发明实施例提供的按照重写规则分类的分类规则,如表一所示,序号1为第一种规则,根据最低级URL的重写规则进行分类,序号2为第二种规则,根据最低级URL和次低级URL的重写规则进行分类,序号3在序号2的基础上又增加了一个层级。
表一
可选地,在步骤S103的具体实施过程中,针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类,具体指的是:针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言(HyperText Markup Language,HTML)文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;对比各URL的指纹特征值之间的差值是否低于设定阈值;若低于设定阈值,则确定各URL为可聚类。HTML文件中包含了网页页面内的链接、图片,甚至音乐、程序等非文字元素,从HTML文件中提取标签信息进一步获取的指纹特征值可以更好地表征网页的框架结构。
可选地,根据HTML文件中的标签信息,获取HTML文件的指纹特征值,具体指的是:从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。HTML文件中包含着多个标签,每个标签又包括了多个属性。这些属性的属性值被提取之后,将被用于指纹特征值的计算。可选地,根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值,具体指的是:HTML文件中的位置包括头中尾各部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;标签的属性包括身份(Identification,ID)属性、类别(Class)属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,所述身份属性的属性权重值高于所述非典型属性的属性权重值,所述类别属性的属性权重值高于所述非典型属性的属性权重值将这些提取出来的标签属性值按标签在HTML文件中位置进行权重分配,权重代表着对指纹特征值的影响程度。例如,将HTML文件分为头中尾三部分,经过大数据分析后发现,头部和尾部对HTML文件的指纹特征值影响较大,因此对头部和尾部的标签的属性值分配较高的权重。可选地,通过哈希算法计算HTML文件的指纹特征值,在计算过程中,对于单个标签的各属性值也存在着权重分配,标签中的id属性和class属性的属性值具有对网页框架敏感的特性,所以id属性和class属性的属性值相对于同一标签下的其它属性值具有较高的权重。
在获取各URL的指纹特征值后,对比同一URL分类中的各URL的指纹特征值之间的差值是否低于设定阈值;若低于设定阈值,则确定各URL为可聚类。可选地,对于同一URL分类中的各URL在于设定阈值进行对比时,不需要任意两个URL之间的指纹特征值的差值都小于预设阈值,可以根据实际应用情况设定可信度标准,当满足预设阈值的两两URL的组合在总组合数中的比例不低于可信度标准时,便认为此URL分类为可聚类。例如,对于URL分类{URL1,URL2,URL3,URL4,URL5},预设的可信度标准为80%,这5个URL共有10种两两组合,则,若其中有8种URL两两组合满足预设阈值,则此分类的可信度为80%,满足可信度标准,此URL分类为可聚类;若其中有6种URL两两组合满足预设阈值,则此分类的可信度为60%,不满足可信度标准,此URL分类不可聚类。
可选的,设定阈值与网页分区和各分区的权重分配之间存在着动态平衡,即,在获取设定阈值时,通过一定数量的已知相同网页框架的网页,通过调整分区比例和分区权重的分配,将预设阈值控制在想要的数值上。
需要指出的是,上述获取的指纹特征值并不能完全认为其具有相同的框架结构,但可以用来验证URL分类是否正确,即能够同时满足重定向规则和网页框架比对的URL便可以认为是同一类URL。
图3为本发明实施例提供的一个运用网页聚类进行漏洞扫描的流程示意图,如图所示,包括以下步骤:
S301:爬虫爬取站点所有URL,并以站点树的形式存下来;
S302:首先对第一步抓取的URL结果通过重写规则聚类;
S303:对聚为一类的URL集合进行页面框架判定是否为可聚类,如果判定结果为是,则执行步骤S304;如果判定结果为否,则执行步骤S305;
S304:提取其中一个URL进行网页扫描,该类URL中的其余URL的漏洞情况以此URL的扫描结果为准;
S305:将此URL分类中的URL全部进行网页扫描。
通过加入步骤S302网页聚类分析后,使得在步骤S304中只需扫描一个网页便可得知这个网页所述分类中其它网页的漏洞情况,从而有效地降低了网页漏洞扫描器插件部分对系统及网络资源的消耗,提升了网页扫描器的扫描效率。
综上所述,本发明实施例提供一种网页聚类方法,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。本发明实施例中通过对URL重写规则进行分类,获得了对待聚类页面的URL的初步分类,之后,通过提取页面框架并根据页面框架对URL的分类进行验证,经过这种先分类再验证的处理,可以将具有相同页面框架结构的网页聚为一类,从而克服了现有聚类方法无法根据网页框架进行聚类的问题,提供了一种更适用于涉及页面框架的处理过程的聚类方法。
基于相同的技术构思,本发明实施例还提供一种网页聚类装置,该装置可执行上述方法实施例。图4为本发明实施例提供的一种网页聚类装置结构示意图,如图4所示,网页聚类装置400包括:爬取模块401、分类模块402和判断模块403,其中:
爬取模块401,用于获取多个待聚类页面的统一资源定位符URL;
分类模块402,用于针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
判断模块403,用于针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。
可选地,分类模块402具体用于:
将多个待聚类页面的URL作为URL集合;
根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;
确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;
从URL集合中删除同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。、
可选地,分类模块402具体用于:
从URL集合中提取第一URL和第二URL,确定第一URL和第二URL的重写规则;
分类模块402具体还用于:
当第一URL和第二URL的重写规则为不可信的重写规则时,从URL集合中提取第三URL和第四URL,确定第三URL和第四URL的重写规则,并返回确定两个不同URL的重写规则是否可信重写规则的步骤,第三URL和第四URL中至少有一个为URL集合中除第一URL和第二URL之外的其它URL。
可选地,若重写规则的表现形式为纯字母或纯数字,且纯字母或纯数字的位数不确定,则重写规则不可信。
可选地,判断模块403具体用于:
针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;
对比各URL的指纹特征值之间的差值是否低于设定阈值;
若低于设定阈值,则确定各URL为可聚类。
可选地,判断模块403具体用于:
从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;
依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;
根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。
可选地,判断模块403具体用于:
将HTML文件中的位置包括头中尾三部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;
标签的属性包括身份属性、类别属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,身份属性的属性权重值高于所述非典型属性的属性权重值,所述类别属性的属性权重值高于所述非典型属性的属性权重值。
综上所述,本发明实施例提供一种网页聚类方法及装置,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。本发明实施例中通过对URL重写规则进行分类,获得了对待聚类页面的URL的初步分类,之后,通过提取页面框架并根据页面框架对URL的分类进行验证,经过这种先分类再验证的处理,可以将具有相同页面框架结构的网页聚为一类,从而克服了现有聚类方法无法根据网页框架进行聚类的问题,提供了一种更适用于涉及页面框架的处理过程的聚类方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种网页聚类方法,其特征在于,包括:
获取多个待聚类页面的统一资源定位符URL;
针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类;若所述各URL可聚类,则保留该URL分类;
其中,针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类,包括:
针对所述各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据所述HTML文件中的标签信息,获取所述HTML文件的指纹特征值;
对比所述各URL的指纹特征值之间的差值是否低于设定阈值;
若低于所述设定阈值,则确定所述各URL为可聚类。
2.如权利要求1所述的方法,其特征在于,针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类,包括:
将所述多个待聚类页面的URL作为URL集合;
根据所述URL集合中任意两个不同URL,提取所述两个不同URL的重写规则;
确定所述两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从所述URL集合中查找符合所述可信重写规则的URL作为同一URL分类;
从所述URL集合中删除所述同一URL分类中的URL,返回根据所述URL集合中任意两个不同的URL,提取所述两个不同URL的重写规则的步骤。
3.如权利要求2所述的方法,其特征在于,根据所述URL集合中任意两个不同的URL,提取所述两个不同URL的重写规则,包括:
从所述URL集合中提取第一URL和第二URL,确定所述第一URL和所述第二URL的重写规则;
所述方法还包括:
若所述第一URL和所述第二URL的重写规则为不可信的重写规则,则从所述URL集合中提取第三URL和第四URL,确定所述第三URL和所述第四URL的重写规则,并返回确定所述两个不同URL的重写规则是否可信重写规则的步骤,所述第三URL和所述第四URL中至少有一个为所述URL集合中除所述第一URL和所述第二URL之外的其它URL。
4.如权利要求1所述的方法,其特征在于,根据所述HTML文件中的标签信息,获取所述HTML文件的指纹特征值,包括:
从所述HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;
依据各标签在所述HTML文件中的位置不同,确定各标签的位置权重值;
根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到所述HTML文件的指纹特征值。
5.如权利要求4所述的方法,其特征在于,根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到所述HTML文件的指纹特征值,包括:
所述HTML文件中的位置包括头中尾各部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;
标签的属性包括身份属性、类别属性和非典型属性,所述非典型属性为除身份属性和类别属性之外的属性,其中,所述身份属性的属性权重值高于所述非典型属性的属性权重值,所述类别属性的属性权重值高于所述非典型属性的属性权重值。
6.一种网页聚类装置,其特征在于,包括:
爬取模块,用于获取多个待聚类页面的统一资源定位符URL;
分类模块,用于针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;
判断模块,用于针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类;若所述各URL可聚类,则保留该URL分类;
其中,所述判断模块具体用于:
针对所述各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据所述HTML文件中的标签信息,获取所述HTML文件的指纹特征值;
对比所述各URL的指纹特征值之间的差值是否低于设定阈值;
若低于所述设定阈值,则确定所述各URL为可聚类。
7.如权利要求6所述的装置,其特征在于,包括:
所述分类模块具体用于:
将所述多个待聚类页面的URL作为URL集合;
根据所述URL集合中任意两个不同URL,提取所述两个不同URL的重写规则;
确定所述两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从所述URL集合中查找符合所述可信重写规则的URL作为同一URL分类;
从所述URL集合中删除所述同一URL分类中的URL,返回根据所述URL集合中任意两个不同的URL,提取所述两个不同URL的重写规则的步骤。
8.如权利要求7所述的装置,其特征在于,包括:
所述分类模块具体还用于:
从所述URL集合中提取第一URL和第二URL,确定所述第一URL和所述第二URL的重写规则;
所述分类模块还用于:
当所述第一URL和所述第二URL的重写规则为不可信的重写规则时,从所述URL集合中提取第三URL和第四URL,确定所述第三URL和所述第四URL的重写规则,并返回确定所述两个不同URL的重写规则是否可信重写规则的步骤,所述第三URL和所述第四URL中至少有一个为所述URL集合中除所述第一URL和所述第二URL之外的其它URL。
9.如权利要求6所述的装置,其特征在于,包括:
所述判断模块具体用于:
从所述HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;
依据各标签在所述HTML文件中的位置不同,确定各标签的位置权重值;
根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到所述HTML文件的指纹特征值。
10.如权利要求9所述的装置,其特征在于,包括:
所述判断模块具体用于:
将所述HTML文件中的位置包括头中尾三部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;
标签的属性包括身份属性、类别属性和非典型属性,所述非典型属性为除身份属性和类别属性之外的属性,其中,所述身份属性的属性权重值高于所述非典型属性的属性权重值,所述类别属性的属性权重值高于所述非典型属性的属性权重值。
CN201611068233.0A 2016-11-25 2016-11-25 一种网页聚类方法及装置 Active CN106708952B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201611068233.0A CN106708952B (zh) 2016-11-25 2016-11-25 一种网页聚类方法及装置
JP2019528069A JP6827116B2 (ja) 2016-11-25 2017-11-24 ウェブページのクラスタリング方法及び装置
US16/463,084 US11023540B2 (en) 2016-11-25 2017-11-24 Web page clustering method and device
PCT/CN2017/112883 WO2018095411A1 (zh) 2016-11-25 2017-11-24 一种网页聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611068233.0A CN106708952B (zh) 2016-11-25 2016-11-25 一种网页聚类方法及装置

Publications (2)

Publication Number Publication Date
CN106708952A CN106708952A (zh) 2017-05-24
CN106708952B true CN106708952B (zh) 2019-11-19

Family

ID=58935063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611068233.0A Active CN106708952B (zh) 2016-11-25 2016-11-25 一种网页聚类方法及装置

Country Status (4)

Country Link
US (1) US11023540B2 (zh)
JP (1) JP6827116B2 (zh)
CN (1) CN106708952B (zh)
WO (1) WO2018095411A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708952B (zh) * 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN107317892B (zh) * 2017-06-30 2020-08-07 北京知道创宇信息技术股份有限公司 一种网络地址的处理方法、计算设备及可读存储介质
CN109561163B (zh) * 2017-09-27 2022-03-15 阿里巴巴集团控股有限公司 统一资源定位符重写规则的生成方法及装置
US11570238B2 (en) * 2017-12-22 2023-01-31 Telefonaktiebolaget Lm Ericsson (Publ) System and method for predicting the state changes of network nodes
CN110717036B (zh) * 2018-07-11 2023-11-10 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN109583211B (zh) * 2018-10-11 2023-03-07 创新先进技术有限公司 网站聚类及漏洞扫描方法、装置、电子设备及存储介质
CN110059272B (zh) * 2018-11-02 2023-08-15 创新先进技术有限公司 一种页面特征识别方法和装置
CN111611503B (zh) * 2020-05-27 2023-07-14 百度在线网络技术(北京)有限公司 页面的处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902794A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN103136212A (zh) * 2011-11-23 2013-06-05 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN106095979A (zh) * 2016-06-20 2016-11-09 百度在线网络技术(北京)有限公司 Url合并处理方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061490A1 (en) * 2001-09-26 2003-03-27 Abajian Aram Christian Method for identifying copyright infringement violations by fingerprint detection
US7680785B2 (en) * 2005-03-25 2010-03-16 Microsoft Corporation Systems and methods for inferring uniform resource locator (URL) normalization rules
US7565350B2 (en) * 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog
US7962523B2 (en) * 2008-04-11 2011-06-14 Yahoo! Inc. System and method for detecting templates of a website using hyperlink analysis
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
CN103631787B (zh) 2012-08-22 2019-01-11 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
WO2017049045A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Using hash signatures of dom objects to identify website similarity
CN106708952B (zh) * 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136212A (zh) * 2011-11-23 2013-06-05 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN102902794A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN106095979A (zh) * 2016-06-20 2016-11-09 百度在线网络技术(北京)有限公司 Url合并处理方法和装置

Also Published As

Publication number Publication date
US11023540B2 (en) 2021-06-01
US20190377765A1 (en) 2019-12-12
CN106708952A (zh) 2017-05-24
JP2019536171A (ja) 2019-12-12
JP6827116B2 (ja) 2021-02-10
WO2018095411A1 (zh) 2018-05-31

Similar Documents

Publication Publication Date Title
CN106708952B (zh) 一种网页聚类方法及装置
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
US20170185680A1 (en) Chinese website classification method and system based on characteristic analysis of website homepage
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN104951448B (zh) 一种为用户推送订阅类别的消息的方法和服务器
CN103077250B (zh) 一种网页内容抓取方法及装置
CN105912684B (zh) 基于视觉特征和语义特征的跨媒体检索方法
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN107679073A (zh) 一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法
CN108921184A (zh) 一种通用的网页类型判定方法
CN108229170A (zh) 利用大数据和神经网络的软件分析方法和装置
Yuan et al. A novel approach for malicious URL detection based on the joint model
CN107330010B (zh) 一种基于机器学习的后台路径爆破方法
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN108920955A (zh) 一种网页后门检测方法、装置、设备及存储介质
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee after: NSFOCUS Technologies Group Co.,Ltd.

Patentee after: NSFOCUS TECHNOLOGIES Inc.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.

CP01 Change in the name or title of a patent holder