CN105528357A - 一种基于url和网页文档结构的相似性的网页内容提取方法 - Google Patents

一种基于url和网页文档结构的相似性的网页内容提取方法 Download PDF

Info

Publication number
CN105528357A
CN105528357A CN201410515677.9A CN201410515677A CN105528357A CN 105528357 A CN105528357 A CN 105528357A CN 201410515677 A CN201410515677 A CN 201410515677A CN 105528357 A CN105528357 A CN 105528357A
Authority
CN
China
Prior art keywords
similarity
url
webpage
dom
webpages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410515677.9A
Other languages
English (en)
Inventor
张琦
尹亚伟
张上誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410515677.9A priority Critical patent/CN105528357A/zh
Publication of CN105528357A publication Critical patent/CN105528357A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于URL和网页文档结构的网页相似性的判断方法。该方法包括下述步骤:计算两个网页的URL相似度;计算两个网页DOM结构的相似度;基于URL相似度和DOM结构的相似度计算两个网页的相似度;将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似。

Description

一种基于URL和网页文档结构的相似性的网页内容提取方法
技术领域
本发明涉及互联网技术,具体地涉及一种网页相似性内容提取方法。
背景技术
一般而言,网页包含的信息丰富复杂,可以包括导航、标题、正文、时间、甚至广告等内容。为了在网页中抽取有效的内容,就需要对网页继续精细的分析。
网络爬虫能够高效地将海量的网页数据下载到本地,在本地形成互联网网页的镜像备份,在信息检索与处理中有很大的作用,是收集网络信息的重要工具,是搜索引擎的重要组成部分。
对于网络爬虫来说,抓取下来的网页包括各种格式,其中最常见的是HTML。这些文件抓取下来后,需要把这些文件中的链接和文本等信息提取出来。准确提取这些文档的信息不但会影响后续信息检索的准确性,而且会对正确跟踪其他链接产生一定的影响。传统的网络爬虫在抽取HTML信息时,一般采用正则表达式、关键字识别等方式来识别和抽取网页中的文本、链接等信息。但是许多网页中都包含和内容无关的文本、链接、图片和Flash动画等信息,所以需要花费时间和资源对每个网页采取去噪措施。而且,在这种方式下,对网页信息的抽取都是在离散情况下进行,而同一站点下网页一般存在很大的相似性,我们就无法利用这种相似性和历史的分析成果来提高当前页面的分析抽取效率。
发明内容
鉴于上述问题,本发明旨在提供一种能够提升相似页面信息抽取效率和精度的基于URL和网页文档结构的相似性的网页内容提取方法。
按照本发明的一方面,提供一种基于URL和网页文档结构的网页相似性的判断方法,包括下述步骤:
  URL相似度计算步骤,计算两个网页的URL相似度;
  DOM结构相似度计算步骤,计算两个网页DOM结构的相似度;
  网页相似度计算步骤,基于URL相似度和DOM结构的相似度计算两个网页的相似度;
  网页相似性判断,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似。
按照本发明的又一方面,提供一种基于URL和网页文档结构的相似性的网页内容提取方法,包括下述步骤:
  URL相似度计算步骤,计算两个网页的URL相似度;
  DOM结构相似度计算步骤,计算两个网页DOM结构的相似度;
  网页相似度计算步骤,基于URL相似度和DOM结构的相似度计算网页的相似度;
  网页相似性判断步骤,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似;
  DOM结构提取步骤,提取两个网页的共有的DOM结构;
  网页信息提取步骤,在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。
按照本发明的还一方面,提供一种基于URL和网页文档结构的相似性的网页内容提取方法,包括下述步骤:
  第一维度相似度计算步骤,计算两个网页的第一维度的相似度;
  第一维度相似度判断步骤,判断第一维度的相似度是否达到规定阈值,并且仅第一维度的相似度达到规定阈值的情况下才继续后续步骤;
  第二维度相似度计算步骤,计算两个网页的第二维度的相似度;
  网页相似度计算步骤,基于第一维度的相似度和第二维度的相似度计算网页的相似度;
  网页相似性判断步骤,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似;
  DOM结构提取步骤,提取两个网页的共有的DOM结构;
  网页信息提取步骤,在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。
附图说明
图1是表示本发明第一实施方式的基于URL和网页文档结构的相似性的网页内容提取方法的流程图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
第一实施方式
本发明的第一实施方式的基于URL和网页文档结构的相似性的网页内容提取方法可以分为两大步骤:相似网页识别步骤和网页信息抽取步骤。
其中,相似网页识别是对存在一定相似程度的两个页面的识别。在本发明中我们根据两个维度来判断相似网页,分别为URL的相似度和网页Dom结构的相似度。通过分析和综合这两个维度的相似度,进而得出网页的相似度。
然后,网页信息抽取步骤是指基于得到的网页的相似度再对相似的网页提取网页信息。
图1是表示本发明第一实施方式的基于URL和网页文档结构的相似性的网页内容提取方法的流程图。
下面参照图1对于本发明的基于URL和网页文档结构的相似性的网页内容提取方法进行具体说明。其中,步骤S101~步骤S103构成上述的相似网页识别步骤,步骤S104~步骤S105构成上述的网页信息抽取步骤。
接着,具体对各个步骤进行说明
(1)URL相似度计算步骤S101
在URL相似度计算步骤S101中,计算两个网页的URL相似度。
URL即统一资源定位符(UniformResourceLocator)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置。基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名。
在下述的公式1中,url_sim表示URL的相似度。与一般的字串不同,URL具有一定的结构和特征。首先,URL具有一定的路径深度;其次,同一路径下的网页所描述的资源一般具有一定的相似性。基于这种特征,我们使用路径深度的一致和前缀的一致作为判断URL相似度的两个先决因素,用相同前缀包含的目录深度占总路径深度的比例来表示URL的相似度。假如URL为:http://weibo.com/p/1005052521277214/weibo,则路径深度为从“http://”开始以”/”间隔的元素数量及深度为4。假设另一个URL为:http://weibo.com/p/1005052521277215/weibo,则相同前缀为:http://weibo.com/p/,前缀包含目录深度为2,总深度为4,比例为1:2。
(2)DOM结构相似度计算步骤S102
在DOM结构相似度计算步骤S102中,计算两个网页DOM结构的相似度。
DOM是DocumentObjectModel(文档对象模型)的缩写。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。DOM把HTML文档呈现为带有元素、属性和文本的树结构(节点树)。
在下述的公式1中,dom_sim表示网页DOM结构的相似度。DOM结构是用来描述一个页面文档结构的模型,使用树形结构表示HTML的所有节点。比较DOM结构的相似性时,从根节点出发,深度遍历每个子节点,通过比较对应叶子节点来进行相似性判断。如果对应叶子节点的类型一致,则相似度为1,否则为0,然后将所有叶子节点的相似度均值作为两个网页的相似度数值。
(3)网页相似度计算步骤S103
在网页相似度计算步骤S103中,基于上述计算出的URL相似度和DOM结构的相似度,根据下述的公式1计算网页的相似度,
公式1:page_sim=w1*url_sim+w2*dom_sim
其中,page_sim表示是两个网页的相似度,url_sim表示两个网页的URL的相似度,dom_sim表示两个网页的DOM结构的相似度,w1,w2表示两种相似度因素的权重,并且w1+w2=1。
作为一种优选的方式,在本发明中,设置为使得DOM结构的相似度比重占得较大,例如可以设置为w2>w1,例如,可以设置为w2=0.8,W1=0.2。
(4)网页相似性判断步骤S104
在网页相似性判断步骤S104中,将网页相似度计算步骤S103
将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内,则判断两个网页为相似,如果超过该预先设定的阈值范围,则判断两个网页不相似。在后者的情况下,就不再继续后续的网页信息抽取步骤。
(5)DOM结构提取步骤S105
在DOM结构提取步骤S105,提取两个网页的共有的DOM结构。
网页信息抽取是在相似网页识别完成的情况下,根据网页的相似信息抽取信息的过程。由相似网页识别的两个维度可知,相似的网页在网页DOM结构上也存在一定的相似性,两个相似页面在某些位置上DOM结构存在着一致性,这些共有的DOM节点上包含了相似的链接和内容信息。在提取网页信息时,首先,可以利用提取共有的根据DOM的结构。
(6)网页信息提取步骤S106
在网页信息提取步骤S106中,根据在所述DOM结构提取步骤中已提取的共有DOM结构,提取相似网页对应信息。
这里,由于DOM为树形结构,共DOM结构提取就是比较两个DOM树,然后将相同部分提取出来。并且更具提取出来的结果,找出对应节点分别包含了哪些信息,将节点和信息的对应关系存储到一定的数据结构中。例如,信息为Dom节点的包含的属性值或内容信息。如Dom节点a如下:<ahref=”http://www.baidu.com”>百度</a>
则,href的值:http://www.baidu.com和“百度”就是节点a包含的信息。
最后,根据上一步存储的数据结构提取相似网页对应的链接等信息。
在本发明第一实施方式的的基于URL和网页文档结构的相似性的网页内容提取方法中,通过计算URL和网页文档结构的相似性来识别相似网页,进而利用相似网页DOM结构的相似性,提取共有DOM结构以及结构和信息的对应关系,应用到相似信息的抽取上,由此能够提高相似网页的内容抽取效率和准确性。
第二实施方式
在第一实施方式中,分别计算了网页URL的相似度和DOM文档结构的相似度这两个维度的相似度,为了更加高效的识别相似网页,在第二实施方式中,我们可以为两个维度的相似度分别设定一个阈值,只有在一个维度的相似度达到一定的值时,才去计算另一个维度的相似程度,否则认为两个页面不可能存在相似性。
此后,根据两个维度的相似度按照第一实施方式1中公式1计算网页总的相似度(同第一实施方式中的步骤S103),如果达到预先设定的阈值时,作相似网页处理(同第一实施方式中的步骤S104)。然后,对相似网页提取共有的DOM结构(同第一实施方式中的步骤S105),并根据已有的分析成果,找出对应节点分别包含了哪些信息,将节点和信息的对应关系存储到一定的数据结构中。最后,根据上一步存储的数据结构提取相似网页对应的链接等信息(同第一实施方式中的步骤S106)。
以上例子主要说明了本发明的基于URL和网页文档结构的相似性的网页内容提取方法。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (17)

1.一种基于URL和网页文档结构的网页相似性的判断方法,其特征在于,包括下述步骤:
  URL相似度计算步骤,计算两个网页的URL相似度;
  DOM结构相似度计算步骤,计算两个网页DOM结构的相似度;
  网页相似度计算步骤,基于URL相似度和DOM结构的相似度计算两个网页的相似度;
  网页相似性判断,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似。
2.如权利要求1所述的基于URL和网页文档结构的网页相似性的判断方法,其特征在于,在所述计算两个网页的相似度的步骤中,根据以下公式1来计算:
  公式1:page_sim=w1*url_sim+w2*dom_sim
  其中,page_sim表示是两个网页的相似度,url_sim表示两个网页的URL的相似度,dom_sim表示两个网页的DOM结构的相似度,w1,w2表示两种相似度因素的权重,并且w1+w2=1。
3.如权利要求1或2所述的基于URL和网页文档结构的网页相似性的判断方法,其特征在于,在所述URL相似度计算步骤中,用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。
4.如权利要求1或2所述的基于URL和网页文档结构的网页相似性的判断方法,其特征在于,所述DOM结构相似度计算步骤包括下述子步骤:
  从根节点出发,深度遍历每个子节点,比较对应叶子节点来的类型;
  如果对应叶子节点的类型一致,则相似度为1,否则为0;
  将所有叶子节点的相似度均值作为两个网页的相似度。
5.一种基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,包括下述步骤:
  URL相似度计算步骤,计算两个网页的URL相似度;
  DOM结构相似度计算步骤,计算两个网页DOM结构的相似度;
  网页相似度计算步骤,基于URL相似度和DOM结构的相似度计算网页的相似度;
  网页相似性判断步骤,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似;
  DOM结构提取步骤,提取两个网页的共有的DOM结构;
  网页信息提取步骤,在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。
6.如权利要求5所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述计算网页的相似度的步骤中,根据以下公式1来计算:
  公式1:page_sim=w1*url_sim+w2*dom_sim
  其中,page_sim表示是两个网页的相似度,url_sim表示两个网页的URL的相似度,dom_sim表示两个网页的DOM结构的相似度,w1,w2表示两种相似度因素的权重,并且w1+w2=1。
7.如权利要求5或6所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述URL相似度计算步骤中,用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。
8.如权利要求5或6所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,所述DOM结构相似度计算步骤包括下述子步骤:
  从根节点出发,深度遍历每个子节点,比较对应叶子节点来的类型;
  如果对应叶子节点的类型一致,则相似度为1,否则为0;
  将所有叶子节点的相似度均值作为两个网页的相似度。
9.如权利要求8所述所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述DOM结构提取步骤中,根据网页的相似信息抽取信息提取共有的根据DOM的结构。
10.如权利要求9所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述网页信息提取步骤中,比较两个DOM树,并且将相同部分提取出,然后找出对应节点分别包含的信息,将节点和信息的对应关系存储到数据结构中。
11.一种基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,包括下述步骤:
  第一维度相似度计算步骤,计算两个网页的第一维度的相似度;
  第一维度相似度判断步骤,判断第一维度的相似度是否达到规定阈值,并且仅第一维度的相似度达到规定阈值的情况下才继续后续步骤;
  第二维度相似度计算步骤,计算两个网页的第二维度的相似度;
  网页相似度计算步骤,基于第一维度的相似度和第二维度的相似度计算网页的相似度;
  网页相似性判断步骤,将计算出的网页的相似度与预定设定的阈值范围进行比较,如果在预先设定的阈值范围内则判断两个网页为相似;
  DOM结构提取步骤,提取两个网页的共有的DOM结构;
  网页信息提取步骤,在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。
12.如权利要求10所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述计算网页的相似度的步骤中,根据以下公式1来计算:
  公式1:page_sim=w1*url_sim+w2*dom_sim
  其中,page_sim表示是两个网页的相似度,url_sim表示两个网页的URL的相似度,dom_sim表示两个网页的DOM结构的相似度,w1,w2表示两种相似度因素的权重,并且w1+w2=1。
13.如权利要求11或12所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,所述第一维度相似度为URL的相似度并且所述第二维度相似度为DOM结构的相似度,或者,
所述第一维度相似度为DOM结构的相似度并且所述第二维度相似度为URL的相似度。
14.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在计算URL相似度步骤中,用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。
15.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在计算DOM结构的相似度的步骤中包括下述子步骤:
  从根节点出发,深度遍历每个子节点,比较对应叶子节点来的类型;
  如果对应叶子节点的类型一致,则相似度为1,否则为0;
  将所有叶子节点的相似度均值作为两个网页的相似度。
16.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述DOM结构提取步骤中,根据网页的相似信息抽取信息提取共有的根据DOM的结构。
17.如权利要求16所述的基于URL和网页文档结构的相似性的网页内容提取方法,其特征在于,在所述网页信息提取步骤中,比较两个DOM树,并且将相同部分提取出,然后找出对应节点分别包含的信息,将节点和信息的对应关系存储到数据结构中。
CN201410515677.9A 2014-09-30 2014-09-30 一种基于url和网页文档结构的相似性的网页内容提取方法 Pending CN105528357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410515677.9A CN105528357A (zh) 2014-09-30 2014-09-30 一种基于url和网页文档结构的相似性的网页内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410515677.9A CN105528357A (zh) 2014-09-30 2014-09-30 一种基于url和网页文档结构的相似性的网页内容提取方法

Publications (1)

Publication Number Publication Date
CN105528357A true CN105528357A (zh) 2016-04-27

Family

ID=55770587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410515677.9A Pending CN105528357A (zh) 2014-09-30 2014-09-30 一种基于url和网页文档结构的相似性的网页内容提取方法

Country Status (1)

Country Link
CN (1) CN105528357A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN106777294A (zh) * 2016-12-29 2017-05-31 维沃移动通信有限公司 一种浏览器书签的更新方法及移动终端
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110049052A (zh) * 2019-04-23 2019-07-23 哈尔滨工业大学(威海) 基于dom树的标签及属性相似性的恶意域名检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
CN103257975A (zh) * 2012-02-21 2013-08-21 腾讯科技(深圳)有限公司 一种搜索方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
CN103257975A (zh) * 2012-02-21 2013-08-21 腾讯科技(深圳)有限公司 一种搜索方法、装置及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN106777294A (zh) * 2016-12-29 2017-05-31 维沃移动通信有限公司 一种浏览器书签的更新方法及移动终端
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN110049052A (zh) * 2019-04-23 2019-07-23 哈尔滨工业大学(威海) 基于dom树的标签及属性相似性的恶意域名检测方法

Similar Documents

Publication Publication Date Title
JP6017155B2 (ja) 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN102087648B (zh) 一种新闻评论页面的爬取方法及系统
CN101916285B (zh) 一种互联网网页内容解析方法及装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN104750704A (zh) 一种网页url地址分类识别方法及装置
CN103530339A (zh) 移动应用信息推送方法和装置
CN106844640A (zh) 一种网页数据分析处理方法
CN101950312A (zh) 一种互联网网页内容解析方法
CN103984749A (zh) 一种基于链接分析的聚焦爬虫方法
CN103853834A (zh) 基于文本结构分析的Web文档摘要的生成方法
CN104899219A (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN104778164A (zh) 检测重复url的方法及装置
CN104317845A (zh) 一种深度网络数据自动抽取方法及系统
CN105550359A (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN105488402A (zh) 一种暗链的检测方法及系统
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN104572787B (zh) 伪原创网站的识别方法及装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN111125704A (zh) 一种网页挂马识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160427