CN108694192A - 网页类型的判断方法及装置 - Google Patents

网页类型的判断方法及装置 Download PDF

Info

Publication number
CN108694192A
CN108694192A CN201710227194.2A CN201710227194A CN108694192A CN 108694192 A CN108694192 A CN 108694192A CN 201710227194 A CN201710227194 A CN 201710227194A CN 108694192 A CN108694192 A CN 108694192A
Authority
CN
China
Prior art keywords
webpage
web page
node
type
page characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710227194.2A
Other languages
English (en)
Other versions
CN108694192B (zh
Inventor
谢兴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710227194.2A priority Critical patent/CN108694192B/zh
Publication of CN108694192A publication Critical patent/CN108694192A/zh
Application granted granted Critical
Publication of CN108694192B publication Critical patent/CN108694192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页类型的判断方法及装置。该方法包括:获取目标网页的html源码;通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;从节点树中抽取网页特征,得到网页特征集合;以及利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。通过本申请,解决了相关技术中识别页面类型的准确性较低的问题。

Description

网页类型的判断方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页类型的判断方法及装置。
背景技术
网络爬虫会基于对不同的页面类型采取的不同行为,通常将网页划分为两个大类,即是内容页面和列表页面。对于内容页面,网络爬虫通常采取的行为是抓取,即将该页面的内容进行抓取、解析和保存等。对于列表页面,网络爬虫通常采取的行为是下钻,即获取该页面中的超链接,并继续更深一层地抓取超链接中对应的页面内容。由于行为上存在差异,若将两种页面混为一谈就会造成额外的问题,如若将内容页错误地看待为列表页,则内容页本身的内容将无法被解析和存储,并且内容页中的其他链接将成为继续下钻的逻辑,产生错误。因此,正确合理的对互联网中这两大类页面进行区分,对于网络爬虫而言至关重要。相关技术中的网页类型识别方法是基于统计的,基于统计页面源码中,连续文字出现的段落比例,并根据经验分布情况设定阈值,当认为连续文字出现的比例大于阈值时,则认定这段连续的文字为页面正文,当网页中无页面正文时,则认定该页面为列表页。因此仅仅可以作为一种实现的方案,但是方案本身存在很多问题。其中最大的问题,是相关技术将网页源码当作字符串或字符串数组进行处理,这一方式本身并不符合网页的真正结构——树型结构。因此,相关技术中识别页面类型的准确性较低。
针对相关技术中识别页面类型的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页类型的判断方法及装置,以解决相关技术中识别页面类型的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页类型的判断方法。该方法包括:获取目标网页的html源码;通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;从节点树中抽取网页特征,得到网页特征集合;以及利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。
进一步地,通过html源码构建节点树包括:从html源码中抽取目标类型节点;确定目标类型节点的层级结构;基于目标类型节点和层级结构生成待处理节点树;移除待处理节点树中不满足预设条件的目标类型节点;以及在移除待处理节点树中不满足预设条件的目标类型节点之后,对待处理节点树中的目标类型节点进行封装处理,构建节点树。
进一步地,从节点树中抽取网页特征,得到网页特征集合包括:对节点树中的节点进行聚类处理,得到节点聚集集合;在各节点聚集集合中抽取影响判断网页类型的网页特征;通过抽取到的网页特征组成网页特征集合。
进一步地,在获取目标网页的html源码之前,该方法还包括:爬取多个网页并获取对多个网页所属网页类型进行标记的标记结果;对每个网页进行处理,获取每个网页的网页特征;根据每个网页所属网页类型的标记结果计算每个网页特征的分值;对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
进一步地,利用网页特征集合中各个网页特征对目标网页的网页类型进行判断包括:获取网页特征集合中每个网页特征的分值;通过分类模型确定每个网页特征的权重值;根据每个网页特征的权重值和每个网页特征的分值计算目标网页的类型综合值;以及根据类型综合值判定目标网页的网页类型。
为了实现上述目的,根据本申请的另一方面,提供了一种网页类型的判断装置。该装置包括:第一获取单元,用于获取目标网页的html源码;构建单元,用于通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;抽取单元,用于从节点树中抽取网页特征,得到网页特征集合;以及判断单元,用于利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。
进一步地,构建单元包括:第一抽取模块,用于从html源码中抽取目标类型节点;第一确定模块,用于确定目标类型节点的层级结构;生成模块,用于基于目标类型节点和层级结构生成待处理节点树;移除模块,用于移除待处理节点树中不满足预设条件的目标类型节点;以及第一处理模块,用于在移除待处理节点树中不满足预设条件的目标类型节点之后,对待处理节点树中的目标类型节点进行封装处理,构建节点树。
进一步地,抽取单元包括:第二处理模块,用于对节点树中的节点进行聚类处理,得到节点聚集集合;第二抽取模块,用于在各节点聚集集合中抽取影响判断网页类型的网页特征;组成模块,用于通过抽取到的网页特征组成网页特征集合。
进一步地,该装置还包括:爬取单元,用于在获取目标网页的html源码之前,爬取多个网页并获取对多个网页所属网页类型进行标记的标记结果;第二获取单元,用于对每个网页进行处理,获取每个网页的网页特征;计算单元,用于根据每个网页所属网页类型的标记结果计算每个网页特征的分值;训练单元,用于对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
进一步地,判断单元包括:获取模块,用于获取网页特征集合中每个网页特征的分值;第二确定模块,用于通过分类模型确定每个网页特征的权重值;计算模块,用于根据每个网页特征的权重值和每个网页特征的分值计算目标网页的类型综合值;以及判定模块,用于根据类型综合值判定目标网页的网页类型。
通过本申请,采用以下步骤:获取目标网页的html源码;通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;从节点树中抽取网页特征,得到网页特征集合;以及利用网页特征集合中各个网页特征对目标网页的网页类型进行判断,解决了相关技术中识别页面类型的准确性较低的问题。进而达到了提高识别页面类型的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的网页类型的判断方法的流程图;以及
图2是根据本申请实施例提供的网页类型的判断装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
超级文本标记语言(Hyper Text Markup Language,简称HTML),标准通用标记语言下的一个应用。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
深度优先搜索算法(Depth-First-Search),是搜索算法的一种。是沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所有边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。
节点树:HTML DOM将HTML源码视作树结构。这种结构被称为节点树。
根据本申请的实施例,提供了一种网页类型的判断方法。
图1是根据本申请实施例的网页类型的判断方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取目标网页的html源码。
在本申请中的Html源码为HTML网页源代码,也即,获取目标网页的HTML网页源代码。
html源码是具有层次结构的,Html具有类似xml的语法,以<A></A>表示一个节点,其中,节点内部可以嵌套子节点,以及节点内部可以提供节点属性和内容。
可选地,在本申请实施例提供的网页类型的判断方法中,在获取目标网页的html源码之前,该方法还包括:爬取多个网页并获取对多个网页所属网页类型进行标记的标记结果;对每个网页进行处理,获取每个网页的网页特征;根据每个网页所属网页类型的标记结果计算每个网页特征的分值;对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
在本申请中,在获取目标网页的html源码之前,利用分类算法对使用特征进行网页类型判断的逻辑进行分类模型训练。训练过程可以为,首先,爬取多个网页以及对这些网页所属于类型的标记结果;其次,利用对每一个网页进行处理,得到每一个网页的网页特征;最后,记网页的特征得分为x=(x1,x2,x3,…,xn),记人工对网页的标记结果为y,建立关系Wx+b=y,求解上述关系,得到W和b,其中,W表示各个网页特征作用于分类的权重,b表示常量,通过以上步骤从而训练出分类模型。
步骤S102,通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建。
由于html源码中包括多种类型的节点,例如,meta节点和body节点等等,通过html源码中的多个节点构建节点树。
可选地,在本申请实施例提供的网页类型的判断方法中,通过html源码构建节点树包括:从html源码中抽取目标类型节点;确定目标类型节点的层级结构;基于目标类型节点和层级结构生成待处理节点树;移除待处理节点树中不满足预设条件的目标类型节点;以及在移除待处理节点树中不满足预设条件的目标类型节点之后,对待处理节点树中的目标类型节点进行封装处理,构建节点树。
由于Html源码中包括meta节点和body节点,其中,meta节点标记网页的元信息,但并不对浏览器渲染后的网页内容产生影响。对于页面类型判断而言,主要是需要判断页面的真实内容,因此,在处理时仅选取body节点进行分析即可。选取body节点的全部内容后,可以根据html节点的层级结构生成待处理节点树。
由于基于目标类型节点和层级结构生成的待处理节点树中包含并不需要的内容,并不能用于后续直接分析树,因此需要额外移除掉这些不需要的内容。例如,通过遍历待处理节点树中的每一个节点,并判断节点的属性,例如,如果节点类型是Comment并且该节点没有父节点,或,节点类型element并且节点名称包括input、script、text area、style等时,表示执行脚本、样式或者等待用户输入的文本框等内容时,对于分析页面类型并没有帮助,都应当移除。在移除不需要的节点之后,对所有有效节点,再进行一次遍历,并且进行封装。所谓封装行为,实质上是根据待处理节点树结构提取一些有价值但本身不在节点中包含的信息,例如节点在相对于父节点的所有孩子节点中的相对位置等。这一步封装的遍历无法与上述的遍历一起执行,原因也是因为遍历过程中需要统计当前节点之外上下文的相对信息,因此需要将不需要的内容移除以后,才能执行。在经过上述操作以后,可以得到可供分析的有效节点树,该树应当包含网页经浏览器渲染后的绝大部分信息,以及经过封装统计后可用于分析的统计信息等。
步骤S103,从节点树中抽取网页特征,得到网页特征集合。
由于节点树中的所有封装的信息并不能直接用于页面类型识别,为了进行网页类型识别,从节点树中抽取用于网页类型识别的特征,得到网页特征集合。
可选地,在本申请实施例提供的网页类型的判断方法中,从节点树中抽取网页特征,得到网页特征集合包括:对节点树中的节点进行聚类处理,得到节点聚集集合;在各节点聚集集合中抽取影响判断网页类型的网页特征;通过抽取到的网页特征组成网页特征集合。
在本申请中对网页节点树进行聚类,此处的聚类,实质是将具有相同意义的节点进行合并的过程,对于网页而言,需要合并的节点应当为渲染至浏览器上以后所处与一个版块下的节点,例如,对于正文版块,往往以一个<div>表示,内部由若干<p>段落或其他节点组成内容。因此,需要将相同版块下的节点合并起来。出于页面结构的特点,当对网页节点树进行深度优先遍历时,相同版块下的节点应当是连续出现的(即不会出现间断的情形),因此,在进行聚类合并时,应当采取的方法是,采用深度优先方法遍历树上所有节点;对于每一个节点,判断该节点是否应当属于上一个节点聚集;如果属于,则将该节点添加至上一个节点聚集;如果不属于,则新创建一个节点聚集,并以该节点作为新节点聚集内的第一个内部成员。通过上述方法,可以得到网页节点树的一个节点聚集集合,并且,每一个节点聚集中应当包含至少一个节点。网页类型识别属于分类问题,需要提取网页特征。网页特征是可以影响对网页类型做出判断的因子,但不同特征的影响程度并不相同,在此之前,需要首先抽取出这些特征,以及计算该页面中各个特征的得分。
需要说明的是,在本申请中并不限制具体哪些网页特征,仅界定特征应对网页类型分类有帮助即可。不失一般性,在本申请中抽取的特征包括但不限于如下,即最大节点聚集中包含的文本长度,最大节点聚在本申请中集包含的段落数,平均节点聚集段落数,最大节点聚集文本长度在总长度中的比例,等等。
步骤S104,利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。
可选地,在本申请实施例提供的网页类型的判断方法中,利用网页特征集合中各个网页特征对目标网页的网页类型进行判断包括:获取网页特征集合中每个网页特征的分值;通过分类模型确定每个网页特征的权重值;根据每个网页特征的权重值和每个网页特征的分值计算目标网页的类型综合值;以及根据类型综合值判定目标网页的网页类型。
在本申请中通过获取网页特征集合中每个网页特征的分值,利用预先训练的分类模型,当一篇新的网页输入分类模型时,通过分类模型确定每个网页特征的权重值;加权计算出该网页的类型综合值,即通过计算出的类型综合值可判断该页面的页面类型。
在本申请中,充分考虑到html本质为一棵树的特性,并且在实现方法中使用分类方法,使得网页类型的自动识别的逻辑具有更好的通用性,即判断逻辑与网站域名无关。可以取得很好的网页类型识别效果,对网络爬虫和web数据挖掘任务提供支持。
本申请实施例提供的网页类型的判断方法,通过获取目标网页的html源码;通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;从节点树中抽取网页特征,得到网页特征集合;以及利用网页特征集合中各个网页特征对目标网页的网页类型进行判断,解决了相关技术中识别页面类型的准确性较低的问题。进而达到了提高识别页面类型的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网页类型的判断装置,需要说明的是,本申请实施例的网页类型的判断装置可以用于执行本申请实施例所提供的用于网页类型的判断方法。以下对本申请实施例提供的网页类型的判断装置进行介绍。
图2是根据本申请实施例的网页类型的判断装置的示意图。如图2所示,该装置包括:第一获取单元10、构建单元20、抽取单元30和判断单元40。
第一获取单元10,用于获取目标网页的html源码。
构建单元20,用于通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建。
抽取单元30,用于从节点树中抽取网页特征,得到网页特征集合。
判断单元40,用于利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。
本申请实施例提供的网页类型的判断装置,通过第一获取单元10获取目标网页的html源码;构建单元20通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;抽取单元30从节点树中抽取网页特征,得到网页特征集合;以及判断单元40利用网页特征集合中各个网页特征对目标网页的网页类型进行判断,解决了相关技术中识别页面类型的准确性较低的问题,进而达到了提高识别页面类型的准确性的效果。
可选地,在本申请实施例提供的网页类型的判断装置中,构建单元20包括:第一抽取模块,用于从html源码中抽取目标类型节点;第一确定模块,用于确定目标类型节点的层级结构;生成模块,用于基于目标类型节点和层级结构生成待处理节点树;移除模块,用于移除待处理节点树中不满足预设条件的目标类型节点;以及第一处理模块,用于在移除待处理节点树中不满足预设条件的目标类型节点之后,对待处理节点树中的目标类型节点进行封装处理,构建节点树。
可选地,在本申请实施例提供的网页类型的判断装置中,抽取单元30包括:第二处理模块,用于对节点树中的节点进行聚类处理,得到节点聚集集合;第二抽取模块,用于在各节点聚集集合中抽取影响判断网页类型的网页特征;组成模块,用于通过抽取到的网页特征组成网页特征集合。
可选地,在本申请实施例提供的网页类型的判断装置中,该装置还包括:爬取单元,用于在获取目标网页的html源码之前,爬取多个网页并获取对多个网页所属网页类型进行标记的标记结果;第二获取单元,用于对每个网页进行处理,获取每个网页的网页特征;计算单元,用于根据每个网页所属网页类型的标记结果计算每个网页特征的分值;训练单元,用于对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
可选地,在本申请实施例提供的网页类型的判断装置中,判断单元40包括:获取模块,用于获取网页特征集合中每个网页特征的分值;第二确定模块,用于通过分类模型确定每个网页特征的权重值;计算模块,用于根据每个网页特征的权重值和每个网页特征的分值计算目标网页的类型综合值;以及判定模块,用于根据类型综合值判定目标网页的网页类型。
所述网页类型的判断装置包括处理器和存储器,上述第一获取单元10、构建单元20、抽取单元30和判断单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设条件都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数判断网页类型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标网页的html源码;通过html源码构建节点树,其中,节点树由html源码中多种类型的节点构建;从节点树中抽取网页特征,得到网页特征集合;以及利用网页特征集合中各个网页特征对目标网页的网页类型进行判断。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网页类型的判断方法,其特征在于,包括:
获取目标网页的html源码;
通过所述html源码构建节点树,其中,所述节点树由html源码中多种类型的节点构建;
从所述节点树中抽取网页特征,得到网页特征集合;以及
利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断。
2.根据权利要求1所述的方法,其特征在于,通过所述html源码构建节点树包括:
从所述html源码中抽取目标类型节点;
确定所述目标类型节点的层级结构;
基于所述目标类型节点和所述层级结构生成待处理节点树;
移除所述待处理节点树中不满足预设条件的目标类型节点;以及
在移除所述待处理节点树中不满足预设条件的目标类型节点之后,对所述待处理节点树中的目标类型节点进行封装处理,构建所述节点树。
3.根据权利要求1所述的方法,其特征在于,从所述节点树中抽取网页特征,得到网页特征集合包括:
对所述节点树中的节点进行聚类处理,得到节点聚集集合;
在各节点聚集集合中抽取影响判断网页类型的网页特征;
通过抽取到的网页特征组成网页特征集合。
4.根据权利要求1所述的方法,其特征在于,在获取目标网页的html源码之前,所述方法还包括:
爬取多个网页并获取对所述多个网页所属网页类型进行标记的标记结果;
对每个网页进行处理,获取每个网页的网页特征;
根据每个网页所属网页类型的标记结果计算每个网页特征的分值;
对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
5.根据权利要求4所述的方法,其特征在于,利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断包括:
获取所述网页特征集合中每个网页特征的分值;
通过所述分类模型确定每个网页特征的权重值;
根据所述每个网页特征的权重值和每个网页特征的分值计算所述目标网页的类型综合值;以及
根据所述类型综合值判定所述目标网页的网页类型。
6.一种网页类型的判断装置,其特征在于,包括:
第一获取单元,用于获取目标网页的html源码;
构建单元,用于通过所述html源码构建节点树,其中,所述节点树由html源码中多种类型的节点构建;
抽取单元,用于从所述节点树中抽取网页特征,得到网页特征集合;以及
判断单元,用于利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断。
7.根据权利要求6所述的装置,其特征在于,所述构建单元包括:
第一抽取模块,用于从所述html源码中抽取目标类型节点;
第一确定模块,用于确定所述目标类型节点的层级结构;
生成模块,用于基于所述目标类型节点和所述层级结构生成待处理节点树;
移除模块,用于移除所述待处理节点树中不满足预设条件的目标类型节点;以及
第一处理模块,用于在移除所述待处理节点树中不满足预设条件的目标类型节点之后,对所述待处理节点树中的目标类型节点进行封装处理,构建所述节点树。
8.根据权利要求6所述的装置,其特征在于,所述抽取单元包括:
第二处理模块,用于对所述节点树中的节点进行聚类处理,得到节点聚集集合;
第二抽取模块,用于在各节点聚集集合中抽取影响判断网页类型的网页特征;
组成模块,用于通过抽取到的网页特征组成网页特征集合。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
爬取单元,用于在获取目标网页的html源码之前,爬取多个网页并获取对所述多个网页所属网页类型进行标记的标记结果;
第二获取单元,用于对每个网页进行处理,获取每个网页的网页特征;
计算单元,用于根据每个网页所属网页类型的标记结果计算每个网页特征的分值;
训练单元,用于对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型。
10.根据权利要求9所述的装置,其特征在于,所述判断单元包括:
获取模块,用于获取所述网页特征集合中每个网页特征的分值;
第二确定模块,用于通过所述分类模型确定每个网页特征的权重值;
计算模块,用于根据所述每个网页特征的权重值和每个网页特征的分值计算所述目标网页的类型综合值;以及
判定模块,用于根据所述类型综合值判定所述目标网页的网页类型。
CN201710227194.2A 2017-04-07 2017-04-07 网页类型的判断方法及装置 Active CN108694192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710227194.2A CN108694192B (zh) 2017-04-07 2017-04-07 网页类型的判断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710227194.2A CN108694192B (zh) 2017-04-07 2017-04-07 网页类型的判断方法及装置

Publications (2)

Publication Number Publication Date
CN108694192A true CN108694192A (zh) 2018-10-23
CN108694192B CN108694192B (zh) 2021-05-14

Family

ID=63843202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710227194.2A Active CN108694192B (zh) 2017-04-07 2017-04-07 网页类型的判断方法及装置

Country Status (1)

Country Link
CN (1) CN108694192B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726338A (zh) * 2018-11-29 2019-05-07 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN110377810A (zh) * 2019-06-25 2019-10-25 浙江大学 一种移动端网页的分类方法
CN112784135A (zh) * 2021-02-26 2021-05-11 张冶青 一种网页信息识别系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN104331438A (zh) * 2014-10-24 2015-02-04 北京奇虎科技有限公司 对小说网页内容选择性抽取方法和装置
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN104331438A (zh) * 2014-10-24 2015-02-04 北京奇虎科技有限公司 对小说网页内容选择性抽取方法和装置
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726338A (zh) * 2018-11-29 2019-05-07 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN109726338B (zh) * 2018-11-29 2020-01-17 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN110377810A (zh) * 2019-06-25 2019-10-25 浙江大学 一种移动端网页的分类方法
CN110377810B (zh) * 2019-06-25 2022-04-08 浙江大学 一种移动端网页的分类方法
CN112784135A (zh) * 2021-02-26 2021-05-11 张冶青 一种网页信息识别系统

Also Published As

Publication number Publication date
CN108694192B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Uzun A novel web scraping approach using the additional information obtained from web pages
Sun et al. Dom based content extraction via text density
CN104182412B (zh) 一种网页爬取方法及系统
CN108920434A (zh) 一种通用的网页主题内容提取方法和系统
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN103488746B (zh) 一种获取业务信息的方法及装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN108090070A (zh) 一种中文实体属性抽取方法
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN108733813A (zh) 面向bbs论坛网页内容的信息提取方法、系统及介质
CN106708952A (zh) 一种网页聚类方法及装置
CN106503211A (zh) 面向信息发布类网站的移动版自动生成的方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
CN108694192A (zh) 网页类型的判断方法及装置
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN106446123A (zh) 一种网页中验证码元素识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant