CN107038240A

CN107038240A - 一种网页列表内容检测方法

Info

Publication number: CN107038240A
Application number: CN201710262871.4A
Authority: CN
Inventors: 范晓忻; 朱志伟
Original assignee: Kim Union Bank (beijing) Information Technology Co Ltd
Current assignee: Kim Union Bank (beijing) Information Technology Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2017-08-11
Anticipated expiration: 2037-04-20
Also published as: CN107038240B

Abstract

本发明提供一种网页列表内容检测方法，该方法包括爬取解析渲染动态网页；将网页生成DOM树；遍历DOM树检测列表，获取当前列表节点；深度优先遍历获取当前列表节点的当前子节点，并进行编号；判断当前节点的子节点的个数是否大于第一阈值，并判断当前节点网页所占面积是否小于0，如果小于0，进行步骤S6，否则进行步骤S7；返回错误；将该当前节点对应的列表加入到疑似列表结构列表变量中；将疑似列表结构列表变量按照网页面积大小降序排列，选出所占面积最大的节点，获取该节点的html，该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测，提高了主体列表结构的检测性能。

Description

一种网页列表内容检测方法

技术领域

本发明属于列表内容检测领域，特别涉及一种网页列表内容检测方法。

背景技术

随着科技的进步，互联网信息进入一个多元化的时代，互联网成为一个巨大的信息库，其能够在一个网站上为您呈现多种内容，该内容以列表的形式呈现出来，每一列表内包括的内容都不相同，并且在网页中的位置和大小也不同，如何能够快速的获取一网页上的主体列表成为现在急需解决的一技术难题。

CN103748584公开了一种网页中的项目列表的自动检测，该方法包括分析用户的与给定网页关联的Web浏览交互历史；构造给定网页的文档对象模型DOM；基于分析，标识DOM中与所述网页中的所述元素对应的节点，标识所述节点的祖先节点，所述祖先节点对应于与包括所述元素的网页关联的项目列表；该检测方法检测出的项目列表无法体现出哪些列表属于主体列表结构，许多小列表结构都被检测出来，因此浏览者无法区分出哪些是重点关注的主体列表，也无法快速地实现对主体列表内容的提取。

发明内容

为了解决上述技术问题，本发明提供了一种网页列表内容检测方法，该方法能够快速准确地检测出主体列表结构，方便浏览者浏览。

本发明提供一种网页列表内容检测方法，该方法包括如下步骤：

S1：爬取解析渲染动态网页；

S2：将步骤S1获取的网页生成DOM树；

S3：遍历DOM树检测列表，获取当前列表节点；

S4：判断当前列表节点是否为列表，如果是，深度优先遍历获取当前列表节点的当前子节点，并进行编号；

S5：判断当前节点的子节点的个数是否大于第一阈值，并判断当前节点网页所占面积是否小于0，如果小于0，进行步骤S6，否则进行步骤S7；

S6：返回错误；

S7：将该当前节点对应的列表加入到疑似列表结构列表变量中；

S8：将疑似列表结构列表变量按照网页面积大小降序排列，选出所占面积最大的节点，获取该节点的html。

进一步的改进，所述方法还包括：

S9：提取步骤S8获得的节点的tagName、className、id信息，分别统计tagName、className和idName的众数占总条数的比例，并对3个比例求均值

S10：提取步骤S8获得的节点的面积大小，并计算所有子节点面积大小的变异系数CV；

S11：分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小，均值大于第二阈值且变异系数CV大于第三阈值，判断为主体列表。

进一步的改进，所述方法还包括：

S12：获取步骤S11判断出的主体列表区域的Element值，对Element取所有的子节点，即将主体列表区域分成了多行；

S13：获取主体列表的表头；

S14：获取主体列表中每一行的内容。

进一步的改进，步骤S13具体方法为：对所有行进行遍历，将每一行中存在的所有节点所在的网页结构均记录下来，对所有行中的记录值取并集获得包含所有情况的列的表头。

进一步的改进，步骤S14具体方法为：针对每一个行中的记录，获取所有节点的“表头-内容”对，并将其对应到步骤S13中保存的所有表头的内容之下。

进一步的改进，步骤S3具体方法为：利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS，遍历完成后，将疑似列表节点按面积大小降序排列，取第一个节点作为当前列表节点。

进一步的改进，步骤S4具体方法为：findPossibleList()函数调用isList()判断当前节点是否为列表，并递归调用findPossibleList()进行DFS，同时利用HashMap给当前子结点进行编号。

进一步的改进，步骤S4具体方法为：

S41：findPossibleList()函数调用isList()判断当前节点是否为列表，如果是，进行步骤S42；

S42：递归调用findPossibleList()函数进行DFS，并判断节点类型，如果节点类型为Element类型节点，进行步骤S43，如果节点类型为WebElement类型节点，进行步骤S44；

S43：对Element类型节点的子节点进行遍历，获取tagName、className、id数据，并利用HashMap给当前子结点编号；

S44：对WebElement类型节点的子节点进行遍历，并获得每个节点的tagName，tagName分组后，按出现的顺序进行编号，在DFS遍历时将子节点tagName及其序号加入xpath中，并获取当前子节点在网页中的位置和大小数据。

进一步的改进，第二阈值获取的具体方法为：

S15：分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练，建立tagName众数模型、className众数模型和id众数模型；

S16：分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练，获取待测网页节点的tagName众数Z₁、className众数Z₂和id众数Z₃；

S17：根据如下公式计算第二阈值Y₂；

进一步的改进，第三阈值获取的具体方法为：

S18：将标记有节点面积大小的网页节点对卷积神经网络模型进行训练，建立节点面积模型；

S19：分别利用节点面积模型对待测网页节点进行训练，获取待测网页节点的节点面积大小；

S20：根据如下公式计算第三阈值Y₃；

其中，M₁……M_a表示a个待测网页节点的节点面积；

M_a‐1、M_a‐2、M_b表示a个待测网页节点中，有b个网页节点的节点面积大于30％网页节点面积的节点面积

本发明的有益效果在于：本发明提供一种网页列表内容检测方法，该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测，检测出主体列表结构，然后再提取主体列表结构内的基于节点命名信息和基于网页大小位置信息的特征，并将提取的特征与阈值进行对比，将大于阈值的特征所对应的节点作为主体列表结构，本发明提供的两个特征分别从网页命名的规律和网页元素所占面积大小这两个不同角度出发，特征之间不存在耦合和相关性，因此能保证最后的结果是两种特征检测列表效果的叠加。

附图说明

图1为实施例1一种网页列表内容检测方法的流程图；

图2为实施例2步骤S4的流程图；

图3为实施例3一种网页列表内容检测方法的流程图；

图4为实施例4一种网页列表内容检测方法的流程图；

图5为实施例5第二阈值获取的流程图；

图6为实施例5第三阈值获取的流程图。

具体实施例方式

实施例1

本发明实施例1提供一种网页列表内容检测方法，如图1所示，该方法包括如下步骤：

S1：爬取解析渲染动态网页；

S2：将步骤S1获取的网页生成DOM树；

S3：遍历DOM树检测列表，获取当前列表节点；

具体方法为：利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS，遍历完成后，将疑似列表节点按面积大小降序排列，取第一个节点作为当前列表节点；

具体方法为：findPossibleList()函数调用isList()判断当前节点是否为列表，并递归调用findPossibleList()进行DFS，同时利用HashMap给当前子节点进行编号；

S6：返回错误；

该方法的具体流程如下：本发明在进行步骤S1之前，首先需要构造函数，构造函数的含义为所采用的浏览器引擎和其调用的位置，其采用两种方式，方式一为采用默认配置，默认使用PhantomJs，方式二为传入参数，选择浏览器引擎(Chrome or PhantomJs)；其次，再启动浏览器引擎，初始化possibleTables，第三要通过爬虫技术爬取解析渲染动态网页，并将爬取的网页窗口最大化；第四将网页生成DOM树，然后通过遍历DOM树和深度优化遍历检测当前节点的子节点，并进行编号，然后对子节点个数与阈值进行比对，并将当前节点的网页面积大于0的加入到疑似列表中，然后再根据面积的大小选择最大面积的节点，获取该节点的html，本发明提供的方法能够简单、方便、快速地检测出主体列表结构，便于浏览者浏览。

实施例2 一种网页列表内容检测方法

本发明实施例2提供的网页列表内容检测方法与实施例1基本相同，不同的是，如图2所示，步骤S4具体方法为：

S43：对Element类型节点的子节点进行遍历，获取tagName、className、id数据，并利用HashMap给当前子节点编号；

本发明通过对步骤S4进行具体的限定，解决了在WebElement遍历中，通过xpath定位时，只利用路径上的tagName组成的xpath定位节点元素，并不能保证节点的唯一性，导致获取的WebElement得到的位置大小等信息错位的问题，保证了xpath的唯一性。

实施例3 一种网页列表内容检测方法

本发明实施例3提供一种网页列表内容检测方法，如图3所示，该方法包括如下步骤：

S1：爬取解析渲染动态网页；

S2：将步骤S1获取的网页生成DOM树；

S3：遍历DOM树检测列表，获取当前列表节点；

S6：返回错误；

S8：将疑似列表结构列表变量按照网页面积大小降序排列，选出所占面积最大的节点，获取该节点的html；

本发明通过分别统计tagName、className和idName的众数占总条数的比例并对3个比例求均值可以解决现有技术中存在的要求子节点的tagName、className、id完全一致，或设计者设计的网页命名不太规范所产生的列表结构漏报问题；但是考虑到子节点众数的均值特征有一定的失效风险，考虑到列表子节点在网页中的分布相邻、面积近似，本发明设计了一个针对面积大小分布的特征：子节点面积的变异系数；本发明所提到的两种对列表结构有着强相关的特征，由于两个特征分别从网页命名的规律和网页节点所占面积大小这两个不同角度出发，特征之间的相互叠加，提高了检测列表结构的性能。

实施例4 一种网页列表内容检测方法

本发明实施例4提供一种网页列表内容检测方法，如图4所示，该方法包括如下步骤：

S1：爬取解析渲染动态网页；

S2：将步骤S1获取的网页生成DOM树；

S3：遍历DOM树检测列表，获取当前列表节点；

S6：返回错误；

S11：分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小，均值大于第二阈值且变异系数CV大于第三阈值，判断为主体列表；

S13：获取主体列表的表头；

具体方法为：对所有行进行遍历，将每一行中存在的所有节点所在的网页结构均记录下来，对所有行中的记录值取并集获得包含所有情况的列的表头；

S14：获取主体列表中每一行的内容；

针对每一个行中的记录，获取所有节点的“表头-内容”对，并将其对应到步骤S13中保存的所有表头的内容之下。

本发明通过以上方法可以准确地提出所述主体列表的内的内容，操作简单方便。

实施例5 一种网页列表内容检测方法

本发明实施例5提供的网页列表内容检测方法与实施例4基本相同，不同的是，如图5所示，第二阈值获取的具体方法为；

S17：根据如下公式计算第二阈值Y₂；

如图6所示，第三阈值获取的具体方法为：

S17：根据如下公式计算第三阈值Y₃；

其中，M₁……M_a表示a个待测网页节点的节点面积；

M_a‐1、M_a‐2、M_b表示a个待测网页节点中，有b个网页节点的节点面积大于30％网页节点面积的节点面积；

需要说明的是，本发明所使用的卷积神经网络模型包括：输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和输出层。

本发明对第二阈值和第三阈值进行进一步的判断，提高了阈值选择的标准，使得主体列表结构的检测性能得到明显的提高；本发明通过命名特征的众数和节点面积分别对卷积神经网络模型进行训练，然后再将待测网页节点输入到模型中，将第二全连接层输出的向量经向量机计算后获得各命名特征众数和节点面积，然后根据命名特征众数和节点面积计算出第二阈值和第三阈值。

Claims

1.一种网页列表内容检测方法，其特征在于，所述方法包括如下步骤：

S1：爬取解析渲染动态网页；

S2：将步骤S1获取的网页生成DOM树；

S3：遍历DOM树检测列表，获取当前列表节点；

S6：返回错误；

2.如权利要求1所述的网页列表内容检测方法，其特征在于，所述方法还包括：

3.如权利要求2所述的网页列表内容检测方法，其特征在于，所述方法还包括：

S13：获取主体列表的表头；

S14：获取主体列表中每一行的内容。

4.如权利要求3所述的网页列表内容检测方法，其特征在于，步骤S13具体方法为：对所有行进行遍历，将每一行中存在的所有节点所在的网页结构均记录下来，对所有行中的记录值取并集获得包含所有情况的列的表头。

5.如权利要求3所述的网页列表内容检测方法，其特征在于，步骤S14具体方法为：针对每一个行中的记录，获取所有节点的“表头-内容”对，并将其对应到步骤S13中保存的所有表头的内容之下。

6.如权利要求1所述的网页列表内容检测方法，其特征在于，步骤S3具体方法为：利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS，遍历完成后，将疑似列表节点按面积大小降序排列，取第一个节点作为当前列表节点。

7.如权利要求1所述的网页列表内容检测方法，其特征在于，步骤S4具体方法为：findPossibleList()函数调用isList()判断当前节点是否为列表，并递归调用findPossibleList()进行DFS，同时利用HashMap给当前子结点进行编号。

8.如权利要求7所述的网页列表内容检测方法，其特征在于，步骤S4具体方法为：

9.如权利要求3所述的网页列表内容检测方法，其特征在于，第二阈值获取的具体方法为；

S17：根据如下公式计算第二阈值Y₂；

10.如权利要求9所述的网页列表内容检测方法，其特征在于，第三阈值获取的具体方法为：

S20：根据如下公式计算第三阈值Y₃；

其中，M₁……M_a表示a个待测网页节点的节点面积；

M_a-1、M_a-2、M_b表示a个待测网页节点中，有b个网页节点的节点面积大于30％网页节点面积的节点面积

2