CN111104636B

CN111104636B - 一种基于多视角学习的网页船期数据抽取方法

Info

Publication number: CN111104636B
Application number: CN201911393013.9A
Authority: CN
Inventors: 戴汝飞; 孙伟
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-03-24
Anticipated expiration: 2039-12-30
Also published as: CN111104636A

Abstract

本发明公开了一种基于多视角学习的网页船期数据抽取方法，包含如下步骤：S1，爬取船期数据公布页面，获得N个页面的渲染树作为训练集；S2，标记各个渲染树上的最终所需的节点，并获得各个渲染树所有节点的特征；S3，将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类，获得分类器；S4，爬取需要应用的船期数据公布页面，并获得各个渲染树所有节点的特征；S5，根据步骤S1～S3训练得到的分类器对节点进行分类，得到含有船期数据的节点。

Description

一种基于多视角学习的网页船期数据抽取方法

技术领域

本发明涉及网页抽取方法，特别涉及一种基于多视角学习的网页船期数据抽取方法。

背景技术

互联网中，各大船公司与港口集团都会在官网上公布船期表，船期表中的船期数据有着方便货代公司揽货、方便船务公司装货、方便托运人和收货人查询到货期限等很多作用，因此近几年来也陆陆续续有与船期有关的或需要船期来核对校验的线上或线下的产品诞生。显而易见，船期数据的获取是非常重要的，而使用互联网爬虫程序来对船公司官网公布的船期表数据进行爬取是一种常见的获取船期数据的途径。一般在行业中，爬虫对所需数据的抽取规则是人为制定的，这就导致了数据获取十分被动，不仅需要人来费时费力找寻各个船期公布网站对应的个性化数据抽取规则，而且对于这些网站不时的大结构或小细节上的变化从而导致的数据爬取失败仍然需要有人监督跟进然后重新发现改变后的抽取规则。这种基于人工模板的方式前期需要大量的人力，并且由于不同网站通常有不同的模板，靠人工方式总结所有的网站模板极其不现实，且成本也无法承受。

网页的信息抽取方法分为模板有关的和模板无关的，传统的船期获取方法是基于模板的，需要大量人力，难以应对改变。而现有的很多网页信息抽取方法虽然都有所改进，但都是应用于正文类型的网页，这种页面主体信息包含大量的正文，正文部分网页源代码没有过多的链接或者是标签。还有少部分的研究对象为标题型网页比如某个学校的首页或者链接型网页比如包含着指向特定正文的超链接的列表页面二级导航页面。船期数据公布网页与这些网页大有不同，比如在文本的密度、标点的密度和代码结构等等这些方面，因此套用已有方法无法得出满意结果，需要另辟一种适合的方法。

发明内容

本发明的目的是提供一种基于多视角学习的网页船期数据抽取方法，采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点，能够达到解放人为干预、灵活应对改变的效果，不用再靠人力去总结抽取规则，也不用再监督跟进网页发生变化时重新制定抽取规则。

为了实现以上目的，本发明是通过以下技术方案实现的：

一种基于多视角学习的网页船期数据抽取方法，其特点是，包含如下步骤：

S1，爬取船期数据公布页面，获得N个页面的渲染树作为训练集；

S2，标记各个渲染树上的最终所需的节点，并获得各个渲染树所有节点的特征；

S3，将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类，获得分类器；

S4，爬取需要应用的船期数据公布页面，并获得各个渲染树所有节点的特征；

S5，根据步骤S1～S3训练得到的分类器对节点进行分类，得到含有船期数据的节点。

所述的特征包括：标签比率、居左程度、居右程度、居上程度、XPath长度比率或字体颜色比率的一种或几种。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的标签比率，所述的标签比率为渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居左程度，所述的居左程度为渲染树每个节点的左侧位置与最佳左侧位置的相近程度，最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居左程度，其中最佳左侧位置为从训练集渲染树得到N个页面中所需的节点的左侧位置坐标的平均值。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居右程度，所述的居右程度为渲染树每个节点的右侧位置与最佳右侧位置的相近程度，最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居右程度，其中最佳右侧位置为从训练集渲染树得到N个页面中所需的节点的右侧位置坐标的平均值。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居上程度，所述的居上程度为渲染树每个节点的上侧位置与最佳上侧位置的相近程度，最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居上程度，其中最佳上侧位置为从训练集渲染树得到N个页面中所需的节点的上侧位置坐标的平均值。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的XPath长度比率，所述的XPath长度比率为各个节点的XPath长度除以这个网页中最大的XPath的长度，其中每个DOM节点在网页中的XPath路径的长度称为XPath长度，XPath长度直接对应了该DOM节点在网页中的层次。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的字体颜色比率，所述的字体颜色比率为反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度，具体则有：

各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典，将个数规范化，把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率，同样的方法获得整个网页所有文字的字体颜色字典，将两个字典中都存在的颜色id的文字比率相乘后求和得到字体颜色比率。

所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的字体大小比率，所述的字体大小比率为反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度，具体则有：

各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大的字典，将个数规范化，把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率，同样的方法获得整个网页所有文字的字体大字典，将两个字典中都存在的大id的文字比率相乘后求和得到字体大小比率。

本发明与现有技术相比，具有以下优点：

1、采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点，能够达到解放人为干预、灵活应对改变的效果，不用再靠人力去总结抽取规则，也不用再监督跟进网页发生变化时重新制定抽取规则。

2、大量减少了人力，且网页的变化不会影响方法的效果，具有较强的鲁棒性。

附图说明

图1为本发明一种基于多视角学习的网页船期数据抽取方法的流程图；

图2为本发明中训练部分的流程图；

图3为本发明中应用部分的流程图。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

如图1所示，一种基于多视角学习的网页船期数据抽取方法，包含如下步骤：

需要说明的是，上述步骤S1～S3为本方法的训练部分。

需要说明的是，上述步骤S4、S5为本方法的应用部分。

如图2所示，在具体实施例中，上述训练部分包括：

S1，爬虫程序爬取到全球前10大船公司的船期数据公布页面，获得页面的渲染树，每家公司100个页面，共1000个渲染树。(在浏览器渲染网页过程中，当Dom树构建完成时，浏览器开始构建渲染树。渲染树由元素显示序列中的可见元素组成，它是文档的可视化表示，构建这棵树是为了以正确的顺序绘制文档内容。本方法通过程序使用浏览器内核获取船期数据网页的渲染树)

S2，标记出S1获得的1000个网页(渲染树)上最终所需要的节点，获得所有节点的源代码文本、DOM树结构和视觉上的特征。特征和做法如下：

A.标签比率：渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。

B.居左程度：渲染树每个节点的左侧位置与最佳左侧位置的相近程度被称之为居左程度特征。最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居左程度。(从训练集渲染树得到1000个页面中所需的节点的左侧位置坐标的平均值称为最佳左侧位置。)

C.居右程度：渲染树每个节点的右侧位置与最佳右侧位置的相近程度被称之为居右程度特征。最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居右程度。(从训练集渲染树得到1000个页面中所需的节点的右侧位置坐标的平均值称为最佳右侧位置。)

D.居上程度：渲染树每个节点的上侧位置与最佳上侧位置的相近程度被称之为居上程度特征。最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的高度，用1减去此结果得到的即为居上程度。(从训练集渲染树得到1000个页面中所需的节点的上侧位置坐标的平均值称为最佳上侧位置。)

E.XPath长度比率：各个节点的XPath长度除以这个网页中最大的XPath的长度。(每个DOM节点在网页中的XPath路径的长度称为XPath长度，XPath长度直接对应了该DOM节点在网页中的层次。)

F.字体颜色比率：反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度，因为网页的船期数据内容一般在网页中占据更大的比重，因此网页船期数据的字体颜色和整个网页的字体颜色分布更为接近。各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典。将个数规范化，把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体颜色字典，将两个字典中都存在的颜色id的文字比率相乘后求和。

G.字体大小比率：反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度，因为网页的船期数据内容一般在网页中占据更大的比重，因此网页船期数据的字体大小和整个网页的字体大小分布更为接近。各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大小的字典。将个数规范化，把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体大小字典，将两个字典中都存在的颜色id的文字比率相乘后求和。

S3，将S1获得1000个训练渲染树依次根据S2所得的特征和标记出的所需节点用机器学习中XGBoost(eXtreme Gradient Boosting)方法进行分类，获得分类器。

如图3所示，上述的应用部分包括：

S4.1，爬虫程序爬取到想要获得的船期数据公布页面，获得页面的渲染树，(在浏览器渲染网页过程中，当Dom树构建完成时，浏览器开始构建渲染树。渲染树由元素显示序列中的可见元素组成，它是文档的可视化表示，构建这棵树是为了以正确的顺序绘制文档内容。本方法通过程序使用浏览器内核获取船期数据网页的渲染树)

S4.2，取出S4.1获得的各个渲染树的所有节点，获得渲染树上所有节点的源代码文本、DOM树结构和视觉上的特征。特征和做法如下：

G.字体大小比率：反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度，因为网页的船期数据内容一般在网页中占据更大的比重，因此网页船期数据的字体大小和整个网页的字体大小分布更为接近。各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大小的字典。将个数规范化，把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体大小字典，将两个字典中都存在的字体id的文字比率相乘后求和。

S5，应用上述获得的分类器和获得的渲染树各个节点的特征分出结果，结果即所需的包含船期数据的节点。

综上所述，本发明一种基于多视角学习的网页船期数据抽取方法，采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点，能够达到解放人为干预、灵活应对改变的效果，不用再靠人力去总结抽取规则，也不用再监督跟进网页发生变化时重新制定抽取规则。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于多视角学习的网页船期数据抽取方法，其特征在于，包含如下步骤：

2.如权利要求1所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的特征包括：标签比率、居左程度、居右程度、居上程度、XPath长度比率或字体颜色比率的一种或几种。

3.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的标签比率，所述的标签比率为渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。

4.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居左程度，所述的居左程度为渲染树每个节点的左侧位置与最佳左侧位置的相近程度，最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居左程度，其中最佳左侧位置为从训练集渲染树得到N个页面中所需的节点的左侧位置坐标的平均值。

5.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居右程度，所述的居右程度为渲染树每个节点的右侧位置与最佳右侧位置的相近程度，最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居右程度，其中最佳右侧位置为从训练集渲染树得到N个页面中所需的节点的右侧位置坐标的平均值。

6.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的居上程度，所述的居上程度为渲染树每个节点的上侧位置与最佳上侧位置的相近程度，最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的宽度，用1减去此结果得到的即为居上程度，其中最佳上侧位置为从训练集渲染树得到N个页面中所需的节点的上侧位置坐标的平均值。

7.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的XPath长度比率，所述的XPath长度比率为各个节点的XPath长度除以这个网页中最大的XPath的长度，其中每个DOM节点在网页中的XPath路径的长度称为XPath长度，XPath长度直接对应了该DOM节点在网页中的层次。

8.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的字体颜色比率，所述的字体颜色比率为反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度，具体则有：

9.如权利要求2所述的基于多视角学习的网页船期数据抽取方法，其特征在于，所述的获得各个渲染树所有节点的特征包括：获得各个渲染树所有节点的字体大小比率，所述的字体大小比率为反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度，具体则有：