CN113343140B

CN113343140B - 一种基于neo4j图形数据库自动提取网页正文内容的方法

Info

Publication number: CN113343140B
Application number: CN202010138403.8A
Authority: CN
Inventors: 刘亮; 李萧洋; 郑荣锋; 李孟铭
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2022-12-13
Anticipated expiration: 2040-03-03
Also published as: CN113343140A

Abstract

本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括：步骤S101，利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合；步骤S102，提取HTML标签并将HTML源码转换为树形结构；步骤S103，遍历树中的所有节点提取出表示节点之间关系的三元组；步骤S104，利用neo4j图形数据库将关系三元组转换成图；步骤S105，通过节点压缩和枝节压缩，去除图中的冗余节点；步骤S106，提取多维特征，通过机器学习训练正文节点分类模型；步骤S107，利用分类模型提取出网页中的正文节点，并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

Description

一种基于neo4j图形数据库自动提取网页正文内容的方法

技术领域

本发明涉及计算机应用和网页内容提取领域，特别涉及一种基于neo4j图形数据库自动提取网页正文内容的方法。

背景技术

随着网络技术的发展，互联网跨越时空界限为人类提供了一个信息共享平台，而网页正文内容正是人们从互联网上快速获取信息重要来源。如今，网页正文内容提取的应用领域越来越广泛，普通用户利用搜索引擎从网页正文内容中直接获取自己想要的信息，而其他基于网页处理的工作，例如文本挖掘、人工智能、搜索引擎等，都以高效而准确地获取网页正文内容作为前提。

由于现有的大多数网站都使用了一些与正文内容无关的特定模板或者样式来提高网页的可读性，网页正文内容也往往混杂在一些广告链接、导航模板等网页噪音之中。快速而准确地从噪音中提取出网页正文内容，不仅能降低普通大众获取信息的负担，还能帮助基于网页内容提供服务的其他应用提高工作效率。因此如何自动化地从设计复杂的网页中提取出正文内容并应用到特定领域，是本领域技术人员亟需解决的问题。

根据提取网页正文内容所使用的依据，可以将现有的网页正文内容提取方法分为三大类，即基于文本信息的网页正文内容提取算法、基于视觉信息的网页正文内容提取算法和基于文档对象类型DOM的网页正文内容提取算法。

基于视觉信息的网页正文内容提取算法的主要思想为：用户在浏览网页时，会把一个语义块当做一个单一对象来看待，而用户在分辨语义块时往往会借助一些视觉信息，例如字体大小、字体颜色、背景、表格列表等。将视觉信息与DOM结合，通过将网页划分为多个块，计算每个块中文本节点与叶子节点的比例来判断所属的块是否为正文块。然而这种方法需要获取页面的视觉因素，因而计算量较大；此外，如果页面中的视觉因素使用了CSS等不同文件进行控制，则会导致提取效率低下。

基于文档对象类型DOM的网页正文内容提取算法的主要思想为：通过提取HTML源码中的标签生成一棵DOM树，将网页划分为多个块，研究树中节点之间的关系以及所存储的内容来提取网页正文内容。此种方法多适用于编程风格良好、排版一致的网站，此外HTML语言的关注点多在于如何显示信息，而不在于如何对网页分块，因而此种方法的通用性较差。

发明内容

针对现有方案中存在的缺陷，本申请的目的在于提供一种操作简单、高效准确地自动提取网页正文内容的实现方法。

为解决上述技术问题，本申请提供一种基于neo4j图形数据库自动提取网页正文内容的方法，所述实现方法包括以下步骤：

步骤S101：利用从开源渠道获取的HTML源码，使用HTML处理技术，去除与文章正文内容无关的CSS样式等，生成仅包含<html>标签的HTML文本文件。利用HTML处理技术获取HTML文本中的标签，如<div>、<table>等，根据这些标签的层次关系将源HTML转换成树形结构。

步骤S102：通过遍历树中的所有节点，根据各节点之间的连接关系以及子节点之间的顺序关系，提取出表示各标签之间相互关系的三元组。关系三元组结构形如：（src，r，dst），其中“src”和“dst”分别表示树形结构中的节点，“r”表示两个节点之间的关系。“src”中包括树中父节点的标签以及唯一标识符，“dst”包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。

步骤S103：利用neo4j图形数据库将所述的关系三元组结构转换成图结构，并去除一部分冗余的末节点。

步骤S104：对所述图结构，将与末节点直接相连的空节点，根据该空节点连接的末节点的数量分为两类，分别进行节点压缩和枝节压缩，得到压缩后的图结构。

步骤S105：对压缩后的图提取节点数量特征和平均文本长度特征。

步骤S106：将所述的特征结合生成特征向量，使用MLP模型进行训练出正文节点分类模型，并利用该分类模型对网页中的节点进行分类，提取出网页中的正文节点。

步骤S107：根据所提取出的正文节点，按照顺序依次恢复该正文节点的子节点中的内容，提取出完整的网页正文内容。

进一步，所述步骤S102中，生成关系三元组的流程为：

步骤S201：对于预处理后转换成的树形结构，循环遍历该树形结构中的所有节点，对于每个节点下的所有子节点，从左到右依次记录其顺序，对于<html>标签下的所有节点，生成形如{父节点，“连接关系”，[子节点，第x个子节点]}的记录；

步骤S202：将上述记录转换为关系三元组结构存入neo4j图形数据库，关系三元组结构形如：（src，r，dst），其中“src”中包括树中父节点的标签以及唯一标识符，“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。

再进一步，所述步骤S103中，生成关系图结构的流程为：

步骤S301：将所述关系三元组存入neo4j图形数据库，以“src”和“dst”作为图的顶点，“r”作为图的边，表示出各个节点之间的连接关系，生成HTML文本对应的图结构；

步骤S302：在上述生成的图结构中，所有含有正文文本的节点都存在于图的末节点，循环去除仅包含空文本的末节点以及由此而产生的没有context属性的节点（即原末节点的父节点）。

更进一步，所述步骤S104中，枝节压缩和节点压缩的流程为：

步骤S401：对于上述图结构中与单一末节点相连的空节点，将单一末节点与该空节点的父节点直接相连，并删除该空节点，称为节点压缩。

步骤S402：对于上述图结构中与两个及两个以上末节点相连的空节点，将该空节点与该空节点的祖父节点直接相连，并删除该空节点的空父节点，称为枝节压缩。

更进一步，所述步骤S105中，提取多维特征的流程为：

步骤S501：正文节点相连接的非空节点的数量远小于与非正文节点相连的非空节点数量，所连接的非空节点数量多的节点更有可能是正文节点；

步骤S502：由于一个网页中有且仅有一个正文节点，且网页中包含推荐内容的节点，其平均文本长度远小于正常的正文节点的平均文本长度，因而平均文本长度较长的节点更有可能是正文节点。

本发明提供了一种网页正文内容提取方法，对网页的HTML源码进行预处理，去除其中与正文内容无关的样式模板，生成HTML文本文件；通过HTML处理技术，提取HTML文本中的标签并生成源HTML的树形结构；通过遍历树中的所有节点，提取出各个节点之间的关系以及子节点之间的顺序关系，生成关系三元组；利用neo4j图形数据库将关系三元组转换成图，并对所述图中的部分节点进行节点压缩和枝节压缩，去除冗余的空节点；通过自然语言处理技术，从图中提取特征，训练MLP分类模型，从大量节点中分离出正文节点；通过对正文节点的所有子节点中的内容按顺序恢复，提取出完整的网页正文内容。

附图说明

图1为本申请实施例所提供的一种网页正文内容提取方法的流程图。

图2为本申请中所生成的关系三元组的存储格式图。

图3为本申请中所述的节点压缩示意图。

图4为本申请中所述的枝节压缩示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整描述。

下面请参考图1，图1为本申请实施例所提供的网页正文内容提取方法的流程图。

具体步骤如下。

步骤S101：利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签，将网页源码转换为树形结构。

通过HTML文件处理技术，去除与正文内容无关的CSS等模板样式，只保留HTML纯文本；利用BeautifulSoup提取HTML文本中的标签，如<div>、<table>等，根据各标签之间的层次关系生成树形结构。

步骤S102：遍历树中的节点，根据各节点之间的连接关系以及子节点之间的顺序关系提取三元组。

首先，根据所生成的树形结构，获取原始<html>标签下的所有一级节点，即在树形结构中直接与<html>标签相连的子节点。将所述的一级节点与<html>标签的关系记录为“subtag”，并记录下这些一级节点的顺序。

接着，循环遍历一级节点下的所有子节点，将每个节点与其子节点的关系记录为“subtag”并记录下这些子节点之间的顺序关系。

然后，将上述结果转换为关系三元组结构存入neo4j图形数据库，采用如图2所示的格式存储。图2中，“src”和“dst”分别表示树形结构中的节点，“r”表示两个节点之间的连接关系；“src”中包括树中父节点的标签以及唯一标识符，“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序，“unique_id”起标识作用，“children_sequence”表示子节点的顺序。

步骤S103：通过neo4j图形数据库将关系三元组转换成图，并对图进行简化处理。

将所述关系三元组结构中的src和“dst”作为图的顶点，“r”作为图的边，生成HTML文本对应的图结构。

根据HTML的结构特点，在上述生成的图结构中，所有含有文字的节点都必定存在于图的末节点。根据这一基础，循环去除为空文本的末节点以及由此而产生的没有context属性的节点（即原末节点的父节点）。此步骤的主要目的是减少冗余，降低后续处理的复杂度。

步骤S104：对所述图进行节点压缩和枝节压缩，进一步去除冗余节点。

由于在HTML结构中具有平行结构关系的节点会关联到同一个节点，而与同一主题相关的节点则会关联到同一节点或者是相近的节点。因而所有含有正文文本信息的节点，都直接或者在一定距离内关联着一个同一个节点。基于这一思想，通过压缩步骤来消除HTML标签结构带来的数据离散化的影响。

（1）节点压缩的具体步骤如图3所示。

对于上述图结构中与单一末节点相连的空节点，将单一末节点与该空节点的父节点直接相连，并删除该空节点，称为节点压缩。如图3，连接单一末节点的空节点B，其父节点和祖父节点均为空节点，因此节点B是一个冗余的空节点。删除空节点B，将末节点直接连接到B的父节点上。

（2）枝节压缩的具体步骤如图4所示。

对于上述图结构中与两个及两个以上末节点相连的空节点，将该空节点与该空节点的祖父节点直接相连，并删除该空节点的空父节点，称为枝节压缩。如图4，连接多个末节点的空节点C，其父节点与祖父节点均为空节点，因此节点C的父节点是一个冗余的空节点。删除空节点C的父节点，将空节点C直接与其祖父节点相连接。

步骤S105：通过自然语言处理技术对所述图结构中的节点进行多维特征提取，具体步骤包括。

（1）计算与每个节点相连接的不为空的节点数量，作为特征一。在所生成的图中，与正文节点相连接的非空节点的数量应该远小于与非正文节点相连的非空节点数量。

（2）计算每个节点的平均文本长度，作为特征二。由于一个网页中有且仅有一个正文节点，在许多网站中存在许多与主题相关的推荐内容或评价内容等，这些内容虽然不属于网页的正文内容但同样可以生成图结构。这些包含推荐内容的节点有如下特征：其平均文本长度远小于正常的正文节点的平均文本长度。

步骤S106：通过利用模拟浏览器请求技术从开源渠道获取网页的HTML源码，收集训练样本，提取所述的多维特征，通过机器学习，训练MLP分类模型。

首先利用模拟浏览器请求技术从开源渠道获取网页的HTML源码，收集一定数量的网页样本，使用步骤S105中所述方法提取样本中的多维特征，使用提取的特征训练MLP分类模型。训练好的MLP分类模型就可以根据正文节点的特征，将图中的所有节点划分为正文节点和非正文节点。

步骤S107：对所提取出的正文节点，按照数据库中“children_sequence”所记录的子节点的顺序恢复出其子节点中的内容，从而得到完整的正文内容。

以上实例仅说明本发明的技术方案而并非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于：

步骤S101，利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签，将网页源码转换为树形结构；

步骤S102，遍历所述的树形结构中的所有节点，根据各节点之间的连接关系以及子节点之间的顺序关系，提取出表示各节点之间关系的三元组；

步骤S103，利用neo4j图形数据库将关系三元组结构转换成图结构；

步骤S104，在所述图结构中，将与末节点直接相连的空节点，根据该空节点连接的末节点的数量分为两类，分别进行节点压缩和枝节压缩；

步骤S105，对压缩后的图提取节点数量特征和平均文本长度特征，生成特征向量；

步骤S106，使用所述特征向量进行机器学习，训练出正文节点分类模型，利用该分类模型对网页中的节点进行分类，从而自动提取出网页中的正文节点；

步骤S107，根据所提取出的正文节点，按照其子节点的顺序依次恢复子节点中的内容，提取出完整的网页正文内容。

2.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S102进一步包括如下步骤：

步骤S201，对于预处理后转换成的树形结构，循环遍历该树形结构中的所有节点，对于每个节点下的所有子节点，从左到右依次记录其顺序，对于<html>标签下的所有节点，生成形如{父节点，“连接关系”，[子节点，第x个子节点]}的记录；

步骤S202，将上述记录转换为关系三元组结构存入neo4j图形数据库，关系三元组结构形如：（src，r，dst），其中“src”和“dst”分别表示树形结构中的节点，“r”表示两个节点之间的连接关系；“src”中包括树中父节点的标签以及唯一标识符，“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。

3.根据权利要求2所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S103进一步包括如下步骤：

步骤S301，将所述关系三元组存入neo4j图形数据库，“src”和“dst”作为图的顶点，“r”作为图的边，生成HTML文本对应的图结构；

步骤S302，在上述生成的图结构中，所有的含有正文文本的节点都存在于图的末节点，循环去除仅包含空文本的末节点以及由此而产生的没有context属性的节点。

4.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S104进一步包括如下步骤：

步骤S401，对于上述图结构中与单一末节点相连的空节点，将单一末节点与该空节点的父节点直接相连，并删除该空节点，称为节点压缩；

步骤S402，对于上述图结构中与两个及两个以上末节点相连的空节点，将该空节点与该空节点的祖父节点直接相连，并删除该空节点的空父节点，称为枝节压缩。

5.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S105进一步包括如下步骤：

步骤S501，计算与每个节点相连接的不为空的节点数量，作为特征一；

步骤S502，计算每个节点的所连接节点的平均文本长度，作为特征二；

步骤S503，将所述的特征一和特征二结合生成特征向量，使用机器学习模型进行训练，得到正文节点分类模型；

步骤S504，对于待提取正文内容的网页，提取如特征一和特征二所述的特征，通过正文节点分类模型将图中的节点分为正文节点和非正文节点，每个网页仅可提取出唯一一个正文节点。

6.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S106进一步包括如下步骤：

步骤S601，使用步骤S105中的方法提取样本中的多维特征，使用提取的特征训练机器学习模型；

步骤S602，对于待提取正文内容的网页，使用训练好的分类模型根据正文节点的特征，将网页中的所有节点划分为正文节点和非正文节点。

7.根据权利要求2所述的基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于，所述的步骤S107进一步包括如下步骤：

根据所述的正文节点，对其连接的所有子节点，根据步骤S202中记录的子节点顺序恢复子节点中的内容，即可提取出网页正文内容。