CN109948089A

CN109948089A - 一种提取网页正文的方法及装置

Info

Publication number: CN109948089A
Application number: CN201910129532.8A
Authority: CN
Inventors: 杨永全; 翟世平; 魏志强; 尹垄钧
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-28

Abstract

本发明公开了一种提取网页正文的方法，包括：提取网页源代码中HTML DOM树中包含网页正文的元素；将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；将所述网页正文的元素名称通过Jsoup技术，输出网页正文。解决了网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。

Description

一种提取网页正文的方法及装置

技术领域

本申请涉及互联网技术领域，具体涉及一种提取网页正文的方法，同时涉及一种提取网页正文的装置。

背景技术

网络技术急速发展，web页面的规模越来越大,广告等无关噪音信息也越来越多,使得数据挖掘、信息检索等变得越来越艰巨。现阶段的Web网页信息抽取技术存在通用性差、适应性差的缺陷,无法适应网页的异构性和易变性,且正文信息的主题相关信息抽取忽略节点结构关系,导致抽取效率低,相关链接抽取浪费大量的向量空间,语义主题信息不够明确,导致抽取效率不高。

目前，基于DOM树的网页正文提取技术的大致流程为：利用开源工具HT MLParser等处理HTML，修正HTML中不规范的地方。根据规范后的HTML 建立DOM树，递归遍历DOM树并比较识别其中的非正文信息，比如广告、导航、标签等等。非正文信息移除后，剩下的就是正文信息。基于DOM树的网页正文提取技术缺点：

(1)正文的判断仅仅依赖于已知的非正文信息节点，判断准确率低。

(2)后续无相应的算法来确保正文信息节点的正确性和可靠性。

(3)解析DOM树本身的效率比较低，因为需要对文档中的每个 element/attribute/comment等非正文节点都要创建对象。

发明内容

本申请提供一种提取网页正文的方法，解决了对网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。

本申请提供一种提取网页正文的方法，其特征在于，包括：

提取网页源代码中HTML DOM树中包含网页正文的元素；

将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；

根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；

将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对网页正文属性的相关度进行判断，输出网页正文。

优选的，所述网页源代码，具体的可以为HTML标签语言编写的源代码。

优选的，所述提取网页源代码中HTML DOM树中包含网页正文的元素，具体的，可以通过正则表达式过滤提取出HTML DOM树中包含网页正文的元素。

优选的，将网页正文的元素名称映射入一个多维的词向量空间，包括：

通过word enbeding的方式，将所述元素名称映射入一个多维的词向量空间。

优选的，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中，包括：

为每一个元素名称分配相应的词向量；

将所有词向量构成多维词向量矩阵；

将所述矩阵放入Seq2Seq框架中。

优选的，还包括：

在Seq2Seq框架中加入bucket机制，以允许Seq2Seq框架的输入输出数据长度不相等。

优选的，根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C，包括：

为每一个元素名称分配一个影响预测结果的权重；

在Seq2Seq框架的编码端，将输入的词向量矩阵通过编码器编码为抽象的上下文向量C。

优选的，所述根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，包括：

在Seq2Seq框架的解码端，根据Attention机制为输入端的每一个向量分配的权重与对齐方式，通过beam-search的方法对所述抽象的上下文向量进行解码。

优选的，所述根据预先设定的阈值对对网页正文属性的相关度进行判断，输出网页正文，包括：

预先设定网页正文属性的相关度的阈值；

若网页正文属性的相关度符合阈值要求，则判断为正文，并将正文输出。

优选的，所述网页正文属性，包括：正文长度、正文内容以及网页标题。

本申请同时提供一种提取网页正文的装置，其特征在于，包括：

提取单元，用于提取网页源代码中HTML DOM树中包含网页正文的元素；

矩阵构成单元，用于将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；

元素名称输出单元，用于根据Attention机制，将输入的词向量通过Seq2Seq 框架的编码器编码为抽象的上下文向量C；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；

网页正文输出单元，用于将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对对网页正文属性的相关度进行判断，输出网页正文。

本申请提供的一种提取网页正文的方法，通过将深度学习与Jsoup技术相结合的方法提取网页正文，解决了对网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。

附图说明

图1是本申请实施例提供的一种提取网页正文的方法示意图；

图2是本申请实施例提供的一种提取网页正文的装置示意图；

图3是本申请实施例涉及的DOM树的结构示意图；

图4是本申请实施例涉及的Seq2Seq+Attention机制模型示意图；

图5是本申请实施例涉及的基于Seq2Seq+Attention机制的DOM树分析网页正文提取技术实现的过程示意图；

图6是本申请另一实施例提供的一种提取网页正文的方法示意图；

图7是本申请实施例涉及的Seq2Seq+Attention机制模型流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

请参看图1，图1是本申请实施例提供的一种提供网页正文的方法，下面结合图1，对本申请提供的方法进行详细说明。

步骤S101，提取网页源代码中HTML DOM树中包含网页正文的元素。

随着网络技术的快速发展，互联网已经成为人们获取信息的主要来源，而网页正是互联网上信息的主要载体。网页上的信息通过网页源代码进行展示，在提取网页正文之前，首先是获取网页源代码，网页源代码，具体的可以为 HTML标签语言编写的网页源代码。

DOM的全称为Document Object Model，也就是文档对象模型，它将HTML 源文件中的各类标签信息，如<HEAD><BODY><TABLE><DIV>以树形结构解析成一个整体树。DOM树的结构如图3所示，每个节点就是树中的节点，文本就是树中的叶子节点。由于HTML源文件中的标签信息太多，需要对标签信息进行初步的过滤，以提取网页源代码中HTML DOM树中包含网页正文的元素，对标签信息进行初步过滤的方法，可以通过正则表达式的方法进行过滤，提取网页源代码中HTML DOM树中包含网页正文的元素。

步骤S102，将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中。

将上一步骤中通过正则表达式的方法，提取的包含网页正文的元素构成一个列表，然后通过word enbeding的方式，将所述元素名称映射入一个多维的词向量空间。然后为每一个元素名称分配相应的词向量，将所有词向量构成多维词向量矩阵，然后，再将多维词向量矩阵放入Seq2Seq框架中。

Seq2Seq是Sequence-to-Sequence的缩写，该框架突破了传统的固定大小输入问题，该框架一般左边使用一个神经网络称为编码端，右边使用一个神经网络称为解码端。编码端作为输入端，解码端作为输出端。在Seq2Seq框架中加入bucket机制，以使Seq2Seq框架的输入输出数据长度不相等。因为Seq2Seq 框架的输入DOM与输出DOM是多对一的关系，因为输入端可以输入多个包含网页正文的元素，而解码端通过判断会输出预测的网页正文的元素名称。所以，需要使它们是非对等长度对应，bucket机制可以允许Seq2Seq框架的输入输出数据长度不相等。

步骤S103，根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量C进行解码，输出预测的网页正文的元素名称。

在通过Seq2Seq框架在提取网页正文的过程中，我们引入Attention机制，其模型机制示意图如图4所示，Attention机制可以称为Attention-based Model，其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。所以，使用Attention 机制，为每一个元素名称分配一个影响预测结果的权重，在在Seq2Seq框架的编码端(Encoder)，将输入的词向量矩阵通过编码器编码为抽象的上下文向量 C，在Seq2Seq框架的解码端(Decoder)，根据Attention机制为输入端的每一个词向量分配的权重与对齐方式，通过beam-search的方法对所述抽象的上下文向量进行解码。因为在预测过程中，如果有一个序列解码错了词，那么错误便会一直累加。所以，可以使用beam-search的方法。通过这个上下文向量一步一步不断解码生成目标元素名称。

步骤S104，将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对网页正文属性的相关度进行判断，输出网页正文。

通过Seq2Seq框架输出预测的网页正文的元素名称，将网页正文的元素名称通过Jsoup技术，提取预测的网页正文，Jsoup是一款HTML解析器，用于解析包含网页正文的元素，获取网页正文。为了进一步提高预测的网页正文的准确率，在通过Jsoup技术，提取预测的网页正文后，引入正则表达式的判断机制，输出网页正文，具体的包括：预先设定网页正文属性的相关度的阈值，若网页正文属性的相关度符合阈值要求，则判断为正文，并将正文输出。网页正文属性，包括：正文长度、正文内容以及网页标题。

与图1一种提取网页正文的方法，相对应的，本申文静实施例同时提供一种提取网页正文的装置200，如图2所示，其特征在于，包括：

提取单元210，用于提取网页源代码中HTML DOM树中包含网页正文的元素；

矩阵构成单元220，用于将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；

元素名称输出单元230，用于根据Attention机制，将输入的向量通过 Seq2Seq框架的编码器编码为抽象的上下文向量C；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；

网页正文输出单元240，用于将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对对网页正文属性的相关度进行判断，输出网页正文。

本实施例提供了基于Seq2Seq+Attention机制的DOM树分析网页正文提取技术，提出了一种可以对DOM树有效过滤及降噪，能够较为准确的找到网页主题信息，对正文信息进行准确定位的算法实现。其实现的主要过程如图5所示，获取待提取网页正文的HTML网页源代码，网页源代码中关键元素提取，然后通过Seq2Seq+Attention机制，输出预测的网页正文的元素名称，将网页正文的元素名称通过Jsoup技术，提取预测的网页正文。网页正文的无素名称，其实就是DOM树的节点名称，通过节点名称提取预测的网页正文。

以下结合图6，对本发明的技术方案作进一步说明。

如图6所示，在本实施例中，首先是获取待提取正文的HTML的网页源代码。网页上的信息包括网页正文，通过网页源代码进行展示，网页源代码有多个不同的节点，代表不同的内空，网页正文就是其中的节点，然后提取HTML DOM树中的关键元素，也就是包含网页正文的元素，通过Seq2Seq+Attention 机制，将提取的关键元素作为Seq2Seq框架的输入，通过Seq2Seq+Attention 机制，对输出的关键元素进行判断，如果经过判断，认为是正文节点，那么就输出该正文节点，如果不是，再通过Seq2Seq+Attention机制对下一个输入进行判断，在判断为正文节点后，通过Jsoup提取网页正文，最后输出网页正文。

关于Seq2Seq+Attention机制，其模型流程如图7所示，通过提取网页DOM 树中的节点，形成节点列表，使用enbedding将每一个节点映射进一个多维的词向量空间，为每一个节点分配相应的词向量，将所有词向量构成多维词向量矩阵，再将多维词向量矩阵放入Seq2Seq框架中。通过Encoder进行编码，编码为抽象的上下文向量C，抽象的上下文向量C也可以称为中间语义向量C，再根据Attention机制为每一个向量分配权重与对齐方式，通过Decoder进行解码，输出预测的节点。

通过本申请提供的方法，将深度学习与Jsoup技术相结合的方法提取网页正文，解决了对网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，而这些未脱离本发明精神和范围的任何修改或者等同替换，其均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种提取网页正文的方法，其特征在于，包括：

提取网页源代码中HTML DOM树中包含网页正文的元素；

2.根据权利要注1所述的方法，其特征在于，所述网页源代码，具体的可以为HTML标签语言编写的源代码。

3.根据权利要求1所述的方法，其特征在于，所述提取网页源代码中HTMLDOM树中包含网页正文的元素，具体的，可以通过正则表达式过滤提取出HTMLDOM树中包含网页正文的元素。

4.根据权利要求1所述的方法，其特征在于，将网页正文的元素名称映射入一个多维的词向量空间，包括：

5.根据权利要求1所述的方法，其特征在于，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中，包括：

为每一个元素名称分配相应的词向量；

将所有词向量构成多维词向量矩阵；

将所述矩阵放入Seq2Seq框架中。

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C，包括：

为每一个元素名称分配一个影响预测结果的权重；

8.根据权利要求1所述的方法，其特征在于，所述根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据预先设定的阈值对对网页正文属性的相关度进行判断，输出网页正文，包括：

预先设定网页正文属性的相关度的阈值；

10.根据权利要求1或9所述的方法，其特征在于，所述网页正文属性，包括：正文长度、正文内容以及网页标题。

11.一种提取网页正文的装置，其特征在于，包括：

元素名称输出单元，用于根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；