CN109948089A - 一种提取网页正文的方法及装置 - Google Patents

一种提取网页正文的方法及装置 Download PDF

Info

Publication number
CN109948089A
CN109948089A CN201910129532.8A CN201910129532A CN109948089A CN 109948089 A CN109948089 A CN 109948089A CN 201910129532 A CN201910129532 A CN 201910129532A CN 109948089 A CN109948089 A CN 109948089A
Authority
CN
China
Prior art keywords
web page
page text
term
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910129532.8A
Other languages
English (en)
Inventor
杨永全
翟世平
魏志强
尹垄钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN201910129532.8A priority Critical patent/CN109948089A/zh
Publication of CN109948089A publication Critical patent/CN109948089A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提取网页正文的方法,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,输出网页正文。解决了网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。

Description

一种提取网页正文的方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种提取网页正文的方法,同时涉及一种提取网页正文的装置。
背景技术
网络技术急速发展,web页面的规模越来越大,广告等无关噪音信息也越来越多,使得数据挖掘、信息检索等变得越来越艰巨。现阶段的Web网页信息抽取技术存在通用性差、适应性差的缺陷,无法适应网页的异构性和易变性,且正文信息的主题相关信息抽取忽略节点结构关系,导致抽取效率低,相关链接抽取浪费大量的向量空间,语义主题信息不够明确,导致抽取效率不高。
目前,基于DOM树的网页正文提取技术的大致流程为:利用开源工具HT MLParser等处理HTML,修正HTML中不规范的地方。根据规范后的HTML 建立DOM树,递归遍历DOM树并比较识别其中的非正文信息,比如广告、导航、标签等等。非正文信息移除后,剩下的就是正文信息。基于DOM树的网页正文提取技术缺点:
(1)正文的判断仅仅依赖于已知的非正文信息节点,判断准确率低。
(2)后续无相应的算法来确保正文信息节点的正确性和可靠性。
(3)解析DOM树本身的效率比较低,因为需要对文档中的每个 element/attribute/comment等非正文节点都要创建对象。
发明内容
本申请提供一种提取网页正文的方法,解决了对网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
本申请提供一种提取网页正文的方法,其特征在于,包括:
提取网页源代码中HTML DOM树中包含网页正文的元素;
将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
优选的,所述网页源代码,具体的可以为HTML标签语言编写的源代码。
优选的,所述提取网页源代码中HTML DOM树中包含网页正文的元素,具体的,可以通过正则表达式过滤提取出HTML DOM树中包含网页正文的元素。
优选的,将网页正文的元素名称映射入一个多维的词向量空间,包括:
通过word enbeding的方式,将所述元素名称映射入一个多维的词向量空间。
优选的,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中,包括:
为每一个元素名称分配相应的词向量;
将所有词向量构成多维词向量矩阵;
将所述矩阵放入Seq2Seq框架中。
优选的,还包括:
在Seq2Seq框架中加入bucket机制,以允许Seq2Seq框架的输入输出数据长度不相等。
优选的,根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C,包括:
为每一个元素名称分配一个影响预测结果的权重;
在Seq2Seq框架的编码端,将输入的词向量矩阵通过编码器编码为抽象的上下文向量C。
优选的,所述根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,包括:
在Seq2Seq框架的解码端,根据Attention机制为输入端的每一个向量分配的权重与对齐方式,通过beam-search的方法对所述抽象的上下文向量进行解码。
优选的,所述根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文,包括:
预先设定网页正文属性的相关度的阈值;
若网页正文属性的相关度符合阈值要求,则判断为正文,并将正文输出。
优选的,所述网页正文属性,包括:正文长度、正文内容以及网页标题。
本申请同时提供一种提取网页正文的装置,其特征在于,包括:
提取单元,用于提取网页源代码中HTML DOM树中包含网页正文的元素;
矩阵构成单元,用于将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
元素名称输出单元,用于根据Attention机制,将输入的词向量通过Seq2Seq 框架的编码器编码为抽象的上下文向量C;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
网页正文输出单元,用于将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文。
本申请提供的一种提取网页正文的方法,通过将深度学习与Jsoup技术相结合的方法提取网页正文,解决了对网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
附图说明
图1是本申请实施例提供的一种提取网页正文的方法示意图;
图2是本申请实施例提供的一种提取网页正文的装置示意图;
图3是本申请实施例涉及的DOM树的结构示意图;
图4是本申请实施例涉及的Seq2Seq+Attention机制模型示意图;
图5是本申请实施例涉及的基于Seq2Seq+Attention机制的DOM树分析网页正文提取技术实现的过程示意图;
图6是本申请另一实施例提供的一种提取网页正文的方法示意图;
图7是本申请实施例涉及的Seq2Seq+Attention机制模型流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
请参看图1,图1是本申请实施例提供的一种提供网页正文的方法,下面结合图1,对本申请提供的方法进行详细说明。
步骤S101,提取网页源代码中HTML DOM树中包含网页正文的元素。
随着网络技术的快速发展,互联网已经成为人们获取信息的主要来源,而网页正是互联网上信息的主要载体。网页上的信息通过网页源代码进行展示,在提取网页正文之前,首先是获取网页源代码,网页源代码,具体的可以为 HTML标签语言编写的网页源代码。
DOM的全称为Document Object Model,也就是文档对象模型,它将HTML 源文件中的各类标签信息,如<HEAD><BODY><TABLE><DIV>以树形结构解析成一个整体树。DOM树的结构如图3所示,每个节点就是树中的节点,文本就是树中的叶子节点。由于HTML源文件中的标签信息太多,需要对标签信息进行初步的过滤,以提取网页源代码中HTML DOM树中包含网页正文的元素,对标签信息进行初步过滤的方法,可以通过正则表达式的方法进行过滤,提取网页源代码中HTML DOM树中包含网页正文的元素。
步骤S102,将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中。
将上一步骤中通过正则表达式的方法,提取的包含网页正文的元素构成一个列表,然后通过word enbeding的方式,将所述元素名称映射入一个多维的词向量空间。然后为每一个元素名称分配相应的词向量,将所有词向量构成多维词向量矩阵,然后,再将多维词向量矩阵放入Seq2Seq框架中。
Seq2Seq是Sequence-to-Sequence的缩写,该框架突破了传统的固定大小输入问题,该框架一般左边使用一个神经网络称为编码端,右边使用一个神经网络称为解码端。编码端作为输入端,解码端作为输出端。在Seq2Seq框架中加入bucket机制,以使Seq2Seq框架的输入输出数据长度不相等。因为Seq2Seq 框架的输入DOM与输出DOM是多对一的关系,因为输入端可以输入多个包含网页正文的元素,而解码端通过判断会输出预测的网页正文的元素名称。所以,需要使它们是非对等长度对应,bucket机制可以允许Seq2Seq框架的输入输出数据长度不相等。
步骤S103,根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量C进行解码,输出预测的网页正文的元素名称。
在通过Seq2Seq框架在提取网页正文的过程中,我们引入Attention机制,其模型机制示意图如图4所示,Attention机制可以称为Attention-based Model,其实就是一个相似性的度量,当前的输入与目标状态越相似,那么在当前的输入的权重就会越大,说明当前的输出越依赖于当前的输入。所以,使用Attention 机制,为每一个元素名称分配一个影响预测结果的权重,在在Seq2Seq框架的编码端(Encoder),将输入的词向量矩阵通过编码器编码为抽象的上下文向量 C,在Seq2Seq框架的解码端(Decoder),根据Attention机制为输入端的每一个词向量分配的权重与对齐方式,通过beam-search的方法对所述抽象的上下文向量进行解码。因为在预测过程中,如果有一个序列解码错了词,那么错误便会一直累加。所以,可以使用beam-search的方法。通过这个上下文向量一步一步不断解码生成目标元素名称。
步骤S104,将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
通过Seq2Seq框架输出预测的网页正文的元素名称,将网页正文的元素名称通过Jsoup技术,提取预测的网页正文,Jsoup是一款HTML解析器,用于解析包含网页正文的元素,获取网页正文。为了进一步提高预测的网页正文的准确率,在通过Jsoup技术,提取预测的网页正文后,引入正则表达式的判断机制,输出网页正文,具体的包括:预先设定网页正文属性的相关度的阈值,若网页正文属性的相关度符合阈值要求,则判断为正文,并将正文输出。网页正文属性,包括:正文长度、正文内容以及网页标题。
与图1一种提取网页正文的方法,相对应的,本申文静实施例同时提供一种提取网页正文的装置200,如图2所示,其特征在于,包括:
提取单元210,用于提取网页源代码中HTML DOM树中包含网页正文的元素;
矩阵构成单元220,用于将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
元素名称输出单元230,用于根据Attention机制,将输入的向量通过 Seq2Seq框架的编码器编码为抽象的上下文向量C;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
网页正文输出单元240,用于将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文。
本实施例提供了基于Seq2Seq+Attention机制的DOM树分析网页正文提取技术,提出了一种可以对DOM树有效过滤及降噪,能够较为准确的找到网页主题信息,对正文信息进行准确定位的算法实现。其实现的主要过程如图5所示,获取待提取网页正文的HTML网页源代码,网页源代码中关键元素提取,然后通过Seq2Seq+Attention机制,输出预测的网页正文的元素名称,将网页正文的元素名称通过Jsoup技术,提取预测的网页正文。网页正文的无素名称,其实就是DOM树的节点名称,通过节点名称提取预测的网页正文。
以下结合图6,对本发明的技术方案作进一步说明。
如图6所示,在本实施例中,首先是获取待提取正文的HTML的网页源代码。网页上的信息包括网页正文,通过网页源代码进行展示,网页源代码有多个不同的节点,代表不同的内空,网页正文就是其中的节点,然后提取HTML DOM树中的关键元素,也就是包含网页正文的元素,通过Seq2Seq+Attention 机制,将提取的关键元素作为Seq2Seq框架的输入,通过Seq2Seq+Attention 机制,对输出的关键元素进行判断,如果经过判断,认为是正文节点,那么就输出该正文节点,如果不是,再通过Seq2Seq+Attention机制对下一个输入进行判断,在判断为正文节点后,通过Jsoup提取网页正文,最后输出网页正文。
关于Seq2Seq+Attention机制,其模型流程如图7所示,通过提取网页DOM 树中的节点,形成节点列表,使用enbedding将每一个节点映射进一个多维的词向量空间,为每一个节点分配相应的词向量,将所有词向量构成多维词向量矩阵,再将多维词向量矩阵放入Seq2Seq框架中。通过Encoder进行编码,编码为抽象的上下文向量C,抽象的上下文向量C也可以称为中间语义向量C,再根据Attention机制为每一个向量分配权重与对齐方式,通过Decoder进行解码,输出预测的节点。
通过本申请提供的方法,将深度学习与Jsoup技术相结合的方法提取网页正文,解决了对网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,而这些未脱离本发明精神和范围的任何修改或者等同替换,其均在申请待批的本发明的权利要求保护范围之内。

Claims (11)

1.一种提取网页正文的方法,其特征在于,包括:
提取网页源代码中HTML DOM树中包含网页正文的元素;
将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
2.根据权利要注1所述的方法,其特征在于,所述网页源代码,具体的可以为HTML标签语言编写的源代码。
3.根据权利要求1所述的方法,其特征在于,所述提取网页源代码中HTMLDOM树中包含网页正文的元素,具体的,可以通过正则表达式过滤提取出HTMLDOM树中包含网页正文的元素。
4.根据权利要求1所述的方法,其特征在于,将网页正文的元素名称映射入一个多维的词向量空间,包括:
通过word enbeding的方式,将所述元素名称映射入一个多维的词向量空间。
5.根据权利要求1所述的方法,其特征在于,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中,包括:
为每一个元素名称分配相应的词向量;
将所有词向量构成多维词向量矩阵;
将所述矩阵放入Seq2Seq框架中。
6.根据权利要求5所述的方法,其特征在于,还包括:
在Seq2Seq框架中加入bucket机制,以允许Seq2Seq框架的输入输出数据长度不相等。
7.根据权利要求1所述的方法,其特征在于,根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C,包括:
为每一个元素名称分配一个影响预测结果的权重;
在Seq2Seq框架的编码端,将输入的词向量矩阵通过编码器编码为抽象的上下文向量C。
8.根据权利要求1所述的方法,其特征在于,所述根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,包括:
在Seq2Seq框架的解码端,根据Attention机制为输入端的每一个向量分配的权重与对齐方式,通过beam-search的方法对所述抽象的上下文向量进行解码。
9.根据权利要求1所述的方法,其特征在于,所述根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文,包括:
预先设定网页正文属性的相关度的阈值;
若网页正文属性的相关度符合阈值要求,则判断为正文,并将正文输出。
10.根据权利要求1或9所述的方法,其特征在于,所述网页正文属性,包括:正文长度、正文内容以及网页标题。
11.一种提取网页正文的装置,其特征在于,包括:
提取单元,用于提取网页源代码中HTML DOM树中包含网页正文的元素;
矩阵构成单元,用于将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
元素名称输出单元,用于根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
网页正文输出单元,用于将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文。
CN201910129532.8A 2019-02-21 2019-02-21 一种提取网页正文的方法及装置 Pending CN109948089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129532.8A CN109948089A (zh) 2019-02-21 2019-02-21 一种提取网页正文的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129532.8A CN109948089A (zh) 2019-02-21 2019-02-21 一种提取网页正文的方法及装置

Publications (1)

Publication Number Publication Date
CN109948089A true CN109948089A (zh) 2019-06-28

Family

ID=67006916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129532.8A Pending CN109948089A (zh) 2019-02-21 2019-02-21 一种提取网页正文的方法及装置

Country Status (1)

Country Link
CN (1) CN109948089A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535914A (zh) * 2021-06-11 2021-10-22 中国海洋大学 一种文本语义相似度计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150205769A1 (en) * 2012-06-25 2015-07-23 Beijing Qihoo Technology Company Limited System and method for recognizing non-body text in webpage
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150205769A1 (en) * 2012-06-25 2015-07-23 Beijing Qihoo Technology Company Limited System and method for recognizing non-body text in webpage
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAOFENG XU 等: "Automatic Generation of Pseudocode with Attention Seq2seq Model", 《2018 25TH ASIA-PACIFIC SOFTWARE ENGINEERING CONFERENCE (APSEC)》 *
SHAOFENG XU 等: "Automatic Generation of Pseudocode with Attention Seq2seq Model", 《2018 25TH ASIA-PACIFIC SOFTWARE ENGINEERING CONFERENCE (APSEC)》, 30 November 2018 (2018-11-30), pages 2861 - 2865 *
荣光辉 等: "基于深度学习的问答匹配方法", 《计算机应用》 *
荣光辉 等: "基于深度学习的问答匹配方法", 《计算机应用》, 10 October 2017 (2017-10-10), pages 711 - 712 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535914A (zh) * 2021-06-11 2021-10-22 中国海洋大学 一种文本语义相似度计算方法
CN113535914B (zh) * 2021-06-11 2024-05-21 中国海洋大学 一种文本语义相似度计算方法

Similar Documents

Publication Publication Date Title
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN103336690B (zh) 基于html5的文字元素绘制方法及装置
CN101216842B (zh) 获取页面关键词的方法及页面信息处理装置
CN105447099A (zh) 日志结构化信息提取方法及装置
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
WO2022116435A1 (zh) 标题生成方法、装置、电子设备及存储介质
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN107992211A (zh) 一种基于cnn-lstm的汉字拼写错别字改正方法
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN105005472B (zh) 一种web上显示维吾尔文字的方法及装置
CN104462268B (zh) 一种html文档信息抽取表达式的方法及系统
CN109299470B (zh) 文本公告中触发词的抽取方法及系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN109948089A (zh) 一种提取网页正文的方法及装置
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
Wang A cross-domain natural language interface to databases using adversarial text method
CN105183730B (zh) 网页信息的处理方法和装置
CN111831792A (zh) 一种电力知识库构建方法及系统
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统
CN114429106B (zh) 页面信息处理方法、装置、电子设备和存储介质
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN115600561A (zh) 融合规则与小样本的网页结构化方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination