CN113688207B

CN113688207B - 基于网络的结构阅读理解的建模处理方法和装置

Info

Publication number: CN113688207B
Application number: CN202110985029.XA
Authority: CN
Inventors: 俞凯; 陈露; 赵梓涵; 曹瑞升; 许洪深
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-11-17
Anticipated expiration: 2041-08-24
Also published as: CN113688207A

Abstract

本发明公开一种基于网络的结构阅读理解的建模处理方法和装置，其中，方法包括：将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。通过将答案文段的预测任务建模为一个两阶段的过程，采用拓扑信息增强的预训练语言模型进行预测，可以更好地捕获网页中更具信息性的拓扑结构，从而可以更好地理解结构化网页中包含的拓扑信息。

Description

基于网络的结构阅读理解的建模处理方法和装置

技术领域

本发明属于神经网络领域，尤其涉及基于网络的结构阅读理解的建模处理方法和装置。

背景技术

随着互联网的飞速发展，网页已经成为最常见、最丰富的信息来源。因此，理解结构化网页内容的能力将为深度学习系统提供丰富多样的知识来源。每个网页主要由相应的超文本标记语言(HTML)代码呈现。这样，对结构化网页的理解就可以通过对其HTML代码的理解来实现。验证理解能力的常用任务之一是问答(QA)。然而，以前的QA模型只关注对纯文本的理解或知识库(KBs)。由于HTML代码中隐式且内含丰富信息的结构，直接理解结构化网页的HTML代码的研究较少。

WebSRC论文中的H-PLM模型，其本质上是一种数据处理的思想，将HTML代码中的所有的标签作为特殊的词元加入到字典当中，这样就可以将代码完整的输入到预训练语言模型中，从而能够对标签中所蕴含的上下文信息和结构信息进行建模和理解。发明人发现，其不能显式的利用网页中的拓扑信息，比如逻辑结构和空间结构。在上述技术中，模型必须从标签的顺序和上下文等信息中，学习到构建逻辑和空间结构的方法，这种映射关系是非常复杂而又灵活的，难以很好的建模。

相关技术中将基于隐式结构化上下文的QA任务定义为结构化阅读理解(SRC)，并试图通过利用HTML标签和结构化网页的可视化屏幕截图来解决基于Web的SRC。他们将HTML标签视为特殊标记，并将原始扁平化HTML代码序列直接提供给预训练语言模型(PLM)。然而，他们提出的模型的性能相当有限。主要原因之一是，仅靠代码序列很难恢复拓扑结构。图1示出了WebSRC中的数据示例及其对应的DOM树和NPR图。如图1所示，上下文信息(图1中的(a))和不同种类的拓扑信息(图1中的(b)(DOM树)和(c)(NPR图))是不同的，相互补充的。因此，仅使用上下文信息理解结构化网页将非常困难。

发明内容

本发明实施例提供一种基于网络的结构阅读理解的建模处理方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种基于网络的结构阅读理解的建模处理方法，包括：将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。

第二方面，本发明实施例提供一种基于网络的结构阅读理解的建模处理装置，包括：建模程序模块，配置为将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；定位程序模块，配置为在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；以及答案提炼程序模块，配置为在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。

第三方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的基于网络的结构阅读理解的建模处理方法的步骤。

第四方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过将答案文段的预测任务建模为一个两阶段的过程，在答案节点的定位中，采用拓扑信息增强的预训练语言模型进行预测，可以更好地捕获网页中更具信息性的拓扑结构，例如逻辑结构和空间结构，从而可以更好地理解结构化网页中包含的拓扑信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的WebSRC中的数据示例及其对应的DOM树和NPR图；

图2为本发明一实施例提供的基于网络的结构阅读理解的建模处理方法的流程图；

图3为本发明实施例提供的使用TIEBERT和传统QA模型(例如H-PLM)的两阶段推理过程图；

图4为本发明实施例提供的TIEBERT的整体架构图；

图5为本发明实施例提供的DOM树和HTML代码间关系图；

图6为本发明实施例提供的验证集不同类型网站的性能对比图；

图7为本发明实施例提供的来自开发集的Table类型的网站的QA对的结果示例图；

图8为本发明实施例提供的来自开发集的比较类型网站上QA对的结果示例图；

图9为本发明实施例提供的基于网络的结构阅读理解的建模处理装置的框图；

图10为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请中出现的英文缩写的英文全称及中文定义如下：

TIEBERT：Topological Information Enhanced Pre-train Language Model，拓扑信息增强的预训练语言模型；HTML：HyperText Markup Language，超文本标志语言；DOM：Document Object Model，文档对象模型。

请参考图2，其示出了本发明的一种基于网络的结构阅读理解的建模处理方法的一实施例的流程图。

如图2所示，在步骤201中，将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；

在步骤202中，在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；

在步骤203中，在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。

在本申请实施例中，通过将答案文段的预测任务建模为一个两阶段的过程，在答案节点的定位中，采用拓扑信息增强的预训练语言模型进行预测，可以更好地捕获网页中更具信息性的拓扑结构，例如逻辑结构和空间结构，从而可以更好地理解结构化网页中包含的拓扑信息。

在一些可选的实施例中，在所述答案节点的限制下进行答案文段的预测包括：使用传统的问答模型，在对比是答案的概率时，仅考虑包含在所述答案节点中的文段。

在一些可选的实施例中，所述拓扑信息增强的预训练语言模型包括上下文编码模块、基于HTML的均值池化、结构编码模块和分类层。

在一些可选的实施例中，所述上下文编码模块包括：利用预训练语言模型对上下文的信息进行编码，包括采取H-PLM的数据处理思想，将HTML标签作为特殊词元，并使用H-PLM训练之后的擦桉树初始化所述上下文编码模块。

在一些可选的实施例中，所述基于HTML的均值池化包括：将DOM树及空间位置关系图的节点的表示初始化为所述节点所包含的所有直接内容词元的表示的平均值，所述所有直接内容词元包括HTML标签词元。

在一些可选的实施例中，所述结构编码模块包括：使用GAT对逻辑及空间结构关系进行建模，其中，所述DOM树及空间位置关系图的引入通过在不同的注意力头重使用相应的不同的邻接矩阵掩码实现，将每个节点与所述节点的所有的子孙节点均建立链接，并使用上述步骤得到的图进行编码。

在一些可选的实施例中，所述分类层包括：使用一个全连接层加上一个Sigmoid函数生成最终各个节点是答案节点的概率。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

现有工作通常是为模型提供额外的输入来辅助结构信息的重建过程，减小偏差，例如空间位置信息和视觉信息等。

本申请实施例通过DOM树和我们自己定义的空间位置关系图的形式，在图神经网络的帮助下，将拓扑结构信息显式的引入到模型当中，从而加强模型对各个标签之间的逻辑和空间关系的建模和学习。

首先，发明人将答案文段的预测任务重新建模成了一个两阶段的过程：答案节点的定位和答案文段的提炼。在第一阶段，我们使用提出的TIEBERT对答案文段所在的节点进行预测，具体的，我们将答案节点定义为包含完整答案文本的最深层的HTML标签对应的节点；而在第二阶段，我们使用传统的问答模型，在答案节点的限制下进行答案文段的预测，具体的，我们在对比是答案的概率时，仅考虑包含在答案节点中的文段。具体过程见图3：

对于其中的TIEBERT，共有四个部分组成：上下文编码模块，基于HTML的均值池化，结构编码模块，分类层。具体结构如图4：

1.上下文编码模块：我们首先利用预训练语言模型来对上下文的信息进行编码，特别的，我们采取了H-PLM的数据处理思想，将HTML标签作为了特殊的词元，并且使用了H-PLM训练之后的参数初始化上下文编码模块。

2.基于HTML的均值池化：将DOM树及空间位置关系图的节点的表示初始化为其包含的所有直接内容词元的表示的平均值，包括其中的HTML标签词元。

3.结构编码模块：使用GAT对逻辑及空间结构关系进行建模，特别的DOM树和空间位置关系图的引入通过在不同的注意力头中使用相应不同的邻接矩阵掩码实现。另外，由于DOM树中的链接过于稀疏，我们将其中的每个节点与其所有的祖先和子孙节点均建立链接，并使用如此得到的图进行编码。

4.分类层：我们使用了一个全连接层加上一个Sigmoid函数生成最终各个节点是答案节点的概率。

本申请实施例提出的TIEBERT与传统的网页结构理解模型是正交的，可以应用于其中大多数文段选择类的模型之上，进一步提高其性能。另外，更通用更有效的拓扑结构表示形式可以更进一步的提高这个模型的表现。

相关技术中，网页的结构性阅读理解(SRC)已经引起了越来越多的研究兴趣。尽管以前的SRC工作利用了HTML标签的额外结构信息，但拓扑结构信息，如逻辑结构和空间结构，并没有得到有效利用。在这项工作中，本申请实施例提出了一个名为TIEBERT的新模型，它整合了图注意网络(GAT)和预训练的语言模型(PLM)，以利用结构化网页中的拓扑信息。此外，本申请实施例仔细地重构了标签，以考虑到DOM树中节点之间的固有差异，并将任务修改为两阶段过程，以更好地适应本申请实施例的模型。本申请实施例的实验评估表明，本申请实施例的模型在WebSRC上取得了最先进的结果(WebSRC是一个新提出的基于网络的SRC任务的数据集)。

1、介绍

为了进一步提高模型的结构理解能力，本申请实施例提出了一种称为拓扑信息增强预训练语言模型(TIEBERT)的模型。网页中信息量最大的两种拓扑结构是逻辑结构和空间结构。前者主要是HTML标签之间的包含关系，后者代表不同标签的相对位置。本申请实施例的TIEBERT模型在两种图的帮助下使用图注意力网络(GAT)(Velickovic et al.,2018)对这两种结构进行编码。第一种图形是文档对象模型(DOM)树，它被广泛用于表示HTML代码的逻辑结构。其次，为了对空间结构进行编码，本申请实施例根据呈现的结构化网页的屏幕截图定义节点位置关系(NPR)图。此外，节点内和节点间的上下文信息对于问答也极为重要。因此，TIEBERT在初始化图形的节点表示之前，利用PLM对HTML代码中的上下文信息进行编码。由于DOM树和NPR图中的节点关系可以帮助TIEBERT有效地确定哪个节点最有可能包含答案，本申请实施例进一步将答案文段预测任务分为两个阶段的过程：节点定位和答案细化。首先，TIEBERT将预测答案文段位于哪个节点。接下来，本申请实施例将使用TIEBERT的预测结果作为传统文段预测模型的约束来预测最终答案文段。

此外，发明人注意到DOM树在几个方面与普通图不同。主要区别之一是，常见的未加权图中的节点通常是等价的，而分层DOM树中不同深度的节点具有内在差异。因此，发明人没有使用相对较硬的1/0标签，而是构建了一种新的软标签来反映这种差异。发明人在WebSRC数据集上测试了本申请实施例的TIEBERT模型并实现了最先进的性能。总而言之，本申请实施例的贡献有三方面：(a)本申请实施例提出了一个名为TIEBERT的模型，该模型利用图注意力网络(GAT)在DOM树和本申请实施例新定义的NPR图的帮助下利用结构化网页的拓扑信息。(b)本申请实施例构建了一种新的软标签来反映DOM树中不同深度节点之间的内在差异。(c)本申请实施例将答案文段预测过程分为节点定位和答案细化，并在WebSRC1上实现了有希望的性能。

图5：DOM树和HTML代码之间关系的图示。斜体标记是节点n_i的直接内容。

2初步

2.1任务定义

基于Web的SRC任务被定义为典型的基于网页的抽取式问答任务。给定用户查询q＝(q1；q2；；qjqj)和相关网页的扁平化HTML代码序列c＝(c1；c2；；cjcj)作为输入，本申请实施例的目标是预测答案文段a＝(a1；a2；；ajaj)在HTML代码c中jqj；jcj；jaj表示问题的长度、HTML代码序列和答案范围。因此，a可以表示为(astart；aend)其中1<astart<aend<|c|。值得注意的是，扁平化HTML代码c中的i-token ci可以是原始文本单词或标签符号，例如<div>，而用户查询q是纯文本的单词序列。

2.2 DOM树

DOM树是一种特殊的树结构，由文档对象模型从原始HTML代码中解析出来。树中的每个节点表示原始HTML代码中的一个标签闭包。具体来说，每个节点都包含一个开始标记词元(例如<div>)、一个结束标记词元(例如</div>)以及它们之间的所有内容。一个DOM节点ni是另一个节点nj的后代，如果节点ni的内容完全包含在节点nj的内容中。此外，本申请实施例将每个DOM节点的直接内容定义为其标签闭包所含的所有词元中，不被其任何子节点所包含的部分。DOM树和原始扁平化HTML代码之间的关系如图5所示。

2.3NPR图

为了明确地建立不同文本之间的位置关系，本申请实施例根据呈现的结构化网页定义和构建节点位置关系(NPR)图。具体来说，本申请实施例首先将每个DOM节点的直接内容组合在一起作为NPR图节点。然后，本申请实施例根据它们在渲染网页上的边界框坐标进一步构建这些节点之间的关系。通过仔细观察，发明人发现，具有信息关系的节点，如“key-value”关系和“header-cell”关系，通常位于同一行或同一列。此外，关系的键或头节点通常位于值或单元节点的顶部或左侧。因此，本申请实施例考虑NPR图中的4种关系：UP、DOWN、LEFT和RIGHT。这4种关系进一步分为两类：垂直和水平。具体来说，一个节点n被认为与另一个节点n0有垂直关系，如果

max(x_n′+w_n′-x_n，x_n+w_n-x_n′)≥γ×min(w_n，w_n′) (1)

成立，其中x_n，x_n’为节点n和n’对应的边界框左上角的x轴坐标；w_n，w_n’是两个边界框的宽度；并且γ是一个超参数。类似的函数用于水平关系。而且，每类中的两种关系都是根据两个节点的相对位置来定义的。图1中的(a)和(c)展示了NPR图的示例及其对应的HTML代码。此外，为了简化GAT的初始化和计算，本申请实施例还在NPR图中为每个没有直接内容的DOM节点添加了一个孤立节点。这样，NPR图的节点集与DOM树的节点集完全相同，因此本申请实施例可以借助不同的相邻掩码在一个GAT模块中实现两种图。

3 TIEBERT

在本节中，本申请实施例将首先在第3.1节中介绍整个SRC系统的架构，然后在3.2节中介绍TIEBERT的结构。最后，3.3节展示了为不同节点之间的内在不平等设计的软标签以及用于训练TIEBERT模型的损失函数。

3.1整个SRC系统的架构

借助DOM树和NPR图，TIEBERT可以有效地确定哪个节点最有可能得到答案。因此，本申请实施例将SRC系统的原始架构修改为两阶段架构：节点定位和答案提炼。

图3：使用TIEBERT和传统QA模型(例如H-PLM)的两阶段推理过程。

在节点定位阶段，本申请实施例首先将答案节点定义为包含完整答案文段的DOM树中最深的节点。然后，给定原始扁平化HTML代码c和相应的DOM树Dc和NPR图Pc，利用TIEBERT来预测问题q的答案节点na：

TIEBERT(q，c，(D_c，P_c))＝pⁿ

其中是成为答案节点的概率；/>是DOM树的节点集。然后，在答案提炼阶段，本申请实施例在答案文段的预测过程中使用预测的答案节点作为约束。更详细地说，本申请实施例首先使用QA模型(例如H-PLM)来获取HTML代码序列c的所有标记中的开始和结束概率ps，pe。然后，本申请实施例将候选答案文段定义为具有最大概率的预测答案节点na的内容所包含的文段。

综上所述，假设预测答案节点n_a的内容为：

则第二阶段可以表述为：

QA(q，c)＝p^s，p^e

图3进一步说明了两阶段架构。

图4：TIEBERT的整体架构。

3.2TILBERT的设计

本申请实施例的模型TIEBERT主要由四部分组成：上下文编码器模块、基于HTML的平均池化层、结构编码器模块和分类层。TIEBERT的整体架构如图4所示。

上下文编码器模块。在处理DOM树和NPR图之前，本申请实施例首先利用预训练语言模型对HTML代码中的上下文信息进行编码。具体来说，本申请实施例使用Chen等人(2021a)提出的H-PLM模型作为本申请实施例的上下文编码器模块，并使用在WebSRC上训练的参数对其进行初始化。基本上，H-PLM是将HTML标签视为特殊词元的想法。这样就可以将原始的扁平化HTML代码直接输入PLM中，从而捕获HTML标签的信息。因此，H-PLM的模型结构与主干PLM相同。具体来说，在本申请实施例的实验中，发明人尝试了两种不同的PLM：BERTbase表示为BERT，Electra large表示为Electra。结果如4.4节所示。

基于HTML的平均池化层。

在该模块中，TIEBERT根据Context Encoder计算的词元表示初始化节点表示。具体来说，对于每个节点，本申请实施例将其表示初始化为其对应标签的直接内容(包括其开始标签词元和结束标签词元，例如<div>、</p>、<img/>)的平均嵌入。

结构编码器模块。

TIEBERT利用GAT对DOM树和NPR图中包含的信息进行编码。但是，DOM树非常稀疏，这会降低信息传递的效率。为了解决这个问题，对DOM树进行了信息传递加速操作。具体来说，本申请实施例不使用原始DOM树，而是连接每对祖先和后代节点并使用结果图。这样，每个节点都可以直接与其所有的祖先和后代进行通信，从而使信息传递速度更快。

分类层。

最后，本申请实施例从结构编码器模块中获得所有图节点的嵌入，并利用单个线性层后跟Sigmoid函数来计算每个节点成为答案节点的概率。

3.3软标签和损失函数

正如本申请实施例在第1节中解释的那样。DOM树中不同深度的节点之间存在内在不等价性。具体来说，由于DOM树的层次属性，答案节点的祖先也会包含答案文段，但具有更多的非答案词元。因此，它们对答案文段预测过程也具有部分约束效果。因此，这些节点不应受到与不包含完整答案文段的其他节点一样多的惩罚。考虑到祖先离答案节点越近，包含的噪声越少，约束效果越强，本申请实施例将节点预测任务的标签从1/0重新定义为软概率分布，计算如下：

其中p_t是节点n作为答案节点的概率；n_a是真实答案节点；r和α是超参数，b由它们决定；d(.,.)表示两个节点之间的距离；Ancestor(.)表示节点的祖先集合。基于软标签，本申请实施例利用均方误差(MSE)损失来训练本申请实施例的TIEBERT模型：

其中p^和p表示预测和黄金概率分布，N表示DOM树的节点集。本申请实施例还尝试了基于Kullback–Leibler(KL)-Divergence的损失，但它的性能较低。

4实验

4.1数据集

本申请实施例在WebSRC上评估了本申请实施例的方法。更详细地说，WebSRC数据集由0.44M问答对和6.5K具有复杂结构的网页片段组成。对于每个网页片段，除了对应的HTML代码外，数据集还提供了从渲染的网页中获取的每个HTML标签的边界框信息。因此，本申请实施例可以轻松地使用这些信息为每个网页片段构建NPR图。此外，WebSRC将网站分为三类：KV、比较(Compare)和表格(Table)。具体来说，KV表示网站中的信息主要以“key:value”的形式呈现，其中key为属性名，value为对应的值。比较表明网站包含多个具有相同属性集的实体。表格表示网站主要使用表格来呈现信息。WebSRC中不同类型网站的统计数据如表1所示。

表1：WebSRC中来自不同类型网站的QA对的统计数据。

4.2指标

为了与之前的研究保持一致，本申请实施例采用以下三个指标：(1)精确匹配(EM)，衡量预测的答案文段是否与黄金答案文段完全相同。(2)Token level F1score(F1)，衡量预测答案文段和黄金答案文段的token级别重叠。(3)Path Overlap Score(POS)，衡量从根标签(<HTML>)到包含完整预测答案文段和包含完整黄金答案文段的最深标签的路径重叠。形式上，POS计算如下：

其中P_pred和P_gt是从根(<HTML>)标签分别到分别包含完整的预测答案文段或真实答案文段的最深标签的路径上的标签集。

4.3设置

在本申请实施例的实验中，本申请实施例使用3个GAT块作为其结构编码器模块。TIEBERT的实现基于WebSRC提供的官方code2。为了训练模型，本申请实施例使用具有线性调度的AdamW(Loshchilov和Hutter，2017)作为本申请实施例的优化器，BERT的学习率设置为5e-5，Electra的学习率设置为1e-5。本申请实施例设置了方程2中的超参数r和α，分别为0.7和0.5，方程1中的γ为0.5。在使用TIEBERT生成答案节点后，本申请实施例进一步利用在WebSRC上训练的H-PLM模型在预测答案节点的约束下生成最终答案文段。最后，TIEBERT在四个Nvidia RTX 2080Ti显卡上进行训练和评估，批次大小为32，总共训练两轮。

4.4结果

本申请实施例重新运行官方存储库提出的H-PLM模型作为基线，并将本申请实施例的方法应用于两种PLM，BERT和Electra。在验证集和测试集上的实验结果如表2所示。

表2：本申请实施例的方法在WebSRC上的结果。EM表示精确匹配分数；F1表示词元级别F1分数；POS表示路径重叠分数。

图6：验证集不同类型网站的性能对比。

从结果中，本申请实施例可以发现本申请实施例的TIEBERT可以在所有指标上始终如一地取得更好的性能，而TIEBERT(Electra)在WebSRC上取得了最先进的性能。此外，统计显著性检验表明，在95％的置信水平下，与基线相比，TIEBERT(BERT)在开发和测试集上都取得了显著更好的性能(p<0:05)。

以上结果表明TIEBERT的答案节点预测可以有效约束答案文段预测过程。具体来说，在两阶段推理过程中，预测的答案节点可以帮助H-PLM消除大量未包含在答案节点中的错误答案文段，从而使H-PLM能够做出更好的预测。这样，QA模型需要处理的噪声和干扰量就会大大减少，从而使模型能够取得更好的结果。

4.5案例研究

在进行案例研究之前，本申请实施例首先比较了H-PLM和TIEBERT(MSE)在不同类型网站上的性能。结果如图6所示。从图中发明人发现本申请实施例的方法在KV类型的网站上实现了边际改进，而在Table类型的网站上实现了显着的性能改进。主要原因之一是表格中存在非常整洁的结构，因此可以轻松通过DOM树和NPR图捕获有用的结构信息。来自验证集的Table类型网站上的一些示例如图7所示。

图7：来自开发集的Table类型的网站的QA对的结果示例。

通过查看示例，发明人发现，对于属于Table类型网站的问题，模型通常需要检查水平行标题和垂直列标题，以确定当前单元格是否为答案。在某些情况下(例如图7中的Q2)，甚至需要三个或更多标题单元格关系来确定答案。由于H-PLM的输入是一维序列，因此两种表头中的一种一定会远离单元格值。这些远程上下文信息对于模型来说非常难以捕捉。NPR图可以看作是获取远程上下文信息的一条捷径，因此本申请实施例的TIEBERT模型可以更轻松地回答这些问题。

图8：来自开发集的比较类型网站上QA对的结果示例。

但是，与H-PLM(BERT)相比，TIEBERT(BERT)在比较类型的网站上的性能反而有很小的下降。为了调查下降的原因，本申请实施例仔细比较了两个模型在抽样问题答案对上的结果。发明人发现，虽然TIEBERT可以更好地定位正确实体的答案(图8中的Q1)，但由于误导性布局(图8中的Q2)，它更有可能在不同属性之间混淆。例如，在图8中，每个实体的属性都排列在同一列上，这将显着增加TIEBERT捕获正确“键值”关系的难度。另外，更强大的上下文编码器似乎能够解决这个问题。

4.6消融研究

表3：WebSRC的验证集上的TIEBERT(BERT)的消融研究。

为了进一步研究关键组件的贡献，本申请实施例制作了TIEBERT的以下变体：(1)“w/o DOM”意味着只使用NPR图而不使用DOM树。(2)“w/o ACC”是指使用两种图，但没有3.2节中介绍的DOM树的信息传递加速操作。(3)“w/o NPR”是指只使用加速的DOM树，不使用NPR图。(4)“w/o Hori”是指使用仅含有垂直关系的NPR图和加速的DOM树。(5)“w/o Vert”是指使用仅含有水平关系的NPR图和加速的DOM树。(6)“w/o SL”是指使用原始标签和交叉熵损失函数而不应用公式2。

结果如表3所示，从中本申请实施例有几个观察和分析：

首先，发明人调查DOM树的贡献。“w/o DOM”成功实现了与原版TIEBERT相当的性能。这似乎表明DOM树的贡献很小，可以在很大程度上被NPR图覆盖。然而，发明人认为这个结果部分是由于WebSRC中的数据不平衡。这个结论是从几个观察中得出的。首先，发明人仔细分析了DOM树和NPR图的不同结构，发现NPR图主要由DOM树的叶节点之间的关系组成。因此，NPR图更多地帮助DOM树的叶子节点之间的信息通信，而DOM树更多地用于沿着树结构的信息聚合。然后，发明人进一步检查WebSRC的答案分布。训练和验证集中97.42％和98.55％的答案分别位于DOM树的单个叶节点中。因此，信息聚合的可能贡献本质上是有限的。此外，发明人进一步评估了“w/o DOM”在WebSRC测试集上的性能。得到的EM、F1和POS指标分别为58.41、61.70和75.45，与原点TIEBERT相比下降了1.25、1.61和2.30点。

然后通过“w/o ACC”实验研究了修改DOM树以加速信息传输的效果。结果表明，直接使用DOM树甚至会损害该方法的性能。因此，需要对DOM树进行信息传递加速操作。

由于“w/o NPR”的性能显着下降(EM、F1和POS分别下降4.47、4.21和2.86点)，NPR图对性能提升有很大贡献。这是因为NPR图可以帮助TIEBERT有效地建模键值和表头单元格关系，因为这些内容通常排列在同一行或列中。

此外，发明人进一步研究了“w/o Hori”和“w/o Vert”在NPR图中不同关系的贡献。请注意，发明人在这些实验中保持TIEBERT的参数数量不变，这意味着NPR图中没有水平关系将导致更多关注垂直关系。因此，在“w/o Hori”实验中更高的性能并不能得出横向关系损害该方法性能的结论。它主要表明，在WebSRC中，纵向关系比横向关系重要得多。这是因为WebSRC中的网站大多是逐行构建的，这意味着横向关系的标签往往彼此靠近，而纵向关系的标签可能相距甚远。因此，在大多数情况下，无需NPR图的帮助即可在上下文编码器中轻松捕获水平关系，而垂直关系则难以实现。

最后，将“w/o SL”的结果与原始TIEBERT的结果进行比较，很明显发明人在第3.3节中提出的使用软标签的模型实现了更高的性能。进一步的统计显著性检验表明，这两种方法的性能差异显著(p<0:05)。这些结果表明，本申请实施例的软标签设计可以成功地反映DOM树的内在属性并利用它们。

5相关工作

问答(QA)

近年来，提出了大量QA数据集和任务，范围从纯文本QA(即MRC)到KB上的QA，表QA、Visual QA(VQA)等。这些数据集的文本输入的组织要么是非结构化的纯文本，要么是结构化的知识库/表格。换句话说，文本输入中的拓扑信息要么不存在，要么简单而明确地提供。基于具有隐式和灵活拓扑的半结构化HTML代码的QA任务正在研究中。

网页问答

最近，一些方案提到了Web Question Answering。然而，他们主要关注搜索引擎产生的纯文本或表格的后处理。此外，还有人尝试在领域特定语言(DSL)的帮助下回答基于原始HTML代码的问题。除了上述作品，还有人提出了一项名为WebBased SRC的QA任务，其目标是使用原始HTML代码理解结构化网页。他们提出的方法是将HTML标签视为特殊标记，并将原始扁平化的HTML代码直接馈送到PLM或具有卷积神经网络生成的视觉特征。在这项工作中，本申请实施例进一步考虑了DOM树和NPR图的拓扑结构，并结合GAT和PLM来利用这些图。

6结论

在本申请实施例中，发明人提出了一种称为拓扑信息增强预训练语言模型(TIEBERT)的模型，以更好地理解结构化网页中包含的拓扑信息。本申请实施例的模型分别通过DOM树和NPR图明确捕获了网页的两个最具信息性的拓扑结构，逻辑和空间结构。使用提出的两阶段流程和软标签，本申请实施例对WebSRC数据集进行了大量实验。TIEBERT已经实现了最先进的性能，并且本申请实施例模型的关键组件的贡献得到了验证。

请参考图9，其示出了本发明一实施例提供的一种基于网络的结构阅读理解的建模处理装置的框图。

如图9所示，基于网络的结构阅读理解的建模处理装置900包括建模程序模块910、定位程序模块920和答案提炼程序模块930。

其中，建模程序模块910，配置为将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；定位程序模块920，配置为在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；以及答案提炼程序模块930，配置为在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。

应当理解，图9中记载的诸模块与参考图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如答案提炼程序模块可以描述为在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测的模块，另外，还可以通过硬件处理器来实现相关功能模块，例如答案提炼程序模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于网络的结构阅读理解的建模处理方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；

在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；

在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于网络的结构阅读理解的建模处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至基于网络的结构阅读理解的建模处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项基于网络的结构阅读理解的建模处理方法。

图10是本发明实施例提供的电子设备的结构示意图，如图10所示，该设备包括：一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。用于基于网络的结构阅读理解的建模处理方法的设备还可以包括：输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于基于网络的结构阅读理解的建模处理装置方法。输入装置1030可接收输入的数字或字符信息，以及产生与用于基于网络的结构阅读理解的建模处理装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于基于网络的结构阅读理解的建模处理装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于网络的结构阅读理解的建模处理方法，包括：

所述拓扑信息增强的预训练语言模型包括上下文编码模块、基于HTML的均值池化、结构编码模块和分类层，其中，所述结构编码模块是基于DOM树及节点位置关系图使用图注意力网络GAT对逻辑及空间结构关系进行建模，其中，所述DOM树及节点位置关系图的引入通过在不同的注意力头中使用相应的不同的邻接矩阵掩码实现，将每个节点与所述节点的所有的子孙节点均建立链接，并使用得到的所述节点位置关系图进行编码；

在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测；

其中，所述使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测包括：

给定原始扁平化HTML代码和相应的DOM树和节点位置关系图，利用所述拓扑信息增强的预训练语言模型TIEBERT来预测问题的答案节点，其中，所述节点位置关系图通过首先将每个DOM节点的直接内容组合在一起作为节点位置关系图的节点，然后根据所述节点位置关系图的节点在渲染网页上的边界框坐标进一步构建这些节点之间的关系得到所述节点位置关系图，从而在所述DOM树和所述节点位置关系图的帮助下利用结构化网页的拓扑信息。

2.根据权利要求1所述的方法，其中，所述在所述答案节点的限制下进行答案文段的预测包括：

使用传统的问答模型，在对比是答案的概率时，仅考虑包含在所述答案节点中的文段。

3.根据权利要求2所述的方法，其中，所述上下文编码模块包括：

利用预训练语言模型对上下文的信息进行编码，包括采取H-PLM的数据处理思想，将HTML标签作为特殊词元，并使用H-PLM训练之后的参数初始化所述上下文编码模块。

4.根据权利要求2所述的方法，其中，所述基于HTML的均值池化包括：

将DOM树及节点位置关系图的节点的表示初始化为所述节点所包含的所有直接内容词元的表示的平均值，所述所有直接内容词元包括HTML标签词元。

5.根据权利要求2所述的方法，其中，所述分类层包括：

使用一个全连接层加上一个Sigmoid函数生成最终各个节点是答案节点的概率。

6.一种基于网络的结构阅读理解的建模处理装置，包括：

建模程序模块，配置为将答案文段的预测任务建模为一个两阶段的过程，所述两阶段包括答案节点的定位和答案文段的提炼；

定位程序模块，配置为在所述答案节点的定位中，使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测，其中，所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点；所述拓扑信息增强的预训练语言模型包括上下文编码模块、基于HTML的均值池化、结构编码模块和分类层，其中，所述结构编码模块是基于DOM树及节点位置关系图使用图注意力网络GAT对逻辑及空间结构关系进行建模，其中，所述DOM树及节点位置关系图的引入通过在不同的注意力头中使用相应的不同的邻接矩阵掩码实现，将每个节点与所述节点的所有的子孙节点均建立链接，并使用得到的所述节点位置关系图进行编码；

答案提炼程序模块，配置为在所述答案文段的提炼中，在所述答案节点的限制下进行答案文段的预测；

其中，所述定位程序模块进一步配置为：

7.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。