CN113177393B - 改进针对网页结构理解的预训练语言模型的方法和装置 - Google Patents

改进针对网页结构理解的预训练语言模型的方法和装置 Download PDF

Info

Publication number
CN113177393B
CN113177393B CN202110476275.2A CN202110476275A CN113177393B CN 113177393 B CN113177393 B CN 113177393B CN 202110476275 A CN202110476275 A CN 202110476275A CN 113177393 B CN113177393 B CN 113177393B
Authority
CN
China
Prior art keywords
node
answer
web page
nodes
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110476275.2A
Other languages
English (en)
Other versions
CN113177393A (zh
Inventor
俞凯
陈露
赵梓涵
许洪深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202110476275.2A priority Critical patent/CN113177393B/zh
Publication of CN113177393A publication Critical patent/CN113177393A/zh
Application granted granted Critical
Publication of CN113177393B publication Critical patent/CN113177393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开改进针对网页结构理解的预训练语言模型的方法和装置,其中,一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器,所述方法包括:利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。

Description

改进针对网页结构理解的预训练语言模型的方法和装置
技术领域
本发明属于语言模型领域,尤其涉及改进针对网页结构理解的预训练语言模型的方法和装置。
背景技术
现有技术中,随着互联网的迅猛发展,网页已成为最常见、最丰富的信息和知识来源。因此,理解网页内容的能力可以确保模型具有庞大而多样的知识来源。给定相应的HTML和CSS代码,可以唯一地呈现每个网页,并且其内容主要包含在HTML代码中。因此,对网页内容的理解可以广泛地理解为对HTML代码的理解和领会。
验证模型是否具有理解和领会给定上下文的能力的常见任务之一是问答(QA)。但是,以前的QA模型仅关注对纯文本的理解或知识图谱/表格。大多数内容都是在手动处理之前从网页中抓取到的。对HTML代码的直接理解(无需任何手动数据处理)的研究不足,发明人发现主要原因之一是HTML代码具有丰富的信息结构,而当前的模型难以理解。为了使模型能够理解HTML代码中的结构,某些模型着重于利用HTML节点和网页的可视屏幕截图中的信息,但是结果性能相当有限。
相关技术中,针对网页结构理解的预训练语言模型直接使用预训练语言模型进行建模和学习,并最终对给出的问题的答案进行预测,具体来说,它们使用超文本标记语言的代码作为输入,将代码中的相关节点直接看作是特使的词元。
发明人在实现本申请的过程中发现,这些技术不能够很好的对网页中的结构信息进行建模,从而使最终问题答案的预测正确率相对较低。发明人还发现,这些缺陷主要是因为在上述相似技术中,直接将超文本标记语言的代码看成是一个顺序的无结构序列输入会极大的损失其中的结构信息,而这些技术期望模型能够从代码中的节点词元中重新将这些信息建模出来,这相对来说是非常困难的,且损失后重建的过程也会不可避免的带来偏差和错误,也会损害模型的表现。
发明内容
本发明实施例提供一种改进针对网页结构理解的预训练语言模型的方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器,所述方法包括:利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;以及基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
第二方面,本发明实施例提供一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器,所述装置包括:编码模块,配置为利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;构建模块,配置为构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;节点模块,配置为基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;以及计算模块,配置为基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的改进针对网页结构理解的预训练语言模型的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的改进针对网页结构理解的预训练语言模型的方法的步骤。
本申请的方法和装置通过使用文档对象模型所提供的树状结构,直接对超文本标记语言的代码所对应的网页的结构进行近似,进一步地,将其中的不同元素之间的包含和并列关系进行显式的建模,随后在传统预训练语言模型对该代码的处理结果后,通过图神经网络利用所得的树状结构对相关网页的结构信息进行进一步的建模和理解,从而辅助最终问题答案预测结果的生成。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种改进针对网页结构理解的预训练语言模型的方法的流程图,用于服务器;
图2为本发明一实施例提供的本发明一实施例提供的用文档对象模型强化的针对网页结构理解的预训练语言模型的原理图;
图3为本发明一实施例提供的HTML代码及其对应的DOM树的一个示例;
图4为本发明一实施例提供的开发集上10个不同网站上的HPLM和H-PLM+DOM-BERT之间的性能比较;
图5为本发明一实施例提供的一种改进针对网页结构理解的预训练语言模型的装置的框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明一实施例提供的一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器。
如图1所示,在步骤101中,利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;
在步骤102中,构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;
在步骤103中,基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;
在步骤104中,基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
本实施例的方法通过使用文档对象模型所提供的树状结构,直接对超文本标记语言的代码所对应的网页的结构进行近似,进一步地,将其中的不同元素之间的包含和并列关系进行显式的建模,随后在传统预训练语言模型对该代码的处理结果后,通过图神经网络利用所得的树状结构对相关网页的结构信息进行进一步的建模和理解,从而辅助最终问题答案预测结果的生成。
在一些可选的实施例中,上述方法还包括:将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中。
在进一步可选的实施例中,所述将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中包括:仅关注预测的答案节点所包含的内容中的所有文段;从所述所有文段中选择概率最大的文段作为答案。
进一步可选的,所述构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息包括:对于所述树状结构信息中的每个节点,将所述节点的嵌入向量初始化为所述节点对应节点的直接内容和节点词元的嵌入向量的平均;基于所述初始化的结果利用图注意力网络对所述树状结构信息进行编码,将所述节点中的每一对祖先节点和子孙节点连接起来并基于连接后的图构建图注意力网络。本实施例的方法在传统预训练语言模型对该代码的处理结果后,通过图神经网络利用所得的树状结构对相关网页的结构信息进行进一步的建模和理解,从而可以辅助最终问题答案预测结果的生成。
在一些可选的实施例中,基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率包括利用以下公式计算:
其中,pt是成为节点t的答案节点的概率;ta是定位真相答案节点;r和α是超参数,b由r和α确定;d(.;.)表示两个节点之间的距离;和Ancestor(.)表示祖先节点的集合。
进一步的,上述方法还包括:基于定义的节点,利用KL-散度损失函数,使改进后的模型学习拟合概率分布,从而所述改进后的模型能够定位从根节点到答案节点的路径并选择答案节点,其中,KL-散度损失函数的计算公式如下:
其中,表示预测的概率分布,y表示定位真实概率分布,N表示节点序列长度。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:主要是因为在上述相似技术中,直接将超文本标记语言的代码看成是一个顺序的无结构序列输入会极大的损失其中的结构信息,而这些技术期望模型能够从代码中的节点词元中重新将这些信息建模出来,这相对来说是非常困难的,且损失后重建的过程也会不可避免的带来偏差和错误,也会损害模型的表现。
发明人还发现,现有工作通常是为模型提供额外的输入来辅助结构信息的重建过程,减小偏差,例如空间位置信息和视觉信息等。
本申请的方案通过使用文档对象模型所提供的树状结构,直接对超文本标记语言的代码所对应的网页的结构进行近似,将其中的不同元素之间的包含和并列关系进行显式的建模,随后在传统预训练语言模型对该代码的处理结果后,通过图神经网络利用所得的树状结构对相关网页的结构信息进行进一步的建模和理解,从而辅助最终问题答案预测结果的生成。
本发明中,本申请实施例提出基于语音机器人的改进针对网页结构理解的预训练语言模型的方法。
请参考图2,其示出了本发明一实施例提供的用文档对象模型强化的针对网页结构理解的预训练语言模型(DOM-BERT,DOM Enhanced Pre-trained Language Model)的原理图。
如图2所示,DOM-BERT的前向过程如下:在处理树状结构之前,本申请实施例首先利用传统的针对网页结构理解的预训练语言模型作为上下文编码器来编码上下文信息。之后,本申请实施例构建一个结构信息编码器来编码文档对象模型给出的对应网页的树状结构中包含的信息。具体来说,对于每个节点,本申请实施例将其嵌入向量初始化为其对应节点的直接内容(其内容中不是任何一个其子节点的内容的部分)和节点词元的嵌入向量的平均。初始化之后,本申请实施例利用图注意力网络对树状结构中包含的信息进行编码。然而,树作为一种特殊的图而言是非常稀疏的,这将降低图注意力网络中的信息传输的效率。为了解决这个问题,本申请实施例将每一对祖先节点和子孙节点连接起来并基于所得到的图构建图注意力网络。最后,本申请实施例从结构信息编码器中得到所有节点对应的嵌入向量,并利用一个线性层加上Softmax层来计算各个节点是答案节点的概率。
随后,本申请实施例将DOM-BERT所得到的最可能为答案节点的节点作为一个约束条件引入到传统网页结构理解模型预测答案的过程中。具体来讲,本申请实施例并不是在所有可能的文段中选择概率最大的文段,而是只关注预测的答案节点所包含的内容中的所有可能的文段,并从中选择概率最大的文段作为答案。
发明人在实现本发明的过程中发现达到更深层次的效果:本申请实施例提出的DOM-BERT与传统的网页结构理解模型是正交的,可以应用于其中大多数文段选择类的模型之上,进一步提高其性能。
以下通过对本申请实施例的方案的实验过程和实验结果进行展开说明,以使本领域技术人员能够更好地理解本申请的技术方案。
网页所包含的信息和知识种类繁多。但是,在最近的问答任务的工作中,很少有人对网页的直接理解进行研究。最近,提出了一个名为WebSRC的新型数据集,这是第一个专注于网页阅读理解任务的数据集。然而,他们提出的方法未能利用HTML代码中最重要的结构信息,即文档对象模型(DOM)给出的树结构。在本申请实施例的工作中,本申请实施例提出了一种同时使用图注意力网络(GAT)和预训练语言模型(PLM)的新模型,以利用DOM树提供的信息来更好地定位答案。此外,本申请实施例仔细重构了损失函数,以考虑到DOM树不同节点之间的不等价性。本申请实施例在Web-SRC数据集上测试了本申请实施例的方法,并获得了更好和有希望的性能。
为了进一步提高模型的结构理解能力,本申请实施例提出了一种名为DOM增强预训练语言模型(DOM-BERT)的新模型。本申请实施例的DOM-BERT借助DOM树来学习理解和分析网页的结构。更详细地讲,文档对象模型(DOM)将HTML代码解析为称为DOM树的树结构,它将HTML代码解析为称为DOM树的树结构,可以表示相应网页的逻辑结构。因此,因此,DOM树是将网页的结构信息引入模型的一个很好的工具。考虑到可以将树视为一种特殊类型的图,本申请实施例利用图注意力网络(Graph Attention Network,GAT)来对DOM树进行编码,该图是对图结构化数据进行操作的最受欢迎的架构之一。
但是,DOM树在某些方面与通用图有所不同。主要区别之一是,共同的未加权图中的节点通常是等效的,而分层DOM树中不同深度的节点则具有内在的差异。因此,本申请实施例没有使用广泛使用的交叉熵损失,而是构造了一种新的损失函数来反映这种差异。此外,本申请实施例将QA的答案预测任务分为两个阶段的决策过程:节点定位和答案提炼。本申请实施例在基于Web的结构阅读理解(WebSRC)数据集上测试了本申请实施例的模型,并实现了令人鼓舞的性能。总而言之,本申请实施例的贡献有三个方面:首先,本申请实施例利用图注意力网络(GAT)来利用DOM树提供的网页结构信息,并提出了一种称为DOM增强预训练语言模型(DOM-BERT)的新型模型。其次,为了反映DOM树中不同深度的节点之间的内在差异,本申请实施例构造了一个新的损失函数。第三,本申请实施例将答案预测过程分为节点定位和答案提炼,并在WebSRC数据集1上实现了有希望的性能。
图3示出了WebSRC中的数据示例及其对应的DOM树。图3中的(a)是该网页的屏幕截图的示例;图3中的(b)是与图3中的(a)中带有虚线框的内容相对应的HTML代码;图3中的(c)是与图3中的(b)相对应的DOM树结构。
任务定义
为了充分利用DOM树并实现两阶段推理过程,本申请实施例将WebSRC数据集中的答案预测任务修改为节点预测任务。在详细介绍任务定义之前,本申请实施例需要弄清本文中使用的一些术语。在DOM树中,每个节点都对应于原始HTML代码中的节点。由于HTML节点通常由一个开始节点(例如<div>),一个结束节点(例如</div>)以及它们之间的内容组成,将DOM节点的内容定义为相应的HTML节点的内容,并且将一个节点定义为另一节点的后代(如果与之相对应的节点在与另一节点相对应的节点的内容中)。最后,浏览完HTML代码中的每个标记之后,本申请实施例可以获得对应的DOM树。HTML代码及其对应的DOM树的一个示例如图3所示。除此之外,本申请实施例进一步将每个DOM树节点的直接内容定义为其内容中不是其任何子节点的内容的部分。基于以上术语,本申请实施例将DOM树中的答案节点定义为包含完整答案范围的最深节点。为了表达它,在本申请实施例的节点预测任务中,期望模型F在给定HTML代码H和相应的DOM树T:F(H;T;q)=t的情况下预测问题q的答案节点t。
方法
在本实施例中,本申请实施例将首先介绍DOM-BERT的结构。然后详细介绍了两阶段推理过程;最后,提出了考虑到不同节点之间固有不同的损失函数。
图2示出了DOM-BERT的总体架构。
模型
本申请实施例提出的模型DOM-BERT主要包括三个部分:上下文编码器,结构编码器和分类器。本申请实施例的模型的总体架构如图2所示。在处理DOM树结构之前,本申请实施例首先利用Chen等人提出的H-PLM(BERT)模型作为上下文编码器来对上下文信息进行编码。本申请实施例仅使用H-PLM的编码器模型,并获得每个词元的上下文嵌入。之后,本申请实施例构造一个结构编码器以对DOM结构中包含的信息进行编码。具体来说,对于每个节点,本申请实施例将其嵌入初始化为其相应节点的直接内容以及节点词元(例如<div>,</p>,<img/>)的嵌入向量的平均。初始化后,本申请实施例利用GAT对DOM结构中包含的信息进行编码。但是,作为一种特殊的图,DOM树非常稀疏,这会降低信息传输的效率。为解决此问题,本申请实施例不使用原始DOM树,而是将每对祖先节点和后代节点连接在一起并使用,这样,每个节点都可以直接与其所有祖先和后代进行通信,从而可以更快地进行信息传递。最后,本申请实施例从结构编码器中获取所有DOM树节点的嵌入,并利用单个线性层,然后将Softmax操作用作分类器,以计算成为答案节点的概率。
推论过程
在推论过程中,本申请实施例将DOM-BERT和用于Web-SRC的传统QA模型(例如H-PLM)结合在一起,以预测最终的答案范围。具体来说,本申请实施例首先使用DOM-BERT预测答案节点。同时,本申请实施例使用QA模型来预测每个文段为答案的概率。之后,本申请实施例在预测答案期间将预测的答案节点用作约束。更详细地讲,本申请实施例不是在所有文段中选择概率最大的文段,而是仅关注预测答案节点所包含的文段,并预测答案是其中概率最大的文段。
训练策略
如图3所示,DOM树中不同深度的节点之间存在固有的不同。具体而言,由于DOM树的分层属性,答案节点的祖先也将包含答案,但干扰更大。因此,因此,它们对答案预测过程也有一些约束作用。尽管它们的约束效果比真实的答案节点弱,但它们也可以在某种程度上帮助答案的预测过程。因此,对这些节点的惩罚不应像不是答案节点的祖先且不包含完整应答范围的其他节点那样受到惩罚。考虑到祖先越靠近答案节点,它所包含的干扰越少,并且其约束效果越强,本申请实施例将节点预测任务的节点从0/1重新定义为软概率分布计算如下:
其中pt是成为节点t的答案节点的概率;ta是定位真相答案节点(the groundtruth answer node);r和α是超参数,b由它们确定;d(.;.)表示两个节点之间的距离;Ancestor(.)表示祖先节点的集合。基于本申请实施例定义的节点,本申请实施例进一步利用基于KL-散度的损失函数,使模型学习拟合概率分布。这样,模型将能够定位从根节点到答案节点的路径,然后选择答案节点。具体来说,本申请实施例使用的损失函数可以表述为:
其中,和y表示预测的概率分布和定位真实概率分布(the ground truthprobability distribution),N表示节点序列长度(the node sequence length)。
实验设置
本申请实施例使用WebSRC数据集来评估所提出的方法。具体来说,本申请实施例使用Chen等提供的H-PLM模型初始化上下文编码器。本申请实施例将3个GAT块用作结构编码器。为了训练模型,本申请实施例使用具有线性时间表的AdamW(Loshchilov和Hutter,2017)作为优化器,学习率设置为5e-5。本申请实施例将方程式1中的超参数r和r分别设置为0.7和0.5。使用DOM-BERT生成答案节点后,本申请实施例进一步利用Chen等提供的H-PLM模型。在预测答案节点的约束下产生最终答案范围。最后,在四个批次大小为32的NvidiaRTX 2080Ti图形卡上训练DOM-BERT并评估两个时期。
图4示出了开发集上10个不同网站上的HPLM和H-PLM+DOM-BERT之间的性能比较。这些网站分为三类:键值(KV),表和比较。Exact Match Scores表示精确比分,精确匹配分数;Position overlap scores表示路径重叠分数,位置重叠分数。auto表示汽车,game表示游戏,phone表示手机,sport表示体育,book表示书,job表示工作。
结果与分析
开发集和测试集上的实验结果如表1所示。从结果中,本申请实施例发现DOM-BERT可以显着提高性能。这表明DOM-BERT的答案节点预测可以为H-PLM提供有用的信息,并有效地约束答案预测过程。这是因为,在两阶段推理过程中,预测的答案节点可以帮助H-PLM消除节点中不包含的大量错误答案范围,从而使H-PLM可以做出更好的预测。
但是,在测试集上,尽管所提出方法的“精确匹配”和F1分数明显高于H-PLM,但两种方法的POS分数是可比的。这表明DOM-BERT的错误预测可能会误导文段预测模型。在以后的工作中,可以通过使用答案节点预测结果的置信度软化约束来解决此问题。
在图4中,本申请实施例进一步比较了两种模型在不同网站上的性能。本申请实施例发现,本申请实施例提出的方法在体育09和体育10以外的所有网站上都取得了更好的表现或可比的性能。这两个网站都属于表格类别。为了用HTML代码生成一个表,该表的每个单元格都将对应一个HTML节点,并且相似的结构将重复多次。大量的节点和DOM树的极其相似的子树结构可能使该模型无法预测答案节点,因此会损害H-PLM+DOM-BERT的性能。
表1:本申请实施例在WebSRC上提出的方法的结果。EM表示预测的答案和基本事实(the ground truth)之间的精确匹配分数;F1表示单词重叠;POS表示Chen等人提出的路径重叠分数。Method表示方法,Dev表示开发者,Test表示测试。
除此之外,本申请实施例还评估了本申请实施例提出的基于KL散度的损失函数的效果,并且实验结果也列于表1中。从结果可以发现,使用提出的损失函数的模型的表现比使用传统的交叉熵损失函数要好得多,这表明本申请实施例对损失函数的设计成功反映并利用了DOM树的固有属性。
此外,值得注意的是,本申请实施例提出的DOMBERT与传统的QA模型正交,并且可以应用于WebSRC的大多数QA文段预测模型,以进一步提高其性能。
在本申请中,本申请实施例介绍了DOM-BERT(一种用于基于Web的结构阅读理解任务的新模型),以借助DOM树来理解HTML代码的结构信息。此外,本申请实施例将答案文段预测任务分为两个阶段,以使DOM-BERT预测的答案节点在预测答案之前消除噪声。此外,为了充分利用DOM树,本申请实施例还基于DOM树节点之间的固有不同,提出了一种基于KL-散度的损失函数。本申请实施例的方法在WebSRC数据集上实现了有希望的性能。
请参考图5,其示出了本发明一实施例提供的一种改进针对网页结构理解的预训练语言模型的装置,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器.
如图5所示,改进针对网页结构理解的预训练语言模型的装置500包括编码模块510、构建模块520、节点模块530和计算模块540。
其中,编码模块510,配置为利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;构建模块520,配置为构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;节点模块530,配置为基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;以及计算模块540,配置为基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
在一些可选的实施例中,上述装置500还包括:约束模块(图中未示出),配置为将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中。
应当理解,图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如编码模块可以描述为利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如编码模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的改进针对网页结构理解的预训练语言模型的方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;
构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;
基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;
基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据改进针对网页结构理解的预训练语言模型的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至改进针对网页结构理解的预训练语言模型的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项改进针对网页结构理解的预训练语言模型的方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。改进针对网页结构理解的预训练语言模型的方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例改进针对网页结构理解的预训练语言模型的方法。输入装置630可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于改进针对网页结构理解的预训练语言模型的装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;
构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;
基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;
基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器和结构信息编码器,其中,所述针对网页结构理解的预训练语言模型在基于Web的结构阅读理解数据集上测试,所述方法包括:
利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;
构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;
对于所述树状结构信息中的每个节点,将所述节点的嵌入向量初始化为所述节点对应节点的直接内容和节点词元的嵌入向量的平均;
基于所述初始化的结果利用图注意力网络对所述树状结构信息进行编码,将所述节点中的每一对祖先节点和子孙节点连接起来并基于连接后的图构建图注意力网络;
基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;
基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率;
其中,基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率包括利用以下公式计算:
其中,pt是成为节点t的答案节点的概率;ta是定位真相答案节点;r和α是超参数,b由r和α确定;d(.;.)表示两个节点之间的距离;Ancestor(.)表示祖先节点的集合。
2.根据权利要求1所述的方法,还包括:
将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中。
3.根据权利要求2所述的方法,其中,所述将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中包括:
仅关注预测的答案节点所包含的内容中的所有文段;
从所述所有文段中选择概率最大的文段作为答案。
4.根据权利要求1所述的方法,还包括:
基于定义的节点,利用KL-散度损失函数,使改进后的模型学习拟合概率分布,从而所述改进后的模型能够定位从根节点到答案节点的路径并选择答案节点,其中,KL-散度损失函数的计算公式如下:
其中,表示预测的概率分布,y表示定位真实概率分布,N表示节点序列长度。
5.一种改进针对网页结构理解的预训练语言模型的装置,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器和结构信息编码器,其中,所述针对网页结构理解的预训练语言模型在基于Web的结构阅读理解数据集上测试,所述装置包括:
编码模块,配置为利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;
构建模块,配置为构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;
节点模块,配置为基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;
计算模块,配置为基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率;
其中,所述装置还配置为:对于所述树状结构信息中的每个节点,将所述节点的嵌入向量初始化为所述节点对应节点的直接内容和节点词元的嵌入向量的平均;
基于所述初始化的结果利用图注意力网络对所述树状结构信息进行编码,将所述节点中的每一对祖先节点和子孙节点连接起来并基于连接后的图构建图注意力网络;
其中,基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率包括利用以下公式计算:
其中,pt是成为节点t的答案节点的概率;ta是定位真相答案节点;r和α是超参数,b由r和α确定;d(.;.)表示两个节点之间的距离;Ancestor(.)表示祖先节点的集合。
6.根据权利要求5所述的装置,还包括:
约束模块,配置为将所述各个节点中是答案节点的概率最高的节点作为约束条件引入到所述针对网页结构理解的预训练语言模型的预测答案的过程中。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202110476275.2A 2021-04-29 2021-04-29 改进针对网页结构理解的预训练语言模型的方法和装置 Active CN113177393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110476275.2A CN113177393B (zh) 2021-04-29 2021-04-29 改进针对网页结构理解的预训练语言模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110476275.2A CN113177393B (zh) 2021-04-29 2021-04-29 改进针对网页结构理解的预训练语言模型的方法和装置

Publications (2)

Publication Number Publication Date
CN113177393A CN113177393A (zh) 2021-07-27
CN113177393B true CN113177393B (zh) 2023-12-26

Family

ID=76925439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110476275.2A Active CN113177393B (zh) 2021-04-29 2021-04-29 改进针对网页结构理解的预训练语言模型的方法和装置

Country Status (1)

Country Link
CN (1) CN113177393B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688207B (zh) * 2021-08-24 2023-11-17 思必驰科技股份有限公司 基于网络的结构阅读理解的建模处理方法和装置
CN114817639B (zh) * 2022-05-18 2024-05-10 山东大学 基于对比学习的网页图卷积文档排序方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
US11645561B2 (en) * 2019-03-18 2023-05-09 International Business Machines Corporation Question answering system influenced by user behavior and text metadata generation
US11087094B2 (en) * 2019-09-30 2021-08-10 Accenture Global Solutions Limited System and method for generation of conversation graphs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WebSRC: A Dataset forWeb-Based Structural Reading Comprehension;Lu Chen et al.;《ArXiv》;正文第1-10页,图8 *

Also Published As

Publication number Publication date
CN113177393A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN113177393B (zh) 改进针对网页结构理解的预训练语言模型的方法和装置
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
CN104598611A (zh) 对搜索条目进行排序的方法及系统
CN108960407A (zh) 递归神经网路语言模型训练方法、装置、设备及介质
CN110678882B (zh) 使用机器学习从电子文档选择回答跨距的方法及系统
CN111914067A (zh) 中文文本匹配方法及系统
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN110795565A (zh) 基于语义识别的别名挖掘方法、装置、介质及电子设备
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN114424208A (zh) 门控注意力神经网络
CN110084323A (zh) 端到端语义解析系统及训练方法
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN111507070A (zh) 自然语言生成方法和装置
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN116664719A (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN114048301B (zh) 一种基于满意度的用户模拟方法及系统
CN115455985A (zh) 一种基于机器阅读理解的自然语言系统的处理方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN113688207B (zh) 基于网络的结构阅读理解的建模处理方法和装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant