CN117407615A

CN117407615A - 一种基于强化学习的Web信息抽取方法及系统

Info

Publication number: CN117407615A
Application number: CN202311412969.5A
Authority: CN
Inventors: 张舒汇; 钟云柯; 梅泳涵; 刘旋
Original assignee: Beijing Shulide Technology Co ltd
Current assignee: Beijing Shulide Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-16

Abstract

本申请涉及互联网技术领域，公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括：获取目标网页的HTML文件，并转换为DOM树；从DOM树中有文本的节点中提取样本特征；构建基于语义特征、结构特征及样式特征的信息抽取模型，将信息抽取模型视为智能体，使用样本特征对智能体进行有监督训练；构建环境模型，使用无标记的样本及环境模型对有监督训练完成的信息抽取模型进行强化训练，将智能体对无标记的样本进行抽取的结果作为与环境模型交互的行为，通过环境模型对行为作出反馈；使用强化训练完成的信息抽取模型抽取Web信息。采用本方法能够提升信息抽取模型的泛化性，在同领域及跨领域网站达到较好的抽取效果。

Description

一种基于强化学习的Web信息抽取方法及系统

技术领域

本申请涉及互联网技术领域，特别是涉及一种基于强化学习的Web信息抽取方法及系统。

背景技术

随着互联网的发展和信息技术的广泛应用，网络作为信息传播的媒介，承载大量不同形式的数据。在电子商务、金融、新闻媒体、社交、娱乐等应用场景下，利用Web信息抽取技术可以从网络中获取有价值的数据，帮助企业和机构更好地了解市场和用户需求。

通过Web信息抽取技术进行Web信息抽取，可在下游衔接多种任务，比如数据分析、数据留存、知识图谱构建、知识问答等等，例如，利用抽取到的同一商品在不同时间的价格，帮助用户了解商品价格变化的趋势；比如抽取不同领域新闻网站的网页数据，可以更全面地了解新闻舆情的形势；抽取到的知识可以作为大规模知识库的数据基础。

监督学习是一种常用于训练Web信息抽取模型的训练方法，监督学习的特点是需要大量标注数据用作训练样本，在模型层数越来越深且参数越来越多的情况下，需要的标注样本数据也越来越多。

然而，相对于互联网的海量网页，标注数据的数量相对少得多。例如，SWDE数据集作为Web信息抽取任务的常用数据集，只包含了几十个网站，在每个领域每个网站只有至多2000个标记网页数据。在样本不足的情况下，Web信息抽取模型的泛化能力低，模型在未见网站和未见领域的表现相对较差，训练完成的模型通常只能在拥有标记数据的某一站点或某一垂直领域有较好的表现，对同一垂直领域的其他站点或者其他领域的信息抽取结果并不理想。

发明内容

有鉴于此，本申请旨在提出一种基于强化学习的Web信息抽取方法及系统，以解决目前Web信息抽取模型泛化能力低导致同领域其他网站及跨领域网站的信息抽取效果差的问题。

为达到上述目的，本申请的技术方案如下：

本申请实施例第一方面提供一种基于强化学习的Web信息抽取方法，所述方法包括：

获取目标网页的HTML文件，并转换为DOM树；

从所述DOM树中提取出有文本的节点，并从所述有文本的节点中提取样本特征；所述样本特征包括语义特征、结构特征及样式特征；

构建基于语义特征、结构特征及样式特征的信息抽取模型，将所述信息抽取模型视为智能体，使用样本特征对所述智能体进行有监督训练；

构建环境模型，使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练，将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为，通过所述环境模型基于TPFB的方法对所述行为作出反馈；所述环境模型包括多个第三方数据源；

使用强化训练完成的信息抽取模型抽取Web信息。

可选地，从所述有文本的节点中提取样本特征，包括：

将所述有文本的节点作为目标节点，所述目标节点包括有标记的目标节点及无标记的目标节点；

从有标记的目标节点中提取特征信息，并将所述特征信息编码生成特征向量；所述特征信息包括所述目标节点的文本、节点XPath及HTML标签。

可选地，将所述特征信息编码生成特征向量，包括：

使用分词器对所述文本进行分词，并基于预设的分词字典进行编码生成语义特征向量；分词器使用预训练的字节对编码器；

在节点XPath中添加下标区分路径相同的节点，并将节点XPath拆分为标签与对应的下标；基于预设的标签词典将所述节点XPath的标签进行编码生成样式特征向量；

将所述节点XPath的下标直接转换为数字，并将转换后的下标与所述标签通过前馈神经网络，生成结构特征向量。

可选地，构建基于语义特征、结构特征及样式特征的信息抽取模型，包括：

构建基于预训练的RoBERTa模型及MarkupLM模型构建信息抽取模型，所述信息抽取模型包括token嵌入层、节点XPath嵌入层、正则化层及线性输出层；

在所述信息抽取模型上增加CharRNN模型，用于处理字符级特征；

将分类神经网络作为所述信息抽取模型的线性输出层。

可选地，构建环境模型，包括：

获取多个第三方数据源的API接口，基于所述多个第三方数据源构建环境模型，所述多个第三方数据源包括：ChatGPT、知识图谱、智能问答、百科及众包数据；

设定所述环境模型的参数，所述参数为固定参数；

设定所述环境模型中每个第三方数据源的权重，所述权重为固定权重。

可选地，通过所述环境模型基于TPFB的方法对所述行为作出反馈，包括：

将无标记的样本输入有监督训练完成的信息抽取模型，获取抽取结果；

将所述无标记的样本及对应的抽取结果输入所述环境模型，通过所述环境模型调用多个第三方数据源的API返回所述无标记的样本对应的属性信息；

根据每个第三方数据源返回的属性信息、每个第三方数据源的权重及所述环境模型的参数，计算加权交叉熵作为损失函数；

将所述损失函数反馈给所述信息抽取模型，通过反向传播更新所述信息抽取模型的参数。

可选地，在计算加权交叉熵作为损失函数之前，还包括：

根据每个第三方数据源返回的属性信息及对应的每个第三方数据源的权重，计算所述无标记的样本的评估分数；

比较所述评估分数与第一阈值的大小，当所述评估分数小于所述第一阈值时，丢弃所述无标记的样本。

可选地，在计算加权交叉熵作为损失函数之前，还包括：

比较所述评估分数与第一阈值的大小，当所述评估分数大于或等于所述第一阈值时，将所述评估分数与第二阈值进行比较；

根据与所述第二阈值的比较结果，设定所述无标记的样本在强化训练过程中的权重；

将具有权重的无标记的样本再次输入所述信息抽取模型，对所述信息抽取模型进行迭代训练。

可选地，在使用有标记样本数据对信息抽取模型进行有监督训练之后，还包括：

从所述多个第三方数据源获取所述目标网页的同领域或跨领域的多个属性值对；所述属性值对由属性值和文本组成；

将获取的所有属性值对嵌入经过有监督训练后的HTML文件中，生成构造数据；

使用所述HTML文件中的有标记样本特征和所述构造数据，继续对所述信息抽取模型进行迭代训练；所述迭代训练为有监督训练。

根据本申请实施例的第二方面，提供一种基于强化学习的Web信息抽取系统，用于实现本申请实施例的第一方面所提供的方法，所述系统包括：

特征抽取模块，用于获取目标网页的HTML文件，并转换为DOM树；从所述DOM树中提取出有文本的节点，并从所述有文本的节点中提取样本特征；所述样本特征包括语义特征、结构特征及样式特征；

信息抽取模块，用于从HTML文件中抽取特征数据并输出抽取结果；所述抽取结果为所述HTML文件中特征数据的属性及对应的文本；接收环境模块的反馈信息并更新自身的参数；

环境模块，用于基于TPFB的方法对所述信息抽取模块输出的抽取结果生成反馈信息；所述环境模型包括多个第三方数据源。

采用本申请所提供的基于强化学习的Web信息抽取方法，首先获取目标网页的HTML文件并将其转换为DOM树形式，从DOM树中提取出样本特征，包括语义特征、结构特征及样式特征(即3S特征)，通过样本特征对基于信息抽取模型进行有监督训练(即第一阶段训练)，使信息抽取模型具有基本的抽取能力。然后在第二阶段采用强化学习的方式，将信息抽取模型作为智能体，该模型对HTML文件中无标记的样本数据进行信息抽取的结果作为与环境交互的行为，利用多个第三方数据源构成的环境模型对该行为做出反馈，从而通过反馈对信息抽取模型的参数进行更新。

本申请提供的基于强化学习的Web信息抽取方法，通过两阶段的训提升信息抽取模型的泛化能力，在第一阶段利用样本特征数据使信息抽取模型具有基本的抽取能力，在第二阶段中利用第三方数据源环境对该模型基于无标记的样本数据的抽取结果进行反馈，从而根据反馈更新信息抽取模型的参数，提高模型的泛化性，提升模型在同领域及跨领域的抽取效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的智能体两阶段训练的架构示意图；

图2是本申请一实施例提出的基于强化学习的Web信息抽取方法的示意图；

图3是本申请一实施例提出的强化学习过程的示意图；

图4是本申请一实施例提出的基于TPFB的环境反馈过程示意图；

图5是本申请一实施例中利用下标区分XPath的示意图；

图6是本申请一实施例中基于XPath获取嵌入向量的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

HTML(HyperText Mark-up Language)文本是由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。信息抽取模型针对网页抽取属性和对应的值，并输出页面中的属性值对，其中属性通常是预定义的。例如，一个图书商品网页中包括书名、作者、价格等属性，其中“title”属性对应的值为“Tinkers”，“author”属性对应的值为“Paul Harding”，“price”属性对应的值为“$6.95”，这些属性值数据通过标签和文本在网页中表示。将该网页的HTML文件输入信息抽取模型，由信息抽取模型进行Web信息抽取并输出“title-Tinkers”、“author-PaulHarding”、“price-$6.95”等属性值对。

下面将参考附图并结合实施例来详细说明本申请。

图1是本申请一实施例提出的智能体两阶段训练的架构示意图。如图1所示，本申请中将信息抽取模型视为智能体，基于3S特征对其进行预训练(特征工程优化)，在预训练时才拥有监督训练的方式，输入为Web页面和预定义的属性，由智能体对Web页面进行属性值对抽取，输出抽取结果为网页中这些属性对应的值。对于智能体来说，其输出属性对应的值也就是智能体的动作。基于TPFB的方法构建环境模型，环境模型的输入为Web页面和智能体输出的抽取结果，输出为对智能体的抽取结果的反馈。本申请利用两阶段的训练方法，先利用少量标记样本预训练智能体使其获得基本的抽取能力，再通过强化学习的方法利用无标记样本和环境反馈对智能体的参数进行更新。

图2是本申请一实施例提出的基于强化学习的Web信息抽取方法的示意图。本申请中，通过从Web页面获取HTML文件，并转换为DOM树，基于DOM树提取有标记数据及无标记数据。其中，无标记数据的数量大于有标记数据的数量，本实施例中，使用有标记数据预训练智能体，使其获得基本的信息抽取能力，然后利用环境反馈和无标记数据对预训练完成的智能体进行强化学习训练，使智能体能够学习无标记数据，从而提高智能体的泛化能力。

具体地，本实施例中基于强化学习的Web信息抽取方法，包括以下步骤：

S1：获取目标网页的HTML文件，并转换为DOM树。

本实施例中，首先获取网页的HTML文件，然后将HTML文件转换为节点形式的DOM树。DOM(Document Object Model，文档对象模型)树将HTML文档解析为由节点和对象组成的结构集合，对文档进行结构化的表述，并定义了一种方式对该结构进行访问。通过DOM接口可以访问和操作每个节点的属性、文本内容和子节点等信息。

通常获取HTML文件的方式是从原始网站进行爬取，但原始网站除了HTML文件之外，还包括CSS、JavaScript、精灵图等文件等不需要的文档，爬取到的HTML中还存在无用的HTML标签，例如<style>、<javascript>、<link>等。为了减少无用数据的干扰，提高数据处理效率，本实施例中，在从原始网站爬取HTML文件后，对HTML文件进行了数据清洗，将清洗后的HTML文件用于后续处理。

在数据清洗后，将HTML文件解析成DOM树。DOM树节点中包括属性和值，其中属性为HTML标签，值是文本，DOM树中有的文本带有属性，这种文本是有标记文本；有的文本也可能没有属性，这种文本是无标记文本。

S2：从所述DOM树中提取出有文本的节点，并从所述有文本的节点中提取样本特征；所述样本特征包括语义特征、结构特征及样式特征。

本实施例中，第一阶段训练为有监督训练，需要从有标记的文本中提取样本特征。通过抽取有标记文本的3S特征，即语义特征(semantic)、结构特征(structure)及样式特征(style)，用于训练基于3S的信息抽取模型。

在提取样本特征时，首先对文本中的一些特殊字符和标签进行去除，比如空格符&nbsp、分行符<br/>。

作为本申请的一种实施方式，从所述有文本的节点中提取样本特征，包括：

本实施例中，目标节点是用于训练信息抽取模型的原始样本，目标节点中的文本包括有标记的文本和无标记的文本，即目标节点也分为有标记的目标节点和无标记的目标节点。在第一阶段的有监督训练中，从有标记的目标节点中提取出样本特征，作为训练数据。

从有标记的目标节点中提取样本特征的步骤如下：

(1)按照先序遍历的顺序对提取出来的有标记文本的节点进行排序，并记录每个节点的XPath和内容。

(2)对有标记的目标节点的特征信息进行编码，即对有标记的目标节点中提取出来的文本、节点XPath及HTML标签进行编码，生成对应的特征向量。

作为本申请的一种实施方式，将所述特征信息编码生成特征向量，包括：

本实施例中，对文本、节点XPath以及HTML标签进行编码，生成特征向量的过程如下：

(1)对节点的文本进行处理，生成对应的语义特征向量。本实施例中，使用NLP方法中的预训RoBERTa练语言模型来处理HTML文件中的节点文本内容。预训练语言模型由于已经经过海量数据的训练，已经对自然语言有较深程度的了解，在此基础上只需在目标领域进行微调训练，就可以让模型进一步学习到目标领域内的语言特征，采用预训练的语言模型能够轩主降低训练的时间和资源成本。此外，大模型拥有更多的参数和复杂性，在处理复杂任务时能够提供更准确的预测和更高的性能，也使得模型通常有更好的泛化能力。

由于HTML中节点的结构是树型的，而传统的自然语言文本是线性的，因此需要先将树形结构转换为线性结构。因此，本实施例中采用先根遍历的序列作为文本序列。在使用RoBERTa模型处理文本是，由于很多属性和值都是很短的文本，甚至还包括以下数字、符号、缩写构成的文本，因此，增加CharacterRNN模型用来处理字符级别的特征作为补充。CharacterRNN模型将文本视为支付组里，通过学习字符之间的概率分布来生成新的文本。

(2)对节点的XPath进行处理，生成对应的结构特征向量。XPath是W3C定义的一种表达语言，用于支持XML文档的查询。XPath可用于在HTML文档中查找信息、定位节点和模式匹配。节点XPath提供了一种灵活的方式来选择XML和HTML文档中的节点。它支持选择具有特定属性或属性值的节点，也可以根据节点的位置或层次结构选择节点。

本实施例中，XPath是节点的唯一标识。采用按照先序遍历排序的序列来表示节点间的关系，DOM树中上下文节点也就是序列中相邻的节点，这种处理方式简化了结构处理的复杂度。

DOM树中可能存在节点的路径完全一致的多个节点，为了使每个节点的XPath唯一，使用下标对节点进行区分。图5是本申请一实施例中利用下标区分XPath的示意图。如图5所示，两个<div>节点从根节点到该节点的路径上的标签是完全一致的。为两个<div>节点添加下标进行区分，分别为“/html/body/div[1]”、“/html/body/div[2]”；而<h1>节点因为没有与其路径一致的节点，因此不需要使用下标进行区分。在对XPath进行编码的时候，两个<div>节点对应的下标分别为1、2，<h1>节点对应的下标为0。

图6是本申请一实施例中基于XPath获取嵌入向量的示意图。如图6所示，将XPath分为标签和对应的下标，对于标签的编码，采用了MarkupLM模型的编码方式，预定义了标签对应的编码并保存到字典tag_dict中，在对标签进行编码时直接查找字典获取对应的编码。对于下标，则直接将下标的数字作为编码。最后将标签的编码及下标的编码通过前馈神经网络层，获取XPath嵌入向量。

对于结构特征，网页中的信息很多以键值对的形式展现，即key-value。在HTML代码层面上，key和value的值是通常是相邻的节点，这些节点对应的XPath只有最后几个标签不同或者是下标不同，可以借助<ul>标签、<tr>标签、相邻的<div>标签或下标来判断对应的key和value。

另外，由于DOM树中相隔较远的节点不太可能和当前节点构成键值对关系，并且DOM树按照先序遍历构成的序列中key通常在value前面，因此，在一种实施例中，还可以在考虑局部信息时，过滤与value较远的节点以及在序列中value后面的节点，所以只需要关注在序列中当前节点的前几个节点即可，这样能够减少局部信息的复杂度，提高数据处理的效率。

在一种实施例中，还可根据节点在HTML文件对于DOM树中的全局位置生成节点的全局特征，例如相对深度和相对位置。相对深度即当前节点的XPath中的标签数量与所有有文本的节点中XPath中标签数量最多之比。相对位置为当前节点在DOM树先序遍历序列中的下标与序列长度之比。

(3)对节点的HTML标签进行处理，生成对应的样式特征向量。这一步在获取节点的XPath嵌入向量时，将XPath分为了标签和对应的下标。该标签即是用于生成样式特征的基础数据，利用预定义的字典tag_dict将HTML标签进行编码，转换为向量形式，作为样式特征向量。

表1中包括本实施例中最终抽取的所有节点特征，其中包括表示语义信息的RoBERTa处理后的input_ids、token_type_ids、attention_mask和CharacterCNN处理后的charlevel_embed等特征，表示结构的xpath_tags_seq、xpath_subs_seq、relative_depth、relative_position等特征，表示样式的xpath_tags_seq等特征，还有表示节点所在文件的html_path和节点的类型label等特征。

表1

特征向量	含义
		html_path	节点所在的html文件
input_ids	词汇表中令牌的索引
		token_type_ids	区分句子的令牌索引
attention_mask	注意力掩码标记
		xpath_tags_seq	xpath中向量化的标签序列
xpath_subs_seq	xpath中向量化的标签下标序列
		label	节点类型
relative_depth	节点的相对深度
		relative_position	节点的在序列中的相对位置
charlevel_embed	字符级别的嵌入

S3：构建基于语义特征、结构特征及样式特征的信息抽取模型，将所述信息抽取模型视为智能体，使用样本特征对所述智能体进行有监督训练。

作为本申请的一种实施方式，构建基于语义特征、结构特征及样式特征的信息抽取模型，包括：

将分类神经网络作为所述信息抽取模型的线性输出层。

本实施例中，信息抽取模型复用了部分MarkupLM模型，该模型使用预训练模型的思想，其中tokenizer(标记器)使用RoBERTa模型实现。模型包括token嵌入层、XPath嵌入层、正则化层等，最后通过(分类神经网络)线性层输出分类类别。信息抽取模型的参数达到上亿个，其中大部分参数是在Encoder部分，即模型使用的预训练模型的部分，这些参数分别经过了RoBERTa和MarkupLM两个工作的预训练，前者使得模型对语言有深层的理解，后者使得模型对Web数据有一定的理解能力。

在信息抽取模型的基础上增加CharRNN模型(即CharacterRNN模型)，使用RNN框架处理字符，生成字符级别的特征。

S4：构建环境模型，使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练，将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为，通过所述环境模型基于TPFB的方法对所述行为作出反馈；所述环境模型包括多个第三方数据源。

本实施例中，对于无标记的数据，在第二阶段通过环境模型针对智能体的抽取结果进行评价，通过环境模型结合无标记的样本数据对智能体进行强化训练，从而使智能体能够从无标记的样本数据中进行学习，提高智能体的泛化能力。

作为本申请的一种实施方式，构建环境模型，包括：

设定所述环境模型的参数，所述参数为固定参数；

本实施例中，利用多个第三方数据源构建基于TPFB(third party feedback，第三方反馈)的环境模型，并在构建环境模型时为模型设置了固定的参数。将基于3S特征的信息抽取模型作为智能体，基于TPFB的模型作为环境，训练样本作为状态。智能体根据环境选择动作(即模型的抽取结果)，环境根据动作给出相应的反馈(即根据样本和智能体给出的抽取结果进行判断)，从而更新智能体的参数。

第三方数据源可包括知识图谱、智能问答、百科数据、众包数据等等形式的数据。这些数据特点各不相同，知识互相交错，质量存在差异。比如Google、百度、Bing等大型搜索引擎建设的大规模知识图谱通常包含了常见的三元组信息，可靠度较高，但主体内容可能并不丰富。维基百科等百科数据和智库数据中相对更全面，但实体数量更少。网页数据包含的内容和种类最多，但知识往往在不集中，难以大量抽取，而且可靠性相对更低。因此，本实施例中，为了综合评价无标记样本及智能体，为每个第三方数据源也设置了对应的权重。

调用第三方数据源的API接口，可以基于无标记的样本进行搜索，并获取第三方数据源返回的该数据对应的属性值。以Google为例，调用Google提供的知识图谱API，查询“Talyor Swift”，结果返回查询目标的实体的类别为“Person”，个人主页为http://taylorswift.com，“Person”就是“Talyor Swift”的属性。

环境模型对于无标记样本的属性进行判断时，对于不同的预设类别(即属性)，使用“值+类别”的方式在第三方数据源中进行搜索，根据各信息源得到的结果判断类别的正确性。例如，“Taylor Swift”+“Person”关键字，搜索得到的页面数量和页面内容相关性比“Taylor Swift”+“location”关键字得到的更多，则判断“Taylor Swift”的属性更倾向于是“Person”。

在一种实施例中，第三方数据源还可以使用OpenAI的ChatGPT，通过合理的prompt，ChatGPT可以给出比搜索引擎更精确的回答。

作为本申请的一种实施方式，通过所述环境模型基于TPFB的方法对所述行为作出反馈，包括：

图4是本申请一实施例提出的基于TPFB的环境反馈过程示意图。如图4所示，环境模型集成第三方数据库包括：Wikipedia、Google、Bing、ChatGPT等。环境模型的输入为无标记样本数据和第一阶段训练完成的智能体输出的抽取结果，环境模型根据所有第三方数据源的信息进行加权处理，输出对智能体抽取结果的反馈信息。

图3是本申请一实施例提出的强化学习过程的示意图。如图3所示，在强化学习阶段，将无标记的样本数据输入第一阶段预训练完成的信息抽取模型，获取抽取结果，然后将该无标记的样本数据及抽取结果输入环境模型，由环境模型获取多个第三方数据源的搜索结果(属性信息)。环境模型根据多个第三方数据源的搜索结果计算交叉熵损失函数，并反馈给信息抽取模型进行参数更新。

本实施例中，环境模型根据各数据源的信息，计算交叉熵作为损失函数，反馈给智能体。在模型训练过程中，以固定参数评价分类问题通常使用交叉熵来进行度量，它的大小表示两个概率分布之间的差异，可以通过最小化交叉熵来得到目标概率分布的近似分布。

由于交叉熵损失函数在样本不均衡的情况下，训练中损失函数会偏向样本更多的类别，对样本少的类别识别的精度会下降。因此，在一种实施例中，为了使数据更加均衡，对样本多的类别设置较小的权重，样本少的分类设置较大的权重，在此基础上计算加权交叉熵作为损失函数。其中，类别的权重可以根据该类别的样本数量占总样本数量的比例来确定。将损失函数反馈给智能体，通过反向传播更新参数，从而实现智能体对无标记数据的学习。

作为本申请的一种实施方式，在计算加权交叉熵作为损失函数之前，还包括：

在一种实施例中，可能存在无标记的样本数据在多个第三方数据源获取到的相关信息不足，那么该样本数据的可靠程度无法确定，因此这种情况下应该丢弃这个数据，以免该数据对信息抽取模型造成负面影响。

为了避免不可靠的数据影响信息抽取模型的准确性，从各个第三方数据源获得搜索结果并提取出属性信息后，结合各个第三方数据源的权重进行加权计算，获取该样本数据的评估分数。将评估分数与预先设定的第一阈值进行比较，若评估分数未达到第一阈值，则说明该样本可信度较低，则丢弃该样本数据。若评估分数达到第一阈值时，确定该样本数据可信，即该样本数据可以作为训练数据。在实际应用中，可根据需要设定第一阈值的值，本申请中对此不做限制。

在一种实施例中，第一阈值用于确定无标记的样本数据是否可信，对于不可信的样本数据需要丢弃，而可信的样本数据集中，每个样本的可信度也存在差异。无标记样本可视为有噪声的样本，其中可信度更高的部分为真实数据，可信度较低的部分为噪声数据，在训练模型时给予高可信度的样本更大的权重，就可以减轻噪声数据对模型训练的影响。

因此，本实施例中，当评估分数达到第一阈值时，再将评估分数与第二阈值进行比较，判断该样本数据的可信度高低。如果评估分数达到第二阈值，则说明该样本数据可信度较高，如果评估分数达到第一阈值但未达到第二阈值，说明该样本数据的可信度较低。根据评估分数及可信度高低，为该样本数据确定对应的样本权重，将带有样本权重的样本数据重新再输入智能体，进行迭代训练。

本实施例中，通过样本加权的方式能够使可信度较高的样本在被智能体学习时具有更大的权重，以此减少可信度较低的样本带有的噪声数据对模型训练产生的负面影响。

在一种实施例中，为了提高样本加权的准确度，可设置多个第二阈值，每个第二阈值分别对应不同的样本权重，从而对无标记的样本数据进行更精细的划分，进而进一步提高智能体抽取信息的准确度。

作为本申请的一种实施方式，在使用有标记样本数据对信息抽取模型进行有监督训练之后，还包括：

本实施例中，除了对目标网页的无标记的样本进行训练，还可以从第三方数据源中获取无标记的数据进行训练。具体地，通过各个第三方数据源主动获取同领域或跨领域的一些属性值对，并将属性值对嵌入到有监督学习之后的HTML文件中，生成构造数据。将HTML文件中的有标记数据与构造数据混合，继续对信息抽取模型进行迭代训练。

通过第三方数据源生成的属性值对，能够使信息抽取模型学习到同领域其它网站和跨领域的数据特征，进而提高信息抽取模型的泛化性，使其能够从本领域扩展到跨领域网站进行信息抽取。

S5：使用强化训练完成的信息抽取模型抽取Web信息。

在上述实施例中，通过两阶段的训练，在第一阶段中使信息抽取模型获得基本的抽取能力，在第二阶段的强化学习训练中，扩展信息抽取模型的抽取能力到无标记的样本或第三方数据源的构造数据，使信息抽取模型的泛化能力提高，能够扩展到垂直领域的其他网站或跨领域抽取信息。

基于同一发明构思，本申请一实施例提供一种基于强化学习的Web信息抽取系统，该系统包括：

环境模块，用于基于TPFB的方法对所述信息抽取模块输出的抽取结果生成反馈信息；所述环境模型包括多个第三方数据源；

强化训练模块，用于使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练，将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为，通过所述环境模型基于TPFB的方法对所述行为作出反馈。

可选地，所述特征抽取模块具体用于执行以下步骤：

可选地，所述特征抽取模块还包括编码模块，用于执行以下步骤：

可选地，所述强化训练模块，具体用于执行以下步骤：

可选地，所述基于强化学习的Web信息抽取系统，还包括样本评估模块，用于执行以下步骤：

可选地，所述样本评估模块，还用于执行以下步骤：

所述强化训练模块，用于将具有权重的无标记的样本再次输入所述信息抽取模型，对所述信息抽取模型进行迭代训练。

可选地，所述强化训练模块，还用于执行以下步骤：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和部件并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的基于强化学习的Web信息抽取方法及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于强化学习的Web信息抽取方法，其特征在于，包括：

获取目标网页的HTML文件，并转换为DOM树；

使用强化训练完成的信息抽取模型抽取Web信息。

2.根据权利要求1所述的基于强化学习的Web信息抽取方法，其特征在于，从所述有文本的节点中提取样本特征，包括：

3.根据权利要求2所述的基于强化学习的Web信息抽取方法，其特征在于，将所述特征信息编码生成特征向量，包括：

4.根据权利要求1所述的基于强化学习的Web信息抽取方法，其特征在于，构建基于语义特征、结构特征及样式特征的信息抽取模型，包括：

将分类神经网络作为所述信息抽取模型的线性输出层。

5.根据权利要求1所述的基于强化学习的Web信息抽取方法，其特征在于，构建环境模型，包括：

设定所述环境模型的参数，所述参数为固定参数；

6.根据权利要求5所述的基于强化学习的Web信息抽取方法，其特征在于，通过所述环境模型基于TPFB的方法对所述行为作出反馈，包括：

7.根据权利要求6所述的基于强化学习的Web信息抽取方法，其特征在于，在计算加权交叉熵作为损失函数之前，还包括：

8.根据权利要求6所述的基于强化学习的Web信息抽取方法，其特征在于，在计算加权交叉熵作为损失函数之前，还包括：

9.根据权利要求1所述的基于强化学习的Web信息抽取方法，其特征在于，在使用有标记样本数据对信息抽取模型进行有监督训练之后，还包括：

10.一种基于强化学习的Web信息抽取系统，用于实现如权利要求1-9任一所述的方法，其特征在于，包括：