CN116562299B

CN116562299B - 文本信息的论元抽取方法、装置、设备及存储介质

Info

Publication number: CN116562299B
Application number: CN202310143177.6A
Authority: CN
Inventors: 何赛克; 闫硕; 张培杰; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-11-14
Anticipated expiration: 2043-02-08
Also published as: CN116562299A

Abstract

本发明提供一种文本信息的论元抽取方法、装置、设备及存储介质，方法包括：分析待处理的文本信息，得到文本信息对应的句法图；将句法图输入至预先设置的语义图生成模型中，得到语义图生成模型输出的文本信息对应的语义图；其中，语义图生成模型用于基于句法图中的向量特征构建语义图；将语义图和在文本信息中预先设置的触发词输入至预先设置的游走模型中，得到游走模型输出的目标路径和目标路径对应的论元抽取结果；其中，游走模型用于：以触发词对应的节点为起点，基于游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果。本发明实施例有效提高了模型的可解释性。

Description

文本信息的论元抽取方法、装置、设备及存储介质

技术领域

本发明涉及文本信息抽取技术领域，尤其涉及一种文本信息的论元抽取方法、装置、设备及存储介质。

背景技术

主流的事件检测方法，通常分为触发词识别和论元抽取两个部分。其中，论元抽取相较于触发词识别，其结果及内容成分更加复杂多样，通常需要抽取蕴含语义的实体或短语而非单个词汇，因此抽取精度往往较低且更受研究者关注。

为了提高论元的抽取精度，目前的研究将句法图作为一项十分重要的上下文信息，作为图卷积神经网络(Graph Convolutional Network，GCN)模型的输入，以利用GCN对句法图中的特征进行提取，得到特征向量，再将特征向量输入至另一个神经网络模型中，得到该神经网络模型输出的论元抽取结果。

但是，上述神经网络模型可以理解为是一个黑盒模型，缺少论元抽取过程，模型的可解释性差。

发明内容

本发明提供一种文本信息的论元抽取方法、装置、设备及存储介质，用以解决现有技术中论元抽取方法中模型的可解释性差的问题。

本发明提供一种文本信息的论元抽取方法，包括：

分析待处理的文本信息，得到所述文本信息对应的句法图；其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；

将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；其中，所述语义图生成模型用于基于所述句法图中的向量特征构建所述语义图，所述语义图中包括至少两个词对应的节点和至少一条节点间的游走路径；

将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果。

根据本发明提供的一种文本信息的论元抽取方法，所述游走模型包括环境模型和无模型的强化学习模型；

所述将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果，包括：

将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径；其中，所述环境模型用于以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；

将所述语义图、所述触发词和所述第一路径输入至所述无模型的强化学习模型中，得到所述无模型的强化学习模型输出的所述目标路径和所述论元抽取结果；其中，所述无模型的强化学习模型用于：以所述触发词对应的节点为起点，基于所述第一路径和所述游走路径确定所述目标路径，并确定所述目标论元及其对应的类型，作为所述论元抽取结果。

根据本发明提供的一种文本信息的论元抽取方法，所述环境模型具体用于：基于概率分布M_θ(s′|s,a)，以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；

其中，s表征当前的游走状态，s′表征所述当前的游走状态的下一个状态，a表征各所述游走路径，θ表征待优化的环境模型参数。

根据本发明提供的一种文本信息的论元抽取方法，在所述将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径之前，所述方法还包括：

通过最小化预先设置的候选模型的损失函数，训练所述候选模型，得到所述环境模型；其中，所述损失函数如公式(1)：

其中，表征环境模型训练的损失函数，M^*表征真实的环境模型，π_D表征收集数据的策略，/>表征基于M^*和π_D得到的状态动作分布；M^*(·|s,a)表征环境模型，μ_θ(s,a)表征高斯分布的均值向量，Σ_θ(s,a)表征高斯分布的方差矩阵。

根据本发明提供的一种文本信息的论元抽取方法，所述无模型的强化学习模型采用近端策略优化算法PPO2。

根据本发明提供的一种文本信息的论元抽取方法，所述语义图生成模型采用基于注意力机制的图卷积神经网络GCN。

本发明还提供一种文本信息的论元抽取装置，包括：

分析模块，用于分析待处理的文本信息，得到所述文本信息对应的句法图；其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；

构建模块，用于将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；其中，所述语义图生成模型用于基于所述句法图中的向量特征构建所述语义图；其中，所述语义图中包括至少两个词对应的节点和至少一条节点间的游走路径；

抽取模块，用于将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本信息的论元抽取方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本信息的论元抽取方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本信息的论元抽取方法。

本发明提供的文本信息的论元抽取方法、装置、设备及存储介质，先分析待处理的文本信息，得到文本信息对应的句法图，再通过语义图生成模型，基于句法图中的向量特征构建文本信息对应的语义图，以由游走模型以触发词对应的节点为起点，通过拟人游走的方式基于语义图中的游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果，最终由游走模型输出目标路径以及对应的论元抽取结果，相较于相关技术的论元抽取方法中神经网络模型为一个黑盒模型，导致缺少论元抽取过程，模型的可解释性差的问题，本发明实施例中的游走模型可以输出用于表征论元抽取过程的目标路径，有效提高了模型的可解释性；另外，相较于相关技术中仅在提取向量特征时利用了句法图，本发明实施例还利用游走模型，采用语义图拟人游走的方式确定目标路径并抽取论元，语义图本质上包含了句法结构，使得论元抽取过程中句法结构的利用率更高，进而可以提高论元抽取的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本信息的论元抽取方法的流程示意图之一；

图2是本发明提供的文本信息的论元抽取方法的流程示意图之二；

图3是本发明提供的文本信息的论元抽取方法中游走模型处理的流程示意图；

图4是本发明提供的文本信息的论元抽取装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图描述本发明的文本信息的论元抽取方法、装置、设备及存储介质。

图1是本发明提供的文本信息的论元抽取方法的流程示意图之一，如图1所示，方法包括步骤101至步骤103；其中：

步骤101、分析待处理的文本信息，得到所述文本信息对应的句法图；

其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；

可选地，句法图可以由词向量、实体类型向量和句法成分向量拼接而成。

步骤102、将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；

其中，所述语义图生成模型用于基于所述句法图中的向量特征构建所述语义图，所述语义图中包括至少两个词对应的节点和至少一条节点间的游走路径。

步骤103、将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；

其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果。

具体地，相关技术中，事件检测算法在抽取论元时，为了能够提高提取精度，通常会先利用GCN将句法图的信息融入文本特征中，再对文中的论元信息进行抽取。然而，这些方法采用黑盒神经网络(黑盒模型)对论元信息进行抽取，不仅缺乏对句法信息的利用还缺乏可解释性。

针对上述问题，本发明受人工标注数据时利用句法图的方式启发，提出基于语义图拟人游走的文本信息的论元抽取方法。该方法在GCN融合语义信息形成的语义图基础上，使用强化学习模拟人在语义图中游走寻找论元，不仅在抽取过程中利用句法信息，提升了抽取论元的准确率，还通过强化学习算法给出游走的目标路径，提高了模型的可解释性。

本发明实施例中，先分析待处理的文本信息，得到文本信息对应的句法图，句法图也可以被称为句法树，可以是由词向量、实体类型向量和句法成分向量拼接而成的；

在得到句法图后，再通过语义图生成模型，基于句法图中的向量特征构建文本信息对应的语义图，具体将句法图输入至预先设置的语义图生成模型中，由语义图生成模型基于句法图中的向量特征构建并输出语义图，语义图中包括至少两个词对应的节点和至少一条节点间的游走路径，可以理解为，是由语义图生成模型将句法图和文本信息进行了语义融合，形成了语义图；

在得到语义图后，再将语义图和在文本信息中预先设置的触发词输入至预先设置的游走模型中，以由游走模型以触发词对应的节点为起点，通过拟人游走的方式基于语义图中的游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果，最终由游走模型输出目标路径以及对应的论元抽取结果。

举例来说，若预先设置此文本信息中的触发词为“谴责(condemn)”，则在构建的语义图中，例如存在以下游走路径：condemn——>said——>Johnson——>Kevin，其中，condemn通过从句补语(clausal complement，ccomp)句法关系指向said，said通过名词性主语(nominal subject，nsubj)指向Johnson，Johnson通过复合词(compound)指向Kevin，最终可以确定触发词“condemn”对应的谴责者是：Kevin Johnson；

又例如，存在以下游走路径：condemn——>attacks——>by——>Russia；其中，condemn通过直接宾语(direct object，dobj)指向attacks，attacks通过介词(prep)指向by，by通过介词宾语(pobj)指向Russia，最终可以确定触发词“condemn”对应的被谴责者是：Russia。

因此，对于触发词“condemn”，一个目标论元为：Kevin Johnson，该论元其对应的类型为：谴责者(主体)；另一个目标论元为：Russia，该论元其对应的类型为：被谴责者(客体)。

需要说明的是，论元对应的类型可以包括主体、客体、时间、地点等。

可选地，语义图生成模型可以为GCN；

可选地，所述语义图生成模型采用基于注意力机制的GCN。

可选地，游走模型可以为强化学习模型，具体可以为无模型的强化学习模型或基于模型的强化学习(Model-Based Reinforcement Learning，MBRL)模型。

在本发明实施例提供的文本信息的论元抽取方法中，先分析待处理的文本信息，得到文本信息对应的句法图，再通过语义图生成模型，基于句法图中的向量特征构建文本信息对应的语义图，以由游走模型以触发词对应的节点为起点，通过拟人游走的方式基于语义图中的游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果，最终由游走模型输出目标路径以及对应的论元抽取结果，相较于相关技术的论元抽取方法中神经网络模型为一个黑盒模型，导致缺少论元抽取过程，模型的可解释性差的问题，本发明实施例中的游走模型可以输出用于表征论元抽取过程的目标路径，有效提高了模型的可解释性；另外，相较于相关技术中仅在提取向量特征时利用了句法图，本发明实施例还利用游走模型，采用语义图拟人游走的方式确定目标路径并抽取论元，语义图本质上包含了句法结构，使得论元抽取过程中句法结构的利用率更高，进而可以提高论元抽取的准确率。

可选地，所述游走模型包括环境模型和无模型的强化学习模型；

所述将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果的实现方式可以包括：

在强化学习模型的选取方面，考虑到样本的标注数据有限的问题，如果采用样本效率低的无模型的强化学习模型进行学习，会难以达到理想的准确率，为了提高样本的利用效率，本发明实施例中的游走模型可以为MBRL模型，具体是基于环境模型的强化学习模型，包括环境模型和无模型的强化学习模型；在MBRL模型的训练过程中，可以将语义图视作环境并学习其状态转移概率模型，以生成环境模型，辅助强化学习模型中策略的学习，从而提高样本利用率，减少对标注数据的依赖。

具体地，可以先将语义图和触发词输入至环境模型中，以由环境模型以触发词对应的节点为起点，基于游走路径确定第一路径，并输出环境模型规划的第一路径；

再将语义图、触发词和第一路径输入至无模型的强化学习模型中，由无模型的强化学习模型以触发词对应的节点为起点，基于第一路径和游走路径确定目标路径，并确定通过目标路径抽取到的目标论元及其对应的类型，作为论元抽取结果，并输出目标路径和论元抽取结果。

本发明实施例中，结合了环境模型规划的第一路径和游走路径，共同确定目标路径，可以有效提高样本的利用率，降低对样本的标注数据量的依赖。

可选地，所述无模型的强化学习模型采用近端策略优化算法(Proximal PolicyOptimization，PPO2)。

相较于使用异步优势演员-评论家算法(Asynchronous Advantage Actor-critic，A3C)这样的异步并行算法，本发明实施例中的无模型的强化学习模型采用PPO2，可以在一般策略梯度算法的基础上，通过在损失函数上限制策略更新的最小步长和最大步长，提升算法的收敛速度，进而提高无模型的强化学习模型的处理速度。

可选地，所述环境模型具体用于：基于概率分布M_θ(s′|s,a)，以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；

具体地，环境模型存储了智能体在句法图上游走时的状态转移概率矩阵，引入环境模型可以有效提高样本的利用效率，降低对标注数据量的依赖。

为了保证学习出真实环境中的随机性，环境模型一般定义为由神经网络模型表示的概率分布M_θ(s′|s,a)，即输入由状态s和动作a拼接而成的向量，输出下一个状态s′的概率分布。

①状态s的定义

状态s由全局状态s_global、局部状态和模式状态s_mode三个部分构成。

对于全局状态s_global，在得到句法图的编码后，全局状态s_global可由如下公式(2)计算：

其中L为语义图的层数，N为句法图中节点的数量。

公式(2)的含义，即全局状态s_global由句法图中所有节点的最终编码向量均值组成，表达了整个文本的意思；

对于局部状态是针对文本信息中单个词汇而言，因此对于句法图中第i个节点对应词汇，其局部状态/>为其自身的节点向量。

对于模式状态s_mode，取决于当前需要标的内容，例如，主体或者客体，这决定了智能体在执行标注动作时当前词汇所属的标签。

最终，第i个词汇的状态表示为

②动作a的定义

动作集合A由三个部分构成，句法结构动作，标注动作和结束动作。

对于句法结构动作，句法结构动作包含所有类型的句法结构，例如复合结构(compound)、状语从句修饰词(adverbial clause modifier，advcl)、附属词从句(adnominal clause，acl)等，执行该动作意味着沿着句法树移动至下一个词汇，例如，选择状语(advmod)作为当前动作，则会沿着advmod连接移动到副词修饰。但是由于部分句法结构存在复数的情况，如名词往往会有多个compound作为修饰，这种情况下可以利用统计分析，得到词汇邻居节点compound的最大数量，按照最大数量确定compound这个动作在动作集合中的数量。

对于标注动作和结束动作，标注动作是根据任务来确定的，在立场事件检测中，主要标注的是“主体”和“客体”这两个论元，如果执行了其中一个动作，那么当前词汇则会根据状态中的模式来确定标注属于主体或者客体。

当智能体认为标注结束时即可执行结束动作，结束标注，并进入下一轮标注，例如可以通过多轮标注，分别标注出主体、客体、时间、地点等。

可选地，在所述将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径之前，可以通过最小化预先设置的候选模型的损失函数，训练所述候选模型，得到所述环境模型；

其中，所述损失函数如公式(1)：

具体地，在环境模型的训练阶段，候选模型的输出包括两个部分：预测的下一时刻的状态向量和奖励值，这两部分的训练方式相同，只是在联合训练时需要将两部分损失函数相加。

下面以状态向量为例介绍模型的训练过程。

在训练候选模型时，采用KL散度(Kullback-Leibler Divergence)作为候选模型的损失函数，定义如下公式(3)：

其中，D_KL表征KL散度。

将公式(3)展开后变为公式(4)：

其中，M^*为真实的句法结构动力模型，也是真实的环境模型；π_D为收集数据的策略；是基于真实的环境模型M^*和策略π_D得到的状态动作分布，直观上可以认为是π_D与真实环境交互采样得到的数据。

由于状态变量是连续的随机变量，因此一般会将环境的概率分布初始化为一个高斯分布，如下公式(5)：

其中，μ_θ表征高斯分布的均值向量，Σ_θ(s,a)表征高斯分布的方差矩阵。

因此最终的损失函数为公式(1)：

最后再使用梯度下降算法对参数θ进行优化即可。

下面举例说明本发明实施例提供的文本信息的论元抽取方法。

图2是本发明提供的文本信息的论元抽取方法的流程示意图之二，如图2所示，本发明实施例的主要流程分为两个部分：语义图构建和语义图拟人游走。

语义图在构建时，先将输入的文本信息进行句法分析获取句法图，每个词汇作为句法图中的节点，其特征由词向量、实体类型向量和句法成分向量拼接而成，再由GCN根据句法图的结构进行语义融合得到语义图。

智能体在根据语义图进行拟人游走时，可以根据环境模型规划的第一路径和无模型的强化学习模型通过路径融合给出策略函数，智能体根据策略函数给出的句法动作，以事件触发词为起点进行拟人游走，再根据节点所属的论元的类型进行分类，得到论元的输出结果(论元抽取结果)。

1、语义图构建

经过句法分析后，需要使用GCN对句法树中的特征进行向量化特征编码，编码方法采用基于注意力机制的GCN模型，其计算方法如下公式(6)至公式(8)：

其中，α_i,j是注意力分数，由节点之间的交互关系经过softmax加权得到，/>由两个节点之间经过变换之后拼接得到向量与注意力向量/>的点积经过LeakyReLU(激活函数)变换得到；N(i)为当前节点i相邻节点的集合，/>为上一层节点的激活值，若为第一层，则是输入向量X＝[Em_word,Em_entity,Em_deprel]，其中，Em_word表征词嵌入向量，Em_entity表征实体类型嵌入向量，Em_deprel表征句法成分嵌入向量，即由词嵌入向量、实体类型嵌入向量和句法成分嵌入向量拼接而成的混合输入向量，W^(l)表征待学习的权重和偏置参数。

2、语义图拟人游走

1)环境模型

环境模型中的状态s的定义、动作a的定义，已在前面提到，故此处不作赘述。

2)策略学习

策略的学习是通过学习到的环境辅助无模型算法进行，即利用I2A(Imagination-Augmented Agents)的模式进行，图3是本发明提供的文本信息的论元抽取方法中游走模型处理的流程示意图，如图3所示。

首先，可以使用任意的触发词检测方法，在文本信息汇总获取触发词，需要使用当前策略与学习到的环境模型进行交互，以获取一系列观测奖励序列每一个观测序列由状态和奖励构成/>

与I2A不同的是，本发明实施例中针对事件检测领域，而事件检测属于文本应用，因此可以使用长短期记忆单元(Long Short-Term Memory，LSTM)模型，而不是卷积神经网络(Convolutional Neural Networks，CNN)对这些序列进行编码，并聚合后形成一个编码向量。

另外，因为标注数据有限，因此无需使用A3C这样的异步并行算法，而是采用PPO2，该算法在一般策略梯度算法的基础上通过在损失函数上限制策略更新的最小步长和最大步长，进而保证算法的收敛速度得到提升，其损失函数如下公式(9)：

其中，∈是超参数，用来控制更新步长，保证更新的后策略与当前策略的比值不大于1+∈且不小于1-∈，一旦更新的比值过大或者过小都会被强行截断，进而保证更新效率；/>表示在当前策略下得到的优势函数，θ_k表征当前参数的值，θ表示待优化的参数。

通过PPO2算法得到无模型路径后，同样经过LSTM编码后与通过模型得到序列输入到一个全连接聚合层中得到最终的动作序列，在通过策略网络输出具体策略。

本发明实施例首先使用GCN模型将句法图和文本信息进行语义融合，从而形成一张语义图；在此基础上，利用强化学习算法，使智能体以触发词为起点，根据策略函数给出的句法动作，沿着语义图的边进行游走，并根据智能体给出的动作对节点进行分类，从而抽取目标论元。不仅在抽取过程有效的利用了句法结构，还可以通过智能体给出的目标路径提高模型的可解释性。

本发明实施例至少存在以下有益效果：

(1)本发明采用语义图拟人游走的方法，对事件的论元进行抽取，相比仅采用GCN的方法，该方法对于句法结构的利用率更高，提高了事件检测的准确率；

(2)本发明相比目前主流的黑盒模型，可以在给出抽取结果的同时输出智能体游走的目标路径，从而有效提高模型的可解释性。

下面对本发明提供的文本信息的论元抽取装置进行描述，下文描述的文本信息的论元抽取装置与上文描述的文本信息的论元抽取方法可相互对应参照。

图4是本发明提供的文本信息的论元抽取装置的结构示意图，如图4所示，文本信息的论元抽取装置400包括：

分析模块401，用于分析待处理的文本信息，得到所述文本信息对应的句法图；其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；

构建模块402，用于将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；其中，所述语义图生成模型用于基于所述句法图中的向量特征构建所述语义图；其中，所述语义图中包括至少两个词对应的节点和至少一条节点间的游走路径；

抽取模块403，用于将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果。

在本发明实施例提供的文本信息的论元抽取装置中，先由分析模块分析待处理的文本信息，得到文本信息对应的句法图，再由构建模块通过语义图生成模型，基于句法图中的向量特征构建文本信息对应的语义图，以由抽取模块通过游走模型，以触发词对应的节点为起点，通过拟人游走的方式基于语义图中的游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果，最终由游走模型输出目标路径以及对应的论元抽取结果，相较于相关技术的论元抽取方法中神经网络模型为一个黑盒模型，导致缺少论元抽取过程，模型的可解释性差的问题，本发明实施例中的游走模型可以输出用于表征论元抽取过程的目标路径，有效提高了模型的可解释性；另外，相较于相关技术中仅在提取向量特征时利用了句法图，本发明实施例还利用游走模型，采用语义图拟人游走的方式确定目标路径并抽取论元，语义图本质上包含了句法结构，使得论元抽取过程中句法结构的利用率更高，进而可以提高论元抽取的准确率。

抽取模块403具体用于：

可选地，文本信息的论元抽取装置400还包括：

处理模块，用于通过最小化预先设置的候选模型的损失函数，训练所述候选模型，得到所述环境模型；其中，所述损失函数如公式(1)：

可选地，所述无模型的强化学习模型采用近端策略优化算法PPO2。

可选地，所述语义图生成模型采用基于注意力机制的图卷积神经网络GCN。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备500可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行文本信息的论元抽取方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本信息的论元抽取方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本信息的论元抽取方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本信息的论元抽取方法，其特征在于，包括：

将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果；

其中，所述游走模型包括环境模型和无模型的强化学习模型；

2.根据权利要求1所述的文本信息的论元抽取方法，其特征在于，所述环境模型具体用于：基于概率分布M_θ(s^′|s,a)，以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；

其中，s表征当前的游走状态，s^′表征所述当前的游走状态的下一个状态，a表征各所述游走路径，θ表征待优化的环境模型参数。

3.根据权利要求2所述的文本信息的论元抽取方法，其特征在于，在所述将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径之前，所述方法还包括：

4.根据权利要求1至3任一项所述的文本信息的论元抽取方法，其特征在于，所述无模型的强化学习模型采用近端策略优化算法PPO2。

5.根据权利要求1所述的文本信息的论元抽取方法，其特征在于，所述语义图生成模型采用基于注意力机制的图卷积神经网络GCN。

6.一种文本信息的论元抽取装置，其特征在于，包括：

抽取模块，用于将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果；

所述抽取模块具体用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述文本信息的论元抽取方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本信息的论元抽取方法。