CN113901788A

CN113901788A - 语句中方面词对应的观点词抽取方法及电子设备

Info

Publication number: CN113901788A
Application number: CN202110995726.3A
Authority: CN
Inventors: 代雅晴; 王鹏飞; 朱小飞
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-01-07

Abstract

本公开提供一种语句中方面词对应的观点词抽取方法，包括，获取目标语句的句法结构和顺序结构，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图，其中，所述目标多路异构图的节点对应为所述目标语句中的每个单词；获取给定的所述目标语句中的目标方面词；获取预先构建的马尔可夫决策过程模型；应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词。本发明提供的方法，有效解决方面词及其对应的观点词距离较远时难以准确抽取观点词的问题，实现观点词的准确抽取。

Description

语句中方面词对应的观点词抽取方法及电子设备

技术领域

本公开涉及技术自然语言处理技术领域，尤其涉及一种语句中方面词对应的观点词抽取方法及电子设备。

背景技术

在大数据时代，由单一向用户提供内容已经难以满足当前的需求，用户创造的内容在数据中的重要程度逐渐凸显。评论是用户发表内容的常见形式，在很多场景都可以见到。通过分析这些评论可以获得某一人群对于某一个事物的情感、立场、态度、看法等等，使得商家、也可以根据人们的反馈及时采取相应措施。这目前的文本情感分析工作的分析粒度较粗，通常只能简单的分离评论文档或句子整体的情感极性，如正面、负面、中性，难以获得更多地细节信息。因此，如何获得更多细节信息成为了目前的一个重要研究方向。目前也有一些方法能够实现一定程度的细节分析，但其分析的准确度仍然存在较大问题。

发明内容

有鉴于此，本公开的目的在于提出一种语句中方面词对应的观点词抽取方法及电子设备解决了方面词及其对应的观点词距离较远时难以准确抽取观点词的问题的技术问题，实现了观点词的准确抽取。

基于上述目的，本公开提供了一种语句中方面词对应的观点词抽取方法及电子设备，包括：

一种语句中方面词对应的观点词抽取方法，包括：

获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图，其中，所述目标多路异构图的每个节点对应为所述目标语句中的每个单词；

获取给定的所述目标语句中的目标方面词；

获取预先构建的马尔可夫决策过程模型；

应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词。

进一步的，每个所述目标多路异构图中包括：

根据所述目标语句的顺序结构设置在每相邻两个所述节点之间的顺序边；

根据句法依存树在有句法关系的两个所述节点之间设置的句法边；

和/或，所述目标多路异构图中每个所述节点设有一个自循环边。

进一步的，在所述获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后，还包括：

对所述目标多路异构图中各个节点进行信息填充；具体包括：

获取与所述目标多路异构图中各个节点对应的路径长度在预设范围内的所有所述节点的句法信息及顺序信息，将所述句法信息及所述顺序信息填充至所述目标多路异构图中各个对应的节点上；

其中，所述句法信息利用图神经网络获取，所述顺序信息利用双相循环神经网络获取。

分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置，具体包括：

以所述目标方面词为标注对象，利用词语标识标签给所述目标语句中每个单词标注一个方面词标签，所有单词的所述方面词标签构成方面标签序列。

进一步的，所述马尔可夫决策过程模型构建过程为：

构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型；

构建训练语句，利用所述训练语句中的每个单词构建训练多路异构图，获取所述训练语句中的训练方面词与训练观点词，分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置，获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列；

利用所述训练语句对所述马尔可夫决策过程初始模型进行训练，得到所述马尔可夫决策过程模型；

其中，所述状态空间包含有各个时刻的状态，所述动作空间包含各个时刻的状态下可以执行的动作。

进一步的，所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为：

状态空间：用

表示所述状态空间，s表示所述状态，s_t表示t时刻的状态，

其中，

表示到t时刻所走过的历史路径，

表示目标语句或训练语句，w表示

中的单词，

表示目标多路异构图或训练多路异构图，

为方面标签序列，e_x为x时刻选择的边e，e∈ε，ε为包含顺序边及句法边的边集合，w_φ(x)为x时刻选择e_x到达的单词，

为给单词w_φ(x)预测的观点词标签；

动作空间：用

表示所述动作空间，a表示所述动作，

所述

为根据s_t得到的所有可能的动作集合，即：

其中，

为单词集合，l^o为观点词标签，

为词语标识标签，w_φ(t)表示在t时刻所到达的单词；

奖励策略：采用延迟奖励策略，由终止奖励来评判整条路径，所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励：

其中，

为探索奖励，

为准确奖励，

为效率奖励，

为终止奖励，n_o为训练语句中训练观点词的单词数量，

为历史路径

里命中的训练观点词的单词数量，n_c为历史路径

正确预测的观点词标签数量，n_syn和n_seq为历史路径

里句法边和顺序边的数量，β为平衡选择倾向性的超参；

转移函数：用

表示所述转移函数，

即：

其中，动作a_t中包含的信息为选择边e_t+1到达w_φ(t+1)单词，并给w_φ(t+1)单词预测观点词标签

价值函数：用V_θ表示所述价值函数，计算所述状态的价值，针对状态s_t，有：

s_t＝BiGRU(s_t-1，h_t；θ_gru)；

V_θ(s_t)＝MLP(s_t；θ_v)；

其中V_θ(s_t)表示状态s_t的价值，s_t为状态s_t的向量表达，s_t-1为状态s_t-1的向量表达，h_t为从s_t-1转移到s_t所执行的动作a_t-1的向量表达，e_t为边e_t的向量表达，边e_t为历史动作a_t-1中所选择的边；w_φ(t)为w_φ(t)的词向量表达，w_φ(t)为动作a_t-1选择边e_t所到达的单词，

为针对单词w_φ(t)预测的观点词标签的向量表达，

为w_φ(t)的方面词标签的向量表达，

为连接符号，θ_gru为双向循环神经网络的参数，θ_step和θ_v为两个多层感知器的参数；

策略函数：用π_θ表示所述策略函数，用于计算动作的概率；对于任意动作

其概率计算如下：

其中π_θ(a|s_t)为状态s_t下动作a的概率，h_a为动作a的向量表达，h_a′为动作a′的向量表达，

e为边e的向量表达，l^o为给单词w预测的观点词标签的向量表达，l^a为单词w的方面词标签的向量表达，w′是单词w经所述信息填充之后生成的新的词向量；θ_π、θ_stop是两个多层感知器的参数。

进一步的，所述对马尔可夫决策过程初始模型进行训练包括：

在包含有所述训练多路异构图的信息的所述状态空间进行至少一次搜索，得到至少一条完整的路径，其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策；

根据所述完整路径的数据，计算损失值

其中，ρ控制l₂正则；

根据所述损失值

反向传播至所述马尔可夫决策过程初始模型中所有需学习参数，对所述需学习参数进行优化，完成对所述训练语句的一次训练，得到训练后的马尔可夫决策过程初始模型；

利用所述训练语句对训练后的马尔可夫决策过程初始模型进行再次训练，直至达到预设条件，得到马尔可夫决策过程模型。

进一步的，所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策，包括：

以状态为所述蒙特卡洛树搜索中的搜索节点，执行蒙特卡洛树搜索步骤，直至达到预设的最大模拟时间；

计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率，根据得到的所述搜索策略概率随机选择一个动作执行，得到另一个状态，以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点，继续执行所述蒙特卡洛树搜索步骤，直至得到一条完整的路径；

其中，所述蒙特卡洛树搜索步骤包括：

从根节点出发，模拟选择动作，直至到达一个叶子节点；

响应于确定所述叶子节点为终止节点，利用终止奖励评估所述叶子节点的价值，递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数，然后回到根节点，从根节点重新出发，继续模拟选择动作，直至再次到达一个叶子节点，判断再次到达的叶子节点是否为终止节点；

响应于确定所述叶子节点不为终止节点，利用价值函数评估所述叶子节点的价值，递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数，对所述叶子节点进行扩展，得到新的搜索节点，并对所述新的搜索节点进行初始化，然后回到根节点，从根节点重新出发，继续模拟选择动作，直至再次到达一个叶子节点，判断再次到达的叶子节点是否为终止节点。

进一步的，所述应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词包括：

所述马尔可夫决策过程模型从给定的所述目标方面词在所述目标多路异构图中所对应的节点开始选择，利用策略函数计算当前状态下可选择执行的所有动作的概率，选择概率最大的动作在所述目标多路异构图中执行，得到一个新的状态；

继续利用策略函数计算新的状态下可选择执行的所有动作的概率，并继续选择概率最大的动作执行，直至达到终止条件，获得所述目标方面词所对应的目标观点词。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现一种语句中方面词对应的观点词抽取方法。

从上面所述可以看出，本公开提供的一种语句中方面词对应的观点词抽取方法及电子设备，具有以下有益效果：

利用构建的马尔可夫决策过程模型在目标多路异构图中探索，将目标方面词的目标观点词抽取转化为一个马尔可夫决策过程(MDP)，提供了一种观点词抽取的新方法；同时目标多路异构图中包含有目标语句的句法结构信息，有效缩目标方面词和目标观点词之间的距离，有效解决目前面临的目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题，实现目标观点词的准确抽取。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个或多个实施例的语句中方面词对应的观点词抽取方法流程图；

图2位本公开一个或多个实施例的目标(训练)多路异构图构建过程示意图；

图3为本公开一个或多个实施例的马尔可夫决策过程初始模型在所述训练多路异构图中的探索过程示意图；

图4为本公开一个或多个实施例的语句中方面词对应的观点词抽取装置结构示意图；

图5为本公开一个或多个实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

面向目标的观点词抽取(Target-oriented Opinion Word Extraction,TOWE)是一个细粒度的情感分析任务，能对一个评论中某一个方面的观点词进行抽取，从而可以得到用户个人在这个事物方面产生情感、发表看法的具体原因。例如：给出例句“Itabsolutely is more expensive than most PC laptops,but the ease of use,security,and minimal problems that have arisen make it well worth the pricetag.”，其中方面词有“use”和“price tag”，观点词有“ease”和“well worth”。在TOWE任务中，当给出方面词“use”时，任务目标是抽取对应的观点词“ease”；给出方面词“price tag”时，任务目标是抽取“well worth”。

TOWE任务可以帮助分析者快速获得很多细节信息，具有很大的实用价值，尤其在情感分析、观点总结等方面有着重要的应用。因此，越来越多的人设计模型去进行TOWE任务，进行观点词的精确抽取，但现有的方法均存在一定的问题。在面临方面词和观点词距离较远时，现有的模型均表现欠佳，难以做到观点词的准确抽取。

基于上述情况，本发明提供了一种语句中方面词对应的观点词抽取方法，可以实现方面词和观点词距离较远情况下的观点词精确抽取，如图1所示，包括：

步骤101，获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图，其中，所述目标多路异构图的节点对应为所述目标语句中的每个单词。

步骤102，获取给定的所述目标语句中的目标方面词。

步骤103，获取预先构建的马尔可夫决策过程模型。

步骤104，应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词。

通过构建包含句法结构信息和顺序结构信息的目标多路异构图，如图2所示，可以有效缩短目标语句中目标方面词和目标观点词之间的距离，有效解决目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题，从而提高目标方面词对应的目标观点词抽取准确性。

在一些实施例中，步骤101中，每个所述目标多路异构图中包括：

在面临目标方面词与目标观点词距离较远的时候，句法边可以有效缩短目标方面词与其对应的目标观点词之间的距离，提高目标观点词抽取的准确度与效率。

在一些实施例中，目标多路异构图包括由所述顺序边构成的顺序子图及由所述句法边构成的句法子图。

对于一个给定的目标语句或训练语句

n是语句的单词数，将

转换成一个目标多路异构图或训练多路异构图，目标多路异构图或训练多路异构图由

表示，顺序子图由

表示，句法子图由

表示：

ε＝ε_seq∪ε_syn；

其中，ε_seq是两个单词之间的顺序边集合，ε_syn是两个单词之间的语法边集合，

是单词集合。

定义三元组

表示单词w_i和w_j在图

中被边

连接，定义三元组

表示单词w_i和w_j在图

中被边

连接；其中

i，j∈(1，2，...，n)。自循环边由

表示，自循环边

被囊括在所述句法子图

中，加入一个自循环边

其中i∈(1，2，...，n)。

在一些实施例中，在步骤101之后，还包括：

其中，所述句法信息利用图神经网络(GNN)获取，所述顺序信息利用双相循环神经网络(BiGRU)获取。

针对句法信息填充，预设路径长度可以是一跳节点、两跳节点、三跳节点、四跳节点、五跳节点、六跳节点乃至以上，根据实际情况可做调整，具体不做限制；针对顺序信息填充，预设路径长度也可以根据需求做调整，也可以设置路径长度为目标语句的长度，取整个目标语句的顺序结构信息作为对应节点的顺序信息填充。

当在目标多路异构图中每个节点设一个自循环边，使得GNN在获取句法信息时，可以确保不会遗漏所处单词自身的信息。

马尔可夫决策过程初始模型或马尔可夫决策过程模型还包括智能体，所述智能体用于执行选择的动作。通常情况下，智能体选择动作执行时，是基于目标多路异构图上一跳节点的信息，这样距离较远的信息就容易被忽略掉。因此，利用信息填充去捕捉容易忽略的其他信息，可以更好的引导探索过程，尤其在面临目标方面词和目标观点词距离较远时，也能准确获取目标观点词。

在一些实施例中，利用GNN获取句法信息具体包括：

对于句法子图

中的一个单词w_i，定义单词w_i的邻居集合

为：

在第k层的GNN中，我们获取单词w_i的词向量

的公式可以写为：

其中α_ij表示单词w_i与单词w_j之间语法边的重要程度，当α_ij越大时，表示单词w_i与单词w_j之间语法边越重要，反之，则越不重要；e_ij是连接单词w_i和w_j的边

的向量表达，W^k是第k层GNN的参数矩阵；当k＝0时，定义

最大层数为

第

丢的词向量

为向单词w_i填充的句法信息的向量表达

的取值大于0，可以为1、2、3、4、5、6、7、8、9、10甚至10以上，可根据具体情况进行数据调整，具体取值不做限制。

可选的，

的取值为2～3。

利用BiGRU获取顺序信息具体包括：

其中，w_i为单词w_i的词向量，

为向单词w_i填充的顺序信息的向量表达，θ_seq为BiGRU的参数。

最后通过平均的方法将句法信息与顺序信息融合：

w′_i为单词w_i经信息填充后生成的新的词向量，w′_i中包含了更远的信息，可以更好的引导智能体探索出较好的路径，更快和更准确的实现目标观点词的抽取。

在一些实施例中，所述目标多路异构图为无向图。所以如果有

则一定有

其中r∈{seq，syn}，进一步简化多路异构图。

在一些实施例中，GNN获取所述目标多路异构图中各节点对应的三跳节点之内的句法信息。

在一些实施例中，在步骤101之后，还包括：

在一些实施例，所述词语标识标签包括目标词语标签及非目标词语标签。标注时，以语句的顺序结构为标注顺序，当遇到目标词语时，用目标词语标签对目标词语进行标注，当遇到非目标词语时，则用非目标词语标签进行标注。以标注目标方面词为例，目标方面词即为需要标注的目标词语，以目标语句的顺序结构为标注方向，遇到目标方面词时，对其标注目标词语标签，当遇到非目标方面词时，对其标注非目标词语标签。

在一些实施例中，所述词语标识标签为BIO标签。

BIO标签包括：B、I、O。其中B表示beginin(开始)，I表示inside(中间)，O表示other(其它)，B、I为目标词语标签，O为非目标词语标签。使用BIO标签进行标注的方法可称为BIO标注法。在一个语句中，通常包括方面词、观点词及其他，以BIO标注法为例针对目标语句进行目标方面词的位置标注时，由于目标方面词可能是一个单词或一个词组，当面临的目标方面词是词组时，目标方面词词组第一个词标为B，词组的其他词标为I，当目标方面词仅为一个单词时，则直接标为B，其他的非目标方面词则标为O，将所有单词的标签按语句中的顺序结构集合则得到方面标签序列。因此，目标语句里的每个单词在方面标签序列里都会有一个方面词标签：B或I或O。

其它能够实现标注目标语句中每个所述目标方面词在所述目标语句中所处的位置的方法，也可应用在本发明中，具体不做限制。

在一些实施例中，所述马尔可夫决策过程模型构建过程为：

步骤201，构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型。

步骤201，构建训练语句，利用所述训练语句中的每个单词构建训练多路异构图，获取所述训练语句中的训练方面词与训练观点词，分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置，获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列。

步骤203，利用所述训练语句对所述马尔可夫决策过程初始模型进行训练，得到所述马尔可夫决策过程模型。

各个时刻的状态包括有该状态下的信息数据，各个时刻的状态可以执行的动作包括有动作信息数据。

得到的马尔可夫决策过程初始模型一开始是无法在多路异构图中游走探索的，因此，需要利用训练语句进行训练，使其学会如何在目标多路异构图中探索、游走，马尔可夫决策过程初始模型在所述训练多路异构图中的探索过程，如图3所示。针对训练语句，利用与所述目标语句一样的方法，构建训练多路异构图，得到训练语句的训练方面词、每个训练方面词的方面词标签、方面标签序列。相较于目标语句不同的是，需给出训练语句中每个训练观点词及其对应的观点词标签和观点标签序列，并以此作为正确答案，来与马尔可夫决策过程初始模型预测的结果进行比较，从而评判马尔可夫决策过程初始模型的训练观点词抽取准确度，经过一定的训练后，得到最终的马尔可夫决策过程模型。其中，训练观点词的观点词标签和观点标签序列采用与目标方面词的方面词标签及方面标签序列一样的方式获得。

定义马尔可夫决策过程初始模型所有可学习的参数为θ。

在一些实施例中，步骤201中，所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为：

(1)状态空间：用

表示所述状态空间，s表示所述状态，s_t表示t时刻的状态，

用一个四元组定义状态s_t，

其中，

表示到t时刻所走过的历史路径，记录了每个时刻x的动作信息，

表示目标语句或训练语句，w表示

中的单词，

表示目标多路异构图或训练多路异构图，

为给单词w_φ(x)预测的观点词标签；

智能体从训练方面词或目标方面词的第一个单词开始游走，

其中

当智能体选择了STOP动作，或者到达了最大探索时间，探索过程就会在时刻T停止，获得终止状态s_T，该状态包含完整的探索路径

(2)动作空间：用

表示所述动作空间，a表示所述动作，

所述

为根据s_t得到的所有可能的动作集合，即：

其中，

为单词集合，l^o为观点词标签，

为词语标识标签，w_φ(t)表示在t时刻所到达的单词；在t时刻的动作空间集合

中，把历史路径中已经存在的单词去除，不允许走回到历史路径

中已经存在的单词，可以让智能体更多关注与探索新单词。当智能体需要执行动作

时，它就将从单词w_φ(t)起始，通过边e_t+1移动到单词w_φ(t+1)，并且预测w_φ(t+1)的观点词标签为

当智能体认为所有的目标观点词或训练观点词都被探索过了，就会选择STOP动作停止探索新单词。

(3)奖励策略：采用延迟奖励策略，由终止奖励来评判整条路径，所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励：

其中，

为探索奖励，

为准确奖励，

为效率奖励，

为终止奖励，n_o为训练语句中训练观点词的单词数量，

为历史路径

里命中的训练观点词的单词数量，n_c为历史路径

正确预测的观点词标签数量，n_syn和n_seq为历史路径

里句法边和顺序边的数量，β为平衡选择倾向性的超参。

当β越大时，则意味着鼓励智能体多走顺序边，通过调节β可以调节智能体的选择倾向性，β的取值范围在0～1之间，可以为0.1、0.2、0.15、0.3、0.4、0.5、0.7、0.76、0.8、0.9、0.95等值，只要落在0～1之间即可，具体不做限制。

可选的，控制β在0.3～0.4之间。

由于训练观点词可能为词组，因此，n_o与

中统计的都是训练观点词的单词数量，智能体只有在命中训练观点词的每一个单词时，才能获得最高奖励，从而可以更好地对整条路径进行评判。

将

和

相乘，表示要求智能体既要路过训练观点词，又要识别出训练观点词，才能得到一个更好的奖励，以此来让智能体可以探索到所有的训练观点词并预测正确标签，但当智能走过的路径很长时，将会收到

的惩罚，走的路径越长，则会收到

更多的惩罚。当n_syn+n_seq＝0时，代表智能体拒绝在训练多路异构图上探索，定义

对其进行惩罚。

(4)转移函数：用

表示所述转移函数，

即：

执行动作a_t后，状态s_t变化为状态s_t+1，状态s_t+1中的历史路径

包含有动作a_t的信息及状态s_t的历史路径

的信息；其中，动作a_t中包含的信息为选择边e_t+1到达w_φ(t+1)单词，并给w_φ(t+1)单词预测观点词标签

e_t+1∈ε，a_t也可能为{STOP}，表示智能体选择停止，结束探索。

(5)价值函数：用V_θ表示所述价值函数，计算所述状态的价值，针对状态s_t，有：

s_t＝BiGRU(s_t-1，h_t；θ_gru)；

V_θ(s_t)＝MLP(s_t；θ_v)；

其中V_θ(s_t)表示状态s_t的价值，s_t为状态s_t的向量表达，s_t-1为状态s_t-1的向量表达，h_t为s_t-1到s_t所执行的动作a_t-1的向量表达，e_t为边e_t的向量表达，边e_t为动作a_t-1中所选择的边；w_φ(t)为w_φ(t)的词向量，w_φ(t)为动作a_t-1选择边e_t所到达的单词，

为针对单词w_φ(t)预测的观点词标签的向量表达，

为w_φ(t)的方面词标签的向量表达，

为连接符号，θ_gru为双向循环神经网络(BiGRU)的参数，θ_step和θ_v为两个多层感知器(MLP)的参数。

价值函数

是一个标量评价，根据当前状态s_t预测终止奖励

从而预测整条路径的好坏。

在此过程中，利用

来给马尔可夫决策过程初始模型提供给定的训练方面词的信息。

(6)策略函数：用π_θ表示所述策略函数，用于计算动作的概率；对于任意动作

其概率计算如下：

e为边e的向量表达，l^o为给单词w预测的观点词标签的向量表达，l^a为单词w的方面词标签的向量表达，w′是单词w经所述信息填充之后生成的新的词向量；θ_π、θ_stop是两个多层感知器(MLP)的参数。

在一些实施例中，步骤203包括：

步骤2031，在包含有所述训练多路异构图的信息的状态空间进行至少一次搜索，得到至少一条完整的路径，其中每条路径中每个所述状态利用蒙特卡洛树搜索(MCTS)进行动作决策。

步骤2032，根据所述完整路径的数据，计算损失值

其中，ρ控制l₂正则。

步骤2033，根据所述损失值

反向传播至所述马尔可夫决策过程初始模型中所有需学习参数，对所述需学习参数进行优化，完成对所述训练语句的一次训练，得到训练后的马尔可夫决策过程初始模型。

步骤2034，利用所述语句对训练后的马尔可夫决策过程初始模型进行再次训练，直至达到预设条件，得到马尔可夫决策过程模型。

在此过程中，当利用MCTS最终决策选择状态空间的STOP动作时，或者达到了预设的最大探索时间时，视为一次搜索，此时得到的路径即为一个完整的路径。

需学习参数包括：θ_gru、，θ_st.p、θ_v、θ_π、θ_stop、W^k。

由于在最开始时，智能体不知道如何在目标多路异构图上进行推理，因此，利用MCTS在整个状态空间进行启发式搜索，可以帮助智能体优化、学习，使得马尔可夫决策过程初始模型可以得到更多的好的路径，进而使得训练后最终得到的马尔可夫决策过程模型在正式应用时可以得到更多好的路径，提升目标观点词的抽取效果。

在对马尔可夫决策过程初始模型进行训练的过程中，可以在得到一条完整的路径数据之后，即刻让需学习参数进行学习，也可以在获得多条完整的路径数据后再进行学习。

通常，评估一个马尔可夫决策过程初始模型是否为一个可以正式应用于目标方面词的抽取，可以从精确率、召回率和F1值这几个维度来评估，当达到了预设的要求后，则视为其可以作为最终的马尔可夫决策过程模型应用于目标语句中对目标观点词的抽取。

在一些实施例中，ρ控制l₂正则在0～1之间，可选的，可控制在1×10^-5。

在一些实施例中，步骤2031中，所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策，包括：

步骤20311，以状态为所述蒙特卡洛树搜索中的搜索节点，执行蒙特卡洛树搜索步骤，直至达到预设的最大模拟时间。

步骤20312，计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率，根据得到的所述搜索策略概率随机选择一个动作执行，得到另一个状态，以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点，继续执行所述蒙特卡洛树搜索步骤，直至得到一条完整的路径。

其中，所述蒙特卡洛树搜索步骤包括：

从根节点出发，模拟选择动作，直至到达一个叶子节点；

在第一执行蒙特卡洛树搜索步骤时，初始状态为根节点，在选择一个动作执行后，得到另一个状态后，另一个状态为下一次蒙特卡洛树搜索步骤的根节点。

在蒙特卡洛树搜索步骤中，所述从根节点出发，模拟选择动作，直至到达一个叶子节点，根据以下公式模拟选择动作：

a_t＝argmax_a(Q(s_t，a)+U(s_t，a))；

其中Q(s_t，a)为动作价值，U(s_t，a)为不确定性预测，P(a|s_t)为先验概率，N(s_t，a)为访问次数，

为所有访问次数的求和，c为控制MCTS探索等级的超参，在此计算过程中，将经策略函数π_θ计算得到的值视为先验概率；c的取值范围为大于0，可以为：0.1、0.6、1、1.4、1.7、2、2.6、3、3.5、4、4.8、5、5.1、6、6.6、7、7.3、8、9、10乃至10以上。

在蒙特卡洛树搜索步骤中，评估所述叶子节点的价值V(s_t)为：

所述终止节点表示该所述叶子节点之后无可选择执行的动作。所述递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数，为：

N(s，a)←N(s，a)+1。

初始化所述新的搜索节点包括：P(a|s_t)＝π_θ(a|s_t)，N(s_t，a)＝0，Q(s_t，a)＝0。

所述计算模拟选择的每一个动作的搜索策略概率，所述搜索策略概率的计算是通过将每一个模拟选择的动作的访问数N(s，a)输入到一个带有温度系数τ的softmax函数来进行的，搜索策略概率π_e(a_t|s_t)的计算公式为：

其中，τ为温度系数，τ的取值大于0，可以为：0.2、0.5、0.7、1、1.5、2、2.6、3、4、5乃至以上，根据具体的情况可以做调整，具体不做限制。

在此过程中，搜索策略概率大的动作更容易在被马尔可夫决策过程初始模型训练过程中被智能体选择，搜索策略概率小的更不容易被智能体选择，在执行初期，由于很多搜索节点都未在蒙特卡洛树搜索步骤中被探索过，因此，此时智能体更倾向于选择一些可以到达未被探索过的搜索节点的动作。

在一些实施例中，步骤104中，所述应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词包括：

继续利用策略函数计算新的状态下可选择执行的所有动作的概率，并继续选择概率最大的动作执行，直至达到终止状态，获得所述目标方面词所对应的目标观点词。

在运用马尔可夫决策过程模型在目标多路异构图上探索进行目标观点词的抽取时，根据策略函数计算出的每一个状态下可执行的所有动作的概率，选择概率最大的动作执行，即

直至达到终止状态s_T，即智能体选择了STOP状态或达到了预设的最大执行时间，基于智能体走过的历史路径

生成一个预测的观点标签序列

预测的观点标签序列

里的观点词标签是按照时间顺序进行排列的，即在x时刻走过的单词的观点词标签为

这个观点词标签

在预测的观点标签序列

中位于第φ(x)个。预测的观点标签序列

中，对于其余那些在句子

中却不在路径

中的那些单词，视为非观点词，用非目标词语标签填补，以BIO标注法为例，用BIO标签中的O来填补。通过预测的观点标签序列

根据词语标识标签获取对应的目标观点词，以BIO标注法为例，

中观点词标签为B的单词及紧跟B标签的I标签所对应的单词即为要抽取的目标观点词。

本发明提供的语句中方面词对应的观点词抽取方法，利用构建的马尔可夫决策过程模型在目标多路异构图中探索，将目标方面词的目标观点词抽取转化为一个马尔可夫决策过程(MDP)，提供了一种观点词抽取的新方法；同时目标多路异构图中包含有目标语句的句法结构信息，有效缩目标方面词和目标观点词之间的距离，有效解决目前面临的目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题，实现目标观点词的准确抽取。同时对目标多路异构图中的各个节点进行信息填充，捕捉目标多路异构图中位于远处的所述节点的信息，更好的引导探索，在面临目标方面词和目标观点词距离较远时，进一步提高目标观点词获取的准确性。进一步利用蒙特卡洛树搜索对马尔可夫决策过程初始模型进行训练，训练后得到的马尔可夫决策过程模型在目标多路异构图中探索时更容易得到好的路径，从而进一步提高目标观点词抽取的准确性与效率。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种语句中方面词对应的观点词抽取装置。

参考图4，所述语句中方面词对应的观点词抽取装置，包括：

第一构建模块401，用以获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图，其中，所述目标多路异构图的每个节点对应为所述目标语句中的每个单词；

第一获取模块402，用以获取给定的所述目标语句中的目标方面词；

第二获取模块403，用以获取预先构建的马尔可夫决策过程模型；

应用模块404，用以应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词。

在一些实施例中，所述第一构建模块401构建的每个所述目标多路异构图中包括：

在一些实施例中，装置还包括信息填充模块，用以在所述获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后，对所述目标多路异构图中各个节点进行信息填充；

具体包括：

在一些实施例中，装置还包括标注模块，用以在所述获取目标语句的句法结构信息和顺序结构信息，针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后，分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置，具体包括：

在一些实施例中，装置还包括第二构建模块，用以构建所述马尔可夫决策过程模型，具体包括：

在一些实施例中，所述第二构建模块构建的所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为：

状态空间：用

表示所述状态空间，s表示所述状态，s_t表示t时刻的状态，

其中，

表示到t时刻所走过的历史路径，

表示目标语句或训练语句，w表示

中的单词，

表示目标多路异构图或训练多路异构图，

为给单词w_φ(x)预测的观点词标签；

动作空间：用

表示所述动作空间，a表示所述动作，

所述

为根据st得到的所有可能的动作集合，即：

其中，

为单词集合，l^o为观点词标签，

为词语标识标签，w_φ(t)表示在t时刻所到达的单词；

其中，

为探索奖励，

为准确奖励，

为效率奖励，

为终止奖励，n_o为训练语句中训练观点词的单词数量，

为历史路径

里命中的训练观点词的单词数量，n_c为历史路径

正确预测的观点词标签数量，n_syn和n_seq为历史路径

里句法边和顺序边的数量，β为平衡选择倾向性的超参；

转移函数：用

表示所述转移函数，

即：

s_t＝BiGRU(s_t-1，h_t；θ_gru)；

V_θ(s_t)＝MLP(s_t；θ_v)；

其中V_θ(s_t)表示状态s_t的价值，s_t为状态s_t的向量表达，s_t-1为状态s_t-1的向量表达，h_t为从s_t-1转移到s_t所执行的动作a_t-1的向量表达，e_t为边e_t的向量表达，边e_t为历史动作a_t-1中所选择的边；w_φ(t)为w_φ(t)的词向量，w_φ(t)为动作a_t-1选择边e_t所到达的单词，

为针对单词w_φ(t)预测的观点词标签的向量表达，

为w_φ(t)的方面词标签的向量表达，

其概率计算如下：

在一些实施例中，装置还包括训练模块，用以对所述对马尔可夫决策过程初始模型进行训练，具体包括：

根据所述完整路径的数据，计算损失值

其中，ρ控制l₂正则；

根据所述损失值

在一些实施例中，所述训练模块用以对所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策，包括：

其中，所述蒙特卡洛树搜索步骤包括：

从根节点出发，模拟选择动作，直至到达一个叶子节点；

在一些实施例中，所述应用模块404用以应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索，抽取所述目标语句中所述目标方面词所对应的目标观点词包括：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的语句中方面词对应的观点词抽取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的语句中方面词对应的观点词抽取方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的语句中方面词对应的观点词抽取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的语句中方面词对应的观点词抽取方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语句中方面词对应的观点词抽取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。