CN115168576A

CN115168576A - 一种方面情感分析方法、模型及介质

Info

Publication number: CN115168576A
Application number: CN202210765059.4A
Authority: CN
Inventors: 宋彦; 田元贺; 李世鹏
Original assignee: Suzhou Sicui Artificial Intelligence Research Institute Co ltd
Current assignee: Suzhou Sicui Artificial Intelligence Research Institute Co ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11
Also published as: WO2024000956A1

Abstract

本发明涉及语言处理技术领域，特别涉及一种方面情感分析方法、模型及介质，情感分析方法，用于预测分析文本对文本内预设的方面词的感情极性，包括以下步骤：从预设文本中获取第一预设信息及第二预设信息，第一预设信息包括每个实体词语的隐向量，第二预设信息包括邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表；将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，期间，利用依存句法关系类型来为对应的依存句法关系加权，从而获得每一次卷积后的输出隐向量；基于预设的第一算法，根据每一次卷积后的输出隐向量计算加权平均；将加权平均输入预设的输出层，得到预测的针对方面词的感情极性。

Description

一种方面情感分析方法、模型及介质

【技术领域】

本发明涉及语言处理技术领域，特别涉及一种方面情感分析方法、模型及介质。

【背景技术】

近年来，深度学习方法被逐渐应用在关系抽取中。其能够依据具体任务的特点，自动实现对文本特征的提取，免去了人工设计、提取特征的巨大成本。使得深度学习的识别效果远远超过了传统的方法。

其中，基于方面的情感分析任务旨在预测针对特定方面词(Aspect term)的情感极性。现有的研究一般会利用依存句法(dependency)的知识帮助增强该任务。然而，现有的方法只利用了词与词之间的依存句法连接(dependency connection)，而忽略了他们之间的依存句法关系类型(dependency type)。同时，现有的方法未能动态利用依存句法知识，使得句法知识内存在潜在的噪音，影响性能。

【发明内容】

为解决现有的基于方面的情感分析任务噪音大、性能不佳的问题，本发明提供了一种方面情感分析方法、模型及介质。

本发明解决技术问题的方案是提供一种方面情感分析方法，用于预测分析文本对文本内预设的方面词的感情极性，包括以下步骤：

从预设文本中获取第一预设信息及第二预设信息，第一预设信息包括每个实体词语的隐向量，所述第二预设信息包括邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表；

将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，期间，利用依存句法关系类型来为对应的依存句法关系加权，从而获得每一次卷积后的输出隐向量；

基于预设的第一算法，根据每一次卷积后的输出隐向量计算加权平均；

将加权平均输入预设的输出层，得到预测的感情极性。

优选地，所述从预设文本中获取第一预设信息及第二预设信息，具体包括以下步骤：

通过预设的编码模块对预设文本和从预设文本中选定的方面词进行编码，得到每个词的隐向量；

从预设文本中提取依存句法树，并基于所述依存句法树生成邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表。

优选地，所述邻接矩阵用于表示所述预设文本中每个实体词语的邻接关系，用数字0表示不邻接，用数字1表示邻接。

优选地，所述将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，具体包括以下步骤：

预设的卷积模块包括多个卷积层；将第一预设信息与第二预设信息一同输入卷积模块的第一个卷积层，并将每一卷积层输出获得的输出隐向量作为下一卷积层的输入，直至卷积完成获得多个卷积层输出的输出隐向量。

优选地，在将上一个卷积层输出的输出隐向量输入下一卷积层的时候需要同时匹配依存句法关系类型，且每一卷积层对应匹配的依存句法关系类型采用不同的第一匹配系数。

优选地，所述利用依存句法关系类型来为对应的依存句法关系加权，具体包括以下步骤：

基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重；

基于预设的第三算法，通过输出隐向量和权重计算下一卷积层的输出隐向量。

优选地，所述基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重，包括以下步骤：

将不同实体词语对应的输出隐向量与依存句法关系类型向量串联，得到对应的关系类型因子；

基于预设的第二算法，通过不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重。

优选地，预设的第三算法中，还引入了可修改的第二匹配系数，及调节参数，用于优化第三算法。

为解决上述问题，本发明还提供一种方面情感分析模型，用于实现如上所述的方面情感分析方法，其特征在于：

包括编码模块，用于对预设文本和从预设文本中选定的方面词进行编码；

卷积模块，用于对第一预设信息与第二预设信息进行卷积，获得输出隐向量；

输出层，用于对卷积模块输出的输出隐向量进行分类和归一化处理，获得预测的情感极性。

为解决上述问题，本发明还提供一种计算机可读储存介质，其特征在于：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的方面情感分析方法。

与现有技术相比，本发明的方面情感分析方法、模型及介质具有以下优点：

1、本发明的方面情感分析方法，包括以下步骤：从预设文本中获取第一预设信息及第二预设信息，第一预设信息包括每个实体词语的隐向量，第二预设信息包括邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表；将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，期间，利用依存句法关系类型来为对应的依存句法关系加权，从而获得每一次卷积后的输出隐向量；基于预设的第一算法，根据每一次卷积后的输出隐向量计算加权平均；将加权平均输入预设的输出层，得到预测的感情极性。可以理解的，在卷积的过程中，通过利用依存句法关系类型来为对应的依存句法关系加权，实现动态利用依存句法知识，对不同依存句法关系的重要性进行识别和利用，可以有效地避免句法知识中的噪音对模型性能造成影响。

2、本发明中，从预设文本中获取第一预设信息及第二预设信息，具体包括以下步骤：通过预设的编码模块对预设文本和从预设文本中选定的方面词进行编码，得到每个词的隐向量；从预设文本中提取依存句法树，并基于依存句法树生成邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表。可以理解的，在卷积前先从预设文本中提取依存句法树，并基于依存句法树生成邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表，便于在后续步骤中根据不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重。

3、本发明中，在进行第一次卷积时，将每个词的隐向量与方面词对应的隐向量串联，共同作为卷积模块的输入。可以理解的，事先设定预定的方面词，与现有的通过模型获取方面词相比，可以有效地降低算力消耗，提高工作效率。

4、本发明中，将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，具体包括以下步骤：预设的卷积模块包括多个卷积层；将第一预设信息与第二预设信息一同输入卷积模块的第一个卷积层，并将每一卷积层输出获得的输出隐向量作为下一卷积层的输入，直至卷积完成获得多个卷积层输出的输出隐向量。可以理解的，通过多次卷积，可以更好地提取特征，让所提取的特征更加全面，利于提高最终预测结果的准确性。

5、本发明中，在将输出隐向量输入下一卷积层的时候需要同时匹配依存句法关系类型，且每一卷积层对应匹配的依存句法关系类型采用不同的第一匹配系数。可以理解的，针对每一卷积层在匹配依存句法关系类型时采用不同的第一匹配系数可以让卷积模块提取的特征更加全面，而且通过优化不同卷积层对应的第一匹配系数，可以实现对卷积结果的优化。

6、本发明中，利用依存句法关系类型来为对应的依存句法关系加权，具体包括以下步骤：基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重；基于预设的第三算法，通过输出隐向量和权重计算下一卷积层的输出隐向量。可以理解的，不同实体词语之间的邻接关系与其依存句法关系类型是息息相关的，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重利于增加附权结果的可靠性。

7、本发明中，基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重，包括以下步骤：将不同实体词语对应的输出隐向量与依存句法关系类型向量串联，得到对应的关系类型因子；基于预设的第二算法，通过不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重。可以理解的，将不同实体词语对应的输出隐向量与依存句法关系类型向量串联，得到对应的关系类型因子，再基于不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重利于进一步提高附权结果的可靠性。

8、本发明预设的第三算法中，还引入了可修改的第二匹配系数，及调节参数，用于优化第三算法。可以理解的，通过优化第三算法，可以进一步提高本方面情感分析方法的准确性。

9、本发明还包括一种方面情感分析模型，用于实现如上的方面情感分析方法，包括编码模块，用于对预设文本和从预设文本中选定的方面词进行编码；卷积模块，用于对第一预设信息与第二预设信息进行卷积，获得输出隐向量；输出层，用于对卷积模块输出的输出隐向量进行分类和归一化处理，获得预测的情感极性。可以理解的，本方面情感分析模型包括与上述方面情感分析方法一致的有益效果，在此不作赘述。

10、本发明还包括一种计算机可读储存介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上的方面情感分析方法。可以理解的，本计算机可读储存介质包括与上述方面情感分析方法一致的有益效果，在此不作赘述。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的方面情感分析方法的流程图。

图2是本发明第一实施例提供的方面情感分析方法的流程示意图。

图3是本发明第二实施例提供的方面情感分析方法之步骤S21的流程图。

图4是本发明第三实施例提供的方面情感分析方法之步骤S21A的流程图。

图5是本发明第四实施例提供的方面情感分析方法部分步骤的流程示意图。

图6是本发明第二实施例提供的方面情感分析模型的框图。

附图标识说明：

1、方面情感分析模型；

10、编码模块；20、卷积模块；30、输出层。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“左上”、“右上”、“左下”、“右下”以及类似的表述只是为了说明的目的。

请结合图1和图2，本发明第一实施例提供一种方面情感分析方法，包括以下步骤：

步骤S1：从预设文本中获取第一预设信息及第二预设信息，第一预设信息包括每个实体词语的隐向量，第二预设信息包括邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表(请参阅图5)；

步骤S2：将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，期间，利用依存句法关系类型来为对应的依存句法关系加权，从而获得每一次卷积后的输出隐向量；

步骤S3：基于预设的第一算法，根据每一次卷积后的输出隐向量计算加权平均；

步骤S4：将加权平均输入预设的输出层，得到预测的感情极性。

可以理解的，在卷积的过程中，通过利用依存句法关系类型来为对应的依存句法关系加权，实现动态利用依存句法知识，对不同依存句法关系的重要性进行识别和利用，可以有效地避免句法知识中的噪音对模型性能造成影响。

进一步的，步骤S1具体包括以下步骤：

步骤S11：通过预设的编码模块对预设文本和从预设文本中选定的方面词进行编码，得到每个词的隐向量，并对方面词对应的隐向量进行标记。

步骤S12：从预设文本中提取依存句法树，并基于依存句法树生成邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表。

可以理解的，在卷积前先从预设文本中提取依存句法树，并基于依存句法树生成邻接矩阵、依存句法关系矩阵及依存句法关系类型对应表，便于在后续步骤中根据不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重。

具体的，本实施例中，预设的编码模块为BERT模块，使用BERT模块对句子X和方面词A编码，得到每个词的隐向量。其中，第i个词和第j个词的隐向量分别记为

和

进一步的，在进行第一次卷积时，将每个词的隐向量与方面词对应的隐向量串联，共同作为卷积模块的输入。

可以理解的，事先设定预定的方面词，与现有的通过模型获取方面词相比，可以有效地降低算力消耗，提高工作效率。

进一步的，邻接矩阵(请参阅图5)用于表示预设文本中每个实体词语的邻接关系，用数字0表示不邻接，用数字1表示邻接。

可以理解的，邻接矩阵可以用让机器能识别的方式，简单地表达不同实体词语之间的邻接关系。

进一步的，请参阅图2，步骤S2具体包括以下步骤：

步骤S21：预设的卷积模块包括多个卷积层；将第一预设信息与第二预设信息一同输入卷积模块的第一个卷积层，并将每一卷积层输出获得的输出隐向量作为下一卷积层的输入，直至卷积完成获得多个卷积层输出的输出隐向量。

可以理解的，通过多次卷积，可以更好地提取特征，让所提取的特征更加全面，利于提高最终预测结果的准确性。

进一步的，卷积模块包括L层卷积层，记第H层的TGCN层输出的输出隐向量为

0＜H≤L，x表示该输出隐向量对应的实体词语为第x个词。比如说当x＝i时，输出隐向量为

表示第H层卷积层输出的输出隐向量中，编号为i的方面词所对应的输出隐向量。

具体的，本实施例中，卷积模块包括三层TGCN层。

进一步的，在将输出隐向量输入下一卷积层的时候需要同时匹配依存句法关系类型，且每一卷积层对应匹配的依存句法关系类型采用不同的第一匹配系数。

可以理解的，针对每一卷积层在匹配依存句法关系类型时采用不同的第一匹配系数可以让卷积模块提取的特征更加全面，而且通过优化不同卷积层对应的第一匹配系数，可以实现对卷积结果的优化。

具体的，本实施例中，图2中输入的句子“这个饮品菜单很有限但是服务很好”即为本方法中的预设文本；通过“[SEP]...[SEP]”进行标记的两个实体词语“饮品”和“菜单”为被标记的方面词；图2中的“[CLS]这个饮品菜单很有限...[SEP]饮品菜单[SEP]”表示将方面词和句子串联共同作为输入。

进一步的，请参阅图3，在步骤S21中，还包括以下步骤：

步骤S21A：基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重；

步骤S21B：基于预设的第三算法，通过输出隐向量和权重计算下一卷积层的输出隐向量。

可以理解的，不同实体词语之间的邻接关系与其依存句法关系类型是息息相关的，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重利于增加附权结果的可靠性。

进一步的，请结合图4和图5，步骤S21A具体包括以下步骤：

步骤S21A1：将不同实体词语对应的输出隐向量与依存句法关系类型向量串联，得到对应的关系类型因子；

比如说关系类型因子

和

的公式表示如下：

其中，

表示依存句法关系类型向量，r为依存句法关系类型的标号(依存句法关系类型对应表请参阅图5)。

步骤S21A2：基于预设的第二算法，通过不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重

可以理解的，将不同实体词语对应的输出隐向量与依存句法关系类型向量串联，得到对应的关系类型因子，再基于不同实体词语之间的邻接关系及对应的关系类型因子计算对应的权重利于进一步提高附权结果的可靠性。

第二算法的表达式如下：

第三算法的表达式如下：

进一步的，预设的第三算法中，还引入了可修改的第二匹配系数W^(H)，及调节参数b^(H)，用于优化第三算法。

可以理解的，通过优化第三算法，可以进一步提高本方面情感分析方法的准确性。

进一步的，请参阅图5，步骤S3具体包括以下步骤：

步骤S31：对每一层TGCN的输出，提取方面词对应的隐向量，计算他们的平均向量o^(H)，公式如下：

其中，A表示方面词中包含的词的数量。

步骤S32：计算所有TGCN层的加权平均r，公式如下：

其中，q^(H)表示表示第H层的可训练的权重。

进一步的，步骤S4具体包括以下步骤：

步骤S41：将加权平均r经过一个全连接层后，送入softmax分类器，得到预测的情感极性；具体请参阅图2，输出的“消极”即为预测的情感极性。

请参阅图6，本发明第二实施例还提供一种方面情感分析模型1，用于实现上述的方面情感分析方法，

包括编码模块10，用于对预设文本和从预设文本中选定的方面词进行编码；

卷积模块20，用于对第一预设信息与第二预设信息进行卷积，获得输出隐向量；

输出层30，用于对卷积模块20输出的输出隐向量进行分类和归一化处理，获得预测的情感极性。

可以理解的，本方面情感分析模型1包括与上述方面情感分析方法一致的有益效果，在此不作赘述。

进一步的，输出层包括全连接层和分类器。

具体的，本实施例中，分类器为softmax分类器。

进一步的，本发明第三实施例还提供一种计算机可读储存介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述的方面情感分析方法。

可以理解的，本计算机可读储存介质包括与上述方面情感分析方法一致的有益效果，在此不作赘述。

以上对本发明实施例公开的一种方面情感分析方法、模型及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种情感分析方法，用于分析预设文本对文本内预设的方面词的感情极性，其特征在于，包括以下步骤：

将加权平均输入预设的输出层，得到预测的针对方面词的感情极性。

2.如权利要求1所述的方面情感分析方法，其特征在于，所述从预设文本中获取第一预设信息及第二预设信息，具体包括以下步骤：

对预设文本和从预设文本中选定的方面词进行编码，得到每个词的隐向量；

3.如权利要求2所述的方面情感分析方法，其特征在于：在进行第一次卷积时，将每个词的隐向量与方面词对应的隐向量串联，共同作为卷积模块的输入。

4.如权利要求1所述的方面情感分析方法，其特征在于，所述将第一预设信息与第二预设信息一同通过预设的卷积模块进行多次卷积，具体包括以下步骤：

5.如权利要求4所述的方面情感分析方法，其特征在于：在将上一个卷积层输出的输出隐向量输入下一卷积层的时候需要同时匹配依存句法关系类型，且每一卷积层对应匹配的依存句法关系类型采用不同的第一匹配系数。

6.如权利要求4所述的方面情感分析方法，其特征在于，所述利用依存句法关系类型来为对应的依存句法关系加权，具体包括以下步骤：

7.如权利要求6所述的方面情感分析方法，其特征在于，所述基于预设的第二算法，通过不同实体词语之间的邻接关系及依存句法关系类型计算对应的权重，包括以下步骤：

8.如权利要求6所述的方面情感分析方法，其特征在于：

预设的第三算法中，还引入了可修改的第二匹配系数，及调节参数，用于优化第三算法。

9.一种方面情感分析模型，用于实现如权利要求1～8任意一项所述的方面情感分析方法，其特征在于：

10.一种计算机可读储存介质，其特征在于：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方面情感分析方法。