CN114676699A

CN114676699A - 实体情感分析方法、装置、计算机设备和存储介质

Info

Publication number: CN114676699A
Application number: CN202210299109.4A
Authority: CN
Inventors: 谭又伟; 丁宁
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-28

Abstract

本发明涉及一种实体情感分析方法、装置、计算机设备和存储介质。所述方法包括：获取待预测文本；基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体；若存在相同且连续的目标实体，则对该目标实体的类别进行修正；对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系；识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。所述方法显著提升了实体情感识别的准确性，并且是无监督的，可以大规模运用，不需要大量人力，维护成本低。

Description

实体情感分析方法、装置、计算机设备和存储介质

技术领域

本发明涉及情感分析技术领域，尤其是涉及一种实体情感分析方法、装置、计算机设备和存储介质。

背景技术

文章、语句、评论等文本通常能够反映发表者的情感倾向，如针对某些事件的态度倾向、针对某些企业、人物、产品的喜好倾向等。实体情感分析是指分析文本中关于某些实体的情感倾向性，而非整个文本的倾向性，这样的好处是使得情感对象的分析粒度更加清晰。

现有的实体情感分析方案包括基于规则的情感分析、基于统计模型的情感分析、基于深度学习的情感分析，其中，

基于规则的情感分析的基本思想是对大量文本语料进行预处理及进行词频统计，然后对统计结果挖掘出一定的频繁特征与规则，然后利用该规则对大量文本进行观点词语提取。

缺点：

规则覆盖率有限，泛化性不好；

知识库需要大量的人力物力，维护成本高，并且需要大量的专家知识；

大多数基于规则的提取方法结果仅为情感词，而不是观点内容，这样不利于对相对复杂的句子进行观点挖掘。

基于统计模型的情感分析，在大多数统计模型框架中,基于这方面的观点内容提取通常被当作是序列标注问题，传统的序列标记方法为B-I-O标记，B代表目标片段的开端，I代表目标片段中剩下的部分，O则表示原句中不在目标片段中的词，如基于CRF对评论进行序列建模从而提取观点词组。

缺点：

需要人工筛选特征集；

模型对人工选择的细致性有较强的依赖性。

基于深度学习的情感分析，在大多数深度学习模型框架中,基于这方面的观点内容提取通常也被当作是序列标注问题，如基于BILSTM-CRF对评论进行序列建模从而提取观点词组。

缺点：

需要大量的人工标注数据；

深度模型的性能对网络参数较为敏感，如何快速、有效地调节参数仍是一个令人头疼的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体情感分析方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供了一种实体情感分析方法，所述方法包括以下步骤：

获取待预测文本；

基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体；若存在相同且连续的目标实体，则对该目标实体的类别进行修正；

对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系；

识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。

在一种实施方式中，所述待预测文本采用BIOS方法进行序列标注。

在一种实施方式中，所述抽取模型为条件随机场模型。

在一种实施方式中，所述类别通过实体知识库构建；所述若存在相同且连续的目标实体，则对该目标实体类别进行修正包括：

若目标实体存在于实体知识库中，则将该目标实体修正为对应的实体类别，否则，基于各实体类别的特征修正该目标实体的类别。

在一种实施方式中，所述识别待预测文本中极性分词、修饰分词、表情符号包括：

将待预测文本的分词与预先构建的情感词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。

第二方面，本发明实施例提供了一种实体情感分析装置，所述装置包括：

获取模块，用于获取待预测文本；

实体抽取模块，用于基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体；若存在相同且连续的目标实体，则对该目标实体的类别进行修正；

依存关系确定模块，用于对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系；

情感倾向确定模块，用于识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。

在一种实施方式中，所述抽取模型为条件随机场模型。

在一种实施方式中，所述类别通过实体知识库构建；所述实体抽取模块，还用于若存在相同且连续的目标实体并且目标实体存在于实体知识库中，则将该目标实体修正为对应的实体类别，若存在相同且连续的目标实体但目标实体不在实体知识库中，则基于各实体类别的特征修正该目标实体的类别。

在一种实施方式中，所述情感倾向确定模块，还用于将待预测文本的分词与预先构建的情感词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的实体情感分析方法。

第四方面，本发明实施例提供了一种计算机可读存储介质。

所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的实体情感分析方法。

在本实施例中，通过获取待预测文本；基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体；若存在相同且连续的目标实体，则对该目标实体的类别进行修正；对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系；识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。其将分词、情感识别、实体抽取、依存句法分析、规则进行有机结合，显著提升了实体情感识别的准确性，并且是无监督的，可以大规模运用，不需要大量人力，维护成本低。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种实体情感分析方法的流程图；

图2为本发明实施例二提供的一种实体情感分析装置的结构示意图；

图3为本发明实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

缺点：

规则覆盖率有限，泛化性不好；

缺点：

需要人工筛选特征集；

模型对人工选择的细致性有较强的依赖性。

缺点：

需要大量的人工标注数据；

为克服上述问题或者至少部分地解决上述问题，本申请实施例提供一种实体情感分析方法，该方法将分词、情感识别、实体抽取、依存句法分析、规则进行有机结合，显著提升了实体情感识别的准确性，并且是无监督的，可以大规模运用，不需要大量人力，维护成本低。下面通过实施例进行详细说明。

实施例一

图1为本发明实施例一提供的一种实体情感分析方法的流程图，该方法可以由实体情感分析装置来执行，该实体情感分析装置可以由软件和/或硬件实现，可以配置在计算机设备中，例如，服务器、个人电脑、智能手机，等等。所述实体情感分析方法具体包括如下步骤：

步骤101、获取待预测文本。

文章、语句、评论等文本通常能够反映发表者的情感倾向，如针对某些事件的态度倾向、针对某些企业、人物、产品的喜好倾向等。在实际应用中，新产品或服务上线后，可以利用文本分析用户的喜好和态度，进而判断产品或服务的优劣并进行改进。而分析文本中关于某些实体的情感倾向性，能够使得情感对象的分析粒度更加清晰。例如，针对用户对主播所发布声音作品的评论数据，可以得到用户对主播或作品的情感倾向。

上述待识别文本可以从一种或多种应用场景中获取，例如，可以从社交平台、直播平台、货品交易平台等平台中获取，本实施例对于待识别文本的具体来源及其获取方式并不进行限制。

步骤102、基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体。若存在相同且连续的目标实体，则对该目标实体的类别进行修正。

在一种实施方式中，采用自动标注(BIOS)方法，对待预测文本进行序列标注，得到实体标注结果，将标注结果输入预先生成的抽取模型进行处理得到目标实体。

所述抽取模型可以为条件随机场模型(Conditional random field,CRF)，条件随机场是条件概率分布模型P(X|Y)，表示的是给定一组随机输入向量X的条件下另一组输出随机向量Y的马尔可夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场。其主要思想是：给定输入序列(例如，单词)向量x，标签序列(例如，实体类别)向量y出现的概率被定义为：与最大熵模型(逻辑回归)完全相同(唯一不同的是最大熵模型是对单个变量进行分类，则CRF模型是对序列进行分类)。具体的计算公式如下：

其中Z(x)是归一化因子，因为这个是条件分布，所以归一化因子跟x有关。这个f函数可以视为一个打分函数，打分函数取指数并归一化后就得到概率分布。

可以基于预设时间段内收集的文本数据构建训练样本，所述文本数据与待预测文本均由同一应用场景中获取，如均为对声音的评论文本。将进行列标注后文本数据作为训练样本对初始模型进行训练，得到能够抽取目标实体的抽取模型。

在一种实施方式中，所述类别可以通过实体知识库构建。所述知识库的构建可以通过整理开源的人名、作品名词库，将其与本领域挖掘出的实体词库进行融合。

若存在相同且连续的目标实体，则对该目标实体的类别进行修正。修正逻辑如下：

若目标实体存在于实体知识库中，则将该目标实体修正为对应的实体类别；

若目标实体不在实体知识库中，则基于各实体类别的特征修正该目标实体的类别。例如，实体类别为人名、作品名，目标实体长度小于或等于4，并且以姓氏开头，则将该词修正为人名，否则修正为作品名。同时，可以将该目标实体加入知识库中。

步骤103、对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系。

依存句法分析(dependency parsing)指的是分析句子的依存语法的一种中高级NLP任务，其输入通常是词语和词性，输出则是一棵依存句法树。因而，对待预测文本进行分词及词性标注处理后进行依存句法分析，能够得到所述各分词之间的依存关系。

步骤104、识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。

表情符号，为网络语言，指用文字和符号组成表情或图案来表达撰写者的心情，可以用来生动呈现和描摹日常面对面交际中的非言语信息。

在一种实施方式中，通过将待预测文本的分词与预先构建的情感词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。

所述预先构建的情感词典可以是中国台湾大学情感词典、知网Hownet情感词典等情感词典，也可以是多个情感词典整合去重后的情感词典，还可以是加入领域词汇和表情符号(如emoji表情)的情感词典。本实施例对于情感词典的具体来源及构建方式并不进行限制。

所述预设情感词典可以分积极情感子词典、消极情感子词典、程度副词情感子词典、否定副词情感子词典、积极表情符号情感子词典、消极表情符号情感子词典这6个部分，各分词分别与相应一个或多个情感子词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。例如，各分词与积极情感子词典、消极情感子词典的词进行匹配，进而识别出待预测文本的极性分词。

然后基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。

例如，可以采用以下计算逻辑确定目标实体的情感极性值：

E(entity)＝E(NA)*E(DA)*(E(PW)+E(PEmoji))

其中，PW表示极性词，NA表示否定副词，DA表示程度副词，PEmoji表示极性Emoji，E(PW)、E(NA)、E(DA)、E(PEmoji)分别代表极性词PW、否定副词NA、程度副词DA、PEmoji 的极性强度。若PW是积极极性，则E(PW)＝0.8，若PW是消极极性，则E(PW)＝-0.8；若PEmoji 是积极极性，则E(PEmoji)＝0.6，若PEmoji是消极极性，则E(PEmoji)＝-0.6；E(DA)＝0.7； E(NA)＝-0.8。

需要说明的是，在以上示出的实施方式中，关于目标实体的情感极性值的计算、极性词的极性强度的赋值、否定副词的极性强度的赋值、程度副词的极性强度的赋值、PEmoji的极性强度的赋值，以上仅仅是一种示例性的描述，并不对本说明书做限制。在实际应用中，还可以采用其它合适的目标实体的情感极性计算公式，赋其它合适的数值给极性词的极性强度、否定副词的极性强度、程度副词的极性强度、PEmoji的极性强度。

根据得到的目标实体的情感极性值，确定待预测文本中目标实体的情感倾向性。

在一种实施方式中，如果目标实体的情感极性值大于预设阀值，则用户对该实体的情感是积极的；如果如果目标实体的情感极性值小于预设阀值，则用户对该实体的情感是消极的；否则，用户对该实体的情感是中性的。

例如，如果极性值E(entity)>0，则用户对该实体的情感是积极的；如果极性值 E(entity)<0，则用户对该实体的情感是消极的；否则，用户对该实体的情感是中性的。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本发明实施例二提供的一种实体情感分析装置的结构示意图，所述实体情感分析装置具体可以包括如下模块：

获取模块201，用于获取待预测文本；

实体抽取模块202，用于基于待预测文本进行序列标注，将标注结果输入预先生成的抽取模型进行处理得到目标实体；若存在相同且连续的目标实体，则对该目标实体的类别进行修正；

依存关系确定模块203，用于对待预测文本进行分词及词性标注处理后进行依存句法分析，得到所述各分词之间的依存关系；

情感倾向确定模块204，用于识别待预测文本中极性分词、修饰分词、表情符号，基于目标实体与极性分词、修饰分词、表情符号的依存关系，以及极性分词、修饰分词、表情符号的极性强度确定待预测文本中目标实体的情感倾向性。

在一种实施方式中，所述抽取模型为条件随机场模型。

在一种实施方式中，所述类别通过实体知识库构建；所述实体抽取模块202，还用于若存在相同且连续的目标实体并且目标实体存在于实体知识库中，则将该目标实体修正为对应的实体类别，若存在相同且连续的目标实体但目标实体不在实体知识库中，则基于各实体类别的特征修正该目标实体的类别。

在一种实施方式中，所述情感倾向确定模块204，还用于将待预测文本的分词与预先构建的情感词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。

本发明实施例所提供的实体情感分析装置可执行本发明任意实施例所提供的实体情感分析方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等) 通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的实体情感分析方法。

实施例四

本发明实施例四还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实体情感分析方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种实体情感分析方法，其特征在于，包括：

获取待预测文本；

2.根据权利要求1所述的方法，其特征在于：所述待预测文本采用BIOS方法进行序列标注。

3.根据权利要求1所述的方法，其特征在于：所述抽取模型为条件随机场模型。

4.根据权利要求1所述的方法，其特征在于，所述类别通过实体知识库构建；所述对该目标实体类别进行修正包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述识别待预测文本中极性分词、修饰分词、表情符号包括：

6.一种实体情感分析装置，其特征在于，包括：

获取模块，用于获取待预测文本；

7.根据权利要求6所述的装置，其特征在于：所述类别通过实体知识库构建；所述实体抽取模块，还用于若存在相同且连续的目标实体并且目标实体存在于实体知识库中，则将该目标实体修正为对应的实体类别，若存在相同且连续的目标实体但目标实体不在实体知识库中，则基于各实体类别的特征修正该目标实体的类别。

8.根据权利要求6或7所述的装置，其特征在于：所述情感倾向确定模块，还用于将待预测文本的分词与预先构建的情感词典进行匹配，识别待预测文本中极性分词、修饰分词、表情符号。

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的实体情感分析方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的实体情感分析方法。