CN113255368A

CN113255368A - 针对文本数据进行情感分析的方法、装置及相关设备

Info

Publication number: CN113255368A
Application number: CN202110630940.9A
Authority: CN
Inventors: 代文文
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-13
Anticipated expiration: 2041-06-07
Also published as: CN113255368B

Abstract

本发明公开了一种针对文本数据进行情感分析的方法，应用于语义识别技术领域，用于解决通过现有的分类模型对短文本情感分析的分析结果的准确性较低的问题。本发明提供的方法包括：接收到情感标签的待识别文本时，将待识别文本转换为字序列；判断该字序列包含的字数是否小于预设值，若是，则判断对应的待识别文本的情感标签为中性，否则，获取关键字词表；判断该词表的关键字中是否包含有该字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签，否则，通过预先训练好的情感预测模型对所述字序列进行预测，将预测出的正情感标签的概率和负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

Description

针对文本数据进行情感分析的方法、装置及相关设备

技术领域

本发明涉及语义识别技术领域，尤其涉及针对文本数据进行情感分析的方法、装置、计算机设备及存储介质。

背景技术

情感分析指的是利用机器学习与自然语言处理技术自动对包含主观信息的文本进行情感倾向性判断。情感分析常见的任务是情感分类，一般会给主观文本打上情感标签，常用的情感三分类标签分为正面、负面、中性。情感分析可为口碑分析（常见的电商产品评论、大众点评、豆瓣点评都属于此类）、微博热点话题监控、舆情分析平台等应用提供基础技术支持。

情感分类作为一个经典的分类任务，常用方法基本上可以分为两大类：

1）基于规则的分类方法。该分类方法的原理是采用为类别集合的每个类别确定分类规则，然后根据类别模板统计待分类文本，确定该文本所属类别。

2）基于统计的分类方法。该分类方法的原理是使用分类模型根据训练集中的信息自动学习，将训练集中的样本数据进行分词或分句，然后进行特征提取，从而构造出文本特征和类别之间的对应关系模型，在需要对待预测的文本进行情感预测时，利用训练好的模型对待分类文本进行分类。

发明人意识到目前已有的情感分析方案主要是针对电商产品或者各类服务进行情感倾向性分析，现有的开源语料和方法主要是面向电商和电影评论领域，观点倾向比较明显，文本一般较长，通过传统机器学习分类算法可以很直观地判断情感倾向。但对于社交领域的聊天文本，比如产品沟通群聊天反馈，基于已有的语料训练的传统情感分类模型效果一般较差，主要是因为待识别文本数据偏短时，一般不包含明显的情感词，表述也比较口语化。

基于上述第（1）种方式中情感规则的分类方法只适用于包含情感词的文本，该方法不具有通用性。上述第（2）种方式中基于传统机器学习分类算法对数据集的规模有一定的要求，适用于具有一定长度的具有上下文语义的文本语句的情感预测，发明人在实验的过程中发现，由于短文本包含的词语较少，对短文本词语进行词向量特征提取后，该词向量特征表征出的信息量也较少，通过现有的分类模型对短文本情感分析效果很差，对短文本情感分析的分析结果的准确性较低。

发明内容

本发明实施例提供一种针对文本数据进行情感分析的方法、装置、计算机设备及存储介质，以解决通过现有的分类模型对短文本情感分析效果很差、对短文本情感分析的分析结果的准确性较低的问题。

一种针对文本数据进行情感分析的方法，所述方法包括：

接收到情感标签的待识别文本时，将所述待识别文本转换为字序列；

判断所述字序列包含的字数是否小于预设值，若是，则判断对应的待识别文本的情感标签为中性；

当所述字序列包含的字数大于等于所述预设值时，获取预先构建的携带有情感标签的关键字词表；

判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签；

当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的情感预测模型对所述字序列进行预测，得到与所述字序列相对应的正情感标签的概率和负情感标签的概率；

将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

一种针对文本数据进行情感分析的装置，所述装置包括：

字序列转换模块，用于接收到情感标签的待识别文本时，将所述待识别文本转换为字序列；

第一判断模块，用于判断所述字序列包含的字数是否小于预设值，若是，则判断对应的待识别文本的情感标签为中性；

词表获取模块，用于当所述字序列包含的字数大于等于所述预设值时，获取预先构建的携带有情感标签的关键字词表；

第二判断模块，用于判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签；

预测模块，用于当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的情感预测模型对所述字序列进行预测，得到与所述字序列相对应的正情感标签的概率和负情感标签的概率；

标签确定模块，用于将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述针对文本数据进行情感分析的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述针对文本数据进行情感分析的方法的步骤。

本发明提出的针对文本数据进行情感分析的方法、装置、计算机设备及存储介质，将待识别文本转换为字序列，判断该字序列包含的字数是否过少，若是，则判断对应的待识别文本的情感标签为中性，否则获取预先构建的携带有情感标签的关键字词表，判断该词表的关键字中是否包含有字序列中的词语，若包含则将对应关键字的情感标签确定为所述待识别文本的情感标签，当无法通过词表判断该待识别文本的情感标签时，通过预先训练好的情感预测模型对该字序列进行预测，得到该待识别文本的情感标签。本发明首先根据待识别文本包含的字数直接对该待识别文本的情感标签进行判断，可以解决短文本语义缺失导致通过常规方法无法准确判断出待识别文本的情感标签的问题，进一步预先通过关键字词表可以识别特殊的口语化句式中携带的情感标签，减少情感预测模型的误判，本发明最后通过情感预测模型对待识别文本包含的字序列的情感标签进行预测，可以对待识别文本的情感标签进行正确分类。本发明结合多种方式依次对待识别短文本的情感标签进行分析，使得针对文本数据进行情感分析的通用性更强，同时使得对待识别文本的情感标签的识别准确性更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中针对文本数据进行情感分析的方法的一应用环境示意图。

图2是本发明一实施例中针对文本数据进行情感分析的方法的一流程图。

图3是本发明又一实施例中针对文本数据进行情感分析的方法的一流程图。

图4是本发明另一实施例中针对文本数据进行情感分析的方法的一流程图。

图5是本发明一实施例中针对文本数据进行情感分析的装置的结构示意图。

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的针对文本数据进行情感分析的方法，可应用在如图1的应用环境中，其中，该计算机设备可以但不限于服务器、各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

为了提高短文本语句中情感分析的准确性和通用性，在一实施例中，如图2所示，提供一种针对文本数据进行情感分析的方法，可以适用于例如对微信聊天中出现的口语化短文本的情感标签进行智能分析，以该方法应用在图1中的计算机设备为例进行说明，该针对文本数据进行情感分析的方法包括以下步骤S101至S106。

S101、接收到情感标签的待识别文本时，将所述待识别文本转换为字序列。

可以理解的是，该步骤中将待识别文本转换为字序列的过程例如：将该待识别文本中包括的字依次进行识别，即可得到该字序列。

在其中一个实施例中，接收到情感标签的待识别文本时，在所述将所述待识别文本转换为字序列的步骤之前，所述针对文本数据进行情感分析的方法还包括：

对所述待识别文本进行预处理。

所述将所述待识别文本转换为字序列的步骤进一步包括：

将预处理后的所述待识别文本转换为字序列。

在其中一个实施例中，对所述待识别文本进行预处理的步骤包括但不限于剔除@USER、剔除引用回复原文、剔除表情符号、剔除HTTP链接、剔除异常字符、剔除数字、剔除连续重复的文字序列等。

作为可选地，对所述待识别文本进行预处理的步骤还包括：

识别所述待识别文本中否定词的个数；

当所述否定词的个数为偶数时，剔除所述待识别文本中包含的否定词。

可以理解的是，当该待识别文本中包含的否定词的个数为奇数个时，保留所述待识别文本中包含的否定词。

本实施例通过对待识别文本进行预处理，初步剔除待识别文本中明显不包括情感色彩的词语，并剔除所述待识别文本中包含的偶数个否定词，一方面可以提高后续通过关键字词表对所述待识别文本的情感标签进行判定的准确性，另一方面还可以提高后续通过预先训练好的情感预测模型对所述字序列进行预测的准确性，避免情感预测模型在对双重否定语句进行情感预测时，预测结果出错的问题。

S102、判断所述字序列包含的字数是否小于预设值，若是，则判断对应的待识别文本的情感标签为中性。

其中，该字数的预设值例如为两个，当字序列包含的字数小于两个时，可以优先筛选出例如“好的”、“可以”、“您好”、“嗯”等明显不具有正负情感标签的中性文本。

该步骤中判断所述字序列包含的字数是否小于预设值，通过考虑聊天场景中包含的句子长度，对待识别文本的情感标签进行初步筛选，可以提高对短句的情感标签的识别效率。

S103、当所述字序列包含的字数大于等于所述预设值时，获取预先构建的携带有情感标签的关键字词表。

可以理解的是，该预先构建的携带有情感标签的关键字词表依据真实的微信聊天数据进行制定，通过考虑聊天中包含的关键词、段落个数、是否为长句、是否包含故障反馈词、特殊标点符号以及是否为问句来判断对应的情感类型。

在其中一个实施例中，该情感标签包括但不限于正情感标签、负情感标签和中性情感标签。可以理解的是，同一关键字词表中包括的各个关键携带的情感标签相同。

在其中一个实施例中，该关键字词表的构建来源包括但不限于高质量开源电商评论、微博情感语料、保险金融领域情感语料、微信聊天语料等。其中，高质量开源电商评论、微博情感语料为开源语料，保险金融领域情感语料、微信聊天语料为人工标注语料。语料均为情感二分类，其中，微博情感语料、保险金融领域情感语料、微信聊天语料是为了补充符合保险垂直领域的数据，更加贴近微信聊天的真实数据分布。

S104、判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签。

在其中一个实施例中，所述关键字词表包括携带有正情感标签的正情绪语料词表、携带有负情感标签的负情绪语料词表和携带有中性情感标签的中性语料词表，该判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签的步骤进一步包括：

判断所述中性语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为中性；

当所述中性语料词表的关键字中不包含所述字序列中的词语时，判断所述正情绪语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为正情感；

当所述正情绪语料词表的关键字中不包含所述字序列中的词语时，判断所述负情绪语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为负情感。

其中，该中性语料词表中包含的关键字包括但不限于打招呼用语、签到消息、打卡信息（例如“已提交”、“已转发”等）。该正情绪语料词表中包含的关键字包括但不限于客套用语（例如“没关系”、问候词、礼貌用语等）、没XX（例如没毛病、没问题、没故障）、太XX（例如太客气、太强大、太厉害等等）及活动推广和宣传等。

可以理解的是，该词表中包括的关键字可以根据用户常用的口语化词语进行预先情感标注和写入。

S105、当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的情感预测模型对所述字序列进行预测，得到与所述字序列相对应的正情感标签的概率和负情感标签的概率。

可以理解的是，所述正情感标签的概率与所述负情感标签的概率之和为1。

在其中一个实施例中，训练所述情感预测模型的步骤包括：

获取情感语料训练样本，对所述情感语料训练样本进行预处理，得到情感语料训练样本集；

获取所述情感语料训练样本集中每个所述情感语料训练样本的字序列；

通过所述字序列对所述情感预测模型进行训练，当所述情感预测模型的损失函数收敛时，得到训练好的情感预测模型。

其中，可以使用BERT（Bidirectional Encoder Representation fromTransformers）语言模型、ALBERT等预训练框架自带的分词器对情感语料训练样本进行token化，得到该字序列。进一步地，该情感语料训练样本集包括样本训练集、样本验证集和样本测试集。优选地，该样本训练集、样本验证集和样本测试集中包含的情感语料训练样本的数量为——样本训练集：样本验证集：样本测试集=8:1:1。

由于情感预测模型需要上线，对预测速度有一定的要求，因此本实施例选用ALBERT预训练框架对该字序列进行向量化，保证泛化性的同时模型的参数规模也适中，预测速度较快。

其中，情感预测模型的分类器可以选择最简单的softmax分类器，也可以选择TextCNN、BILSTM、KMax_CNN等性能更好的分类器。本实施例选用的是KMax_CNN，CNN系列分类器速度很快，并且KMax_CNN在池化阶段会选择K个最大的特征值，可以保留更多的词序信息，使得分类效果更好。

可以理解的是，该样本训练集用于对该情感预测模型进行训练，得到最优的模型参数，该样本验证集用于检测该情感预测模型的损失函数是否收敛，帮助模型调参，该样本测试集用于测试该情感预测模型的泛化性。

在其中一个实施例中，对所述情感语料训练样本进行预处理的步骤包括但不限于剔除@USER、剔除引用回复原文、剔除表情符号、剔除HTTP链接、剔除异常字符、剔除数字、剔除连续重复的文字序列等。

作为可选地，对所述情感语料训练样本进行预处理的步骤包括：

识别所述情感语料训练样本中否定词的个数；

当所述否定词的个数为偶数时，剔除所述情感语料训练样本中包含的否定词。

可以理解的是，当该否定词的个数为奇数个时，保留所述情感语料训练样本中包含的否定词。

本实施例通过剔除所述情感语料训练样本中包含的偶数个否定词，便于模型对双重否定语句的学习，以免在对包含有双重否定的情感标签的待识别文本进行预测时，预测结果不准确的技术问题。

图3是本发明又一实施例中针对文本数据进行情感分析的方法的一流程图，在其中一个实施例中，如图3所示，在所述通过预先训练好的情感预测模型对所述字序列进行预测的步骤之前，该针对文本数据进行情感分析的方法还包括以下步骤S301至S303：

S301、当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的问题识别模型对所述字序列进行识别，判断所述字序列对应的待识别文本是否为问题语句；

S302、当判断出所述待识别文本为问题语句时，判断所述待识别文本的情感标签为中性；

S303、当判断出所述待识别文本为非问题语句时，通过预先训练好的情感预测模型对所述字序列进行预测，得到与所述字序列相对应的正情感标签的概率和负情感标签的概率。

本实施例通过预先训练好的问题识别模型对所述字序列进行识别，当判断出所述待识别文本为问题语句时直接判断所述待识别文本的情感标签为中性，不再通过预先训练好的情感预测模型对所述字序列进行预测，一方面可以提高情感标签为中性的待识别文本的识别效率，另一方面使得可以对问题语句进行情感标签的识别，进一步提高该针对文本数据进行情感分析的方法的通用性。

S106、将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

在其中一个实施例中，在该将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的标签确定为所述待识别文本的情感标签的步骤之前，该针对文本数据进行情感分析的方法还包括以下步骤：

判断预先构建的情感词典中是否包含有所述字序列中的情感词语，若是，则将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的标签确定为所述待识别文本的情感标签；

当所述情感词典中不包含所述字序列中的情感词语时，计算所述正情感标签的概率和所述负情感标签的概率的差值的绝对值；

当计算的所述绝对值小于预设差值时，判断所述待识别文本的情感标签为中性；

当计算的所述绝对值大于等于所述预设差值时，将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的标签确定为所述待识别文本的情感标签。

在其中一个实施例中，该预设差值例如为0.1。

在其中一个实施例中，构建该情感词典中情感词语的来源包括但不限于知网Hownet情感词典、褒贬义词典（清华大学李军）、中国台湾大学NTUSD情感词典、BosonNLP情感词典、中文连接大全等连接词词表。

图4是本发明另一实施例中针对文本数据进行情感分析的方法的一流程图，下面结合图4详细描述根据本发明另一实施例中针对文本数据进行情感分析的方法，如图4所示，该针对文本数据进行情感分析的方法包括以下步骤S401至S415。

S401、接收到情感标签的待识别文本时，将该待识别文本转换为字序列；

S402、判断字序列包含的字数是否小于预设值，若是，则执行步骤S403，否则，执行步骤S404；

S403、判断对应的待识别文本的情感标签为中性；

S404、获取预先构建的携带有情感标签的关键字词表；

S405、判断词表的关键字中是否包含有该字序列中的词语，若是，则执行步骤S406，否则，执行步骤S407；

S406、将对应关键字的情感标签确定为所述待识别文本的情感标签；

S407、通过预先训练好的问题识别模型对该字序列进行识别；

S408、判断字序列对应的待识别文本是否为问题语句，若是，则执行步骤S409，否则，执行步骤S410；

S409、判断所述待识别文本的情感标签为中性；

S410、通过预先训练好的情感预测模型对所述字序列进行预测，得到正情感标签的概率和负情感标签的概率；

S411、判断预先构建的情感词典中是否包含有字序列中的情感词语，若是，则执行步骤S412，否则，执行步骤S413；

S412、将正情感标签的概率和负情感标签的概率中的较大值对应的情感标签确定为该待识别文本的情感标签；

S413、计算该正情感标签的概率和该负情感标签的概率的差值的绝对值，执行步骤S414；

S414、判断计算的所述绝对值是否小于预设差值，若是，则执行步骤S415，否则，执行步骤S412；

S415、判断所述待识别文本的情感标签为中性。

本实施例提出的针对文本数据进行情感分析的方法将待识别文本转换为字序列，判断该字序列包含的字数是否过少，若是，则判断对应的待识别文本的情感标签为中性，否则获取预先构建的携带有情感标签的关键字词表，判断该词表的关键字中是否包含有字序列中的词语，若包含则将对应关键字的情感标签确定为所述待识别文本的情感标签，当无法通过词表判断该待识别文本的情感标签时，通过预先训练好的情感预测模型对该字序列进行预测，得到该待识别文本的情感标签。本实施例首先根据待识别文本包含的字数直接对该待识别文本的情感标签进行判断，可以解决短文本语义缺失导致通过常规方法无法准确判断出待识别文本的情感标签的问题，进一步预先通过关键字词表可以识别特殊的口语化句式中携带的情感标签，减少情感预测模型的误判，本实施例最后通过情感预测模型对待识别文本包含的字序列的情感标签进行预测，可以对待识别文本的情感标签进行正确分类。本实施例结合多种方式依次对待识别文本的情感标签进行分析，使得针对文本数据进行情感分析的通用性更强，同时使得对待识别文本的情感标签的识别准确性更高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种针对文本数据进行情感分析的装置，该针对文本数据进行情感分析的装置与上述实施例中针对文本数据进行情感分析的方法一一对应。如图5所示，该针对文本数据进行情感分析的装置100包括字序列转换模块11、第一判断模块12、词表获取模块13、第二判断模块14、预测模块15和标签确定模块16。各功能模块详细说明如下：

字序列转换模块11，用于接收到情感标签的待识别文本时，将所述待识别文本转换为字序列；

第一判断模块12，用于判断所述字序列包含的字数是否小于预设值，若是，则判断对应的待识别文本的情感标签为中性；

词表获取模块13，用于当所述字序列包含的字数大于等于所述预设值时，获取预先构建的携带有情感标签的关键字词表；

第二判断模块14，用于判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签；

预测模块15，用于当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的情感预测模型对所述字序列进行预测，得到与所述字序列相对应的正情感标签的概率和负情感标签的概率；

标签确定模块16，用于将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

本实施例提出的针对文本数据进行情感分析的装置首先根据待识别文本包含的字数直接对该待识别文本的情感标签进行判断，可以解决短文本语义缺失导致通过常规方法无法准确判断出待识别文本的情感标签的问题，进一步预先通过关键字词表可以识别特殊的口语化句式中携带的情感标签，减少情感预测模型的误判，本实施例最后通过情感预测模型对待识别文本包含的字序列的情感标签进行预测，可以对待识别文本的情感标签进行正确分类。本实施例结合多种方式依次对待识别文本的情感标签进行分析，使得针对文本数据进行情感分析的通用性更强，同时使得对待识别文本的情感标签的识别准确性更高。

在其中一个实施例中，所述关键字词表包括携带有正情感标签的正情绪语料词表、携带有负情感标签的负情绪语料词表和携带有中性情感标签的中性语料词表，该第二判断模块14具体包括：

第一判断单元，用于判断所述中性语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为中性；

第二判断单元，用于当所述中性语料词表的关键字中不包含所述字序列中的词语时，判断所述正情绪语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为正情感；

第三判断单元，用于当所述正情绪语料词表的关键字中不包含所述字序列中的词语时，判断所述负情绪语料词表的关键字中是否包含有所述字序列中的词语，若是，则判断所述待识别文本的情感标签为负情感。

在其中一个实施例中，该针对文本数据进行情感分析的装置100还包括：

样本预处理模块，用于获取情感语料训练样本，对所述情感语料训练样本进行预处理，得到情感语料训练样本集；

样本字序列获取模块，用于获取所述情感语料训练样本集中每个所述情感语料训练样本的字序列；

情感预测模型训练模块，用于通过所述字序列对所述情感预测模型进行训练，当所述情感预测模型的损失函数收敛时，得到训练好的情感预测模型。

其中，可以使用BERT（Bidirectional Encoder Representation fromTransformers）语言模型、ALBERT等预训练框架自带的分词器对情感语料训练样本进行token化，得到该字序列。进一步地，该情感语料训练样本集包括样本训练集、样本验证集和样本测试集。由于情感预测模型需要上线，对预测速度有一定的要求，因此本实施例选用ALBERT预训练框架对该字序列进行向量化，保证泛化性的同时模型的参数规模也适中，预测速度较快。

在其中一个实施例中，所述样本预处理模块包括：

样本否定词识别单元，用于识别所述情感语料训练样本中否定词的个数；

样本否定词剔除单元，用于当所述否定词的个数为偶数时，剔除所述情感语料训练样本中包含的否定词。

问题识别模块，用于当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的问题识别模型对所述字序列进行识别，判断所述字序列对应的待识别文本是否为问题语句；

第五判断单元，用于当判断出所述待识别文本为问题语句时，判断所述待识别文本的情感标签为中性；

第六判断单元，用于当判断出所述待识别文本为非问题语句时，通过预先训练好的情感预测模型对所述字序列进行预测。

第三判断模块，用于判断预先构建的情感词典中是否包含有所述字序列中的情感词语，若是，则将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签；

计算模块，用于当所述情感词典中不包含所述字序列中的情感词语时，计算所述正情感标签的概率和所述负情感标签的概率的差值的绝对值；

第四判断模块，用于当计算的所述绝对值小于预设差值时，判断所述待识别文本的情感标签为中性；

第五判断模块，用于当计算的所述绝对值大于等于所述预设差值时，将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

其中，该预设差值例如为0.1。

在该实施例中，构建该情感词典中情感词语的来源包括但不限于知网Hownet情感词典、褒贬义词典（清华大学李军）、中国台湾大学NTUSD情感词典、BosonNLP情感词典、中文连接大全等连接词词表。

文本预处理模块，用于对所述待识别文本进行预处理；

该字序列转换模块11具体用于将预处理后的所述待识别文本转换为字序列。

在其中一个实施例中，该文本预处理模块具体用于剔除@USER、剔除引用回复原文、剔除表情符号、剔除HTTP链接、剔除异常字符、剔除数字、剔除连续重复的文字序列等。

作为可选地，文本预处理模块具体包括：

文本否定词识别单元，用于识别所述待识别文本中否定词的个数；

文本否定词剔除单元，用于当所述否定词的个数为偶数时，剔除所述待识别文本中包含的否定词。

本实施例通过对待识别文本进行预处理，初步剔除待识别文本中明显不包括情感色彩的词语，并剔除所述待识别文本中包含的偶数个否定词，一方面可以提高后续通过关键字词表对所述待识别文本的情感标签进行判定的准确性，另一方面还可以提高后续通过预先训练好的情感预测模型对所述字序列进行预测的准确性，避免情感预测模型在对双重否定语句进行情感预测时，预测结果出错。

其中，上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于针对文本数据进行情感分析的装置的具体限定可以参见上文中对于针对文本数据进行情感分析的方法的限定，在此不再赘述。上述针对文本数据进行情感分析的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种针对文本数据进行情感分析的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中针对文本数据进行情感分析的方法的步骤，例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中针对文本数据进行情感分析的装置的各模块/单元的功能，例如图5所示模块11至模块16的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、视频数据等）等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中针对文本数据进行情感分析的方法的步骤，例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中针对文本数据进行情感分析的装置的各模块/单元的功能，例如图5所示模块11至模块16的功能。为避免重复，这里不再赘述。

本实施例提出的针对文本数据进行情感分析的方法、装置、计算机设备及存储介质，将待识别文本转换为字序列，判断该字序列包含的字数是否过少，若是，则判断对应的待识别文本的情感标签为中性，否则获取预先构建的携带有情感标签的关键字词表，判断该词表的关键字中是否包含有字序列中的词语，若包含则将对应关键字的情感标签确定为所述待识别文本的情感标签，当无法通过词表判断该待识别文本的情感标签时，通过预先训练好的情感预测模型对该字序列进行预测，得到该待识别文本的情感标签。本发明首先根据待识别文本包含的字数直接对该待识别文本的情感标签进行判断，可以解决短文本语义缺失导致通过常规方法无法准确判断出待识别文本的情感标签的问题，进一步预先通过关键字词表可以识别特殊的口语化句式中携带的情感标签，减少情感预测模型的误判，本发明最后通过情感预测模型对待识别文本包含的字序列的情感标签进行预测，可以对待识别文本的情感标签进行正确分类。本发明结合多种方式依次对待识别短文本的情感标签进行分析，使得针对文本数据进行情感分析的通用性更强，同时使得对待识别文本的情感标签的识别准确性更高。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种针对文本数据进行情感分析的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的针对文本数据进行情感分析的方法，其特征在于，所述关键字词表包括携带有正情感标签的正情绪语料词表、携带有负情感标签的负情绪语料词表和携带有中性情感标签的中性语料词表，所述判断所述词表的关键字中是否包含有所述字序列中的词语，若是，则将对应关键字的情感标签确定为所述待识别文本的情感标签的步骤包括：

3.根据权利要求1所述的针对文本数据进行情感分析的方法，其特征在于，训练所述情感预测模型的步骤包括：

4.根据权利要求3所述的针对文本数据进行情感分析的方法，其特征在于，所述对所述情感语料训练样本进行预处理的步骤包括：

识别所述情感语料训练样本中否定词的个数；

5.根据权利要求1所述的针对文本数据进行情感分析的方法，其特征在于，在所述通过预先训练好的情感预测模型对所述字序列进行预测的步骤之前，所述方法还包括：

当所述关键字词表中不包含所述字序列中的词语时，通过预先训练好的问题识别模型对所述字序列进行识别，判断所述字序列对应的待识别文本是否为问题语句；

当判断出所述待识别文本为问题语句时，判断所述待识别文本的情感标签为中性；

当判断出所述待识别文本为非问题语句时，通过预先训练好的情感预测模型对所述字序列进行预测。

6.根据权利要求1所述的针对文本数据进行情感分析的方法，其特征在于，在所述将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签的步骤之前，所述方法还包括：

判断预先构建的情感词典中是否包含有所述字序列中的情感词语，若是，则将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签；

当计算的所述绝对值大于等于所述预设差值时，将所述正情感标签的概率和所述负情感标签的概率中的较大值对应的情感标签确定为所述待识别文本的情感标签。

7.根据权利要求1至6任一项所述的针对文本数据进行情感分析的方法，其特征在于，在所述将所述待识别文本转换为字序列的步骤之前，所述方法还包括：

对所述待识别文本进行预处理；

所述将所述待识别文本转换为字序列的步骤进一步包括：

将预处理后的所述待识别文本转换为字序列。

8.一种针对文本数据进行情感分析的装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述针对文本数据进行情感分析的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述针对文本数据进行情感分析的方法的步骤。