CN111898384A

CN111898384A - 一种文本情感识别方法、装置、存储介质及电子设备

Info

Publication number: CN111898384A
Application number: CN202010480654.4A
Authority: CN
Inventors: 王晓悦; 马行空; 刘冰; 王勇军; 李军; 解培岱; 许方亮; 石浩辛; 陈科; 江金寿; 田建辉; 叶金华; 何圣华
Original assignee: Ordnance Science and Research Academy of China
Current assignee: Ordnance Science and Research Academy of China
Priority date: 2020-05-30
Filing date: 2020-05-30
Publication date: 2020-11-06

Abstract

本申请提供一种文本情感识别方法、装置、存储介质及电子设备，涉及文本情感分析技术领域。其中，文本情感识别方法包括如下步骤：获取针对指定事件的目标数据信息；所述目标数据信息中包括文本数据和表情符号；分别确定所述文本数据的各个目标分词的词向量和所述表情符号的表情词向量；结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别。该方法综合考虑文本数据和表情符号表达的情感特征，可以有效提升情感分析的准确率。

Description

一种文本情感识别方法、装置、存储介质及电子设备

技术领域

本申请涉及文本情感分析技术领域，尤其涉及一种文本情感识别方法、装置、存储介质及电子设备。

背景技术

随着社交网络的快速发展，越来越多的人通过社交网络对社会事件、产品、服务等发表评论、表达观点。在实际应用中，新产品或服务上线后，商家需要利用社交网络数据分析用户的喜好和态度，进而判断产品或服务的优劣并进行改进；新政策或法规颁布后，政府部门需要利用社交网络数据分析人群的情感倾向，为后续政策或法规完善提供依据；热点事件爆发后，相关职能部门或公共服务部门需要利用社交网络数据分析人群的态度倾向，进而为舆论正确引导提供技术支撑。因此，利用海量社交网络数据开展情感分析技术研究具有重要意义。

当前，社交网络数据呈现出以下两个特点：一是文本简短，以Weibo、Twitter为代表的社交网络平台，单条博文的字数有限，提高了分析挖掘的难度。二是文本中大量使用表情符号，一方面表情符号对文本内容语义具有补充、增强等作用，另一方面表情符号增加了语言的生动性。基于社交网络数据的上述特点，采用传统的文本分析方法对社交网络数据进行情感分析时，得到的情感分析结果的准确性较低。

发明内容

本申请实施例提供一种文本情感识别方法、装置、存储介质及电子设备，可以有效提升情感分析的准确率。

为达到上述目的，本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供文本情感识别方法，包括：

获取针对指定事件的目标数据信息；所述目标数据信息中包括文本数据和表情符号；

分别确定所述文本数据的各个目标分词的词向量和所述表情符号的表情词向量；

结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别。

在一种可选的实施例中，确定所述文本数据的各个目标分词的词向量，包括：

对所述文本数据进行分词处理，根据得到的分词确定文本数据的各个目标分词；

采用词向量模型将各个目标分词转换为词向量。

在一种可选的实施例中，所述根据得到的分词确定文本数据的各个目标分词，包括：

去除得到的分词中的停用词，将剩余的分词作为目标分词；或者，

根据得到的每个分词在所述文本数据中的重要度，去除部分分词，将剩余的分词作为目标分词；

若得到的目标分词少于设定数量，采用目标分词的同义词将目标分词扩充至设定数量。

在一种可选的实施例中，确定所述表情符号的表情词向量，包括：

获取所述表情符号对应的语义关键词以及各个语义关键词对应的权重；

根据各个语义关键词对应的权重，将各个语义关键词的词向量进行加权求和，得到所述表情符号的表情词向量。

在一种可选的实施例中，结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别，包括：

将各个目标分词的词向量和所述表情符号的表情词向量进行融合，得到所述目标数据信息对应的特征矩阵；

根据所述目标数据信息对应的特征矩阵，确定所述目标数据信息所属的情感类别。

将各个目标分词的词向量和所述表情符号的表情词向量输入已训练的卷积神经网络模型，得到所述卷积神经网络模型输出的所述目标数据信息所属的情感类别；所述卷积神经网络模型包括输入层、卷积层、池化层和全连接层，所述输入层用于将各个目标分词的词向量和所述表情符号的表情词向量进行融合，得到所述目标数据信息对应的特征矩阵，所述卷积层用于对得到的特征矩阵进行特征提取，得到特征图，所述池化层用于对得到的特征图进行池化处理，得到优化特征图，所述全连接层用于根据所述优化特征图确定所述目标数据信息所属的情感类别。

在一种可选的实施例中，所述卷积神经网络模型的训练过程，包括：

获取针对指定事件的训练数据集，所述训练数据集中包括多个样本数据信息，每个样本数据信息均包括样本文本数据和样本表情符号，且每个样本数据信息具有预先标注的情感类别标签；

从所述训练数据集中抽取样本数据信息，分别确定抽取的样本数据信息的样本文本数据中的各个样本分词的词向量和样本表情符号的表情词向量；

将各个样本分词的词向量和样本表情符号的表情词向量输入待训练的卷积神经网络模型，得到卷积神经网络模型输出的样本数据信息所属的情感类别；

根据样本数据信息所属的情感类别与预先标注的样本数据信息的情感类别标签，确定损失值；

根据损失值对卷积神经网络模型的参数进行调整，直至所述损失值收敛至预设的期望值为止，得到已训练的卷积神经网络模型。

第二方面，本申请实施例提供一种文本情感分析装置，包括：

信息获取单元，用于获取针对指定事件的目标数据信息；所述目标数据信息中包括文本数据和表情符号；

信息处理单元，用于分别确定所述文本数据的各个目标分词的词向量和所述表情符号的表情词向量；

情感类别确定单元，用于结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别。

在一种可选的实施例中，所述信息处理单元，具体用于：

采用词向量模型将各个目标分词转换为词向量。

在一种可选的实施例中，所述信息处理单元，具体用于：

在一种可选的实施例中，所述情感类别确定单元，具体用于：

在一种可选的实施例中，所述装置还模型训练单元，用于：

第三方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面的文本情感识别方法。

第四方面，本申请实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现第一方面的文本情感识别方法。

本申请实施例的文本情感识别方法、装置、存储介质及电子设备，在获取针对指定事件的目标数据信息之后，分别确定目标数据信息的文本数据的各个目标分词的词向量和表情符号的表情词向量，结合各个目标分词的词向量和表情符号的表情词向量，确定目标数据信息所属的情感类别，可以有效提升情感分析的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本情感识别方法的流程示意图；

图2为本申请实施例提供的一种确定文本数据的词向量的流程示意图；

图3为本申请实施例提供的一种确定表情符号的表情词向量的流程示意图；

图4为本申请实施例提供的一种卷积神经网络模型的结构示意图；

图5为本申请实施例提供的一种卷积神经网络模型的训练过程的流程示意图；

图6为本申请实施例提供的一种文本情感识别装置的结构示意图

图7为本申请实施例提供的另一种文本情感识别装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“包括”和“具有”以及它们的变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，社交网络已经成为人们日常生活必不可少的工具。根据Wearsorcial和Hootsuite两个流量统计网站发布的《2019全球数字报告》，截止2019年1月，全球社交媒体的用户数量超过34亿，约占全球人口的45％，相较于2018年，社交媒体用户增加了2.88亿，用户平均每天使用社交媒体的时间是2小时16分，平均每个人有8.9个社交媒体账号。

随着社交网络的快速发展，越来越多的人通过社交网络对社会事件、产品、服务等发表评论、表达观点。在实际应用中，新产品或服务上线后，商家需要利用社交网络数据分析用户的喜好和态度，进而判断产品或服务的优劣并进行改进；新政策或法规颁布后，政府部门需要利用社交网络数据分析人群的情感倾向，为后续政策或法规完善提供依据；热点事件爆发后，相关部门或公共服务部门需要利用社交网络数据分析人群的态度倾向，进而为舆论正确引导提供技术支撑。因此，利用海量社交网络数据开展情感分析技术研究具有重要意义。

当前，社交网络数据呈现出以下两个特点：一是文本简短，以Weibo、Twitter为代表的社交网络平台，单条博文的字数有限，提高了分析挖掘的难度。二是文本中大量使用表情符号，一方面表情符号对文本内容语义具有补充、增强等作用，另一方面表情符号增加了语言的生动性。

而传统的针对社交网络文本的情感分析技术往往只关注文本内容表达的情感倾向，而忽略评论信息在的表情符号所表达的情感。本申请的发明人发现，表情符号包含的语义信息对短文本情感分析具有重要影响，将表情符号与传统文本分析方法进行融合，能够有效提升情感分析的准确率。

基于此，本申请实施例提出了一种文本情感识别方法、装置、存储介质和电子设备，在获取针对指定事件的目标数据信息之后，分别确定目标数据信息的文本数据的各个目标分词的词向量和表情符号的表情词向量，结合各个目标分词的词向量和表情符号的表情词向量，确定目标数据信息所属的情感类别，可以有效提升情感分析的准确率。本申请实施例能够适应于不同主题下的情感分析场景。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例涉及人工智能(Artificial Intelligence,AI)技术，基于人工智能中的自然语言处理(natural language processing，NLP)技术和机器学习(MachineLearning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、语音处理技术(Speech Technology)以及机器学习/深度学习等几大方向。

自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例涉及文本处理技术。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并行执行。

图1示出了本申请实施例提供的一种文本情感识别方法，该方法可以由服务器执行，也可以由终端设备或其它电子设备执行。如图1所示，该文本情感识别方法包括如下步骤：

步骤S101，获取针对指定事件的目标数据信息。

其中，目标数据信息中包括文本数据和表情符号。指定事件可以是用户指定的社会热门事件或商品上市事件等。获取的目标数据信息可以是一个或多个，当获取多个目标数据信息时，需要确定每个目标数据信息所属的情感类别。

示例性地，在一些实施例中，可以通过社交网络平台搜索针对指定事件的评论数据，将搜索到的评论数据作为目标数据信息。

为了从社交网络中获得数据，首先分析网络平台的限制性策略，例如平台每分钟的最大页面访问次数、每天的最大页面访问总量、任意两次访问之间的最小间隔、同一IP下可登录的用户数量等；其次选择采用API、Web逆向、Selenium等任一种方式登录社交平台；再次，使用社交平台的搜索功能，获得特定事件的评论数据，使用正则表达式解析网页数据并提取文本信息；最后，将获得的文本内容、时间等结构化数据保存至文本文件或数据库。

步骤S102，分别确定文本数据的各个目标分词的词向量和表情符号的表情词向量。

对于目标数据信息中的文本数据，对文本数据进行分词处理，根据得到的分词确定文本数据的各个目标分词，采用词向量模型将各个目标分词转换为词向量。

在一种实施例中，对文本数据进行分词处理之后，可以去除得到的分词中的停用词，将剩余的分词作为目标分词。若得到的目标分词少于设定数量，采用目标分词的同义词将目标分词扩充至设定数量，采用词向量模型将各个目标分词转换为词向量。

在另一种实施例中，对文本数据进行分词处理之后，根据得到的每个分词在文本数据中的重要度，去除部分分词，将剩余的分词作为目标分词。若得到的目标分词少于设定数量，采用目标分词的同义词将目标分词扩充至设定数量，采用词向量模型将各个目标分词转换为词向量。词向量也可以称为词向量特征，用于描述自然语言文本所包括的词语的语义特征，通常是指对自然语言表示的词语进行向量转换得到的机器能够理解的稠密向量(Dense Vector)或矩阵形式，词向量是自然语言文本中的词语在机器中数值化的体现。通过词向量可以体现词语的情感特征。

在另一种实施例中，首先，可以采用N-gram模型对文本数据进行分词处理；其次，利用停用词列表去除文本数据中的噪声词，以及文本数据中的数字、非中文符号等；再次，采用TFIDF值对分词的重要性进行排序，获得文本数据中的Top-K词语，若文本数据中的目标分词不足K个，则使用同义词列表进行扩充；最后，采用词向量模型将每个Top-K词语转换为n维向量。

目标数据信息可能包括一个或多个表情符号。对于目标数据信息中的每个表情符号，可以获取表情符号对应的语义关键词以及各个语义关键词对应的权重，根据各个语义关键词对应的权重，将各个语义关键词的词向量进行加权求和，得到表情符号的表情词向量。

表情符号对应的语义关键词用于文本中出现的表情符号进行语义描述，该语义描述使根据人的理解作出的。一个表情符号可以对应多个语义关键词，例如[捂脸]表情符号的各个语义关键词及其对应的权重为：<尴尬，0.3>、<悲伤,0.3>、<交流障碍,0.2>、<嘲笑，0.1>、<不好意思，0.1>，其中数字表示权重信息，来自于统计分析结果。将表情符号的各个语义关键词进行词向量表示，再最后将各个语义描述的词向量与其权重进行加权求和结果，作为表情符号的表情词向量。

步骤S103，结合各个目标分词的词向量和表情符号的表情词向量，确定目标数据信息所属的情感类别。

在一种实施例中，可以将各个目标分词的词向量和表情符号的表情词向量进行融合，得到目标数据信息对应的特征矩阵，根据目标数据信息对应的特征矩阵，确定目标数据信息所属的情感类别。

上述方法在获取针对指定事件的目标数据信息之后，分别确定目标数据信息的文本数据的各个目标分词的词向量和表情符号的表情词向量，结合各个目标分词的词向量和表情符号的表情词向量，确定目标数据信息所属的情感类别，可以有效提升情感分析的准确率。

在一种实施例中，可以采用如下方式获取针对指定事件的目标数据信息，包括模拟登陆、页面爬取、防反爬等多个环节。

1.1)模拟登陆。该过程中主要是将用户名和密码以POST的形式发送给服务器进行验证，实现过程中，可采用微博API、Selenium模拟浏览器以及Web协议解析三种方式完成。另外，对于普通图形验证码，主要使用机器学习、深度学习进行模型训练，另外也可以采用打码平台进行验证。

1.2)页面爬取。网页内容根据渲染主体的不同可分为服务端渲染和客户端渲染。服务端渲染的有效信息包含在请求的HTML页面里面，可采用GET或POST方式提交表单并获得页面内容；客户端渲染是指页面前端主要内容由JavaScript渲染而成，业务数据通过Ajax接口等形式从后端服务器获取，可采用寻找Ajax接口、提取Javascript数据、模拟浏览器动作以及模拟执行Javascript代码等方式获得所需数据。

1.3)防反爬措施。由于绝大多数网站都设置了反爬措施，因此需要相应的防反爬机制以避免账号被封杀。反爬措施具体包括两个方面：一是非浏览器检测，该检测主要对HTTP头部进行检测，包括User-Agent，Cookie和Referer，为此可使用浏览器开发者工具获得正常登陆后的HTTP头部信息，并将其写入到构造的请求中。二是用户访问频繁检测，该检测主要针对频繁访问请求封锁用户账号，为此，可采用使用服务商API、控制访问频率、使用多个账号等方式提高爬虫的稳定性。

在一种实施例中，上述步骤S102中，可以采用图2所示的方法确定文本数据的各个目标分词的词向量，包括如下步骤：

步骤S201，对文本数据进行分词处理。

例如，可以采用结巴分词库，对输入的文本进行分词，结合N-Gram模型和隐马尔可夫模型获得文本数据的分词结构。

步骤S202，去除得到的分词中的停用词。

停用词是指对文本分类几乎没有作用的词，例如“是”、“的”、“这个”、“之”、“一个”等。因此可以将这些停用词去掉。

步骤S203，根据去除停用词后的各个分词在文本数据中的重要度，去除部分分词，将剩余的分词作为目标分词。

分词在文本数据中的重要度可以采用TFIDF值表示。TFIDF是一种对分词重要性进行排序的方法，其基本原理是如果一个词在同一篇文档中经常出现，同时在不同文档中不经常出现，则认为该词在该文档中很重要。通过TFIDF操作，能够获得文本数据中相对重要的词，而不考虑文本数据中不重要的词。

例如，对于目标文本数据中的第i个分词，其TFIDF值可以通过如下过程确定。首先，确定第i个分词的TF值tf_i：

其中，n_ij为第i个分词在目标文本数据中出现的次数；∑_kn_k,j是目标文本数据中所有分词出现的次数的总和。

其次，确定第i个分词的IDF值idf_i：

其中，|D|是保存的数据库中文本数据的数量；

|{j：t_i∈dj}|表示保存的数据库中包含第i个分词的文本数据的数量。

第i个分词的TFIDF值可以表示为：TFIDF＝tf_i*idf_i。

步骤S204，采用目标分词的同义词将目标分词扩充至设定数量。

社交网络中大量的是短文本，如果文本内容过少，则需要对其长度进行扩充以满足后续模型输入的需要。例如，设定数量可以是K个，如果文本数据中的目标分词不足K个，可以采用词向量模型，根据目标分词的重要性赋予相应的概率扩展相应的同义词，采用目标分词的同义词将目标分词扩充至K个。

步骤S205，采用词向量模型将各个目标分词转换为词向量。

对于文本数据中的各个目标分词，使用Word2Vec模型获得各个词的词向量表示。Word2Vec模型是Google的开源词向量模型，其可以利用文本数据中各个词语间的语义关系将词语转化为词向量。

在一种实施例中，上述步骤S102中，可以采用图3所示的方法确定表情符号的表情词向量，包括如下步骤：

步骤S301，获取表情符号对应的语义关键词以及各个语义关键词对应的权重。

目标数据信息可能包括一个或多个表情符号。在目标数据信息中，表情符号表现为[]，例如，[捂脸]、[微笑]等。只要目标数据信息中包含[]，说明目标数据信息中包括表情符号。每个表情符号对应的语义关键词以及各个语义关键词对应的权重，可以预先统计好保存在表情数据库中。

示例性地，可以用一个或几个语义关键词描述表情符号的含义。例如，[捂脸]表情符对应了“尴尬”、“悲伤”、“交流障碍”、“嘲笑”、“不好意思”等多种含义；[微笑]表情符对应了“高兴”、“喜欢”、“满意”、“再见”等多个含义。

每个表情符的语义关键词在具体使用中其表达的频率可能是不均等的，例如，[捂脸]表情符在表示“尴尬”、“悲伤”、“交流障碍”时较为频繁，而较少表示为“嘲笑”、“不好意思”。[微笑]表情符在表示“满意”、“再见”时较为频繁，而较少表示为“高兴”、“喜欢”。拟采用统计分析的方式，从表数据库中统计同一种表情符的不同语义关键词的次数，进而获得其对应的权重。

步骤S302，根据各个语义关键词对应的权重，将各个语义关键词的词向量进行加权求和，得到表情符号的表情词向量。

可以采用Word2Vec方法将同一表情符号对应的各个语义关键词转换为词向量，然后根据各个语义关键词对应的权重，将各个语义关键词的词向量进行加权求和，得到该表情符号的表情词向量。

得到文本数据的各个目标分词的词向量和表情符号的表情词向量之后，可以将各个目标分词的词向量和表情符号的表情词向量输入已训练的卷积神经网络模型，得到卷积神经网络模型输出的目标数据信息所属的情感类别。

其中，卷积神经网络模型的结构可以如图4所示，包括输入层、卷积层、池化层、全连接层和输出层。

输入层用于将各个目标分词的词向量和表情符号的表情词向量进行融合，得到目标数据信息对应的特征矩阵。例如，步骤S102中得到的K个目标分词的词向量均为n维向量，一个表情符号的表情词向量也为n维向量，则将K个目标分词的词向量和一个表情符号的表情词向量进行拼接后，得到的目标数据信息对应的特征矩阵为(K+1)*n维特征矩阵。

卷积层用于对得到的特征矩阵进行特征提取，得到特征图。例如，可以使用滑动步长不同的多个卷积层抽取特征矩阵的局部特征，得到特征图。

池化层用于对得到的特征图进行池化处理，得到优化特征图。示例性的，池化层可以采用最大池化(Max-Pooling)层，经过池化层得到的优化特征图为特征矩阵的降维表示。

全连接层用于根据优化特征图确定目标数据信息属于设定的各个情感类别的概率。全连接层可以采用分类器，在一些实施例中，设定的情感类别可以分为两类，如正向和负向，对应地，全连接层可以采用二分类器；在另一些实施例中，设定的情感类别可以分为三类，如正向、中性和负向。全连接层可以采用softmax分类器进行正向、中性、负向的三分类。在另外的实施例中，数据信息的情感类别也可以多于三类，本申请实施例对此不作限制。

输出层用于根据全连接层输出的概率确定目标数据信息所属的情感类别。

在一些实施例中，全连接层和输出层也可以合为一个层，用于根据优化特征图确定目标数据信息所属的情感类别。

可选地，如果获取多个目标数据信息，可以统计属于每个情感类别的目标数据信息的数量，进而确定每个情感类别对应的数据信息所占的比例，以确定大部分网络用户对于该指定事件的情感倾向。可以将统计结果显示给用户，或者，根据统计结果生成对该指定事件的处理建议。

综上，实现本实施例的关键方法是对表情符号进行了合理的向量化表达。根据该方法，能够有效提高情感分类的准确率，对于舆情监控、商品和服务的质量反馈等实际业务应用有较好的指导意义。

示例性地，上述卷积神经网络模型的训练过程可以如图5所示，包括如下步骤：

步骤S501，获取针对指定事件的训练数据集。

其中，训练数据集中包括多个样本数据信息，每个样本数据信息均包括样本文本数据和样本表情符号，且每个样本数据信息具有预先标注的情感类别标签。

具体地，可以从社交网络中获得样本数据信息，并对样本数据信息进行标注，标注每个样本数据信息对应的情感类别，例如，情感类别可以分为正向、中性和负向的三类，将标注后的样本数据信息组成训练数据集。

步骤S502，从训练数据集中抽取样本数据信息。

步骤S503，分别确定抽取的样本数据信息的样本文本数据中的各个样本分词的词向量和样本表情符号的表情词向量。

样本文本数据中的各个样本分词的词向量和样本表情符号的表情词向量的确定过程可以参照上述各个目标分词的词向量和表情符号的表情词向量的确定过程执行，在此不再赘述。

步骤S504，将各个样本分词的词向量和样本表情符号的表情词向量输入待训练的卷积神经网络模型，得到卷积神经网络模型输出的样本数据信息所属的情感类别。

步骤S505，根据样本数据信息所属的情感类别与预先标注的样本数据信息的情感类别标签，确定损失值；

计算损失值时，可以采用预设的损失函数计算损失值，损失函数可以采用交叉熵损失函数，例如Sigmoid函数。通常，损失值是判定实际的输出与期望的输出的接近程度。损失值越小，说明实际的输出越接近期望的输出。

步骤S506，判断损失值是否收敛；如果是，执行步骤S508；如果否，执行步骤S507。

判断损失值是否收敛至预设的期望值，如果损失值小于或等于预设的期望值，或者，连续N次训练得到的损失值的变化幅度小于或等于预设的期望值时，认为损失值已收敛至预设的期望值，说明损失值收敛；否则，说明损失值尚未收敛。

步骤S507，根据损失值对卷积神经网络模型的参数进行调整。

如果损失值尚未收敛，可以采用反向传播算法，根据损失值调整卷积神经网络模型的参数，然后返回步骤S502继续抽取样本数据信息对卷积神经网络模型进行训练。

步骤S508，将当前参数作为卷积神经网络模型的参数，获得已训练的卷积神经网络模型。

本申请实施例提供的文本情感分析方法，能够适应于不同主题下的情感分析场景、模型精度高、用户可根据训练集灵活定制开发。

基于同一发明构思，本申请实施例中还提供了一种文本情感分析装置，该文本情感分析装置可以设置在服务器或终端设备中。由于该装置是本申请实施例文本情感识别方法对应的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

图6示出了本申请实施例提供的一种文本情感分析装置的结构示意图，如图6所示，该文本情感分析装置包括信息获取单元61、信息处理单元62和情感类别确定单元63；其中，

信息获取单元61，用于获取针对指定事件的目标数据信息；所述目标数据信息中包括文本数据和表情符号；

信息处理单元62，用于分别确定所述文本数据的各个目标分词的词向量和所述表情符号的表情词向量；

情感类别确定单元63，用于结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别。

在一种可选的实施例中，所述信息处理单元62，具体用于：

采用词向量模型将各个目标分词转换为词向量。

在一种可选的实施例中，所述信息处理单元62，具体用于：

在一种可选的实施例中，所述情感类别确定单元63，具体用于：

在一种可选的实施例中，如图7所示，上述装置还模型训练单元71，用于：

与上述方法实施例相对应地，本申请实施例还提供了一种电子设备。该电子设备可以是服务器，也可以是计算机、平板电脑等终端设备，该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、GPU(Graphics Processing Unit，图形处理单元)、DSP或FPGA实现。对于存储器来说，存储器中存储有操作指令，该操作指令可以为计算机可执行代码，通过该操作指令来实现上述本申请实施例的文本情感识别方法的流程中的各个步骤。

图8为本申请实施例提供的一种电子设备的结构示意图；如图8所示，本申请实施例中该电子设备100包括：处理器101、显示器102、存储器103、输入设备106、总线105和通讯模块104；该处理器101、存储器103、输入设备106、显示器102和通讯模块104均通过总线105连接，该总线105用于该处理器101、存储器103、显示器102、通讯模块104和输入设备106之间传输数据。

其中，存储器103可用于存储软件程序以及模块，如本申请实施例中的文本情感识别方法对应的程序指令/模块，处理器101通过运行存储在存储器103中的软件程序以及模块，从而执行电子设备100的各种功能应用以及数据处理，如本申请实施例提供的文本情感识别方法。存储器103可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个应用的应用程序等；存储数据区可存储根据电子设备100的使用所创建的数据(比如对话数据集)等。此外，存储器103可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器101是电子设备100的控制中心，利用总线105以及各种接口和线路连接整个电子设备100的各个部分，通过运行或执行存储在存储器103内的软件程序和/或模块，以及调用存储在存储器103内的数据，执行电子设备100的各种功能和处理数据。可选的，处理器101可包括一个或多个处理单元，如CPU、GPU、数字处理单元等。

处理器101可以将数据信息的处理结果通过显示器102展示给用户。

处理器101还可以通过通讯模块104连接网络，获取目标数据信息及训练数据等。

输入设备106主要用于获得用户的输入操作，当该电子设备不同时，该输入设备106也可能不同。例如，当该电子设备为计算机时，该输入设备106可以为鼠标、键盘等输入设备；当该电子设备为智能手机、平板电脑等便携设备时，该输入设备106可以为触控屏。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于实现本申请任一实施例所记载的文本情感识别方法。

在一些可能的实施方式中，本申请提供的文本情感识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本情感识别方法的步骤，例如，所述计算机设备可以执行如图1所示的步骤S101～S103的文本情感识别方法的流程。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种文本情感识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述文本数据的各个目标分词的词向量，包括：

采用词向量模型将各个目标分词转换为词向量。

3.根据权利要求2所述的方法，其特征在于，所述根据得到的分词确定文本数据的各个目标分词，包括：

4.根据权利要求1所述的方法，其特征在于，确定所述表情符号的表情词向量，包括：

5.根据权利要求1所述的方法，其特征在于，结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别，包括：

6.根据权利要求1所述的方法，其特征在于，结合各个目标分词的词向量和所述表情符号的表情词向量，确定所述目标数据信息所属的情感类别，包括：

7.根据权利要求6所述的方法，其特征在于，所述卷积神经网络模型的训练过程，包括：

8.一种文本情感分析装置，其特征在于，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～7中任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～7中任一项所述的方法。