CN111241271A - 文本情感分类方法、装置及电子设备 - Google Patents
文本情感分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111241271A CN111241271A CN201811349331.0A CN201811349331A CN111241271A CN 111241271 A CN111241271 A CN 111241271A CN 201811349331 A CN201811349331 A CN 201811349331A CN 111241271 A CN111241271 A CN 111241271A
- Authority
- CN
- China
- Prior art keywords
- sentence
- target text
- vector
- training sample
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本情感分类方法、装置及电子设备,涉及人工智能技术领域,该方法包括:获取待分类的目标文本和目标文本的句向量矩阵;根据目标文本的句子参数确定目标文本的超参数值;根据目标文本的句向量矩阵和超参数值,提取目标文本的特征向量;根据目标文本的特征向量和预先训练好的分类器,确定目标文本的情感类别。通过目标文本的句子参数来确定超参数值,超参数的选择更加灵活和合理,这样既可以提取到句子的关键信息,又不会丢失句子中词之间的关联信息,因此提高了情感分类结果的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种文本情感分类方法、装置及电子设备。
背景技术
目前,情感分析作为人工智能的一个热门前沿的研究领域,近几年来成为了研究者关注的研究热点。情感分析方法有多种,基于深度学习的分类方法,传统的支持向量机、朴素贝叶斯的分类方法、基于句法分析的方法和卷积神经网络分析方法等,这些方法都可以实现情感分析,但都存在缺陷,很多情况下无法获得深层和隐含的语义。
现有技术中,语料库的规模很有限,一词多义在不同的领域甚至在相同的领域,同样的单词在不同的语境下可以表达出不同的观点。在评价词语的抽取与判别任务时,大量的研究局限于词本身来识别词的主客观性以及褒贬性,而忽视了词语所在语境的影响。
因此,现有的文本情感分类方法存在准确性低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种文本情感分类方法、装置及电子设备,以提高情感分类结果的准确性。
第一方面,本发明实施例提供了一种文本情感分类方法,包括:
获取待分类的目标文本和所述目标文本的句向量矩阵;
根据所述目标文本的句子参数确定所述目标文本的超参数值;
根据所述目标文本的句向量矩阵和超参数值,提取所述目标文本的特征向量;
根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,获取所述目标文本的句向量矩阵,包括:
根据预先训练好的词向量模型获取所述目标文本的每个句子中每个词的初始词向量;
根据预先训练好的逻辑回归模型获取每个所述初始词向量的情感得分;
根据每个所述初始词向量的情感得分确定对应词的最终词向量;
将所述目标文本的各个所述最终词向量排列组合得到所述目标文本的句向量矩阵。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述目标文本的句子参数确定所述目标文本的超参数值,包括:
从所述目标文本的句子参数中选取目标参数,所述目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;
采用预设的超参数计算规则,计算得到所述目标参数对应的超参数值。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述超参数计算规则包括:将句子长度的平均数与句子中的词语长度的平均数的比值或句子中的词语个数的众数作为超参数值;或者,根据以下公式计算超参数值h:
其中,max(S)表示最大句子长度,min(S)表示最小句子长度,max(N)表示最大词语个数,min(N)表示最小词语个数。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别,包括:
将所述目标文本的特征向量输入所述分类器进行处理,得到所述目标文本属于各个情感类别的概率值;
将所述概率值中的最大概率值对应的情感类别确定为所述目标文本的情感类别。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述分类器通过以下方式训练:
获取训练样本和所述训练样本的句向量矩阵;其中,所述训练样本包括多个正向情感的训练文本和多个负向情感的训练文本;
根据所述训练样本的句子参数确定所述训练样本的超参数值;
根据所述训练样本的句向量矩阵和超参数值,提取所述训练样本的特征向量;
利用所述训练样本的特征向量和所述训练样本所属的情感类别训练得到所述分类器。
第二方面,本发明实施例还提供一种文本情感分类装置,包括:
获取模块,用于获取待分类的目标文本和所述目标文本的句向量矩阵;
确定模块,用于根据所述目标文本的句子参数确定所述目标文本的超参数值;
提取模块,用于根据所述目标文本的句向量矩阵和超参数值,提取所述目标文本的特征向量;
分类模块,用于根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述确定模块具体用于:
从所述目标文本的句子参数中选取目标参数,所述目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;
采用预设的超参数计算规则,计算得到所述目标参数对应的超参数值。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述装置还包括训练模块,用于:
获取训练样本和所述训练样本的句向量矩阵;其中,所述训练样本包括多个正向情感的训练文本和多个负向情感的训练文本;
根据所述训练样本的句子参数确定所述训练样本的超参数值;
根据所述训练样本的句向量矩阵和超参数值,提取所述训练样本的特征向量;
利用所述训练样本的特征向量和所述训练样本所属的情感类别训练得到所述分类器。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或其任一种可能的实施方式所述的方法。
本发明实施例带来了以下有益效果:
本发明实施例中,获取待分类的目标文本和目标文本的句向量矩阵;根据目标文本的句子参数确定目标文本的超参数值;根据目标文本的句向量矩阵和超参数值,提取目标文本的特征向量;根据目标文本的特征向量和预先训练好的分类器,确定目标文本的情感类别。通过目标文本的句子参数来确定超参数值,超参数的选择更加灵活和合理,这样既可以提取到句子的关键信息,又不会丢失句子中词之间的关联信息,因此提高了情感分类结果的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本情感分类方法的流程示意图;
图2为本发明实施例提供的一种训练分类器的流程示意图;
图3为本发明实施例提供的一种情感分类模型的结构示意图;
图4为本发明实施例提供的一种文本情感分类装置的结构示意图;
图5为本发明实施例提供的另一种文本情感分类装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
CNN(Convoltional Neural Networks,卷积神经网络)较传统的神经网络最大的不同是拥有卷积层用于抽取局部关键特征、池化层来进行数据降维,应用CNN的条件一般要求卷积对象拥有局部相关性,文本是符合这个条件的。卷积的过程实际上是一种模式匹配的过程,在CV(Computer Version,计算机视觉)领域的人脸识别中一个卷积核匹配的可能是眼镜或者鼻子等局部重要部位。对于NLP(Natural Language Processing,自然语言处理)的文本分类任务的情感倾向分类,情感通常是由一些关键词来决定的。那么卷积核匹配的则是特定的关键词或关键短语,后面提取出来的特征实际上就是表示句子中是否出现过这样的关键词或者关键短语,这样的特征信息对文本分类任务自然是非常有用的。所以NLP的分类任务中也可尝试使用CNN来设定“窗口”的方式实现。
结果准确率影响最大的是窗口超参数的设置。若超参数h选的太大,卷积窗口内包含的词语太多,则提取不到句子的关键信息;当卷积窗口滑动到句子边缘时也可能因句子长度不够,需要用零填充或舍弃,造成特征表达不够准确。若超参数h选择的太小,卷积窗口内包含的词语太少,可能会丢失句子中词之间的关联信息,进而影响句子整体情感倾向的判断。基于此,本发明实施例提供的一种文本情感分类方法、装置及电子设备,通过设置合理的超参数值,可以提高情感分类结果的准确性。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本情感分类方法进行详细介绍。
实施例一:
图1为本发明实施例提供的一种文本情感分类方法的流程示意图,如图1所示,该方法包括以下几个步骤:
步骤S102,获取待分类的目标文本和目标文本的句向量矩阵。
将目标文本中的每个句子转换为句向量矩阵,该过程可以利用用于产生词向量的相关模型诸如Word2Vec进行。
在一些可能的实施例中,上述句向量矩阵中包括词的情感信息,这样可以增加文本情感分析的准确率。获取该句向量矩阵的过程如下:根据预先训练好的词向量模型获取目标文本的每个句子中每个词的初始词向量;根据预先训练好的逻辑回归模型获取每个初始词向量的情感得分;根据每个初始词向量的情感得分确定对应词的最终词向量;将目标文本的各个最终词向量排列组合得到目标文本的句向量矩阵。
在一种可能的实现方式中,情感类别包括正向情感和负向情感,获取句向量矩阵的具体过程如下:a.用Word2Vec中的skip-gram模型训练语料库,得到相应的词向量模型,进而得出句子中每个词的初始词向量W1;b.构建正向负向两个情感词典,用训练好的词向量模型表示词典中各个词的词向量Xi,根据已有的情感词和其所属类别(以正向情感表示为1,负向情感表示为0为例)训练一个逻辑回归模型;c.将句子对应的词向量带入逻辑回归模型,取逻辑函数压缩后的概率值为词的情感倾向得分,即词的负向情感强度越重得分越接近于0,反之越接近于1,中性词在0.5附近;d.最终词向量W=每个词的初始词向量W1*对应词的情感得分,各个最终词向量再排列组合成句子的句向量矩阵。
步骤S104,根据目标文本的句子参数确定目标文本的超参数值。
超参数是卷积神经网络中卷积核的高度,其值决定卷积窗口的大小。本实施例中的超参数值与目标文本的句子参数有关,句子参数包括句子长度、句子中的词语长度和词语个数等,其中,句子长度为分好词的词向量的维度,句子中的词语长度为句子的字数。
基于此,上述步骤S104具体包括:从目标文本的句子参数中选取目标参数,目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;采用预设的超参数计算规则,计算得到目标参数对应的超参数值。
在一些可能的实施例中,在超参数h选择时主要考虑句子长度S、句子中的词语长度F和词语个数N,本实施例提供了三种超参数h的计算方法(即超参数计算规则),分别如下:
(1)文本中句子长度的平均数/句子中的词语长度的平均数
其中,n为文本中句子的个数,si为编号为i的句子的句子长度,Fi为编号为i的句子中的词语长度。
(2)句子中的词语个数的众数
其中,U表示众数所在组的精确上限,Fa为与众数组下限相邻的频数,Fb为与众数组上限相邻的频数,i为组距。
(3)((最大句子长度/最大词语个数)+(最小句子长度/最小词语个数))/2
其中,max(S)表示最大句子长度,min(S)表示最小句子长度,max(N)表示最大词语个数,min(N)表示最小词语个数。
基于此,上述超参数计算规则包括:将句子长度的平均数与句子中的词语长度的平均数的比值或句子中的词语个数的众数作为超参数值;或者,根据以下公式计算超参数值h:
其中,max(S)表示最大句子长度,min(S)表示最小句子长度,max(N)表示最大词语个数,min(N)表示最小词语个数。
在选择超参数计算规则时,可以从上述三种超参数计算规则中任选一种。为了提取丰富的特征,提高结果的准确性,也可以利用传统的训练算法,将三种超参数计算规则计算出的不同h分别训练出模型,并分别在多个测试集上测试,求出每个模型在多个测试集上的准确率平均值,选取平均准确率最高对应的超参数计算规则。
步骤S106,根据目标文本的句向量矩阵和上述超参数值,提取目标文本的特征向量。
具体地,可以基于上述计算得到的超参数值,采用现有的卷积和池化等操作对目标文本的句向量矩阵进行处理,生成目标文本的特征向量。
步骤S108,根据目标文本的特征向量和预先训练好的分类器,确定目标文本的情感类别。
情感类别可以包括正向情感和负向情感,也可以包括其他情感,这里不做限定,本实施例中主要以正向情感和负向情感为例进行说明。
在一些可能的实施例中,将目标文本的特征向量输入预先训练好的分类器进行处理,得到目标文本属于各个情感类别的概率值;将这些概率值中的最大概率值对应的情感类别确定为目标文本的情感类别。
本发明实施例中,超参数的选择灵活,既可以提取到句子的关键信息,又不会丢失句子中词之间的关联信息,实现了窗口设定的最大准确性,通过CNN技术的引入准确实现了文本的情感倾向分析,可以避免以下情况下文本情感分析不准确的发生:一词多义在不同的领域甚至在相同的领域,同样的单词在不同的语境下可以表达出不同的观点;主观性文本在书写时具有随意性、口语化,甚至会频繁出现非规范的网络用语,遣词造句没有约束,短文和用语不规范;另外一些用户出于某种目的(通常情况是,通过增强或者诋毁目标实体的声誉,以达到广告促销、错误舆论导向的目的,例如“网络水军”的灌水帖)所撰写伪造的、不真实的意见信息等情况。该方法不仅可以实现对某一评价对象的情感倾向性,而且可以实现对某一句子或篇章的情感倾向性分析。
图2为本发明实施例提供的一种训练分类器的流程示意图,如图2所示,通过以下方式训练分类器:
步骤S202,获取训练样本和训练样本的句向量矩阵;其中,训练样本包括多个正向情感的训练文本和多个负向情感的训练文本。
获取训练样本的句向量矩阵的具体过程可以参照前述步骤S102的对应内容,这里不再赘述。
步骤S204,根据训练样本的句子参数确定训练样本的超参数值。
具体过程可以参照前述步骤S104的对应内容,这里不再赘述。
步骤S206,根据训练样本的句向量矩阵和超参数值,提取训练样本的特征向量。
具体过程可以参照前述步骤S106的对应内容,这里不再赘述。
步骤S208,利用训练样本的特征向量和训练样本所属的情感类别训练得到分类器。
具体地,将同一训练样本的特征向量与情感类别对应起来,然后将训练样本的特征向量输入分类器中,可以但不限于采用神经网络分类算法对分类器进行参数调优,使得分类器获得较好的分类效果。
在一种可能的实现方式中,可以利用网络爬虫获取情感分析目标文本信息(待分类的目标文本),区块链存储系统将上述信息进行存储,数据处理系统从区块链存储系统中调取数据进行文本情感分类处理。
基于上述分类器的训练方法可以得到情感分类模型,图3为本发明实施例提供的一种情感分类模型的结构示意图,下面参照图3对目标文本的处理过程进行示例性具体说明。
第一列输入层:
输入层是将文本转换成句子中的词语对应的词向量W依次(从上到下)排列的s×d的矩阵,表示句子的向量(句向量矩阵)E。其中词向量在原有Word2Vec训练出来的向量中增加了词的情感倾向,使词向量不仅含有语义信息还有词的情感信息,增加了文本情感分析准确率。
第二、三列卷积层+激活层:
把句向量矩阵E可以看成是一幅长*宽的图像,使用卷积神经网络去提取特征。卷积核的宽度就是词向量的维度d,高度h是超参数值,即卷积窗口的大小,可以设置。由于句子中相邻的单词关联性总是很高的,尤其在情感分析中,词语在句子中出现的顺序及一些转折词和否定词会很大程度地影响原情感词的主观情感倾向,比如“我喜欢你”和“我不喜欢你”,一个“不”字两个句子的情感倾向就截然相反,所以选择合适的超参数值h,才能有效提取句子的信息,提高模型判定结果的准确性。h的选择可以按照上述公式(1)(2)(3)给出的方法进行计算。
具体地,将一个卷积核设定为一个宽度为d、高度为h的矩阵K,那么K有h*d个参数需要被更新。对于一个句子,经过输入层之后可以得到s×d维的矩阵E,E[i:j]表示E的第i行到第j行,那么卷积操作可以用如下公式表示:
Oi=k·E[i:i+h-1],i=1,2,···,(s-h)/L+1,
叠加上偏置b,再使用激活函数得到所需的特征,公式如下:Ci=f(Oi+b),那么一个卷积核,可以得到(s-h)/L+1个特征。
其中,K表示卷积窗口的大小,形状为h×d;
E表示句子的向量,形状为s×d;
L表示卷积窗口每次滑动的步长;
Oi表示卷积窗口中的词向量产生的特征;
Ci表示经过非线性变换后的特征,此特征更加接近现实。
第四列池化层:
不同尺寸的卷积核得到的初始特征大小也是不一样的,因此对每个初始特征使用池化函数,使它们的维度相同。这里采用1-max pooling,提取出初始特征的最大值,这样每一个卷积核得到特征就是一个值,对所有卷积核使用1-max pooling,再级联起来,得到最终的特征向量。
第五列全连接+softmax层:
将池化层输出的特征向量通过全连接的方式,连接到softmax层做分类,用softmax函数计算得到一个两维的向量,即正向负向情感对应的概率值,概率最大的即为对应的情感类别。
实施例二:
对应于上述实施例一的方法,本发明实施例还提供了一种文本情感分类装置。图4为本发明实施例提供的一种文本情感分类装置的结构示意图,如图4所示,该装置包括:
获取模块42,用于获取待分类的目标文本和目标文本的句向量矩阵;
确定模块44,用于根据目标文本的句子参数确定目标文本的超参数值;
提取模块46,用于根据目标文本的句向量矩阵和超参数值,提取目标文本的特征向量;
分类模块48,用于根据目标文本的特征向量和预先训练好的分类器,确定目标文本的情感类别。
可选地,上述获取模块42具体用于:根据预先训练好的词向量模型获取目标文本的每个句子中每个词的初始词向量;根据预先训练好的逻辑回归模型获取每个初始词向量的情感得分;根据每个初始词向量的情感得分确定对应词的最终词向量;将目标文本的各个最终词向量排列组合得到目标文本的句向量矩阵。
可选地,上述确定模块44具体用于:从目标文本的句子参数中选取目标参数,目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;采用预设的超参数计算规则,计算得到目标参数对应的超参数值。
可选地,上述超参数计算规则包括:将句子长度的平均数与句子中的词语长度的平均数的比值或句子中的词语个数的众数作为超参数值;或者,根据以下公式计算超参数值h:
其中,max(S)表示最大句子长度,min(S)表示最小句子长度,max(N)表示最大词语个数,min(N)表示最小词语个数。
可选地,上述分类模块48具体用于:将目标文本的特征向量输入分类器进行处理,得到目标文本属于各个情感类别的概率值;将该概率值中的最大概率值对应的情感类别确定为目标文本的情感类别。
本发明实施例中,获取待分类的目标文本和目标文本的句向量矩阵;根据目标文本的句子参数确定目标文本的超参数值;根据目标文本的句向量矩阵和超参数值,提取目标文本的特征向量;根据目标文本的特征向量和预先训练好的分类器,确定目标文本的情感类别。通过目标文本的句子参数来确定超参数值,超参数的选择更加灵活和合理,这样既可以提取到句子的关键信息,又不会丢失句子中词之间的关联信息,因此提高了情感分类结果的准确性。
图5为本发明实施例提供的另一种文本情感分类装置的结构示意图,如图5所示,在上述图4的基础上,该装置还包括训练模块52,用于:
获取训练样本和训练样本的句向量矩阵;其中,训练样本包括多个正向情感的训练文本和多个负向情感的训练文本;根据训练样本的句子参数确定训练样本的超参数值;根据训练样本的句向量矩阵和超参数值,提取训练样本的特征向量;利用训练样本的特征向量和训练样本所属的情感类别训练得到分类器。
实施例三:
参见图6,本发明实施例还提供一种电子设备100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供的文本情感分类装置及电子设备,与上述实施例提供的文本情感分类方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的进行文本情感分类方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文本情感分类方法,其特征在于,包括:
获取待分类的目标文本和所述目标文本的句向量矩阵;
根据所述目标文本的句子参数确定所述目标文本的超参数值;
根据所述目标文本的句向量矩阵和超参数值,提取所述目标文本的特征向量;
根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别。
2.根据权利要求1所述的方法,其特征在于,获取所述目标文本的句向量矩阵,包括:
根据预先训练好的词向量模型获取所述目标文本的每个句子中每个词的初始词向量;
根据预先训练好的逻辑回归模型获取每个所述初始词向量的情感得分;
根据每个所述初始词向量的情感得分确定对应词的最终词向量;
将所述目标文本的各个所述最终词向量排列组合得到所述目标文本的句向量矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本的句子参数确定所述目标文本的超参数值,包括:
从所述目标文本的句子参数中选取目标参数,所述目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;
采用预设的超参数计算规则,计算得到所述目标参数对应的超参数值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别,包括:
将所述目标文本的特征向量输入所述分类器进行处理,得到所述目标文本属于各个情感类别的概率值;
将所述概率值中的最大概率值对应的情感类别确定为所述目标文本的情感类别。
6.根据权利要求1所述的方法,其特征在于,所述分类器通过以下方式训练:
获取训练样本和所述训练样本的句向量矩阵;其中,所述训练样本包括多个正向情感的训练文本和多个负向情感的训练文本;
根据所述训练样本的句子参数确定所述训练样本的超参数值;
根据所述训练样本的句向量矩阵和超参数值,提取所述训练样本的特征向量;
利用所述训练样本的特征向量和所述训练样本所属的情感类别训练得到所述分类器。
7.一种文本情感分类装置,其特征在于,包括:
获取模块,用于获取待分类的目标文本和所述目标文本的句向量矩阵;
确定模块,用于根据所述目标文本的句子参数确定所述目标文本的超参数值;
提取模块,用于根据所述目标文本的句向量矩阵和超参数值,提取所述目标文本的特征向量;
分类模块,用于根据所述目标文本的特征向量和预先训练好的分类器,确定所述目标文本的情感类别。
8.根据权利要求7所述的装置,其特征在于,所述确定模块具体用于:
从所述目标文本的句子参数中选取目标参数,所述目标参数包括句子长度、句子中的词语长度和词语个数中的一种或多种;
采用预设的超参数计算规则,计算得到所述目标参数对应的超参数值。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括训练模块,用于:
获取训练样本和所述训练样本的句向量矩阵;其中,所述训练样本包括多个正向情感的训练文本和多个负向情感的训练文本;
根据所述训练样本的句子参数确定所述训练样本的超参数值;
根据所述训练样本的句向量矩阵和超参数值,提取所述训练样本的特征向量;
利用所述训练样本的特征向量和所述训练样本所属的情感类别训练得到所述分类器。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349331.0A CN111241271B (zh) | 2018-11-13 | 2018-11-13 | 文本情感分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349331.0A CN111241271B (zh) | 2018-11-13 | 2018-11-13 | 文本情感分类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241271A true CN111241271A (zh) | 2020-06-05 |
CN111241271B CN111241271B (zh) | 2023-04-25 |
Family
ID=70873944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811349331.0A Active CN111241271B (zh) | 2018-11-13 | 2018-11-13 | 文本情感分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241271B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767399A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN113761186A (zh) * | 2021-01-19 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 文本情感分类方法和装置 |
CN114118085A (zh) * | 2022-01-26 | 2022-03-01 | 云智慧(北京)科技有限公司 | 一种文本信息的处理方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326210A (zh) * | 2016-08-17 | 2017-01-11 | 深圳大学 | 一种文本话题和情感的联合检测方法及装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN107491531A (zh) * | 2017-08-18 | 2017-12-19 | 华南师范大学 | 基于集成学习框架的中文网络评论情感分类方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
-
2018
- 2018-11-13 CN CN201811349331.0A patent/CN111241271B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN106326210A (zh) * | 2016-08-17 | 2017-01-11 | 深圳大学 | 一种文本话题和情感的联合检测方法及装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
CN107491531A (zh) * | 2017-08-18 | 2017-12-19 | 华南师范大学 | 基于集成学习框架的中文网络评论情感分类方法 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
黄佳锋;薛云;卢昕;刘志煌;吴威;黄英仁;李万理;陈鑫;: "面向中文网络评论情感分类的集成学习框架" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767399A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质 |
CN113761186A (zh) * | 2021-01-19 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 文本情感分类方法和装置 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN113420138B (zh) * | 2021-07-15 | 2024-02-13 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN114118085A (zh) * | 2022-01-26 | 2022-03-01 | 云智慧(北京)科技有限公司 | 一种文本信息的处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111241271B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209806B (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN111209738B (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109492217B (zh) | 一种基于机器学习的分词方法及终端设备 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN107533672A (zh) | 模式识别装置、模式识别方法以及程序 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
CN109885680B (zh) | 一种基于义原扩展的短文本分类预处理方法、系统及装置 | |
CN116911286A (zh) | 词典构建方法、情感分析方法、装置、设备及存储介质 | |
CN116070642A (zh) | 一种基于表情嵌入的文本情感分析方法及相关装置 | |
Sun et al. | Chinese microblog sentiment classification based on convolution neural network with content extension method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |