CN110413772A - 识别中文情感的方法及装置、计算机设备、存储介质 - Google Patents
识别中文情感的方法及装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN110413772A CN110413772A CN201910534905.XA CN201910534905A CN110413772A CN 110413772 A CN110413772 A CN 110413772A CN 201910534905 A CN201910534905 A CN 201910534905A CN 110413772 A CN110413772 A CN 110413772A
- Authority
- CN
- China
- Prior art keywords
- emotion
- chinese text
- feature vector
- recognition model
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种识别中文情感的方法及装置、计算机设备、存储介质。一方面,该方法包括:接收待识别的目标中文文本;对所述目标中文文本进行分词,计算各个分词的特征向量;将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;使用所述情感识别模型识别所述目标中文文本的情感属性。通过本发明,解决了现有技术中中文情感识别率低的技术问题,提高了情感的识别率,提高了机器分析中文文本的效率。
Description
【技术领域】
本发明涉及计算机领域,尤其涉及一种识别中文情感的方法及装置、计算机设备、存储介质。
【背景技术】
情感识别是大数据中分析人物画像的重要分支,通过对文本的情感识别,可以进一步了解作者的性格,意图等特性。
现有技术中,由于中文语义的博大精深,很多语句都是具备隐含词义,不能单凭字面意思来判断中文的情感,需要结合文本中的上下文语境才能体会真实的情感所在,目前还没有有效的情感识别方案,,有些通过标题来判断整篇文章的情感倾向,但仅通过文本的标题来判断文本情感,识别率太低,需要大量的人工干预和进一步识别。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
【发明内容】
有鉴于此,本发明实施例提供了一种识别中文情感的方法及装置、计算机设备、存储介质。
一方面,本发明实施例提供了一种识别中文情感的方法,所述方法包括:接收待识别的目标中文文本;对所述目标中文文本进行分词,计算各个分词的特征向量;将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;使用所述情感识别模型识别所述目标中文文本的情感属性。
可选的,在将所述特征向量输入到情感识别模型之前,所述方法还包括:确定多个带有情感标签的中文文本样本;使用所述中文文本样本训练初始神经网络模型,得到所述情感识别模型。
可选的,使用所述中文文本样本训练初始神经网络模型包括:对所述中文文本样本进行分词处理;采用香农函数计算各个分词的特征向量;采用贝叶斯算法对各个特征向量进行情感属性的分类;对各个特征向量的分类结果进行卡方校验,根据校验结果选择预设数量的词作为每个情感属性的关键词,其中,所述情感识别模型中的每个情感模型由多个关键词的特征向量组成。
可选的,采用香农函数计算各个分词的特征向量包括:分词x的特征向量H(X)为:其中,P(x)为X中x出现的概率,X为中文文本样本。
可选的,采用贝叶斯算法对各个特征向量进行情感属性的分类包括:计算P(Cj),以及P(wi|Cj);采用以下朴素贝叶斯分类算法进行分类: 其中,CNB是当前分词的情感属性,P(Cj)为当前分词在j情感属性的样本中出现的概率,ΠP(wi|Cj)指在在j情感属性的样本中分词在整个文档中出现的概率的乘积,P(wi|cj)为在Cj发生概率下,wi发生的概率,Cj表示当前分词的情感属性为j,wi为表示整个文档的情感属性为i。
可选的,在采用朴素贝叶斯分类算法进行分类之前,所述方法还包括:采用以下算法进行拉普拉斯平滑转换:其中,count(c)为c类的文本个数,count(w,c)是c类中词汇w的个数,v是中文文本样本的词汇总量,一个中文文本样本中所有出现的词的频率合计为1,为中文文本样本中未出现词汇的概率,c类为情感属性的任一类型。
可选的,对各个特征向量的分类结果进行卡方校验包括:使用以下偏差程度的计算公式对各个特征向量的分类结果进行卡方校验:其中,理论值为E,xi为观察值,i为任一分词的序号;取S的top k作为校验结果,其中,k为小于或等于n的正整数。
另一方面,本发明实施例提供了一种识别中文情感的装置,所述装置包括:接收模块,用于接收待识别的目标中文文本;处理模块,用于对所述目标中文文本进行分词,计算各个分词的特征向量;输入模块,用于将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;识别模块,用于使用所述情感识别模型识别所述目标中文文本的情感属性。
可选的,所述装置还包括:确定模块,用于在所述输入模块将所述特征向量输入到情感识别模型之前,确定多个带有情感标签的中文文本样本;训练模块,用于使用所述中文文本样本训练初始神经网络模型,得到所述情感识别模型。
可选的,所述训练模块包括:分词单元,用于对所述中文文本样本进行分词处理;计算单元,用于采用香农函数计算各个分词的特征向量;分类单元,用于采用贝叶斯算法对各个特征向量进行情感属性的分类;校验单元,用于对各个特征向量的分类结果进行卡方校验,根据校验结果选择预设数量的词作为每个情感属性的关键词,其中,所述情感识别模型中的每个情感模型由多个关键词的特征向量组成。
可选的,所述计算单元包括:计算子单元,用于采用以下算法计算分词x的特征向量H(X):其中,P(x)为X中x出现的概率,X为中文文本样本。
可选的,所述分类单元包括:计算子单元,用于计算P(Cj),以及P(wi|Cj);分类子单元,用于采用以下朴素贝叶斯分类算法进行分类: 其中,CNB是当前分词的情感属性,P(Cj)为当前分词在j情感属性的样本中出现的概率,ΠP(wi|Cj)指在在j情感属性的样本中分词在整个文档中出现的概率的乘积,P(wi|cj)为在Cj发生概率下,wi发生的概率,Cj表示当前分词的情感属性为j,wi为表示整个文档的情感属性为i。
可选的,所述训练模块还包括:变换单元,用于在所述分类单元采用朴素贝叶斯分类算法进行分类之前,采用以下算法进行拉普拉斯平滑转换:其中,count(c)为c类的文本个数,count(w,c)是c类中词汇w的个数,v是中文文本样本的词汇总量,一个中文文本样本中所有出现的词的频率合计为1,为中文文本样本中未出现词汇的概率,c类为情感属性的任一类型。
可选的,所述校验单元包括:校验子单元,用于使用以下偏差程度的计算公式对各个特征向量的分类结果进行卡方校验:其中,理论值为E,xi为观察值,i为任一分词的序号;提取子单元,用于取S的top k作为校验结果,其中,k为小于或等于n的正整数。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过引入利用贝叶斯算法和卡方特征监测来训练得到情感的识别模型,可以实现主观情感的自动识别。解决了现有技术中中文情感识别率低的技术问题,提高了情感的识别率,提高了机器分析中文文本的效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的一种识别中文情感的移动终端的硬件结构框图;
图2是根据本发明实施例的识别中文情感的方法的流程图;
图3是本发明实施例训练得到情感识别模型的流程图;
图4是根据本发明实施例的识别中文情感的装置的结构框图。
【具体实施方式】
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种识别中文情感的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的识别中文情感的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种识别中文情感的方法,图2是根据本发明实施例的识别中文情感的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,接收待识别的目标中文文本;
本实施例的目标中文文本一段话,或者是整篇文章,一句话,甚至是一个词。
步骤S204,对所述目标中文文本进行分词,计算各个分词的特征向量;
步骤S206,将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
步骤S208,使用所述情感识别模型识别所述目标中文文本的情感属性。
本实施例的情感属性是指人在目标中文文本中的主观倾向,除了可以笼统的分为正面情感和负面情感之外,情感还可以包括以下维度:情绪,心情,人际立场,态度,其中,情绪是由一定原因引发的同步反应,例如悲伤,快乐;心情是没有明显原因引发的长期低强度的主观感受变化,例如忧郁,倦怠;人际立场是指对他人的特定反应,例如疏远,冷漠;态度是对特定人或事物的带有主观色彩的偏好或倾向,如喜欢,讨厌;个性特质是指相对稳定的个性倾向和行为趋势,例如焦虑,渴望。
通过本实施例的方案,通过引入利用贝叶斯算法和卡方特征监测来训练得到情感的识别模型,可以实现主观情感的自动识别。解决了现有技术中中文情感识别率低的技术问题,提高了情感的识别率,提高了机器分析中文文本的效率。
本实施例中的在将所述特征向量输入到情感识别模型之前,还需要设置该情感识别模型,可以直接将成熟的情感识别模型设置在本实施例的系统中,也可以使用样本在本地训练得到情感识别模型。在训练得到情感识别模型时,方案包括:确定多个带有情感标签的中文文本样本;使用所述中文文本样本训练初始神经网络模型,得到所述情感识别模型。
图3是本发明实施例训练得到情感识别模型的流程图,使用所述中文文本样本训练初始神经网络模型包括:
302,对所述中文文本样本进行分词处理;
可以对中文文本样本进行分词处理,得到分词,具体采用中文分词的预设算法和词典完成分词处理。可选的,在分词过程中,由于否定词在情感分析时,会使情感倾向直接反转,因此需要先处理分词中的否定词,通过确定否定词的个数,如果是偶数个,则直接删除所有否定词,如果是奇数个,则保留1个即可,可以减少分词的处理量。
此外,可以仅提取用于修饰的相关词性的词:形容词,名词,副词,词性可以通过人为认定,如仅提取形容词。
304,采用香农函数计算各个分词的特征向量;
具体的,采用香农函数计算各个分词的特征向量包括:
分词x的特征向量H(X)为:
其中,P(x)为X(大写字母)中x(小写字母)出现的概率,X为中文文本样本。如所有词中“愤怒的”出现的概率。本实施例中,H(X)的这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽,熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。
306,采用贝叶斯算法对各个特征向量进行情感属性的分类;
在本实施例的一个实施方式中,采用贝叶斯算法中的朴素贝叶斯分类算法进行分类,除此之外,还可以采用MaxEnt分类器,SVM分类器进行分类,采用贝叶斯算法对各个特征向量进行情感属性的分类包括:计算P(Cj),以及P(wi|Cj);采用以下朴素贝叶斯分类算法进行分类: 其中,CNB是当前分词的情感属性,P(Cj)为当前分词在j情感属性的样本中出现的概率,ΠP(wi|Cj)指在在j情感属性的样本中分词在整个文档中出现的概率的乘积,P(wi|cj)为在Cj发生概率下,wi发生的概率,Cj表示当前分词的情感属性为j,wi为表示整个文档的情感属性为i。
在一个示例中,情感属性包括正面情绪和负面情绪两种,C包括正面和负面,i=10,有10个样本,对于分词:愤怒的,进行分类时,分词“愤怒的”在负面和正面的情感类型下,出现的概率P(Cj)分别为2%,1.8%,ΠP(wi|Cj)分别是:0.03%,0.019%,在“愤怒的”取负面时,P(Cj)*ΠP(wi|Cj)的计算结果最大,所以分词“愤怒的”的类型为负面。
在本实施例中,在采用朴素贝叶斯分类算法进行分类之前,还包括:采用以下算法进行拉普拉斯平滑转换:其中,count(c)为c类的文本个数,count(w,c)是c类中词汇w的个数,v是中文文本样本的词汇总量,一个中文文本样本中所有出现的词的频率合计为1,为中文文本样本中未出现词汇的概率,c类为情感属性的任一类型。通过拉普拉斯平滑转换,作为文本中未出现词汇的频率,防止其为0,这是因为,对情感而言,词是否出现比其出现的次数更有意义。
308,对各个特征向量的分类结果进行卡方校验,根据校验结果选择预设数量的词作为每个情感属性的关键词,其中,所述情感识别模型中的每个情感模型由多个关键词的特征向量组成,多个关键词中的每个关键词分别占据一定的权重,通过量化和累计,可以计算包含关键词的整篇文本的情感属性。
本实施例的卡方检验的实现原理是:通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。
可选的,对各个特征向量的分类结果进行卡方校验包括:使用以下偏差程度的计算公式对各个特征向量的分类结果进行卡方校验:其中,理论值为E,xi为观察值,i为任一分词的序号;取S的top k作为校验结果,其中,k为小于或等于n的正整数。
上述式子就是卡方检验使用的差值衡量公式,当提供了数个样本的观察值x1,x2,……xi,……xn之后,代入到式中就可以求得开方值,用这个值与事先设定的阈值比较,如果大于阈值(即偏差很大),就认为原假设不成立,反之则认为原假设成立。
在文本分类的特征选择阶段,本方案使用“词t与类别c不相关”来做原假设,计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的。选择的过程为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。即,取top k作为该情感类别的特征词。有abcde五个分词,每个词的观察词有10个,n=10,假设,对于分词a,特征向量为5,负面的1,E=5,
,依次求出所有观察值后取和,再开方,值为0.2,其余bcde的开方值分别为0.1,0.3,0.5,0.6,预设k=2,则取de为正面情感类型的关键词。
在本实施例中,使用所述情感识别模型识别所述目标中文文本的情感属性包括:将分词的特征向量输入到多个类型的情感识别模块,并分别输出属于该情感类型的概率值,将概率值最高的情感属性作为最终识别结果,最后输出该目标中文文本的情感属性,其中,每一个情感类型都对应一个情感识别模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种识别中文情感的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的识别中文情感的装置的结构框图,如图4所示,该装置包括:
接收模块40,用于接收待识别的目标中文文本;
处理模块42,用于对所述目标中文文本进行分词,计算各个分词的特征向量;
输入模块44,用于将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
识别模块46,用于使用所述情感识别模型识别所述目标中文文本的情感属性。
可选的,所述装置还包括:确定模块,用于在所述输入模块将所述特征向量输入到情感识别模型之前,确定多个带有情感标签的中文文本样本;训练模块,用于使用所述中文文本样本训练初始神经网络模型,得到所述情感识别模型。
可选的,所述训练模块包括:分词单元,用于对所述中文文本样本进行分词处理;计算单元,用于采用香农函数计算各个分词的特征向量;分类单元,用于采用贝叶斯算法对各个特征向量进行情感属性的分类;校验单元,用于对各个特征向量的分类结果进行卡方校验,根据校验结果选择预设数量的词作为每个情感属性的关键词,其中,所述情感识别模型中的每个情感模型由多个关键词的特征向量组成。
可选的,所述计算单元包括:计算子单元,用于采用以下算法计算分词x的特征向量H(X):其中,P(x)为X中x出现的概率,X为中文文本样本。
可选的,所述分类单元包括:计算子单元,用于计算P(Cj),以及P(wi|Cj);分类子单元,用于采用以下朴素贝叶斯分类算法进行分类: 其中,CNB是当前分词的情感属性,P(Cj)为当前分词在j情感属性的样本中出现的概率,ΠP(wi|Cj)指在在j情感属性的样本中分词在整个文档中出现的概率的乘积,P(wi|cj)为在Cj发生概率下,wi发生的概率,Cj表示当前分词的情感属性为j,wi为表示整个文档的情感属性为i。
可选的,所述训练模块还包括:变换单元,用于在所述分类单元采用朴素贝叶斯分类算法进行分类之前,采用以下算法进行拉普拉斯平滑转换:其中,count(c)为c类的文本个数,count(w,c)是c类中词汇w的个数,v是中文文本样本的词汇总量,一个中文文本样本中所有出现的词的频率合计为1,为中文文本样本中未出现词汇的概率,c类为情感属性的任一类型。
可选的,所述校验单元包括:校验子单元,用于使用以下偏差程度的计算公式对各个特征向量的分类结果进行卡方校验:其中,理论值为E,xi为观察值,i为任一分词的序号;提取子单元,用于取S的top k作为校验结果,其中,k为小于或等于n的正整数。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收待识别的目标中文文本;
S2,对所述目标中文文本进行分词,计算各个分词的特征向量;
S3,将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
S4,使用所述情感识别模型识别所述目标中文文本的情感属性。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收待识别的目标中文文本;
S2,对所述目标中文文本进行分词,计算各个分词的特征向量;
S3,将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
S4,使用所述情感识别模型识别所述目标中文文本的情感属性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种识别中文情感的方法,其特征在于,所述方法包括:
接收待识别的目标中文文本;
对所述目标中文文本进行分词,计算各个分词的特征向量;
将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
使用所述情感识别模型识别所述目标中文文本的情感属性。
2.根据权利要求1所述的方法,其特征在于,在将所述特征向量输入到情感识别模型之前,所述方法还包括:
确定多个带有情感标签的中文文本样本;
使用所述中文文本样本训练初始神经网络模型,得到所述情感识别模型。
3.根据权利要求2所述的方法,其特征在于,使用所述中文文本样本训练初始神经网络模型包括:
对所述中文文本样本进行分词处理;
采用香农函数计算各个分词的特征向量;
采用贝叶斯算法对各个特征向量进行情感属性的分类;
对各个特征向量的分类结果进行卡方校验,根据校验结果选择预设数量的词作为每个情感属性的关键词,其中,所述情感识别模型中的每个情感模型由多个关键词的特征向量组成。
4.根据权利要求3所述的方法,其特征在于,采用香农函数计算各个分词的特征向量包括:
分词x的特征向量H(X)为:
其中,P(x)为X中x出现的概率,X为中文文本样本。
5.根据权利要求3所述的方法,其特征在于,采用贝叶斯算法对各个特征向量进行情感属性的分类包括:
计算P(cj),以及P(wi|Cj);
采用以下朴素贝叶斯分类算法进行分类:
其中,CNB是当前分词的情感属性,P(Cj)为当前分词在j情感属性的样本中出现的概率,ΠP(wi|Cj)指在在j情感属性的样本中分词在整个文档中出现的概率的乘积,P(wi|cj)为在Cj发生概率下,wi发生的概率,Cj表示当前分词的情感属性为j,wi为表示整个文档的情感属性为i。
6.根据权利要求5所述的方法,其特征在于,在采用朴素贝叶斯分类算法进行分类之前,所述方法还包括:
采用以下算法进行拉普拉斯平滑转换:
其中,count(c)为c类的文本个数,count(w,c)是c类中词汇w的个数,v是中文文本样本的词汇总量,一个中文文本样本中所有出现的词的频率合计为1,为中文文本样本中未出现词汇的概率,c类为情感属性的任一类型。
7.根据权利要求3所述的方法,其特征在于,对各个特征向量的分类结果进行卡方校验包括:
使用以下偏差程度的计算公式对各个特征向量的分类结果进行卡方校验:
其中,理论值为E,xi为观察值,i为任一分词的序号;
取S的top k作为校验结果,其中,k为小于或等于n的正整数。
8.一种识别中文情感的装置,其特征在于,所述装置包括:
接收模块,用于接收待识别的目标中文文本;
处理模块,用于对所述目标中文文本进行分词,计算各个分词的特征向量;
输入模块,用于将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;
识别模块,用于使用所述情感识别模型识别所述目标中文文本的情感属性。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534905.XA CN110413772A (zh) | 2019-06-20 | 2019-06-20 | 识别中文情感的方法及装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534905.XA CN110413772A (zh) | 2019-06-20 | 2019-06-20 | 识别中文情感的方法及装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413772A true CN110413772A (zh) | 2019-11-05 |
Family
ID=68359451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910534905.XA Pending CN110413772A (zh) | 2019-06-20 | 2019-06-20 | 识别中文情感的方法及装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413772A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN108228655A (zh) * | 2016-12-21 | 2018-06-29 | 青岛祥智电子技术有限公司 | 一种文本情感分析特征验证的前置处理方法 |
-
2019
- 2019-06-20 CN CN201910534905.XA patent/CN110413772A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN108228655A (zh) * | 2016-12-21 | 2018-06-29 | 青岛祥智电子技术有限公司 | 一种文本情感分析特征验证的前置处理方法 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
CN111538766B (zh) * | 2020-05-19 | 2023-06-30 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN106844424A (zh) | 一种基于lda的文本分类方法 | |
Ilmania et al. | Aspect detection and sentiment classification using deep neural network for Indonesian aspect-based sentiment analysis | |
CN104077417B (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN110069627A (zh) | 短文本的分类方法、装置、电子设备和存储介质 | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110287328A (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN109271520B (zh) | 数据提取方法、数据提取装置、存储介质和电子设备 | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN110162628A (zh) | 一种内容识别方法及装置 | |
CN114580433B (zh) | 基于动态权重对比学习的多标签文本分类方法和系统 | |
CN111737464B (zh) | 文本分类方法、装置和电子设备 | |
CN111680155A (zh) | 文本分类方法、装置、电子设备及计算机存储介质 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN117150026B (zh) | 文本内容多标签分类方法与装置 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN114281983B (zh) | 分层结构的文本分类方法、系统、电子设备和存储介质 | |
CN110413772A (zh) | 识别中文情感的方法及装置、计算机设备、存储介质 | |
CN114036938A (zh) | 一种融合主题信息和词向量提取文本特征的新闻分类方法 | |
CN112836043A (zh) | 一种基于预训练语言模型的长文本聚类方法及装置 | |
CN110263344B (zh) | 一种基于混合模型的文本情感分析方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |