CN112667803A - 一种文本情感分类方法及装置 - Google Patents
一种文本情感分类方法及装置 Download PDFInfo
- Publication number
- CN112667803A CN112667803A CN201910941279.6A CN201910941279A CN112667803A CN 112667803 A CN112667803 A CN 112667803A CN 201910941279 A CN201910941279 A CN 201910941279A CN 112667803 A CN112667803 A CN 112667803A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion classification
- classified
- emotion
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 197
- 238000013145 classification model Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims description 105
- 230000015654 memory Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 8
- 235000012054 meals Nutrition 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000220225 Malus Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Abstract
本发明提供了文本情感分类方法及装置,利用与待分类文本属于同一领域的文本编码模型全向分析待分类文本中的上下文语义信息得到相应的文本向量;同时,获得情感分类属性词的位置向量,然后,将文本向量和位置向量拼接得到文本及位置向量。该文本及位置向量既包含待分类文本的上下文语义信息同时还包括情感分类属性词的位置信息,目标情感分类模型依据情感分类属性词的位置信息能够明确情感分析的对象,从而提高了情感分析结果的准确率。而且,该文本向量能够更准确地表征待分类文本的语义信息,从而使情感分类模型更好地理解文本的语境信息,进而提高了分类准确率。此外,采用预训练的文本编码模型可以大大降低数据标注量。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种文本情感分类方法及装置。
背景技术
文本情感分类是指对文本中的品牌词或属性词进行情感分类。目前经典的文本情感分类方法通常采用深度学习模型,而深度学习模型需要大量的标注样本作为训练数据才能得到最终用于情感分类的模型,而且情感分类效果不佳。
发明内容
有鉴于此,本发明的目的在于提供一种文本情感分类方法及装置,以降低训练所需标注数据的数量,并缩短训练周期,其具体的技术方案如下:
第一方面,本发明提供了一种文本情感分类方法,包括:
获取待分类文本;
基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
在第一方面一种可能的实现方式中,所述基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量,包括:
以字为单位对所述待分类文本进行划分,得到文本划分结果;
基于所述通用文本编码模型,全向分析所述文本划分结果中的每个字在所述待分类文本中的语义,得到每个字对应的字向量;
按照所述文本划分结果中每个字对应的顺序,将每个字对应的字向量拼接为文本向量。
在第一方面另一种可能的实现方式中,利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练的过程包括:
获取与所述待分类文本属于相同领域的多条文本语料;
随机遮盖每条所述文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到训练文本语料;
基于预训练的通用文本编码模型,预测每条所述训练文本语料中被遮盖词语对应的预测结果;
依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用文本编码模型中的模型参数直到满足收敛条件,得到目标文本编码模型。
在第一方面又一种可能的实现方式中,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词中的每个字标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它字标记为不同于所述第一预设二进制数值的其它数值,根据每个字对应的数值得到所述情感分类属性词对应的位置向量。
在第一方面再一种可能的实现方式中,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它词语分别标记为不同于所述第一预设二进制数值的其它数值,根据所述待分类文本中每个词语对应的数值得到所述情感分类属性词对应的位置向量。
在第一方面另一种可能的实现方式中,所述方法还包括:
获取训练文本样本,所述训练文本样本标注有情感分类属性词及所述情感分类属性词所属情感类别;
基于与所述目标文本编码模型,分析所述训练文本样本的上下文语义信息,得到所述待分类文本对应的文本向量;
获取所述训练文本样本标注的情感分类属性词的位置信息对应的位置向量;
将所述训练文本样本对应的文本向量及情感分类属性词的位置向量进行拼接,得到所述训练文本样本的文本及位置向量;
基于待训练情感分类模型分析所述训练文本样本的文本及位置向量,得到所述训练文本样本中标注的情感分类属性词的情感分类结果;
基于同一条训练文本样本中情感分类属性词对应的情感分类结果及标注的情感类别,反复优化所述待训练情感分类模型中的模型参数直到满足相应的收敛条件,得到所述目标情感分类模型。
在第一方面另一种可能的实现方式中,所述基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别,包括:
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词属于各个预设情感类别的置信度;
选取置信度最大的情感类别为所述待分类文本中的情感分类属性词所属的目标情感类别。
第二方面,本发明还提供了一种文本情感分类装置,包括:
第一获取模块,用于获取待分类文本;
文本向量转换模块,用于基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
位置向量获取模块,用于获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
向量拼接模块,用于将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
情感类别确定模块,用于基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
第三方面,本发明还提供了一种存储介质,所述存储介质内存储有程序,其中,所述程序被处理器加载并执行时实现第一方面任一种可能的实现方式所述的文本情感分类方法。
第四方面,本发明还提供了一种设备,包括至少一个处理器,以及与处理器连接的至少一个存储器、总线;
其中,所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行第一方面任一种可能的实现方式所述的文本情感分类方法。
本发明提供的文本情感分类方法,利用与待分类文本属于同一领域的文本编码模型全向分析待分类文本中的上下文语义信息得到相应的文本向量;同时,获得情感分类属性词的位置向量,然后,将文本向量和位置向量拼接得到文本及位置向量。最后,利用目标情感分类模型分析该文本及位置向量得到待分类文本中的情感分类属性词的情感类别,即目标情感类别。通过上述过程可知,上述的文本及位置向量既包含待分类文本的上下文语义信息同时还包括所要分析的情感分类属性词的位置信息,目标情感分类模型依据情感分类属性词的位置信息能够明确情感分析的对象,从而提高了情感分析结果的准确率。而且,利用与待分类文本属于同一领域的文本编码模型作为编码器得到待分类文本的文本向量,利用该文本编码模型全向分析待分类文本中的上下文语义信息得到相应的文本向量能够更准确地表征待分类文本的语义信息,从而使情感分类模型更好地理解待分类文本的语境信息,进而提高了分类准确率。此外,采用预训练的文本编码模型可以大大降低数据标注量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种用于情感分类的模型的结构示意图;
图2是本发明提供的一种文本情感分类方法的流程图;
图3是本发明提供的一种语言模型训练过程的流程图;
图4是本发明提供的一种情感分类模型训练过程的流程图;
图5是本发明提供的一种文本情感分类装置的结构示意图;
图6是本发明提供的一种设备的结构示意图。
具体实施方式
近年来,基于预训练的语言模型开源化,例如,BERT(Bidirectional EncoderRepresentation from Transformers)模型、GPT模型等,这些语言模型已经通过大量原始文本进行预训练,所以利用较少的数据标注量即可获得很好的模型效果。但是,这些语言模型无法获得词语的位置信息,即不能让模型获知需要进行情感分类的对象,因此,这些语言模型只适用于简单的文本分类,无法用于带有情感分类属性词语位置的文本情感分类。这些语言模型是经过预训练的通用语言模型,只需利用少量特定领域的语料继续训练就能获得适于分析特定领域的文本的语言模型。
获得文本对应的向量矩阵是这些语言模型的进行文本分类时的中间产物,因此,本发明将该语言模型作为编码器使用,即利用语言模型获得文本对应的向量矩阵。由于这些语言模型已经利用大量原始数据进行预训练,所以利用较少的标注数据即可得到很好的模型效果,相当于语言模型的初始化参数已经比较接近于最优参数,因此再利用较少的标注数据即可达到收敛条件,得到最终的语言模型。而且,这些语言模型分析文本的上下文语义信息得到相应的向量矩阵,因此,该向量矩阵能够更准确地表征文本的语境信息。
为了实现带有情感分类属性词语位置的文本情感分类,还需要加入情感分类属性词语的位置信息,最后,利用情感分类模型分析增加有位置信息的文本向量,得到待分类文本中情感分类属性词的目标情感类别。
请参见图1,示出了本发明提供的一种用于文本情感分类的分类模型的结构示意图,如图1所示,该分类模型主要包括基于预训练的语言模型1、和情感分类模型;其中,情感分类模型包括特征提取模型2和分类模型3。
基于预训练的语言模型1包括但不限于BERT模型、GPT模型,用于分析文本的上下文语义信息得到文本对应的向量。
需要说明的是,本发明的实施例中,将语言模型作为编码器使用,换言之,该语言模型即权利要求书中所述的文本编码模型。特征提取模型2主要用于从文本对应的向量中提取文本级别的特征,即高维特征;其中,特征提取模型2包括但不限于基于注意力机制的循环神经网络、基于注意力的长短期记忆网络(attention+LSTM)、基于attention机制的双向GRU模型等。
分类模型3用于对特征提取模型2提取得到的高维特征进行分析得到文本所属的情感类别。
其中,分类模型3包括但不限于全连接网络,全连接层中每一层的任意一个神经元都与上一层的所有神经元相连,相当于把以前的局部特征重新通过权值矩阵组装成一个完整的对象,全连接层通常被用于分类。全连接网络所有的参数就是各个层之间的连接权重及偏置,通过模型训练找到权重与偏置的最优组合使损失值降至最低,同时,准确率上升至最高。
请参见图2,示出了本发明提供的一种文本情感分类方法的流程图,该方法应用于判定文本中的情感分类属性词的情感类别。如图2所示,该方法可以包括以下步骤:
S110,获取待分类文本。
待分类文本是指需要进行情感分类的文本,例如,网页中的用户评论文本等。
S120,基于目标语言模型分析待分类文本的上下文语义信息,得到待分类文本对应的文本向量。
其中,该文本向量包含所述待分类文本的上下文语义信息。
需要说明的是,该目标语言模型即目标文本编码模型,该目标语言模型利用与所述待分类文本属于相同领域的语料对预训练的通用语言模型进行继续训练得到。
利用训练好的与该待分类文本属于同一领域的目标语言模型分析该待分类文本的上下文语义并得到该待分类文本对应的文本向量。
其中,该目标语言模型是预训练的文本分类模型,例如,BERT模型、GPT模型等,这些模型是已经利用大量的通用领域的语料预训练得到的语言处理模型。将此类语言模型作为编码器,即,将待分类文本输入至该语言模型中,输出得到该待分析文本对应的向量,即文本向量。
在本发明的一个实施例中,得到待分类文本对应的文本向量的过程如下:
首先,将待分类文本进行划分得到文本划分结果。
在一种可能的实现方式中,文本划分结果可以是以词语为单位对待分类文本进行划分处理得到的分词结果。分词处理是以词语为单位将文本进行划分。
在另一种可能的实现方式中,文本划分结果可以是以字为单位对待分类文本进行划分得到的分字结果。分字处理是以字为单位将文本进行划分。
然后,将文本划分结果输入至与该待分类文本相同领域的目标语言模型中,由该目标语言模型对该待分类文本全向分析每个字(或每个词语)的语义,得到每个字(或每个词语)对应的向量。
最后,按照文本划分结果中每个字(或每个词语)对应的顺序,将每个字(或每个词语)对应的向量拼接为文本向量。
S130,获取该待分类文本中的情感分类属性词的位置信息对应的位置向量。
情感分类属性词,即需要进行情感分析的对象,例如,XX航空的空姐服务很周到,但是餐食太难吃。这个实例中包括两个情感分析对象,一是“服务”,另一是“餐食”。该实例中的“服务”和“餐食”就是情感分类属性词。
一个待分类文本中可能包括多个情感分类属性词,因此,在待分类文本中标记情感分析对象的位置,即标记情感分类属性词的位置,以便让模型知道针对哪个对象进行情感分析。
在本发明的一个实施例中,可以利用标签标记每个待分类文本中的情感分类属性词。模型根据标签所标记的情感分类属性词,从待分类文本中找到该词语的位置,然后将该词语标记为预设二进制数值。当然,在本发明的其它实施例中,可以采用其它方式标记待分类文本中的情感分类属性词。
在一种可能的实现方式中,以字为单位,对于待分类文本中的每个字依据该字是否属于标记的情感分类属性词分别进行标记,得到情感分类属性词对应的位置向量。
在另一种可能的实现方式中,以词语为单位,对于待分类文本中的每个词语依据该词语是否是标记的情感分类属性词分别进行标记,得到情感分类属性词对应的位置向量。另一方面,在一种可能的实现方式中,位置信息中只区分情感分类属性词和非情感分类属性词。例如,可以将待分类文本中的情感分类属性词的位置置为“1”,其它词语的位置均置为“0”;或者,将情感分类属性词的位置置为“0”,其它词语的位置置为“1”。
在另一种可能的实现方式中,位置信息中体现情感分类属性词的位置,以及其它词语与该情感分类属性词之间的前后位置关系。例如,将待分类文本中的情感分类属性词的位置置为“0”,其它词语按照距离该情感分类属性词之间的前后位置分别进行标记。
例如,待分类文本是“空姐服务周到但是餐食太难吃”,如果分析“服务”的情感类别,将“服务”这个词置为0,其它词语按与“服务”之间的前后位置关系进行区分标记得到[-1 0 1 2 3 4];如果分析“餐食”的情感类别,可以将“餐食”这个词置为0,其它词语按照与“餐食”之间的前后位置关系进行区分标记得到[-4 -3 -2 -1 0 1]。
其中,负数表示位于情感分类属性词前面的词语,正数表示位于情感分类属性词后面的词语。数值越小表示距离情感分类属性词越近,相反,数值越大表示距离情感分类属性词越远。
然后,初始化一个2L*n的矩阵用来将上述的位置信息编码成矩阵,其中,编码方式与Word Embedding类似,可以将一个数字转换成固定长度的向量表示,从而便于计算机处理。
S140,将待分类文本对应文本向量及位置向量进行拼接,得到该待分类文本对应的文本及位置向量。
该步骤是利用向量拼接技术,将待分类文本对应的文本向量和位置向量拼接成一个向量,即文本及位置向量。
例如,文本向量为768维向量,位置向量为200维向量,这两个向量拼接得到一个768+200=968维的向量。
S150,基于目标情感分类模型分析该文本及位置向量,得到该待分类文本中的情感分类属性词所属的目标情感类别。
将文本及位置向量(即,拼接后的向量),输入至目标情感分类模型(即图1中的特征提取模型和分类模型)中,由特征提取模型从文本及位置向量中提取高维特征,并将高维特征输入至分类模型中,由分类模型进行分析得到待分类文本中情感分类属性词的情感类别,即目标情感类别。
目标情感分类模型分析待分类文本的文本及位置向量,得到该待分类文本中的情感分类属性词属于各个预设情感类别的置信度。选取置信度最大的情感类别为待分类文本中的情感分类属性词所属的目标情感类别。
其中,预设情感类别可以根据实际需求设定,如果仅需要分析文本的情感极性,则可以设定正向、负向、中性。如果需要分析文本的细粒度情感,则可以设定细粒度情感类别,例如,表扬、批评、赞美、高兴、悲伤等。
需要说明的是,目标情感分类模型需要利用已经标注情感类别的训练文本样本训练得到。
本实施例提供的文本情感分类方法,利用与待分类文本属于同一领域的目标语言模型作为编码器得到待分类文本的文本向量,同领域的目标语言模型全向分析待分类文本中的上下文语义信息得到相应的文本向量,因此,该文本向量能够更准确地表征待分类文本的语义信息,从而使情感分类模型更好地理解待分类文本的语境信息。同时,还获得了要分析的情感分类属性词在待分类文本中的位置向量,使得目标情感分类模型依据情感分类属性词的位置向量能够明确情感分析的对象,从而提高了情感分析结果的准确率。此外,特定领域预训练语言模型的训练可以大大降低数据标注量,由深度学习模型的约10w的标注量降至3~5W的标注量。
图1所示的分类模型中基于预训练的语言模型1是通用的模型,不具备特定领域的词语意义,因此,为了得到具备某领域词语特点的词向量,需要利用该领域的词语语料对预训练的语言模型继续进行训练,得到具有该领域的词语意义的语言模型。
请参见图3,示出了语言模型的训练过程的流程图,如图3所示,训练过程包括以下步骤:
S210,获取目标领域的多条文本语料。
其中,目标领域是指与将要进行情感分类的文本所属的领域。例如,医学领域、网络技术领域等。例如,神经网络在医学领域和网络技术领域中的含义不同,因此,转换得到的向量也应该不同,分别具备其所在领域的含义。
S220,随机遮盖每条文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到目标领域的训练文本语料。
在一种可能的实现方式中,训练文本语料可以通过以下方式获得:随机选择每一条文本语料中的某些词语,并将这些词语替换为“mask”。以及,为每一条文本语料标注一个标签,该标签上标记有该文本语料中被“mask”代替的正确词语。
S230,基于通用语言模型,预测每条训练文本语料中被遮盖词语对应的预测结果。
将待训练文本语料输入至预训练的通用语言模型中,利用该通用语言模型预测待训练文本语料中被“mask”替换掉的词语是什么,得到相应的预测结果。
S240,依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用语言模型中的模型参数,直到满足收敛条件,得到目标领域的语言模型。
得到每一条训练文本语料中被“mask”替换掉的词语的预测结果后,对比预测结果与该训练文本语料所对应的正确词语得到对比结果,并根据对比结果优化语言模型的模型参数,然后,再利用优化后的语言模型重新预测每条训练文本语料的预测结果,反复进行模型参数优化后,直到优化后的语言模型得到的预测结果满足收敛条件,得到目标领域的语言模型。换言之,模型训练过程就是,使语言模型通过学习目标领域的文本语料的语义信息与向量之间的关系,得到最好的拟合效果,即得到最优参数组合。
其中,收敛条件可以包括损失函数降低最低,同时准确率升至最高。
需要说明的是,预训练通用语言模型中的初始化模型参数是预训练完成后得到的语言模型的模型参数,这些模型参数已经是适用于通用领域语料的最优参数组合,只需少量的特征领域的语料即可训练得到适用于特定领域语料的最优参数组合。
例如,“我想买一个苹果”和“我想买一个苹果手机”中的“苹果”的含义不同。当利用训练好的特定领域的语言模型转换得到文本向量时,两个文本中的“苹果”所对应的向量也不同。不同领域的语言模型通过分析文本上下文的信息从而使得同一词语在不同语境中的向量表示不同。
另一方面,情感分类模型需要利用标注有情感类别的文本样本进行训练得到。
请参见图4,示出了情感分类模型的训练过程的流程图,如图4所示,该训练过程包括如下步骤:
S310,获取训练文本样本。
其中,该训练文本样本标注有情感分类属性词及该情感分类属性词所属情感类别。
训练文本中的情感分类属性词及其所属情感类别可以采用标签的方式进行标注。
S320,基于与训练文本样本属于同一领域的目标语言模型,分析将该训练文本样本的上下文语义信息,得到待分类文本对应的文本向量。
该文本向量包含所述训练文本样本的上下文语义信息。
S330,获取训练文本样本标注的情感分类属性词的位置信息对应的位置向量。
S340,将训练文本样本对应的文本向量及情感分类属性词的位置向量进行拼接,得到训练文本样本的文本及位置向量。
S350,基于待训练情感分类模型分析训练文本样本的文本及位置向量,得到训练文本样本中标注的情感分类属性词的情感分类结果。
待训练情感分类模型可以包括但不限于基于注意力机制的循环神经网络的分类模型、基于注意力的长短期记忆网络(attention+LSTM)的分类模型、基于attention机制的双向GRU模型的分类模型等。
S360,基于同一条训练文本样本中情感分类属性词对应的情感分类结果及标注的情感类别,反复优化待训练情感分类模型中的模型参数,直到满足相应的收敛条件,得到目标情感分类模型。
其中,待训练情感分类模型中的模型参数是随机初始化的模型参数。根据训练文本样本的情感分类结果与标注的情感类别之间的误差调整待训练情感分类模型中的模型参数,反复进行分类和调整,直到调整后的模型得到的情感分类结果满足收敛条件,其中,收敛条件可以是损失函数降至最低,同时准确率也比较高。
相应于上述的文本情感分类方法实施例,本发明还提供了文本情感分类装置实施例。
请参见图5,示出了本发明提供的一种文本情感分类装置的结构示意图,该装置应用于计算机设备中,该计算机设备可以是服务器、PC机,或者,还可以是便携式智能终端,例如,智能手机、平板电脑等。
如图5所示,该装置包括:第一获取模块110、文本向量转换模块120、位置向量获取模块130、向量拼接模块140和情感类别确定模块150。
第一获取模块110,用于获取待分类文本。
文本向量转换模块120,用于基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量。
其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到。
在本发明的一个实施例中,利用与待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练的过程包括:
获取与所述待分类文本属于相同领域的多条文本语料;
随机遮盖每条所述文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到训练文本语料;
基于预训练的通用文本编码模型,预测每条所述训练文本语料中被遮盖词语对应的预测结果;
依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用文本编码模型中的模型参数直到满足收敛条件,得到目标文本编码模型。
位置向量获取模块130,用于获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量。
向量拼接模块140,用于将所述文本向量及所述位置向量进行拼接,得到文本及位置向量。
情感类别确定模块150,用于基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
在本发明一种可能的实现方式中,文本向量转换模块120具体用于:
以字为单位对所述待分类文本进行划分,得到文本划分结果;
基于所述目标文本编码模型,全向分析所述文本划分结果中的每个字在所述待分类文本中的语义,得到每个字对应的字向量;
按照所述文本划分结果中每个字对应的顺序,将每个字对应的字向量拼接为文本向量。
在本发明一种可能的实现方式中,位置向量获取模块130具体用于:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词中的每个字标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它字标记为不同于所述第一预设二进制数值的其它数值,根据每个字对应的数值得到所述情感分类属性词对应的位置向量。
在本发明另一种可能的实现方式中,位置向量获取模块130具体用于:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它词语分别标记为不同于所述第一预设二进制数值的其它数值,根据所述待分类文本中每个词语对应的数值得到所述情感分类属性词对应的位置向量。
在本发明一种可能的实现方式中,情感分类模型的训练过程如下:
获取训练文本样本,所述训练文本样本标注有情感分类属性词及所述情感分类属性词所属情感类别;
基于与所述目标文本编码模型,分析所述训练文本样本的上下文语义信息,得到所述待分类文本对应的文本向量;
获取所述训练文本样本标注的情感分类属性词的位置信息对应的位置向量;
将所述训练文本样本对应的文本向量及情感分类属性词的位置向量进行拼接,得到所述训练文本样本的文本及位置向量;
基于待训练情感分类模型分析所述训练文本样本的文本及位置向量,得到所述训练文本样本中标注的情感分类属性词的情感分类结果;
基于同一条训练文本样本中情感分类属性词对应的情感分类结果及标注的情感类别,反复优化所述待训练情感分类模型中的模型参数直到满足相应的收敛条件,得到所述目标情感分类模型。
在本发明一种可能的实现方式中,情感类别确定模块150具体用于:
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词属于各个预设情感类别的置信度;
选取置信度最大的情感类别为所述待分类文本中的情感分类属性词所属的目标情感类别。
本发明提供的文本情感分类装置,获取待分类文本对应的文本向量,以及,获取待分类文本中的情感分类属性词的位置所对应的位置向量;将文本向量与位置向量拼接为一个向量矩阵,即文本及位置向量。该文本及位置向量既包含待分类文本的上下文语义信息同时还包括所要分析的情感分类属性词的位置信息,目标情感分类模型依据情感分类属性词的位置信息能够明确情感分析的对象,从而提高了情感分析结果的准确率。而且,利用与待分类文本属于同一领域的文本编码模型作为编码器得到待分类文本的文本向量,利用该文本编码模型全向分析待分类文本中的上下文语义信息得到相应的文本向量,因此,该文本向量能够更准确地表征待分类文本的语义信息,从而使情感分类模型更好地理解待分类文本的语境信息,进而提高了分类准确率。此外,采用预训练的文本编码模型可以大大降低数据标注量。
所述文本情感分类装置包括处理器和存储器,上述第一获取模块110、文本向量转换模块120、位置向量获取模块130、向量拼接模块140和情感类别确定模块150等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高分类准确率,以及,降低训练所需的标注数据数量,缩短训练周期。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本情感分类方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本情感分类方法。
本发明实施例提供了一种设备,如图6所示,该设备包括至少一个处理器601、以及与处理器601连接的至少一个存储器602、总线603;其中,处理器601、存储器602通过总线603完成相互间的通信;处理器601用于调用存储器602中的程序指令,以执行上述的文本情感分类方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待分类文本;
基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
在第一方面一种可能的实现方式中,所述基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量,包括:
以字为单位对所述待分类文本进行划分,得到文本划分结果;
基于所述通用文本编码模型,全向分析所述文本划分结果中的每个字在所述待分类文本中的语义,得到每个字对应的字向量;
按照所述文本划分结果中每个字对应的顺序,将每个字对应的字向量拼接为文本向量。
在第一方面另一种可能的实现方式中,利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练的过程包括:
获取与所述待分类文本属于相同领域的多条文本语料;
随机遮盖每条所述文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到训练文本语料;
基于预训练的通用文本编码模型,预测每条所述训练文本语料中被遮盖词语对应的预测结果;
依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用文本编码模型中的模型参数直到满足收敛条件,得到目标文本编码模型。
在第一方面又一种可能的实现方式中,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词中的每个字标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它字标记为不同于所述第一预设二进制数值的其它数值,根据每个字对应的数值得到所述情感分类属性词对应的位置向量。
在第一方面再一种可能的实现方式中,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它词语分别标记为不同于所述第一预设二进制数值的其它数值,根据所述待分类文本中每个词语对应的数值得到所述情感分类属性词对应的位置向量。
在第一方面另一种可能的实现方式中,所述方法还包括:
获取训练文本样本,所述训练文本样本标注有情感分类属性词及所述情感分类属性词所属情感类别;
基于与所述目标文本编码模型,分析所述训练文本样本的上下文语义信息,得到所述待分类文本对应的文本向量;
获取所述训练文本样本标注的情感分类属性词的位置信息对应的位置向量;
将所述训练文本样本对应的文本向量及情感分类属性词的位置向量进行拼接,得到所述训练文本样本的文本及位置向量;
基于待训练情感分类模型分析所述训练文本样本的文本及位置向量,得到所述训练文本样本中标注的情感分类属性词的情感分类结果;
基于同一条训练文本样本中情感分类属性词对应的情感分类结果及标注的情感类别,反复优化所述待训练情感分类模型中的模型参数直到满足相应的收敛条件,得到所述目标情感分类模型。
在第一方面另一种可能的实现方式中,所述基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别,包括:
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词属于各个预设情感类别的置信度;
选取置信度最大的情感类别为所述待分类文本中的情感分类属性词所属的目标情感类别。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本情感分类方法,其特征在于,包括:
获取待分类文本;
基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
2.根据权利要求1所述的方法,其特征在于,所述基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量,包括:
以字为单位对所述待分类文本进行划分,得到文本划分结果;
基于所述目标文本编码模型,全向分析所述文本划分结果中的每个字在所述待分类文本中的语义,得到每个字对应的字向量;
按照所述文本划分结果中每个字对应的顺序,将每个字对应的字向量拼接为文本向量。
3.根据权利要求1或2所述的方法,其特征在于,利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练的过程包括:
获取与所述待分类文本属于相同领域的多条文本语料;
随机遮盖每条所述文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到训练文本语料;
基于预训练的通用文本编码模型,预测每条所述训练文本语料中被遮盖词语对应的预测结果;
依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用文本编码模型中的模型参数直到满足收敛条件,得到目标文本编码模型。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词中的每个字标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它字标记为不同于所述第一预设二进制数值的其它数值,根据每个字对应的数值得到所述情感分类属性词对应的位置向量。
5.根据权利要求1所述的方法,其特征在于,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它词语分别标记为不同于所述第一预设二进制数值的其它数值,根据所述待分类文本中每个词语对应的数值得到所述情感分类属性词对应的位置向量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练文本样本,所述训练文本样本标注有情感分类属性词及所述情感分类属性词所属情感类别;
基于与所述目标文本编码模型,分析所述训练文本样本的上下文语义信息,得到所述待分类文本对应的文本向量;
获取所述训练文本样本标注的情感分类属性词的位置信息对应的位置向量;
将所述训练文本样本对应的文本向量及情感分类属性词的位置向量进行拼接,得到所述训练文本样本的文本及位置向量;
基于待训练情感分类模型分析所述训练文本样本的文本及位置向量,得到所述训练文本样本中标注的情感分类属性词的情感分类结果;
基于同一条训练文本样本中情感分类属性词对应的情感分类结果及标注的情感类别,反复优化所述待训练情感分类模型中的模型参数直到满足相应的收敛条件,得到所述目标情感分类模型。
7.根据权利要求1所述的方法,其特征在于,所述基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别,包括:
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词属于各个预设情感类别的置信度;
选取置信度最大的情感类别为所述待分类文本中的情感分类属性词所属的目标情感类别。
8.一种文本情感分类装置,其特征在于,包括:
第一获取模块,用于获取待分类文本;
文本向量转换模块,用于基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
位置向量获取模块,用于获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
向量拼接模块,用于将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
情感类别确定模块,用于基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
9.一种存储介质,其特征在于,所述存储介质内存储有程序,其中,所述程序被处理器加载并执行时实现权利要求1-7任一项所述的文本情感分类方法。
10.一种设备,其特征在于,包括至少一个处理器,以及与处理器连接的至少一个存储器、总线;
其中,所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-7任一项所述的文本情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910941279.6A CN112667803A (zh) | 2019-09-30 | 2019-09-30 | 一种文本情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910941279.6A CN112667803A (zh) | 2019-09-30 | 2019-09-30 | 一种文本情感分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667803A true CN112667803A (zh) | 2021-04-16 |
Family
ID=75399647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910941279.6A Pending CN112667803A (zh) | 2019-09-30 | 2019-09-30 | 一种文本情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667803A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312899A (zh) * | 2021-06-18 | 2021-08-27 | 网易(杭州)网络有限公司 | 文本分类方法、装置和电子设备 |
CN113901171A (zh) * | 2021-09-06 | 2022-01-07 | 特赞(上海)信息科技有限公司 | 语义情感分析方法及装置 |
CN114065742A (zh) * | 2021-11-19 | 2022-02-18 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN110276076A (zh) * | 2019-06-25 | 2019-09-24 | 北京奇艺世纪科技有限公司 | 一种文本情绪分析方法、装置及设备 |
CN110287323A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种面向目标的情感分类方法 |
-
2019
- 2019-09-30 CN CN201910941279.6A patent/CN112667803A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN110276076A (zh) * | 2019-06-25 | 2019-09-24 | 北京奇艺世纪科技有限公司 | 一种文本情绪分析方法、装置及设备 |
CN110287323A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种面向目标的情感分类方法 |
Non-Patent Citations (1)
Title |
---|
JACOB DEVLIN等: ""BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"", ARXIV, pages 1 - 16 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312899A (zh) * | 2021-06-18 | 2021-08-27 | 网易(杭州)网络有限公司 | 文本分类方法、装置和电子设备 |
CN113312899B (zh) * | 2021-06-18 | 2023-07-04 | 网易(杭州)网络有限公司 | 文本分类方法、装置和电子设备 |
CN113901171A (zh) * | 2021-09-06 | 2022-01-07 | 特赞(上海)信息科技有限公司 | 语义情感分析方法及装置 |
CN114065742A (zh) * | 2021-11-19 | 2022-02-18 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
CN114065742B (zh) * | 2021-11-19 | 2023-08-25 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN111339305B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN112507704B (zh) | 多意图识别方法、装置、设备及存储介质 | |
CN111241232B (zh) | 业务服务的处理方法、装置、服务平台及存储介质 | |
CN113221555B (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN110597966A (zh) | 自动问答方法及装置 | |
CN110347830B (zh) | 舆情预警的实现方法和装置 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN109597982B (zh) | 摘要文本识别方法及装置 | |
CN112560506A (zh) | 文本语义解析方法、装置、终端设备及存储介质 | |
CN115129862A (zh) | 语句实体处理方法、装置、计算机设备及存储介质 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN116680368A (zh) | 一种基于贝叶斯分类器的水利知识问答方法、设备及介质 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114398868A (zh) | 基于意图识别的人机对话方法、装置、设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN112579768A (zh) | 一种情感分类模型训练方法、文本情感分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |