CN110532386A - 文本情感分类方法、装置、电子设备及存储介质 - Google Patents
文本情感分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110532386A CN110532386A CN201910742398.9A CN201910742398A CN110532386A CN 110532386 A CN110532386 A CN 110532386A CN 201910742398 A CN201910742398 A CN 201910742398A CN 110532386 A CN110532386 A CN 110532386A
- Authority
- CN
- China
- Prior art keywords
- text
- sorted
- negative
- classification
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出一种文本情感分类方法、装置、电子设备及存储介质,涉及语言处理技术领域。所述方法包括:获取待分类文本,通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本,当所述待分类文本为所述非负面文本时,基于预设情感词典,将所述待分类文本分类为正面文本或中性文本。本公开能够提高对文本分类的准确性。
Description
技术领域
本公开涉及语言处理技术领域,具体而言,涉及一种文本情感分类方法、装置、电子设备及存储介质。
背景技术
随着互联网的迅速发展,网络中出现的各类文本也越来越多,比如在论坛、博客发表的文章和评论等,这些文本中蕴含着极大地价值,通过语言处理技术来对这些文本隐藏的情感进行分析,已经逐渐成为研究的热点。
现有技术中,可以事先通过标注为正面、负面或中性的训练样本,对CNN(Convolutional Neural Networks,卷积神经网络)或LSTM(Long Short-Term Memory,长短期记忆网络)等机器学习网络进行训练,然后通过训练得到的机器学习模型对待分类文本进行分类。
但由于需要通过标注为正面、负面或中性的样本对机器学习模型进行训练,而事先通过人工将训练样本标注为正面、负面或中性的样本的准确性较低,所以所训练的机器学习模型的分类效果较差。
发明内容
本公开的目的在于提供一种文本情感分类方法、装置、电子设备及存储介质,以提高对文本分类的准确性。
为了实现上述目的,本公开采用的技术方案如下:
第一方面,本公开提出一种文本情感分类方法,所述方法包括:
获取待分类文本;
通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本;
当所述待分类文本为所述非负面文本时,基于预设情感词典,将所述待分类文本分类为正面文本或中性文本。
第二方面,本公开还提出一种文本情感分类装置,所述装置包括:
获取模块,用于获取待分类文本;
第一分类模块,用于通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本;
第二分类模块,用于当所述待分类文本为所述非负面文本时,基于预设情感词典,将所述待分类文本分类为正面文本或中性文本。
第三方面,本公开还提出一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面所述的方法的步骤。
第四方面,本公开还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面所述的方法的步骤。
在本公开实施例中,获取待分类文本,通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本,当该待分类文本为非负面文本时,再基于预设情感词典,将非负面文本分类为正面文本或中性文本,从而实现通过多层次分类将待分类文本分类为正面文本、负面文本或中性文本,即通过多层次分类的方式对该待分类文本进行分类,降低了分类的难度,从而便于在每个层次进行更精准的分类,提高了分类的准确性。
本公开的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开所提供的一种BERT的结构示意图;
图2示出了本公开所提供的一种文本情感分类方法的流程示意图;
图3示出了本公开所提供的一种提取待分类文本的特征向量的方法流程图;
图4示出了本公开所提供的一种分类器的结构示意图;
图5示出了本公开所提供的一种基于情感词典的文本情感分类方法流程图;
图6示出了本公开所提供的一种文本情感分类装置的功能模块示意图;
图7示出了本公开所提供的另一种文本情感分类装置的功能模块示意图;
图8示出了本公开所提供的一种电子设备的功能模块示意图。
具体实施方式
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在对本公开进行详细地解释之前,先对本公开的应用场景予以介绍。
文本情感分类是语言处理技术领域中的一种重要应用,能够根据文本中所表达的情感倾向,将文本分类为正面文本、负面文本或中性文本。现有技术通过人工标注为正面、负面或中性的样本对机器学习模型进行训练,进而通过该机器学习模型对待分类文本进行分类,但由于通过人工将训练样本标注为正面、负面和中性的准确性较低,因此,对待分类文本进行分类的准确性也比较低。
为解决这一技术问题,本公开提供了一种文本情感分类方法,获取待分类文本,通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本,当该待分类文本为非负面文本时,再基于预设情感词典,将非负面文本分类为正面文本或中性文本,从而实现通过多层次分类将待分类文本分类为正面文本、负面文本或中性文本,即通过多层次分类的方式对该待分类文本进行分类,降低了分类的难度,从而便于在每个层次进行更精准的分类,提高了分类的准确性。
以下将对本公开中的一些基础概念进行介绍:
待分类文本为需要进行文本情感分类的文本,该待分类文本可以包括多个字符,比如可以包括短语、句子或者语段。
正面文本、负面文本和中性文本为按照文本的情感倾向,对该文本进行分类的分类结果,比如当以积极向上为正面情感倾向时,正面文本可以包括感情色彩为积极向上的文本,负面文本可以包括感情色彩为消极堕落的文本,中性文本可以包括不具有感情色彩的文本。
需要说明的是,根据文本情感分类依据的不同,正面文本、负面文本以及中性文本所包括的文本也可以有所不同,比如,当以消极堕落为正面情感倾向时,正面文本可以包括感情色彩为消极堕落的文本,负面文本可以包括感情色彩为积极向上的文本,中性文本可以包括不具有感情色彩的文本。
多层双向转换解码器(Bidirectional Encoder Representations fromTransformer,BERT)是一种自然语言处理模型,能够利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(即预训练),然后将文本的语义表示在特定自然语言处理任务中作微调(即微调或调优),最终应用于该特定自然语言处理任务。相比于其它机器学习模型,BERT具有更强的特征提取能力,在本公开实施例中,可以通过BERT,根据待分类文本中整句中多个字以及字在待分类文本中的位置,提取得到待分类文本的特征向量,所得到的特征向量能够更精准地表征该待分类文本(包括该分类文本中的情感倾向),即提高确定该待分类文本中的情感倾向的准确性,那么通过分类器依据该特征向量,即能够准确地对待分类文本进行分类。
请参照图1,为本公开提供的一种BERT的结构示意图。如图1所示,BERT包括输入层、多个转换层和输出层,其中,各转换层可以包括多个转换器Trm(Transformer),输入层可以包括输入至BERT的输入向量E1,E2,…,EN,输出层可以包括BERT的输出向量T1,T2,…,TN,N为正整数。
转换器采用编码器-解码器(encoder-decoder)。其中,编码器结构是由N个相同的网络组成的,每个网络有两个子网络。第一个子网络是多头自注意力网络(Multi-HeadAttention),第二个子网络是前向全连接神经网络。每个子网络使用了一个残差连接以及层归一化,相应地每个子网络的输出是LayerNorm(x+SubLayer(x)),其中LayerNorm是层归一化操作,SubLayer(x)是子网络本身的输出,所有子层的维度都和输入维度一致为dmodel维,其中,dmodel为正整数。
多头注意力网络是指对dmodel维的Q、K、V进行h次线性映射,其中,h为常数,Q(Query)、K(Key)、V(Value)为注意力网络(Attention)中的三个概念,在自注意力网络中,Q=K=V,表示句子中每个字的向量。第i次线性映射表示将Q、K、V分别乘以维度为dmodel×dK向量Wi Q、Wi K、Wi V,得到第i次线性映射后的向量Qi、Ki、Vi,其中,i为正整数,dK=dmodel/h,Wi Q表示对Q进行线性变换的参数,Wi K表示对K进行线性变换的参数,Wi V表示对V进行线性变换的参数。第i次线性映射之后的Q、K、V的维度由dmodel维变为dK维。然后将每次线性映射得到的Qi、Ki、Vi,使用注意力公式(下述公式1和2)进行处理,得到多头注意力网络中第i个注意力网络的输出结果headi,headi的维度为dV,dK=dV=dmodel/h。最后通过下述公式3将多个注意力网络的输出结果进行拼接,再乘以一个dmodel×dmodel维的向量,得到多头注意力网络的输出结果。
headi=Attention(QWi Q,KWi K,VWi V) (公式1)
MultiHead(Q,K,V)=Concat(head1,…,headh) (公式3)
其中,Concat()表示连接函数;softmax()表示归一化指数函数。
分类器可以包括一个前向全连接神经网络,且该前向全连接神经网络可以包括多个全连接层。
情感词典包括预设的情感词、程度词、否定词、以及分别对应各情感词、各程度词、各否定词的权重,其中,情感词可以包括正面情感词和负面情感词。通过将待分类文本进行分词处理,得到多个关键词,然后将每一关键词与情感词典中的情感词进行匹配,以识别该关键词为情感词、程度词或否定词。如果该关键词为情感词,则查找该关键词前后是否有程度词或否定词,若有则将该情感词对应的权重与该程度词或否定词对应的权重相乘,从而得到多个权重乘积。将得到的多个权重乘积进行累加,所得到的数值即为该待分类文本对应的总权重。将该总权重与预设权重阈值进行比较,从而将该待分类文本分类为中性文本或正面文本。
其中,正面情感词以及程度词对应的权重可以为大于0的数值,否定词和负面情感词对应的权重可以为小于0的数值。
需要说明的是,对应各情感词、各程度词或各否定词的权重的绝对值大小可以不同。且若情感词典不包括预先设定对应情感词、程度词或否定词的权重,则可以将对应各情感词、各程度词或各否定词的权重的绝对值均确定为预设大小的数值,比如1。
还需要说明的是,预设权重阈值可以通过事先设置得到。
还需要说明的是,在实际应用中,也可以分别建立情感词典、程度词典和否定词典,本公开对情感词典的设置方式不做具体限定。
以下将结合上述应用场景,对本公开进行具体说明。
请参照图2,为本公开所提供的一种文本情感分类方法的流程示意图。需要说明的是,本公开所述的文本情感分类方法并不以图2以及以下所述的具体顺序为限制,应当理解,在其它实施例中,本公开所述的文本情感分类方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面将对图2所示的流程进行详细阐述。
步骤201,获取待分类文本。
为了对待分类文本的情感倾向进行分析,可以获取待分类文本。
待分类文本可以通过下述至少一种方式获取得到:通过接收用户提交得到、通过接收其它设备发送得到、通过从网络中获取得到,当然,在实际应用中,也可以通过其它方式来获取待分类文本,本公开实施例对获取待分类文本的方式不做具体限定。
步骤202,通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本。
为了通过多层次分类的方式对该待分类文本进行分类,降低将待分类文本分为负面文本、正面文本或中性文本的难度,从而提高分类的准确性,可以先将待分类文本进行二分类,再通过后续步骤将其中一类进一步进行二分类,从而完成对待分类文本的分类。
预设文本情感分类模型可以通过事先获取得到,比如,可以接收其它设备发送的文本情感分类模型作为该预设文本情感分类模型。
其中,预设文本情感分类模型可以包括前述中的CNN或者LSTM等,当然,在实际应用中,该预设文本情感分类模型也可以包括其它的模型,本公开实施例对此预设文本情感分类模型的类型不做具体限定。
可以将待分类文本输入至该预设文本情感分类模型,通过该预设文本情感分类模型对该待分类文本的情感倾向进行分析,从而确定该待分类文本为负面文本或非负面文本。
步骤203,当待分类文本为非负面文本时,基于预设情感词典,将该待分类文本分类为正面文本或中性文本。
由于已经确定待分类文本为非负面文本,因此,为了实现对待分类文本进行分类的目的,可以通过预设情感词典,将该非负面文本进一步分为正面文本或中性文本。
预设情感词典可以通过事先获取得到,比如,可以通过接收用户提交的情感词典作为该预设情感词典。
可以对待分类文本进行分词处理,得到多个关键词,然后将每一关键词与该预设情感词典中的情感词进行匹配,以识别该关键词为情感词、程度词或否定词。如果该关键词为情感词,则查找该关键词前后是否有程度词或否定词,若有则将该情感词对应的权重与该程度词或否定词对应的权重相乘,从而得到多个权重乘积。将得到的多个权重乘积进行累加,所得到的数值即为该待分类文本对应的总权重。将该总权重与预设权重阈值进行比较,从而将该待分类文本分类为中性文本或正面文本。
在本公开实施例中,获取待分类文本,通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本,当该待分类文本为非负面文本时,再基于预设情感词典,将非负面文本分类为正面文本或中性文本,从而实现通过多层次分类将待分类文本分类为正面文本、负面文本或中性文本,即通过多层次分类的方式对该待分类文本进行分类,降低了分类的难度,从而便于在每个层次进行更精准的分类,提高了分类的准确性。此外,通过预设文本情感分类模型将该待分类文本分类为负面文本或非负面文本,相比于现有技术中直接分类为三类(负面、中性和正面)而言,本发明实施例中的文本情况分类模型是将待分类文本分为负面或非负面两类,故可以确保能够快速获取得到充足的样本对该预设文本情感分类模型进行训练,降低了训练得到该预设文本情感分类模型成本和难度,也提高了通过该预设文本情感分类模型将该待分类文本分类为负面文本或非负面文本的准确性,进而也提高了最终将待分类文本分类为正面文本、负面文本或中性文本的准确性。
可选地,预设文本情感分类模型包括特征提取模型和分类器,步骤202通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本的操作,可以包括:通过特征提取模型,提取待分类文本的特征向量,根据该待分类文本的特征向量,采用分类器将该待分类文本分类为该负面文本或该非负面文本。
待分类文本的特征向量能够说明待分类文本所包括信息的特征,从而有利于说明待分类文本的情感倾向,为了提高按照待分类文本的情感倾向对待分类文本进行分类的准确性,可以先通过特征提取模型提取得到待分类文本的特征向量,再通过分类器基于该特征向量,对待分类文本进行分类。
特征提取模型可以用于从待分类文本所包括的文字信息中提取得到对应该待分类文本的特征向量。
其中,特征提取模型可以包括机器学习模型。
可选地,特征提取模型可以为BERT,相应的,上述通过特征提取模型,提取待分类文本的特征向量的操作,可以包括:通过BERT确定该待分类文本的字嵌入向量、句嵌入向量和位置嵌入向量,将该字嵌入向量、该句嵌入向量和该位置嵌入向量进行加和,得到该待分类文本的第一特征矩阵,通过该BERT,对第一特征矩阵进行处理,得到该待分类文本的第二特征矩阵,将所述第二特征矩阵中的任一行向量确定为所述待分类文本的特征向量。
由于BERT具有较强的特征提取能力,从而能够更加准确地感知到待分类文本的文本信息之间的关联,比如各个字、以及各字上下文所导致的语义差别,能够提高提取待分类文本的特征向量的准确性,因而可以BERT提取待分类文本的特征向量。其中,字嵌入向量可以为N维行向量,用于说明待分类文本中各字所包括的语义信息;句嵌入向量可以为N维行向量,用于说明待分类文本中各字在该待分类文本中的全局语义信息;位置嵌入向量可以为N维行向量,用于说明待分类文本中各字在该待分类文本中的位置信息;N为正整数。
第一特征矩阵可以作为BERT的输入,第二特征矩阵可以为BERT的输出,其中,第二特征矩阵中的任一行的向量即可作为待分类文本的特征向量,例如将第二特征矩阵中首行的向量作为待分类文本的特征向量。
可选地,请参照图3,为本公开实施例所提供的一种提取待分类文本的特征向量的方法流程图,包括:
步骤301,将待分类文本转换为与BERT对应的输入格式。
可以在待分类文本的首部添加[CLS],在该待分类文本的尾部添加[SEP]。其中,[CLS]可以为分类嵌入符号,[SEP]可以为句子分隔符号。例如,待分类文本为“我爱大学”,可以在该待分类文本的首部添加“[CLS]”、在尾部添加“[SEP]”,从而将该待分类文本转换为针对BERT的输入格式,即“[CLS]我爱大学[SEP]”。
步骤302,基于BERT中预设的向量词典,确定待分类文本的字嵌入向量、句嵌入向量和位置嵌入向量。
可以从预设的向量词典中,查找将待分类文本包括的各字对应的字嵌入向量、各字对应的句嵌入向量和各字对应的位置嵌入向量,从而得到待分类文本的字嵌入向量、句嵌入向量和位置嵌入向量。
步骤303,将字嵌入向量、句嵌入向量和位置嵌入向量进行加和,得到待分类文本的第一特征矩阵。
例如,转换后的待分类文本为“[CLS]我爱大学[SEP]”,根据预设的向量词典,获取到该待分类文本的字嵌入向量为:[E[CLS],E我,E爱,E大,E学,E[SEP]],获取该待分类文本的句子嵌入向量为:[EA,EA,EA,EA,EA,EA],获取该待分类文本的位置嵌入向量为[E0,E1,E2,E3,E4,E5],则将字嵌入向量、句嵌入向量和位置嵌入向量进行加和,得到待分类文本的第一特征矩阵为I=[(E[CLS]+EA+E0),(E我+EA+E1),(E爱+EA+E2),(E大+EA+E3),。(E学+EA+E4),(E[SEP]+EA+E5)]
步骤304,将第一特征矩阵输入至第一个转换层中的多头注意力网络。
在本公开实施例中,BERT可以包括12个相同的转换层,dmodel=768,h=12,由于注意力网络为自注意力网络,因此,Q=K=V=I,I为输入至BERT的向量,即第一特征矩阵。
该多头注意力网络的输出可以表示为下述公式4:
MultiHead=Concat(head1,…,headh) (公式4)
其中,Concat()表示连接函数;headi表示多头注意力网络中第i个注意力网络的输出结果,i为正整数;dK=dV=dmodel/h=64,Wi Q、Wi V、Wi K分别表示对Q、K、V进行线性变换的参数;softmax()表示归一化指数函数。
步骤305,对该多头注意力网络的输出进行归一化处理。
可以通过下述公式5,对多头注意力网络的输出进行归一化处理,得到多头注意力网络归一化结果:
subLayer1=LayerNorm(I+Multihead) (公式5)
其中,subLayer1为多头注意力网络归一化结果;LayerNorm()为归一化函数;Multihead为由上述公式4得到的多头注意力网络的输出。
步骤306,多头注意力网络归一化结果计算前向神经网络。
可以通过下述公式6计算前向神经网络:
FFN=max(0,subLayer1*W1+b1)*W2+b2 (公式6)
其中,FFN为前向神经网络;W为前向神经网络中的权重;b为前向神经网络中的偏置参数;max()为最大值函数;subLayer1为前述公式5中的多头注意力网络归一化结果。
步骤307,对前向神经网络进行归一化处理。
可以通过下述公式7对前向神经网络进行归一化处理,得到前向神经网络归一化结果:
subLayer2=LayerNorm(subLayer1+FFN) (公式7)
其中,subLayer2为前向神经网络归一化结果;subLayer1为前述公式5中的多头注意力网络归一化结果;FFN为前述公式6中的前向神经网络。
步骤308,将当前转换层的前向神经网络归一化结果,作为下一层转换层的输入,重复上述步骤304至307,直至计算得到12个转换层的输出,得到第二特征矩阵。
BERT所输出的第二特征矩阵可以表示为
可选地,请参照图4,为本公开实施例所提供的一种分类器的结构示意图。该分类器可以包括一个前向全连接网络,其中,I1,I2,…,In为待分类文本的特征向量;n为正整数;和为该分类器的分类结果(请参见下述公式8和9),其中,和可以分别表示待分类文本为负面文本的概率和非负面文本的概率;该分类器的模型参数包括多个权重W和偏置参数b。可以获取待分类文本对应的特征向量,然后将该特征向量输入至该分类器,从而得到待分类文本为负面文本的概率和非负面文本的概率。当该待分类文本分别为负面文本的概率大于非负面文本的概率时,确定该待分类文本为负面文本,当该待分类文本分别为负面文本的概率小于非负面文本的概率时,确定该待分类文本为非负面文本。
可选地,分类器为根据第一训练样本集训练获取得到,该第一训练样本集包括:多个文本样本,各个文本样本标注负面标签或非负面标签。
为了确保能够通过分类器准确地对待分类文本进行分类,可以事先训练获取第一训练样本集来训练得到该分类器。
第一训练样本集可以通过事先得到,比如,可以通过确定搜索关键词以及目标网络地址,然后通过爬虫方式从该目标网络地址,基于该搜索关键词,获取得到包括该搜索关键词的多个原始文本。
例如,以“第一大学”为搜索关键词,获取到的待分类文本可以如下表1所示。
表1
当根据第一训练样本集对分类器为训练时,可以获取各文本样本的特征向量,将该特征向量输入至该分类器,按照上述公式8和9,确定对该文本样本的分类结果,然后通过该分类器得到的分类结果与该文本样本所标注的真实值计算损失函数(请参见下述公式10),通过该损失函数对该分类器中的模型参数(即多个权重W和偏置参数b)进行迭代更新,直至该分类器收敛或者迭代次数大于迭代次数阈值。
其中,为分类器针对文本样本的输出结果;LOSS为损失函数;yi为该文本样本所标注的真实值;i为正整数;m表示分类的类别数,比如在本公开实施例中,分类结果包括和所以m=2。具体地,迭代次数阈值可以通过事先设置得到。
可选地,可以通过BERT提取第一训练样本集中文本样本的特征向量。
需要说明的是,对分类器进行训练,可以与执行文本情感分类方法由同一执行主体完成,也可以由另外的计算或处理设备完成,在此不作限制。
当然,在实际应用中,若预设文本情感分类模型为其它类型的模型,也可以按照上述相似的方式,通过第一训练样本集对该预设文本情感分类模型进行训练。且由于预设文本情感分类模型是用于将待分类文本分类为负面文本或非负面文本,而将通过负面文本或非负面文本标注训练文本的获取难度交底,从而确保能够快速获取得到充足的样本对该预设文本情感分类模型进行训练,降低了获取得到该预设文本情感分类模型成本和难度,也提高了通过该预设文本情感分类模型将该待分类文本分类为负面文本或非负面文本的准确性。
可选地,步骤203基于预设情感词典,将待分类文本分类为正面文本或中性文本的操作,可以包括:基于该预设情感词典,识别该待分类文本中关键词的词性,基于该待分类文本中关键词的词性,将该待分类文本分类为该正面文本或该中性文本。
请参照图5,为本公开实施例提供的一种基于情感词典的文本情感分类方法流程图,包括:
步骤501,获取第二训练样本集。
第二训练样本集可以包括多个文本样本,各文本样本可以标注有分词标签,该分词标签用于说明所标记的关键词为情感词、程度词或否定词。
需要说明的是,第二训练样本集的获取方式可以与第一训练样本集的方式相同,此处不再一一赘述。
步骤502,基于第二训练样本集,构建情感词典。
可以将第二训练样本集中包括的情感词、程度词或否定词分别进行存储或者分别添加不同的标签,从而构建得到情感词典。
为了便于对基于情感词典的文本情感分类方法进行说明,在本公开实施例中,该情感词典中的正面情感词对应的权重为1,负面情感词对应的权重为-1,程度词对应的权重为2,否定词对应的权重为-1。
需要说明的是,上述步骤501-502构建情感词典,与下述通过步骤503-505来通过构建好的情感词典进行文本情感分类,可以由同一执行主体完成,也可以由另外的计算或处理设备完成,在此不作限制。
步骤503,判断待分类文本中关键词的词性类别,如果是正面情感词则执行504A,如果是负面情感词则执行步骤504B,如果是否定词则执行步骤504C。
可以对该非负面文本进行分词,得到多个关键词,将各关键词与情感词典中的情感词进行匹配,从而判断该关键词为正面情感词、负面情感词或否定词。
步骤504A,检测正面情感词前后的关键词。如果前一关键词为程度词则确定对待分类文本对应的权重增加第一权重增量;如果前一关键词为否定词或负面情感词、或者后一词为负面情感词,则确定对该待分类文本对应的权重增加第二权重增量;如果前一关键词或后一关键词为其它情况,则将该待分类文本对应的权重增加正面情感词对应的权重。
第一权重增量为正面情感词对应的权重与该程度词对应的权重的乘积,在本公开实施例中,第一权重增量为2。
第二权重增量为正面情感词对应的权重,与否定词或负面情感词的权重的乘积,在本公开实施例中,第二权重增量为-1。
可以获取当前关键词(即正面情感词)前后的关键词,并将前后的关键词分别与情感词典中的关键词进行匹配,从而确定前后的关键词为否定词、负面情感词或其它情况。其中,当前关键词前后的关键词可以为与当前关键词相邻的关键词。
步骤504B,检测负面情感词的前一关键词。如果前一词为程度词,则与待分类文本对应的权重增加第三权重增量;如果前一词为否定词,则与该待分类文本对应的权重增加第四权重增量;如果前一词为其它情况,则与该待分类文本对应的权重增加该负面情感词对应的权重。
第三权重增量为负面情感词对应的权重与程度词对应的权重的乘积,在本公开实施例中,第三权重增量为-2。
第四权重增量为负面情感词对应的权重与否定词对应的权重的乘积,在本公开实施例中,第四权重增量为1。
可以获取当前关键词(即负面情感词)前后的关键词,并将该关键词与情感词典中的关键词进行匹配,从而确定前后的关键词为否定词、负面情感词或其它情况。
步骤504C,将与待分类文本对应的权重增加预设权重。
其中,预设权重可以为-0.5。
步骤505,输出待分类文本对应的权重。
当该输出权重的绝对值小于预设权重阈值则该输入文本为中性文本,否则该输入文本为正面文本。
在本公开实施例中,预设权重阈值可以为0.5。那么当待分类文本对应的权重大于或小于0.5时,确定该待分类文本为中性文本,当该待分类文本对应的权重等于0.5时,确定该待分类文本为正面文本。
可选地,在步骤202通过预设文本情感分类模型将待分类文本分类为负面文本或非负面文本的操作之前,可以基于预设文本过滤规则,删除该待分类文本中的无关文本。
其中,预设文本过滤规则可以通过事先设置得到,该预设文本过滤规则可以包括正则表达式。例如,对于上表1所示的待分类文本,删除其中的无关文本,得到过滤之后的待分类文本可以如下表2所示,与上表1相比,过滤之后的待分类文本不包括网址、数字、@用户等无关文本。
表2
需要说明的是,基于预设文本过滤规则,删除该待分类文本中的无关文本,是一种对待分类文本进行预处理的处理方式,在实际应用中,也可以对原始文本进行其它方式的预处理,比如翻译、字体转换和字号转换中的至少一种。
可选地,在获取到第一训练样本集或第二训练样本集之后,也可以基于预设文本过滤规则,删除第一训练样本集或第二训练样本集中的文本样本中的无关文本。
请参照图6,为本公开所提供的一种文本情感分类装置600的功能模块示意图。需要说明的是,本实施例所提供的文本情感分类装置600,其基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。该文本情感分类装置600包括获取模块601,第一分类模块602和第二分类模块603。
获取模块601,用于获取待分类文本;
第一分类模块602,用于通过预设文本情感分类模型将该待分类文本分类为负面文本或非负面文本;
第二分类模块603,用于当该待分类文本为该非负面文本时,基于预设情感词典,将该待分类文本分类为正面文本或中性文本。
可选地,该预设文本情感分类模型包括特征提取模型和分类器;该第一分类模块602具体用于:
通过该特征提取模型,提取该待分类文本的特征向量;
根据该待分类文本的特征向量,采用该分类器将该待分类文本分类为该负面文本或该非负面文本。
可选地,该特征提取模型为BERT,该第一分类模块602还用于:
通过该BERT确定该待分类文本的字嵌入向量、句嵌入向量和位置嵌入向量,将该字嵌入向量、该句嵌入向量和该位置嵌入向量进行加和,得到该待分类文本的第一特征矩阵;
通过该BERT,对该第一特征矩阵进行处理,得到该待分类文本的第二特征矩阵;将所述第二特征矩阵中的任一行向量确定为所述待分类文本的特征向量。
可选地,请参照图7,该装置还包括:
删除模块604,用于基于预设文本过滤规则,删除该待分类文本中的无关文本。
可选地,该分类器为根据第一训练样本集训练获取得到,该第一训练样本集包括:多个文本样本,各个文本样本标注负面标签或非负面标签。
可选地,该第二分类模块603具体用于:
基于该预设情感词典,识别该待分类文本中关键词的词性;
基于该待分类文本中关键词的词性,将该待分类文本分类为该正面文本或该中性文本。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
请参照图8,为本公开所提供的一种电子设备的功能模块示意图。该电子设备可以为服务器,当然还可以为其他设备,具体可以根据实际情况而定。该电子设备可以包括处理器801、计算机可读存储介质802和总线803,该计算机可读存储介质802存储有该处理器801可执行的机器可读指令,当该电子设备运行时,该处理器801与该计算机可读存储介质802之间通过总线803通信,该处理器801执行该机器可读指令,可以实现上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本公开还提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例。
在本公开所提供的几个实施例中,应该理解到,以上所描述的装置实施例仅仅是示意性的,所揭露的装置和方法,可以通过其它的方式实现。例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行,例如各单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种文本情感分类方法,其特征在于,所述方法包括:
获取待分类文本;
通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本;
当所述待分类文本为所述非负面文本时,基于预设情感词典,将所述待分类文本分类为正面文本或中性文本。
2.如权利要求1所述的方法,其特征在于,所述预设文本情感分类模型包括特征提取模型和分类器;所述通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本,包括:
通过所述特征提取模型,提取所述待分类文本的特征向量;
根据所述待分类文本的特征向量,采用所述分类器将所述待分类文本分类为所述负面文本或所述非负面文本。
3.如权利要求2所述的方法,其特征在于,所述特征提取模型为多层双向转换解码器BERT,所述通过所述特征提取模型,提取所述待分类文本的特征向量,包括:
通过所述BERT确定所述待分类文本的字嵌入向量、句嵌入向量和位置嵌入向量,将所述字嵌入向量、所述句嵌入向量和所述位置嵌入向量进行加和,得到所述待分类文本的第一特征矩阵;
通过所述BERT,对所述第一特征矩阵进行处理,得到所述待分类文本的第二特征矩阵;
将所述第二特征矩阵中的任一行向量确定为所述待分类文本的特征向量。
4.如权利要求1所述的方法,其特征在于,在所述通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本之前,所述方法还包括:
基于预设文本过滤规则,删除所述待分类文本中的无关文本。
5.如权利要求2或3所述的方法,其特征在于,所述分类器为根据第一训练样本集训练获取得到,所述第一训练样本集包括:多个文本样本,各所述文本样本标注负面标签或非负面标签。
6.如权利要求1所述的方法,其特征在于,所述基于预设情感词典,将所述待分类文本分类为正面文本或中性文本,包括:
基于所述预设情感词典,识别所述待分类文本中关键词的词性;
基于所述待分类文本中关键词的词性,将所述待分类文本分类为所述正面文本或所述中性文本。
7.一种文本情感分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本;
第一分类模块,用于通过预设文本情感分类模型将所述待分类文本分类为负面文本或非负面文本;
第二分类模块,用于当所述待分类文本为所述非负面文本时,基于预设情感词典,将所述待分类文本分类为正面文本或中性文本。
8.如权利要求7所述的装置,其特征在于,所述预设文本情感分类模型包括特征提取模型和分类器;所述第一分类模块具体用于:
通过所述特征提取模型,提取所述待分类文本的特征向量;
根据所述待分类文本的特征向量,采用所述分类器将所述待分类文本分类为所述负面文本或所述非负面文本。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910742398.9A CN110532386A (zh) | 2019-08-12 | 2019-08-12 | 文本情感分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910742398.9A CN110532386A (zh) | 2019-08-12 | 2019-08-12 | 文本情感分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532386A true CN110532386A (zh) | 2019-12-03 |
Family
ID=68662940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910742398.9A Pending CN110532386A (zh) | 2019-08-12 | 2019-08-12 | 文本情感分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532386A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144108A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 情感倾向性分析模型的建模方法、装置和电子设备 |
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111355671A (zh) * | 2019-12-31 | 2020-06-30 | 鹏城实验室 | 基于自注意机制的网络流量分类方法、介质及终端设备 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111767399A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112446217A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
CN113312483A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制和BiGRU的文本分类方法 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN113641801A (zh) * | 2021-10-19 | 2021-11-12 | 成都中航信虹科技股份有限公司 | 一种语音调度系统的控制方法、系统及电子设备 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
CN112446217B (zh) * | 2020-11-27 | 2024-05-28 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN104951548A (zh) * | 2015-06-24 | 2015-09-30 | 烟台中科网络技术研究所 | 一种负面舆情指数的计算方法及系统 |
US20150286627A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextual sentiment text analysis |
CN109960793A (zh) * | 2017-12-25 | 2019-07-02 | 上海智臻智能网络科技股份有限公司 | 意见挖掘装置以及智能终端 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
-
2019
- 2019-08-12 CN CN201910742398.9A patent/CN110532386A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150286627A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextual sentiment text analysis |
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN104951548A (zh) * | 2015-06-24 | 2015-09-30 | 烟台中科网络技术研究所 | 一种负面舆情指数的计算方法及系统 |
CN109960793A (zh) * | 2017-12-25 | 2019-07-02 | 上海智臻智能网络科技股份有限公司 | 意见挖掘装置以及智能终端 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
Non-Patent Citations (1)
Title |
---|
吴鹏等: "基于双向长短期记忆模型的网民负面情感分类研究", 《情报学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144108B (zh) * | 2019-12-26 | 2023-06-27 | 北京百度网讯科技有限公司 | 情感倾向性分析模型的建模方法、装置和电子设备 |
CN111144108A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 情感倾向性分析模型的建模方法、装置和电子设备 |
CN111355671A (zh) * | 2019-12-31 | 2020-06-30 | 鹏城实验室 | 基于自注意机制的网络流量分类方法、介质及终端设备 |
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111159414B (zh) * | 2020-04-02 | 2020-07-14 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111767399A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN112446217A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
CN112446217B (zh) * | 2020-11-27 | 2024-05-28 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
CN113312483A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制和BiGRU的文本分类方法 |
CN113641801A (zh) * | 2021-10-19 | 2021-11-12 | 成都中航信虹科技股份有限公司 | 一种语音调度系统的控制方法、系统及电子设备 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
CN114357168B (zh) * | 2021-12-31 | 2022-08-02 | 成都信息工程大学 | 一种文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532386A (zh) | 文本情感分类方法、装置、电子设备及存储介质 | |
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN112989834B (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN107491435B (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN110457689B (zh) | 语义处理方法及相关装置 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110263325A (zh) | 中文分词系统 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN110134793A (zh) | 文本情感分类方法 | |
Li et al. | UTA DLNLP at SemEval-2016 Task 12: deep learning based natural language processing system for clinical information identification from clinical notes and pathology reports | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN114416976A (zh) | 文本标注方法、装置及电子设备 | |
Han et al. | An attention-based neural framework for uncertainty identification on social media texts | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
Li et al. | Clinical information extraction via convolutional neural network | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN112613318B (zh) | 实体名称归一化系统及其方法、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |