CN110609897B - 一种融合全局和局部特征的多类别中文文本分类方法 - Google Patents
一种融合全局和局部特征的多类别中文文本分类方法 Download PDFInfo
- Publication number
- CN110609897B CN110609897B CN201910739668.0A CN201910739668A CN110609897B CN 110609897 B CN110609897 B CN 110609897B CN 201910739668 A CN201910739668 A CN 201910739668A CN 110609897 B CN110609897 B CN 110609897B
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- global
- data
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 24
- 238000013145 classification model Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 22
- 230000000694 effects Effects 0.000 abstract description 10
- 230000015654 memory Effects 0.000 abstract description 3
- 230000000750 progressive effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 229940124579 cold medicine Drugs 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合全局和局部特征的多类别中文文本分类方法,具体过程如下:获取文本数据并进行预处理;把预处理后的文本向量化表示;利用带有注意力机制的双向长短期记忆网络获取文本的上下文语义特征;然后利用宽卷积神经网络在上下文语义特征的基础上提取带有局部语义信息的全局语义特征;把最终的特征向量输入到分类层实现文本分类。本发明以循序渐进的方式先捕获全局语义特征再捕捉局部语义特征,可以更好的提取文本特征,从而进一步提高文本分类的精度。本发明较好的解决了现有技术在长文本、多类别中文文本分类中存在的提取语义关键特征难度大、分类效果差的问题。
Description
技术领域
本发明涉及自然语言处理的文本分类技术领域,具体涉及一种融合全局和局部特征的多类别中文文本分类方法。
技术背景
近年来,文本数据通过互联网的方式快速增长,积累的文本数据越来越多,在这些海量的数据中蕴含着许多有价值的信息,如何高效的挖掘并利用这些信息成了一大难题,自然语言处理的文本分类技术是一种有效的解决方法。它是先使用文本数据训练分类器模型,然后使用训练完成的模型对新的文本实现划分类别的过程,核心是学习一个序列表示。文本分类技术在日常生活中有着广泛的应用,例如,它可用于舆论分析,垃圾短信和邮件的过滤,问题、主题分类,推荐系统,信息检索,数据挖掘,因此是自然语言处理领域的一个重要研究方向。
目前,学习一个序列表示通常是基于机器学习、深度学习的方法。基于机器学习的方法主要采用决策树、KNN、SVM、逻辑回归、朴素贝叶斯分类,例如,Goudjil等人采用SVM 分类器的后验概率来选择样本并进行分类,但是SVM对大规模数据训练比较困难,且无法直接支持多分类任务;Li等人改进的树增强了朴素贝叶斯,有效的提升了准确率,但计算过程复杂、耗时;Joulin等人提出的FastText模型考虑了单词间的顺序关系和分类器的计算速度,模型结构简单且计算速度快,但准确率较低。虽然基于机器学习方法的效果在不断优化,但仍然存在着文本表示高维度、高稀疏、特征表达能力弱、需要人工提取特征、且只能适用小规模数据集的文本分类等问题。
近年来,伴随着深度学习的发展出现了许多基于神经网络的文本分类方法,由于文本是时序型数据,因此学界主要采用循环神经网络捕捉文本信息。Goles等人利用隐藏层的循环递归来改进传统前向神经网络,提出了RNN网络,它以循环递归特性来挖掘数据的序列信息,由于RNN自身的循环递归特性,导致网络结构复杂度高,所以处理数据比较耗时,而且RNN还存在梯度爆炸和梯度消失等问题。Schuster等人提出了RNN的一种变体BiLSTM 网络,该网络不仅可以获取更长的序列信息,而且可以通过双向结构更好地表达上下文信息,改进的BiLSTM网络虽然在一定程度上缓解了梯度爆炸和梯度消失的问题,但是使得计算量进一步剧增。Kim等人将卷积神经网络(CNN)运用到文本分类任务中[21],CNN具有稀疏连接和参数共享的特点,从而显著的改善了时间花销问题,但是由于卷积核的固定而无法获取长序列信息。针对这一现象Kalchbrenner等人[22]利用宽卷积代替窄卷积,并采用K-maxpooling的方式较好的解决了输入序列长度受限的问题。CNN虽然可以高效挖掘文本数据的局部语义特征,且训练速度非常快,但它无法获取上下文信息。在不同任务研究中,CNN、RNN以自身网络结构特点展现出了各自的优势与不足。
因此,需要对现有技术进行改进,以提高文本分类的准确度,使其适用于多种类型的文本分类任务。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种融合全局和局部特征的多类别中文文本分类方法,尽可能的避免文本特征信息的丢失,实现高容错的效果,使其适用于多种类型的文本分类任务,尤其是多分类的长文本分类场景。
本发明的目的可以通过采取如下技术方案达到:
一种融合全局和局部特征的多类别中文文本分类方法,所述的文本分类方法包括以下步骤:
S1、获取文本数据,并对数据进行预处理;
S2、把预处理后的文本数据映射为词向量;
S3、搭建混合神经网络文本分类模型;
S4、建立目标函数,采用随机梯度下降法训练S3中的文本分类模型。
进一步地,步骤S1中所述的预处理过程如下:
S2.1:对文本数据进行数据清洗预处理,包括删除原始数据集中的无关数据、重复数据以及处理异常值和缺失值数据,初步筛选掉与分类无关的信息;
S2.2:对文本数据进行类别标签标注;
S2.3:对标注完成的文本数据进行分词、去停用词、TextRank预处理操作,进一步清除无关数据,其中,TextRank算法主要是针对长文本数据,该算法不需要事先对文本进行训练就可以实现关键信息的提取。
进一步地,S2中所述的把预处理后的文本数据映射为词向量过程如下:
使用自然语言技术处理文本分类的前提条件是,把文本数据转化为计算机能够识别和处理的向量化形式,在本发明中通过词嵌入矩阵的映射,把按批次读入带有标签的文本数据映射为一个三维词向量矩阵M,词嵌入矩阵可以由Word2Vec或者NNLM方法得到,此时,一个包含n个字的文本Dj={x1,x2,…,xn}可以向量化表示成如下形式:
e=(e1,e2,...,ei,...,en)
其中,e∈Rn×d,表示词嵌入矩阵,vw表示字典大小,d表示词向量维度,每个字在词嵌入矩阵Ew中都有一个唯一的用于检索其对应词向量的索引/>它是一个维度为字典大小值为0或1的二值向量,除了xi位置外的所有位置都是零,这些词向量表示保持了语料最原始的信息,对接下来的步骤影响重大。
进一步地,S3中所述的搭建混合神经网络文本分类模型过程如下:
本发明设计的文本分类模型包括上下文语义提取器模块、局部语义提取器模块、文本分类输出模块三个部分组成。
所述上下文语义提取器用于提取文本数据的上下文语义特征,具体为:
递归神经网络RNN擅长解决时间序列问题,但它不能很好的处理长时记忆的问题且存在梯度消失和梯度爆炸的现象,长短时记忆网络LSTM可以很好的解决上述问题。
使用LSTM提取全局语义特征,在时间步t时的隐藏层状态ht更新如下:
it=σ(Weiet+Whiht-1+bi)
ft=σ(Wefet+Whfht-1+bf)
gt=tanh(Wecet+Whfht-1+bc)
ct=itgt+ftct-1
ot=σ(Weoet+Whoht-1+bc)
ht=ottanh(ct)
LSTM作为RNN的一种经典变体,它通过门结构调节信息,并通过存储单元存储历史信息,它主要由4个部分组成:输入门it、遗忘门ft、输出门ot、候选门gt,其中Wei、Whi、 Wef、Whf、Weo、Who、Wec、Whf分别表示权重,bi、bf、bo、bc分别表示偏置值,σ和tanh 表示激活函数,所有的这些门都将对下一时刻数据产生一定的影响。使用当前的词向量ei和前一时刻的隐藏状态ht-1作为输入,单元结构决定当前的状态是否使用这些输入,是否要遗忘之前存储的部分记忆,并输出新生成的状态,因此,当前单元状态ct是通过计算前一时刻单元状态ct-1的权重和该单元当前所生成的信息共同决定。
标准的LSTM网络在对文本进行建模的时,只是考虑到了时序信息而忽略了下文信息, Bi-LSTM网络通过正向和反向两层网络结构来扩展单向的LSTM网络,保证了在时间序列上对过去和未来的信息都能考虑到,这样就可以充分获取文本的全局语义特征。如图2所示,Cb0、Cf0分别表示正向和反向的初始单元状态信息,Cbn和Cfn存储着正向和反向最终的单元状态信息。
将词向量输入到正向Bi-LSTM网络中,得到前向隐藏层特征同理,将词向量输入到反向Bi-LSTM网络,可得到后向隐藏层特征/>Bi-LSTM网络在第i个时刻的上下文词嵌入表示hi是正向输出/>和反向输出/>的级连,拼接每个时间步的语义状态得到全局语义特征H:
H=(h1,h2,...,hi...,hn)
其中, 表示拼接操作,H∈Rbatch×n×2d,batch为每一批次读入的文本数据条数,n表示时间步长,它等于文本最大序列长度,d表示特征向量的维度。
注意力机制是一种资源分配制度,它通过模拟人脑注意力的特点,对重要的信息给予较多的注意,在自然语言处理中引入注意力机制,可以突出输入各部分对输出的影响程度。本发明在Bi-LSTM模块之后引入注意力机制,生成含有注意力概率分布a的加权全局语义特征V,由此突出全局语义特征中不同特征对文本分类的影响。
a=[a1,a2,...,ai,...,ar*n]
其中,a∈Rbatch×r*n×2d,m=Wa2σ(Wa1H+ba),r表示每个文本的Attention方案数量,Wa1∈Rd×n是全局注意力权重矩阵,ba为全局注意力偏置矩阵,σ为激活函数,wa2∈Rr*n×d表示每个文本不同的注意力方案矩阵,ai是第i时刻的全局语义特征注意力概率分布,m值越大说明了该时刻的全局语义特征越重要。
得到每一时刻的注意力概率分布ai后,将它们分别和该时刻对应的全局语义特征hi相乘,就可以得到第i时刻的加权全局语义特征Vi,拼接每个时刻的加权全局语义特征,得到加权全局语义特征V:
V=[V1,V2,...,Vi,...,Vr*n]
其中,Vi=aihi,V∈Rbatch×r*n×2d。
所述局部语义提取器用于在加权全局语义特征的基础上提取文本数据的局部语义特征,具体为:
把加权全局语义特征V作为宽卷积神经网络CNN的输入,CNN对加权全局语义特征进行卷积操作,每一次卷积都通过一个固定大小的窗口来产生一个新的特征经过卷积后得到第j个文本包含局部和全局语义特征的Cj:
其中,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h表示卷积操作所采用的卷积核向量,h和2d分别表示卷积核窗口的高和宽,Vi:h表示输入加权全局语义特征的第i行到第h行的特征值,对应文本的第i个到第h个字,bvi表示偏置。
接着采用最大池化方法,得到每个文本的最终特征表示获取所有/>后,就得到该批次文本数据最终的文本特征向量表示C:
其中,C∈Rbatch×2d,
所述文本分类输出模块用于实现文本数据的预测输出,具体为:
得到最终的特征向量表示后,最后的工作就是将得到的文本特征向量通过Softmax分类器来判断该文本属于哪一类。
把最终得到的特征向量C作为分类层的输入,分类层采用dropout方式将最佳特征Cd连接到Softmax分类器中,并计算输出向量p(y):
p(y)=soft max(WcCd+bc)
其中,p(y)∈Rbatch×classes,Wc∈R2u×classes和bc分别表示Softmax分类器的权重参数和偏置项,classes表示文本的类别数,Cd∈Rbatch×2u为C通过dropout产生的最佳特征。
Softmax分类器用于计算出文本数据属于每一类别的概率p(y),它是一个维度为类别数量大小的向量,其每一维都是一个0~1范围内的数字,代表该文本属于各类别的概率,然后选择最大概率y对应的类型作为文本分类的预测输出:
y=arg max(p(y))
通过分类器层之后,整个模型就实现对文本数据的分类任务。
进一步地,S4中所述的建立目标函数训练搭建完成的文本分类模型过程如下:
在模型训练过程中,为了衡量预测结果与文本真实类别之间的相似度,采用最小化优化方法,把预测结果与文本真实类别之间的交叉熵J(θ)作为模型训练的目标函数,然后使用随机梯度下降法训练文本分类模型。
其中,θ为混合神经网络文本分类模型当前参数,N为训练样本大小,L为样本对应的真实类别标签,Lj∈L,y为Softmax分类器的预测分类结果,p(Lj)表示正确分类结果,交叉熵可以通过p(Lj)来表达y的困难程度,交叉熵越小,p(Lj)和y就越接近。对交叉熵再取均值同时引入L2正则化作为该模型的最终目标函数,λ是L2正则项系数。
在训练模型时采用Adam方法来最小化目标函数J(θ),它主要利用梯度的一阶矩估计和二阶矩估计动态调整模型的每个参数,经过Adam的偏置校正后,每一次的迭代学习都会有一个确定范围,使得参数变化较为平稳。
本发明相对于现有技术具有如下的优点及效果:
1)本发明提出先获取文本数据的加权全局语义特征信息,再基于加权全局语义特征的基础上获取局部语义特征信息,从而得到最终的文本特征表示。模型汲取了Bi-LSTM、Attention机制、CNN各自的优势。首先利用Bi-LSTM提取文本的全局语义特征,并在此过程中引入Attention机制计算每一时刻全局语义特征的重要程度;然后利用CNN神经网络提取局部语义特征,进一步挖掘文本的特征信息;最后结合全局和局部语义特征完成中文文本分类任务。采取这样的方法能有效避免文本特征信息的丢失,达到高容错的效果。
2)针对长文本数据,为了尽可能的减少无关数据对分类的影响,在预处理时使用TextRank算法。
3)在计算加权全局语义特征信息时,为了实现attention的多样性,使用r种attention 方案代替传统的单attention方案,不同的attention方案可以学习到不同侧重点的句子表示,从而能够提取到更有价值的特征信息,提高分类准确率。
4)模型在最大限度的获取词向量语义特征信息的同时,缓解了传统文本分类方法只能进行简单线性分类,而不能很好解决非连续性和长期依赖问题。此外,本发明提出的方法很好的解决了在文本分类时简短语料信息量少的问题。
5)模型不仅适用于短文本、少类别的分类,而且可以很好的处理长文本、多类别分类任务,可应用于舆论分析,垃圾短信和邮件的过滤,问题、主题分类,推荐系统,信息检索,数据挖掘应用中。
6)本发明与目前其它文本分类方法相比可以取得更优的效果。说明本发明提出的一种融合全局和局部特征的多类别中文文本分类方法,使用该方法可以得到更好的序列表示。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1示出了本发明的文本分类方法流程图;
图2示出了本发明的混合神经网络文本分类模型示意图;
图3示出了本发明的文本向量化过程示意图;
图4示出了本发明在短文本三分类情感分析任务中语料的句子长度分布;
图5示出了本发明在短文本三分类情感分析任务中语料关键信息词云图;
图6示出了本发明在短文本三分类情感分析任务中模型训练过程准确度变化示意图;
图7示出了本发明在短文本三分类情感分析任务中模型训练过程误差变化示意图;
图8示出了本发明在长文本多分类任务中语料的句子长度分布;
图9示出了本发明在长文本多分类任务中模型训练过程准确度变化示意图;
图10示出了本发明在长文本多分类任务中模型训练过程误差变化示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明了,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域其他人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明可应用于互联网上的文本分类任务,例如电商网站的舆论分析和新闻网站的文本分类场景中。根据本发明的一个实施例,提供了一种融合全局和局部特征的多类别中文文本分类方法,简言之,该方法包括,先将文本数据进行预处理并向量化表示;利用向量化表示的数据训练本发明提出的文本分类模型;使用训练完成的模型进行文本分类预测,具体流程如图1所示,该方法包括以下步骤:
步骤S1、获取文本数据,并对数据进行预处理。
本次实验使用的语料数据是利用爬虫技术爬取国内某大型电商平台上关于**感冒药销售的评数据,利用本发明提出的文本分类方法,挖掘消费者在使用该药物的一些隐含信息,模型可以分析出该药物从销售到消费者服用各环节中存在的一些问题,从而能够间接地指导工作人员进行后续的改进工作。本次实验语料基本信息如表1所示,图4展示了本次实验语料的句子长度分布情况,图5展示了所使用语料的一些关键信息词云图。
表1短文本三分类情感分析任务中使用的语料信息
对**感冒药评论数据进行数据清洗预处理,包括删除原始数据集中的无关数据、重复数据以及处理异常值和缺失值数据,例如HTML网页标签、标点符号、特殊表情符号,初步筛选掉与分类无关的信息。
把**感冒药评论数标注为好评、中评、差评三类。
对标注完成的评论数据使用jieba进行分词和去停用词,此过程使用的部分医学专有名词和停用词分别如表2和表3所示。
表2分词过程使用的部医学专业名词
针对长文本数据使用TextRank算法进一步清除无关数据,该算法不需要事先对文本进行训练就可以实现关键信息的提取。
把预处理完成的文本数据分为训练集、测试集和验证集三部分。
步骤S2、把预处理后的文本数据映射为词向量。
评论数据向量化过程如图3所示。
通过词嵌入矩阵的映射,把按批次读入带有标签的文本数据映射为一个三维词向量矩阵,该三维词向量矩阵包含两部分内容:评论内容D和标签内容L,词嵌入矩阵可以由Word2Vec 或者NNLM方法得到。
表3分词过程使用的部分停用词
步骤S3、搭建混合神经网络文本分类模型。
本发明设计的文本分类模型包括上下文语义提取器模块、局部语义提取器模块、文本分类输出模块三个部分组成,进一步可细分为七个层次:(1)输入层;(2)预处理层;(3)词嵌入层;(4)Bi-LSTM层,它通过正向LSTM网络和反向LSTM网络来提取文本数据的全局语义特征;(5)attention机制层,生成含有注意力概率分布的加权全局语义特征;(6)CNN 层,在加权全局语义特征的基础上进行局部语义特征提取,得到最终的特征表示;(7)输出层。图2示出了本发明提出的文本分类模型结构示意图,模型使用的部分参数如表4所示。
表4短文本三分类情感分析任务中搭建模型使用的部分参数
步骤S4、建立目标函数,采用随机梯度下降法训练设计完成的的文本分类模型。
为了方便评估本文提出的模型,采用了文本分类常用评价指标:准确率、召回率和F1 值作为综合评价指标。
模型整个训练过程的准确度和损失值变化如图6和图7所示。当循环达到2000次左右时,准确度逐渐趋于稳定,维持在99.00%左右,损失值最终维持在0.01左右。为了比较本发明提出的TBLC-rAttention模型性能,本次实验选取了CNN、LSTM、Bi-LSTM、BiLSTM-Attention、RCNN 5种分类模型作为比较基准,复现的5种分类模型和TBLC-rAttention模型的比较结果如表5所示,所有的数据是在训练准确度和测试准确度都不再变化,再循环1000次后得到的结果。
在表5中,通过LSTM和Bi-LSTM的实验结果可以发现,虽然Bi-LSTM花费的时间比LSTM多,但是准确度提高了约3%,这是由于Bi-LSTM网络通过正向和反向两层网络结构来扩展单向的LSTM网络的结果,这样的网络结构可以充分提取文本的上下文信息,因此准确度会得到改善,但是空间复杂度是LSTM的2倍,所以花费的时间比LSTM略长;在Bi- LSTM模型中引入Attention机制准确度提高了4%左右,说明Attention机制的确可以有效的识别出对分类有效的特征信息;只使用CNN网络进行文本分类时,虽然准确率不是最好的但大大的节省了训练时间;RCNN汲取了RNN和CNN各自的优势,分类效果比单独使用 RNN或者CNN的效果都好,与BiLSTM+Attention效果接近;本发明提出的TBLC-rAttention 文本分类模型在RCNN的基础上引入rAttention机制,并在预处理过程中使用了TextRank 算法,使得模型的分类准确率达到了99%,在本次实验的所有模型中分类准确度最高。
表5短文本三分类情感分析任务中各模型总体表现对比结果
步骤S5、使用验证集文本数据,验证训练完成的文本分类模型。
表6展示了TBLC-rAttention模型的验证效果,模型基本上以100%的准确率实现了评论数据分类,值得一提的是当消费者没有进行评论,电商系统会默认为好评,但模型将这类数据视为中评,这更符合我们的期望。
表6短文本三分类情感分析任务中TBLC-rAttention模型验证结果
实施例2
本发明提出的模型也适用于长文本多类别中文文本分类任务,长文本数据采用清华大学自然语言处理实验室推出的THUCT中文文本数据集,该数据集文本数量大、类别多,包含财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐共计14类,数据集划分基本信息如表7所示,图8展示了本次实验语料的句子长度分布情况。复现的5种分类模型和TBLC-rAttention模型的比较结果如表8和表9所示,其中,表8示出了在长文本多分类任务中各模型总体对比结果;表9示出了在长文本多分类任务中各模型在每一小类上的准确率对比结果,所有的数据是在训练准确度和测试准确度都不再变化,再循环1000次后得到的结果。模型整个训练过程的准确度和损失值变化如图9和图 10所示。当循环达到3000次左右时,准确度逐渐趋于稳定维持在94.00%左右,损失值最终维持在0.06左右。此外,在具体的每一类识别效果中TBLC-rAttention的表现也是最好的。
表7长文本多分类任务中使用的语料信息
表8长文本多分类任务中各模型总体表现对比结果
表9长文本多分类任务中各模型在每一小类上的准确率对比结果
综上所述,本发明提出的模型实现了先提取文本数据的加权全局语义特征,再基于加权全局语义特征的基础上获取局部语义特征得到最终的文本特征表示,同时用训练好的模型可以很好的完成文本多分类任务,且比现有的文本分类方法表现的更出色。它不仅适用于短文本、少类别的分类,而且可以很好的处理长文本、多类别的分类任务。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种融合全局和局部特征的多类别中文文本分类方法,包括以下步骤:
S1、获取文本数据,并对数据进行预处理;
S2、把预处理后的文本数据映射为词向量;
其特征在于还包括以下步骤:
S3、搭建混合神经网络文本分类模型,模型包括上下文语义提取器模块、局部语义提取器模块、文本分类输出模块三个部分;
所述上下文语义提取器包括正向Bi-LSTM网络、反向Bi-LSTM网络以及引入的注意力机制,用于提取文本数据的上下文语义特征V,具体为:
将词向量输入到正向Bi-LSTM网络中,得到前向语义特征同理,将词向量输入到反向Bi-LSTM网络,可得到反向语义特征/>Bi-LSTM网络在第i个时刻的上下文词嵌入表示hi是正向/>和反向/>的级连,拼接每个时间步的语义状态得到全局语义特征H:
H=(h1,h2,...,hi...,hn)
其中, 表示拼接操作,H∈Rbatch×n×2d,batch为每一批次读入的文本数据条数,n表示时间步长,它等于文本最大序列长度,d表示特征向量的维度;
在Bi-LSTM模块之后引入注意力机制,生成含有注意力概率分布a的加权全局语义特征V,用于突出全局语义特征中不同特征对文本分类的影响,a的具体表述方式如下:
a=[a1,a2,...,ai,...,ar*n]
其中,m=Wa2σ(Wa1H+ba),r表示每个文本的attention方案数量,Wa1∈Rd×n是全局注意力权重矩阵,ba为全局注意力偏置矩阵,σ为激活函数,wa2∈Rr*n×d表示每个文本不同的注意力方案矩阵,ai是第i时刻的全局语义特征注意力概率分布,m值越大说明了该时刻的全局语义特征越重要;
得到每一时刻的注意力概率分布ai后,将它们分别和该时刻对应的全局语义特征hi相乘,就得到第i时刻的加权全局语义特征Vi,拼接每个时刻的加权全局语义特征,得到加权全局语义特征V:
V=[V1,V2,...,Vi,...,Vr*n]
其中,Vi=aihi,V∈Rbatch×r*n×2d;
所述局部语义提取器采用宽卷积神经网络CNN,用于在加权全局语义特征的基础上提取文本数据的局部语义特征,具体为:
把加权全局语义特征V作为宽卷积神经网络CNN的输入,CNN对加权全局语义特征进行卷积操作,每一次卷积都通过一个固定大小的窗口来产生一个新的特征经过卷积后得到第j个文本包含局部和全局语义特征的Cj:
其中,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h表示卷积操作所采用的卷积核向量,h和2d分别表示卷积核窗口的高和宽,Vi:h表示输入加权全局语义特征的第i行到第h行的特征值,对应文本的第i个到第h个字,bvi表示偏置;
接着采用最大池化方法,得到每个文本的最终特征表示获取所有/>后,就得到文本数据最终的文本特征向量表示C:
其中,C∈Rbatch×2d,
所述文本分类输出模块用于实现待分类文本数据的类型预测,具体为:
把最终得到的特征向量C作为分类层的输入,分类层采用dropout方式将最佳特征Cd连接到Softmax分类器中,并计算输出向量p(y):
p(y)=softmax(CdWc+bc)
其中,p(y)∈Rbatch×classes,Wc∈R2u×classes和bc分别表示Softmax分类器的权重参数和偏置项,classes表示文本的类别数,Cd∈Rbatch×2u为C通过dropout产生的最佳特征;
Softmax分类器用于计算出文本数据属于每一类别的概率p(y),它是一个维度为类别数量大小的向量,其每一维都是一个0~1范围内的数字,代表该文本属于各类别的概率,然后选择最大概率y对应的类型作为文本分类的预测输出;
S4、采用最小化优化方法,把预测结果与训练文本真实类别之间的交叉熵作为模型训练的目标函数,并使用随机梯度下降法训练文本分类模型;
S5、将经过步骤S1、S2处理后的待分类文本数据输入训练完成的混合神经网络文本分类模型进行中文文本分类预测,输出待分类文本的类型。
2.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特征在于,步骤S1中所述的预处理过程如下:
S 2.1:对文本数据进行数据清洗预处理,初步去除无关数据;
S 2.2:对文本数据进行类别标签标注;
S 2.3:对标注完成的文本数据进行分词、去停用词、TextRank预处理操作,进一步清除无关数据。
3.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特征在于,步骤S2中所述的把预处理后的文本数据映射为词向量过程如下:
通过词嵌入矩阵的映射,把按批次读入带有标签的文本数据映射为一个三维词向量矩阵M,其中,所述的词嵌入矩阵由Word2Vec或者NNLM方法得到,具体的一个包含n个字的文本Dj={x1,x2,…,xn}的词向量表示如下:
e=(e1,e2,...,ei,...,en)
其中,e∈Rn×d,表示词嵌入矩阵,vw表示字典大小,d表示词向量维度,每个字在词嵌入矩阵Ew中都有一个唯一的用于检索其对应词向量的索引/>它是一个维度为字典大小值为0或1的二值向量,除了xi位置外的所有位置都是零。
4.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特征在于,步骤S4中所述的训练文本包括文本数据、文本类型标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739668.0A CN110609897B (zh) | 2019-08-12 | 2019-08-12 | 一种融合全局和局部特征的多类别中文文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739668.0A CN110609897B (zh) | 2019-08-12 | 2019-08-12 | 一种融合全局和局部特征的多类别中文文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110609897A CN110609897A (zh) | 2019-12-24 |
CN110609897B true CN110609897B (zh) | 2023-08-04 |
Family
ID=68889820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910739668.0A Active CN110609897B (zh) | 2019-08-12 | 2019-08-12 | 一种融合全局和局部特征的多类别中文文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609897B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111147396B (zh) * | 2019-12-26 | 2023-03-21 | 哈尔滨工程大学 | 一种基于序列特征的加密流量分类方法 |
CN111241234B (zh) * | 2019-12-27 | 2023-07-18 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111221966A (zh) * | 2019-12-31 | 2020-06-02 | 北京科东电力控制系统有限责任公司 | 一种文本语义关系提取方法及系统 |
CN111177493B (zh) * | 2020-01-03 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器和存储介质 |
CN111291183B (zh) * | 2020-01-16 | 2021-08-03 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
CN111475642A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分类方法、装置及模型训练方法 |
CN111400606B (zh) * | 2020-06-02 | 2020-12-01 | 江苏省质量和标准化研究院 | 一种基于全局和局部信息抽取的多标签分类方法 |
CN111814468B (zh) * | 2020-07-09 | 2021-02-26 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111859909B (zh) * | 2020-07-10 | 2022-05-31 | 山西大学 | 一种语义场景一致性识别阅读机器人 |
CN111949794B (zh) * | 2020-08-14 | 2024-06-28 | 扬州大学 | 一种用于文本多分类任务的在线主动机器学习方法 |
CN112069831B (zh) * | 2020-08-21 | 2024-05-31 | 三峡大学 | 基于bert模型和增强混合神经网络的不实信息检测方法 |
CN112015863B (zh) * | 2020-08-26 | 2023-06-13 | 华东师范大学 | 一种基于图神经网络的多元特征融合中文文本分类方法 |
CN112348058B (zh) * | 2020-10-20 | 2022-10-11 | 华东交通大学 | 一种基于cnn-lstm网络的卫星云图分类方法和计算机可读存储介质 |
CN112765989B (zh) * | 2020-11-17 | 2023-05-12 | 中国信息通信研究院 | 基于表示分类网络的变长文本语义识别方法 |
CN112328797A (zh) * | 2020-11-24 | 2021-02-05 | 山东师范大学 | 一种基于神经网络和注意力机制的情感分类方法及系统 |
CN112527959B (zh) * | 2020-12-11 | 2023-05-30 | 重庆邮电大学 | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 |
CN112541083A (zh) * | 2020-12-23 | 2021-03-23 | 西安交通大学 | 一种基于主动学习混合神经网络的文本分类方法 |
CN112580370B (zh) * | 2020-12-24 | 2023-09-26 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
CN112749278B (zh) * | 2020-12-30 | 2022-10-18 | 华南理工大学 | 一种建筑工程变更指令的分类方法 |
CN112884009A (zh) * | 2021-01-25 | 2021-06-01 | 北京紫光展锐通信技术有限公司 | 一种分类模型训练方法及系统 |
CN112861672B (zh) * | 2021-01-27 | 2022-08-05 | 电子科技大学 | 一种基于光学-sar异源遥感图像匹配方法 |
CN112580352B (zh) * | 2021-03-01 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN113220874B (zh) * | 2021-03-13 | 2023-04-07 | 山东师范大学 | 一种多标签文本分类方法及系统 |
CN113033189B (zh) * | 2021-04-08 | 2022-07-12 | 北京理工大学 | 一种基于注意力分散的长短期记忆网络的语义编码方法 |
CN113051914A (zh) * | 2021-04-09 | 2021-06-29 | 淮阴工学院 | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 |
CN113626557A (zh) * | 2021-05-17 | 2021-11-09 | 四川大学 | 一种基于要素标注与bert和rcnn算法的智能法条推荐辅助系统 |
CN113254646A (zh) * | 2021-06-09 | 2021-08-13 | 中国银行股份有限公司 | 新闻资讯分类方法及装置 |
CN113434685B (zh) * | 2021-07-06 | 2024-05-28 | 中国银行股份有限公司 | 一种资讯分类处理的方法及系统 |
CN113535960A (zh) * | 2021-08-02 | 2021-10-22 | 中国工商银行股份有限公司 | 一种文本分类方法、装置和设备 |
CN113781527B (zh) * | 2021-11-10 | 2022-02-08 | 华中科技大学 | 一种基于多交互时空图网络的行人轨迹预测方法和系统 |
CN114398483A (zh) * | 2021-12-10 | 2022-04-26 | 北京航空航天大学 | 一种预包装食品分类方法 |
CN114706987B (zh) * | 2022-06-06 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 文本类目预测方法、装置、设备、存储介质和程序产品 |
CN115033896B (zh) * | 2022-08-15 | 2022-11-08 | 鹏城实验室 | 以太坊智能合约漏洞检测方法、装置、系统与介质 |
CN116055293B (zh) * | 2023-04-03 | 2023-06-20 | 深圳市纵联网络科技有限公司 | 路由器的远程故障监控方法及路由器 |
CN117688944B (zh) * | 2024-01-31 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于多粒度卷积特征融合的中文情感分析方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605729B (zh) * | 2013-11-19 | 2017-06-06 | 段炼 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
CN107092596B (zh) * | 2017-04-24 | 2020-08-04 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
US10896385B2 (en) * | 2017-07-27 | 2021-01-19 | Logmein, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109902293B (zh) * | 2019-01-30 | 2020-11-24 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
-
2019
- 2019-08-12 CN CN201910739668.0A patent/CN110609897B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110609897A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
Jin et al. | Multi-label sentiment analysis base on BERT with modified TF-IDF | |
Yang et al. | Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate | |
Wang et al. | Design of deep learning Mixed Language short Text Sentiment classification system based on CNN algorithm | |
Naqvi et al. | Roman Urdu news headline classification empowered with machine learning | |
Jayakody et al. | Sentiment analysis on product reviews on twitter using Machine Learning Approaches | |
Purba et al. | Document level emotion detection from bangla text using machine learning techniques | |
Shirzad et al. | Deep Learning approach for text, image, and GIF multimodal sentiment analysis | |
Kalbhor et al. | Survey on ABSA based on machine learning, deep learning and transfer learning approach | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Ruan et al. | Chinese news text classification method based on attention mechanism | |
CN114925689A (zh) | 一种基于bi-lstm-mhsa的医疗文本分类方法及装置 | |
Al Mahmud et al. | A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |