CN115757786A - 文本分类方法、装置、设备及存储介质 - Google Patents

文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115757786A
CN115757786A CN202211478964.8A CN202211478964A CN115757786A CN 115757786 A CN115757786 A CN 115757786A CN 202211478964 A CN202211478964 A CN 202211478964A CN 115757786 A CN115757786 A CN 115757786A
Authority
CN
China
Prior art keywords
text
features
vector
classified
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211478964.8A
Other languages
English (en)
Inventor
郑禄
牛悦
宋中山
陈心浩
帖军
尹帆
孙翀
龙吕佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202211478964.8A priority Critical patent/CN115757786A/zh
Publication of CN115757786A publication Critical patent/CN115757786A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机领域,公开了一种文本分类方法、装置、设备及存储介质。该方法通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对待分类向量文本进行局部特征提取,获得局部特征;将全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。由于本发明是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本发明上述方式能够提高文本分类的准确率。

Description

文本分类方法、装置、设备及存储介质
技术领域
本发明涉及文本分类技术领域,尤其涉及一种文本分类方法、装置、设备及存储介质。
背景技术
文本分类是自然语言处理领域的一项基本任务,也是近些年来重点研究内容之一。简单来说,文本分类任务就是将海量的文档通过现有的一些方法或手段将它们分成一个或者多个类别。文本分类技术在问题回答、垃圾邮件检测、情感分析、新闻分类、内容审核等都有十分广泛的应用。其最核心的内容就是从文本中抽取出最关键的特征信息,然后将特征映射到对应的类别。
传统的提取文本特征的方法主要有基于规则和统计的方法、基于机器学习的方法以及近些年在文本分类领域表现更好的深度学习方法。例如,采用传统的统计机器学习模型,首先利用词频-逆文本频率指数算法将文本向量化,再结合支持向量机(supportvector machine,SVM)、逻辑回归等模型进行建模,进而确定文本分类结果,上述方法虽然在某些方面可以提高分类的效果,但由于需要手工提取文本特征同时又忽略了特征之间的关系,容易导致文本分类准确率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种文本分类方法、装置、设备及存储介质,旨在解决现有技术利用词频逆文本频率指数算法进行文本分类导致文本分类准确率不高的技术问题。
为实现上述目的,本发明提供了一种文本分类方法,所述方法包括以下步骤:
通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
根据所述多尺度特征向量获得文本分类结果。
可选地,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤之前,还包括:
获取待分类文本的中心词向量;
根据所述中心词向量确定所述待分类文本的上下文词向量;
根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。
可选地,所述预设多尺度双重模型包括卷积层、池化层、上采样层以及跳跃连接层;
所述通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征的步骤,包括:
通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;
通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;
通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;
通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。
可选地,所述通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征的步骤,包括:
将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;
通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:
Qi=w·A[i:i+h-1]
其中,Qi用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的高度,A[i:i]用于表征矩阵从第i行到第i行的子矩阵。
可选地,所述通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征的步骤,包括:
通过所述上采样层采用双线性内插的方式对所述压缩后的特征进行维度扩展,获得维度扩展后的特征。
可选地,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤,包括:
通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出;
基于预设注意力机制对所述隐藏状态输出进行加权,获得加权结果;
根据所述加权结果确定全局上下文特征。
可选地,所述根据所述多尺度特征向量获得文本分类结果的步骤,包括:
通过预设多尺度联合模型中的全连接层对所述多尺度特征向量进行文本分类,获得文本分类结果。
此外,为实现上述目的,本发明还提供一种文本分类装置,所述装置包括:
全局上下文特征提取模块,用于通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
局部特征提取模块,用于通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
特征拼接模块,用于将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
文本分类结果确定模块,用于根据所述多尺度特征向量获得文本分类结果。
此外,为实现上述目的,本发明还提出一种文本分类设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序配置为实现如上文所述的文本分类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上文所述的文本分类方法的步骤。
本发明通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;根据所述多尺度特征向量获得文本分类结果。由于本发明是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本发明上述方式能够提高文本分类的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的文本分类设备的结构示意图;
图2为本发明文本分类方法第一实施例的流程示意图;
图3为本发明文本分类方法第二实施例的流程示意图;
图4为本发明文本分类装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本分类设备结构示意图。
如图1所示,该文本分类设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对文本分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本分类程序。
在图1所示的文本分类设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文本分类设备中的处理器1001、存储器1005可以设置在文本分类设备中,所述文本分类设备通过处理器1001调用存储器1005中存储的文本分类程序,并执行本发明实施例提供的文本分类方法。
基于上述文本分类设备,本发明实施例提供了一种文本分类方法,参照图2,图2为本发明文本分类方法第一实施例的流程示意图。
本实施例中,所述文本分类方法包括以下步骤:
步骤S10:通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征。
需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,或者是一种能够实现上述功能的电子设备或多尺度联合模型(TCNNRes-BiLSTM-Attention,TCBA)。以下以所述TCBA模型为例,对本实施例及下述各实施例进行说明。
需要说明的是,所述预设双向长短时记忆网络可以是所述TCBA中进行全局特征提取的模型,所述预设双向长短时记忆网络可以是对双向长短时记忆网络(BiLSTM)添加注意力机制获得的网络模型。所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取可以是通过双向长短时记忆网络对所述待分类向量文本进行特征提取,获得双向长短时记忆网络中LSTM模型隐藏状态最终的输出,然后在所述隐藏状态最终的输出后面添加注意力机制,通过对每个LSTM隐藏状态权重的计算,使该模型最后将所有计算权重后的隐藏状态向量的加权和作为最终的特征向量。从而得到全局上下文特征。其中,双向的长短时记忆网络BiLSTM相比于LSTM模型,最大的优势在于它可以编码从后向前的信息,即模型可以获得双向的特征信息。BiLSTM采用两个不同方向的LSTM模型分别对文本前后信息进行训练。
进一步的,为了提高文本分类的准确性,所述步骤S10之前,可包括:获取待分类文本的中心词向量;根据所述中心词向量确定所述待分类文本的上下文词向量;根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。
应理解的是,在文本分类任务中,需要先将文本数据进行预处理,即通过词嵌入层将文本词语转换成词向量表示,最初的词向量表示方法为独热编码(One-Hot Encoding),这种方式的原理是通过设置N位状态寄存器来编码N个状态,这种方法将分类变量作为二进制向量,比如对于[“羊”,“狼”],按照上述方式对N个状态进行编码,由于例子中只有两个特征,因此“羊”表示成10,“狼”表示成01。通过独热编码将离散特征映射到欧式空间,在机器学习算法中十分重要。但如果类别的数量非常庞大,那么所映射的特征空间也会很大大,同时,采用这种编码方式无法获取词语之间的语义相关性,例如“深度学习”和“机器学习”由于其学科相同,语义相近,则向量的语义表示应该也是相近的,但One-Hot编码无法表示出语义相似词语之间的关系。
为了避免出现这样的问题,TCBA模型的词嵌入方法采用预训练模型word2vec,相比于One-Hot编码,word2vec从海量文本语料库中进行训练,相似语义的单词在嵌入空间中距离相近。训练后得到的词向量可以很好的表示出词语之间的关系,word2vec模型主要包含连续词袋模型(continuous bag of words,CBOW)和跳字模型(skip-gram)CBOW和Skip-gram都是用于实现文本的向量化表示,它们的共性在于模型均由输入层、中间层、输出层构成。但区别在于Skip-gram模型利用文中的中心词去预测上下文词汇、而CBOW模型恰好相反,它利用句中的上下文词汇去预测中心词汇。相对于skip-gram模型,CBOW模型的训练速度更快,但CBOW表示文本语义的能力却不如skip-gram。
因此本文采用skip-gram模型来训练词向量,计算公式如下:
Figure BDA0003959248040000071
其中,i∈{t-1,t-2,t+1,t+2},Wt为训练的中间词向量,Wi则表示为中间词的上下文词向量。假设原始的输入文本表示为[W1,W2,…,WN],经过词嵌入后文本表示为X=[x1,x2,…,xN],xi∈Rd,d为词向量维度。
进一步的,为了提高文本分类的准确性,所述步骤S10,可包括:通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出;基于预设注意力机制对所述隐藏状态输出进行加权,获得加权结果;根据所述加权结果确定全局上下文特征。
需要说明的是,所述通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出可以是采用两个不同方向的LSTM分别对待分类向量文本前后信息进行训练,通过精心设计输入门i、遗忘门f、输出门o、内部记忆单元c等门控结构来选择“遗忘”或是“记忆”信息到细胞状态的能力。
在具体实施中,假定输入文本的句子表示为X={x1,x2,x3...xn},其中xi表示句子中的第i个单词,n表示句子X中的单词个数。则在某一时刻,LSTM结构的更新状态如下:
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo·[ht-1,xt]+bo)
ft=σ(Wf·[ht-1,xt]+bf)
Figure BDA0003959248040000072
Figure BDA0003959248040000073
其中,Wi、Wo、Wf和Wc为模型对应的权重大小,bi、bo、bf和bc为偏置,ct为t时刻的细胞状态,σ()用于表征sigmoid激活函数,ht为模型隐藏状态最终的输出,ht-1为t-1时刻的模型状态。
需要说明的是,所述基于预设注意力机制对所述隐藏状态输出进行加权可以是在LSTM模型隐藏状态输出的后面添加注意力机制,通过对每个LSTM隐藏状态权重的计算,使该模型最后将所有计算权重后的隐藏状态向量的加权和作为最终的特征向量。从而得到全局上下文特征。
应理解的是,注意力机制本质上是给不同的词分配不同的权重,使计算结果根据权重值大小更有倾向性的选择出更重要的单词特征。因为权重值越大,在文本中的重要性就越大,把注意力集中在对分类结果影响较大的词汇上对分类效果的提升有很大帮助。BiLSTM-Attention层通过引入注意力机制可以让BiLSTM模型更好地关注到重点单词特征,从而能够得到更好的语义信息表示。
步骤S20:通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征。
需要说明的是,所述预设多尺度双重模型可以是所述TCBA中进行局部特征提取的模型。可以由双层多尺度CNN模型构成,通过跳跃连接的方式加深双层多尺度CNN模型的深度以此来获取更丰富的局部特征信息,所述预设多尺度双重模型由多个尺度的多个卷积层、Max-pooling层、上采样层和跳跃连接层组成。所述通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取可以是通过所述预设多尺度双重模型中的卷积层、Max-pooling层、上采样层、跳跃连接层对所述待分类向量文本进行局部特征提取,获得局部特征。
步骤S30:将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量。
需要说明的是,所述多尺度特征向量可以是将所述全局上下文特征和所述局部特征进行特征拼接后得到的拼接后的特征向量。
步骤S40:根据所述多尺度特征向量获得文本分类结果。
需要说明的是,所述根据所述多尺度特征向量获得文本分类结果可以是通过预设多尺度联合模型中的全连接层对所述多尺度特征向量进行文本分类,获得文本分类结果,所述预设多尺度联合模型可以是所述TCBA模型。为减轻过拟合现象,TCBA模型在全连接层前加入了dropout,以此来提高模型的泛化能力,最后经过全连接层进行文本分类,进行文本分类计算公式如下:
Figure BDA0003959248040000081
其中,
Figure BDA0003959248040000082
用于表征文本分类结果,softmax为激活函数,b为偏置常数,Z用于表征多尺度特征向量、Wz用于表征多尺度特征向量对应的权重矩阵。
本实施例通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;根据所述多尺度特征向量获得文本分类结果。由于本实施例是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本实施例上述方式能够提高文本分类的准确率。
本实施例提出了一种多尺度联合模型(TCNNRes-BiLSTM-Attention,TCBA),该模型不仅能融合文本的局部特征和全局特征,同时也增强了传统混合模型中局部卷积特征提取的能力。模型首先通过词嵌入将待分类文本映射成为低维稠密的词向量矩阵,再利用双层多尺度的CNN网络加强局部特征提取能力的同时,保留了更多的局部关键特征信息,利用BiLSTM模型结合注意力机制提取全局上下文语义信息。最后再利用softmax进行文本数据的多分类。从而能够进一步提升文本分类的准确率。
参考图3,图3为本发明文本分类方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20包括:
步骤S201:通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征。
需要说明的是,所述预设多尺度双重模型包括卷积层、池化层、上采样层以及跳跃连接层。所述通过所述卷积层对所述待分类向量文本进行特征提取可以是卷积层通过设置不同尺度的卷积核大小来对所述待分类向量文本进行特征提取。
进一步的,为了准确的提取待分类文本的局部特征,所述步骤S201,可包括:将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:
Qi=w·A[i:i+h-1]
其中,Qi用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的高度,A[i:i]用于表征矩阵从第i行到第i行的子矩阵。
需要说明的是,所述将所述待分类向量文本转换为预设词嵌入维度的二维矩阵可以是将词嵌入后的待分类向量文本X={x1,x2,x3...xn}表示成一个n*k的二维矩阵,n用于表示待分类文本中的单词个数,k为词嵌入的维度,可分别采用2*k,3*k和4*k大小的卷积核对输入的二维矩阵进行卷积操作,以便能够提取到待分类文本中的n-gram信息。每次卷积过后窗口向下滑动的步长为1。
步骤S202:通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征。
需要说明的是,所述通过所述池化层对所述待处理特征进行特征压缩可以是所述池化层采用最大池化方式对所述待处理特征进行特征压缩。
步骤S203:通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征。
需要说明的是,所述通过所述上采样层对所述压缩后的特征进行维度扩展可以是通过所述上采样层采用双线性内插的方式对所述压缩后的特征进行维度扩展,目的是既能够将提取到的特征信息与原始输入矩阵保持同维度,又能够对池化后得到的重要特征进行扩展。
步骤S204:通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。
需要说明的是,所述通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接可以是通过所述跳跃连接层对所述维度扩展后的特征和待分类文本进行二次卷积和二次池化操作,以捕获更多水平的特征信息,进而将二次卷积和二次池化后的结果进行组合拼接,生成局部特征。
进一步的,为了验证所述TCBA模型对文本分类的准确性,本实施例还包括:通过消融实验和对比实验验证TCBA模型在预测方面的性能,消融实验和对比实验均在Linux系统上进行,CPU为E5-2630 v4@2.20GHz,使用Python3.6编程语言,为更好地表示语义信息采用word2vec训练词向量,具体实验环境如表1所示:
表1-实验环境表
Figure BDA0003959248040000111
应理解的是,验证过程中采用的评估标准可以是使用文本分类任务中广泛采用的的准确率(Accuracy)、精度(Precision)、F1值((F1-measure)和召回率(Recall)。其中准确率(Accuracy)为预测样本中正确的样本数占总样本数的比重,精度(Precision)为预测类别和实际类别都为正例的样本数占所有预测类别为正的比重,召回率(Recall)为预测类别且实际类别都为正的样本数占实际类别为正的样本数比重,F1值为召回率(Recall)和准确率(Accuracy)的加权调和平均值。
Figure BDA0003959248040000112
Figure BDA0003959248040000113
Figure BDA0003959248040000114
Figure BDA0003959248040000115
上述公式中,TP表示预测样本为正例且实际样本也为正例的样本数量;FN表示实际样本为正例但预测样本为负例的样本数量;TN表示实际样本为负例,预测样本也为负例的样本数量;FP表示实际样本为负例但预测样本为正例的样本数量。
应理解的是,验证过程中的参数设置可以是TCBA模型在卷积层通道和BiLSTM注意力机制通道均设置为300维度的词向量。同时为防止过拟合现象,在TCNNRes层和BiLSTM-Attention层均设置dropout数值为0.5,为加快收敛速度采用ReLu激活函数,设置损失函数为多分类任务中常用的交叉熵损失,优化器为Adam,Epoch为100,Batch_size为128。
为验证TCBA模型对分类效果的实用性和有效性,本实施例设置消融实验,分解TCBA模型各个局部网络,分别设置BiLSTM、CNN、BiLSTM-Attention、TCNNRes,实验结果如下表2和表3所示:表2为THUCNews数据集消融实验结果,表3为样本数据集消融实验结果:
表2-THUCNews数据集消融实验结果
Figure BDA0003959248040000121
表3-样本数据集消融实验结果
Figure BDA0003959248040000122
应理解的是,从上述表2和表3中可以看出,BiLSTM与CNN模型在分类上的效果相当,TCBA模型中BiLSTM在引入注意力机制后又与TCNNRes层的分类效果接近。而总体的TCBA模型的分类效果要明显优于其他拆分结构的分类效果。这是因为TCBA模型在分别利用CNN模型和BiLSTM模型优势的同时,通过对CNN模型加强网络结构的深度及尽可能保留更多重要的局部卷积特征来增强模型的局部特征提取能力,通过对BiLSTM模型添加注意力机制使之能够关注学习到关键词汇信息,提高了模型分类的准确率,因此分类的效果要比传统单一的特征提取器效果好。
为验证本研究所提出的TCBA模型的性能,在同等条件下与以下混合基准模型进行对比:
(1)LSTM-CNN:先用LSTM模型提取出文本数据的全局语义关系,再用传统的CNN模型提取由LSTM模型输出的特征信息。
(2)CNN-LSTM:先用CNN模型提取出文本数据的局部特征,再用LSTM模型提取由CNN模型输出的特征信息,最后分类。
(3)CNN-LSTM-Attention(CLA):先用CNN模型获取到文本数据的局部特征,再用LSTM模型将CNN的输出结果作为输入提取全局上下文信息,然后用注意力机制计算分值。
(4)LSTM-Attention(LA):先用LSTM模型提取出全局语义信息,再用注意力机制算出LSTM模型输出的注意力分值。
(5)CNN-Attention(CA):先用CNN模型提取出文本的局部特征信息,再用注意力机制算出CNN模型输出的注意力分值。
将TBCA模型与以上混合基线模型在2个样本数据集上的进行对比,根据对比实验结果可知,在两个数据集下TCBA模型与上述提及的传统深度学习模型相比,分类效果更优,在THUCNews数据集上,与传统的LSTM、LSTM-Attention、CNN-Attention模型相比,分类效果分别提升了3.41个百分点、1.5个百分点、2.94个百分点。CNN-Attention模型和LSTM-Attention模型尽管增加了注意力机制,使模型尽可能地去关注关键单词特征,但在提取特征时仍只考虑了局部特征的提取或是对句子的序列化信息更加关注,特征提取能力被局限化。在第二个样本数据集上,由于数据集存在类别不平衡问题,因此第二个样本数据集的分类效果相较于THUCNews数据集而言总体偏低,但从模型之间的对比结果可以看出,TCBA模型相较于其他分类模型,分类效果仍然优于其他对比模型。
TCBA模型综合考虑以上因素,能更好地表示出文本真实的语义特征。相较于LSTM-CNN和CNN-LSTM联合模型,准确率分别提升了1.81个百分点和2.2个百分点。虽然利用CNN和LSTM的混合模型可以提取到文本的全局语义特征和局部关键信息,相比于单个的传统模型提升了效果,LSTM只能提取从前到后的特征,且这些混合模型也并没有将注意力放在更重要的单词上,而TCBA模型不但可以有效提取到文本的更深层次的局部关键特征,同时兼顾上下文语意信息和提高重点单词特征的关注度,从而使分类效果有了一定程度的提升。
TCBA模型不仅在数据分类的准确率上有大幅提升,在其他评估指标上也有明显的提升效果。在THUCNews数据集上,以混合模型LSTM-CNN为例,精确率、召回率、F1值分别提升了2.27、2.34、2.31个百分点,在第二个样本数据集上,精确率、召回率、F1值分别提升了1.44个百分点、1.45个百分点、1.38个百分点,进一步体现出了TCBA模型的优越性。
实验中对每个模型都分别输入300维的词向量,为进一步验证TCBA模型的分类性能,实验分别对每个模型进行了更进一步的研究,得出了在THUCNews数据集上训练过程的验证集准确率,相比于其他模型CNN-Attention模型的数据波动较大,从第5个训练轮次才开始收敛,LSTM-CNN混合模型从第3个训练轮次开始收敛,TCBA模型曲线从第4个训练轮次开始收敛,波动较小,相对来说也更加平缓,总体来说,TCBA模型训练稳定且准确率更高,在后续的训练中处于优势地位,进而展现了TCBA模型的优越性。
本实施例通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。本实施例中的TCBA模型能够充分利用到BiLSTM模型和多尺度双重模型各自的优势,在此基础之上通过跳跃连接的方式加深多尺度双重模型的深度以此来获取更丰富的局部语义信息。通过对BiLSTM模型引入注意力机制来对权重进行相应调整,使不同重要程度的单词在分类中起不同的作用,以提高文本分类的准确率。
参照图4,图4为本发明文本分类装置第一实施例的结构框图。
如图4所示,本发明实施例提出的文本分类装置包括:
全局上下文特征提取模块10,用于通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
局部特征提取模块20,用于通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
特征拼接模块30,用于将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
文本分类结果确定模块40,用于根据所述多尺度特征向量获得文本分类结果。
本实施例通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;根据所述多尺度特征向量获得文本分类结果。由于本实施例是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本实施例上述方式能够提高文本分类的准确率。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的文本分类方法,此处不再赘述。
基于本发明上述文本分类装置第一实施例,提出本发明文本分类装置的第二实施例。
在本实施例中,所述全局上下文特征提取模块10,还用于获取待分类文本的中心词向量;根据所述中心词向量确定所述待分类文本的上下文词向量;根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。
进一步的,所述局部特征提取模块20,还用于通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。
进一步的,所述局部特征提取模块20,还用于将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:
Qi=w·A[i:i+h-1]
其中,Qi用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的高度,A[i:i]用于表征矩阵从第i行到第i行的子矩阵。
进一步的,所述局部特征提取模块20,还用于通过所述上采样层采用双线性内插的方式对所述压缩后的特征进行维度扩展,获得维度扩展后的特征。
进一步的,所述全局上下文特征提取模块10,还用于通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出;基于预设注意力机制对所述隐藏状态输出进行加权,获得加权结果;根据所述加权结果确定全局上下文特征。
进一步的,所述文本分类结果确定模块40,还用于通过预设多尺度联合模型中的全连接层对所述多尺度特征向量进行文本分类,获得文本分类结果。
本发明文本分类装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上文所述的文本分类方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本分类方法,其特征在于,所述文本分类方法包括以下步骤:
通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
根据所述多尺度特征向量获得文本分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤之前,还包括:
获取待分类文本的中心词向量;
根据所述中心词向量确定所述待分类文本的上下文词向量;
根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。
3.如权利要求1所述的文本分类方法,其特征在于,所述预设多尺度双重模型包括卷积层、池化层、上采样层以及跳跃连接层;
所述通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征的步骤,包括:
通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;
通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;
通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;
通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。
4.如权利要求3所述的文本分类方法,其特征在于,所述通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征的步骤,包括:
将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;
通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:
Qi=w·A[i:i+h-1]
其中,Qi用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的高度,A[i:i]用于表征矩阵从第i行到第i行的子矩阵。
5.如权利要求3所述的文本分类方法,其特征在于,所述通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征的步骤,包括:
通过所述上采样层采用双线性内插的方式对所述压缩后的特征进行维度扩展,获得维度扩展后的特征。
6.如权利要求1所述的文本分类方法,其特征在于,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤,包括:
通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出;
基于预设注意力机制对所述隐藏状态输出进行加权,获得加权结果;
根据所述加权结果确定全局上下文特征。
7.如权利要求1-6任一项所述的文本分类方法,其特征在于,所述根据所述多尺度特征向量获得文本分类结果的步骤,包括:
通过预设多尺度联合模型中的全连接层对所述多尺度特征向量进行文本分类,获得文本分类结果。
8.一种文本分类装置,其特征在于,所述文本分类装置包括:
全局上下文特征提取模块,用于通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
局部特征提取模块,用于通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
特征拼接模块,用于将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
文本分类结果确定模块,用于根据所述多尺度特征向量获得文本分类结果。
9.一种文本分类设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序配置为实现如权利要求1至7中任一项所述的文本分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如权利要求1至7任一项所述的文本分类方法的步骤。
CN202211478964.8A 2022-11-23 2022-11-23 文本分类方法、装置、设备及存储介质 Pending CN115757786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211478964.8A CN115757786A (zh) 2022-11-23 2022-11-23 文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211478964.8A CN115757786A (zh) 2022-11-23 2022-11-23 文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115757786A true CN115757786A (zh) 2023-03-07

Family

ID=85336532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211478964.8A Pending CN115757786A (zh) 2022-11-23 2022-11-23 文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115757786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795886A (zh) * 2023-07-13 2023-09-22 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795886A (zh) * 2023-07-13 2023-09-22 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法
CN116795886B (zh) * 2023-07-13 2024-03-08 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法

Similar Documents

Publication Publication Date Title
CN110309283B (zh) 一种智能问答的答案确定方法及装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN114528844A (zh) 意图识别方法、装置、计算机设备及存储介质
CN113946681B (zh) 文本数据的事件抽取方法、装置、电子设备及可读介质
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN117520523B (zh) 数据处理方法、装置、设备及存储介质
CN112329433A (zh) 文本通顺度检测方法、装置、设备及计算机可读存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN115757786A (zh) 文本分类方法、装置、设备及存储介质
CN113434639A (zh) 审计数据处理方法及装置
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN115408523A (zh) 基于摘要提取和关键字提取的中长文本分类方法和系统
CN114428838A (zh) 内容召回方法、装置、计算机设备及存储介质
CN114547257A (zh) 类案匹配方法、装置、计算机设备及存储介质
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备
CN112148855A (zh) 一种智能客服问题检索方法、终端以及存储介质
CN114764437A (zh) 用户意图识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination