CN114357165A - 一种基于深度学习网络的短文本分类方法 - Google Patents

一种基于深度学习网络的短文本分类方法 Download PDF

Info

Publication number
CN114357165A
CN114357165A CN202111655718.0A CN202111655718A CN114357165A CN 114357165 A CN114357165 A CN 114357165A CN 202111655718 A CN202111655718 A CN 202111655718A CN 114357165 A CN114357165 A CN 114357165A
Authority
CN
China
Prior art keywords
short text
short
data set
vocabulary
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111655718.0A
Other languages
English (en)
Inventor
吴健
朱小龙
周从华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202111655718.0A priority Critical patent/CN114357165A/zh
Publication of CN114357165A publication Critical patent/CN114357165A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于深度学习网络的短文本分类方法,属于自然语言处理技术领域。包括以下步骤:将短文本数据集进行数据清洗,得到质量更高的短文本数据集;将短文本数据集进行处理,得到短文本词汇表、关键词词汇表、标签词汇表;利用CBOW神经网络训练得到文本词向量,再将标签替换短文本中的关键词,训练得到标签词向量;将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算;将新的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题,提高了短文本分类的准确性。

Description

一种基于深度学习网络的短文本分类方法
技术领域
本发明涉及一种基于深度学习网络的短文本分类方法,属于自然语言处理技术领域。
背景技术
随着网络的快速发展及其在生活中的广泛应用导致了短文本数据的激增。将短文本根据应用场景进行分类,在很多应用程序中具有重要意义。例如邮件系统中的垃圾邮件过滤、外卖系统中的情感分析、社交软件的个性化推荐等等。因此,在人工智能领域下的自然语言处理领域,短文本分类已成为学术界和工业界的一个研究热点。
与普通文本相比,短文本通常由几个或十几个词语组成,且数据规模庞大,因此短文本具有稀疏性、大规模性、即时性,导致传统的方法难以处理短文本分类。其主要原因在于短文本的字数有限,难以提取足够的特征。因此需要设计一种良好的短文本分类方法,来解决上述问题。
现有技术中,针对短文本分类问题,主要方法有基于机器学习与基于深度学习两类。基于传统机器学习的方法主要依靠词频、词语共现、共享文档等来定义文档相似度,但短文本由于数据稀疏难以达到预期准确率。基于深度学习的方法,能够从文本中提取较为丰富的特征。但是现有方法忽略了类别本身的特征,仅从短文本本身提取特征,导致文本特征不够丰富。
发明内容
针对上述问题,本发明提出了一种基于深度学习网络的短文本分类方法,在长短期神经网络和卷积神经网络的的基础上,引入融合标签向量的注意力机制,并设计了新的损失函数来适应双模型,能够从短文本中提取更为丰富的特征。
为了实现上述发明目的,本发明提出一种基于深度学习网络的短文本分类方法,包括以下步骤:
S1:将短文本数据集进行数据清洗,得到数据清洗后的短文本数据集。原始数据集的格式为S(s,t)|t∈[1,k],其中s代表短文本,t为对应的类别标签(数据集S中用阿拉伯数字代替文本表示类别标签,数字标签与文本标签一一对应,文本标签为短文本的类别文字表示),k与文本类别总数相等;
S2:将短文本数据集进行整理和切词,得到短文本词汇表、关键词词汇表、标签词汇表;
S3:将短文本数据集输入CBOW神经网络训练得到文本词向量,再用文本标签替换短文本中的关键词,训练得到标签词向量;
S4:将短文本数据集输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和得到查询向量,对查询向量进行注意力机制得分计算,得到卷积网络与长短期记忆网络输出的特征向量;
S5:将新的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题,提高了短文本分类的准确性。
进一步地,上述S1中的数据清洗具体包括两个步骤:
S11:将短文本数据集中的无效数据进行剔除,包括短文本与其类别标签不相符,短文本标签缺失,无效的短文本;
S12:将短文本数据集中的重复数据及相似数据进行剔除,得到短文本数据集S’。
进一步地,上述S2中短文本,构建短文本词汇表具体包括以下步骤:
S21:构建短文本词汇表:将数据清洗后的短文本数据集S’进行整理,利用结巴分词将其进行单词切分,加入短文本词汇表Wt;
S22:构建标签词汇表:将短文本的所有问句类型文本标签加入标签词汇表Wl;
S23:构建关键词词汇表:将能够代表问句类型的一些关键词,主要是一些名词,加入关键词词汇表Wk;
进一步地,上述S3词向量表的构建具体包括以下步骤:
S31:将数据清洗后的短文本数据集S’输入CBOW神经网络得到短文本词汇表Wt的词向量表Vt;
S32:将数据清洗后的短文本数据集S’按百分之X的比例随机抽取,输入CBOW神经网络,并将输入短文本中的关键词用相应的分类标签替换,得到标签词汇表Wl的词向量表Vl;
进一步地,上述S4短文本特征的提取具体包括以下步骤:
S41:从短文本数据集S’中按顺序逐条取出短文本数据s进行分词,得到ρ'={W1,...,Wn},其中Wi为切分后的单词,n为一条短文本s的单词个数;
S42:将ρ'中的单词Wi作为键,在短文本词汇表中进行查询,得到ρ'的词向量表示ρ”={w1,...,wn};
S43:将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取,分别得到中间特征向量:
fleft,fright=σ(Wxoxt+Whoht-1+Wcoct-1+bo);
cleft,cmid,cright=max_pull(σ(X*W(i,j)));
其中,fleft,fright分别是长短期记忆神经网络正向和反向提取的中间特征向量,σ为激活函数,Wxo、Who、Wco分别为当前隐藏层、输出门、输入门的权重矩阵,xt、ht-1、ct-1分别为当前隐藏层、输出门、输入门矩阵,bo是偏置参数权重矩阵;
其中cleft,cmid,cright分别为卷积神经网络提取的三个特征,max_pull为池化函数,σ为激活函数,X为权重矩阵,W(i,j)为第i行j列窗口的得分矩阵;
S44:然后,将步骤S43得到的中间特征向量分别与注意力查询向量q进行向量乘计算,得到步骤S43每一个中间特征向量的得分αi:
q=avge(x)|weight(x);
αi=softmax(s(Xi,q));
s(xi,q)=VTtanh(WXi+Uq);
其中q为注意力机制的查询向量,X为S3步骤S32得到的向量,arge为取平均值计算,weight为带权重计算;
其中αi为第i个向量与与q计算的得分,s(Xi,q)为矩阵计算,softmax为激活函数;
其中V、W、U为权重矩阵,tanh为激活函数;
S45:最后,将步骤S44得到的得分αi与步骤S43的特征向量进行矩阵乘法计算并求平均值,得到最终的长短期记忆网络与卷积网络输出的特征向量r,c:
r=(α1fleft2fright)/2;
c=(α1cleft2cmid3cright)/3;
可选的,所述S5的具体为:网络参数修正:
S51:将步骤S45得到的特征向量r、c输入全连接层进行计算,输出得分最高的为分类结果,然后进行损失函数Loss的计算,修正模型参数:
Figure BDA0003445826920000041
其中st为特征向量r输出的分类结果,st’为特征向量c输出的分类结果。
本发明具有以下有益效果:
相比于传统的短文本分类对稀疏的短文本有着更佳的适应性,并且基于深度学习的短文本分类方法能够提取更丰富的隐藏特征,提高短文本分类的准确率。
附图说明
图1为本发明采用的技术方案流程图。
具体实施方式
为使本发明的技术方案更加清晰明确,下面结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明公开了一种基于深度学习网络的短文本分类方法,其具体步骤如下:
S1:将短文本数据集进行数据清洗,得到数据清洗后的短文本数据集;
作为本发明的优选实施例,本发明中的数据来源于开源数据集THUCNews,总共十个种类,每个分类选取了一万条数据。
S11:将短文本数据集中的无效数据进行剔除,包括短文本与其类别标签不相符,短文本标签缺失,无效的短文本;
S12:将短文本数据集中的重复数据及相似数据进行剔除。
S2:将短文本数据集进行处理,得到短文本词汇表、关键词词汇表、标签词汇表;
作为本发明的优选实施例,得到短文本词汇表包括以下步骤:
S21:构建短文本词汇表:将数据清洗后的短文本数据集进行整理,利用结巴分词将其进行单词切分,加入短文本词汇表Wt;
S22:构建标签词汇表:将短文本的所有问句类型标签加标签入词汇表Wl;
S23:构建关键词词汇表:将能够代表问句类型的一些关键词,主要是一些名词,加入关键词词汇表Wk;
S3:利用CBOW神经网络训练得到文本词向量,再将标签替换短文本中的关键词,训练得到标签词向量;
作为本发明的优选实施例,得到词向量表包括以下步骤:
S31:将数据清洗后的短文本数据集输入CBOW神经网络得到词汇表Wt的词向量表Vt;
S32:将数据清洗后的短文本数据集S’按百分之X的比例随机抽取得到子数据集S”,将S”中短文本s的关键词用标签词汇表Wl的文本标签替换,输入CBOW神经网络,训练得到标签词汇表Wl的词向量表Vl;
S4:将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算;
作为本发明的优选实施例,提取中间特征包括以下步骤:
S41:从短文本数据集S’中按顺序逐条取出短文本数据s进行分词,得到ρ'={W1,...,Wn},其中Wi为切分后的单词,n为一条短文本s的单词个数;
S42:将ρ'中的单词Wi作为键,在短文本词汇表中进行查询,得到ρ'的词向量表示ρ”={w1,...,wn};
S43:将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取,分别得到中间特征向量:
fleft,fright=σ(Wxoxt+Whoht-1+Wcoct-1+bo);
cleft,cmid,cright=max_pull(σ(X*W(i,j)));
其中,fleft,fright分别是长短期记忆神经网络正向和反向提取的中间特征向量,σ为激活函数,Wxo、Who、Wco分别为当前隐藏层、输出门、输入门的权重矩阵,xt、ht-1、ct-1分别为当前隐藏层、输出门、输入门矩阵,bo是偏置参数权重矩阵;
其中cleft,cmid,cright分别为卷积神经网络提取的三个特征,max_pull为池化函数,σ为激活函数,X为权重矩阵,W(i,j)为第i行j列窗口的得分矩阵;
S44:将步骤S43得到的中间特征向量分别与注意力查询向量q进行向量乘计算,得到步骤S43每一个中间特征向量的得分αi:
q=avge(x)|weight(x);
αi=softmax(s(Xi,q));
s(xi,q)=VTtanh(WXi+Uq);
其中q为注意力机制的查询向量,X为S3步骤S32得到的向量,arge为取平均值计算,weight为带权重计算;
其中αi为第i个向量与与q计算的得分,s(Xi,q)为矩阵计算,softmax为激活函数;
其中V、W、U为权重矩阵,tanh为激活函数;
S45:将步骤S44得到的得分αi与步骤S43的中间特征向量进行矩阵乘法计算并求平均值,得到最终的长短期记忆网络与卷积网络输出的特征向量r,c:
r=(α1fleft2fright)/2;
c=(α1cleft2cmid3cright)/3;
S5:将新的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题,提高了短文本分类的准确性。
作为本发明的优选实施例,修正模型参数包括以下步骤:
S51:将步骤S45得到的特征向量r、c输入全连接层进行计算,输出得分最高的为分类结果,然后进行损失函数Loss的计算,修正模型参数:
Figure BDA0003445826920000071
其中st为特征向量r输出的分类结果,st’为特征向量c输出的分类结果。
在实施例中,本发明所提出的基于深度学习网络的短文本分类方法,相比于传统的短文本分类对稀疏的短文本有着更佳的适应性,并且基于深度学习的短文本分类方法能够提取更丰富的隐藏特征,提高短文本分类的准确率。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.一种基于深度学习网络的短文本分类方法,其特征在于,包括以下步骤:
S1:将短文本数据集进行数据清洗,得到处理后的短文本数据集;原始数据集的格式为S(s,t)|t∈[1,k],其中s代表短文本,t为对应的类别标签,k与文本类别总数相等;
S2:将短文本数据集进行整理和切词,得到短文本词汇表、关键词词汇表、标签词汇表;
S3:将短文本数据集输入CBOW神经网络训练得到文本词向量,再用文本标签替换短文本中的关键词,训练得到标签词向量;
S4:将短文本数据集输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和得到查询向量,对查询向量进行注意力机制得分计算,得到卷积网络与长短期记忆网络输出的特征向量;
S5:将步骤S4得到的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。
2.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S1中的数据清洗的具体步骤包括:
S11:将短文本数据集中的无效数据进行剔除,包括短文本与其类别标签不相符,短文本标签缺失,无效的短文本;
S12:将短文本数据集中的重复数据及相似数据进行剔除,得到短文本数据集S’。
3.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S2的具体步骤如下:
S21:构建短文本词汇表:将数据清洗后的短文本数据集S’进行整理,利用结巴分词进行单词切分,加入短文本词汇表Wt;
S22:构建标签词汇表:手动将短文本的所有问句类型文本标签加入标签词汇表Wl;
S23:构建关键词词汇表:将能够代表问句类型的一些关键词,加入关键词词汇表Wk。
4.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S3的具体步骤如下:
S31:将数据清洗后的短文本数据集S’输入CBOW神经网络得到短文本词汇表Wt的词向量表Vt;
S32:将数据清洗后的短文本数据集S’按百分之X的比例随机抽取得到子数据集S”,将S”中短文本s的关键词用标签词汇表Wl的文本标签替换,输入CBOW神经网络,训练得到标签词汇表Wl的词向量表Vl。
5.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S4的具体步骤如下:
S41:从短文本数据集S’中按顺序逐条取出短文本数据s进行分词,得到ρ'={W1,...,Wn},其中Wi为切分后的单词,n为一条短文本s的单词个数;
S42:将ρ'中的单词Wi作为键,在短文本词汇表中进行查询,得到ρ'的词向量表示ρ”={w1,...,wn};
S43:将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取,分别得到中间特征向量:
fleft,fright=σ(Wxoxt+Whoht-1+Wcoct-1+bo);
cleft,cmid,cright=max_pull(σ(X*W(i,j)));
其中,fleft,fright分别是长短期记忆神经网络正向和反向提取的特征向量,σ为激活函数,Wxo、Who、Wco分别为当前隐藏层、输出门、输入门的权重矩阵,xt、ht-1、ct-1分别为当前隐藏层、输出门、输入门矩阵,bo是偏置参数权重矩阵;
其中cleft,cmid,cright分别为卷积神经网络提取的三个特征,max_pull为池化函数,σ为激活函数,X为权重矩阵,W(i,j)为第i行j列窗口的得分矩阵;
S44:将步骤S43得到的长短期记忆神经网络与卷积神经网络输出的特征向量分别与注意力查询向量q进行向量乘计算,得到步骤S 43每一个中间特征向量的得分αi:
q=avge(x)|weight(x);
αi=softmax(s(Xi,q));
s(xi,q)=VTtanh(WXi+Uq);
其中q为注意力机制的查询向量,X为Vl步骤V32得到的向量,arge为取平均值计算,weight为带权重计算;
其中αi为第i个向量与与q计算的得分,s(Xi,q)为矩阵计算,softmax为激活函数;
其中V、W、U为权重矩阵,tanh为激活函数;
S45:将步骤S44得到的得分αi与步骤S43的中间特征向量进行矩阵乘法计算并求平均值,得到最终的长短期记忆网络与卷积网络输出的特征向量r,c:
r=(α1fleft2fright)/2;
c=(α1cleft2cmid3cright)/3。
6.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S5的具体步骤如下:
S51、将步骤S45得到的特征向量输入全连接层进行计算,输出得分最高的为分类结果,然后进行损失函数Loss的计算,修正模型参数:
Figure FDA0003445826910000031
其中st为特征向量r输出的分类结果,st’为特征向量c输出的分类结果。
CN202111655718.0A 2021-12-30 2021-12-30 一种基于深度学习网络的短文本分类方法 Pending CN114357165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111655718.0A CN114357165A (zh) 2021-12-30 2021-12-30 一种基于深度学习网络的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111655718.0A CN114357165A (zh) 2021-12-30 2021-12-30 一种基于深度学习网络的短文本分类方法

Publications (1)

Publication Number Publication Date
CN114357165A true CN114357165A (zh) 2022-04-15

Family

ID=81102856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111655718.0A Pending CN114357165A (zh) 2021-12-30 2021-12-30 一种基于深度学习网络的短文本分类方法

Country Status (1)

Country Link
CN (1) CN114357165A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580445A (zh) * 2022-09-22 2023-01-06 东北大学 一种未知攻击入侵检测方法、装置和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580445A (zh) * 2022-09-22 2023-01-06 东北大学 一种未知攻击入侵检测方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111125358B (zh) 一种基于超图的文本分类方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN109471946B (zh) 一种中文文本的分类方法及系统
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN109389166A (zh) 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN106506327B (zh) 一种垃圾邮件识别方法及装置
CN109766410A (zh) 一种基于fastText算法的新闻文本自动分类系统
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN113077388A (zh) 一种数据增广的深度半监督超限学习图像分类方法及系统
CN111104513A (zh) 一种游戏平台用户问答业务的短文本分类方法
CN114092742A (zh) 一种基于多角度的小样本图像分类装置和方法
CN112541083A (zh) 一种基于主动学习混合神经网络的文本分类方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114201605A (zh) 一种基于联合属性建模的图像情感分析方法
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
Al-Hmouz et al. Enhanced numeral recognition for handwritten multi-language numerals using fuzzy set-based decision mechanism
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法
CN114116974A (zh) 一种基于注意力机制的情感原因提取方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN112052869A (zh) 一种用户心理状态识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination