CN112651242B - 一种基于内外注意力机制和可变尺度卷积的文本分类方法 - Google Patents
一种基于内外注意力机制和可变尺度卷积的文本分类方法 Download PDFInfo
- Publication number
- CN112651242B CN112651242B CN202110076848.2A CN202110076848A CN112651242B CN 112651242 B CN112651242 B CN 112651242B CN 202110076848 A CN202110076848 A CN 202110076848A CN 112651242 B CN112651242 B CN 112651242B
- Authority
- CN
- China
- Prior art keywords
- text
- convolution
- vector
- information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000007774 longterm Effects 0.000 claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 6
- 125000004122 cyclic group Chemical group 0.000 abstract description 4
- 238000004880 explosion Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法,本发明中,通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息,克服了卷积神经网络卷积核窗口大小固定,导致无法建模更长的序列信息,不能获取序列数据间的间隔信息和长期依赖关系的问题;还克服了循环神经网络在提取局部关键信息方面存在不足,网络参数较为复杂,训练耗时较长,存在梯度小时和梯度爆炸的问题。此外,本发明还利用空洞卷积的思想,构造了三种不同空洞卷积核,提取文本局部间隔的相关特征信息,计算文本词向量和对应隐藏信息序列间的相关性,提高对于重要信息特征加权的比重,进而提高了文本分类的准确性。
Description
技术领域
本发明涉及自然语言处理相关技术领域,具体地说,涉及一种基于内外注意力机制和可变尺度卷积的文本分类方法。
背景技术
目前互联网迅速发展,网络上的电子文本也海量式的增长。如何对这些文本进行有效的管理、挖掘其中的情感信息也是目前人们关注的热点,因此文本分类是解决上面问题的重要技术。传统的文本分类方法大多是基本机器学习的算法,比如支持向量机、朴素贝叶斯以及K邻近算法等。但是这些算法不仅需要人工来提取文本,耗费大量的人力物力,同时人工提取的特征带有一定的主观性,对于分类的准确度有很大的影响。近些年随着深度学习的发展,在利用神经网络提取文本、图像特征方面有良好的表现,因此提出了很多基于深度学习的文本分类方法。
现有技术中,主流的文本分类网络模型有两类,基于卷积神经网络(CNN)和循环神经网络(RNN)的方法。比较著名的TextCNN,其通过不同大小的卷积核,可以有效提取文本中的局部信息特征,对于关键语义信息提取的效果更是显著,但是由于卷积核窗口大小固定,导致无法建模更长的序列信息,不能获取序列数据间的间隔信息和长期依赖关系。循环神经网络则是可以处理可变长的文本,尤其是长短时记忆网络(LSTM),利用遗忘门、记忆门和输出们,可以有效的提取全文的结构信息,对于文本情感分类有较高的性能。但是其在提取局部关键信息方面存在不足,网络参数较为复杂,训练耗时较长,并且还存在梯度小时和梯度爆炸问题。因此,对比于使用单独的某一种网络结构来提取文本的特征信息,可以通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息,并且可以克服单个网络存在的问题。并且在组合网络结构中加入注意力机制,可以让文本中重要的特征信息更加突出,弱化次要信息,使得文本分类的准确率显著提高。但是一般的注意力机制只考虑文本隐藏信息序列的内注意力,并未同时考虑到原词量和对应隐藏序列的相关性,导致文本分类的准确性较低。
综上所述,如何计算文本词向量和对应隐藏信息序列间的相关性,进而提高文本分类的准确性,成为了本领域技术人员急需解决的问题。
发明内容
针对上述现有技术的不足,本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法,利用空洞卷积的思想,构造了三种不同空洞卷积核,提取文本局部间隔的相关特征信息,计算文本词向量和对应隐藏信息序列间的相关性,提高对于重要信息特征加权的比重,进而提高了文本分类的准确性。
为了解决现有技术中的问题,本发明采用了如下的技术方案:
一种基于内外注意力机制和可变尺度卷积的文本分类方法,包括如下步骤:
S1、对目标文本pi进行预处理,获取目标文本的分词组wordsi;
S2、将所述分词组wordsi进行词向量编码得到目标文本的文本向量W,W={w1,…,wn},w1,…,wn表示第1至第n个词向量,n为文本向量W中的词向量数量;
S3、基于注意力机制生成文本向量W对应的文本特征AW;
S4、将文本特征AW输入包含多个不同大小的卷积核的多尺度卷积神经网络,捕获目标文本pi多个尺度的局部信息特征;
S5、将文本特征AW输入双向门控循环网络,提取目标文本pi的序列和长期依赖特征;
S6、将局部信息特征以及目标文本pi的序列和长期依赖特征进行拼接后输入到全连接层和Softmax层得到目标文本pi属于各种类别的概率,取概率最高的类别作为目标文本pi的所属类别。
优选地,步骤S2包括:
S201、对BERT的预训练框架进行微调;
S202、将分词组输入微调后的BERT进行词向量编码得到目标文本的文本向量。
优选地,步骤S3包括:
S301、基于下式计算文本向量W中任意一个词向量wj与另一词向量的对应的序列值vk的相似度e_outjk作为外注意力;并且计算文本向量的对应的内部序列值之间的相似度e_injk作为内注意力:
式中,i,j,k∈{1,…,n},表示vk的转置。
S302、基于下式计算W中任意一个词向量wk的注意力分数ak:
式中,exp(·)表示以自然数为底的指数函数;
S303、基于词向量的注意力分数得到文本特征AW,AW={A1,…,An},Ak=akwk。
优选地,所述包含多个不同大小的卷积核的多尺度卷积神经网络中,6个卷积核后接一个最大池化层,所述6个卷积核中包括3个传统卷积核及3个空洞卷积核,空洞卷积的大小公式可表达为:κ(r,d)=(2r-1,d),r为传统卷积核的大小,d为词向量的维度大小,3个空洞卷积核的大小分别为3、5和9,大小为3的空洞卷积核的第2行全为0,大小为5的空洞卷积核的第2行和第4行全为0,大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。
优选地,步骤S5中,对于任意一个门控循环神经网络单元,文本特征AW中任意一个加权后的特征向量Ak=akwk的前向传播过程如下:
ci=σ(θcAk+βcsi-1)
ui=σ(θuAk+βusi-1)
si=(1-ui)si-1+uitanh(θiAk+βi(ci⊙si-1))
式中,θc,βc,θu,βu,θi,βi均为权重参数矩阵,σ(·)表示sigmoid函数,⊙表示元素相乘运算,ui表示更新门,决定门控循环单元的激活值更新程度,ci表示重置门,si表示第i个隐藏层,tanh(·)表示双曲正切函数。
优选地,采用批训练的训练方式对网络进行训练,优化的方法采用随机梯度下降法对网络的参数进行更新;在卷积层和Softmax层中加入Dropout策略和L2正则化方法;损失函数采用的是添加了正则项优化的交叉熵损失,公式如下
其中,K表示文本的类型数量,yi表示文本的标签,如果文本类型也是i则yi为1否则为0,Pi表示由输出类别是i的概率,μ表示超参数,θ表示整个网络的权重参数,表示2-范数运算。
综上所述,本发明与现有技术相比,具有以下技术效果:
1、本发明提出了一种内外注意力机制,可用于同时计算文本词向量和对应隐藏信息序列间的相关性,提高对于重要信息特征加权的比重。
2、本发明提出了一种多尺度卷积结构,在原有固定大小的三种卷积核上,利用空洞卷积的思想,构造了三种不同空洞卷积核,其可以提取文本局部间隔的相关特征信息。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明公开的一种基于内外注意力机制和可变尺度卷积的文本分类方法的一种具体实施方式的流程图;
图2为本发明中实现基于内外注意力机制和可变尺度卷积的文本分类方法的模型的结构示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,一种基于内外注意力机制和可变尺度卷积的文本分类方法,包括如下步骤:
S1、对目标文本pi进行预处理,获取目标文本的分词组wordsi;
本发明中,对现有的目标文本可使用基于隐马尔科夫算法的Jieba分词器进行分词处理,并且采用全模式去掉文本中的英文数字字符、标点符号和停用词,形成该文本的分词组;此外,在进行模型的训练时,也可采用上述方法对训练文本进行处理,并将训练文本打上标签,例如,分为正向性、中立性、负面性三类文本。
S2、将所述分词组wordsi进行词向量编码得到目标文本的文本向量W,W={w1,…,wn},w1,…,wn表示第1至第n个词向量,n为文本向量W中的词向量数量;
S3、基于注意力机制生成文本向量W对应的文本特征AW;
S4、将文本特征AW输入包含多个不同大小的卷积核的多尺度卷积神经网络,捕获目标文本pi多个尺度的局部信息特征;
S5、将文本特征AW输入双向门控循环网络,提取目标文本pi的序列和长期依赖特征;
S6、将局部信息特征以及目标文本pi的序列和长期依赖特征进行拼接后输入到全连接层和Softmax层得到目标文本pi属于各种类别的概率,取概率最高的类别作为目标文本pi的所属类别。
本发明中,可使用全连接层和softmax层,构建归一化分类模块,将局部信息特征和序列和长期依赖特征进行拼接,输入到该模块中则可以得到该文本属于每个类别的概率。
与现有技术相比,本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法,本发明中,通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息,克服了卷积神经网络卷积核窗口大小固定,导致无法建模更长的序列信息,不能获取序列数据间的间隔信息和长期依赖关系的问题;还克服了循环神经网络在提取局部关键信息方面存在不足,网络参数较为复杂,训练耗时较长,存在梯度小时和梯度爆炸的问题。此外,本发明还利用空洞卷积的思想,构造了三种不同空洞卷积核,提取文本局部间隔的相关特征信息,计算文本词向量和对应隐藏信息序列间的相关性,提高对于重要信息特征加权的比重,进而提高了文本分类的准确性。
具体实施时,步骤S2包括:
S201、对BERT的预训练框架进行微调;
根据现有的部分文本数据对BERT进行微调,微调过程中,批训练的大小设置为24,学习率设置2e-5,优化器采用自适应矩估计法(Adam),同时还采用了Dropout策略防止过拟合。对BERT模型进行微调以后,可以使分词结果更加契合该领域文本的独特性,促进最后的文本分类效果
S202、将分词组输入微调后的BERT进行词向量编码得到目标文本的文本向量。
本发明中,词向量的维度可为512。
具体实施时,步骤S3包括:
S301、基于下式计算文本向量W中任意一个词向量wj与另一词向量的对应的序列值vk的相似度e_outjk作为外注意力;并且计算文本向量的对应的内部序列值之间的相似度e_injk作为内注意力:
式中,i,j,k∈{1,…,n},表示vk的转置。
S302、基于下式计算W中任意一个词向量wk的注意力分数ak:
式中,exp(·)表示以自然数为底的指数函数;
S303、基于词向量的注意力分数得到文本特征AW,AW={A1,…,An},Ak=akwk。
这样,通过将经过BERT处理过的文本向量输入到内外注意力机制中,可以为其中重要的信息赋予更高的权重,不重要的信息赋予更低的权重,进而提高分类的准确性。
具体实施时,所述包含多个不同大小的卷积核的多尺度卷积神经网络中,6个卷积核后接一个最大池化层,所述6个卷积核中包括3个传统卷积核及3个空洞卷积核,空洞卷积的大小公式可表达为:κ(r,d)=(2r-1,d),r为传统卷积核的大小,d为词向量的维度大小,3个空洞卷积核的大小分别为3、5和9,大小为3的空洞卷积核的第2行全为0,大小为5的空洞卷积核的第2行和第4行全为0,大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。
本发明中,可使用不同的卷积核大小,构建多尺度卷积神经网络模块,捕获该文本多个尺度的局部信息特征。在传统的三种卷积的大小为2、3、5的卷积层基础上,利用空洞卷积的思想,再构建一种每隔一个词向量再进行特征提取的空洞卷积核,相当于其中填充了一行0,设定新的三种卷积的大小为3(其中1行为0)、5(其中两行为0)、9(其中4行为0)。卷积核的维数和词向量保持一致,通道数可设定为128。把传统的三种卷积层和新的三种空洞卷积层后分别接上最大池化层,组合成为一种多尺度的卷积网络结构,网络的结构如图2所示。具体的而言:将经过注意力机制的文本特征分别输入到六种卷积核的神经网络中,再经过最大池化层整合和提取其中重要的局部特征,再将六种局部特征进行连接,形成经过卷积神经网络处理后的卷积特征向量。
具体实施时,步骤S5中,对于任意一个门控循环神经网络单元,加权后的特征向量Ak=akwk的前向传播过程如下:
ci=σ(θcAk+βcsi-1)
ui=σ(θuAk+βusi-1)
si=(1-ui)si-1+uitanh(θiAk+βi(ci⊙si-1))
式中,θc,βc,θu,βu,θi,βi均为权重参数矩阵,σ(·)表示sigmoid函数,⊙表示元素相乘运算,ui表示更新门,决定门控循环单元的激活值更新程度,ci表示重置门,si表示第i个隐藏层,tanh(·)表示双曲正切函数。
本发明中,基于门控循环网络单元,构建双向门控循环网络模块,捕获不同时间尺度的依赖性特征和序列信息。网络的结构如图2所示。为了提取上下文的语义信息,采用了双向结构,不仅可以同时捕获前文对于特征信息提取的候选隐藏层,同时也能考虑到后文对于整体特征提取的候选隐藏层,最后将两者进行组合形成最终的隐藏层。经过双向的门控循环网络处理后可以得到文本的序列和长期依赖特征。
具体实施时,采用批训练的训练方式对网络进行训练,优化的方法采用随机梯度下降法对网络的参数进行更新;在卷积层和Softmax层中加入Dropout策略和L2正则化方法;损失函数采用的是添加了正则项优化的交叉熵损失,公式如下
其中,K表示文本的类型数量,yi表示文本的标签,如果文本类型也是i则yi为1否则为0,Pi表示由输出类别是i的概率,μ表示超参数,θ表示整个网络的权重参数,表示2-范数运算。
本发明中,优化的方法采用随机梯度下降法对网络的参数进行更新,能够促进模型的收敛。在卷积层和Softmax层中加入了Dropout策略和L2正则化方法,能够防止过拟合。由于模型是个多分类问题,所以损失函数采用的是交叉熵损失。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
Claims (5)
1.一种基于内外注意力机制和可变尺度卷积的文本分类方法,其特征在于,包括如下步骤:
S1、对目标文本pi进行预处理,获取目标文本的分词组wordsi;
S2、将所述分词组wordsi进行词向量编码得到目标文本的文本向量W,W={w1,…,wn},w1,…,wn表示第1至第n个词向量,n为文本向量W中的词向量数量;
S3、基于注意力机制生成文本向量W对应的文本特征AW;步骤S3包括:
S301、基于下式计算文本向量W中任意一个词向量wj与另一词向量的对应的序列值vk的相似度e_outjk作为外注意力;并且计算文本向量的对应的内部序列值之间的相似度e_injk作为内注意力:
式中,i,j,k∈{1,…,n},表示vk的转置;
S302、基于下式计算W中任意一个词向量wk的注意力分数ak:
式中,exp(·)表示以自然数为底的指数函数;
S303、基于词向量的注意力分数得到文本特征AW,AW={A1,…,An},Ak=akwk;
S4、将文本特征AW输入包含多个不同大小的卷积核的多尺度卷积神经网络,捕获目标文本pi多个尺度的局部信息特征;
S5、将文本特征AW输入双向门控循环网络,提取目标文本pi的序列和长期依赖特征;
S6、将局部信息特征以及目标文本pi的序列和长期依赖特征进行拼接后输入到全连接层和Softmax层得到目标文本pi属于各种类别的概率,取概率最高的类别作为目标文本pi的所属类别。
2.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法,其特征在于,步骤S2包括:
S201、对BERT的预训练框架进行微调;
S202、将分词组输入微调后的BERT进行词向量编码得到目标文本的文本向量。
3.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法,其特征在于,所述包含多个不同大小的卷积核的多尺度卷积神经网络中,6个卷积核后接一个最大池化层,所述6个卷积核中包括3个传统卷积核及3个空洞卷积核,空洞卷积的大小公式可表达为:κ(r,d)=(2r-1,d),r为传统卷积核的大小,d为词向量的维度大小,3个空洞卷积核的大小分别为3、5和9,大小为3的空洞卷积核的第2行全为0,大小为5的空洞卷积核的第2行和第4行全为0,大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。
4.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法,其特征在于,步骤S5中,对于任意一个门控循环神经网络单元,文本特征AW中任意一个加权后的特征向量Ak=akwk的前向传播过程如下:
ci=σ(θcAk+βcsi-1)
ui=σ(θuAk+βusi-1)
si=(1-ui)si-1+ui tanh(θiAk+βi(ci⊙si-1))
式中,θc,βc,θu,βu,θi,βi均为权重参数矩阵,σ(·)表示sigmoid函数,⊙表示元素相乘运算,ui表示更新门,决定门控循环单元的激活值更新程度,ci表示重置门,si表示第i个隐藏层,tanh(·)表示双曲正切函数。
5.如权利要求1上述的基于内外注意力机制和可变尺度卷积的文本分类方法,其特征在于,采用批训练的训练方式对网络进行训练,优化的方法采用随机梯度下降法对网络的参数进行更新;在卷积层和Softmax层中加入Dropout策略和L2正则化方法;损失函数采用的是添加了正则项优化的交叉熵损失,公式如下
其中,K表示文本的类型数量,yi表示文本的标签,如果文本类型也是i则yi为1否则为0,Pi表示由输出类别是i的概率,μ表示超参数,θ表示整个网络的权重参数,表示2-范数运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076848.2A CN112651242B (zh) | 2021-01-20 | 2021-01-20 | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076848.2A CN112651242B (zh) | 2021-01-20 | 2021-01-20 | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651242A CN112651242A (zh) | 2021-04-13 |
CN112651242B true CN112651242B (zh) | 2024-04-26 |
Family
ID=75371109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076848.2A Active CN112651242B (zh) | 2021-01-20 | 2021-01-20 | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651242B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966673B (zh) * | 2021-05-19 | 2021-07-23 | 南京视察者智能科技有限公司 | 一种行人重识别模型的构建方法及行人重识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9186793B1 (en) * | 2012-08-31 | 2015-11-17 | Brain Corporation | Apparatus and methods for controlling attention of a robot |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110597979A (zh) * | 2019-06-13 | 2019-12-20 | 中山大学 | 一种基于自注意力的生成式文本摘要方法 |
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111460807A (zh) * | 2020-03-13 | 2020-07-28 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
-
2021
- 2021-01-20 CN CN202110076848.2A patent/CN112651242B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9186793B1 (en) * | 2012-08-31 | 2015-11-17 | Brain Corporation | Apparatus and methods for controlling attention of a robot |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110597979A (zh) * | 2019-06-13 | 2019-12-20 | 中山大学 | 一种基于自注意力的生成式文本摘要方法 |
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111460807A (zh) * | 2020-03-13 | 2020-07-28 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
Non-Patent Citations (2)
Title |
---|
基于self-attention和 Bi-LSTM 的中文短文本情感分析;吴小华 等;中文信息学报;20190630;第33卷(第6期);100-107 * |
融入自注意力机制的社交媒体命名实体识别;李明扬 等;清华大学学报;20191231;第59卷(第6期);461-467 * |
Also Published As
Publication number | Publication date |
---|---|
CN112651242A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052911B (zh) | 基于深度学习的多模态遥感影像高层特征融合分类方法 | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN109743732B (zh) | 基于改进的cnn-lstm的垃圾短信判别方法 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN109214006A (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN110046223B (zh) | 基于改进型卷积神经网络模型的影评情感分析方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN113220876B (zh) | 一种用于英文文本的多标签分类方法及系统 | |
CN109918507B (zh) | 一种基于TextCNN改进的文本分类方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN115131613A (zh) | 一种基于多向知识迁移的小样本图像分类方法 | |
CN112199503A (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN112651242B (zh) | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN113297387A (zh) | 一种基于nkd-gnn的图文不匹配新闻检测方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |