CN111639186A - 动态嵌入投影门控的多类别多标签文本分类模型及装置 - Google Patents
动态嵌入投影门控的多类别多标签文本分类模型及装置 Download PDFInfo
- Publication number
- CN111639186A CN111639186A CN202010503497.4A CN202010503497A CN111639186A CN 111639186 A CN111639186 A CN 111639186A CN 202010503497 A CN202010503497 A CN 202010503497A CN 111639186 A CN111639186 A CN 111639186A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- word embedding
- text classification
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 5
- 235000019580 granularity Nutrition 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 26
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种动态嵌入投影门控的多类别多标签文本分类模型,用于对输入文本进行分类,其特征在于,包括:预处理层,对输入文本进行预处理;词嵌入层,用于通过预训练分布式词向量初始化预处理文本从而获取包含原始信息的第一词嵌入矩阵;词嵌入动态控制层,用于根据第一词嵌入矩阵提取融合了该第一词嵌入矩阵上下文信息的转换信息,并基于动态嵌入投影门控制原始信息与转换信息形成第二词嵌入矩阵;细粒度信息增强层,用于通过多核多通道卷积神经网络对第二词嵌入矩阵进行语义编码获取细粒度信息增强的增强文本表征;语义信息提取层,用于通过全连接神经网络将增强文本表征映射至样本标记空间,从而输出类别概率分布并完成文本分类。
Description
技术领域
本发明属于自然语言处理领域,涉及文本分类技术,具体涉及一种动态嵌入投影门控的多类别多标签文本分类模型及装置。
背景技术
文本分类是自然语言处理中的一项基本且重要的任务,能够根据内容将文本分配到至少一个预定义的标记或类别中。这项任务在多种应用场景中发挥着重要的作用,例如,主题分类、意图检测、情感分析等。现阶段,非结构化文本数据是信息传播的主要途径之一,从文本中提取关键信息尤为重要。早期,一些用于文本分类的机器学习算法,如支持向量机(SVM)、朴素贝叶斯(NB)、逻辑回归(LR)等,由于文本特征表达的高纬度、高稀疏性而无法准确获取给定文本的分类类别。
近年来,随着信息技术的飞速发展和人工智能的不断进步,自然语言处理为文本建模提供了一种高效可行的方式。这种方式利用深度学习模型去掉繁杂的特征工程,解决大规模文本分类任务中的文本表征问题,使得文本可以自动获取特征表达能力,从而端到端地解决问题。
长短期记忆网络(LSTM)和卷积神经网络(CNN)是最常见的深度学习模型,人们在此基础上提出了大量用于文本分类的模型结构。滑铁卢大学学者提出在词嵌入和LSTM的四个权重矩阵上进行正则化操作可以提升多类别与多标签文本分类的准确度;北京大学学者提出利用基于LSTM的编解码序列生成模型能够融合多个分类标签的互信息;中科院学者提出基于词向量级别注意力机制的双向LSTM模型能够捕获文本中的关键语义信息;纽约大学学者最早将CNN用于文本分类任务中以获取文本中类似于n-gram的局部上下文信息;卡内基梅隆大学相关学者提出将动态最大池化作为CNN特征图的后续组件可以生成带有位置信息的多个特征;随着计算机视觉的发展纽约大学学者提出完全基于字符级信息的CNN图像卷积架构提高了模型对于拼写错误的鲁棒性。
然而,上述文本分类技术无法充分表征文本的语义差别,由于文本在语义的不同层次都具有其独特的表征和关联程度的差异,并且这些技术大多是简单地通过不同深度的特征抽取器来抽取词向量序列的特征,因此无法兼顾模型的分类精度和效率,这表现在要提高准确率,则会提升模型复杂度,同时也没有充分利用词向量之间的局部上下文关联信息,不足以表征文本在各个层次的语义。
发明内容
为解决上述问题,提供一种动态嵌入投影门控的多类别多标签文本分类模型及装置,本发明采用了如下技术方案:
本发明提供了一种动态嵌入投影门控的多类别多标签文本分类模型,用于对输入文本进行文本分类,其特征在于,包括:预处理层,用于对输入文本进行预处理得到预处理文本;词嵌入层,用于通过预训练分布式词向量对预处理文本进行初始化从而获取包含原始信息的第一词嵌入矩阵;词嵌入动态控制层,用于根据第一词嵌入矩阵提取融合了该第一词嵌入矩阵上下文信息的转换信息,并基于动态嵌入投影门控制原始信息与转换信息形成第二词嵌入矩阵;细粒度信息增强层,用于通过多核多通道卷积神经网络对第二词嵌入矩阵进行语义编码获取细粒度信息增强的增强文本表征;语义信息分类层,用于通过全连接神经网络将增强文本表征映射至样本标记空间,从而输出类别概率分布并完成文本分类。
本发明提供的动态嵌入投影门控的多类别多标签文本分类模型,还可以具有这样的技术特征,其中,词嵌入动态控制层具有卷积核大小为r、通道数为h的一维卷积神经网络,该一维卷积神经网络用于根据第一词嵌入矩阵获取转换信息T=[t1,t2,...tn]Τ,该转换信息T可以通过计算输入文本每个特定位置i的位置转换信息ti得到,i=1,2,…,n,即:ti=[t1,t2,...th],tj=f(g(Wj⊙Xi:i+r)+bj)j=1,2,...h,式中,tj表示特定位置i的第j维特征,⊙表示第一词嵌入矩阵之间对应元素的点积操作,g表示矩阵各元素之间的求和函数,f表示ReLU激活函数,Wj和bj分别表示一维卷积神经网络第j个通道的权重矩阵和偏置项。
动态嵌入投影门分为负责控制转换信息T流动的转换门Gt以及负责控制原始信息X流动的传送门Gc,即:Gt=σ(XWproj+bproj),Gc=1-Gt,式中,Wproj和bproj分别表示动态嵌入投影门的权重矩阵和偏移向量,σ为sigmoid激活函数,词嵌入动态控制层通过转换门Gt以及传送门Gc将原始信息X以及转换信息T结合得到第二词嵌入矩阵E:E=X⊙Gc+T⊙Gt
本发明提供的动态嵌入投影门控的多类别多标签文本分类模型,还可以具有这样的技术特征,其中,多核多通道卷积神经网络的卷积核大小分别为k1、k2、k3,通道数为l,第二词嵌入矩阵输入到多核多通道卷积神经网络后,首先输出三个不同粒度的n-gram文本特征图,该n-gram文本特征图的特征图维度分别是(n-k1+1)×l、(n-k2+1)×l、(n-k2+1)×l,其次沿着输入文本的方向分别对每个文本特征图进行最大化池操作从而得到维度为l的三个文本表征,最后将三个文本表征进行拼接从而得到增强文本表征。
本发明提供的动态嵌入投影门控的多类别多标签文本分类模型,还可以具有这样的技术特征,还包括:用于训练动态嵌入投影门控的多类别多标签文本分类模型的损失函数层,其中,当文本分类为多类别文本分类时,损失函数层采用以softmax为激活函数的交叉熵损失;当文本分类为多标签文本分类时,损失函数层采用以sigmoid为激活函数的二元交叉熵损失,即:
式中,θ代表动态嵌入投影门控的多类别多标签文本分类模型的模型参数,m代表训练样本数量,c代表分类目标类别数,yij代表第i个训练样本在第j个标签类别上的真实值,zij代表第i个训练样本在第j个标签类别上经过全连接神经网络后的预测值,σ为sigmoid激活函数。
本发明还提供了一种动态嵌入投影门控的多类别多标签文本分类装置,用于对输入文本进行分类,其特征在于,包括:输入文本获取部,用于获取输入文本;文本分类部,具有预设的文本分类模型,用于将输入文本进行分类从而得到对应输入文本的文本分类信息;以及分类信息输出部,用于将文本分类信息进行输出,其中,文本分类模型为权利要求1-4中任意一项的动态嵌入投影门控的多类别多标签文本分类模型。
发明作用与效果
根据本发明的动态嵌入投影门控的多类别多标签文本分类模型及装置,由于在词嵌入动态控制层中,通过对短连接与门控机构进行自适应组合构造出一种动态嵌入投影门,能够高效地融合词向量之间的局部上下文关联信息和控制重组信息的流动;然后由于在细粒度信息增强层中,设计了多核多通道卷积神经网络结构获取细粒度信息增强的文本表征,能够兼顾文本分类处理的精度与效率;最后在语义信息分类层通过全连接神经网络将提取的文本表征映射至标记空间完成分类。因此,通过本发明的动态嵌入投影门控的多类别多标签文本分类模型,可以适应文本分类的多类别与多标签情况,在无需人工干预的情况下,可以高效地提取输入文本的上下文信息并进行文本分类,同时兼顾了文本分类的精度与效率,具有较强的适应性、鲁棒性及准确性。
附图说明
图1是本发明实施例中动态嵌入投影门控的多类别多标签文本分类装置的结构框图;
图2是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型的模型架构图;
图3是本发明实施例中5种分类模型在4个标准数据集上的效果对比示意图;
图4是本发明实施例中5种分类模型在4个标准数据集上的收敛时间(s)对比示意图;
图5是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型消融实验结果示意图;以及
图6是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型捕获特征的可视化展示图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的动态嵌入投影门控的多类别多标签文本分类模型及装置作具体阐述。
<实施例>
图1是本发明实施例中动态嵌入投影门控的多类别多标签文本分类装置的结构框图。
如图1所示,动态嵌入投影门控的多类别多标签文本分类装置100包括输入文本获取部101、文本分类部102、分类信息输出部103以及用于控制上述各部的控制部104。
其中,动态嵌入投影门控的多类别多标签文本分类装置100为一台计算机,该计算机的存储器中存储有分别对应输入文本获取部101、文本分类部102以及分类信息输出部103的执行工作的计算机程序。
输入文本获取部101用于获取待分类的输入文本。
本实施例中,输入文本获取部101获取的输入文本为用户导入计算机中的电影评价文本。该电影评价文本为某电影网站中某用户对《阿甘正传》这部电影的评价:“《阿甘正传》是一部精彩的电影,集喜剧、戏剧和战争于一身。”。
文本分类部102存储有一个预先训练完成的文本分类模型,用于将输入文本输入到该文本分类模型中从而完成文本分类。
图2是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型的模型架构图。
如图2所示,文本分类模型200为动态嵌入投影门控的多类别多标签文本分类模型,该模型具有预处理层201、词嵌入层202、词嵌入动态控制层203、细粒度信息增强层204、语义信息分类层205以及损失函数层206。
预处理层201用于对输入文本进行预处理,即中文分词和去停用词。
本实施例中,给定文本S,使用北京大学pkuseg分词工具按照中文理解的方法将S分割为连续序列的单个词语,并去除掉S中所包含的句号、逗号、分号等特殊符号,去除掉S中所包含的一些对句子重要度影响很小的词语,如“的”、“了”等词语。最后用[w1,...,wn]来表示输入文本S经过中文分词和去停用词之后的结果,n代表词的个数。
词嵌入层202用于通过预训练分布式词向量对预处理后的输入文本进行初始化从而获取包含原始信息的第一词嵌入矩阵X。
本实施例中,使用腾讯中文预训练词向量将[w1,...,wn]中的每一个词转换成稠密的词向量,得到第一词嵌入矩阵X=[x1,...,xn]。其中,词向量的维度是e,X是一张n×e的二维矩阵。
词嵌入动态控制层203用于根据词嵌入层202输出的第一词嵌入矩阵提取转换信息,并基于动态嵌入投影门控制原始信息与转换信息形成第二词嵌入矩阵。
具体地,词嵌入动态控制层203的处理过程具体包括如下步骤:
步骤S2-1:获取第一词嵌入矩阵X的转换信息T:该转换信息由卷积核大小为r、通道数为h的一维卷积神经网络产生,即:
T=[t1,t2,...tn]Τ (1)
ti=[t1,t2,...th] (2)
tj=f(g(Wj⊙Xi:i+r)+bj)j=1,2,...h (3)
式中,ti为输入文本特定位置i的转换信息,tj代表词向量xi的第j维转换特征,⊙为矩阵之间对应元素的点积操作,g为矩阵各元素之间的求和函数,f为ReLU激活函数,Wj和bj分别代表一维卷积神经网络第j个通道的权重矩阵和偏置项,转换信息T是一张n×h的二维矩阵,本实施例中设置h等于e。
步骤S2-2:通过短连接直接获取词嵌入矩阵的原始信息X。
接下来,通过动态嵌入投影门(Dynamic Embedding ProjectionGate,DEPG)动态地控制原始词信息与词的局部上下文信息并进行自适应调整,从而将词嵌入矩阵的原始信息X与词嵌入矩阵的转换信息T进行结合。图2左侧部分展示了DEPG的工作机制,该动态嵌入投影门分为转换门Gt(Transform Gate)和传送门Gc(Carry Gate)。
步骤S2-3:构造负责控制转换信息T流动的转换门Gt和负责控制原始信息X流动的传送门Gc,即:
Gt=σ(XWproj+bproj) (4)
Gc=1-Gt (5)
式中,Wproj和bproj分别代表动态嵌入投影门的权重矩阵和偏移向量,σ为sigmoid激活函数。
步骤S2-4:获取第二词嵌入矩阵E:将原始信息X与转换信息T进行结合,通过DEPG动态地控制原始词信息与词的局部上下文信息并进行自适应调整,得到融合原始信息与转换信息的第二词嵌入矩阵E:
E=X⊙Gc+T⊙Gt (6)
细粒度信息增强层204具有多核多通道卷积神经网络,用于通过该多核多通道卷积神经网络对第二词嵌入矩阵进行语义编码获取细粒度信息增强的增强文本表征。
本实施例中,多核多通道卷积神经网络(Multi-kernel and Multi-channel CNN,MMCNN)的卷积核大小分别为k1、k2、k3,通道数为l。该多核多通道卷积神经网络的输入为第二词嵌入矩阵E,能够对第二词嵌入矩阵进行语义编码,从而获取输入文本各个位置不同粒度的n-gram特征。
图2右侧部分展示了MMCNN的工作机制。以卷积核k1、通道数1为例,可以得到第二词嵌入矩阵E特定位置i的单个特征ci:
式中,⊙为矩阵之间对应元素的点积操作,g为矩阵各元素之间的求和函数,f为ReLU激活函数,W和b分别代表一维卷积神经网络单个通道的权重矩阵和偏置项。
接着,在整个输入文本中通过滑动卷积核k1以生成词嵌入矩阵E的一个特征向量考虑到多核多通道卷积神经网络的通道数为l,那么存在l个不同子空间形成的特征向量对输入文本进行表征,得到一个(n-k1+1)×l的特征图;同时,考虑到多核多通道卷积神经网络的核大小分别为k1、k2、k3,那么存在3个不同粒度的n-gram文本特征图F1、F2、F3,这三个文本特征图维度分别是(n-k1+1)×l、(n-k2+1)×l、(n-k2+1)×l。
在得到3个不同粒度的n-gram文本特征图F1、F2、F3之后,MMCNN沿着文本的方向分别对每个特征图进行最大池化操作,获取融合每个子空间显著信息的文本表征d1、d2、d3,这三个文本表征的维度都是l。
最后,MMCNN将这三个文本表征d1、d2、d3进行拼接,完成对输入文本的语义编码,从而获取细粒度信息增强的增强文本表征p:
p=[d1;d2;d3] (9)
式中,符号“;”代表拼接操作,文本表征p的维度是3l。
语义信息分类层205用于通过全连接神经网络将增强文本表征p映射至样本标记空间,从而输出类别概率分布并完成文本分类。
损失函数层206用于在训练时对多类别多标签文本分类模型200的损失进行计算并完成训练。
具体地,根据多类别多标签文本分类模型200所进行的文本分类任务的不同,损失函数层206采用不同的损失进行训练。
当文本分类为多类别文本分类任务时,损失函数层206采用以softmax为激活函数的交叉熵损失进行训练。
当文本分类为多标签文本分类任务时,损失函数层206采用以sigmoid为激活函数的二元交叉熵损失进行训练,即:
式中,θ代表文本分类模型200的模型参数,m代表训练样本数量,c代表分类目标类别数,yij代表第i个训练样本在第j个标签类别上的真实值,zij代表第i个训练样本在第j个标签类别上经过全连接神经网络后的预测值,σ为sigmoid激活函数。
本实施例中,对于电影评价文本S所采用的文本分类为多类别文本分类任务,因此在语义信息分类层205通过softmax函数计算文本类别概率分布Prob,即:
Prob=softmax(Wp+b) (12)
Pred=argmax(Prob) (13)
式中,W和b分别代表全连接神经网络的权重矩阵和偏移向量,Pred为最终预测的类别。
根据上述步骤的操作过程,即可对给定文本S的情感类别进行预测(将电影的评价情感划分为0到9这10个等级,0表示非常消极的评价,9表示非常积极的评价),比如本实施例中给定文本S的类别值为8,表示用户对电影《阿甘正传》的评论体现出用户对其很满意,这属于多类别文本分类。
如果对给定文本S的主题类型进行预测(将电影的主题类型划分为“喜剧”、“爱情”、“战争”等),即文本分类为多标签文本分类任务。在进行多标签文本分类的时候,需要对语义信息分类层205以及损失函数层206进行更改:通过sigmoid函数计算每个类别标签的置信度Coef,即:
Coef=σ(Wp+b) (12)
Pred=Coef>0.5 (13)
式中,W和b分别代表全连接神经网络的权重矩阵和偏移向量,Pred为最终预测的多个标签,比如本实施例中给定文本S所预测出的主题类型(即标签)为“喜剧”和“战争”。
通过上述文本分类模型,文本分类部102即可完成对输入文本的分类并输出对应的文本类型信息。该文本类型信息即语义信息分类层205输出的类别标签。
分类信息输出部103用于将输入文本以及文本分类信息进行输出。
本实施例中,分类信息输出部103将输入文本以及文本类型信息输出给计算机的显示屏,从而让该显示屏显示给定文本S(电影评价文本)的分类结果供用户查看。在本发明其他方案中,该分类信息输出部103也可以将输入文本以及对应的文本类型信息输出给其他系统或是装置。
为验证本发明的有效性,本实施例中与两种以CNN为编码器的文本分类改进方法和两种以LSTM为编码器的文本分类改进方法在模型的精度和效率方面进行了定量比较,同时也通过消融实验验证了动态嵌入投影门对文本分类任务的重要作用,还通过可视化实验展示了本发明在文本分类任务中捕获特征的详细过程。实验证明,本发明在多类别与多标签文本分类任务中有突出表现。具体地:
图3是本发明实施例中5种分类模型在4个标准数据集上的效果对比示意图。
如图3所示,IMDB和AG属于多类别文本分类数据集,AAPD和Reuters属于多标签文本分类数据集。“±”右边的数值表示模型在5种随机种子下实验结果的标准差。通过图3可以看出,本发明的文本分类模型200(DEPG-CNN)相对于其他模型,在多类别(Multi-class)与多标签(Multi-label)文本分类任务上效果显著。
图4是本发明实施例中5种分类模型在4个标准数据集上的收敛时间(s)对比示意图。
如图4所示,本发明的文本分类模型200在数据集IMDB、AG和AAPD上均超过其他模型,在数据集Reuters上处于第二好的水平。值得注意的是XML-CNN虽然在数据集Reuters上优于本发明的文本分类模型200,但在精度方面却远低于本发明的文本分类模型200。
图5是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型消融实验结果示意图。
如图5所示,“-DEPG”表示模型不使用DEPG的情况。可以看出,带有DEPG的模型在4个标准数据集上均超过不使用DEPG的情况,这也说明了本发明构造的DEPG可以提升多类别与多标签文本分类的效果。
图6是本发明实施例中动态嵌入投影门控的多类别多标签文本分类模型捕获特征的可视化展示图。
如图6所示,(a)表示经过预训练分布式词向量初始化后的词嵌入矩阵,(b)表示DEPG层输出的上下文词嵌入矩阵,(c)表示多核多通道CNN层输出的特征图。图中的“Icingcall out of money out of patience out of time and for the foreseeable futureout of business”是从AG新闻测试集中随机选择的一段文本。从图6的(a)和(b)可以看出,DEPG不仅能够抑制不重要的词信息(例如“and”,“for”和“the”),而且还能保留重要的上下文信息(例如“Icing call out”,“out of money”和“out of business”),进而显式地说明了DEPG的有效性。从图6的(b)和(c)可以看出,DEPG层输出的重要特征在经过多核多通道CNN层之后被增强,这说明了多核多通道CNN能够获取细粒度信息增强的文本表征。
实施例作用与效果
根据本实施例提供的动态嵌入投影门控的多类别多标签文本分类模型及装置,由于在词嵌入动态控制层中,通过对短连接与门控机构进行自适应组合构造出一种动态嵌入投影门,能够高效地融合词向量之间的局部上下文关联信息和控制重组信息的流动;然后由于在细粒度信息增强层中,设计了多核多通道卷积神经网络结构获取细粒度信息增强的文本表征,能够兼顾文本分类处理的精度与效率;最后在语义信息分类层通过全连接神经网络将提取的文本表征映射至标记空间完成分类。因此,通过本发明的动态嵌入投影门控的多类别多标签文本分类模型,可以适应文本分类的多类别与多标签情况,在无需人工干预的情况下,可以高效地提取输入文本的上下文信息并进行文本分类,同时兼顾了文本分类的精度与效率,具有较强的适应性、鲁棒性及准确性。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (5)
1.一种动态嵌入投影门控的多类别多标签文本分类模型,用于对输入文本进行文本分类,其特征在于,包括:
预处理层,用于对所述输入文本进行预处理得到预处理文本;
词嵌入层,用于通过预训练分布式词向量对所述预处理文本进行初始化从而获取包含原始信息的第一词嵌入矩阵;
词嵌入动态控制层,用于根据所述第一词嵌入矩阵提取融合了该第一词嵌入矩阵上下文信息的转换信息,并基于动态嵌入投影门控制所述原始信息与所述转换信息形成第二词嵌入矩阵;
细粒度信息增强层,用于通过多核多通道卷积神经网络对所述第二词嵌入矩阵进行语义编码获取细粒度信息增强的增强文本表征;
语义信息分类层,用于通过全连接神经网络将所述增强文本表征映射至样本标记空间,从而输出类别概率分布并完成所述文本分类。
2.根据权利要求1所述的动态嵌入投影门控的多类别多标签文本分类模型,其特征在于:
其中,所述词嵌入动态控制层具有卷积核大小为r、通道数为h的一维卷积神经网络,该一维卷积神经网络用于根据所述第一词嵌入矩阵获取所述转换信息T=[t1,t2,...tn]Τ,该转换信息T可以通过计算所述输入文本每个特定位置i的位置转换信息ti,i=1,2,…,n得到,即:
ti=[t1,t2,...th]
tj=f(g(Wj⊙Xi:i+r)+bj)j=1,2,...h
式中,tj代表所述特定位置i的第j维特征,⊙为矩阵之间对应元素的点积操作,g为矩阵各元素之间的求和函数,f为ReLU激活函数,Wj和bj分别代表所述一维卷积神经网络第j个通道的权重矩阵和偏置项,
所述动态嵌入投影门分为负责控制所述转换信息T流动的转换门Gt以及负责控制所述原始信息X流动的传送门Gc,即:
Gt=σ(XWproj+bproj)
Gc=1-Gt
式中,Wproj和bproj分别代表所述动态嵌入投影门的权重矩阵和偏移向量,σ为sigmoid激活函数,
所述词嵌入动态控制层通过所述转换门Gt以及所述传送门Gc将所述原始信息X以及所述转换信息T结合得到所述第二词嵌入矩阵E:E=X⊙Gc+T⊙Gt。
3.根据权利要求1所述的动态嵌入投影门控的多类别多标签文本分类模型,其特征在于:
其中,所述多核多通道卷积神经网络的卷积核大小分别为k1、k2、k3,通道数为l,
所述第二词嵌入矩阵输入到所述多核多通道卷积神经网络之后,首先输出三个不同粒度的n-gram文本特征图,该n-gram文本特征图的特征图维度分别是(n-k1+1)×l、(n-k2+1)×l、(n-k2+1)×l,其次沿着所述输入文本的方向分别对每个所述文本特征图进行最大化池操作从而得到维度为l的三个文本表征,最后将三个所述文本表征进行拼接从而得到所述增强文本表征。
4.根据权利要求1所述的动态嵌入投影门控的多类别多标签文本分类模型,其特征在于,还包括:
用于训练所述动态嵌入投影门控的多类别多标签文本分类模型的损失函数层,
其中,当所述文本分类为多类别文本分类时,所述损失函数层采用以softmax为激活函数的交叉熵损失;
当所述文本分类为多标签文本分类时,所述损失函数层采用以sigmoid为激活函数的二元交叉熵损失,即:
式中,θ代表所述动态嵌入投影门控的多类别多标签文本分类模型的模型参数,m代表训练样本数量,c代表分类目标类别数,yij代表第i个所述训练样本在第j个标签类别上的真实值,zij代表第i个所述训练样本在第j个标签类别上经过所述全连接神经网络后的预测值,σ为sigmoid激活函数。
5.一种动态嵌入投影门控的多类别多标签文本分类装置,用于对输入文本进行分类,其特征在于,包括:
输入文本获取部,用于获取所述输入文本;
文本分类部,具有预设的文本分类模型,用于将所述输入文本进行分类从而得到对应所述输入文本的文本分类信息;以及
分类信息输出部,用于将所述文本分类信息进行输出,
其中,所述文本分类模型为权利要求1-4中任意一项所述的动态嵌入投影门控的多类别多标签文本分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503497.4A CN111639186B (zh) | 2020-06-05 | 2020-06-05 | 动态嵌入投影门控的多类别多标签文本分类模型及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503497.4A CN111639186B (zh) | 2020-06-05 | 2020-06-05 | 动态嵌入投影门控的多类别多标签文本分类模型及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639186A true CN111639186A (zh) | 2020-09-08 |
CN111639186B CN111639186B (zh) | 2023-11-07 |
Family
ID=72328574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010503497.4A Active CN111639186B (zh) | 2020-06-05 | 2020-06-05 | 动态嵌入投影门控的多类别多标签文本分类模型及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639186B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069813A (zh) * | 2020-09-10 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN112199501A (zh) * | 2020-10-13 | 2021-01-08 | 华中科技大学 | 一种科技信息文本分类方法 |
CN112347252A (zh) * | 2020-11-04 | 2021-02-09 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113128626A (zh) * | 2021-05-28 | 2021-07-16 | 安徽师范大学 | 基于一维卷积神经网络模型的多媒体流细分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097759A (zh) * | 2006-06-29 | 2008-01-02 | 株式会社东芝 | 编码装置与方法、解码装置与方法及信息记录和重现装置 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110502753A (zh) * | 2019-08-23 | 2019-11-26 | 昆明理工大学 | 一种基于语义增强的深度学习情感分析模型及其分析方法 |
CN110674305A (zh) * | 2019-10-10 | 2020-01-10 | 天津师范大学 | 一种基于深层特征融合模型的商品信息分类方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
-
2020
- 2020-06-05 CN CN202010503497.4A patent/CN111639186B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097759A (zh) * | 2006-06-29 | 2008-01-02 | 株式会社东芝 | 编码装置与方法、解码装置与方法及信息记录和重现装置 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110502753A (zh) * | 2019-08-23 | 2019-11-26 | 昆明理工大学 | 一种基于语义增强的深度学习情感分析模型及其分析方法 |
CN110674305A (zh) * | 2019-10-10 | 2020-01-10 | 天津师范大学 | 一种基于深层特征融合模型的商品信息分类方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
Non-Patent Citations (3)
Title |
---|
崔昕阳;龙华;熊新;邵玉斌;杜庆治;: "基于并行双向门控循环单元与自注意力机制的中文文本情感分类" * |
李文慧;张英俊;潘理虎;: "改进biLSTM网络的短文本分类方法" * |
赵亚欧;张家重;李贻斌;付宪瑞;生伟;: "融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069813A (zh) * | 2020-09-10 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN112069813B (zh) * | 2020-09-10 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN112199501A (zh) * | 2020-10-13 | 2021-01-08 | 华中科技大学 | 一种科技信息文本分类方法 |
CN112199501B (zh) * | 2020-10-13 | 2024-03-19 | 华中科技大学 | 一种科技信息文本分类方法 |
CN112347252A (zh) * | 2020-11-04 | 2021-02-09 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
CN112347252B (zh) * | 2020-11-04 | 2024-02-27 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113128626A (zh) * | 2021-05-28 | 2021-07-16 | 安徽师范大学 | 基于一维卷积神经网络模型的多媒体流细分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111639186B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022022163A1 (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN111639186B (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN111125406B (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN114090780A (zh) | 一种基于提示学习的快速图片分类方法 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
Inunganbi et al. | Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray | |
Zhen et al. | The research of convolutional neural network based on integrated classification in question classification | |
Liu et al. | Research on advertising content recognition based on convolutional neural network and recurrent neural network | |
Huang et al. | Machine vision therapy: Multimodal large language models can enhance visual robustness via denoising in-context learning | |
Annisa et al. | Analysis and Implementation of CNN in Real-time Classification and Translation of Kanji Characters | |
Bhalekar et al. | Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
Vidhyalakshmi et al. | Indian Sign Language Recognition using transfer learning with Efficient Net | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN116263786A (zh) | 舆情文本情感分析方法、装置、计算机设备及介质 | |
Karim et al. | Bangla Sign Language Recognition using YOLOv5 | |
SiChen | A neural network based text classification with attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |