CN110347839B - 一种基于生成式多任务学习模型的文本分类方法 - Google Patents

一种基于生成式多任务学习模型的文本分类方法 Download PDF

Info

Publication number
CN110347839B
CN110347839B CN201910648695.7A CN201910648695A CN110347839B CN 110347839 B CN110347839 B CN 110347839B CN 201910648695 A CN201910648695 A CN 201910648695A CN 110347839 B CN110347839 B CN 110347839B
Authority
CN
China
Prior art keywords
classification
label
task
hierarchical
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910648695.7A
Other languages
English (en)
Other versions
CN110347839A (zh
Inventor
谢松县
高辉
陈仲生
彭立宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Shuding Intelligent Technology Co ltd
Original Assignee
Hunan Shuding Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Shuding Intelligent Technology Co ltd filed Critical Hunan Shuding Intelligent Technology Co ltd
Priority to CN201910648695.7A priority Critical patent/CN110347839B/zh
Publication of CN110347839A publication Critical patent/CN110347839A/zh
Application granted granted Critical
Publication of CN110347839B publication Critical patent/CN110347839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明构建一种基于生成式多任务学习模型的文本分类方法,通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码,解码获得与编码时刻特征向量相关的当前时刻语义特征并进行训练;根据训练结果和真实标签集对多任务分类模型进行优化,获得优化多任务分类模型;将待测集中的数据输入上述优化多任务分类模型,分别获得分类标签从而完成分类;上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性,因此可以增强两个子任务预测结果之间的语义关联,从而达到提升子任务分类性能目的。

Description

一种基于生成式多任务学习模型的文本分类方法
技术领域
本发明属于自然语言处理文本分类技术领域,尤其涉及一种基于生成式多任务学习模型的文本分类方法。
背景技术
文本多标签分类和层次分类是在实际应用中经常需要解决的问题,也是文本分类任务重要的两个分支以及当前的研究热点。在实际应用中许多数据具有多义性,一个实例可能对应标签集中的多个类别标签,文本多标签分类的目的就是为文本到标签集建立起一对多的关联。相对于传统的单标签分类,多标签分类是一种更符合真实应用场景的方法。比如在公安业务场景中,案件的受理过程会产生大量案件的警情文本,一般需要人工来标注标签,以方便理解和检索,从而为后续案件研判和侦破提供数据服务。
实际应用往往需要对一个文本既进行多标签分类,又进行层次分类。与传统的单分类任务相比,多标签分类和层次分类任务更加复杂,现有研究重点关注如何对样本到标签之间的一对多映射进行建模;同时,由于多标签分类任务中的标签往往存在较强的语义关系,而层次分类标签之间存在父子或兄弟关系,可以充分利用标签之间的语义关系来提高分类效果。针对文本多标签分类和层次分类双重任务问题,目前的常规解决方案是分别训练一个多标签分类模型和一个层次分类模型,然后进行独立预测,但这种方案可能导致预测结果之间缺乏必要的语义关联。
发明内容
本发明提出了一种基于生成式多任务学习模型的文本分类方法,用于克服现有技术中多种分类模型中缺乏语义关联导致分类效果难以综合优化的缺陷,本发明利用多任务学习把多标签分类任务和层次分类任务整合到一个多任务分类模型之中,从而达到提升子任务分类性能目的。
为实现上述目的,本发明提供一种基于生成式多任务学习模型的文本分类方法,包括如下步骤:
S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;
S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;
S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;
S4.将待测试集的各文本语料输入优化模型获得预测分类标签。
采用本发明可以达到以下技术效果:
本发明首先构建训练集,对训练集中的文本语料进行预处理和分类标注,根据多标签分类标准和层次分类标准针对训练集分别构目标建标签集;基于多任务学习机制构建了一个多任务分类模型,通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码,解码获得与编码时刻特征向量相关的当前时刻语义特征,用来衡量编码器中第i时刻的特征向量和解码时第t时刻的相关性,并进行训练;根据训练结果和真实标签集对多任务分类模型进行优化,获得优化多任务分类模型;将待测集中的数据(没有标定的文本语料)输入上述优化多任务分类模型,分别获得分类标签;上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性,因此可以增强两个子任务预测结果之间的语义关联,从而达到提升子任务分类性能目的。
附图说明
图1为本发明一种基于生成式多任务学习模型的文本分类方法的工作流程示意图;
图2为本发明一种基于生成式多任务学习模型的文本分类方法的分类流程示意图。
具体实施方式:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种基于生成式多任务学习模型的文本分类方法。
如图1所示,本发明实施的框架包括数据输入及预处理模块、词嵌入模块、编码模块,多标签分类任务和层次分类任务分别拥有独立的注意力机制,并分别包括独立的多标签分类解码模块和层次分类解码模块,最后分别是多标签分类预测输出模块和层次分类预测输出模块,其中多标签分类模块和层次分类模块的解码模块又都包括模型优化模块,其中多标签分类模块的解码模块的优化是通过顺序不敏感的损失函数进行,而层次分类模块的解码模块优化是通过普通损失函数计算交叉熵实现的。
本发明提出一种基于生成式多任务学习模型的文本分类方法,同时实现文本的多标签分类和层次分类。系统框架如图2所示,总体框架,整个系统由3部分组成:1、共享编码器,对输入的文本进行编码,后续解码器共享此编码器的输出。2、多标签分类解码器,完成多标签分类任务;3、层次分类解码器,完成层次分类任务。其中编码器和解码器都使用了长短记忆模型网络结构,两个解码器分别拥有各自的注意力机制。
本发明包括如下步骤:
首先对待输入文本语料进行预处理,对即将输入的文本语料中的文本数据进行分词、去停用词,构建语料词表;将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵;
S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;
多标签分类任务和层次分类任务对应的完整标签集分别为
Figure GDA0003084274050000041
Figure GDA0003084274050000042
完整标签集即分类任务对应的全部标签,多标签分类任务和层次分类任务的完整标签集对应标签数量分别为L_M和L_H。待分类文本语料包含n个中文词x1,x2,…,xn,多标签分类任务和层次分类任务是为其指定一个
Figure GDA0003084274050000043
的子集YM和一个
Figure GDA0003084274050000044
的子集YH对应标签个数分别为m_M和m_H。训练集中各文本语料对应的真实标签集是也属于完整标签集的子集。
S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;
多任务学习使用共同学习取代常见的独立学习。多任务学习模型提取多个任务之间的关联性,提炼出其中所具有的相同特征,如共享子向量、共享子空间等,各个子任务能够得到额外的有用信息,大部分情况下都能取得比单任务学习更好的效果。在自然语言处理应用中,多任务学习不仅能利用相关任务的相互关联性缓解语料由于规模小带来的训练欠拟合问题,而且还能提升模型的泛化能力。
本发明利用多任务学习模型把多标签分类任务和层次分类任务整合到一个框架之中,从而达到提升子任务分类性能目的,同时将尝试利用多任务学习增强两个子任务预测结果之间的语义关联。
S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;
S4.将待测试集的各文本语料输入优化模型获得预测分类标签。
本发明所述S2包括:
S2.1.文本语料经预处理得到词嵌入矩阵,词嵌入矩阵中输入共享编码器,共享编码器利用双向长短记忆模型,根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词嵌入向量的历史信息和未来信息得到当前时刻对应的特征向量,每一时刻对应的特征向量组成特征向量序列;
共享编码器主要由双向长短记忆模型构成,用来获取警情文本的语义表征。长短记忆模型引入记忆单元,可以保存长距离信息,是循环神经网络结构的一种常用的优化方案。由于加入了门控机制,可以在工作时保留一段时间的信息,并在训练时保持内部梯度不受不利变化的干扰。对包含n个中文词语的序列,输入至共享编码器得到对应输出序列h1,h2,…,hn。第i时刻的特征向量hi可表示如下:
Figure GDA0003084274050000051
其中,
Figure GDA0003084274050000052
Figure GDA0003084274050000053
分别对应于第i时刻长短记忆模型前后两个时刻的隐藏状态。
Figure GDA0003084274050000054
表示两个向量的连接。
S2.2.将所述特征向量输入多任务分类解码器,根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征。
本发明所述S2.2包括:
多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层;
注意力机制通过在每个解码时刻采用不同的ct来解决该问题。
Figure GDA0003084274050000061
其中ct表示t解码时刻的语义特征,ati为学习得到的权重,用来衡量编码器中第i时刻的hi和解码时第t时刻的相关性。
多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特征序列;
层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序列;
其中语义特征序列由每一解码时刻按照先后顺序生成的语义特征组成。
S2.3.根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的词嵌入向量以及前一时刻隐藏向量,获得当前时刻隐藏向量;
本发明所述S2.3中当前时刻隐藏向量获得的方法包括:
S2.31,对多任务分类模型初始化,将多任务注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量,并输入至多任务分类模型中的多任务分类器,其中多任务分类器包括多标签分类器和层次分类器,多任务分类器计算当前时刻语义特征在完整标签集上的概率分布,并输出概率最大值对应的分类标签;
S2.32,将前一时刻的输出在完整标签集上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型层,得到当前时刻的隐藏层对应的隐藏向量。
解码器的长短记忆模型层输出的t时刻的隐藏状态为st,计算如下:
Figure GDA0003084274050000071
向量g(yt-1)表示t-1时刻输出概率分布yt-1中最大值对应的标签l的嵌入向量。yt表示模型t时刻输出的在整个标签空间
Figure GDA0003084274050000072
上的概率分布。
S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征,层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及层级结构掩码矩阵,分别获得当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的训练分类标签。
本发明所述S2.4中输出当前时刻分类标签的步骤包括:
S2.41,多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器,多标签分类器计算当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的分类标签输出;
S2.42,层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至层次分类器,层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对当前时刻输出分类标签的进行层级约束后,层次分类器计算当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的分类标签输出。
本发明所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括:
S2.42a,层次分类任务对应的完整标签集按照树形结构组织;
S2.42b,当前时刻的分类标签依赖于之前时刻的分类标签信息,层级结构掩码矩阵将当前时刻分类标签的搜索范围约束在前一时刻生成的分类标签的儿子标签上。
本发明所述S3包括:
通过损失函数计算训练分类标签集中训练分类标签与真实标签集中真实标签之间的损失值,对多任务分类模型中的参数进行优化,获得优化多任务分类模型;多任务分类模型中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。
本发明所述S3中多任务分类模型中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。
模型t时刻输出的在整个标签空间
Figure GDA0003084274050000081
上的概率分布yt的计算方法为:
yt=softmax(W0f(Wdst+Vdct))
其中,W0、Wd和Vd为待训练参数。所述参数的优化即对W0、Wd和Vd的优化。
本发明所述步骤S3中多标签分类器的参数优化的步骤包括:
S3.1a,对于当前解码时刻输出的训练分类标签,根据交叉熵损失函数计算其与真实标签集所有真实标签的交叉熵,获取其中交叉熵最小值,称为第一损失值
S3.2a,对于真实标签集中当前解码时刻对应的真实标签,根据交叉熵函数计算其与所有训练分类标签的交叉熵,获取其中交叉熵最小值,称为第二损失值;
S3.3a,第一损失值与第二损失值之和构成标签顺序不敏感的多标签分类损失;
S3.4a,最后的损失值用于基于反向传播方法的模型参数优化,优化过程中当模型处于收敛时,对应的多标签分类器参数作为优化后的多标签分类器并进行保存。
本发明所述步骤S3中层次分类器的参数优化的步骤包括:
S3.1b,根据交叉熵损失函数每一解码时刻输出的训练分类标签与该解码时刻对应的真实标签集中的真实标签的交叉熵;
S3.2b计算该文本语料所有解码时刻的交叉熵之和作为最后的损失值;
S3.3b最后的损失值用于基于反向传播方法的模型参数优化,优化过程中当模型处于收敛时,对应的层次分类器参数作为优化后的层次分类器并进行保存。
下面给出一个面向公安警情数据和类别识别问题的实施例,采用案件受理过程中产生的警情文本作为实验数据。产生的12万多条警情文本,每条文本都由专业人员进行了警情tag和案件类别的标注。警情tag标注属于多标签分类任务,警情类别预测属于层次分类任务。
针对多标签分类任务和层次分类任务,本文选择了不同的baseline与多任务分类模型进行对比:
CNN多标签分类:利用CNN来捕捉文本特征,最后一层用sigmoid激活函数输出每个标签的概率,将样本标注为概率大于某个阈值的那些标签,该方法未考虑标签之间的关系。
SGM多标签分类:利用带有注意力机制的Seq2Seq模型进行文本多标签分类,同时引入“全局嵌入”的概念,将上一时刻除概率最大标签以及其他标签一同用于本时刻标签的预测。
CNN_Flat层次分类:将7层类别标签平铺为一层包含729个类别的标签集,使用CNN模型进行文本分类。
Top-Down(CNN)层次分类:对于树形层次结构,为每一个非叶节点训练一个CNN文本分类器,用于对所属子类进行预测。
为了验证本发明中各项改进对性能的影响,分别设置了以下几个模型进行对比实验:
GMTC_M:仅用于多标签分类单个任务的序列生成模型,编码器和多标签分类解码器的结构和超参数均与多任务分类模型一致。
GMTC_H:仅用于层次分类单个任务的序列生成模型,编码器和层次分类解码器的结构和超参数均与多任务分类模型一致。
GMTC(common loss):多任务分类模型中的多标签分类任务采用传统标签生成模型的交叉熵损失函数的情况。
GMTC(without mask):多任务分类模型中的层次分类解码器未采用层级结构掩码矩阵的情况。
按照8:1:1的比例将上述警情文本划分为训练集、测试集和验证集,作为输入本发明的文本语料。对输入的文本语料进行分词、去停用词,构建语料词表。
对语料词表中的语料词按照完整标签集中多标签映射关系以及层次分类映射关系分别构建目标标签集。警情tag对应目标标签集大小为14。案件类别目标标签集为深度7层的树形层次结构,从第1层到第7层对应的标签数量分别为20、106、55、132、144、210、62。对于案件类别分类,每个实例既可能对应全深度标签又可能对应部分深度标签,即实例分类分到非叶节点就停止,而不是必须分到叶节点。
将将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵,其中词嵌入维度为128;将输入的文本语料词表数值化表示,并将数值化表示的文本语料词表输入到嵌入层中以得到文本语料词表对应的词嵌入向量序列,所有所述词嵌入向量序列构成词嵌入矩阵。
对所述词嵌入矩阵进行编码获得与每个语料词对应的特征向量;
将所述词嵌入矩阵传输至共享编码层,共享编码层利用双向长短记忆模型获得输入词嵌入向量序列的历史信息和未来信息以及当前时刻输入的文本语料的词嵌入向量得到当前时刻对应的特征向量。
将所述特征向量输入多任务分类模型,根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征;
在执行多标签分类任务和层次分类任务时共享编码层输出的特征向量序列;
多标签分类任务的解码是通过注意力机制层输出特征向量序列对应的多标签分类任务语义特征序列;
层次分类任务的解码是通过注意力机制层输出特征向量序列对应的层次分类任务语义特征序列。
其中多标签分类任务和层次分类任务分别拥有独立的注意力机制。
如表4所示,针对同一段警情文本,单任务模型包括多标签分类模型(GMTC_M)和层次分类模型(GMTC_H),和多任务分类模型在词序列上的注意力机制可视化情况。针对同一段文本语料,对应的警情tag和警情类别真值分别为“涉枪,涉黑恶”和“涉黑恶/涉枪”,多标签分类模型将警情tag错误预测为“伤害”,将较高的注意力权重两次分配给“打”,而对“钢珠”、“气枪”分配的权重较小,在采用了多任务学习框架的多任务模型模型中,警情tag预测时将较高的注意力权重正确分配给“钢珠”、“气枪”等词,且与警情类别预测时的注意力权重分配保持了较高的一致性。
根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的嵌入向量以及前一时刻隐藏向量,获得当前时刻隐藏向量;
多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征,层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签,获得当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的分类标签;
通过损失函数计算分类标签集中与目标标签集中对应位置标签真值之间的损失值,对多任务分类模型中的参数进行优化,获得优化多任务分类模型;
当前时刻隐藏向量求法具体如下:
对多任务分类模型初始化,将注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量,并输入至softmax层进行分类,得出该时刻语义特征对应的分类标签;
将前一时刻的输出在整个标签空间上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至长短记忆模型层,得到当前时刻的隐藏层隐藏向量。
输出当前时刻分类标签的方法具体如下:
多标签分类任务将当前时刻的语义特征和隐藏向量输入至softmax层,输出当前时刻的分类标签;
层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至softmax层,先根据层级结构掩码矩阵结合前一时刻的分类标签增强当前时刻输出分类标签的层级约束。
所述层级结构掩码矩阵工作方式具体为:
类别结构掩码的引入,使得当前时刻标签只能从上一时刻标签在完整标签集层次结构中的子结点集合产生,如表2所示,该项改进使得警情类别预测结果在各个指标都得到了明显提升。本实施例采用的数据集中,各级警情类别数量为729,而包含最多子类的类别为“盗窃”,包含子类数目为15,所有类别包含子类的平均数目为4,可见引入类别结构掩码后可以大大缩小每一时刻标签的搜索范围,从而提高分类性能。
多任务分类模型中的参数优化分为多标签分类模型的参数优化和层次分类模型的标签优化。:
多标签分类模型的优化过程具体如下:
使用标签顺序不敏感的多标签分类损失函数对多标签分类模型进行优化,对于当前时刻输出的分类标签,计算其与目标标签集所有标签的交叉熵,取其中交叉熵最小值参与最后标签顺序不敏感的多标签分类损失函数的计算;
多标签分类任务并不要求生成序列中标签之间保持严格的顺序,针对这一特点,本文提出了标签顺序不敏感的多标签分类损失函数,表1显示当引入标签顺序不敏感的多标签分类损失函数时,预测效果得到小幅度提升。标签顺序不敏感的多标签分类损失函数比通用交叉熵损失函数能得到更快的收敛速度。
对于目标标签集中当前时刻对应的标签,计算其与所有分类标签的交叉熵,取其中交叉熵最小值参与最后标签顺序不敏感的多标签分类损失函数的计算;
分类标签序列和目标标签序列中的结束位置仍然按照普通损失函数计算,最后将两部分损失相加作为最后的损失;
将最后的损失对应的参数作为多标签分类模型的参数,并保存优化后的多标签分类模型。
所述层次分类模型的优化过程具体如下:
层次分类任务使用普通损失函数计算方法对多任务分类模型进行优化,每一时刻输出的分类标签与目标标签之间交叉熵之和最小的分类标签作为最后的损失;
将最后的损失对应的参数作为分类模型的参数,并保存优化后的层次分类模型。
输入待测文本语料,经S1、3、4处理,输入优化多任务分类模型,在执行多标签分类任务得到多标签分类任务语义特征序列,在执行层次分类任务时获得层次分类任务语义特征序列;
当前时刻语义特征结合当前时刻隐藏向量经过多任务分类模型的softmax层进行归一化处理,输出大于预设阈值的解码序列,根据所述解码序列在完整标签集中找出相应的分类标签。
在本实施例中,多任务分类模型在两个任务上比分别单独进行多标签分类模型(GMTC_M)(如表1所示)和层次分类模型(GMTC_H)(如表2所示)均存在优势,证明了多任务学习框架能够同时提高两个任务的学习效果。
在警务实战应用场景中,基于单任务学习的多标签分类模型和层次分类模型,对同一个警情文本在tag和类别的预测结果上缺乏语义关联,比如标签为“双抢”,而类别却为“诈骗类/接触型诈骗”,在具体业务场景中会使人们产生较大困惑。
表1和表2展示了baseline和本文设置的多个模型在警情文本数据集上的实验结果。对于面向警情文本tag预测的多标签分类实验,如表1所示,本文提出的多任务分类模型和SGM性能相当,在Full-Match和Micro-F1比SGM均低0.1个百分点,但在准确率上取得了最好结果,比SGM高出0.5个百分点。本实施例中在提出的标签顺序不敏感的多标签分类损失函数后,多任务分类模型在各个指标上均有提高。
对于面向警情文本层次分类实验,如表2所示,多任务分类模型在各个指标上均取得最高得分,且比效果较好的Top-Down方法高出2到7个百分点。同时,在引入掩码矩阵后,多任务分类模型在各个指标均有明显提高。
表1.警情文本tag预测结果
模型 Acc Full-Match Micro-F1
CNN 0.902 0.873 0.869
SGM 0.954 0.941 0.924
GMTC_M 0.954 0.933 0.917
GMTC(commonloss) 0.952 0.936 0.916
GMTC 0.959 0.940 0.923
表2.警情类别层次分类结果
Figure GDA0003084274050000141
Figure GDA0003084274050000151
表3 Full-Match2结果
SGM+Top-Down SGM+GMTC_H GMTC_M+GMTC_H GMTC
0.649 0.682 0.678 0.703
表4注意力机制可视化
Figure GDA0003084274050000152
Figure GDA0003084274050000161
深灰和浅灰表示分配的注意力权重a>10-1和10-1>a>10-2
以上包含了本发明优选实施例的说明,这是为了详细说明本发明的技术特征,并不是想要将发明内容限制在实施例所描述的具体形式中,依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定,而非由实施例的具体描述所界定。

Claims (8)

1.一种基于生成式多任务学习模型的文本分类方法,其特征在于,包括如下步骤:
S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;
S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签,包括:
S2.1.文本语料经预处理得到词嵌入矩阵,词嵌入矩阵中输入共享编码器,共享编码器利用双向长短记忆模型,根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词嵌入向量的历史信息和未来信息得到当前时刻对应的特征向量,每一时刻对应的特征向量组成特征向量序列;
S2.2.将所述特征向量输入多任务分类解码器,根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征;
S2.3.根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的词嵌入向量以及前一时刻隐藏向量,获得当前时刻隐藏向量;
S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征,层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及层级结构掩码矩阵,分别获得当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的训练分类标签;
S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;
S4.将待测试集的各文本语料输入优化模型获得预测分类标签。
2.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2.2包括:
多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层;
多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特征序列;
层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序列;
其中语义特征序列由每一解码时刻按照先后顺序生成的语义特征组成。
3.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2.3中当前时刻隐藏向量获得的方法包括:
S2.31,对多任务分类模型初始化,将多任务注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量,并输入至多任务分类模型中的多任务分类器,其中多任务分类器包括多标签分类器和层次分类器,多任务分类器计算当前时刻语义特征在完整标签集上的概率分布,并输出概率最大值对应的分类标签;
S2.32,将前一时刻的输出在完整标签集上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型层,得到当前时刻的隐藏层对应的隐藏向量。
4.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2.4中输出当前时刻分类标签的步骤包括:
S2.41,多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器,多标签分类器计算当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的训练分类标签输出;
S2.42,层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至层次分类器,层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对当前时刻输出分类标签的进行层级约束后,层次分类器计算当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的训练分类标签输出。
5.如权利要求4所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括:
S2.42a,层次分类任务对应的完整标签集按照树形结构组织;
S2.42b,当前时刻的分类标签依赖于之前时刻的训练分类标签信息,层级结构掩码矩阵将当前时刻训练分类标签的搜索范围约束在前一时刻生成的训练分类标签的儿子标签上。
6.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S3中包括:
通过损失函数计算训练分类标签集中训练分类标签与真实标签集中真实标签之间的损失值,对多任务分类模型中的参数进行优化,获得优化多任务分类模型;多任务分类模型中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。
7.如权利要求6所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述步骤S3中多标签分类器的参数优化的步骤包括:
S3.1a,对于当前解码时刻输出的训练分类标签,根据交叉熵损失函数计算其与真实标签集所有真实标签的交叉熵,获取其中交叉熵最小值,称为第一损失值
S3.2a,对于真实标签集中当前解码时刻对应的真实标签,根据交叉熵函数计算其与所有训练分类标签的交叉熵,获取其中交叉熵最小值,称为第二损失值;
S3.3a,第一损失值与第二损失值之和构成标签顺序不敏感的多标签分类损失;
S3.4a,最后的损失值用于基于反向传播方法的模型参数优化,优化过程中当模型处于收敛时,对应的多标签分类器参数作为优化后的多标签分类器并进行保存。
8.如权利要求6所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述步骤S3中层次分类器的参数优化的步骤包括:
S3.1b,根据交叉熵损失函数每一解码时刻输出的训练分类标签与该解码时刻对应的真实标签集中的真实标签的交叉熵;
S3.2b计算该文本语料所有解码时刻的交叉熵之和作为最后的损失值;
S3.3b最后的损失值用于基于反向传播方法的模型参数优化,优化过程中当模型处于收敛时,对应的层次分类器参数作为优化后的层次分类器并进行保存。
CN201910648695.7A 2019-07-18 2019-07-18 一种基于生成式多任务学习模型的文本分类方法 Active CN110347839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910648695.7A CN110347839B (zh) 2019-07-18 2019-07-18 一种基于生成式多任务学习模型的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910648695.7A CN110347839B (zh) 2019-07-18 2019-07-18 一种基于生成式多任务学习模型的文本分类方法

Publications (2)

Publication Number Publication Date
CN110347839A CN110347839A (zh) 2019-10-18
CN110347839B true CN110347839B (zh) 2021-07-16

Family

ID=68178740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910648695.7A Active CN110347839B (zh) 2019-07-18 2019-07-18 一种基于生成式多任务学习模型的文本分类方法

Country Status (1)

Country Link
CN (1) CN110347839B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990562B (zh) * 2019-10-29 2022-08-26 新智认知数字科技股份有限公司 警情分类方法及其系统
CN110807517A (zh) * 2019-10-30 2020-02-18 智者四海(北京)技术有限公司 用于多任务识别的神经网络系统
CN110851604B (zh) * 2019-11-12 2022-09-13 鼎富智能科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN111143552B (zh) * 2019-12-05 2023-06-27 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN111177385B (zh) * 2019-12-26 2023-04-07 北京明略软件系统有限公司 一种多层次分类模型训练方法、多层次分类方法和装置
CN111241279B (zh) * 2020-01-07 2020-10-30 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
CN111291183B (zh) * 2020-01-16 2021-08-03 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法
CN111460097A (zh) * 2020-03-26 2020-07-28 华泰证券股份有限公司 一种基于tpn的小样本文本分类方法
CN111651270B (zh) * 2020-05-19 2021-07-20 南京擎盾信息科技有限公司 对法律数据完成多任务语义标注的可视化方法和装置
CN113743117B (zh) * 2020-05-29 2024-04-09 华为技术有限公司 用于实体标注的方法和装置
CN111783829A (zh) * 2020-05-29 2020-10-16 广发证券股份有限公司 一种基于多标签学习的财务异常检测方法及装置
CN111651603B (zh) * 2020-06-04 2024-03-19 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN111666771B (zh) * 2020-06-05 2024-03-08 北京百度网讯科技有限公司 文书的语义标签抽取、装置、电子设备及可读存储介质
CN111881968B (zh) * 2020-07-22 2024-04-09 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备
CN112001484A (zh) * 2020-08-22 2020-11-27 哈尔滨工业大学 一种基于多任务深度学习的安全缺陷报告预测方法
CN112036146A (zh) * 2020-08-25 2020-12-04 广州视源电子科技股份有限公司 一种评语生成方法、装置、终端设备及存储介质
CN112488290B (zh) * 2020-10-21 2021-09-07 上海旻浦科技有限公司 具有依赖关系的自然语言多任务建模、预测方法及系统
CN112417862A (zh) * 2020-11-23 2021-02-26 深圳中兴网信科技有限公司 知识点预测方法、系统和可读存储介质
CN112464637B (zh) * 2020-11-27 2024-02-27 平安科技(深圳)有限公司 基于标签的优化模型训练方法、装置、设备及存储介质
CN112232524B (zh) * 2020-12-14 2021-06-29 北京沃东天骏信息技术有限公司 多标签信息的识别方法、装置、电子设备和可读存储介质
CN112954399B (zh) * 2021-02-09 2021-12-17 腾讯科技(深圳)有限公司 一种图像处理方法、装置以及计算机设备
CN113127769B (zh) * 2021-04-07 2022-07-29 华东师范大学 基于标签树和人工智能的习题标签预测系统
CN113343638B (zh) * 2021-05-10 2023-10-13 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113128622B (zh) * 2021-05-12 2022-05-31 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113314107B (zh) * 2021-05-28 2022-10-21 思必驰科技股份有限公司 训练语音增广模型的方法和装置
CN113344060B (zh) * 2021-05-31 2022-07-08 哈尔滨工业大学 文本分类模型训练方法、诉讼状分类方法及装置
CN113435398B (zh) * 2021-07-13 2022-07-01 重庆傲雄在线信息技术有限公司 基于掩码预训练模型的签名特征识别方法、系统、设备及存储介质
CN113688863A (zh) * 2021-07-14 2021-11-23 精英数智科技股份有限公司 基于机器学习的矿井传感器报警原因分类方法及装置
CN113420154B (zh) * 2021-08-25 2021-12-10 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法
CN114118273B (zh) * 2021-11-24 2024-04-26 南开大学 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法
CN114490950B (zh) * 2022-04-07 2022-07-12 联通(广东)产业互联网有限公司 编码器模型的训练方法及存储介质、相似度预测方法及系统
CN114490951B (zh) * 2022-04-13 2022-07-08 长沙市智为信息技术有限公司 一种多标签文本分类方法及模型
CN114580433B (zh) * 2022-05-05 2022-08-02 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN116932832B (zh) * 2023-09-15 2024-01-23 深圳市智慧城市科技发展集团有限公司 数据资产目录生成方法、设备及计算机可读存储介质
CN117152422B (zh) * 2023-10-31 2024-02-13 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
CN106126972A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 一种用于蛋白质功能预测的层级多标签分类方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060004909A (ko) * 2003-02-14 2006-01-16 너바나, 인코퍼레이티드. 시맨틱 지식의 검색, 관리, 포착, 공유, 발견, 전달 및프리젠테이션 시스템 및 방법
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN109299273B (zh) * 2018-11-02 2020-06-23 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109711464B (zh) * 2018-12-25 2022-09-27 中山大学 基于层次化特征关系图构建的图像描述方法
CN110020615B (zh) * 2019-03-20 2023-05-02 创新先进技术有限公司 对图片进行文字提取及内容识别的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
CN106126972A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 一种用于蛋白质功能预测的层级多标签分类方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Hierarchical Neural Attention-based Text Classifier";Koustuv Sinha 等;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181104;第817-823页 *
"基于长短时记忆网络的多标签文本分类";熊涛;《中国优秀硕士论文全文数据库 信息科技辑》;20180115(第01期);I138-1971 *

Also Published As

Publication number Publication date
CN110347839A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110347839B (zh) 一种基于生成式多任务学习模型的文本分类方法
Liang et al. Explaining the black-box model: A survey of local interpretation methods for deep neural networks
Ghifary et al. Deep reconstruction-classification networks for unsupervised domain adaptation
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
Zhang et al. A GANs-based deep learning framework for automatic subsurface object recognition from ground penetrating radar data
AU2017101803A4 (en) Deep learning based image classification of dangerous goods of gun type
CN109800768B (zh) 半监督gan的散列特征表示学习方法
CN111444342A (zh) 一种基于多重弱监督集成的短文本分类方法
CN113761197B (zh) 一种可利用专家知识的申请书多标签层次分类方法
Fu et al. RethinkCWS: Is Chinese Word Segmentation a Solved Task?
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114937182B (zh) 一种基于情感轮和卷积神经网络的图像情感分布预测方法
Dai et al. Ctrn: Class-temporal relational network for action detection
Fu et al. Deep momentum uncertainty hashing
CN116610831A (zh) 语义细分及模态对齐推理学习跨模态检索方法及检索系统
CN113723572B (zh) 船只目标识别方法、计算机系统及程序产品、存储介质
Long et al. Video domain adaptation based on optimal transport in grassmann manifolds
Cao et al. Visual question answering research on multi-layer attention mechanism based on image target features
CN111950646A (zh) 电磁图像的层次化知识模型构建方法及目标识别方法
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN116563602A (zh) 基于类别级软目标监督的细粒度图像分类模型训练方法
CN116580272A (zh) 一种基于模型融合推理的雷达目标分类方法及系统
CN113505937A (zh) 一种基于多视角编码器的法律判决预测系统及方法
Niu et al. Balance Loss for MultiAttention-Based YOLOv4
Sharma et al. Optical Character Recognition Using Hybrid CRNN Based Lexicon-Free Approach with Grey Wolf Hyperparameter Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant