CN110134789B - 一种引入多路选择融合机制的多标签长文本分类方法 - Google Patents

一种引入多路选择融合机制的多标签长文本分类方法 Download PDF

Info

Publication number
CN110134789B
CN110134789B CN201910410661.4A CN201910410661A CN110134789B CN 110134789 B CN110134789 B CN 110134789B CN 201910410661 A CN201910410661 A CN 201910410661A CN 110134789 B CN110134789 B CN 110134789B
Authority
CN
China
Prior art keywords
sequence
data
model
label
long text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910410661.4A
Other languages
English (en)
Other versions
CN110134789A (zh
Inventor
屈鸿
秦展展
侯帅
黄鹂
张晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910410661.4A priority Critical patent/CN110134789B/zh
Publication of CN110134789A publication Critical patent/CN110134789A/zh
Application granted granted Critical
Publication of CN110134789B publication Critical patent/CN110134789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种引入多路选择融合机制的多标签长文本分类方法,涉及基于序列到序列架构的多标签长文本分类技术领域。本发明提升基于序列到序列架构完成多标签长文本分类的效果,基于某机器学习挑战赛发布的数据,将标题数据和描述数据拼接得到长文本数据,对于没有描述的数据,复制一份问题当做描述,然后对数据进行去低频词的预处理,得到更为有效的数据,得到的数据采用加入多路选择融合机制的转换器模型对输入的长文本生成标签序列,在解码时有效去除冗余信息。在测试数据下,该模型生成的标签序列比未加入多路选择融合的模型在召回率百分之0.5;精准率和F1值提升了1个百分点的效果。

Description

一种引入多路选择融合机制的多标签长文本分类方法
技术领域
本发明涉及基于序列到序列架构的多标签长文本分类技术领域,具体涉及一种引入多路选择融合机制的多标签长文本分类方法。
背景技术
在研究基于序列到序列架构的多标签长文本分类过程中。注意力机制,深度学习中的注意力机制是仿照人的视觉关注机制,根据需要每次将注意力放到输入序列的某一部分,而不是一次关注到全部。注意力机制在自然语言处理领域有着广泛应用。注意力机制分为硬注意力和软注意力,软注意力机制会对序列的每个部分都分配一个注意力权重。计算注意力权重要先计算对序列每个部分的配分,然后对配分进行归一化即可得到注意力权重αi
Figure GDA0002955905020000011
其中,s(xi,q)为配分函数,计算q对xi的注意力配分,N为输入序列长度。对于配分函数的不同,将影响生成的标签序列的精确率、召回率和F1等值。
发明内容
针对现有技术中所存在的不足,本发明提供了引入多路选择融合机制的多标签长文本分类方法,解决了生成的标签序列的模型在精确率、召回率和F1等值优化的问题。
为实现上述目的,本发明采用了如下的技术方案:
一种引入多路选择融合机制的多标签长文本分类方法,包括以下步骤:
S1.将训练数据集,将训练数据集中的标题数据和描述数据拼接得到长文本数据,对于没有描述数据的训练数据,复制一份标题数据当做标题数据对应的描述数据;然后将长文本数据按照比例划分训练集、验证集和测试集,划分训练集、验证集和测试集相应的比例为预设值;
S2.将训练集的长文本数据进行去低频词后建立编码器所需的词表以及建立解码器所需的类别标签的词表,将标签序列前面加上序列起始符号得到解码器的输入,将标签序列后面加上序列结束符号得到解码器的输出,将长文本和对应的两个标签序列根据各自的词表分别映射为序号形式的输入和标签;S3-1.输入和标签输入转换器模型,转换器模型包括编码器端和解码器端,解码器端在解码的每一步开始前的待解码的数据,通过点积、加性注意力和乘性注意力三种配分函数并行的选取编码序列中和当前解码状态最相关的一半序列,当一半数字出现余数时采用向上取整得到,其余序列加上负无穷,使得softmax后该位置的注意力权重为0,实现只对选择的相关度高的部分序列分配注意力权重,将注意力权重和编码序列进行加权求和后得到三个向量h1、h2、h3
S3-2.将三个向量h1、h2、h3通过两个融和函数r1和r2,将向量进行融合,得到最终用于解码的向量c;融合的公式为:
c=(1-r2)*((1-r1)*h1+r1*h2)+r2*h3
r1=σ(W1h1+U1h2);r2=σ(W2c2+U2h3);
其中,W1、U1、W2、U2为随机初始化的参数;c2为用于解码的第二向量;σ为融合特征关系符;
S3-3.将解码的向量通过公式(1)得到模型预测的类别标签序列;
Figure GDA0002955905020000021
m为解码器堆栈总层数
Figure GDA0002955905020000022
其中,l为当前解码器堆栈层数,cl为当前解码器堆栈的输出,Wd为随机初始化的向量,p(u)表示模型预测的各个类别标签的概率分布;
S3-4.将模型预测的类别标签序列和真实的类别标签序列进行计算交叉熵损失Lml,然后通过反向传播算法计算损失对参数的偏导数得到参数的更新量后更新模型参数,直至交叉熵损失Lml的变化范围幅值小于或等于0.2时,模型收敛时对应的模型参数为最终训练模型。
最终训练模型将长文本生成类别标签序列。
相比于现有技术,本发明具有如下有益效果:
1.针对长文本分类中存在信息冗余的问题,首次将多路选择融合机制引入基于序列到序列架构的多标签文本分类模型,在解码时只关注和当前状态相关度大的部分序列信息。
2、基于转换器模型完成长文本输入到类别标签序列的生成,借助转换器模型强大的特征抽取能力以及高效的运行效率,与基线模型相比,耗费更短的训练、预测时间取得更好的效果。
3.本发明提升基于序列到序列架构完成多标签长文本分类的效果,本文基于某机器学习挑战赛发布的数据,将标题数据和描述数据拼接得到长文本数据,对于没有描述的数据,复制一份问题当做描述,然后对数据进行去低频词的预处理,得到更为有效的数据,得到的数据采用加入多路选择融合机制的转换器模型对输入的长文本生成标签序列,在解码时有效去除冗余信息。在测试数据下,该模型生成的标签序列比未加入多路选择融合的模型在精确率、召回率和F1等值提升了效果。
附图说明
图1为本发明应用的转换器模型结构示意图;
图2为本发明提出的多路选择融合机制中选择的过程示意图;
图3为本发明的引入多路选择融合机制的长文本分类模型与基线模型损失变化曲线;
图4为本发明的引入多路选择融合机制的长文本分类模型与基线模型F1值变化曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1-4所示:
对某机器学习挑战赛发布的300万的训练数据集,将标题数据和描述数据拼接得到长文本数据,对于没有描述的数据,复制一份问题当做描述。然后对300万的数据切分出20万当验证集,20万当测试集,其余260万当训练集。
将数据进行去低频词后建立编码器所需的词表,建立解码器所需的类别标签的词表,将标签序列前面加上序列起始符号得到解码器的输入,将标签序列后面加上序列结束符号得到解码器的输出,如对输入长文本x1、x2...xn,标签为l1、l2、...、ln',序列的起始符号为<s>,序列的结束符号为</s>,则解码器端的输入为<s>、l1、l2、...、ln',解码器端的输出为l1、l2、...、ln'、</s>。将长文本和对应的两个标签序列根据各自的词表分别映射为序号形式的模型的输入和标签;
将处理好的输入数据分别输入到模型的编码器端和解码器端,转换器模型采用A.Vaswani,N.Shazeer,N.Parmar,et al.Attention Is All You Need[C].NIPS 30,LongBeach,California,2017,5998–6008公开的模型,如图1所示。在解码的每一步,根据当前的解码状态通过点积、加性注意力和乘性注意力三种函数分选别取编码序列中和当前解码状态最相关的一半序列,其余序列加上负无穷,使得softmax后该位置的注意力权重为0,实现只对选择的相关度高的部分序列分配注意力权重;
点积、加性注意力和乘性注意力三种函数如下:
(1)点积:
s(xi,q)=xi Tq
点积值越大,两个向量间的夹角越小,两个向量越相似。点积没有引入额外需要学习的参数,只有原始两个向量的矩阵操作,运算速度快。
(2)加性注意力:
s(xi,q)=vTtanh(Wxi+Uq)
加性注意力是2015年Bahdanau等人将注意力机制引入机器翻译任务时提出的,在后续各种自然语言处理应用中广泛使用。从公式可以看出,加性注意力相当于用一个单层的前馈网络来计算注意力的配分。加性注意力需要学习的额外参数有3个,计算量和存储较前两种方式较大,但实验表明加性注意力机制往往能取得更优的效果,加性注意力也成为多数自然语言处理任务中优先使用的计算注意力配分的函数。
(3)乘性注意力:
s(xi,q)=xi TWq
除了直接使用点积外,还可以通过引入一个矩阵来学习两个向量之间的相似度配分。只有一个需要学习的额外参数,所占存储量少,且均为矩阵操作,运算速度快。
注意力机制中配分函数也是在度量两个向量之间的相关度,通过配分函数计算得到的分数越大,通过softmax函数归一化后计算得到的概率值也就越大,即分配的注意力权重越大。
部分选择过程示意如图2所示。将注意力权重和编码序列进行加权求和后得到三个向量h1、h2、h3,然后通过两个融和门r1、r2将向量进行融合,得到最终用于解码的向量
c=(1-r2)*((1-r1)*h1+r1*h2)+r2*h3
r1=σ(W1h1+U1h2);r2=σ(W2c2+U2h3);
其中,W1、U1、W2、U2为随机初始化的参数;c2为用于解码的第二向量;σ为融合特征关系符;
由公式
Figure GDA0002955905020000041
m为解码器堆栈层数
Figure GDA0002955905020000051
得到模型预测的类别标签序列后,和真实的类别标签序列计算交叉熵损失
Figure GDA0002955905020000052
其中,l为当前解码器堆栈层数,cl为当前解码器堆栈的输出,Wd为随机初始化的向量,p(u)表示模型预测的各个类别标签的概率分布;然后通过反向传播算法更新模型参数,直至损失的变化范围在0.2左右,模型收敛;此时的对应的模型参数为最终训练模型。训练模型反向传播算法具体参考的文件为:LeCun et al.Gradient-Based Learning Appliedto Document Recognition 1998。
将训练好的模型运用于测试集,检测基于训练集得出的模型对长文本生成类别标签序列的精确率、召回率和F1等值,图3和图4展示了本模型和基线模型在训练过程中损失和F1值的变化曲线。
表1为本发明的引入多路选择融合机制的长文本分类模型与基线模型收敛后精确率、召回率、F1值及训练时间。
表1
模型 精确率 召回率 F1 训练时间
rnn 32.0435 43.9025 37.0471 9h
transformer 32.7638 43.0883 37.2234 3.16h
ours 33.2270 44.5339 38.0584 3.5h
召回率提升了百分之0.5;精确率和F1值提升了1个百分点的效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种引入多路选择融合机制的多标签长文本分类方法,其特征在于,包括以下步骤:
S1.将训练数据集中的标题数据和描述数据拼接得到长文本数据,然后将长文本数据按照比例划分训练集、验证集和测试集;
S2.将训练集的长文本数据进行去低频词后建立编码器所需的词表,以及建立解码器所需的类别标签的词表,将标签序列前面加上序列起始符号得到解码器的输入,将标签序列后面加上序列结束符号得到解码器的输出,将长文本和对应的两个标签序列根据各自的词表分别映射为序号形式的模型输入和标签;
S3-1.将输入和标签输入转换器模型,转换器模型包括编码器端和解码器端,解码器端在解码的每一步开始前的待解码的数据,通过点积、加性注意力和乘性注意力三种配分函数并行的选取编码序列中和当前解码状态最相关的一半序列,将注意力权重和编码序列进行加权求和后得到三个向量h1、h2、h3
S3-2.将三个向量h1、h2、h3通过两个融和函数r1和r2,将向量进行融合,得到最终用于解码的向量c;融合的公式为:
c=(1-r2)*((1-r1)*h1+r1*h2)+r2*h3
r1=σ(W1h1+U1h2);r2=σ(W2c2+U2h3);
其中,W1、U1、W2、U2为随机初始化的参数;c2 为用于解码的第二向量;σ为融合特征关系符;
S3-3.将解码的向量通过公式(1)得到模型预测的类别标签序列;
Figure FDA0003006924670000011
m为解码器堆栈总层数
Figure FDA0003006924670000012
其中,l为当前解码器堆栈层数,cl为第l层解码器堆栈的输出,Wd为随机初始化的向量,p(u)表示模型预测的各个类别标签的概率分布;
S3-4.将模型预测的类别标签序列和真实的类别标签序列进行计算交叉熵损失Lml,然后通过反向传播算法计算损失对参数的偏导数得到参数的更新量后更新模型参数,直至交叉熵损失Lml的变化范围幅值小于或等于0.2时,模型收敛对应的模型参数为最终训练模型;
S4.运用最终训练模型将长文本生成类别标签序列。
2.如权利要求1所述的一种引入多路选择融合机制的多标签长文本分类方法,其特征在于,还包括:
数据选择的过程:选取待解码的数据和当前解码状态最相关的一半序列,当一半数字出现余数时采用向上取整得到,其余序列加上负无穷,使得softmax后加上负无穷的序列的位置的注意力权重为0,实现只对选择的相关度高的部分序列分配注意力权重。
CN201910410661.4A 2019-05-17 2019-05-17 一种引入多路选择融合机制的多标签长文本分类方法 Active CN110134789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910410661.4A CN110134789B (zh) 2019-05-17 2019-05-17 一种引入多路选择融合机制的多标签长文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910410661.4A CN110134789B (zh) 2019-05-17 2019-05-17 一种引入多路选择融合机制的多标签长文本分类方法

Publications (2)

Publication Number Publication Date
CN110134789A CN110134789A (zh) 2019-08-16
CN110134789B true CN110134789B (zh) 2021-05-25

Family

ID=67574849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910410661.4A Active CN110134789B (zh) 2019-05-17 2019-05-17 一种引入多路选择融合机制的多标签长文本分类方法

Country Status (1)

Country Link
CN (1) CN110134789B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597991B (zh) * 2019-09-10 2021-08-17 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111241234B (zh) * 2019-12-27 2023-07-18 北京百度网讯科技有限公司 文本分类方法及装置
CN111291183B (zh) * 2020-01-16 2021-08-03 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN112214599B (zh) * 2020-10-20 2022-06-24 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112269881A (zh) * 2020-11-05 2021-01-26 北京小米松果电子有限公司 多标签文本分类方法、装置及存储介质
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及系统
CN116128158B (zh) * 2023-04-04 2023-06-23 西南石油大学 混合采样注意力机制的油井效率预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法
CN109408823B (zh) * 2018-10-31 2019-08-06 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109299273B (zh) * 2018-11-02 2020-06-23 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109543180B (zh) * 2018-11-08 2020-12-04 中山大学 一种基于注意力机制的文本情感分析方法
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109753567A (zh) * 2019-01-31 2019-05-14 安徽大学 一种结合标题与正文注意力机制的文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AHNN: An Attention-Based Hybrid Neural Network for Sentence Modeling;Xiaomin Zhang等;《springer》;20180105;第731-740页 *

Also Published As

Publication number Publication date
CN110134789A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134789B (zh) 一种引入多路选择融合机制的多标签长文本分类方法
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
US11423282B2 (en) Autoencoder-based generative adversarial networks for text generation
JP2022023064A (ja) 質問応答としてのマルチタスク学習
US20200134463A1 (en) Latent Space and Text-Based Generative Adversarial Networks (LATEXT-GANs) for Text Generation
CN110737764A (zh) 一种个性化对话内容生成方法
WO2021204014A1 (zh) 一种模型训练的方法及相关装置
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
US20230107409A1 (en) Ensembling mixture-of-experts neural networks
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN108647206B (zh) 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN111782804B (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
Kim et al. Adaptive compression of word embeddings
CN113741886A (zh) 一种基于图的语句级程序修复方法及系统
CN110704664B (zh) 一种哈希检索方法
Yan et al. Noise is also useful: Negative correlation-steered latent contrastive learning
CN110688501B (zh) 一种基于深度学习的全卷积网络的哈希检索方法
CN111309893A (zh) 基于源问题生成相似问题的方法和装置
CN114170461A (zh) 基于特征空间重整化的师生架构含噪声标签图像分类方法
CN116629324B (zh) 一种面向模型生成文本重复退化现象的优化生成方法
CN117171299A (zh) 一种文本生成方法和装置
CN116226357A (zh) 一种输入中包含错误信息场景下的文档检索方法
WO2023147140A1 (en) Routing to expert subnetworks in mixture-of-experts neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant