CN110866113A - 基于稀疏自注意力机制微调伯特模型的文本分类方法 - Google Patents

基于稀疏自注意力机制微调伯特模型的文本分类方法 Download PDF

Info

Publication number
CN110866113A
CN110866113A CN201910938916.4A CN201910938916A CN110866113A CN 110866113 A CN110866113 A CN 110866113A CN 201910938916 A CN201910938916 A CN 201910938916A CN 110866113 A CN110866113 A CN 110866113A
Authority
CN
China
Prior art keywords
text
model
attention
sample set
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910938916.4A
Other languages
English (en)
Other versions
CN110866113B (zh
Inventor
崔白云
李英明
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910938916.4A priority Critical patent/CN110866113B/zh
Publication of CN110866113A publication Critical patent/CN110866113A/zh
Application granted granted Critical
Publication of CN110866113B publication Critical patent/CN110866113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于稀疏自注意力机制微调伯特模型的文本分类方法,在对建立的深度神经网络进行微调的过程中,在传统的自注意力机制里引入稀疏化技术,改进了模型对文本单词之间关系的建模方式;通过采用稀疏化映射函数代替原有的softmax函数,学习稀疏的概率分布,使得模型不再需要保留所有两两单词之间的关系,而是根据注意力分数自动地进行取舍,学习哪些关系更有必要保留,从而能够使得相关性程度较大的单词之间的联系更加紧密,并且防止无关的单词对模型产生干扰,有利于更高效地对语义和逻辑关系建模,学习更加可靠的文本表示,增加了模型可解释性,提高了模型的文本分类准确率,具有较好的实用价值。

Description

基于稀疏自注意力机制微调伯特模型的文本分类方法
技术领域
本发明属于自然语言处理技术领域,涉及一种基于稀疏自注意力机制微调伯特模型的文本分类方法。
背景技术
自然语言处理领域有很多预训练模型,它们在大量语料库上通过预训练任务进行训练,可以被运用到下游的多种任务中,以提供比较好的初始化模型。在下游的自然语言任务中,只需要在训练样本集上对这些预训练模型进行微调,就可以在测试的时候达到令人满意的效果。伯特(BERT;Bidirectional Encoder Representations from Transformers)模型就是目前最先进的预训练模型之一,模型基于Transformer编码器,与最近的其他预训练模型不同,伯特模型旨在通过联合调节所有层中的上下文来预先训练深度双向表示,它在处理文本中一个单词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。得益于双向的预训练方式,伯特模型免去了许多工程任务需要针对特定任务修改体系架构的需求,研究人员通过对伯特模型进行微调,在大量的单词级、句子级和段落级的自然语言任务上实现了最优越的性能,比如文本分类、阅读理解、问答任务、语言推理、命名实体识别和文本总结等,强于许多面向特定任务体系架构的系统。
目前,针对伯特模型的微调方法主要就是在伯特模型的基础上添加一个额外的适应于目标任务的输出层,这个输出层和伯特模型一起微调训练、优化参数,直至在目标任务上取得理想的效果。在现有的微调方法里,一般不会改变伯特模型本身的结构,但这样的微调方法有一些不足之处。由于伯特模型已经通过预训练任务的学习,学到了文本的语言内容与逻辑结构,对单词之间的相关性有了比较好的把握,学会辨别哪一些单词是更相关的,如邻近的词组,以及哪一些单词之间是没有直接联系的。但是这样的先验知识在微调过程中并没有被充分地利用,模型仍然采用传统自注意力机制,将每一个单词和文本中其它所有单词都建立连接。在构建新的文本表示的时候,模型依旧考虑所有单词之间的关系,不论某些单词之间是否真的存在相关性。这样的方式会使得模型不够高效,没有给予真正重要、有意义的关系更多的关注,与此同时,也很容易被无意义、不重要的连接所干扰,使得模型不够鲁棒。尤其在对长文本语义关系建模时,不论两个单词距离多远、多么地不相关,其中的连接依然存在,会给模型造成很大的计算负担与资源浪费。这样的缺陷是传统自注意力机制采用softmax函数作为概率映射函数导致的,注意力分数通过softmax函数产生的概率分布是永远为正的,输出的权重都是非零值,因此所有单词之间的连接都被模型保留下来。
发明内容
为解决上述问题,本发明的目的在于提供一种基于稀疏自注意力机制微调伯特模型的文本分类方法,在传统的自注意力机制中引入稀疏化技术,改进深度神经网络模型对文本单词之间关系的建模方式,以获得更好的文本分类结果。
本发明提出的深度神经网络模型不再需要考虑所有两两单词之间的关系,而是根据注意力分数自动地进行取舍,学习哪些关系更有必要保留。留下注意力分数较高的,并增加其对应的权重,从而使得这些相关性程度较大的单词之间的联系更加紧密。同时,削弱较低注意力分数对应着的单词之间联系,使其权重变小,甚至完全去除太重要的关系,防止它们对模型产生干扰,有利于学习到更加高效的文本表示。
为实现上述目的,本发明的技术方案为:
一种基于稀疏自注意力机制微调伯特模型的文本分类方法,包括如下步骤:
S10:收集文本数据,分别构成训练样本集、验证样本集与测试样本集,并对各个样本集中每一篇文本建立输入表示;
S20:构建深度神经网络模型,所述深度神经网络模型包括多个稀疏自注意力层和一个分类层;
S30:采用伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数,在训练样本集上使用随机梯度下降法对所述深度神经网络模型的网络参数进行微调,直至在验证样本集上通过验证,保存网络参数;
S40:在测试样本集上对训练完毕的深度神经网络模型进行测试,计算出文本分类的准确率;
S50:使用测试完成的深度神经网络模型对待处理文本进行分类。
进一步的,S10具体包括:
S101:收集六个文本分类数据集,每个数据集各自包含训练样本集、验证样本集与测试样本集;每个样本集包含一定数量的文本,以及每一篇文本对应的类别标签;
S102:对每一篇文本构建其输入表示;定义一篇文本为X,由L个单词组成,每一个单词通过词嵌入式矩阵转换至相应的分布式词向量,则该文本表示为矩阵X=(x1,x2…,xL),其中
Figure BDA0002222345390000031
为第i个单词的词向量。
进一步的,S20具体包括:
S201:定义稀疏自注意力函数为SSAM(·),针对步骤S102中得到的文本的输入表示X,利用稀疏自注意力函数构建其输出表示Y=(y1,y2,…,yL)=SSAM(X);基于输入文本X中单词之间的相关性,Y中的每一个元素由X中所有输入单词向量进行加权求和变换得到,输出表示Y中的第i个元素为
Figure BDA0002222345390000032
其计算公式如下:
Figure BDA0002222345390000033
αij=ρ(eij)
Figure BDA0002222345390000034
其中
Figure BDA0002222345390000035
是三个可训练的参数矩阵,eij表示注意力分数,代表着输入文本中第i个单词和第j个单词之间的相关性程度,注意力分数越高,表示这两个单词越相关,分数越低,反映出单词之间的关系越弱,αij是加权求和运算中的注意力权重,是注意力分数eij通过概率映射函数ρ(·)变换得到的;其中,ρ(·)采用稀疏化映射函数sparsegenlin(·),其用于将注意力分数ei=(ei1,ei2,…,eiL)转变成为稀疏的概率分布pi,并且引入系数λ<1来影响正则化力度,从而灵活地控制分布的稀疏程度:
Figure BDA0002222345390000036
其中
Figure BDA0002222345390000037
稀疏的概率分布通过如下公式计算得到:
Figure BDA0002222345390000038
当中的j∈{1,2,…,L},τ:
Figure BDA0002222345390000039
是阈值函数;令排好顺序后的注意力分数ei为ei(1)≥ei(2)≥…≥ei(L),则阈值函数τ(ei)为:
Figure BDA00022223453900000310
其中k(ei):=max{k∈{1,2,…,L}|1-λ+kei(k)>∑j≤kei(j)},S(ei)是稀疏概率分布ρ(ei)中非0元素的支持集;每一个在支持集S(ei)中的元素的值都会被转变,而不在这个集合中的其他元素都会被强制置0,从而得到稀疏解;系数λ用来控制支持集S(ei)的基数,以此来影响概率分布的稀疏程度;
S202:将步骤S102中得到的文本的输入矩阵
Figure BDA0002222345390000041
记为H0,让其依次输入N个稀疏自注意力层,每一层都通过相同的方式学习一个新的文本表示Hn+1=U(Hn),每一层的输入都是前一层的输出矩阵:
Figure BDA0002222345390000042
Figure BDA0002222345390000043
Figure BDA0002222345390000044
其中SSAM(·)为步骤S201中所述的稀疏自注意力函数,LayerNorm(·)是正规化函数,它对残差输出结果执行层规范化操作以保持自回归特性,FFN(·)表示全连接前向网络,包含了两个线性变换层,
Figure BDA0002222345390000045
Figure BDA0002222345390000046
皆为线性变换的可训练参数,中间采用的是ReLU非线性激活函数;模型最后一层的输出矩阵为
Figure BDA0002222345390000047
对应了L个单词的最终输出向量;取输入文本中第一个单词的输出向量作为最终的文本向量
Figure BDA0002222345390000048
这个向量包含了该文本的语义内容和逻辑结构,是文本的高层次表示;
S203:将步骤S202中得到的文本向量输入至分类层
Figure BDA0002222345390000049
其中K是类别标签的数目,通过softmax(·)函数,模型输出对该文本预测出来的分类概率
Figure BDA00022223453900000410
P=softmax(CWT)。
进一步的,S30具体包括:
S301:采用在大型语料库上预训练好的伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数;
S302:假设训练样本集中有M篇文本,第i篇文本Xi通过所述深度神经网络模型预测出正确分类标签的概率为P(qi|Xi;θ);目标是通过不断训练神经网络使得模型预测出正确分类标签的可能性最大,因此需要减小模型的代价函数:
Figure BDA00022223453900000411
公式中的θ表示着网络中所有可训练的参数,λ表示着正则化参数;
S303:在训练样本集上,使用Adam方法作为模型优化器对所述深度神经网络模型的网络参数进行更新,直至模型在验证样本集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的神经网络结构。
进一步的,S40具体包括:
S401:在测试样本集上测试训练完成的深度神经网络模型,计算测试样本集中能够被正确分类的文本篇数除以测试样本集的总篇数,得到模型最终的分类准确率;
S402:根据S401得到的分类准确率调整模型参数值,重复步骤S30与S401直到所述深度神经网络模型对文本分类的效果达到预设目标。
与现有技术相比,本发明的主要优点在于:
(1)本发明提出了基于稀疏自注意力机制的微调方法对深度神经网络模型的网络参数进行微调,在微调过程中,采用稀疏化映射函数代替伯特模型中原有的softmax函数,使得本发明的模型在对文本中单词关系建模的时候,学习结构化的稀疏概率分布,仅留下真正重要的单词之间的联系,不相关的单词之间的连接不再保留,大大增加了模型可解释性,获得更可靠、有意义的文本表示向量。
(2)相比于现有的伯特模型微调方法,本发明在微调时候能够更加充分地利用伯特模型在预训练时学习到的单词关系建模知识,用于识别哪些单词之间的关系是更重要的,哪些单词是不相关的,并进行取舍,从而有效地降低关系建模时的计算复杂度、节约存储资源。
采用本发明的文本分类方法获取的深度神经网络模型,能够在文本分类、阅读理解、文本总结等自然语言任务上获得更好的分类结果,可广泛应用于各种自然语言处理场景中,具有良好的实用价值。
附图说明
图1为本发明的基于稀疏自注意力机制微调伯特模型的文本分类方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,所示为本发明实施例的基于稀疏自注意力机制微调伯特模型的文本分类方法流程图,其包括以下步骤:
S10:收集文本数据,分别构成训练样本集、验证样本集与测试样本集,并对各个样本集中每一篇文本建立输入表示,具体包括S101至S102:
S101:收集六个文本分类数据集,每个数据集各自包含训练样本集、验证样本集与测试样本集;每个样本集包含一定数量的文本,以及每一篇文本对应的类别标签;
S102:对每一篇文本构建其输入表示;定义一篇文本为X,由L个单词组成,每一个单词通过词嵌入式矩阵转换至相应的分布式词向量,则该文本表示为矩阵X=(x1,x2…,xL),其中
Figure BDA0002222345390000061
为第i个单词的词向量。
S20:构建深度神经网络模型,所述深度神经网络模型包括多个稀疏自注意力层和一个分类层,具体包括S201至S203:
S201:本发明建立稀疏自注意力机制来计算输入文本中所有单词之间的依赖关系,挖掘每一个单词和其他所有单词之间的逻辑结构关系与语义内容联系,并且强化其中更加重要、有意义的关系,同时去除不必要、重要性低的联系来避免干扰。
定义稀疏自注意力函数为SSAM(·),针对步骤S102中得到的文本的输入表示X,利用稀疏自注意力函数构建其输出表示Y=(y1,y2,…,yL)=SSAM(X);基于输入文本X中单词之间的相关性,Y中的每一个元素由X中所有输入单词向量进行加权求和变换得到,输出表示Y中的第i个元素为
Figure BDA0002222345390000062
其计算公式如下:
Figure BDA0002222345390000063
αij=ρ(eij)
Figure BDA0002222345390000064
其中
Figure BDA0002222345390000065
是三个可训练的参数矩阵,eij表示注意力分数,代表着输入文本中第i个单词和第j个单词之间的相关性程度,注意力分数越高,表示这两个单词越相关,分数越低,反映出单词之间的关系越弱,αij是加权求和运算中的注意力权重,是注意力分数eij通过概率映射函数ρ(·)变换得到的;其中,ρ(·)采用稀疏化映射函数sparsegenlin(·),其用于将注意力分数ei=(ei1,ei2,…,eiL)转变成为稀疏的概率分布pi,并且引入系数λ<1来影响正则化力度,从而灵活地控制分布的稀疏程度:
Figure BDA0002222345390000071
其中
Figure BDA0002222345390000072
稀疏的概率分布通过如下公式计算得到:
Figure BDA0002222345390000073
当中的j∈{1,2,…,L},τ:
Figure BDA0002222345390000074
是阈值函数;令排好顺序后的注意力分数ei为ei(1)≥ei(2)≥…≥ei(L),则阈值函数τ(ei)为:
Figure BDA0002222345390000075
其中k(ei):=max{k∈{1,2,…,L}||1-λ+kei(k)>∑j≤k ei(j)},S(ei)是稀疏概率分布ρ(ei)中非0元素的支持集;每一个在支持集S(ei)中的元素的值都会被转变,而不在这个集合中的其他元素都会被强制置0,从而得到稀疏解;系数λ用来控制支持集S(ei)的基数,以此来影响概率分布的稀疏程度;
本发明通过引入稀疏化技术来调整注意力权重αij,使得权重不是永远为正数,因此,本发明的模型不需要考虑所有两两单词之间的关系,而是根据注意力分数eij自动地进行取舍,学习哪些关系更有必要保留。留下注意力分数较高的,并增加其对应的权重,从而使得这些相关性程度较大的单词之间的联系更加紧密,加强了这些关系在生成更高的文本表示过程中起到的作用。与此同时,削弱较低注意力分数对应着的单词之间联系,使其权重变小,甚至为0,以此来去除这些不太重要的关系,防止他们对模型产生干扰,有利于本发明的模型学习到更加高效的文本表示;
S202:模型采用多个稀疏自注意力层,多层次地提取并删选文本中不同单词之间的关联信息,从而获得最终高层次的文本表示。将步骤S102中得到的文本的输入矩阵
Figure BDA0002222345390000081
记为H0,让其依次输入N个稀疏自注意力层,每一层都通过相同的方式学习一个新的文本表示Hn+1=U(Hn),每一层的输入都是前一层的输出矩阵:
Figure BDA0002222345390000082
Figure BDA0002222345390000083
Figure BDA0002222345390000084
其中SSAM(·)为步骤S201中所述的稀疏自注意力函数,LayerNorm(·)是正规化函数,它对残差输出结果执行层规范化操作以保持自回归特性,FFN(·)表示全连接前向网络,包含了两个线性变换层,
Figure BDA0002222345390000085
Figure BDA0002222345390000086
皆为线性变换的可训练参数,中间采用的是ReLU非线性激活函数;模型最后一层的输出矩阵为
Figure BDA0002222345390000087
对应了L个单词的最终输出向量;取输入文本中第一个单词的输出向量作为最终的文本向量
Figure BDA0002222345390000088
这个向量包含了该文本的语义内容和逻辑结构,是文本的高层次表示;
S203:将步骤S202中得到的文本向量输入至分类层
Figure BDA0002222345390000089
其中K是类别标签的数目,通过softmax(·)函数,模型输出对该文本预测出来的分类概率
Figure BDA00022223453900000810
P=softmax(CWT)。
S30:采用伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数,在训练样本集上使用随机梯度下降法对所述深度神经网络模型的网络参数进行微调,直至在验证样本集上通过验证,保存网络参数,具体包括S301至S303:
S301:采用在大型语料库上预训练好的伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数;
S302:假设训练样本集中有M篇文本,第i篇文本Xi通过所述深度神经网络模型预测出正确分类标签的概率为P(qi|Xi;θ);目标是通过不断训练神经网络使得模型预测出正确分类标签的可能性最大,因此需要减小模型的代价函数:
Figure BDA00022223453900000811
公式中的θ表示着网络中所有可训练的参数,λ表示着正则化参数;
S303:在训练样本集上,使用Adam方法作为模型优化器对所述深度神经网络模型的网络参数进行更新,β1=0.9,β2=0.999,衰减为0.01,学习速率为2e-5,微调的周期是4,直至模型在验证样本集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的神经网络结构。
S40:在测试样本集上对训练完毕的深度神经网络模型进行测试,计算出文本分类的准确率,具体包括S401至S402:
S401:在测试样本集上测试训练完成的深度神经网络模型,计算测试样本集中能够被正确分类的文本篇数除以测试样本集的总篇数,得到模型最终的分类准确率;
S402:根据S401得到的分类准确率调整模型参数值,重复步骤S30与S401直到所述深度神经网络模型对文本分类的效果达到预设目标。
S50:使用测试完成的深度神经网络模型对待处理文本进行分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于稀疏自注意力机制微调伯特模型的文本分类方法,其特征在于,包括如下步骤:
S10:收集文本数据,分别构成训练样本集、验证样本集与测试样本集,并对各个样本集中每一篇文本建立输入表示;
S20:构建深度神经网络模型,所述深度神经网络模型包括多个稀疏自注意力层和一个分类层;
S30:采用伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数,在训练样本集上使用随机梯度下降法对所述深度神经网络模型的网络参数进行微调,直至在验证样本集上通过验证,保存网络参数;
S40:在测试样本集上对训练完毕的深度神经网络模型进行测试,计算出文本分类的准确率;
S50:使用测试完成的深度神经网络模型对待处理文本进行分类。
2.如权利要求1所述的基于稀疏自注意力机制微调伯特模型的文本分类方法,其特征在于,S10具体包括:
S101:收集六个文本分类数据集,每个数据集各自包含训练样本集、验证样本集与测试样本集;每个样本集包含一定数量的文本,以及每一篇文本对应的类别标签;
S102:对每一篇文本构建其输入表示;定义一篇文本为X,由L个单词组成,每一个单词通过词嵌入式矩阵转换至相应的分布式词向量,则该文本表示为矩阵X=(x1,x2…,xL),其中
Figure FDA0002222345380000011
为第i个单词的词向量。
3.如权利要求2所述的基于稀疏自注意力机制微调伯特模型的文本分类方法,其特征在于,S20具体包括:
S201:定义稀疏自注意力函数为SSAM(·),针对步骤S102中得到的文本的输入表示X,利用稀疏自注意力函数构建其输出表示Y=(y1,y2,…,yL)=SSAM(X);基于输入文本X中单词之间的相关性,Y中的每一个元素由X中所有输入单词向量进行加权求和变换得到,输出表示Y中的第i个元素为
Figure FDA0002222345380000012
其计算公式如下:
Figure FDA0002222345380000013
αij=ρ(eij)
Figure FDA0002222345380000021
其中
Figure FDA0002222345380000022
是三个可训练的参数矩阵,eij表示注意力分数,代表着输入文本中第i个单词和第j个单词之间的相关性程度,注意力分数越高,表示这两个单词越相关,分数越低,反映出单词之间的关系越弱,αij是加权求和运算中的注意力权重,是注意力分数eij通过概率映射函数ρ(·)变换得到的;其中,ρ(·)采用稀疏化映射函数sparsegenlin(·),其用于将注意力分数ei=(ei1,ei2,…,eiL)转变成为稀疏的概率分布pi,并且引入系数λ<1来影响正则化力度,从而灵活地控制分布的稀疏程度:
Figure FDA0002222345380000023
其中
Figure FDA0002222345380000024
稀疏的概率分布通过如下公式计算得到:
Figure FDA0002222345380000025
当中的j∈{1,2,…,L},
Figure FDA0002222345380000026
是阈值函数;令排好顺序后的注意力分数ei为ei(1)≥ei(2)≥…≥ei(L),则阈值函数τ(ei)为:
Figure FDA0002222345380000027
其中k(ei):=max{k∈{1,2,…,L}|1-λ+kei(k)>∑j≤kei(j)},S(ei)是稀疏概率分布ρ(ei)中非0元素的支持集;每一个在支持集S(ei)中的元素的值都会被转变,而不在这个集合中的其他元素都会被强制置0,从而得到稀疏解;系数λ用来控制支持集S(ei)的基数,以此来影响概率分布的稀疏程度;
S202:将步骤S102中得到的文本的输入矩阵
Figure FDA0002222345380000028
记为H0,让其依次输入N个稀疏自注意力层,每一层都通过相同的方式学习一个新的文本表示Hn+1=U(Hn),每一层的输入都是前一层的输出矩阵:
Figure FDA0002222345380000029
Figure FDA00022223453800000210
Figure FDA00022223453800000211
其中SSAM(·)为步骤S201中所述的稀疏自注意力函数,LayerNorm(·)是正规化函数,它对残差输出结果执行层规范化操作以保持自回归特性,FFN(·)表示全连接前向网络,包含了两个线性变换层,
Figure FDA0002222345380000031
Figure FDA0002222345380000032
皆为线性变换的可训练参数,中间采用的是ReLU非线性激活函数;模型最后一层的输出矩阵为
Figure FDA0002222345380000033
对应了L个单词的最终输出向量;取输入文本中第一个单词的输出向量作为最终的文本向量
Figure FDA0002222345380000034
这个向量包含了该文本的语义内容和逻辑结构,是文本的高层次表示;
S203:将步骤S202中得到的文本向量输入至分类层
Figure FDA0002222345380000035
其中K是类别标签的数目,通过softmax(·)函数,模型输出对该文本预测出来的分类概率
Figure FDA0002222345380000036
P=softmax(CWT)。
4.如权利要求3所述的基于稀疏自注意力机制微调伯特模型的文本分类方法,其特征在于,S30具体包括:
S301:采用在大型语料库上预训练好的伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数;
S302:假设训练样本集中有M篇文本,第i篇文本Xi通过所述深度神经网络模型预测出正确分类标签的概率为P(qi|Xi;θ);目标是通过不断训练神经网络使得模型预测出正确分类标签的可能性最大,因此需要减小模型的代价函数:
Figure FDA0002222345380000037
公式中的θ表示着网络中所有可训练的参数,λ表示着正则化参数;
S303:在训练样本集上,使用Adam方法作为模型优化器对所述深度神经网络模型的网络参数进行更新,直至模型在验证样本集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的神经网络结构。
5.如权利要求4所述的基于稀疏自注意力机制微调伯特模型的文本分类方法,其特征在于,S40具体包括:
S401:在测试样本集上测试训练完成的深度神经网络模型,计算测试样本集中能够被正确分类的文本篇数除以测试样本集的总篇数,得到模型最终的分类准确率;
S402:根据S401得到的分类准确率调整模型参数值,重复步骤S30与S401直到所述深度神经网络模型对文本分类的效果达到预设目标。
CN201910938916.4A 2019-09-30 2019-09-30 基于稀疏自注意力机制微调伯特模型的文本分类方法 Active CN110866113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910938916.4A CN110866113B (zh) 2019-09-30 2019-09-30 基于稀疏自注意力机制微调伯特模型的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910938916.4A CN110866113B (zh) 2019-09-30 2019-09-30 基于稀疏自注意力机制微调伯特模型的文本分类方法

Publications (2)

Publication Number Publication Date
CN110866113A true CN110866113A (zh) 2020-03-06
CN110866113B CN110866113B (zh) 2022-07-26

Family

ID=69652507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910938916.4A Active CN110866113B (zh) 2019-09-30 2019-09-30 基于稀疏自注意力机制微调伯特模型的文本分类方法

Country Status (1)

Country Link
CN (1) CN110866113B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723203A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于终生学习的文本分类方法
CN111737466A (zh) * 2020-06-18 2020-10-02 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN113392214A (zh) * 2021-06-03 2021-09-14 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN114139610A (zh) * 2021-11-15 2022-03-04 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN115081752A (zh) * 2022-08-11 2022-09-20 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
US20170061330A1 (en) * 2015-08-31 2017-03-02 International Business Machines Corporation Method, system and computer program product for learning classification model
US20170293687A1 (en) * 2016-04-12 2017-10-12 Abbyy Infopoisk Llc Evaluating text classifier parameters based on semantic features
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109241287A (zh) * 2018-09-21 2019-01-18 中山大学 基于强化学习和胶囊网络的文本分类模型及方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
US20170061330A1 (en) * 2015-08-31 2017-03-02 International Business Machines Corporation Method, system and computer program product for learning classification model
US20170293687A1 (en) * 2016-04-12 2017-10-12 Abbyy Infopoisk Llc Evaluating text classifier parameters based on semantic features
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109241287A (zh) * 2018-09-21 2019-01-18 中山大学 基于强化学习和胶囊网络的文本分类模型及方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
金志刚等: ""一种结合深度学习和集成学习的情感分析模型"", 《哈尔滨工业大学学报》 *
金志刚等: ""一种结合深度学习和集成学习的情感分析模型"", 《哈尔滨工业大学学报》, 30 November 2018 (2018-11-30), pages 32 - 39 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723203A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于终生学习的文本分类方法
CN111737466A (zh) * 2020-06-18 2020-10-02 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN111737466B (zh) * 2020-06-18 2022-11-29 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN113392214A (zh) * 2021-06-03 2021-09-14 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN113392214B (zh) * 2021-06-03 2022-09-06 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN114139610A (zh) * 2021-11-15 2022-03-04 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN114139610B (zh) * 2021-11-15 2024-04-26 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN115081752A (zh) * 2022-08-11 2022-09-20 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法
CN115081752B (zh) * 2022-08-11 2022-11-22 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法

Also Published As

Publication number Publication date
CN110866113B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN110866113B (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN110929515B (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN109948149B (zh) 一种文本分类方法及装置
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN110633473B (zh) 基于条件随机场的隐式篇章关系识别方法与系统
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
CN116956835B (zh) 一种基于预训练语言模型的文书生成方法
CN115510226A (zh) 一种基于图神经网络的情感分类方法
CN114386409A (zh) 基于注意力机制的自蒸馏中文分词方法、终端及存储介质
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备
CN110808036B (zh) 一种增量式语音命令词识别方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN115599918A (zh) 一种基于图增强的互学习文本分类方法及系统
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN115840884A (zh) 样本选择方法、装置、设备及介质
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN114492387B (zh) 基于句法结构的领域自适应方面术语抽取方法及系统
CN115269844B (zh) 模型的处理方法、装置、电子设备和存储介质
CN110688485B (zh) 一种基于突发事件的词向量语言模型
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant