CN110866113A

CN110866113A - 基于稀疏自注意力机制微调伯特模型的文本分类方法

Info

Publication number: CN110866113A
Application number: CN201910938916.4A
Authority: CN
Inventors: 崔白云; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-03-06
Anticipated expiration: 2039-09-30
Also published as: CN110866113B

Abstract

本发明公开了一种基于稀疏自注意力机制微调伯特模型的文本分类方法，在对建立的深度神经网络进行微调的过程中，在传统的自注意力机制里引入稀疏化技术，改进了模型对文本单词之间关系的建模方式；通过采用稀疏化映射函数代替原有的softmax函数，学习稀疏的概率分布，使得模型不再需要保留所有两两单词之间的关系，而是根据注意力分数自动地进行取舍，学习哪些关系更有必要保留，从而能够使得相关性程度较大的单词之间的联系更加紧密，并且防止无关的单词对模型产生干扰，有利于更高效地对语义和逻辑关系建模，学习更加可靠的文本表示，增加了模型可解释性，提高了模型的文本分类准确率，具有较好的实用价值。

Description

基于稀疏自注意力机制微调伯特模型的文本分类方法

技术领域

本发明属于自然语言处理技术领域，涉及一种基于稀疏自注意力机制微调伯特模型的文本分类方法。

背景技术

自然语言处理领域有很多预训练模型，它们在大量语料库上通过预训练任务进行训练，可以被运用到下游的多种任务中，以提供比较好的初始化模型。在下游的自然语言任务中，只需要在训练样本集上对这些预训练模型进行微调，就可以在测试的时候达到令人满意的效果。伯特(BERT；Bidirectional Encoder Representations from Transformers)模型就是目前最先进的预训练模型之一，模型基于Transformer编码器，与最近的其他预训练模型不同，伯特模型旨在通过联合调节所有层中的上下文来预先训练深度双向表示，它在处理文本中一个单词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。得益于双向的预训练方式，伯特模型免去了许多工程任务需要针对特定任务修改体系架构的需求，研究人员通过对伯特模型进行微调，在大量的单词级、句子级和段落级的自然语言任务上实现了最优越的性能，比如文本分类、阅读理解、问答任务、语言推理、命名实体识别和文本总结等，强于许多面向特定任务体系架构的系统。

目前，针对伯特模型的微调方法主要就是在伯特模型的基础上添加一个额外的适应于目标任务的输出层，这个输出层和伯特模型一起微调训练、优化参数，直至在目标任务上取得理想的效果。在现有的微调方法里，一般不会改变伯特模型本身的结构，但这样的微调方法有一些不足之处。由于伯特模型已经通过预训练任务的学习，学到了文本的语言内容与逻辑结构，对单词之间的相关性有了比较好的把握，学会辨别哪一些单词是更相关的，如邻近的词组，以及哪一些单词之间是没有直接联系的。但是这样的先验知识在微调过程中并没有被充分地利用，模型仍然采用传统自注意力机制，将每一个单词和文本中其它所有单词都建立连接。在构建新的文本表示的时候，模型依旧考虑所有单词之间的关系，不论某些单词之间是否真的存在相关性。这样的方式会使得模型不够高效，没有给予真正重要、有意义的关系更多的关注，与此同时，也很容易被无意义、不重要的连接所干扰，使得模型不够鲁棒。尤其在对长文本语义关系建模时，不论两个单词距离多远、多么地不相关，其中的连接依然存在，会给模型造成很大的计算负担与资源浪费。这样的缺陷是传统自注意力机制采用softmax函数作为概率映射函数导致的，注意力分数通过softmax函数产生的概率分布是永远为正的，输出的权重都是非零值，因此所有单词之间的连接都被模型保留下来。

发明内容

为解决上述问题，本发明的目的在于提供一种基于稀疏自注意力机制微调伯特模型的文本分类方法，在传统的自注意力机制中引入稀疏化技术，改进深度神经网络模型对文本单词之间关系的建模方式，以获得更好的文本分类结果。

本发明提出的深度神经网络模型不再需要考虑所有两两单词之间的关系，而是根据注意力分数自动地进行取舍，学习哪些关系更有必要保留。留下注意力分数较高的，并增加其对应的权重，从而使得这些相关性程度较大的单词之间的联系更加紧密。同时，削弱较低注意力分数对应着的单词之间联系，使其权重变小，甚至完全去除太重要的关系，防止它们对模型产生干扰，有利于学习到更加高效的文本表示。

为实现上述目的，本发明的技术方案为：

一种基于稀疏自注意力机制微调伯特模型的文本分类方法，包括如下步骤：

S10：收集文本数据，分别构成训练样本集、验证样本集与测试样本集，并对各个样本集中每一篇文本建立输入表示；

S20：构建深度神经网络模型，所述深度神经网络模型包括多个稀疏自注意力层和一个分类层；

S30：采用伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数，在训练样本集上使用随机梯度下降法对所述深度神经网络模型的网络参数进行微调，直至在验证样本集上通过验证，保存网络参数；

S40：在测试样本集上对训练完毕的深度神经网络模型进行测试，计算出文本分类的准确率；

S50：使用测试完成的深度神经网络模型对待处理文本进行分类。

进一步的，S10具体包括：

S101：收集六个文本分类数据集，每个数据集各自包含训练样本集、验证样本集与测试样本集；每个样本集包含一定数量的文本，以及每一篇文本对应的类别标签；

S102：对每一篇文本构建其输入表示；定义一篇文本为X，由L个单词组成，每一个单词通过词嵌入式矩阵转换至相应的分布式词向量，则该文本表示为矩阵X＝(x₁，x₂…，x_L)，其中

为第i个单词的词向量。

进一步的，S20具体包括：

S201：定义稀疏自注意力函数为SSAM(·)，针对步骤S102中得到的文本的输入表示X，利用稀疏自注意力函数构建其输出表示Y＝(y₁，y₂，…，y_L)＝SSAM(X)；基于输入文本X中单词之间的相关性，Y中的每一个元素由X中所有输入单词向量进行加权求和变换得到，输出表示Y中的第i个元素为

其计算公式如下：

α_ij＝ρ(e_ij)

其中

是三个可训练的参数矩阵，e_ij表示注意力分数，代表着输入文本中第i个单词和第j个单词之间的相关性程度，注意力分数越高，表示这两个单词越相关，分数越低，反映出单词之间的关系越弱，α_ij是加权求和运算中的注意力权重，是注意力分数e_ij通过概率映射函数ρ(·)变换得到的；其中，ρ(·)采用稀疏化映射函数sparsegenlin(·)，其用于将注意力分数e_i＝(e_i1，e_i2，…，e_iL)转变成为稀疏的概率分布p_i，并且引入系数λ＜1来影响正则化力度，从而灵活地控制分布的稀疏程度：

其中

稀疏的概率分布通过如下公式计算得到：

当中的j∈{1，2，…，L}，τ：

是阈值函数；令排好顺序后的注意力分数e_i为e_i(1)≥e_i(2)≥…≥e_i(L)，则阈值函数τ(e_i)为：

其中k(e_i)：＝max{k∈{1，2，…，L}|1-λ+ke_i(k)＞∑_j≤ke_i(j)}，S(e_i)是稀疏概率分布ρ(e_i)中非0元素的支持集；每一个在支持集S(e_i)中的元素的值都会被转变，而不在这个集合中的其他元素都会被强制置0，从而得到稀疏解；系数λ用来控制支持集S(e_i)的基数，以此来影响概率分布的稀疏程度；

S202：将步骤S102中得到的文本的输入矩阵

记为H⁰，让其依次输入N个稀疏自注意力层，每一层都通过相同的方式学习一个新的文本表示Hⁿ⁺¹＝U(Hⁿ)，每一层的输入都是前一层的输出矩阵：

其中SSAM(·)为步骤S201中所述的稀疏自注意力函数，LayerNorm(·)是正规化函数，它对残差输出结果执行层规范化操作以保持自回归特性，FFN(·)表示全连接前向网络，包含了两个线性变换层，

皆为线性变换的可训练参数，中间采用的是ReLU非线性激活函数；模型最后一层的输出矩阵为

对应了L个单词的最终输出向量；取输入文本中第一个单词的输出向量作为最终的文本向量

这个向量包含了该文本的语义内容和逻辑结构，是文本的高层次表示；

S203：将步骤S202中得到的文本向量输入至分类层

其中K是类别标签的数目，通过softmax(·)函数，模型输出对该文本预测出来的分类概率

P＝softmax(CW^T)。

进一步的，S30具体包括：

S301：采用在大型语料库上预训练好的伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数；

S302：假设训练样本集中有M篇文本，第i篇文本X_i通过所述深度神经网络模型预测出正确分类标签的概率为P(q_i|X_i；θ)；目标是通过不断训练神经网络使得模型预测出正确分类标签的可能性最大，因此需要减小模型的代价函数：

公式中的θ表示着网络中所有可训练的参数，λ表示着正则化参数；

S303：在训练样本集上，使用Adam方法作为模型优化器对所述深度神经网络模型的网络参数进行更新，直至模型在验证样本集上的误差连续三个周期没有下降时，停止训练过程并保存网络参数，得到最终的神经网络结构。

进一步的，S40具体包括：

S401：在测试样本集上测试训练完成的深度神经网络模型，计算测试样本集中能够被正确分类的文本篇数除以测试样本集的总篇数，得到模型最终的分类准确率；

S402：根据S401得到的分类准确率调整模型参数值，重复步骤S30与S401直到所述深度神经网络模型对文本分类的效果达到预设目标。

与现有技术相比，本发明的主要优点在于：

(1)本发明提出了基于稀疏自注意力机制的微调方法对深度神经网络模型的网络参数进行微调，在微调过程中，采用稀疏化映射函数代替伯特模型中原有的softmax函数，使得本发明的模型在对文本中单词关系建模的时候，学习结构化的稀疏概率分布，仅留下真正重要的单词之间的联系，不相关的单词之间的连接不再保留，大大增加了模型可解释性，获得更可靠、有意义的文本表示向量。

(2)相比于现有的伯特模型微调方法，本发明在微调时候能够更加充分地利用伯特模型在预训练时学习到的单词关系建模知识，用于识别哪些单词之间的关系是更重要的，哪些单词是不相关的，并进行取舍，从而有效地降低关系建模时的计算复杂度、节约存储资源。

采用本发明的文本分类方法获取的深度神经网络模型，能够在文本分类、阅读理解、文本总结等自然语言任务上获得更好的分类结果，可广泛应用于各种自然语言处理场景中，具有良好的实用价值。

附图说明

图1为本发明的基于稀疏自注意力机制微调伯特模型的文本分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，所示为本发明实施例的基于稀疏自注意力机制微调伯特模型的文本分类方法流程图，其包括以下步骤：

S10：收集文本数据，分别构成训练样本集、验证样本集与测试样本集，并对各个样本集中每一篇文本建立输入表示，具体包括S101至S102：

为第i个单词的词向量。

S20：构建深度神经网络模型，所述深度神经网络模型包括多个稀疏自注意力层和一个分类层，具体包括S201至S203：

S201：本发明建立稀疏自注意力机制来计算输入文本中所有单词之间的依赖关系，挖掘每一个单词和其他所有单词之间的逻辑结构关系与语义内容联系，并且强化其中更加重要、有意义的关系，同时去除不必要、重要性低的联系来避免干扰。

定义稀疏自注意力函数为SSAM(·)，针对步骤S102中得到的文本的输入表示X，利用稀疏自注意力函数构建其输出表示Y＝(y₁，y₂，…，y_L)＝SSAM(X)；基于输入文本X中单词之间的相关性，Y中的每一个元素由X中所有输入单词向量进行加权求和变换得到，输出表示Y中的第i个元素为

其计算公式如下：

α_ij＝ρ(e_ij)

其中

其中

稀疏的概率分布通过如下公式计算得到：

当中的j∈{1，2，…，L}，τ：

是阈值函数；令排好顺序后的注意力分数ei为e_i(1)≥e_i(2)≥…≥e_i(L)，则阈值函数τ(e_i)为：

其中k(e_i)：＝max{k∈{1，2，…，L}||1-λ+ke_i(k)＞∑_j≤k e_i(j)}，S(e_i)是稀疏概率分布ρ(e_i)中非0元素的支持集；每一个在支持集S(e_i)中的元素的值都会被转变，而不在这个集合中的其他元素都会被强制置0，从而得到稀疏解；系数λ用来控制支持集S(e_i)的基数，以此来影响概率分布的稀疏程度；

本发明通过引入稀疏化技术来调整注意力权重α_ij，使得权重不是永远为正数，因此，本发明的模型不需要考虑所有两两单词之间的关系，而是根据注意力分数e_ij自动地进行取舍，学习哪些关系更有必要保留。留下注意力分数较高的，并增加其对应的权重，从而使得这些相关性程度较大的单词之间的联系更加紧密，加强了这些关系在生成更高的文本表示过程中起到的作用。与此同时，削弱较低注意力分数对应着的单词之间联系，使其权重变小，甚至为0，以此来去除这些不太重要的关系，防止他们对模型产生干扰，有利于本发明的模型学习到更加高效的文本表示；

S202：模型采用多个稀疏自注意力层，多层次地提取并删选文本中不同单词之间的关联信息，从而获得最终高层次的文本表示。将步骤S102中得到的文本的输入矩阵

S203：将步骤S202中得到的文本向量输入至分类层

P＝softmax(CW^T)。

S30：采用伯特模型的参数作为所述深度神经网络模型中稀疏自注意力层的初始化参数，在训练样本集上使用随机梯度下降法对所述深度神经网络模型的网络参数进行微调，直至在验证样本集上通过验证，保存网络参数，具体包括S301至S303：

S303：在训练样本集上，使用Adam方法作为模型优化器对所述深度神经网络模型的网络参数进行更新，β₁＝0.9，β₂＝0.999，衰减为0.01，学习速率为2e^-5，微调的周期是4，直至模型在验证样本集上的误差连续三个周期没有下降时，停止训练过程并保存网络参数，得到最终的神经网络结构。

S40：在测试样本集上对训练完毕的深度神经网络模型进行测试，计算出文本分类的准确率，具体包括S401至S402：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。