CN113032559B

CN113032559B - 一种用于低资源黏着性语言文本分类的语言模型微调方法

Info

Publication number: CN113032559B
Application number: CN202110277553.1A
Authority: CN
Inventors: 柯尊旺; 李哲; 蔡茂昌; 曹如鹏
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2023-04-28
Anticipated expiration: 2041-03-15
Also published as: CN113032559A

Abstract

本发明公开了一种用于低资源黏着性语言文本分类的语言模型微调方法，涉及语言处理技术领域，通过形态学分析和词干提取构建低噪声微调数据集，在该数据集上对跨语言预训练模型进行微调，为下游文本分类任务提供有意义且易于使用的特征提取器，从预先训练的语言模型中更好地选择相关的语义和句法信息，并将这些特征用于下游文本分类任务。

Description

一种用于低资源黏着性语言文本分类的语言模型微调方法

技术领域

本发明涉及语言处理技术领域，特别涉及一种用于低资源黏着性语言文本分类的语言模型微调方法。

背景技术

文本分类是大多数自然语言处理任务的支柱，如情感分析、新闻主题分类和意图识别。尽管深度学习模型在许多自然语言处理(NLP)任务中已经达到了最先进的水平，但这些模型都是从头开始训练的，这使得它们需要更大的数据集。尽管如此，许多低资源语言缺乏支持文本分类中各种任务的丰富标注数据集资源。

低资源黏着性文本分类的主要挑战是目标领域中缺乏标注数据和语言结构中派生词的形态多样性。对于维吾尔语、哈萨克语和柯尔克孜语等低资源黏着性语言来说，单词是从词干词缀衍生而来的，所以形成了一个巨大的词汇量。词干表示文本内容，词缀提供语义和语法功能。该特性允许无限衍生词汇，从而导致高不确定性的写作形式和巨大的词汇冗余。这些语言在书写时转录语音发音从而导致形态结构的多样性，并导致了这些语言上的书写形式的高度不确定性，即单词的个性化拼写，特别是较少使用的单词和术语。而从互联网上收集的数据在编码和拼写方面是有噪声和不确定的。维吾尔语、哈萨克语和柯尔克孜语语言的NLP任务存在的主要问题是拼写和编码的不确定性以及标注数据集的不足，这对短小且有噪声的文本数据进行分类提出了很大的挑战。由于人工标注的文本语料库数量多，在数据不足的情况下，文本分类往往比较困难。词干作为文本内容的表示,该特性允许无限衍生词汇，从而导致高不确定性的写作形式和巨大的词汇冗余。

针对上述问题，本申请提出了一种用于低资源黏着性语言文本分类的语言模型微调方法，通过形态学分析和词干提取构建低噪声微调数据集，在该数据集上对跨语言预训练模型进行微调，为下游文本分类任务提供有意义且易于使用的特征提取器，从预先训练的语言模型中更好地选择相关的语义和句法信息，并将这些特征用于下游文本分类任务。

发明内容

本发明的目的在于提供一种用于低资源黏着性语言文本分类的语言模型微调方法，通过形态学分析和词干提取构建低噪声微调数据集，在该数据集上对跨语言预训练模型进行微调，为下游文本分类任务提供有意义且易于使用的特征提取器，从预先训练的语言模型中更好地选择相关的语义和句法信息，并将这些特征用于下游文本分类任务。

本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法，包括以下步骤：

步骤S1：基于低资源黏着性语言文本语料库建立跨语言模型，并对其进行预训练；

步骤S2：在无监督语言建模任务上，对下游分类数据集进行词素分析和词干提取，构建微调数据集，在微调数据集上对预先训练好的跨语言模型进行微调；

步骤S3：基于微调数据集构建分类模型，并使用区分性微调捕捉不同层次的不同类型信息，并对该信息进行判别微调；

步骤S4：基于注意力机制设置编码器-解码器架构进行微调；

步骤S5：对分类器添加两个带有批归一化和dropout的线性块进行文本分类。

进一步地，所述步骤S1利用XLM-R模型进行语言模型建模，XLM-R模型使用相同的共享词汇表，从单语语料库中随机抽取句子进行连接，学习BPE拆分，通过字节对编码BPE处理语言。

进一步地，所述步骤S1随机抽取句子是根据具有概率的多项分布进行的，其多项分布为{q_i}_i＝1,2,3,…n，具体地：

其中，

并且α＝0.3。

进一步地，所述步骤S2对跨语言模型进行微调的步骤为：

S21：使用基于后缀的半监督语素分词器，对于候选词，所述半监督语素分词器采用迭代搜索算法，通过匹配词干集和后缀集产生所有的分词结果；

S22：当语素合并成单词时，边界上的音素按照语音和书写的规则改变其表面形态，语素将相互协调，并诉诸于彼此的发音；

S23：当发音准确地表现出来后，在低资源黏着性文本分类任务中，采用独立的统计模型从n个最佳结果中选出最佳结果；

S24：通过提取词干收集必要的术语，组成噪声较小的微调数据集，然后使用XLM-R模型对微调数据集进行微调，获得更好的性能。

进一步地，所述步骤S3判别微调的具体方法为：

采用分类学习率对捕捉到的信息进行微调，把参数θ分割成{θ¹，…，θ^L}，其中θL包含L-th层的参数，参数更新如下：

其中η^l表示L-th层的学习率，t表示更新步骤，设基础学习率为η_L，则η^k-1＝ξ·η_k，其中ξ是衰减因子，且小于等于1；当ξ＜1时，下层的学习速度比上层慢；当ξ＝1时，所有层具有相同的学习率，相当于规则随机梯度下降。

进一步地，所述步骤S4中的编码器从数据集的输入中学习上下文化的特征，其时间步长的隐态为H＝h₁,h₂,…h_T，作为分类数据的表示，也作为注意层的输入，利用自注意从输入状态中提取相关方面，对齐计算如下：

u_t＝tanh(W_uh_t+bu) (3)

对于t＝1,2,…,T，其中W_u和b_u是要学习的权矩阵和偏置项，对齐评分由以下Softmax函数给出：

最后作为分类器输入的上下文向量为：

进一步地，所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活，用于计算目标类的概率分布，设置最后一个线性块的输出是S₀，则C＝c₁,c₂,…,c_M＝X_x，Y是目标分类数据，其中c₁＝(x₁,y₁)，x₁是令牌的输入序列，y₁是对应的标签，用于训练模型的分类损失通过以下方式计算：

其中，

与现有技术相比，本发明具有如下显著优点：

本发明提出的一种用于低资源黏着性语言文本分类的语言模型微调方法，通过提取词干和形态学分析构建低噪声微调数据集，对跨语言预训练模型进行微调。从预先训练好的语言模型中更好地选择相关的语义和语法信息，并使用区分性微调来捕获不同类型的不同层次的信息。本申请提出了一个基于注意力的低资源粘性语言模型微调模型，它能够解决维吾尔语，哈萨克语，柯尔克孜语低资源黏着性语言文本分类精度不高的问题。

附图说明

图1为本发明实施例提供的一种用于低资源黏着性语言文本分类的语言模型微调方法的方法流程图；

图2为本发明实施例提供的词干提取过程图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

数据增强技术可以有效地解决低资源语言数据集标记语料库不足的问题。Sahinand Steedman提供了两种简单的文本扩展技术，然而，由于低资源黏着语言在这类场景中的不规范行为，这可能不足以完成其他一些任务，例如跨语言文本分类。

预先训练的语言模型，如BERT或XLM已经成为一种有效的NLP方法，并在许多下游任务上产生了最先进的结果。这些模型只需要无标记的数据来进行训练，所以当市场数据很少的时候，它们特别有用。充分探索微调对解决这一问题大有帮助。在微调方面进行了实证研究，虽然这些方法取得了较好的效果，但由于衍生词的形态多样性，它们在低资源黏着语言上的效果并不理想。

对低资源粘性语言进行语言模型微调的一个重要挑战是如何捕捉特征信息。低资源黏着性语言是一种形态丰富的黏着语言，由词根(词干)和词缀构成。这些方法很难捕获低资源黏着性语言的语义信息。词干是名义上的独立粒子与实际意义的词,和词缀提供低资源黏着性语言中的语法功能,语素细分可以使我们能够独立的词干和删除语法后缀停止词,并减少噪音和捕捉丰富的特性在低资源黏着性语言文本分类任务。

参照图1-2，本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法，包括以下步骤：

步骤S4：基于注意力机制设置编码器-解码器架构进行微调；

验证上述模型，收集并标注了9个用于低资源黏着语文本分类的语料，包括主题分类、情感分析和意图分类。实验结果表明，在少量标记样本的情况下，该模型能显著提高性能。

实施例1

所述步骤S1利用XLM-R模型进行语言模型建模，XLM-R模型使用相同的共享词汇表，从单语语料库中随机抽取句子进行连接，学习BPE拆分，通过字节对编码BPE处理语言，此方法大大改善了跨语言嵌入空格的对齐，这些语言共享相同的字母或锚定标记，如数字或专有名词。

所述步骤S1随机抽取句子是根据具有概率的多项分布进行的，其多项分布为{q_i}_i＝1,2,3,…n，具体地：

其中，

并且α＝0.3。

这种分布式抽样方法增加了与低资源语言相关的标记数量，并缓解了对高资源语言的偏倚。特别地，能够防止低资源语言中的单词在字符级别上被分割。

实施例2

所述步骤S2对跨语言模型进行微调的步骤为：

S23：当发音准确地表现出来后，就能在文本中清晰地观察到语音的和谐，在低资源黏着性文本分类任务中，采用独立的统计模型从n个最佳结果中选出最佳结果；

实施例3

所述步骤S3判别微调的具体方法为：

神经网络的不同层次可以捕获不同层次的句法语义信息。XLM-R模型的下层可能包含更多的一般信息。采用分类学习率对捕捉到的信息进行微调，把参数θ分割成{θ¹，…，θ^L}，其中θL包含L-th层的参数，参数更新如下：

其中η^l表示L-th层的学习率，t表示更新步骤，设基础学习率为η_L，则η^k-1＝ξ·η_k，其中ξ是衰减因子，且小于等于1；当ξ＜1时，下层的学习速度比上层慢；当ξ＝1时，所有层具有相同的学习率，相当于规则随机梯度下降(SGD)。

实施例4

所述步骤S4中的编码器从数据集的输入中学习上下文化的特征，其时间步长的隐态为H＝h₁,h₂,…h_T，作为分类数据的表示，也作为注意层的输入，利用自注意从输入状态中提取相关方面，对齐计算如下：

u_t＝tanh(W_uh_t+bu) (3)

最后作为分类器输入的上下文向量为：

实施例5

所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活，用于计算目标类的概率分布，设置最后一个线性块的输出是S₀，则C＝c₁,c₂,…,c_M＝X_x，Y是目标分类数据，其中c₁＝(x₁,y₁)，x₁是令牌的输入序列，y₁是对应的标签，用于训练模型的分类损失通过以下方式计算：

其中，

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种用于低资源黏着性语言文本分类的语言模型微调方法，其特征在于，包括以下步骤：

所述步骤S1利用XLM-R模型进行语言模型建模，XLM-R模型使用相同的共享词汇表，从单语语料库中随机抽取句子进行连接，学习BPE拆分，通过字节对编码BPE处理语言；

所述步骤S1随机抽取句子是根据具有概率的多项分布进行的，其多项分布为{q_i}_i＝1，2，3，…n，具体地：

其中，

并且α＝0.3；

步骤S4：基于注意力机制设置编码器-解码器架构进行微调；

2.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法，其特征在于，所述步骤S2对跨语言模型进行微调的步骤为：

3.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法，其特征在于，所述步骤S3判别微调的具体方法为：

4.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法，其特征在于，所述步骤S4中的编码器从数据集的输入中学习上下文化的特征，其时间步长的隐态为H＝h₁，h₂，…h_T，作为分类数据的表示，也作为注意层的输入，利用自注意从输入状态中提取相关方面，对齐计算如下：

u_t＝tanh(W_uh_t+bu) (3)

对于t＝1，2，…，T，其中W_u和b_u是要学习的权矩阵和偏置项，对齐评分由以下Softmax函数给出：

最后作为分类器输入的上下文向量为：

5.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法，其特征在于，所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活，用于计算目标类的概率分布，设置最后一个线性块的输出是S_o，则C＝c₁，c₂，…，c_M＝X_x，Y是目标分类数据，其中c₁＝(x₁，y₁)，x₁是令牌的输入序列，y₁是对应的标签，用于训练模型的分类损失通过以下方式计算：

其中，