CN115455177A

CN115455177A - 基于混合样本空间的不平衡化工文本数据增强方法及装置

Info

Publication number: CN115455177A
Application number: CN202210920360.8A
Authority: CN
Inventors: 高尚兵; 张骏强; 苏睿; 王媛媛; 张海艳; 马甲林; 张正伟; 朱全银; 蔡利荣
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-12-09
Anticipated expiration: 2042-08-02
Also published as: CN115455177B

Abstract

本发明公开一种基于混合样本空间的不平衡化工文本数据增强方法及装置，首先按预设规则从语料集中获得两个一级标签不同的化工文本样本，将两个样本依次输入动态词向量编码器中，获得文本样本对输出动态词向量；将两个样本根据预设静态词向量生成模型依次获得对应的静态词向量，然后对上述词向量分别展开样本自插值混合；然后随机选择与文本样本位于同一大类样本空间下属不同小样本类别空间中的文本样本生成的词向量与自插值得到的词向量展开层次样本空间插值，输出获得数据增强后的词向量，应用于下游分类任务中。本发明利用多标签数据同一层级类别之间样本的依赖关系，降低小样本所属类别分类难度，进而有效提升不平衡样本数据分类精度。

Description

基于混合样本空间的不平衡化工文本数据增强方法及装置

技术领域

本发明属于自然语言文本处理技术领域，具体涉及一种基于混合样本空间的不平衡化工文本数据增强方法及装置。

背景技术

自然语言处理是信息处理和数据研究的重要方向，也是许多关键技术的重要基础。现如今互联网通信已经成为文本产生的主要方式，传统的纸质文档正在快速电子化，各大互联网平台无时无刻都在生成海量的文本，这使得人们可以通过网络爬虫等技术搜集自己所需要的数据建立数据集用于相关自然语言处理任务的研究。

然而，并不是所有领域的数据都能够轻易被搜集，受限于数据本身领域背景特点和个性化特点，很多自然科学领域数据往往难以被搜集，建立数据集是一项非常耗费精力的工作。现如今人工智能领域已经迈入了数据驱动时代，数据很大程度上能够决定训练得到的模型性能好坏，在面对小样本数据集时，对模型的挑战往往更大，海量的数据往往能训练出更优秀的模型，例如BERT、GPT等相关预训练语言模型就是使用海量数据训练得到的。

对于背景特殊的化工领域多标签小样本数据集，通常可以采取数据增强的方法来扩充数据集，从而提升模型性能，现如今主流的数据增强方法通常是同义替换、随机删减、随机插入、随机替换、mixup或者生成对抗等。但是，针对化工领域小样本数据集中的不平衡数据集，还缺乏较为有效的数据增强方法，上述方法应用于多标签不平衡数据集时，无法有效关注到小类别数据一级多标签之间的依赖关系，并且数据增强后会进一步加剧数据长尾分布问题。

发明内容

发明目的：本发明所要解决的技术问题是提供一种基于混合样本空间的不平衡化工文本数据增强方法及装置，有效考虑到多标签数据样本空间中同一层级类别之间样本的依赖关系，降低少样本所属类别分类难度，进而有效提升不平衡样本数据分类精度。

技术方案：本发明提出一种基于混合样本空间的不平衡化工文本数据增强方法，具体包括以下步骤：

(1)输入不平衡化工产品语料集，对语料集中的化工产品文本样本进行数据清洗以及预处理；

(2)统计不平衡化工产品语料集中各类别文本样本的频率，计算实际状态下每类一级标签文本样本在总语料集中的占比；计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比；

(3)从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X₁,Y₁)，(X₂,Y₂)，预设Y₁标签所属样本标签大类别为主样本空间m，其余样本所属类别样本空间为副样本空间n；将获得的化工文本样本对分别输入动态词向量编码器中，获得文本样本对输出动态词向量W_D1和W_D2；将获得的化工文本样本对输入静态词向量生成模型获得对应的静态词向量W_S1和W_S2；

(4)对化工文本样本对生成的动态词向量W_D1和W_D2与静态词向量W_S1和W_S2分别展开self-mixup样本自插值混合，获得插值混合后的词向量W₁和W₂及其对应的标签Y₁和Y₂；

(5)随机在主样本空间m中选择与文本样本(X₁,Y₁)位于同一大类别样本空间下属不同小样本类别空间中的文本样本(X₃,Y₃)，并对X₃应用不同于文本样本X₁的静态词向量生成算法生成静态词向量W₃及其对应的标签Y₃，对步骤(3)生成的(W₁,Y₁)，(W₂,Y₂)以及(W₃,Y₃)展开层次样本空间插值，输出获得原始化工文本样本数据增强后的词向量

及其对应的标签

进一步地，步骤(3)所述动态词向量编码器为ELMo、GPT、BERT模型或者分别基于上述三种模型衍生的动态词向量算法模型。

进一步地，步骤(3)所述静态词向量生成模型为Word2Vec、Glove或FastText模型。

进一步地，所述步骤(4)实现过程如下：

W₁＝μ₁W_D1+(1-μ₁)W_S1

W₂＝μ₂W_D2+(1-μ₂)W_S2

其中，μ₁和μ₂表示从β分布获得的插值混合超参数。

进一步地，步骤(5)所述层次样本空间插值公式为：

其中，m和n分别表示主样本空间以及副样本空间，i和j表示主样本空间下属不同子样本空间，即一级标签相同，二级标签不相同的文本样本，λ表示从β分布获得的插值混合超参数，Q_A表示样本均衡时，各个一级标签样本在总样本数中所占比例，Q₂表示样本(X₂,Y₂)所属一级标签在总样本数中的占比，

表示不平衡系数。

基于相同的发明构思，本发明还提供一种基于混合样本空间的不平衡化工文本数据增强装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的基于混合样本空间的不平衡化工文本数据增强方法。

有益效果：与现有技术相比，本发明的有益效果：

1、本发明提出了一种self-mixup样本自插值混合方法，通过对同一样本不同词向量即动态词向量和静态词向量进行插值混合，得到更优秀的词向量表示，防止模型在训练时过于自信地预测标签，改善泛化能力差的问题，同时由于混合的词向量之一是动态词向量，可以始终跟随本发明所应用的实际模型训练而更新词向量表征的语义信息，进一步提升模型性能；

2、本发明提出了一种层次样本空间插值，通过self-mixup样本自插值混合方法使得单一样本生成的词向量表示获得更好的泛化性能，通过层次样本空间插值，让样本同时可以混合多标签样本空间下不同一级标签样本空间的样本以及同一大类别样本空间下属不同小样本类别空间中的文本样本，最终获得的数据增强得到的文本表示可以有效利用多标签文本中同级标签下样本之间的依赖关系；

3、本发明考虑到实际场景下化工领域文本数据增强中小样本数据集中样本不平衡问题，在层次样本空间插值中设计不平衡系数对插值权重进行修正，提升本发明在不平衡数据集中的性能。

附图说明

图1是本发明的流程图；

图2是数据增强流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于混合样本空间的不平衡化工文本数据增强方法，如图1所示，包括以下步骤：

步骤1：输入不平衡化工产品语料集，对语料集中的化工产品文本样本进行数据清洗以及预处理。

步骤2：统计不平衡化工产品语料集中各类别文本样本的频率，计算实际状态下一级标签下每类文本样本在总语料集中的占比；计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比。

步骤3：从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X₁,Y₁)，(X₂,Y₂)，预设Y₁标签所属样本标签大类别为主样本空间m，其余样本所属类别样本空间为副样本空间n。将获得的化工文本样本对分别输入动态词向量编码器中，获得文本样本对输出动态词向量W_D1和W_D2；将获得的化工文本样本对根据静态词向量生成模型获得对应的静态词向量W_S1和W_S2。

实际应用当中，生成动态词向量的动态词向量编码器算法模型包括ELMo、GPT、BERT模型或者基于上述三种模型衍生的动态词向量算法模型，静态词向量生成算法包括应用Word2Vec、Glove以及FastText模型。

步骤4：对化工文本样本对生成的动态词向量W_D1和W_D2与静态词向量W_S1和W_S2分别展开self-mixup样本自插值混合，获得插值混合后的词向量W₁和W₂及其对应的标签Y₁和Y₂。

实际应用当中，针对化工样本对生成的动态词向量W_D1和W_D2与静态词向量W_S1和W_S2分别展开self-mixup样本自插值混合，获得插值混合后的词向量W₁和W₂的公式为：

W₁＝μ₁W_D1+(1-μ₁)W_S1

W₂＝μ₂W_D2+(1-μ₂)W_S

其中，μ₁和μ₂表示从β分布获得的插值混合超参数。

步骤5：随机在主样本空间m中选择与文本样本(X₁,Y₁)位于同一大类别样本空间下属不同小样本类别空间中的文本样本(X₃,Y₃)，并对X₃应用不同于文本样本X₁的静态词向量生成算法生成静态词向量W₃及其对应的标签Y₃，对步骤3生成的(W₁,Y₁)，(W₂,Y₂)以及(W₃,Y₃)展开层次样本空间插值，输出获得原始化工文本样本数据增强后的词向量

及其对应的标签

如图2所示。

实际应用当中，层次样本空间插值公式为：

表示不平衡系数。

实际应用当中，使用者可以根据实际情况，选择相应任务所需要的特征提取模型并在模型前端词向量生成部分应用本发明设计。

上述技术方案所设计基于混合样本空间的不平衡化工文本数据增强方法，在实际应用当中，执行包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，应用中，计算机程序被加载至处理器时，实现所设计基于混合样本空间的不平衡化工文本数据增强方法，获得原始化工文本样本数据增强后的词向量表示极其对应标签，并进行实际文本分类任务的应用。

实际应用当中，为了更好的说明本方法的可行性与有效性，将本发明所设计一种基于混合样本空间的不平衡化工文本数据增强方法应用于实际当中，对128051条多标签化工文本数据进行均匀采样构造了数据量为12801的不平衡小样本数据集，并对其进行多标签文本分类实验，下游模型分别选取了TextCNN、BiLSTM以及DPCNN模型，消融实验结果表明应用本发明设计方法生成的词向量的特征提取模型性能优于原始模型，F1值提升了0.43％～2.28％。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于混合样本空间的不平衡化工文本数据增强方法，其特征在于，包括以下步骤：

及其对应的标签

2.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法，其特征在于，步骤(3)所述动态词向量编码器为ELMo、GPT、BERT模型或者分别基于上述三种模型衍生的动态词向量算法模型。

3.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法，其特征在于，步骤(3)所述静态词向量生成模型为Word2Vec、Glove或FastText模型。

4.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法，其特征在于，所述步骤(4)实现过程如下：

W₁＝μ₁W_D1+(1-μ₁)W_S1

W₂＝μ₂W_D2+(1-μ₂)W_S2

其中，μ₁和μ₂表示从β分布获得的插值混合超参数。

5.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法，其特征在于，步骤(5)所述层次样本空间插值公式为：

表示不平衡系数。

6.一种基于混合样本空间的不平衡化工文本数据增强装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于混合样本空间的不平衡化工文本数据增强方法。