CN116629387A

CN116629387A - 一种用于训练缺失条件下的文本处理方法及处理系统

Info

Publication number: CN116629387A
Application number: CN202310908660.9A
Authority: CN
Inventors: 夏东
Original assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Current assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116629387B

Abstract

本发明涉及数据处理技术领域，公开了一种用于训练缺失条件下的文本处理方法及系统，包括：基于目标小样本文本建立负样本数据集，并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集；基于目标小样本文本构建训练模型，并将训练模型的输出层替换成双指针网络得到目标处理模型；将增强负样本数据集输入目标处理模型中得到损失函数，并对损失函数进行优化得到目标函数；通过目标函数对目标小样本文本进行解码处理；本发明解决了现有的训练数据缺失条件下文本处理精度较低的问题。

Description

一种用于训练缺失条件下的文本处理方法及处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种用于训练缺失条件下的文本处理方法及处理系统。

背景技术

当前机器学习依赖于训练集，然而有些场景下训练数据集规模较小甚至几乎没有，针对这种情况，就需要进行设计在训练缺失条件下的文本处理技术，目前，训练缺失条件下的文本处理技术包括：基于模型微调的小样本学习，基于模型微调的方法是小样本学习较为传统的方法，该方法通常在大规模数据上预训练模型，在目标小样本数据集上对神经网络模型的全连接层或者顶端几层进行参数微调，得到微调后的模型。基于模型微调的方法较简单，但是在真实场景中，目标数据集和源数据集往往并不类似，采用模型微调的方法会导致模型在目标数据集上过拟合。

基于数据增强的小样本学习，小样本学习的根本问题在于样本量过少，从而导致样本多样性变低。在数据量有限的情况下，可以通过数据增强来提高样本多样性。数据增强指借助辅助数据或辅助信息，对原有的小样本数据集进行数据扩充或特征增强。数据扩充是向原有数据集添加新的数据，可以是无标签数据或者合成的带标签数据；特征增强是在原样本的特征空间中添加便于分类的特征，增加特征多样性。

基于迁移学习的小样本学习，迁移学习是指利用旧知识来学习新知识，主要目标是将已经学会的知识很快地迁移到一个新的领域中。迁移学习解决了基于模型微调的方法中源数据集和目标数据集分布不相似时导致过拟合的问题。迁移学习只需要源领域和目标领域存在一定关联，使得在源领域和数据中学习到的知识和特征能够帮助在目标领域训练分类模型，从而实现知识在不同领域之间的迁移。可见，现有的文本处理方法在面对训练数据缺失的情况时存在文本处理精度较低的问题。

发明内容

本发明提供了一种用于训练缺失条件下的文本处理方法及处理系统，以解决现有的训练数据缺失条件下文本处理精度较低的问题。

为了实现上述目的，本发明通过如下的技术方案来实现：

第一方面，本发明提供一种用于训练缺失条件下的文本处理方法，包括：

基于目标小样本文本建立负样本数据集，并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集；

基于目标小样本文本构建训练模型，并将训练模型的输出层替换成双指针网络得到目标处理模型；

将增强负样本数据集输入目标处理模型中得到损失函数，并对损失函数进行优化得到目标函数；

通过目标函数对目标小样本文本进行解码处理。

可选的，基于目标小样本本文建立负样本数据集，包括：

基于目标小样本文本构建提示词，并将提示词与目标小样本文本结合得到负样本数据集。

可选的，基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集，包括：

基于处理要求确定文本标签类型，并将文本标签类型与增强负样本数据集中的样本类型进行对比；

当增强负样本数据集中的样本类型与文本标签类型相符时，对该样本进行标记；

当增强负样本数据集中的样本类型与文本标签类型不相符时，对该样本进行舍弃；

将标记后的样本进行组合得到增强负样本数据集。

可选的，训练模型包括：融合了自回归网络和自编码网络的Bert预训练模型。

可选的，将训练模型的输出层替换成双指针网络得到目标处理模型，包括：

将训练模型中的传统CRF层替换成双指针网络。

可选的，将损失函数，包括：

；

其中，为i到j的连续片段是一个类型为/>的实体的打分，也就是说，用/>和/>的内积，作为片段/>是类型为/>的实体的打分，这里的/>指的是序列t的第i个到第j个元素组成的连续子串。

可选的，目标函数，包括：

；

其中，是该样本的所有类型为/>的实体的首尾集合，/>是该样本的所有非实体或类型非/>的实体的首尾集合，只需要考虑i≤j的组合，即：

；

其中，是该样本的所有类型为/>的实体的首尾集合，/>是该样本的所有非实体或类型非/>的实体的首尾集合。

第二方面，本申请实施例提供一种用于训练缺失条件下的文本处理系统，包括处理器、存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面中任一的方法步骤。

有益效果：

本发明提供的用于训练缺失条件下的文本处理方法，能够在训练数据缺失条件下通过构造训练数据进行训练从而达到一定的文本处理精准度。

附图说明

图1为本发明优选实施例的用于训练缺失条件下的文本处理方法的流程图。

具体实施方式

下面对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另作定义，本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

实施例1

请参见图1，本申请实施例提供一种用于训练缺失条件下的文本处理方法，包括：

通过目标函数对目标小样本文本进行解码处理。

可选的，基于目标小样本本文建立负样本数据集，包括：

将标记后的样本进行组合得到增强负样本数据集。

将训练模型中的传统CRF层替换成双指针网络。

其中，CRF层表示条件随机场层（Conditional Random Fields）。

可选的，将损失函数，包括：

；

可选的，目标函数，包括：

；

上述实施例中，主要通过以下步骤对目标小样本文本进行处理：

（1）面向训练缺失文本的负样本增强

给出原始文本序列x和提示模板p，隐层表征方式如下：

；

其中~/>为prompt提示词，/>~/>表示样本，通常为正确的提示词即正样本，在文本中的实体抽取通常存在以人名或地名命名的武器装备实体，因此针对该问题提出基于负样本增强训练技术，通过构造负样本提示词prompt与原始文本进行结合变成负例，增强模型对实体的辨别能力/>表示编码结果，/>表示编码函数，构造负样本prompt方式如下：

；

为负样本的提示词，/>提示词集合，通过上述方式可以生成高质量的负样本数据。

负样本增强算法包括：

1：循环标注的小样本数据集；

2：repeat；

3：是否存在提示词不属于标注标签中的类型；

4：if exist；

5：构建添加负样本，非正确提示词拼接原文本，实体结果设置为空；

6：continue；

7：until end。

（2）基于负样本增强的实体识别算法实现与改进

1）模型改进

由于训练数据相对较少，采取了更强的预训练模型Ernie3.0替换Bert模型，以融入更多、泛化能力更强的知识来提升领域上的实体识别效果。Ernie3.0模型关注few-shot&zero-shot场景，模型融合了自回归网络和自编码网络，在纯文本和大规模知识图谱组成的4TB语料库上训练大规模的知识增强模型，在54个基准测试中的表现一直比最先进的模型高出很多，并在Superglue基准测试中获得第一名。

2）输出层改进

针对领域实体识别中人名或地名命名造成精确率不高的问题，将输出部分由传统的CRF层替换双指针网络进行解码，是通过预测实体次起始位置和终止位置来识别实体的，有效缓解领域中实体嵌套的问题。例如，长度为n的输入t经过编码后得到向量序列[，...，/>]，通过变换/>+/>和/>+/>可以得到序列向量[/>，...，/>]和[/>，...，/>]，它们是识别第/>种类型实体所用的向量序列；此时我们可以定义：

；

作为从i到j的连续片段是一个类型为的实体的打分，也就是说，用/>和/>的内积，作为片段/>是类型为/>的实体的打分（logits），这里的/>指的是序列t的第i个到第j个元素组成的连续子串。

3）损失函数

从上面可以看出，最终的打分函数相当于个n(n+1)/2类个二分类问题，相当于对每个类型的实体候选有n(n+1)/2个选择，每个候选相当于做一个二分类，很明显，最后会存在严重的类别不平衡问题。参考“softmax+交叉熵”推广到多标签分类问题，是单目标多分类交叉熵的推广，特别适合总类别数很大、目标类别数较小的多标签分类问题，在我们的场景下，设计为：

；

其中是该样本的所有类型为/>的实体的首尾集合，/>是该样本的所有非实体或类型非/>的实体的首尾集合，只需要考虑i≤j的组合，即：

；

而在解码阶段，所有满足的片段/>都被视为类型/>的实体输出。可见解码过程是比较简单的，并且咋充分并行下解码效率就是/>。

实施例2

搜集文本分词、词性标注、命名实体识别、依存句法分析、语义角色标注和语义依存等六个任务的数据集上，设计改进多任务框架来利用所有任务之间的共享知识。同时，针对所有分词之后的五个任务使用共享编码器进行的多任务学习可以大大减少占用的内存并提高速度，使模型更加高效，从而减少了对硬件的需求。

CWS中文分词，POS词性标注，NER命名实体识别，DEP依存句法分析SRL语义角色类型，SDP语义依存关系。

为了提取所有中文相关任务的共享知识，模型采用了多任务框架，其中五个中文任务共享一个编码器。框架中采用SOTA预训练模型（ELECTRA）作为编码器。

（1）共享编码器技术

多任务学习框架使用一个共享的编码器从相关的任务中抽取共享的知识。给定一个输入，首先添加特殊的字符构造输入序列：

；

其中[CLS]是对输入序列的起始特殊符号表示，[SEP]是分割非连续序列的特殊符号。ELECTRA模型接收结构化的输入并且输出相一致的隐层表征：

；

其中，、/>均表示输入，/>、/>均表示输入对应的隐层表征。

（2）中文分词任务

中文分词（CWS）对于中文自然语言处理是一个基础且重要的任务，在本申请中，CWS被当做基于字符的序列标注问题。具体而言，给定隐层表征的输入H，采用一个全连接的解码器为每个字符进行分类：

；

代表对应字符的标签概率分布，/>和/>为可训练的参数，/>表示Softmax函数。

（3）词性标注任务

词性标注任务是自然语言处理的另一个基础任务，它可以促进下游任务如句法分析。遵循主流的文献研究，词性标注作为一个序列标注任务被对待。和分词任务相似，也是接收序列的隐层表征H作为输入并且输出对应的词性标签，其公式如下：

；

代表第i个字符的词性标签概率分布，/>为子词/>的第一个表征，/>和/>表示关键词的位置以及特征词的位置。

（4）依存句法任务

依存关系分析是分析句子的语义结构的任务。在LTP中，使用了deep biaffineparser和einser算法以获取解析结果，其公式为：

；

其中，表示进行MLP头结点函数处理的结果，/>表示MLP头结点函数，表示MLP深度函数处理的结果，/>表示MLP深度函数，在得到/>和/>后，给每一个依存的i/>计算得分，计算方式如下：

；

其中，表示双仿射函数，/>表示深度参数，/>表示头结点参数，上面过程通过将1维向量h扩展为L维来对i/>进行评分，其中L为依存标签的总数。

实施例中，deep biaffine parser表示深度双仿射解析器，einser表示电感器或传译器。

（5）语义依存任务

和依存句法类似，语义依存分析是一个捕捉句子语义结构的任务。具体就是给定一个输入文本序列，语义依存的目标是确定所有相互关联的词对语义并分配特定的预定义语义关系。采用一个双射模块为了实现该任务，具体公式如下：

；

其中，表示词i与词j之间的依存关系值，/>表示词i与词j之间的在文章依存关系，/>表示/>函数，如果/>>0.5，那么第i个词与第j个词之间存在一个语义关系。

（6）语义角色标注

语义角色标注是一个确定句子中谓语参数结构的任务，可以提供回答关于句子意义的基本问题，如谁对谁做了什么等问题。本研究结合双射深度神经网络和基于条件随机场的解码器采用一个端到端的模型进行处理。条件随机场解码器构建如下：

对于某个特定的谓词s，表示任意的标签序列，/>用来计算/>的转移分数，/>表示在谓词s下/>的标准概率，/>表示词j-1与词i之间的角色关系，表示j与词i之间的角色关系，/>表示谓词。

本申请实施例还提供一种用于训练缺失条件下的文本处理系统，包括处理器、存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现用于训练缺失条件下的文本处理方法中任一的方法步骤。

上述的用于训练缺失条件下的文本处理系统，可以实现上述的用于训练缺失条件下的文本处理方法的各个实施例，且能达到相同的有益效果，此处，不做赘述。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用于训练缺失条件下的文本处理方法，其特征在于，包括：

基于目标小样本文本建立负样本数据集，并基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集；

基于目标小样本文本构建训练模型，并将所述训练模型的输出层替换成双指针网络得到目标处理模型；

将所述增强负样本数据集输入目标处理模型中得到损失函数，并对所述损失函数进行优化得到目标函数；

通过目标函数对目标小样本文本进行解码处理。

2.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述基于目标小样本本文建立负样本数据集，包括：

基于目标小样本文本构建提示词，并将所述提示词与目标小样本文本结合得到负样本数据集。

3.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集，包括：

基于处理要求确定文本标签类型，并将所述文本标签类型与增强负样本数据集中的样本类型进行对比；

当增强负样本数据集中的样本类型与所述文本标签类型相符时，对该样本进行标记；

当增强负样本数据集中的样本类型与所述文本标签类型不相符时，对该样本进行舍弃；

将标记后的样本进行组合得到增强负样本数据集。

4.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述训练模型包括：融合了自回归网络和自编码网络的Bert预训练模型。

5.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述将所述训练模型的输出层替换成双指针网络得到目标处理模型，包括：

将训练模型中的传统CRF层替换成双指针网络。

6.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述损失函数如下式所示：

；

其中，为i到j的连续片段是一个类型为/>的实体的打分，/>表示向量q的i和/>分量的转置，/>表示向量k的j和/>分量的转置。

7.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述目标函数如下式所示：

；

其中，是该样本的所有类型为/>的实体的首尾集合，/>是该样本的所有非实体或类型非/>的实体的首尾集合，/>表示误差e的在i和j之间的负趋近值，/>表示误差e的在i和j之间的趋近值，只考虑i≤j的组合，即：

；

其中，表示全量区间，/>和j表示其中一个数，/>指的是序列t的第i个到第j个元素组成的连续子串。

8.一种用于训练缺失条件下的文本处理系统，其特征在于，包括处理器、存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一所述的方法步骤。