CN117407532A

CN117407532A - 一种利用大模型与协同训练进行数据增强的方法

Info

Publication number: CN117407532A
Application number: CN202311237235.8A
Authority: CN
Inventors: 谢铁; 褚哲; 刘培彬
Original assignee: Suzhou Xinge Technology Co ltd
Current assignee: Suzhou Xinge Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-16

Abstract

本发明公开了一种利用大模型与协同训练进行数据增强的方法，包括以下步骤：S1.准备初始提示词；S2.输入待识别文本；S3.结合三元组将提示样本转化为完整的提示样本；S4.将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息；S5.对大模型输出的三元组进行评估，包括：S6.根据评估值判断识别正确与否，并根据结果更新提示准确率；S7.若评估值小于等于设定阈值，则重新触发动态提示词层挑选提示样本，并重新执行上述步骤；S8.将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。通过数据循环反馈与知识图谱构建，能够有效提高分类算法的生成能力和适应性。

Description

一种利用大模型与协同训练进行数据增强的方法

技术领域

本发明涉及自然语言处理领域，具体为一种利用大模型与协同训练进行数据增强的方法。

背景技术

众所周知，标注数据的“质量”对于有监督算法来说是至关重要的。但既要保质又要保量对于标注工作来说提出了很大挑战。在减少标注工作量的工作中，基于主动学习（Activate Learning）的做法往往针对于对“质”的保证，并且大部分方法停留在发现有价值的数据，但标注依然需要靠人力完成。而近两年开始日益成熟的生成式语言模型，如GPT-4等，在提示工程的加持下可以轻易生成大量标注数据，但生成的数据虽然保了“量”，但由于句式单一，无法做到差异化数据。

发明内容

本发明的目的在于提供一种利用大模型与协同训练进行数据增强的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种利用大模型与协同训练进行数据增强的方法，包括以下步骤：

S1.准备初始提示词；

S2.输入待识别文本，并通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本；

S3.结合三元组将提示样本转化为完整的提示样本；

S4.将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息；

S5.对大模型输出的三元组进行评估，包括：

a.将三元组转化为句子，并提取句子的向量特征；

b.计算复原相似度，即将该句子与对应三元组的原始句子进行向量比对得到的相似度；

c.利用三元组中的两个实体在已收集数据中进行检索，并计算实体召回率；

d.综合复原相似度和实体召回率进行加权平均得到评估值；

S6.根据评估值判断识别正确与否，并根据结果更新提示准确率；

S7.若评估值小于等于设定阈值，则重新触发动态提示词层挑选提示样本，并重新执行上述步骤；

S8.将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

优选的，所述动态提示词层的选择和优化是通过计算当前待识别文本与已正确识别三元组对应原始句子的相似度，并召回与待识别文本相似度高于设定阈值的文本实现的。

优选的，在每次执行流程时，将已识别的三元组收集起来，一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

优选的，在执行流程时，若同一待识别文本被识别超过三次，将其标记为问题文本，需要交由人工处理。

优选的，S2中，通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本，具体包括以下步骤：

S21.预处理待识别文本：对待识别文本进行预处理；

S22.候选样本选择：从大规模的原始文本样本库中，选取一部分候选样本；

S23. 文本表示学习：采用词嵌入、句向量或基于Transformer的模型对待识别文本和候选样本进行表示学习，通过将文本映射到低维向量表示，捕捉语义信息和语境相关性；

S24.相似度计算：利用余弦相似度、欧氏距离或基于注意力机制的相似度计算方法在文本表示空间中计算待识别文本与候选样本之间的相似度分数；

S25.提示样本选择：根据相似度分数，按照设定的阈值或选择前K个最相似样本的方式，选取与待识别文本相似度较高的原始文本样本作为提示样本。

优选的，S3中，结合三元组将提示样本转化为完整的提示样本，具体包括以下步骤：

S31.提示样本处理：对选择得到的原始文本样本进行处理和解析，从中提取出与识别目标相关的实体和关系信息；

S32.三元组抽取：根据所提取的实体和关系信息，构建三元组；

S33.数据清洗和规范化：对生成的三元组进行数据清洗和规范化的操作，包括去除重复的三元组、标准化实体和关系名称，保证生成数据的质量和一致性；

S34.合并提示样本和待识别文本：将经过处理和规范化的三元组与待识别文本进行合并，形成完整的提示样本；

S35.将完整的提示样本输入给大模型进行推理：利用大模型对合并后的提示样本进行推理，从中提取出与文本相关的实体和关联关系的信息。

优选的，S4中，将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息，具体包括以下步骤：

S41.模型选择和预训练：选择适合任务需求的大模型，并通过使用大规模数据集进行预训练，使得模型能够掌握丰富的语义和句子结构信息；

S42.输入编码和注意力机制：对待识别文本和提示样本进行编码，得到它们在模型中的表示；

S43.推理过程：将编码后的待识别文本和提示样本输入到大模型中，触发推理过程，模型会根据已学习到的语义知识和上下文信息，生成实体关系的三元组信息；

S44.三元组筛选和整理：从大模型的输出中提取实体关系的三元组信息，同时，对生成的三元组进行筛选和整理，去除无关或不准确的信息，保留有意义的实体关系；

S45. 完善三元组信息：对提取的三元组信息进行完善，通过结合已有知识库、领域专家或其他外部资源，进行补充和修正，使得三元组信息更加准确和完整。

优选的，S8中，将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源，具体包括以下步骤：

S81.知识图谱构建：将成功识别的三元组数据整合和存储，构建知识图谱；

S82.知识图谱扩充：利用成功识别的三元组数据不断扩充知识图谱；

S83. 知识图谱应用：利用构建和扩充后的知识图谱，进行各种应用；

S84. 动态提示词层更新：利用成功识别的三元组数据作为动态提示词层的数据源，在实际应用中持续地更新和优化动态提示词的选择。

本发明提出的一种利用大模型与协同训练进行数据增强的方法，有益效果在于：

1、在以往采用协同训练做数据增强的方式中，协同训练主要用于挖掘比较有价值的数据从而减少标注量，然而其并不能直接产生标注数据，使得减少人工标注的程度有限，而本发明在大模型的加持下，可以直接生成标注数据。

2、相比于直接使用大模型生成标注数据，本发明采用了分类模型与大语言模型的对抗机制以保证生成数据的质量，使得数据增强效果更加高效。

综上所述，本流程通过利用大模型进行动态提示和推理，基于评估机制对生成数据进行处理，并通过数据循环反馈与知识图谱构建，能够有效提高分类算法的生成能力和适应性，解决在新场景迁移时的标注压力问题。

附图说明

图1为本发明的协同训练流程图；

图2为本发明的完整执行流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种利用大模型与协同训练进行数据增强的方法，包括以下步骤：

S1.准备初始提示词。

执行流程时，若同一待识别文本被识别超过三次，将其标记为问题文本，需要交由人工处理；

具体包括以下步骤：

S21.预处理待识别文本：对待识别文本进行预处理，包括去除特殊字符、分词等；

S22.候选样本选择：从大规模的原始文本样本库中，选取一部分候选样本，这些候选样本可以是特定领域的文本资源，比如新闻、百科或专业文献，并以事先建立的索引结构进行快速搜索；

S24.相似度计算：利用余弦相似度、欧氏距离或基于注意力机制的相似度计算方法在文本表示空间中计算待识别文本与候选样本之间的相似度分数，较高的相似度分数表示两个文本在语义上更为接近；

S25.提示样本选择：根据相似度分数，按照设定的阈值或选择前K个最相似样本的方式，选取与待识别文本相似度较高的原始文本样本作为提示样本，这些样本可以提供上下文信息和领域知识，有助于生成准确的三元组信息。

S3.结合三元组将提示样本转化为完整的提示样本；

具体包括以下步骤：

S32.三元组抽取：根据所提取的实体和关系信息，构建三元组，三元组由主体（实体1）、谓词（关系）和客体（实体2）组成，反映了实体之间的关联关系；

具体包括以下步骤：

S41.模型选择和预训练：选择适合任务需求的大模型，如BERT、GPT等，并通过使用大规模数据集进行预训练，使得模型能够掌握丰富的语义和句子结构信息；

S42.输入编码和注意力机制：对待识别文本和提示样本进行编码，得到它们在模型中的表示，利用注意力机制，模型可以更好地理解文本之间的关联性和重要性；

S5.对大模型输出的三元组进行评估，包括：

a.将三元组转化为句子，并提取句子的向量特征；

d.综合复原相似度和实体召回率进行加权平均得到评估值，用于判断三元组识别的准确性；

S8.将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源；

具体包括以下步骤：

S81.知识图谱构建：将成功识别的三元组数据整合和存储，构建知识图谱，知识图谱是一种结构化的知识表示形式，以实体为节点、关系为边，反映实体之间的关系和属性信息；

S82.知识图谱扩充：利用成功识别的三元组数据不断扩充知识图谱，可以通过进一步的文本挖掘、实体链接、关系抽取等方法，自动从原始文本中提取新的三元组数据，添加到知识图谱中；

S83. 知识图谱应用：利用构建和扩充后的知识图谱，进行各种应用，如问答系统、推荐系统、语义搜索等，通过知识图谱的结构化表示和丰富的实体关系信息，可以实现更高效、准确的信息检索和推理；

S84. 动态提示词层更新：利用成功识别的三元组数据作为动态提示词层的数据源，在实际应用中持续地更新和优化动态提示词的选择，通过分析已识别的三元组数据，可以提取关键词、热门话题等，作为动态提示词层的重要信息源，进一步提升系统对待识别文本的提示和推理能力。

成功识别的三元组数据不仅用于构建和扩充知识图谱，还用于动态提示词层的更新和优化，这样做可以将实际应用中产生的有价值的数据用于知识图谱的建设，并将其反馈回系统的动态提示词层，实现了知识图谱和动态提示的互相支持和强化，从而进一步提升基于大模型的动态提示和推理方法的效果，使其能够更好地满足用户需求；

在每次执行流程时，将已识别的三元组收集起来，一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

所述动态提示词层的选择和优化是通过计算当前待识别文本与已正确识别三元组对应原始句子的相似度，并召回与待识别文本相似度高于设定阈值的文本实现的。

本发明主要有三点：一是提示工程，二是对抗机制，三是协同训练机制。

1、提示工程：提示词为大模型的输入之一，其作用一方面是指定大模型的回答方式以便完成特定任务，二是提供额外信息作为大模型回答参考；而提示工程主要是对提示词的优化调整，使得大模型能够更加准确的完成特定任务；本发明中，提示词主要由三部分组成：1、任务描述：即用自然语言描述清楚任务类型，并让大模型按照要求生成文本；2、有标签样本：目的是让大模型参考给定的数据以及对应标签，符合该标签含义的其他表述方式数据；3、无标签样本：为参考文本，目的是让模型生成句式尽可能与带标签数据产生差异；完整的提示词如下“给定有标签数据，请参考有标签数据，生成一段符合该标签含义的文本；要求：1、尽可能与标签数据做到差异化；2、尽可能参考无标签数据里的表述；3、避免使用简单句式，每条数据字数超过20字；为了避免生成数据的同质化，采用动态提示词：每一次数据生成，提示词都不一样；其中，有标签样本中，如果某标签下数据小于10条，则所有数据均被挑选为有标签样本，若大于10条，则对数据先聚成10个类，每个类取簇中心句子作为有标签的题词样本；无标签样本的挑选遵循如下规则：1、先通过字面搜索引擎比如ElasticSearch召回100条数据，这100条数据会事先被分类模型打上标签，最终选择与有标签样本不同标签，但语义相似度接近的文本。

2、对抗机制：对抗机制的目的是让生成的数据有更高的质量；高质量数据的量化方式之一就是当前分类模型是否能正确识别，一般认为当前分类模型无法正确识别的数据更有价值；因此生成模型因尽量生成能够让分类模型识别出错的数据，而这种机制称为对抗机制；预测错误分为两种情况；比如对于标签A，一种错误是把属于A的数据识别为其他标签，第二种是把其他标签识别成了A；前者影响了A标签的准确率，后者影响召回率；为了针对这两类指标有针对性的生成数据，需要分别考虑两种情况；首先，大模型生成标签为A数据，直到让分类模型出错为止，这类数据用于提升准确率；2、如果成功生成了一条让分类模型识别错误的数据，如识别为B标签，那么再让生成模型生成一条属于B标签，但是句式类似于A标签的数据；这类数据是为了让分类模型更好的学习到B标签与A标签的差异，以提升召回率。

3、基于协同训练的评估机制：为了确保生成数据的准确性，采用协同训练机制对数据进行一定程度上的验证；其基于的原理为：协同训练训练两种有差异的模型，如果生成的新数据能够使两个模型效果均提升，那么则保留数据，否则交由人工审核；具体做法如下：原始训练集按照每个标签的粒度对数据拆分成数量一致的两份训练集A1、B1；依据这两份训练集，分别训练两套模型，并预测对方训练集，记录各标签的准确率与召回率；每一次迭代过程中，对新生成的数据进行类似拆分，分为A2、B2；首先利用A1+A2重新训练模型MA1，B1+B2重新生成模型MB1；并分别利用MA1重新预测B1，以及MB1预测B2；记录各标签的准确率与召回率；此后，模型A与B交换彼此新生成的训练集重新训练，如使用A1+B2生成模型MA2，并用MA2预测B2，记录各标签的准确率与召回率，MB2以此类推；如果加入新数据的两次准确率与召回率均大于用原始数据集训练的准确率与召回率，则保留数据，否则抛弃数据，交由人工审核。

具体实施如下：

1、首先，迭代开始之前，需要定义出标签，并标注少量原始数据集；

2、数据集按照每个标签下数据平分的原则，拆分为两部分，训练集A1与训练集B1；并分别训练出分类模型MA1与MB1；模型MA与MB的选择应该当尽量有差异，如采用不同分类算法或者不同参数；

3、利用MA1预测训练集B1，记录准确率AccA1，RecA1，MB1预测训练集A1，记录准确率AccB1，RecB1；

4、开始对每类标签进行迭代生成数据：

5、对于任意类别的标签数据，会首先进入提示词工程模块进行处理；提示工程模块对大于10条数据的标签进行聚类，聚出10个簇，每个簇挑选一条簇中心句作为有标签的提示词样本；对于未打标数据，使用搜索引擎对，以挑选出的10条打标数据进行检索词进行检索；召回100条数据，并用分类模型MA1预测这100条数据，挑选出所有与当前标签类别不一致的数据作为无标签样本的提示词；

6、提示词工程模块产生的提示词输入给由大语言模型构成的生成模型产生n条数据样本；

7、如果任意分类模型能够预测正确新生成的模型，那么丢弃该数据，流程从5开始重新生成n条数据；

8、新生成的n条数据样本平分成两个部分A2与B2；首先结合A1与A2，B1与B2，并重新训练分类模型，产生模型MA2与MB2；利用MA2预测训练集B1，记录准确率AccA2，RecA2，MB2预测训练集A1，记录准确率AccB2，RecB2；接着交换结合顺序，即结合A1与B2，B1与A2，重新训练分类器MA3与MB3；同样，利用MA3预测训练集B1，记录准确率AccA3，RecA3，MB3预测训练集A1，记录准确率AccB3，RecB3；

9、如果AccA2>=AccA1、AccA3>= AccA1，两个条件同时满足，则认为A2数据集是正确的，并把A2数据归入已标注数据；B2数据集做类似判断；如果不满足条件，则把相应的数据丢到人工池，待人工审核后加入已标注数据集；

10、所有标签执行完一轮后，重新开始步骤2，直到已标注数据达到指定数量。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种利用大模型与协同训练进行数据增强的方法，其特征在于，包括以下步骤：

S1.准备初始提示词；

S3.结合三元组将提示样本转化为完整的提示样本；

S5.对大模型输出的三元组进行评估，包括：

a.将三元组转化为句子，并提取句子的向量特征；

d.综合复原相似度和实体召回率进行加权平均得到评估值；

2.根据权利要求1所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：所述动态提示词层的选择和优化是通过计算当前待识别文本与已正确识别三元组对应原始句子的相似度，并召回与待识别文本相似度高于设定阈值的文本实现的。

3.根据权利要求2所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：在每次执行流程时，将已识别的三元组收集起来，一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

4.根据权利要求3所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：在执行流程时，若同一待识别文本被识别超过三次，将其标记为问题文本，需要交由人工处理。

5.根据权利要求4所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S2中，通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本，具体包括以下步骤：

S21.预处理待识别文本：对待识别文本进行预处理；

6.根据权利要求5所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S3中，结合三元组将提示样本转化为完整的提示样本，具体包括以下步骤：

7.根据权利要求6所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S4中，将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息，具体包括以下步骤：

8.根据权利要求7所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S8中，将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源，具体包括以下步骤：