CN118277645A - 基于大语言模型的数据增强方法和装置 - Google Patents

基于大语言模型的数据增强方法和装置 Download PDF

Info

Publication number
CN118277645A
CN118277645A CN202410710728.7A CN202410710728A CN118277645A CN 118277645 A CN118277645 A CN 118277645A CN 202410710728 A CN202410710728 A CN 202410710728A CN 118277645 A CN118277645 A CN 118277645A
Authority
CN
China
Prior art keywords
data
search
language model
seed
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410710728.7A
Other languages
English (en)
Other versions
CN118277645B (zh
Inventor
罗实
程曦
刘念
陈红阳
苗宇
恽爽
陈昱宇
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410710728.7A priority Critical patent/CN118277645B/zh
Publication of CN118277645A publication Critical patent/CN118277645A/zh
Application granted granted Critical
Publication of CN118277645B publication Critical patent/CN118277645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。

Description

基于大语言模型的数据增强方法和装置
技术领域
本发明属于人工智能技术领域,具体涉及一种基于大语言模型的数据增强方法和装置。
背景技术
数据是人工智能的核心三要素之一,海量数据中蕴藏的价值化信息和知识可用于指导人工智能的决策和行为,其质量、数量和类型对人工智能的性能和效果产生直接影响。AI应用中一个常见问题是针对具体的模型算法难以获得丰富的数据资产,受限于合规和时效成本等因素,支撑的往往是一些小样本实验数据,而数据的扩充就显得尤为重要。数据增强是一种常见的数据处理手段,通过对现有数据的变换和处理,生成新的数据集以达到数据体量、多样性方面的扩充,从而提高人工智能模型的泛化能力。
在传统数据增强方法中,如公开号为CN113626560A的中国专利申请公开了一种基于强化学习的多样性对话数据增强方法,该方法收集相同对话历史下的多种回复,创建语义和表达隐含空间,并从中采样结合对话历史信息生成回复,通过两个判别器确保回复的语义和表达多样性,经循环训练后生成高质量的多样性对话样本,实现数据增强。再如公开号为CN115510863A的中国专利申请公开了一种面向问句匹配任务的数据增强方法,该方法从字词和句子两个层面实现数据扩充,在字词层面,通过实体替换、同义词替换及随机插入,以及添加噪声的方式,解决了同义词和实体混淆问题,并增强了模型的学习能力,在句子层面,采用回译方法提高样本多样性。但现有方法对数据语义空间扩充的效果有限,难以处理复杂的语义关联和上下文信息,数据增强的质量和效率仍待提高。
而随着近年来大语言模型(Large Language Model,LLM)技术的发展,掀起了人工智能新的发展浪潮,专家问答、机器翻译、图文生成等应用不断涌现。大语言模型与生俱来的迁移学习机制,为数据增强开拓了新的视角,相比于基于规则和算法等传统增强方式中常常出现的过拟合问题,利用大模型生成式和小样本学习能力扩充数据语义空间,在增强效率和质量上具有重要的意义。
发明内容
鉴于上述,本发明的目的是提供一种基于大语言模型的数据增强方法和装置,能够高质量地对原始语料进行自动化补充和扩展,实现更加高效和准确的数据增强。
为实现上述发明目的,本发明提供的技术方案如下:
本发明实施例提供的一种基于大语言模型的数据增强方法,包括以下步骤:
获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;
以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;
将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;
将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
优选地,所述种子实体包括两个层级,第一层级是领域知识体系,其综合概述了当前领域的整体知识结构,包括行业顶层设计或全景知识图谱,第二层级是专家标注数据,其为专家依据多年实践的总结,包括领域细化的专业术语或关键词。
优选地,在进行实体筛查时,还包括增加开源知识图谱作为数据源补充,结合种子实体和开源知识图谱对原始语料数据进行实体筛查,以获得实体在语义空间上扩展的上下文片段数据。
优选地,实体筛查是对种子实体的信息召回和相关性评价的过程,包括:
将种子实体与所有原始语料数据进行内容匹配,并截取原始语料数据的文档中含有种子实体内容的段落或语句作为上下文片段;
对种子实体及其对应的上下文片段进行相关性评价,根据相关性评价的打分评估结果判断种子实体与其对应上下文片段的相关性,选取相关性高的上下文片段作为实体筛查最终得到的上下文片段数据。
优选地,相关性评价的打分评估规则为:上下文片段分值=种子实体PageRank分*种子实体频率*log(文档总数/包含种子实体的文档数)*语料影响因子,其中种子实体PageRank分为基于DBPedia网络计算得到,种子实体频率=种子实体在文档中出现的次数/文档中的总词数,语料影响因子为根据不同原始语料数据预先设定的值,计算出的上下文片段分值即为相关性评价的打分评估结果。
优选地,所述以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句,包括:
基于种子实体和上下文片段数据设计检索语句生成需求的第一prompt模板,大语言模型根据种子实体、上下文片段和第一prompt模板自回归地输出问题,大语言模型在生成每个词时均会考虑前面已生成的词汇,确保语言的连贯性和逻辑性,最后进行校对,在之前生成的初稿基础上优化问题的表达,确保逻辑无误、语法准确,从而完成检索增强生成,最终得到大语言模型生成的扩展后的用于进行后续网页查询的检索语句。
优选地,所述将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集,包括:
调用搜索引擎的API接口,将大语言模型生成的检索语句作为输入,进行网页信息查询;
根据网页信息查询结果,得到返回的网页快照链接,并截取前TopN个快照链接作为网页数据的采集源;
对TopN个快照链接编写解析程序进行网页数据提取,将提取得到的网页数据构建检索数据集。
优选地,所述将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据,包括:
对检索数据集进行预处理,预处理包括数据清洗和格式标准化;
对预处理后的检索数据集进行关键词提取;
将提取的关键词进行同义词和相关词的扩展,将扩展前后的关键词转化为短语或句式形式的提示词,基于提示词设计摘要总结需求的第二prompt模板,基于检索语句、预处理后的检索数据集和第二prompt模板调用大语言模型对预处理后的检索数据集进行摘要总结;
对生成的摘要进行精简编辑、准确性及完整性检查和语言流畅性调整,最终得到高质量的增强语料数据。
优选地,所述对预处理后的检索数据集进行关键词提取,包括:
对预处理后的检索数据集中的文本进行分词并构建图,图中每个节点为一个有效词,并在一个固定窗口大小内,建立共现单词之间的无向边;
通过TextRank算法计算图中的节点权重,根据节点权重对文本中的词的重要性进行排序,根据排序选取重要性高的节点作为文本中的关键词。
为实现上述发明目的,本发明实施例还提供了一种基于大语言模型的数据增强装置,包括:数据准备模块、检索增强模块、数据采集模块和摘要总结模块;
所述数据准备模块用于获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;
所述检索增强模块用于以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;
所述数据采集模块用于将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;
所述摘要总结模块用于将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
与现有技术相比,本发明具有的有益效果至少包括:
本发明通过将数据增强技术与大语言模型相结合,以原始语料中筛选出的种子实体和对应的上下文信息为基础,基于大语言模型在检索增强和摘要总结方面的优势,通过网页检索进一步扩充数据语义空间,最后将检索结果进行摘要总结得到高质量的摘要文本,整体实现高质量地对原始语料进行自动化补充和扩展,实现更加高效和准确的数据增强,为人工智能的发展注入新的动力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于大语言模型的数据增强方法的流程示意图;
图2是本发明实施例提供的原始语料数据筛选方法示意图;
图3是本发明实施例提供的网页数据采集过程示意图;
图4是本发明实施例提供的网页内容提取伪代码示意图;
图5是本发明实施例提供的大语言模型摘要总结生成方法示意图;
图6是本发明实施例提供的基于大语言模型的数据增强装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明的发明构思为:针对现有技术中数据增强方法带来的知识相关性差、语义逻辑不连贯以及容易过拟合等问题,本发明实施例提供了一种基于大语言模型的数据增强方法和装置,首先从原始语料数据中筛选出给定种子实体的上下文信息,以种子实体和对应的上下文信息为基础通过大语言模型生成检索增强语句,然后将检索语句输入搜索引擎并解析返回网页得到检索数据集,最后利用大语言模型对检索语句和检索数据集进行摘要总结以获得增强后的语料数据,整体实现高质量地对原始语料进行自动化补充和扩展。
图1是本发明实施例提供的基于大语言模型的数据增强方法的流程示意图。如图1所示,实施例提供了一种基于大语言模型的数据增强方法,包括以下步骤:
S1,获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据。
S1.1,原始语料数据采集。
数据增强通常来讲是基于样本数据的有监督指导学习过程,其中样本数据的选取是后续所有增强方式的基础,好的样本数据应具有如下特性:
代表性:样本数据能代表总体的特征,即样本中的个体应符合总体的规定;
可靠性:样本数据应具有可重复性,以确保实验的结果稳定性和可信度;
客观性:样本的选择过程应排除主观因素的影响,确保样本数据的公正性;
多样性:样本数据应包含足够多的单位,以及这些单位之间存在的差异,以代表总体数据的本质和规律特征。
实施例中,为了满足上述条件,以面向科学领域的垂直大模型需要的预训练语料数据为例,原始语料应覆盖常见主题的科技文献,如书籍、论文、专利和百科等,需要挑选足够多而广的原始语料数据,且定义每一种主题语料的影响因子以表明数据的客观公正性和权威性(如用于教材的学科书籍的影响因子应该高于来源于网络的百科数据),如表1所示。
表1 原始语料数据组成
S1.2,原始语料数据筛选。
从原始语料数据中筛选中高质量的样本数据,如图2所示,获得种子实体及其对应的上下文片段信息。
首先,种子实体包括两个层级。第一层级是领域知识体系,其综合概述了当前领域的整体知识结构,包括行业顶层设计或全景知识图谱,如以地质学为例,领域知识体系覆盖了地质学所有下级学科(如矿物学、岩石学、沉积学等),以及和地质学相关的学科(如大气物理、地球化学等)和知识点。第二层级是专家标注数据,包括领域细化的专业术语或关键词,这通常是行业专家在多年实践中总结出来的先验经验,数据来源人为标注和审核,比如地质学领域需要的勘探方法、研究的地球物质组成、物质特征和历史演变等。
其次,在进行实体筛查时,还包括在原始语料数据的基础上增加开源知识图谱作为数据源补充,进一步获得实体在语义空间上的扩展。实施例中,开源知识图谱采用DBPedia。知识图谱不仅有助于扩充实体的数量,还能加强样本数据内在的逻辑关联性,从而提升最终数据增强的效果。结合种子实体和开源知识图谱对原始语料数据进行实体筛查,以获得实体在语义空间上扩展的上下文片段数据。
最后,实体筛查是对种子实体的信息召回和相关性评价的过程。将种子实体与所有原始语料数据进行内容匹配,并截取原始语料数据的文档中含有种子实体内容的段落或语句作为上下文片段。上下文片段的相关性评价打分评估规则为:上下文片段分值=种子实体PageRank分*种子实体频率*log(文档总数/包含种子实体的文档数)*语料影响因子。其中,种子实体PageRank分为基于DBPedia网络计算得到,其范围为1~10,分值越高表名实体在知识图谱中的重要性越大,如果在DBPedia中无法查到对应的实体则默认该实体的PageRank分值为1;种子实体频率=种子实体在文档中出现的次数/文档中的总词数;语料影响因子如表1所示为根据不同原始语料数据预先设定的值。选取相关性高的上下文片段作为实体筛查最终得到的上下文片段数据。
该打分规则的核心思想是,当一个种子实体出现在文档中的频率越高,同时它在其它文档中较少出现时,则表明该种子实体对于文档的重要性较高。该方法综合考虑种子实体自身权重和在原始语料数据中的分布特征,具有样本代表性和可靠性。上下文片段的分值越高代表与种子实体的关联性越强,其分值的高低也为模型训练使用数据提供了权重参考。
S2,以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句。
由于种子实体及上下文片段数据在原始语料中是有限的,而用户的检索信息具有多样性和不确定性,原始的语料库难以满足检索关键词的匹配要求。通过大语言模型检索增强的引用,不仅能够利用现有语料库的知识,还可以动态地从外部数据源中检索相关信息,扩充现有语料相关知识的不足,尤其是开放领域的问答、事实阐述、逻辑推理等。大语言模型基于Transformer架构能够更好地理解实体与上下文的语义信息,使用内部和外部的知识库来补充实体以及上下文缺失的信息,同时将实体与相关的概念、定义进行关联。
实施例中,例如下面这段内容包含种子实体和上下文片段,经过大语言模型的理解,会将“GLL期”与“BX项目”、“地质时代”、“全新世”进行关联,同时理解“GLL期”是个地质时间、它的时间周期、属于哪个地质时代、名字来源等信息:
(1)种子实体:GLL期;
(2)上下文片段:在地质时间尺度上,BGLPJ是全新世或系列的三个时代或阶段的中间之一。它与早期的GLL期和晚期的MJLY期/阶段一起于Y1年M月获得DC委员会的正式批准。该年龄的名字来源于BX项目。该时代开始于距今Y2 年(公元前Y3年或公元Y4年),接近N1公里年事件,并上升至MJLYH的起点,开始于距今Y5 年(公元前Y6年或公元Y7年),接近N2公里年事件。
基于种子实体和上下文片段数据设计检索语句生成需求的第一prompt模板,大语言模型根据种子实体、上下文片段和第一prompt模板自回归地输出问题,大语言模型在生成每个词时均会考虑前面已生成的词汇,确保语言的连贯性和逻辑性,最后进行校对,在之前生成的初稿基础上优化问题的表达,确保逻辑无误、语法准确。经检索增强生成,最终得到大语言模型生成的扩展后的用于进行后续网页查询的检索语句。
根据上述种子实体和上下文片段的示例,大语言模型生成类似的5个检索语句如下:
(1)GLL期是在哪一年被DC委员会正式批准为地质时代的一部分;
(2)GLL期与哪两个地质时代或阶段相邻,并构成全新世的三个时代之一;
(3)BX项目与GLL期有何关联;
(4)GLL期的开始和结束年份分别对应哪些重要的地质事件;
(5)GLL期的地质时间范围是如何与公元前后的年份对应的。
通过大模型生成的检索语句具有如下优势:解决种子实体文本较短,语义信息缺乏,检索向量化效果较差的问题;解决文档段落没有语义重心,会引入错误的种子实体导致召回率差的问题。
S3,将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集。
通过大语言模型构造的检索语句,在公开搜索引擎上进行网页数据采集,其过程如图3所示,包含API调用、TopN快照获取和内容解析三个子阶段。
S3.1,调用搜索引擎API接口,将步骤S2中得到的增强的检索语句作为输入,进行网页信息查询。实施例中,采用google搜索引擎,如输入示例问题“BX项目与GLL期有何关联”,则返回相应的网页信息查询结果。需要注意的是,受限于搜索引擎的输入要求,检索语句不应太长。
S3.2,得到返回的网页快照链接,并截取前TopN个快照链接作为网页数据的采集源。实施例中,N=20。
S3.3,对TopN个快照链接编写解析程序进行网页数据提取,得到网页结构化数据,将提取得到的网页结构化数据构建检索数据集。解析程序伪代码如图4所示。
S4,将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
大语言模型文本摘要技术适用于处理科学研究报告或专业文档数据,将步骤S3得到的检索数据集及步骤S2得到的检索语句作为输入,按照如图5所示的流程处理得到高质量的摘要总结文本。
S4.1,预处理。
预处理主要包括数据清洗和格式标准化,其中数据清洗需要去除无关信息,如特殊字符、错误的断行、多余的空格等;格式标准化是对文本中的语种、字词进行统一处理,如英文大写转小写、中文繁体转简体等,预处理可以去掉数据中的噪音,为大幅度提升语料的质量和生产效率提供帮助。
S4.2,关键词提取。
在关键词提取过程中,对预处理后的检索数据集中的文本进行分词并构建图。图中每个节点为一个有效词,并在一个固定窗口大小内,建立共现单词之间的无向边。然后通过TextRank算法计算图中的节点权重,根据节点权重对文本中的词的重要性进行排序,根据排序选取重要性高的节点作为文本中的关键词。这样仅利用单篇文档本身的信息即可实现关键词的提取,而无需事先进行学习训练。
为确保提取的准确性和相关性,对该步骤进行人工抽样审核,以检查提取的关键词是否确实反映了检索数据集的核心主题和重要信息,并根据专业知识及报告的具体内容调整关键词列表,排除不相关或误导性的词汇。
S4.3,摘要生成。
将提取的关键词进行同义词和相关词的扩展,以便捕捉检索数据集中的不同语言表达,确保摘要能够覆盖数据的多样性。接着,将关键词组合成具有描述力的短语或句式作为提示词。短语反映了关键词在文本中的具体用法和上下文环境。此外,将关键词或短语转换成问句形式,如“什么是[关键词]?”或“[关键词]如何影响...?”。这种问句形式有助于聚焦文本中的重要议题,引导摘要更加针对性地回应文本的核心问题。
在生成提示词后,通过设计摘要总结需求的第二prompt模板,基于检索语句、预处理后的检索数据集和第二prompt模板调用大语言模型对预处理后的检索数据集进行摘要总结,得到增强的语料数据。其中关键词不仅作为捕捉文本要点的工具,而且转化为具体的提示词,进一步引导摘要的撰写。这样的处理不仅提高了摘要的聚焦性和相关性,还有助于快速生成信息丰富且精确的文本摘要,有效提升文档处理的效率和质量。
S4.4,后处理及优化。
后处理及优化是对大模型生成的摘要进行质量提升的过程,包括精简编辑、准确性和完整性的人工抽查,以及流畅性的调整。对生成的摘要进行精简和编辑,去除任何冗余表达以确保摘要内容的简洁性和相关性。人工抽查检测摘要是否准确反映了原文的主旨,以确保摘要中没有误导性的信息或错误解释,维护信息的真实性和可靠性。此外,还需要检查摘要是否涵盖了所有重要的关键词和提示词,确保没有遗漏关键内容。最后,对摘要的表达进行调整,以提高语言的自然流畅性,使其更加易于阅读和理解,这包括调整语法结构,以及优化词汇使用,确保摘要语言的连贯性和逻辑性。
迭代环节是这一流程的关键部分,它允许多次修改和优化摘要。在每次迭代中,根据反馈调整和改进摘要,直到达到预期的质量标准。这不仅增加了处理深度,也提高了最终产出的精准度和实用性。
通过综合性的后处理和优化过程,能够有效提升文本摘要的质量,确保其成为一个准确、全面且易于理解的文本概述,以满足生成高质量的增强语料数据。
综上,一种基于大语言模型的数据增强方法,通过将数据增强技术与大语言模型相结合,为数据增强领域开辟了一条新的技术思路。基于大语言模型在检索增强和摘要总结方面的先天优势,能够高质量地对原始语料数据进行自动化补充和扩展,具有良好的创新性和市场适用性。
基于同样的发明构思,如图6所示,本发明实施例还提供了一种基于大语言模型的数据增强装置600,包括:数据准备模块610、检索增强模块620、数据采集模块630和摘要总结模块640。
其中,数据准备模块610用于获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;
检索增强模块620用于以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;
数据采集模块630用于将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;
摘要总结模块640用于将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
需要说明的是,上述实施例提供的基于大语言模型的数据增强装置与基于大语言模型的数据增强方法属于同一发明构思,其具体实现过程详见基于大语言模型的数据增强方法实施例,这里不再赘述。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大语言模型的数据增强方法,其特征在于,包括以下步骤:
获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;
以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;
将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;
将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
2.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,所述种子实体包括两个层级,第一层级是领域知识体系,其综合概述了当前领域的整体知识结构,包括行业顶层设计或全景知识图谱,第二层级是专家标注数据,其为专家依据多年实践的总结,包括领域细化的专业术语或关键词。
3.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,在进行实体筛查时,还包括增加开源知识图谱作为数据源补充,结合种子实体和开源知识图谱对原始语料数据进行实体筛查,以获得实体在语义空间上扩展的上下文片段数据。
4.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,实体筛查是对种子实体的信息召回和相关性评价的过程,包括:
将种子实体与所有原始语料数据进行内容匹配,并截取原始语料数据的文档中含有种子实体内容的段落或语句作为上下文片段;
对种子实体及其对应的上下文片段进行相关性评价,根据相关性评价的打分评估结果判断种子实体与其对应上下文片段的相关性,选取相关性高的上下文片段作为实体筛查最终得到的上下文片段数据。
5.根据权利要求4所述的基于大语言模型的数据增强方法,其特征在于,相关性评价的打分评估规则为:上下文片段分值=种子实体PageRank分*种子实体频率*log(文档总数/包含种子实体的文档数)*语料影响因子,其中种子实体PageRank分为基于DBPedia网络计算得到,种子实体频率=种子实体在文档中出现的次数/文档中的总词数,语料影响因子为根据不同原始语料数据预先设定的值,计算出的上下文片段分值即为相关性评价的打分评估结果。
6.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,所述以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句,包括:
基于种子实体和上下文片段数据设计检索语句生成需求的第一prompt模板,大语言模型根据种子实体、上下文片段和第一prompt模板自回归地输出问题,大语言模型在生成每个词时均会考虑前面已生成的词汇,确保语言的连贯性和逻辑性,最后进行校对,在之前生成的初稿基础上优化问题的表达,确保逻辑无误、语法准确,从而完成检索增强生成,最终得到大语言模型生成的扩展后的用于进行后续网页查询的检索语句。
7.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,所述将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集,包括:
调用搜索引擎的API接口,将大语言模型生成的检索语句作为输入,进行网页信息查询;
根据网页信息查询结果,得到返回的网页快照链接,并截取前TopN个快照链接作为网页数据的采集源;
对TopN个快照链接编写解析程序进行网页数据提取,将提取得到的网页数据构建检索数据集。
8.根据权利要求1所述的基于大语言模型的数据增强方法,其特征在于,所述将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据,包括:
对检索数据集进行预处理,预处理包括数据清洗和格式标准化;
对预处理后的检索数据集进行关键词提取;
将提取的关键词进行同义词和相关词的扩展,将扩展前后的关键词转化为短语或句式形式的提示词,基于提示词设计摘要总结需求的第二prompt模板,基于检索语句、预处理后的检索数据集和第二prompt模板调用大语言模型对预处理后的检索数据集进行摘要总结;
对生成的摘要进行精简编辑、准确性及完整性检查和语言流畅性调整,最终得到高质量的增强语料数据。
9.根据权利要求8所述的基于大语言模型的数据增强方法,其特征在于,所述对预处理后的检索数据集进行关键词提取,包括:
对预处理后的检索数据集中的文本进行分词并构建图,图中每个节点为一个有效词,并在一个固定窗口大小内,建立共现单词之间的无向边;
通过TextRank算法计算图中的节点权重,根据节点权重对文本中的词的重要性进行排序,根据排序选取重要性高的节点作为文本中的关键词。
10.一种基于大语言模型的数据增强装置,其特征在于,包括:数据准备模块、检索增强模块、数据采集模块和摘要总结模块;
所述数据准备模块用于获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;
所述检索增强模块用于以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;
所述数据采集模块用于将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;
所述摘要总结模块用于将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。
CN202410710728.7A 2024-06-04 2024-06-04 基于大语言模型的数据增强方法和装置 Active CN118277645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410710728.7A CN118277645B (zh) 2024-06-04 2024-06-04 基于大语言模型的数据增强方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410710728.7A CN118277645B (zh) 2024-06-04 2024-06-04 基于大语言模型的数据增强方法和装置

Publications (2)

Publication Number Publication Date
CN118277645A true CN118277645A (zh) 2024-07-02
CN118277645B CN118277645B (zh) 2024-08-09

Family

ID=91634469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410710728.7A Active CN118277645B (zh) 2024-06-04 2024-06-04 基于大语言模型的数据增强方法和装置

Country Status (1)

Country Link
CN (1) CN118277645B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008085857A2 (en) * 2007-01-04 2008-07-17 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
US20120078895A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Source expansion for information retrieval and information extraction
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN114626368A (zh) * 2022-03-18 2022-06-14 中国电子科技集团公司第十研究所 一种垂直领域规则常识知识获取方法及系统
CN115146021A (zh) * 2021-03-30 2022-10-04 北京三快在线科技有限公司 文本检索匹配模型的训练方法、装置、电子设备及介质
CN117453851A (zh) * 2023-12-20 2024-01-26 苏州体素信息科技有限公司 基于知识图谱的文本索引增强问答方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008085857A2 (en) * 2007-01-04 2008-07-17 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
US20120078895A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Source expansion for information retrieval and information extraction
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN115146021A (zh) * 2021-03-30 2022-10-04 北京三快在线科技有限公司 文本检索匹配模型的训练方法、装置、电子设备及介质
CN114626368A (zh) * 2022-03-18 2022-06-14 中国电子科技集团公司第十研究所 一种垂直领域规则常识知识获取方法及系统
CN117453851A (zh) * 2023-12-20 2024-01-26 苏州体素信息科技有限公司 基于知识图谱的文本索引增强问答方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余丽;陆锋;刘希亮;: "开放式地理实体关系抽取的Bootstrapping方法", 测绘学报, no. 05, 15 May 2016 (2016-05-15) *
陈林;杨丹;赵俊芹;: "基于语义理解的智能搜索引擎研究", 计算机科学, no. 06, 25 June 2008 (2008-06-25) *

Also Published As

Publication number Publication date
CN118277645B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
Saad et al. Osac: Open source arabic corpora
CN102253930B (zh) 一种文本翻译的方法及装置
US20030195872A1 (en) Web-based information content analyzer and information dimension dictionary
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
CN111984782B (zh) 藏文文本摘要生成方法和系统
Baykara et al. Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
Kessler et al. Extraction of terminology in the field of construction
Shah et al. Automated population of cyc: Extracting information about namedentities from the web
CN118277645B (zh) 基于大语言模型的数据增强方法和装置
CN106776590A (zh) 一种获取词条译文的方法及系统
You Automatic summarization and keyword extraction from web page or text file
Wang et al. Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics.
CN115619443A (zh) 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS
CN118349635B (zh) 一种机构名称校对方法、装置、设备、介质及程序产品
Narita Constructing a Tagged EJ Parallel Corpus for Assisting Japanese Software Engineers in Writing English Abstracts.
Anjum et al. Automatic Simplification of Scientific Texts using Pre-trained Language Models: A Comparative Study at CLEF Symposium 2023.
CN117407511B (zh) 一种基于Bert模型的电力安全规程智能问答方法及系统
CN117236319B (zh) 一种基于Transformer生成模型的真实场景中文文本纠错方法
Moss et al. Digitizing a 19th-century music theory debate for computational analysis
Hosoda Hawaiian morphemes: Identification, usage, and application in information retrieval
Mikušová SEMI-AUTOMATED METHODS OF DIRECT ANGLICISM IDENTIFICATION IN FINNISH CORPORA
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
Politsyna et al. Solving practical tasks of computer linguistics using the created text processing framework

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant