CN117494761A - 信息处理及模型训练方法、装置、设备、介质、程序产品 - Google Patents

信息处理及模型训练方法、装置、设备、介质、程序产品 Download PDF

Info

Publication number
CN117494761A
CN117494761A CN202311525097.3A CN202311525097A CN117494761A CN 117494761 A CN117494761 A CN 117494761A CN 202311525097 A CN202311525097 A CN 202311525097A CN 117494761 A CN117494761 A CN 117494761A
Authority
CN
China
Prior art keywords
data
information processing
model
trained
augmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311525097.3A
Other languages
English (en)
Inventor
代勇
杜楠
周聪
程鹏宇
曾趸
陈万顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311525097.3A priority Critical patent/CN117494761A/zh
Publication of CN117494761A publication Critical patent/CN117494761A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种信息处理及模型训练方法、装置、设备、介质、程序产品,至少应用于人工智能领域,其中,信息处理方法包括:对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据;数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的增广数据;对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集;以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。通过本申请,能够节约样本数据生成过程中的计算资源,并提高所生成的样本数据的准确性,从而提高模型训练的精度。

Description

信息处理及模型训练方法、装置、设备、介质、程序产品
技术领域
本申请实施例涉及互联网领域,涉及但不限于一种信息处理及模型训练方法、装置、设备、介质、程序产品。
背景技术
在机器学习和深度学习领域中,数据是训练模型的关键因素之一。然而,制造足够数量的标注数据的成本往往是非常高昂的,并且需要耗费大量的时间和人力。为了解决这个问题,相关技术中,通常利用已有的带标签和不带标签的数据,通过基于生成模型的方法、基于变换的方法、基于噪声的方法、以及基于迁移学习的方法来增加样本数据的数量。
但是,基于生成模型的方法需要大量的计算资源和时间,且可能会受到模型训练数据的限制;基于变换的方法则会产生一些不自然或不符合语法规则的样本数据;基于噪声的方法也会产生一些不准确或不自然的样本数据;基于迁移学习的方法需要大量的计算资源和时间。
然而,对于所生成的不自然或不符合语法规则的样本数据,则不得不在生成样本数据之后通过其他途径来进行进一步的修改和标注,以此来得到符合要求的样本数据。显然,这对样本数据生成的资源(包括后台服务器的计算资源和通信资源)都是巨大的浪费。由此可见,相关技术中的方法均存在计算资源消耗大,且生成的样本数据不准确的问题。那么,基于该样本数据对待训练模型进行训练的话,则会降低模型训练的精度。
发明内容
本申请实施例提供一种信息处理及模型训练方法、装置、设备、介质、程序产品,至少能够应用于人工智能领域中,能够节约样本数据生成过程中的计算资源,并提高所生成的样本数据的准确性,从而提高信息处理模型训练的精度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息处理方法,包括:对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集;以所述增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;采用所述训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
本申请实施例提供一种信息处理模型训练方法,所述方法包括:获取样本数据;其中,所述样本数据是对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据后,对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;所述样本数据中至少包括训练样本集;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;将所述训练样本集中的训练样本输入至待训练信息处理模型中,通过所述待训练信息处理模型对所述训练样本进行预测,得到预测结果;将所述预测结果和所述训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;基于所述损失计算结果对所述待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
本申请实施例提供一种信息处理装置,包括:映射模块,用于对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;数据融合模块,用于对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集;第一模型训练模块,用于以所述增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;信息处理模块,用于采用所述训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
在一些实施例中,所述交互式生成方式包括至少一次交互式生成的过程;所述映射模块还用于:调用预先训练的信息生成模型,对所述原始数据集中的原始数据进行至少一次交互式生成,并通过所述信息生成模型输出所述增广数据。
在一些实施例中,所述映射模块还用于:将所述原始数据输入至预先训练的信息生成模型,并通过所述信息生成模型进行至少一次以下交互式生成过程:在第N次交互式生成时,对所述原始数据进行数据映射,得到映射数据;N为大于0的整数;其中,在第一次交互式生成时,所述原始数据为所述原始数据集中的原始数据;在第K次交互式生成时,所述原始数据为第K-1次交互式生成时得到的映射函数,K为大于1且小于等于N的整数;采用预设的多维评估模板对所述映射数据进行多维评估,得到多维评估分;如果所述多维评估分小于预设评估分阈值,将所述映射数据和所述多维评估分输入至所述信息生成模型中,并通过所述信息生成模型基于所述多维评估分对所述映射数据进行下一次交互式生成;如果所述多维评估分大于或等于所述预设评估分阈值,将所述第N次交互式生成得到的映射数据确定为所述增广数据。
在一些实施例中,所述映射模块还用于:采用预设的多维评估模板对所述映射数据进行多维评估,得到每一评估维度下的评估分;获取所述待训练信息处理模型对应的信息处理业务标识;从预设的评估参数库中获取与所述信息处理业务标识对应的评估权重;所述评估权重包括每一所述评估维度下的评估子权重;基于每一所述评估维度下的评估子权重,对多个评估维度下的评估分进行加权计算,得到所述多维评估分。
在一些实施例中,所述映射模块还用于:基于所述多维评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;通过具有所述调整后的模型参数的信息生成模型对所述映射数据进行下一次交互式生成。
在一些实施例中,所述装置还包括:自评估模块,用于如果所述多维评估分大于或等于所述预设评估分阈值,在将所述第N次交互式生成得到的映射数据确定为所述增广数据之前,采用预设的自评估模板,在自然语言维度下对所述映射数据进行自评估,得到自评估分;如果所述自评估分大于或等于预设的自评估分阈值,则将所述第N次交互式生成得到的映射数据确定为所述增广数据;如果所述自评估分小于所述自评估分阈值,则基于所述自评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;并通过具有所述调整后的模型参数的信息生成模型对所述第N次交互式生成得到的映射数据进行下一次交互式生成。
在一些实施例中,所述数据融合模块还用于:采用每一所述原始数据与对应的所述增广数据构建问答对;将全部问答对添加至所述原始数据集中,得到所述增广数据集。
在一些实施例中,所述装置还包括:增广数据集处理模块,用于对所述增广数据集执行以下至少一种处理:对所述增广数据集中的每一数据进行数据质量分析,得到质量分析结果;并将质量分析结果小于预设质量阈值的数据从所述增广数据集中删除;确定所述增广数据集中的每一数据与所述待训练信息处理模型对应的信息处理业务之间的相关度;并将相关度小于相关度阈值的数据从所述增广数据集中删除;确定所述增广数据集中的重复数据,并删除所述重复数据。
在一些实施例中,所述装置还包括:数据集划分模块,用于将所述增广数据集划分为训练集、验证集和测试集;其中,所述训练集用于对所述待训练信息处理模型进行预训练,得到预训练后的信息处理模型;所述验证集用于对所述预训练后的信息处理模型进行性能评估,并基于性能评估结果对所述预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型;所述测试集用于对所述修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将所述修正后的信息处理模型作为所述训练后的信息处理模型,应用于对所述待处理信息的信息处理。
在一些实施例中,所述装置还包括:训练集划分模块,用于将所述训练集划分为多个子训练集;发送模块,用于将所述多个子训练集分别发送至不同的分布式节点,通过所述分布式节点基于所述子训练集对所述待训练信息处理模型进行分布式训练,得到各个分布式节点对应的分布式训练后的信息处理模型;训练结果融合模块,用于对各个分布式节点得到的所述分布式训练后的信息处理模型进行训练结果融合,得到所述预训练后的信息处理模型。
本申请实施例提供一种信息处理模型训练装置,所述装置包括:样本数据获取模块,用于获取样本数据;其中,所述样本数据是对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据后,对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;所述样本数据中至少包括训练样本集;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;第二模型训练模块,用于将所述训练样本集中的训练样本输入至待训练信息处理模型中,通过所述待训练信息处理模型对所述训练样本进行预测,得到预测结果;将所述预测结果和所述训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;基于所述损失计算结果对所述待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
本申请实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的信息处理方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括可执行指令,可执行指令存储在计算机可读存储介质中;其中,电子设备的处理器从计算机可读存储介质中读取可执行指令,并执行可执行指令时,实现上述的信息处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的信息处理方法。
本申请实施例具有以下有益效果:一方面,在生成待训练信息处理模型的样本数据时,是对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据,并将原始数据集中的原始数据和对应的增广数据进行数据融合处理,以融合后的增广数据集为样本数据。如此,该样本数据中既包括原始数据集中的原始数据,还包括基于原始数据所生成的增广数据,该增广数据是基于原始数据进行数据增广映射后得到的数据,整个映射过程可以在获取到原始数据集之后自动化进行,映射过程效率较高,且无需其他计算资源即可实现,因此,能够节约样本数据生成过程中的计算资源;并且,基于原始数据集中的原始数据来生成增广数据,所生成的增广数据的准确性较高,从而可以提高样本数据的准确性。另一方面,在生成样本数据之后,会基于该准确的样本数据对待训练信息处理模型进行训练,从而能够提高模型训练的精度。
附图说明
图1是本申请实施例提供的信息处理系统的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的信息处理方法的一个可选的流程示意图;
图4是本申请实施例提供的信息处理方法的另一个可选的流程示意图;
图5是本申请实施例提供的对原始数据进行交互式生成的实现流程示意图;
图6是本申请实施例提供的信息处理模型训练方法的流程示意图;
图7是本申请实施例提供的在扩充数据集上训练模型的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例提供的信息处理方法进行说明之前,首先对本申请实施例中涉及的专业术语进行说明:
(1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
(2)预训练大模型:是指在大规模文本语料库上进行预训练的语言模型,如BERT、GPT-2等。这些模型通常采用自监督学习方法,在大量未标记的文本数据上进行训练,以学习文本中的语言结构和语义信息。这些模型具有强大的表征能力,可以应用于各种自然语言处理任务,如文本分类、序列标注、机器翻译等。同时,预训练大模型还可以通过微调等技术来适应特定任务的需求,从而实现更好的性能。而本申请实施例中所指的大模型还包括以下特点,一是模型参数更多,模型更大,一般是1B参数及以上;二是具有zero-shot能力,即训练的时候已经加入了足够多的跟任务相关提示(prompt)进行训练,能够对较多的任务进行zero-shot的测试,生成数据。比如现在常用的大模型包括GPT3,混元大模型,GPT4等。
(3)数据扩充(data argumentation):是一种数据增强技术,通过对原始数据进行变换和扩充,生成新的样本数据,以增加训练数据的多样性和数量,从而提高模型的泛化性能。常见的方法包括基于生成模型的方法、基于变换的方法、基于噪声的方法、基于迁移学习的方法等。
相关技术中,基于生成模型的方法会使用生成模型(如语言模型、神经机器翻译模型等)生成新的样本,在自然语言处理(NLP,Natural Language Processing)领域,这些方法可以用于生成文本数据,如生成对话、生成故事。这种方法可以生成高质量的样本,但是需要大量的计算资源和时间,并且可能会收到模型训练数据的限制。
基于变换的方法会使用一些变换操作,通常通过对原始数据进行转换来生成新的数据,如对文本进行替换、删除或增加。在NLP领域,该方法可以用于数据增强,如对文本进行同义词替换、随机插入或删除单词等。这种方法简单易实现,但是可能会产生一些不自然或不符合语法规则的样本。
基于噪声的方法会通过对原始数据添加噪声(如拼写错误、错别字、语法错误等)来生成新的样本,如对文本添加随机单词或噪声。这种方法可以扩充数据集的多样性,但是可能会产生一些不准确或不自然的样本。
基于迁移学习的方法会使用预训练模型(如BERT、GPT等)进行微调,从而生成新的样本,即使用已经训练好的模型来进行迁移学习,从而加速训练和提高性能。在NLP领域,这些方法可以用于将已有的模型应用于新的任务,如基于预训练的模型进行微调。这种方法可以利用大规模的预训练数据和模型,快速生成高质量的样本,但是需要大量的计算资源和时间。由此可见,相关技术中的这些数据扩充方法各有优缺点,需要根据具体任务和数据集特点进行选择。同时,需要注意,扩充的数据质量和多样性对于模型的影响可能因任务而异。
基于相关技术中所存在的问题,本申请实施例提供一种信息处理方法及信息处理模型训练方法,该信息处理方法是一种基于NLP数据扩充方法得到扩充后的训练样本,并基于训练样本对待训练信息处理模型进行训练的方法。其中,在对样本数据进行扩充时,可以使用预训练大模型技术或者大型预训练模型产品实现数据扩充,即生成增广数据。
为了便于理解,这里首先对预训练大模型技术进行说明。
预训练大模型的出现改变了很多的NLP任务。预训练大模型可以是一个基于Transformer模型的人工智能对话系统。首先,预训练大模型是一种大规模语言模型,是一个具有数十亿个参数的大规模语言模型,可以生成高质量、流畅的自然语言文本。其次,预训练大模型可以进行零样本学习,即在没有特定领域的训练数据的情况下,也能够生成符合特定领域的语言。这是因为预训练大模型已经在大规模语料库上进行了训练,并且可以从中学习到通用的语言知识。最后,预训练大模型可以根据对话上下文进行响应生成,具有一定的上下文感知能力。预训练大模型将带来至少以下的改变:
1)对话系统体验的提升:预训练大模型作为一种新型的对话系统,可以提供更加自然流畅的对话体验,减少用户与机器人之间的沟通障碍。2)语言生成应用的拓展:预训练大模型可以应用于各种语言生成任务,如文本摘要、机器翻译、自动写作等。3)语言技术的进步:预训练大模型的出现推动了自然语言处理技术的进步,使得人工智能在语言领域的应用更加广泛和深入。
本申请实施例将以预训练大模型中的混元大模型为例子,阐述如何利用大型预训练模型来进行数据扩充,希望同时具有基于生成模型的方法、基于变换的方法、基于噪声的方法、基于迁移学习的方法各自的优势,在以下方面带来提升:1)数据量增加:使用混元大模型生成的文本可以大大增加NLP任务的训练数据量,提高模型的泛化能力和准确性。2)数据多样性:使用混元大模型生成的文本可以增加数据的多样性,包括不同的语言表达、语法结构和语境等,从而更好地覆盖真实世界中的不同情况。3)数据质量提高:使用混元大模型生成的文本可以更好地覆盖真实世界中的不同情况,从而提高数据的质量和覆盖面。4)任务效果提高:使用混元大模型生成的文本可以帮助NLP任务更好地处理复杂的语言任务,例如生成文本、机器翻译、文本分类、情感分析等。总之,使用混元大模型生成的文本来扩充NLP数据可以提高模型的性能和鲁棒性,从而在各种NLP任务中提高准确性和效率。为了达到以上目的,本申请实施例提出了两种基于混元大模型的数据扩充方法:一种是基于完备提示的扩充方法,另外一种基于交互的扩充方法。基于完备提示的方法通过把人类的需求蕴含和设计到提示中,然后让混元大模型一次性的生成需要的数据。而基于交互的扩充方法是利用混元大模型多轮对话的能力,将样本生成的需求以交互的方法告诉混元大模型,然后让混元大模型最终生成想要的数据。生成数据以后,便能方便的利用已扩充的数据训练特定的下游模型,以较小成本完成下游任务带来性能提升。
与相关技术中的基于生成模型的方法相比,预训练大模型也可以生成新的文本数据,但它是基于序列模型的,能够生成更连贯的文本,并且可以通过控制生成的文本风格、主题等来满足特定的需求。与相关技术中的基于变换的方法相比,预训练大模型不涉及对原始数据进行直接变换,而是通过学习语言模型来生成新的文本数据。与相关技术中的基于噪声的方法相比,预训练大模型不需要向原始数据添加噪声,因为它已经通过预训练学习了自然语言的规律和模式,可以直接生成新的文本数据。与相关技术中的基于迁移学习的方法相比,预训练大模型本身就是一种预训练的模型,可以直接用于各种NLP任务,也可以通过微调来进一步提高性能。
综上所述,预训练大模型在NLP领域中具有独特的优势,能够生成连贯、高质量的文本数据,并且可以通过控制生成的文本风格、主题等来满足特定的需求。与其他数据方法相比,预训练大模型不需要对原始数据进行直接改变或添加噪声,因为它已经通过预训练学习了自然语言的规律和模式,能够直接生成新的文本数据。此外,预训练大模型本身就是一种预训练的模型,可以直接用于各种NLP任务,并且可以通过微调来进一步提高性能。最后通过扩充的数据进行训练特定的下游模型,以较低成本的满足下游子任务的需求,降低成本的同时提高性能。
具体来说,本申请实施例提供的信息处理方法中,首先,对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据;数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的所述增广数据;然后,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集;再然后,以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;最后,采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。如此,能够节约样本数据生成过程中的计算资源,并提高所生成的样本数据的准确性,从而提高模型训练的精度。
另外,本申请实施例提供的信息处理模型训练方法中,首先,获取样本数据;其中,样本数据是对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据后,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,所得到的增广数据集;样本数据中至少包括训练样本集;数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的所述增广数据;然后,将训练样本集中的训练样本输入至待训练信息处理模型中,通过待训练信息处理模型对训练样本进行预测,得到预测结果;再然后,将预测结果和训练样本集中与训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;最后,基于损失计算结果对待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。本申请实施例中,由于在生成样本数据之后,会基于该准确的样本数据对待训练信息处理模型进行训练,从而能够提高模型训练的精度。
这里,首先说明本申请实施例的信息处理设备的示例性应用,该信息处理设备是用于实现信息处理方法的电子设备。在一种实现方式中,本申请实施例提供的信息处理设备(即电子设备)可以实施为终端,也可以实施为服务器。在一种实现方式中,本申请实施例提供的信息处理设备可以实施为笔记本电脑,平板电脑,台式计算机,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能机器人,智能家电和智能车载设备等任意的具备数据处理功能的终端;在另一种实现方式中,本申请实施例提供的信息处理设备还可以实施为服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。下面,将说明信息处理设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的信息处理系统的一个可选的架构示意图,为实现对待训练信息处理模型进行准确的训练,可以提供一样本数据构建平台,可以在该平台上构建样本数据。本申请实施例的信息处理系统10中至少包括终端100、网络200和服务器300,终端100上部署或者运行有该样本数据构建平台,其中服务器300是样本数据构建平台的后台处理服务器。服务器300可以构成本申请实施例的信息处理设备,即通过服务器300实现本申请实施例的信息处理方法。终端100通过网络200连接服务器300,网络200可以是广域网或者局域网,又或者是二者的组合。
参见图1,在生成样本数据时,用户可以通过终端100在样本数据构建平台的客户端执行交互操作,该交互操作例如可以是原始数据集的选择操作、原始数据集的导入操作、样本数据的构建请求操作等。客户端在接收到用户的交互操作之后,可以生成样本数据构建请求,并通过终端100将样本数据构建请求发送给服务器300。服务器300在接收到样本数据构建请求时,响应于样本数据构建请求,对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据;该数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的增广数据;然后,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集,该增广数据集即生成的样本数据集。在得到增广数据集之后,服务器300可以将增广数据集发送给终端100,同时,服务器300还可以接收终端100发送的信息处理请求,该信息处理请求用于请求对待处理信息进行信息处理。服务器300可以响应于信息处理请求,以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;并且,采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。在得到信息处理结果之后,服务器300可以将信息处理结果发送给终端100。
在一些实施例中,还可以由终端100自身执行本申请实施例的样本数据构建过程,也就是说,当终端100接收到用户通过客户端输入的交互操作之后,由终端100对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据;然后,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集,该增广数据集即生成的样本数据集。或者,还可以由终端100自身执行本申请实施例的模型训练过程,也就是说,由终端100以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型。在一些实施例中,还可以由终端100自身执行本申请实施例的信息处理过程,也就是说,由终端100采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。在得到信息处理结果之后,在终端100的客户端界面上显示该信息处理结果。
本申请实施例所提供的信息处理方法还可以基于云平台并通过云技术来实现,例如,上述服务器300可以是云端服务器。通过云端服务器对原始数据集中的原始数据进行数据增广映射,或者,通过云端服务器对原始数据集中的原始数据和对应的增广数据进行数据融合处理,或者,通过云端服务器对待训练信息处理模型进行训练,以及,采用训练后的信息处理模型对待处理信息进行信息处理等。
在一些实施例中,还可以具有云端存储器,可以将原始数据集、增广数据集等存储至云端存储器中,也可以将待训练信息处理模型的模型参数、训练后的信息处理模型的模型参数等存储至云端存储器中。这样,在接收到信息处理请求时,则可以从云端存储器中直接获取训练后的信息处理模型的模型参数,实现对待处理信息进行快速的信息处理,从而提高信息处理的效率。
这里需要说明的是,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,其可以通过云计算来实现。
在一些实施例中,用于实现信息处理模型训练方法的信息处理模型训练设备也可以实施为上述电子设备,也就是说,信息处理模型训练设备也可以实施为终端或者服务器。本申请实施例以信息处理模型训练设备为电子设备为例进行说明,该电子设备与上述用于实现信息处理方法的电子设备可以为同一电子设备。
图2是本申请实施例提供的电子设备的结构示意图,图2所示的电子设备可以是信息处理设备,信息处理设备包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。信息处理设备中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,以及一个或多个输入装置332。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可采用软件方式实现,图2示出了存储在存储器350中的一种信息处理装置354,该信息处理装置354可以是电子设备中的信息处理装置,其可以是程序和插件等形式的软件,包括以下软件模块:映射模块3541、数据融合模块3542、第一模型训练模块3543和信息处理模块3544,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,在存储器350中,还可以具有信息处理模型训练装置(图中未示出),该信息处理模型训练装置包括:样本数据获取模块和第二模型训练模块,这些模块也是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
在一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Pr ogrammable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请各实施例提供的信息处理方法可以由电子设备来执行,其中,该电子设备可以是服务器也可以是终端,即本申请各实施例的信息处理方法可以通过服务器来执行,也可以通过终端来执行,或者也可以通过服务器与终端之间交互执行。
图3是本申请实施例提供的信息处理方法的一个可选的流程示意图,下面将结合图3示出的步骤进行说明,如图3所示,以信息处理方法的执行主体为服务器为例进行说明,方法包括以下步骤S101至步骤S104:
步骤S101,对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据。
原始数据集中的原始数据可以是任一领域的数据,例如,可是医学、通信、新闻等领域的数据。原始数据也可以是任意一种类型的数据,例如可以是文章、问题、问答对等类型的数据。原始数据集中的原始数据的领域和类型可以根据待训练信息处理模型的类型来确定,本申请实施例不做限定。
本申请实施例中,原始数据集中的原始数据还可以包括标签信息,该标签信息是预先通过对原始数据进行标记后得到的。可以预先采集原始数据,并对原始数据进行标记,从而将标记好的原始数据存储至原始数据集中。原始数据集可以存储至预设的存储单元中,其中,在存储单元中可以存储有多个不同的原始数据集,多个原始数据集之间可以具有不同的数据类型和数据领域,例如,可以存储有文章类型的原始数据集、问题类型的原始数据集、问答对类型的原始数据集。本申请实施例中,可以根据待训练信息处理模型的类型从存储单元中选择相应的原始数据集进行后续的数据增广映射。
数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的增广数据。其中,交互式生成方式包括至少一次交互式生成的过程。交互式生成的过程是指通特定的数据增广应用与预先训练的信息生成模型进行至少一次交互,从而生成区别于原始数据且符合预设要求的增广数据。在执行数据增广映射时,可以将原始数据作为该信息生成模型的输入信息,然后,通过信息生成模型在每一次交互过程中,输出一个映射数据,并且,该数据增广应用会自动基于预设条件对该映射数据进行分析,判断该映射数据是否满足预设要求。若该映射数据不满足预设要求,则数据增广应用会自动基于所生成的映射数据生成下一次交互过程中输入至信息生成模型的新的输入信息,并将该新的输入信息输入至信息生成模型中,从而基于该新的输入信息执行下一次交互过程,输出新的映射数据。如此循环往复,共执行至少一个交互过程,从而得到满足预设要求的映射数据为止,此时,信息生成模型输出的映射数据即为最终通过数据增广映射后得到的增广数据。
步骤S102,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集。
这里,数据融合处理是指对原始数据和增广数据进行合并,得到增广数据集,其中,增广数据集中的数据量大于原始数据集中的数据量。在进行数据的合并时,可以根据原始数据的数据类型类来确定合并方式。例如,如果原始数据是文本类型,则可以将增广数据添加至原始数据集中,形成增广数据集;如果原始数据是问题类型,则可以将原始数据和对应的增广数据进行数据映射,从而构成一对数据对,例如数据对可以是问答对,其中,原始数据作为问题,对应的增广数据作为答案,在形成数据对之后,将数据对汇总成增广数据集。
步骤S103,以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型。
本申请实施例中,由于增广数据集中不仅包括原始数据,还包括数据增广映射后得到的增广数据,增广数据集中的数据量相对于原始数据集中的数据量更大,且数据样本的多样性相对于原始数据集中的数据多样性更高;同时是通过数据增广应用与预先训练的信息生成模型进行至少一次交互后得到增广数据,得到的增广数据更加准确,因此,所形成的增广数据集中的数据也更加准确。如此,基于该增广数据集进行模型训练,能够提高待训练信息处理模型的训练精度,同时,由于样本数据的多样性,还能够防止待训练信息处理模型在训练过程中过拟合。
本申请实施例中,所生成的增广数据还包括增广数据标签,例如,增广数据标签可以是相对应的原始数据或者原始数据的数据标签。在对待训练信息处理模型进行训练时,可以将每一增广数据及其对应的数据标签输入至待训练信息处理模型中,待训练信息处理模型根据模型对应的业务类型,对输入的增广数据进行数据处理后得到预测值并输出。在输出预测值之后,可以通过预先构建的损失模型基于数据标签,对待训练信息处理模型的预测值进行损失计算,得到损失计算结果。之后,可以基于损失计算结果对待训练信息处理模型中的模型参数进行修正,直至待训练信息处理模型收敛为止,即直至待训练信息处理模型输出的预测值与数据标签之间的损失结果满足损失条件为止。此时,将收敛时的模型参数确定为训练后的信息处理模型的模型参数。
步骤S104,采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
本申请实施例中,在进行模型训练得到训练后的信息处理模型之后,可以将待处理信息输入至训练后的信息处理模型中,通过该训练后的信息处理模型对待处理信息进行信息处理。
需要说明的是,本申请实施例中的待训练信息处理模型可以应用于信息推荐任务的待训练信息推荐模型、应用于翻译任务的待训练文本翻译模型、应用于文章生成任务的待训练文章生成模型。相应地,训练后的信息处理模型则可以是信息推荐模型、文本翻译模型和文章生成模型。并且,对应于不同的任务,原始数据集和增广数据集也是与该任务匹配的数据集,例如,对于信息推荐任务,则原始数据集和增广数据集中的数据可以是文章及其文章的点击率、视频及其视频的播放时长等;对于翻译任务,则原始数据集和增广数据集中的数据可以是文本及其翻译文本;对于文章生成模型,则原始数据集和增广数据集中的数据可以是文章生成提示(或要求)及其生成的文章。
本申请实施例提供的信息处理方法,一方面,在生成待训练信息处理模型的样本数据时,是对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据,并将原始数据集中的原始数据和对应的增广数据进行数据融合处理,以融合后的增广数据集为样本数据。如此,该样本数据中既包括原始数据集中的原始数据,还包括基于原始数据所生成的增广数据,该增广数据是基于原始数据进行数据增广映射后得到的数据,整个映射过程可以在获取到原始数据集之后自动化进行,映射过程效率较高,且无需其他计算资源即可实现,因此,能够节约样本数据生成过程中的计算资源;并且,基于原始数据集中的原始数据来生成增广数据,所生成的增广数据的准确性较高,从而可以提高样本数据的准确性。另一方面,在生成样本数据之后,会基于该准确的样本数据对待训练信息处理模型进行训练,从而能够提高模型训练的精度。
本申请实施例至少可以应用于以下任意一种场景:
场景一:信息处理系统中可以至少包括终端和服务器。其中,终端上部署有样本数据构建平台,服务器可以是样本数据构建平台的后台处理服务器。用户可以通过终端上的样本数据构建平台执行交互操作,该交互操作例如可以是原始数据集的选择操作、原始数据集的导入操作、样本数据的构建请求操作等。客户端在接收到用户的交互操作之后,可以生成样本数据构建请求,并通过终端将样本数据构建请求发送给服务器。服务器在接收到样本数据构建请求时,响应于样本数据构建请求,采用本申请实施例提供的信息处理方法中的增广数据集的确定步骤,来确定增广数据集,从而得到样本数据。在得到样本数据之后,服务器可以将样本数据反馈给终端,终端后续可以基于该样本数据执行待训练信息处理模型的训练过程,从而对待处理信息进行信息处理;或者,服务器存储该样本数据,这样,后续终端在请求对待训练信息处理模型进行训练时,服务器可以直接调用所存储的样本数据进行模型训练;或者,服务器存储该样本数据,这样,后续终端在请求对待处理信息进行信息处理时,服务器可以直接调用所存储的样本数据线进行模型训练,之后再采用训练后的信息处理模型对待处理信息进行信息处理。
场景二:信息处理系统中可以至少包括终端和服务器。其中,终端上运行有模型训练应用,通过该模型训练应用可以实现对待训练信息处理模型进行训练,服务器构成该模型训练应用的后台服务器。在实现的过程中,用户可以在模型训练应用的客户端执行触发操作,从而生成模型训练请求。该触发操作可以是选择待训练信息处理模型和原始数据集的选择操作,或者,是模型标识和原始数据集的输入操作。终端在生成模型训练请求之后,将模型训练请求发送给服务器。服务器响应于该模型训练请求,先基于原始数据集生成样本数据,然后采用生成的样本数据对待训练信息处理模型进行训练,得到训练后的信息处理模型。在模型训练完成之后,可以将训练后的信息处理模型的模型参数发送给终端,客户端可以保存该模型参数,这样,在后续需要对待处理信息进行信息处理时,则可以直接从客户端调用所存储的模型参数,进而快速的实现信息处理过程;或者,服务器可以存储该模型参数,这样,后续终端在请求服务器对待处理信息进行信息处理时,服务器可以直接调用所存储的模型参数,即采用已经训练后的信息处理模型对待处理信息进行信息处理。
场景三:信息处理系统中可以至少包括终端和服务器。其中,终端上运行有信息处理应用,该信息处理应用例如可以是信息推荐应用、文本翻译应用、自动写作应用等,通过该信息处理应用可以实现对待处理信息进行信息处理。服务器构成该信息处理应用的后台服务器。在实现的过程中,用户可以在信息处理应用的客户端执行触发操作,从而生成信息处理请求。该触发操作可以是选择待处理信息的选择操作。终端在生成信息处理请求之后,将信息处理请求发送给服务器。服务器响应于该信息处理请求,先获取原始数据集,并基于原始数据集生成样本数据,然后采用生成的样本数据对待训练信息处理模型进行训练,得到训练后的信息处理模型。在模型训练完成之后,可以采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。在得到信息处理结果之后,服务器可以将信息处理结果发送给终端,或者,基于信息处理结果确定与该信息处理请求对应的响应策略,从而采用该响应策略对终端进行响应。
场景四:信息处理系统中可以至少包括终端和服务器。其中,终端上运行或部署有样本数据构建平台、模型训练应用和信息处理应用。服务器分别包括样本数据构建平台的后台服务器、模型训练应用的后台服务器和信息处理应用的后台服务器。在实现本申请实施例的信息处理方法时,通过样本数据构建平台的客户端向相应的服务器发送样本数据构建请求,服务器响应于该样本数据构建请求,对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据;然后,对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集,该增广数据集即构建的样本数据。紧接着,通过模型训练应用的客户端向相应的服务器发送模型训练请求,服务器响应于该模型训练请求,从样本数据构建平台中获取增广数据集,并以增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型。最后,通过信息应用的客户端向相应的服务器发送信息处理请求,服务器响应于该信息处理请求,从模型训练应用获取训练后的信息处理模型的模型参数,从而采用该训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
下面,将以上述场景中的任意一种场景为例,对本申请实施例的信息处理方法进行说明。
图4是本申请实施例提供的信息处理方法的另一个可选的流程示意图,如图4所示,方法包括以下步骤S201至步骤S212:
步骤S201,终端接收用户的触发操作。
这里,触发操作可以是选择待处理信息的选择操作以及针对待处理信息进行信息处理的点击操作。例如,在客户端界面上可以显示有针对待处理信息的选择框(例如可以是待翻译文本的选择框或者待推荐信息的选择框等),用户可以选择待处理信息或者输入待处理信息,然后,可以点击信息处理按钮,即执行进行信息处理的点击操作。
步骤S202,终端响应于触发操作,生成信息处理请求。
本申请实施例中,终端可以将待处理信息封装至信息处理请求中。在一些实施例中,用户还可以输入原始数据集的数据集标识,因此,还可以将原始数据集的数据集标识也封装至信息处理请求中。
步骤S203,终端将信息处理请求发送给服务器。
步骤S204,服务器响应于信息处理请求,获取原始数据集。
本申请实施例中,当信息处理请求中封装有待处理信息时,服务器解析信息处理请求得到待处理信息,并根据待处理信息的信息类型确定当前的信息处理任务的任务类型,从预设的存储单元中获取与该任务类型对应的原始数据集;当信息处理请求中封装有待处理信息和数据集标识时,服务器解析信息处理请求得到待处理信息和数据集标识,并基于数据集标识从存储单元中获取与该数据集标识对应的原始数据集。
步骤S205,服务器调用预先训练的信息生成模型,对原始数据集中的原始数据进行至少一次交互式生成,并通过信息生成模型输出所述增广数据。
本申请实施例中,数据增广映射是指采用交互式生成方式,通过信息生成模型将原始数据映射为区别于原始数据的增广数据。其中,交互式生成方式包括至少一次交互式生成的过程。信息生成模型例如可以是基于混元大模型系统实现的预训练大模型。
在一些实施例中,参见图5,图5示出了步骤S205中对原始数据集中的原始数据进行至少一次交互式生成,可以通过以下步骤S2051至步骤S2057实现:
步骤S2051,将原始数据输入至预先训练的信息生成模型。
此时,可以通过信息生成模型进行至少一次以下交互式生成过程:
步骤S2052,在第N次交互式生成时,对原始数据进行数据映射,得到映射数据;N为大于0的整数;其中,在第一次交互式生成时,原始数据为原始数据集中的原始数据;在第K次交互式生成时,原始数据为第K-1次交互式生成时得到的映射函数,K为大于1且小于等于N的整数。
本申请实施例中,在进行多次交互式生成时,可以基于前一次数据映射后得到映射数据进行后一次数据映射,也就是说,可以将前一次数据映射后得到的映射数据作为后一次数据映射的输入数据。
在一些实施例中,在进行多次交互式生成时,还可以通过本申请实施例提供的数据增广应用与该信息生成模型进行交互实现多次交互式生成,其中,该数据增广应用是能够与信息生成模型进行交互的控制性应用,数据增广应用能够对信息生成模型输出的映射数据进行分析,确定当前的交互式生成过程中所得到的映射数据是否满足预设的条件和要求,如果满足的话,会将该映射数据作为下一次交互式生成时信息生成模型的输入数据,如果不满足的话,则控制交互式生成过程终止。
本申请实施例中,该数据增广应用可以是上述实施例中所提出的样本数据构建平台、模型训练应用或信息处理应用中的功能模块,也就是说,数据增广应用的后台服务器与上述样本数据构建平台、模型训练应用或信息处理应用的后台服务器为同一服务器,这样,可以通过服务器调用样本数据构建平台、模型训练应用或信息处理应用中的功能模块,即可实现与信息生成模型之间的至少一次交互,从而生成最终的增广数据。
步骤S2053,采用预设的多维评估模板对所述映射数据进行多维评估,得到多维评估分。
本申请实施例中,服务器可以调用数据增广应用这一功能模块对当前得到的映射数据进行多维评估,以确定当前得到的映射数据是否满足预设的条件和要求,从而确定是继续进行交互式生成还是终止当前的生成过程。也就是说,通过数据增广应用可以自动化的实现与信息生成模型进行交互,用户只需在一开始时执行触发操作,后续可以自动化的生成增广数据,从而构建样本数据,并自动化的进行模型训练,并自动化的进行信息处理。
在一些实施例中,可以通过以下方式确定多维评估分:首先,采用预设的多维评估模板对映射数据进行多维评估,得到每一评估维度下的评估分;并获取待训练信息处理模型对应的信息处理业务标识;然后,从预设的评估参数库中获取与信息处理业务标识对应的评估权重;评估权重包括每一评估维度下的评估子权重;最后,基于每一评估维度下的评估子权重,对多个评估维度下的评估分进行加权计算,得到多维评估分。
本申请实施例中,预设的多维评估模板可以包括多个评估维度,例如,可以包括:连贯性、相关性、准确性等维度;当然,多维评估模板还可以包括是否进行进一步交互的相关维度,该相关维度用于确定当前的映射数据是否能够作为最终的增广数据来用于模型训练,或者,该相关维度用于确定当前的映射数据是否还具有未曾映射到的信息。如果相关维度确定出当前的映射数据不能够作为最终的增广数据来用于模型训练或者当前的映射数据还具有未曾映射到的信息,则所确定出的多维评估分会小于预设评估分阈值。
步骤S2054,如果多维评估分小于预设评估分阈值,将映射数据和多维评估分输入至信息生成模型中,并通过信息生成模型基于多维评估分对映射数据进行下一次交互式生成。
在一些实施例中,通过信息生成模型基于多维评估分对映射数据进行下一次交互式生成,可以通过以下方式实现:首先,基于多维评估分对信息生成模型中的模型参数进行调整,得到调整后的模型参数;然后,通过具有调整后的模型参数的信息生成模型对映射数据进行下一次交互式生成。
步骤S2055,如果多维评估分大于或等于预设评估分阈值,采用预设的自评估模板,在自然语言维度下对映射数据进行自评估,得到自评估分。
本申请实施例中,如果多维评估分大于或等于预设评估分阈值,表明当前交互式生成过程得到的映射数据是符合预设的条件和要求的,因此,可以进一步通过信息生成模型对该映射数据进行自评估。在实现的过程中,可以通过信息生成模型调用自评估模板,进行自然语言维度下的自评估,也就是说,通过自评估模板确定生成的映射数据是否符合自然语言的语法习惯。
步骤S2056,如果自评估分大于或等于预设的自评估分阈值,则将第N次交互式生成得到的映射数据确定为增广数据。
本申请实施例中,如果多维评估分大于或等于预设评估分阈值,并且自评估分大于或等于预设的自评估分阈值,则表明当前确定出的映射数据是完全满足预设的条件和要求的数据,因此可以停止交互式生成,并将当前交互式生成得到的映射数据确定为最终的增广数据。
步骤S2057,如果自评估分小于自评估分阈值,则基于自评估分对信息生成模型中的模型参数进行调整,得到调整后的模型参数;并通过具有调整后的模型参数的信息生成模型对第N次交互式生成得到的映射数据进行下一次交互式生成。
步骤S206,服务器对原始数据集中的原始数据和对应的增广数据进行数据融合处理,得到增广数据集。
本申请实施例中,可以采用每一原始数据与对应的增广数据构建问答对;将全部问答对添加至原始数据集中,得到增广数据集。
这里,可以以原始数据为问题,以增广数据为答案构建问答对,所构建的增广数据集中均是问答形式的数据。
在一些实施例中,在得到增广数据集之后,还可以对增广数据集执行以下至少一种处理:对增广数据集中的每一数据进行数据质量分析,得到质量分析结果;并将质量分析结果小于预设质量阈值的数据从增广数据集中删除;或者,确定增广数据集中的每一数据与待训练信息处理模型对应的信息处理业务之间的相关度;并将相关度小于相关度阈值的数据从增广数据集中删除;或者,确定增广数据集中的重复数据,并删除重复数据。
在一些实施例中,在对增广数据集执行质量分析、相关度分析和重复分析处理之后,还可以将增广数据集划分为训练集、验证集和测试集;其中,训练集用于对待训练信息处理模型进行预训练,得到预训练后的信息处理模型;验证集用于对预训练后的信息处理模型进行性能评估,并基于性能评估结果对预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型;测试集用于对修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将修正后的信息处理模型作为训练后的信息处理模型,应用于对待处理信息的信息处理。
步骤S207,服务器基于训练集对待训练信息处理模型进行预训练,得到预训练后的信息处理模型。
在一些实施例中,在得到增广数据集,并将增广数据集划分为训练集、验证集和测试集之后,还可以将训练集划分为多个子训练集。这样,可以将多个子训练集分别发送至不同的分布式节点,通过分布式节点基于子训练集对待训练信息处理模型进行分布式训练,得到各个分布式节点对应的分布式训练后的信息处理模型;最后,服务器对各个分布式节点得到的分布式训练后的信息处理模型进行训练结果融合,得到预训练后的信息处理模型。
步骤S208,服务器基于验证集对预训练后的信息处理模型进行性能评估,并基于性能评估结果对预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型。
步骤S209,服务器基于测试集对修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将修正后的信息处理模型确定为训练后的信息处理模型。
步骤S210,服务器获取终端发送的待处理信息。
步骤S211,服务器采用训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
步骤S212,服务器将信息处理结果发送给终端。
本申请实施例提供的信息处理方法,在生成待训练信息处理模型的样本数据时,是对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据,并将原始数据集中的原始数据和对应的增广数据进行数据融合处理,以融合后的增广数据集为样本数据。如此,该样本数据中既包括原始数据集中的原始数据,还包括基于原始数据所生成的增广数据,该增广数据是基于原始数据进行数据增广映射后得到的数据,整个映射过程可以在获取到原始数据集之后自动化进行,映射过程效率较高,且无需其他计算资源即可实现,因此,能够节约样本数据生成过程中的计算资源;并且,基于原始数据集中的原始数据来生成增广数据,所生成的增广数据的准确性较高,从而可以提高样本数据的准确性。另外,在生成样本数据之后,会基于该准确的样本数据对待训练信息处理模型进行训练,从而能够提高模型训练的精度。
基于上述实施例提供的信息处理方法,本申请实施例再提供一种信息处理模型训练方法,该方法可以通过信息处理模型训练设备来执行,该信息处理模型训练设备可以实施为电子设备,本申请实施例以电子设备为服务器为例进行说明。下面将结合图6示出的步骤进行说明,如图6所示,方法包括以下步骤S301至步骤S304:
步骤S301,获取样本数据。
这里,样本数据是对原始数据集中的原始数据进行数据增广映射,得到与原始数据对应的增广数据后,对原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;数据增广映射是指采用交互式生成方式,将原始数据映射为区别于原始数据的所述增广数据。
步骤S302,将训练样本集中的训练样本输入至待训练信息处理模型中,通过待训练信息处理模型对训练样本进行预测,得到预测结果。
本申请实施例中,待训练信息处理模型可以是用于实现任意一种信息处理任务的信息处理模型,例如信息处理任务可以是信息推荐任务、文本翻译任务、文本分类任务、序列标注任务等。对于不同的信息处理任务,待训练信息处理模型相应地可以具有不同的模型结构,或者,也可以具有相同的模型结构,通过后续的训练过程,对模型中的参数进行优化。
本申请实施例中,可以将训练样本输入至待训练信息处理模型中,通过待训练信息处理模型对训练样本进行特征映射,从而预测得到预测结果并输出。
步骤S303,将预测结果和训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果。
本申请实施例中,损失模型中的损失函数可以根据信息处理任务的类型来确定,例如,可以根据信息处理任务的类型选择交叉熵损失函数来进行损失计算等。
步骤S304,基于损失计算结果对待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
本申请实施例中,由于通过数据增广映射后得到的增广数据来作为样本数据进行模型训练,该样本数据中既包括原始数据集中的原始数据,还包括基于原始数据生成的增广数据,该增广数据是基于原始数据进行数据增广映射后得到的数据,因此,基于原始数据集中的原始数据来生成增广数据,所生成的增广数据的准确性较高,从而可以提高样本数据的准确性,且基于该准确的样本数据对待训练信息处理模型进行训练,从而能够提高模型训练的精度。
在一些实施例中,样本数据中除了包括训练样本集(即上述训练集)之外,还可以包括验证样本集(即上述验证集)和测试样本集(即上述测试集)。其中,训练样本集中的训练样本用于对待训练信息处理模型进行预训练,得到预训练后的信息处理模型;验证样本集中的验证样本用于对预训练后的信息处理模型进行性能评估,并基于性能评估结果对预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型;测试样本集中的测试样本用于对修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将修正后的信息处理模型作为训练后的信息处理模型,应用于对待处理信息的信息处理。
本申请实施例仅对训练样本用于对待训练信息模型进行训练的过程进行说明,关于验证样本集的验证过程和测试样本集的测试过程,请参见上述实施例中验证集和测试集的相关说明,本申请实施例不再赘述。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
NLP数据扩充方法可以对不同的任务和产品产生不同的影响,对不同任务的提升包括:在文本分类任务中:使用NLP数据扩充方法可以增加不同类型的文本数据(例如新闻、社交媒体、评论等),从而提高文本分类任务的准确性和泛化能力。在文本生成任务中:使用NLP数据扩充方法可以增加更多的文本生成样本,例如对话生成、摘要生成等,从而提高生成模型的生成质量和多样性。在机器翻译任务中:使用NLP数据扩充方法可以增加更多的语言对照数据,从而提高机器翻译模型的翻译准确性和自然度。在情感分析任务中:使用NLP数据扩充方法可以增加更多的情感分类样本,例如正面评价、负面评价、中性评价等,从而提高情感分析模型的准确性和泛化能力。
在产品开发中,预训练大模型也将在以下方面对产品进行提升:产品性能:使用NLP数据扩充方法可以提高产品的性能和鲁棒性,从而更好地解决用户的需求。产品体验:使用NLP数据扩充方法可以提高产品的多样性和实用性,从而提高用户的体验和用户留存率。产品可靠性:使用NLP数据扩充方法可以提高产品的可靠性和数据安全性,从而更好地保护用户的隐私和权益。
下面将对预训练大模型的请求及交互进行介绍。
预训练大模型是一个基于OpenAI GPT模型的聊天机器人,其API交互方式主要有以下几种:1)REST API。预训练大模型提供了REST API接口,可以使用HTTP请求与预训练大模型进行交互。例如,可以使用POST方法发送一个JSON格式的请求,请求中包含用户输入的文本,预训练大模型会返回机器人的回复文本。这种交互方式可以使用各种编程语言进行实现。2)WebSocket API。预训练大模型还提供了WebSocket API接口,可以实现实时的聊天交互。具体来说,客户端可以使用WebSocket协议与预训练大模型建立连接,然后发送用户输入的文本,预训练大模型会实时返回机器人的回复文本。这种交互方式适合需要实时聊天的场景。3)SDK。预训练大模型还提供了SDK,可以在Python中使用。使用SDK可以更加方便地与预训练大模型进行交互,不需要手动构造HTTP请求或WebSocket连接,而是直接调用SDK提供的API接口即可。使用SDK可以更加方便地集成预训练大模型到各种Python应用程序中,例如Web应用程序、桌面应用程序等。
本申请实施例将以REST API的方式构建与预训练大模型进行交互的应用程序(以下简称数据增广应用),通过该数据增广应用获取想要的输出。其具体步骤包括:首先,获取API Key。也就是说,需要前往OpenAI网站并注册OpenAI账号。然后,可以访问OpenAI的API页面,并生成一个API Key。
其次,构造HTTP请求。也就是说,可以使用任何HTTP客户端库(例如Python的requests库、JavaScript的fetch函数等)构造HTTP请求。需要向OpenAI的API服务器发送一个POST请求,其中包含以下内容:
-请求URL:https://api.openai.com/v1/engines/davinci-codex/completions
-请求头:Authorization(值为Bearer{API Key})、Content-Type(值为application/json)
-请求体:JSON格式的数据,包含用户输入的文本、模型ID等信息
最后,解析响应结果。当发送HTTP请求后,OpenAI的API服务器会返回一个JSON格式的响应结果。需要解析响应结果,并从中提取机器人的回复文本。在上文的示例代码中,可以使用response.json()方法将响应结果解析为Python字典,然后从中提取机器人的回复文本。
综上所述,使用预训练大模型利用REST API进行交互的主要步骤包括获取APIKey、构造HTTP请求和解析响应结果。
下面对使用预训练大模型进行数据增广映射的两种实现原理进行说明。其中,第一种为基于完备提示的扩充方法。第二种为基于交互的扩充方法。
在第一种扩充方法中,根据以上预训练大模型的交互方式,可以将数据分为三个维度:文本(context)、问题(question)和答案(answer),比如,对于机器阅读理解(MRC,Machine Reading Comprehension)任务,文本即为待阅读内容,问题是人类需要知道的问题,而答案是需要得到的答案。假设任务需要文本、问题和答案,以下为实现的具体步骤:
首先需要根据答案来生成文本。比如,如果对于MRC任务,如果在待阅读的文章都没有的情况下,如何首先生成待阅读的文本。而生成文本空间太大,比如MRC,会有无穷多的内容可以生成,此时要考虑生成内容的多样性,以更好地适配下游任务。更具体的可以分为以下三步:
1)首先生成文本的维度。这一步是根据所想要的答案和任务需求,让预训练大模型首先输出文本一般具有的维度,比如对于MRC来讲,通过数据增广应用告诉预训练大模型“请问NLP任务的MRC任务的数据包含哪些类型”,预训练大模型会返回“NLP任务中的MRC任务的数据通常包含以下几种类型:阅读理解问题(Reading Comprehension Question):这种类型的数据包含一个段落(Passage)和一个问题,模型需要从段落中找到答案并回答问题。多项选择题(Multiple-choice Question):这种类型的数据包含一个段落和多个候选答案(Answer Choices),模型需要从段落中找到正确的答案。答案抽取(AnswerExtraction):这种类型的数据只包含一个段落,模型需要从段落中抽取出答案,而不需要给出问题。基于知识库的MRC(Knowledge Base MRC):这种类型的数据是基于知识库的MRC,包含一个问题和一个知识库(Knowledge Base),模型需要从知识库中找到答案并回答问题。”。
如果是对阅读理解问题做数据扩充,则可以再通过数据增广应用对阅读理解问题询问数据维度,输入“请问阅读理解问题的数据维度有哪些”,输出为“阅读理解任务中的文章可以包含各种不同类型的主题,这取决于任务的具体要求以及文章来源。以下是一些常见的主题类型:新闻报道:新闻报道通常涉及当前的事件和话题,如娱乐、经济、社会等。阅读理解任务可能要求回答有关新闻报道中的细节、事件顺序、人物关系等问题。文学作品:文学作品通常包含各种类型的小说、诗歌、戏剧等。阅读理解任务可能要求回答有关文学作品中的情节、人物性格、主题等问题。科技报告:科技报告通常涉及科学、技术等领域的研究成果和进展。阅读理解任务可能要求回答有关科技报告中的实验结果、数据分析、技术原理等问题。历史文献:历史文献通常包括各种类型的历史文献、传记、哲学著作等。阅读理解任务可能要求回答有关历史文献中的事件、人物、思想等问题。社交媒体:社交媒体通常包括各种类型的社交媒体帖子、评论、微博等。阅读理解任务可能要求回答有关社交媒体中的情感、观点、用户关系等问题。”根据以上回答,则数据增广应用可以选择从回答的几个维度,让预训练大模型生成相应的文本。
2)根据文本维度生成文本。在这一步,可以选取预训练大模型生成的维度,对想要生成的文本的内容进行控制。比如,对MRC任务,数据增广应用可以给预训练大模型发送指令“请帮忙生成一篇科技报告”。
3)根据文本生成问题。在这一步,数据增广应用将对生成的文本进行问题生成。比如,对于生成的段落,可以让预训练大模型生成几个适合于MRC的问题,即可以通过数据增广应用告诉它“请生成3个对应于这段内容的问题,以适合做阅读理解”。
对于有一部分任务,不需要文本,比如开放域的问答,只需要问题的,则可以根据最终的任务形式,直接生成问题,省略掉第一步文本的生成。
在第二种扩充方法中,如果基于以上第一种的方法,由于数据增广应用需要基于用户的数据增广请求,把所有的需要的信息提前全部构思好,包括所有的控制信息,然后融入到数据增广应用的提示中,让预训练大模型一次性的生成最终用户所需要的文本或者数据。但是,在实际情况中,数据增广应用并不能很好的提前掌握足够的信息,需要逐步地根据预训练大模型的输出,去了解信息,再根据反馈的信息进行更改具体控制条件以达到最终的目的。基于交互的数据扩充方法一个特点就是拥有更强的控制能力和纠错能力。控制能力表现在交互过程中,可以根据生成的效果评估,然后对表现不好的一些属性继续进行细粒度控制。而纠错能力表现在如果第一次生成的效果不尽如人意,可以根据内容让预训练大模型对内容进行修正。假设从文本生成开始,到问题的生成的整个流程,可交互的扩充方法包括以下几个步骤:
1)数据增广应用告诉预训练大模型它的最终目标是生成符合一定条件的文本,然后提出第一个生成请求。这一步主要是给预训练大模型定位它需要扮演的角色,然后尝试让它不受限的生成一些样本,也可以根据这些样本进行微调。比如MRC任务,数据增广应用会告诉预训练大模型“你将作为一个文章生成器,生成一段适合做阅读理解的文章”。
2)对生成的文本进行第一轮修正。这一步的目的是优化生成文本的质量。比如,对于MRC任务,预训练大模型随机生成了一段“以下是一段适合做阅读理解的文章:标题:太空探索中的新趋势:商业化和合作随着科技的不断发展,太空探索已经成为了人类探索未知的新领域。在过去几十年里,太空探索主要由…”。发现如果按照这一种方式继续产生文本,生成的文本可能产生严重的类型分布不均衡,比如生成的文本都是科技新闻或者娱乐新闻等。所以需要对它生成的内容进行控制,所以这一步,需要知道新闻的类型,也就是说,数据增广应用会优化上面的提示“你将作为一个文章生成器,生成一段适合做阅读理解的文章,主题为…”。
3)继续修正或者增加控制因素,当达到预期结果后停止修正。这一步是关键所在,如何判断生成的文本不再需要继续优化。此时,数据增广应用可以再利用预训练大模型,给它一个自然语言的标准,判断是否满足,预训练大模型判断满足以后,则停止数据增广应用与预训练大模型之间的交互。
4)生成文本以后,数据增广应用则根据文本让预训练大模型生成问题。对问题的生成步骤又将进入上述1)至3)步骤,不一样的地方是,这一步需要对问题的多样性进行判断,比如对于MRC任务,由于不希望MRC生成的问题是非常类似的。这时候数据增广应用的判断标准则需要加入多样性。也就是说,整个生成过程中,数据增广应用均会基于预设的多维评估模板对预训练大模型输出的信息进行多维评估,并基于评估结果确定下一步的交互策略,从而执行下一步的交互。
下面对两种扩充方法的差异进行说明。
提供提示进行一次性生成和交互式生成是两种不同的方式,它们的差异在于生成的方式和生成结果的质量。其中,提供提示一次性生成是指数据增广应用基于用户的数据增广请求一次输入一个问题或话题,预训练大模型会尽可能地生成一篇完整的文章或回答。这种方式适用于希望快速获取一个完整的生成结果,或者对生成内容的质量要求不是非常高的情况。由于一次生成的结果是一篇完整的文章或回答,因此它具有一定的连贯性和完整性,但也存在可能生成的内容与用户预期不符或者存在一定的重复和模板化问题。
交互式生成是指数据增广应用可以与预训练大模型进行逐步交互,提供更多的信息或者修改之前的生成结果,从而逐步生成一个更加准确和符合要求的结果。这种方式适用于对生成结果要求较高,希望能够获得更加准确、丰富和个性化的内容。由于交互式生成可以根据数据增广应用的反馈进行动态调整和优化,因此生成结果更加符合期望,同时也更加具有个性化和创造性。
总的来说,提供提示一次性生成和交互式生成都有其适用的场景和优缺点。对于需要快速获取一个完整结果的情况,可以选择提供提示一次性生成;对于对生成结果要求较高的用户,可以选择交互式生成。在实际应用中,根据任务需求和生成结果的要求,可以选择不同的方法来进行数据生成。
下面对本申请实施例利用扩充后的增广数据集进行模型训练的过程进行说明。
利用上述两种数据扩充方法,可以通过数据增广应用将扩充生成的数据集与原始数据集混合形成混合数据集(即形成增广数据集,也可以称为扩充数据集),并在该扩充数据集上训练模型,从而提升模型的性能。如图7所示,该过程包含以下步骤S401至步骤S408:
步骤S401,收集原始数据集:首先,需要收集原始的NLP数据集,这可以是包含对话或文本的数据集,比如沟通记录、客服对话、社交媒体评论等。
步骤S402,对原始数据集进行数据预处理:对原始数据集进行预处理,可以包括删除原始数据集中的非文本部分(如标点符号、特殊字符等)、清洗数据(去除噪声、低质量文本等)、标记实体或词性等。确保数据集格式的一致性和可用性。
步骤S403,使用预训练大模型进行数据增广:使用预训练大模型,将原始数据集作为输入数据输入至预训练大模型中,得到预训练大模型的回复,并将生成的回复添加到原始数据之后,构建问答对,从而形成增广数据集。
步骤S404,数据清洗与过滤:对增广数据集进行清洗和过滤。这包括删除低质量的、不相关的或重复的数据,以确保增广数据集中的增广数据的质量和多样性。
步骤S405,拆分数据集:将增广数据集划分为训练集、验证集和测试集。通常将大部分数据用作训练集,一小部分数据用作验证集用于调整模型参数,最后将测试集用于评估模型性能。
步骤S406,训练和提升NLP模型:使用增广数据集训练NLP模型。可以选择预训练模型作为基础,然后在增广数据集上对预训练模型进行微调。训练过程中可以使用任意一种机器学习算法或端到端的深度学习方法。
步骤S407,模型评估与调优:在验证集上评估微调后的预训练模型的性能,比较不同模型的表现,并根据评估结果进行模型调优。同时,还可以尝试不同的超参数设置、模型架构修改或使用其他技术来提高模型的性能。
步骤S408,模型应用和部署:在完成训练和调优后,使用测试集评估模型的最终性能。如果模型符合要求,可以将其部署到实际应用中使用。
总的来说,使用基于预训练大模型的增广数据集训练并提升NLP模型的方法是:收集原始数据集、预处理数据、使用预训练大模型增广数据、清洗和过滤增广数据集、拆分增广数据集、训练和提升模型、评估和调优模型,最后将模型应用和部署到实际应用中。
需要说明的是,利用预训练大模型来做数据增强(即数据增广映射),总体来讲,可以带来以下好处:1)提高模型泛化能力:数据增强可以生成更多的数据,从而增加训练集的大小和多样性,提高模型的泛化能力。使用预训练大模型可以生成各种类型的对话数据,从而扩展训练数据集,提高模型的表现。2)提高模型鲁棒性:数据增强可以增加对抗性数据,从而提高模型的鲁棒性。使用预训练大模型生成对话数据可以提供不同的对话场景和语言表达方式,使模型更加适应真实场景中的对话。3)减少过拟合:数据增强可以增加训练集的大小和多样性,减少模型过拟合的可能性。使用预训练大模型生成对话数据可以增加训练集的大小和多样性,从而减少模型过拟合的风险。
从产品侧来讲,利用预训练大模型来做数据增强对产品研发有以下好处:1)提高产品性能:数据增强可以提高模型的泛化能力和鲁棒性,从而提高产品的性能。在产品研发中,使用预训练大模型生成对话数据进行训练可以提高产品的语言理解和对话交互能力,从而提高用户体验和产品竞争力。2)缩短产品研发周期:数据增强可以通过自动生成数据来节省人力成本和时间,从而缩短产品研发周期。在产品研发中,使用预训练大模型生成对话数据可以减少人工标注数据的工作量和时间成本,从而加快产品上线速度。3)降低人工标注成本:数据增强可以通过自动生成数据来减少人工标注成本,从而降低研发成本。在产品研发中,使用预训练大模型生成对话数据可以减少人工标注数据的工作量和费用,从而降低研发成本。4)提高用户满意度:数据增强可以提高产品的性能和用户体验,从而提高用户满意度。在产品研发中,使用预训练大模型生成对话数据进行训练可以提高产品的语言理解和对话交互能力,从而提高用户满意度。
总之,利用预训练大模型来做数据增强可以提高产品性能,缩短研发周期,降低人工标注成本,提高用户满意度,是一种有益的技术手段。
在一些实施例中,在NLP中,预训练大模型做数据增强还可以从以下方面继续提升数据增强的效果:1)多样性:为了生成更多多样化的数据,可以设计更好的策略,是的数据增广应用能够得到更好的提示,从而提高生成数据的多样性。2)真实性:为了让生成的数据更加真实,可以通过对生成数据进行筛选和过滤,从而保证生成数据的质量和真实性。3)分布式训练:为了提高数据增强的效率和效果,可以使用分布式训练技术,从而实现更快的训练速度和更好的模型性能。4)多模态数据增强:在处理多模态数据时,可以使用多种数据增强技术,如图像增强、语音增强等,从而提高数据增强的效果和多样性。5)个性化数据增强:针对不同的任务或不同的用户群体,可以使用个性化的数据增强技术,从而提高数据增强的效果和适应性。
总之,为了提高数据增强的效果,可以从多样性、真实性、分布式训练、多模态数据增强、个性化数据增强等方面入手,不断探索创新的技术手段。
可以理解的是,在本申请实施例中,涉及到用户信息的内容,例如,原始数据集、增广数据集等信息,如果涉及与用户信息或企业信息相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,或者对这些信息进行模糊化处理,以消除这些信息与用户之间的对应关系;且相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
下面继续说明本申请实施例提供的信息处理装置354实施为软件模块的示例性结构,在一些实施例中,如图2所示,信息处理装置354包括:映射模块3541,用于对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;数据融合模块3542,用于对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集;第一模型训练模块3543,用于以所述增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;信息处理模块3544,用于采用所述训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
在一些实施例中,所述交互式生成方式包括至少一次交互式生成的过程;所述映射模块还用于:调用预先训练的信息生成模型,对所述原始数据集中的原始数据进行至少一次交互式生成,并通过所述信息生成模型输出所述增广数据。
在一些实施例中,所述映射模块还用于:将所述原始数据输入至预先训练的信息生成模型,并通过所述信息生成模型进行至少一次以下交互式生成过程:在第N次交互式生成时,对所述原始数据进行数据映射,得到映射数据;N为大于0的整数;其中,在第一次交互式生成时,所述原始数据为所述原始数据集中的原始数据;在第K次交互式生成时,所述原始数据为第K-1次交互式生成时得到的映射函数,K为大于1且小于等于N的整数;采用预设的多维评估模板对所述映射数据进行多维评估,得到多维评估分;如果所述多维评估分小于预设评估分阈值,将所述映射数据和所述多维评估分输入至所述信息生成模型中,并通过所述信息生成模型基于所述多维评估分对所述映射数据进行下一次交互式生成;如果所述多维评估分大于或等于所述预设评估分阈值,将所述第N次交互式生成得到的映射数据确定为所述增广数据。
在一些实施例中,所述映射模块还用于:采用预设的多维评估模板对所述映射数据进行多维评估,得到每一评估维度下的评估分;获取所述待训练信息处理模型对应的信息处理业务标识;从预设的评估参数库中获取与所述信息处理业务标识对应的评估权重;所述评估权重包括每一所述评估维度下的评估子权重;基于每一所述评估维度下的评估子权重,对多个评估维度下的评估分进行加权计算,得到所述多维评估分。
在一些实施例中,所述映射模块还用于:基于所述多维评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;通过具有所述调整后的模型参数的信息生成模型对所述映射数据进行下一次交互式生成。
在一些实施例中,所述装置还包括:自评估模块,用于如果所述多维评估分大于或等于所述预设评估分阈值,在将所述第N次交互式生成得到的映射数据确定为所述增广数据之前,采用预设的自评估模板,在自然语言维度下对所述映射数据进行自评估,得到自评估分;如果所述自评估分大于或等于预设的自评估分阈值,则将所述第N次交互式生成得到的映射数据确定为所述增广数据;如果所述自评估分小于所述自评估分阈值,则基于自评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;并通过具有所述调整后的模型参数的信息生成模型对所述第N次交互式生成得到的映射数据进行下一次交互式生成。
在一些实施例中,所述数据融合模块还用于:采用每一所述原始数据与对应的所述增广数据构建问答对;将全部问答对添加至所述原始数据集中,得到所述增广数据集。
在一些实施例中,所述装置还包括:增广数据集处理模块,用于对所述增广数据集执行以下至少一种处理:对所述增广数据集中的每一数据进行数据质量分析,得到质量分析结果;并将质量分析结果小于预设质量阈值的数据从所述增广数据集中删除;确定所述增广数据集中的每一数据与所述待训练信息处理模型对应的信息处理业务之间的相关度;并将相关度小于相关度阈值的数据从所述增广数据集中删除;确定所述增广数据集中的重复数据,并删除所述重复数据。
在一些实施例中,所述装置还包括:数据集划分模块,用于将所述增广数据集划分为训练集、验证集和测试集;其中,所述训练集用于对所述待训练信息处理模型进行预训练,得到预训练后的信息处理模型;所述验证集用于对所述预训练后的信息处理模型进行性能评估,并基于性能评估结果对所述预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型;所述测试集用于对所述修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将所述修正后的信息处理模型作为所述训练后的信息处理模型,应用于对所述待处理信息的信息处理。
在一些实施例中,所述装置还包括:训练集划分模块,用于将所述训练集划分为多个子训练集;发送模块,用于将所述多个子训练集分别发送至不同的分布式节点,通过所述分布式节点基于所述子训练集对所述待训练信息处理模型进行分布式训练,得到各个分布式节点对应的分布式训练后的信息处理模型;训练结果融合模块,用于对各个分布式节点得到的所述分布式训练后的信息处理模型进行训练结果融合,得到所述预训练后的信息处理模型。
下面继续说明本申请实施例提供的信息处理模型训练装置实施为软件模块的示例性结构,在一些实施例中,信息处理模型训练装置包括:样本数据获取模块,用于获取样本数据;其中,所述样本数据是对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据后,对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;所述样本数据中至少包括训练样本集;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;第二模型训练模块,用于将所述训练样本集中的训练样本输入至待训练信息处理模型中,通过所述待训练信息处理模型对所述训练样本进行预测,得到预测结果;将所述预测结果和所述训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;基于所述损失计算结果对所述待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括可执行指令,该可执行指令是一种计算机指令;该可执行指令存储在计算机可读存储介质中。当电子设备的处理器从计算机可读存储介质读取该可执行指令,处理器执行该可执行指令时,使得该电子设备执行本申请实施例上述的方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的方法。
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPR OM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMar kup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (16)

1.一种信息处理方法,其特征在于,所述方法包括:
对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;
对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集;
以所述增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;
采用所述训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
2.根据权利要求1所述的方法,其特征在于,所述交互式生成方式包括至少一次交互式生成的过程;所述对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据,包括:
调用预先训练的信息生成模型,对所述原始数据集中的原始数据进行至少一次交互式生成,并通过所述信息生成模型输出所述增广数据。
3.根据权利要求2所述的方法,其特征在于,所述调用预先训练的信息生成模型,对所述原始数据集中的原始数据进行至少一次交互式生成,并通过所述信息生成模型输出所述增广数据,包括:
将所述原始数据输入至预先训练的信息生成模型,并通过所述信息生成模型进行至少一次以下交互式生成过程:
在第N次交互式生成时,对所述原始数据进行数据映射,得到映射数据;N为大于0的整数;其中,在第一次交互式生成时,所述原始数据为所述原始数据集中的原始数据;在第K次交互式生成时,所述原始数据为第K-1次交互式生成时得到的映射函数,K为大于1且小于等于N的整数;
采用预设的多维评估模板对所述映射数据进行多维评估,得到多维评估分;
如果所述多维评估分小于预设评估分阈值,将所述映射数据和所述多维评估分输入至所述信息生成模型中,并通过所述信息生成模型基于所述多维评估分对所述映射数据进行下一次交互式生成;
如果所述多维评估分大于或等于所述预设评估分阈值,将所述第N次交互式生成得到的映射数据确定为所述增广数据。
4.根据权利要求3所述的方法,其特征在于,所述采用预设的多维评估模板对所述映射数据进行多维评估,得到多维评估分,包括:
采用预设的多维评估模板对所述映射数据进行多维评估,得到每一评估维度下的评估分;
获取所述待训练信息处理模型对应的信息处理业务标识;
从预设的评估参数库中获取与所述信息处理业务标识对应的评估权重;所述评估权重包括每一所述评估维度下的评估子权重;
基于每一所述评估维度下的评估子权重,对多个评估维度下的评估分进行加权计算,得到所述多维评估分。
5.根据权利要求3所述的方法,其特征在于,所述通过所述信息生成模型基于所述多维评估分对所述映射数据进行下一次交互式生成,包括:
基于所述多维评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;
通过具有所述调整后的模型参数的信息生成模型对所述映射数据进行下一次交互式生成。
6.根据权利要求3所述的方法,其特征在于,如果所述多维评估分大于或等于所述预设评估分阈值,在将所述第N次交互式生成得到的映射数据确定为所述增广数据之前,所述方法还包括:
采用预设的自评估模板,在自然语言维度下对所述映射数据进行自评估,得到自评估分;
如果所述自评估分大于或等于预设的自评估分阈值,则将所述第N次交互式生成得到的映射数据确定为所述增广数据;
如果所述自评估分小于所述自评估分阈值,则基于所述自评估分对所述信息生成模型中的模型参数进行调整,得到调整后的模型参数;并通过具有所述调整后的模型参数的信息生成模型对所述第N次交互式生成得到的映射数据进行下一次交互式生成。
7.根据权利要求1所述的方法,其特征在于,所述对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集,包括:
采用每一所述原始数据与对应的所述增广数据构建问答对;
将全部问答对添加至所述原始数据集中,得到所述增广数据集。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述增广数据集执行以下至少一种处理:
对所述增广数据集中的每一数据进行数据质量分析,得到质量分析结果;并将质量分析结果小于预设质量阈值的数据从所述增广数据集中删除;
确定所述增广数据集中的每一数据与所述待训练信息处理模型对应的信息处理业务之间的相关度;并将相关度小于相关度阈值的数据从所述增广数据集中删除;
确定所述增广数据集中的重复数据,并删除所述重复数据。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述增广数据集划分为训练集、验证集和测试集;
其中,所述训练集用于对所述待训练信息处理模型进行预训练,得到预训练后的信息处理模型;所述验证集用于对所述预训练后的信息处理模型进行性能评估,并基于性能评估结果对所述预训练后的信息处理模型的模型参数进行修正,得到修正后的信息处理模型;所述测试集用于对所述修正后的信息处理模型进行模型使用评估,并基于模型使用评估结果将所述修正后的信息处理模型作为所述训练后的信息处理模型,应用于对所述待处理信息的信息处理。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
将所述训练集划分为多个子训练集;
将所述多个子训练集分别发送至不同的分布式节点,通过所述分布式节点基于所述子训练集对所述待训练信息处理模型进行分布式训练,得到各个分布式节点对应的分布式训练后的信息处理模型;
对各个分布式节点得到的所述分布式训练后的信息处理模型进行训练结果融合,得到所述预训练后的信息处理模型。
11.一种信息处理模型训练方法,其特征在于,所述方法包括:
获取样本数据;其中,所述样本数据是对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据后,对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;所述样本数据中至少包括训练样本集;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;
将所述训练样本集中的训练样本输入至待训练信息处理模型中,通过所述待训练信息处理模型对所述训练样本进行预测,得到预测结果;
将所述预测结果和所述训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;
基于所述损失计算结果对所述待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
12.一种信息处理装置,其特征在于,所述装置包括:
映射模块,用于对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;
数据融合模块,用于对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,得到增广数据集;
第一模型训练模块,用于以所述增广数据集为样本数据,对待训练信息处理模型进行训练,得到训练后的信息处理模型;
信息处理模块,用于采用所述训练后的信息处理模型对待处理信息进行信息处理,得到信息处理结果。
13.一种信息处理模型训练装置,其特征在于,所述装置包括:
样本数据获取模块,用于获取样本数据;其中,所述样本数据是对原始数据集中的原始数据进行数据增广映射,得到与所述原始数据对应的增广数据后,对所述原始数据集中的原始数据和对应的所述增广数据进行数据融合处理,所得到的增广数据集;所述样本数据中至少包括训练样本集;所述数据增广映射是指采用交互式生成方式,将所述原始数据映射为区别于所述原始数据的所述增广数据;
第二模型训练模块,用于将所述训练样本集中的训练样本输入至待训练信息处理模型中,通过所述待训练信息处理模型对所述训练样本进行预测,得到预测结果;将所述预测结果和所述训练样本集中与所述训练样本对应的标注样本输入至损失模型中进行损失计算,得到损失计算结果;基于所述损失计算结果对所述待训练信息处理模型中的模型参数进行修正,得到训练后的信息处理模型。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的信息处理方法,或者,权利要求11所述的信息处理模型训练方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至10任一项所述的信息处理方法,或者,权利要求11所述的信息处理模型训练方法。
16.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品或计算机程序包括可执行指令,所述可执行指令存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现权利要求1至10任一项所述的信息处理方法,或者,权利要求11所述的信息处理模型训练方法。
CN202311525097.3A 2023-11-15 2023-11-15 信息处理及模型训练方法、装置、设备、介质、程序产品 Pending CN117494761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311525097.3A CN117494761A (zh) 2023-11-15 2023-11-15 信息处理及模型训练方法、装置、设备、介质、程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311525097.3A CN117494761A (zh) 2023-11-15 2023-11-15 信息处理及模型训练方法、装置、设备、介质、程序产品

Publications (1)

Publication Number Publication Date
CN117494761A true CN117494761A (zh) 2024-02-02

Family

ID=89674245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311525097.3A Pending CN117494761A (zh) 2023-11-15 2023-11-15 信息处理及模型训练方法、装置、设备、介质、程序产品

Country Status (1)

Country Link
CN (1) CN117494761A (zh)

Similar Documents

Publication Publication Date Title
US20200301954A1 (en) Reply information obtaining method and apparatus
US10503834B2 (en) Template generation for a conversational agent
CN111897941B (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
RU2708941C1 (ru) Способ и устройство распознавания сегментированных предложений для человеко-машинной интеллектуальной вопросно-ответной системы
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113127624B (zh) 问答模型的训练方法及装置
WO2023201975A1 (zh) 一种差异描述语句生成方法、装置、设备及介质
CN116820429B (zh) 代码处理模型的训练方法、装置、电子设备及存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN117149989A (zh) 大语言模型训练方法、文本处理方法及装置
CN113392197A (zh) 问答推理方法、装置、存储介质及电子设备
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
KR20180105501A (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN113535930B (zh) 模型训练方法、装置及存储介质
CN117494761A (zh) 信息处理及模型训练方法、装置、设备、介质、程序产品
CN114328857A (zh) 语句扩展方法、装置以及计算机可读存储介质
CN116414951A (zh) 智能对话方法、模型训练方法、装置、存储介质及设备
KR102441456B1 (ko) 실제 사람의 말투와 문체를 흉내 내는 대화 방법 및 시스템
CN114297353A (zh) 数据处理方法、装置、存储介质及设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN117235236B (zh) 对话方法、装置、计算机设备和存储介质
CN117059082B (zh) 基于大模型的外呼通话方法、装置、介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication