CN118014086A

CN118014086A - 数据处理方法、装置、设备、存储介质及产品

Info

Publication number: CN118014086A
Application number: CN202410421570.1A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-05-10
Anticipated expiration: 2044-04-09

Abstract

本申请公开一种数据处理方法、装置、设备、存储介质及产品，属于人工智能技术领域。上述方法可以获取基础数据集；基于专家模型对基础数据集的媒体对象进行处理得到数据处理结果；根据基础数据集和数据处理结果构建数据子集，上述数据子集中的数据对应于由任务标识和领域标识形成的组合，上述任务标识指示对应的专家模型，上述领域标识指示所属的自然技术领域；在多个数据子集中确定符合目标训练任务要求的训练数据，上述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，上述目标训练任务要求包括任务标识对应的要求或领域标识对应的要求。该方法可以生产出适合大型生成式语言模型训练所需的足量且高质的训练数据。

Description

数据处理方法、装置、设备、存储介质及产品

技术领域

本申请涉及人工智能技术领域，特别涉及一种数据处理方法、装置、设备、存储介质及产品。

背景技术

大型生成式语言模型的训练包括通用的无监督训练以及基于训练结果进行指令调整和强化学习，以完成最终的具体任务。大型生成式语言模型的预训练和后期指令调整的过程都需要收集和处理大量的数据及在各种相关的数据集合上进行验证，因此，数据的获取非常重要。

但是，难以获取高质量数据的技术问题目前已经成为了制约大型生成式语言模型能力的瓶颈问题。相关技术中由于难以获得足够的且高质量的数据会导致大型生成式语言模型缺乏足够的事实知识，无法回忆出事实甚至可能出现幻觉问题。总结来说，就是由于缺少足够且高质的数据可能会导致大型生成式语言模型性能低下。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备、存储介质及产品，能够为大型生成式语言模型提供足够且高质的训练数据，提升大型生成式语言模型本身的能力，显著改善大型生成式语言模型的训练效果。

根据本申请实施例的一个方面，提供了一种数据处理方法，所述方法包括：

获取基础数据集，所述基础数据集包括至少一个媒体形态对应的媒体对象；

基于与所述媒体对象对应的媒体形态适配的至少一个专家模型，对所述媒体对象进行数据处理，得到数据处理结果；

根据所述基础数据集和所述数据处理结果，构建多个数据子集，所述数据子集中的数据对应于由任务标识和领域标识形成的组合，所述任务标识指示所述数据对应的专家模型，所述领域标识指示所述数据所属的自然技术领域；

在所述多个数据子集中确定符合目标训练任务要求的训练数据，所述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，所述目标训练任务要求包括所述任务标识对应的要求或所述领域标识对应的要求。

根据本申请实施例的一个方面，提供了一种数据处理装置，所述装置包括：

基础数据获取模块，用于获取基础数据集，所述基础数据集包括至少一个媒体形态对应的媒体对象；

数据生产模块，用于基于与所述媒体对象对应的媒体形态适配的至少一个专家模型，对所述媒体对象进行数据处理，得到数据处理结果；以及，根据所述基础数据集和所述数据处理结果，构建多个数据子集，所述数据子集中的数据对应于由任务标识和领域标识形成的组合，所述任务标识指示所述数据对应的专家模型，所述领域标识指示所述数据所属的自然技术领域；

训练数据确定模块，用于在所述多个数据子集中确定符合目标训练任务要求的训练数据，所述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，所述目标训练任务要求包括所述任务标识对应的要求或所述领域标识对应的要求。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述数据处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述数据处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述数据处理方法。

本申请实施例提供的技术方案可以带来如下有益效果：

本申请实施例提出一种数据处理方法，该方法可以获取用于训练大型生成式语言模型的足量且高质的训练数据。本方法所生成的训练数据是一种浓缩的、且准确率能够保证事实和质量的数据，因此该训练数据对大型生成式语言模型的能力增强非常有意义，高质量的数据可以减少对GPU（Graphic Processing Unit，图形处理器）计算资源的消耗，加速模型的收敛和降低训练成本。

该训练数据的获取方法充分利用了目前信息世界中已经积累的大量有价值的高质量的专家模型，根据专家模型的输出结果，提升各技术领域各自的数据的泛化能力和数据总量，进而得到适合用于训练大型生成式语言模型的浓缩的、且准确率能够保质事实和质量的数据。

事实上，该方法从原始数据源头到实际训练大型生成式语言模型的数据消费端，构建一套完整的数据处理链路，该数据处理链路形成数据获取、由专家模型参与的数据扩充和数据形成、结合数据筛选的完备路径，该完备路径可以生产出适合大型生成式语言模型训练所需的足量且高质的训练数据。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的数据处理方法的流程图；

图3是本申请一个实施例提供的数据子集构建方法流程示意图；

图4是本申请一个实施例提供的训练数据确定方法流程示意图一；

图5是本申请一个实施例提供的训练数据确定方法流程示意图二；

图6是本申请一个实施例提供的训练方法流程示意图；

图7是本申请一个实施例提供的数据处理方案的框架示意图；

图8是本申请一个实施例提供的一种信息流内容服务系统的技术框架示意图；

图9是本申请一个实施例提供的数据处理装置的框图；

图10是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

自然语言处理（NLP）：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

LLM：大型生成式语言模型(英文Large Language Model，简称LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步，并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子，随着输入数据集与参数空间的不断扩大，LLM的能力也会相应提高。它用于多种应用领域，如机器人学、机器学习、机器翻译、语音识别、图像处理等，所以被称为多模态大型生成式语言模型(MLLM)。

Prompt tuning: 提示学习，机器学习当中的一类学习方法：在不显著改变预训练语言模型结构和参数的情况下，通过向输入增加“提示信息”、作为一种信息增强来大幅改善模型的效果，他可以看作是一种对任务的指令，同时也是一种对预训练目标的复用，其本质是参数有效性训练的增强，通过单独生成prompt模板，然后在每个任务上进行微调与评估。

媒体对象：媒体对象可以被理解为通过各种媒体形式传播的信息和资料。媒体可以是文字、图像、音频、视频、短视频、图文等多种形式，而媒体对象则是指这些媒体形式所承载的具体信息。

Transformer：是一种神经网络，它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer 模型应用了一组不断发展的数学技术，称为注意力或自我注意力，以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。

ChatGPT：是一种大型生成式语言模型，属于生成式预训练Transformer模型。

Instruction Tuning：指令微调，是指针对每个任务，单独生成指令（instruction），通过在若干个任务上进行微调，然后在具体的任务上进行评估泛化能力。通常是在公开的大量的NLP任务数据集合上进行的，用于激发语言模型的理解能力，通过给出更明显的指令，让模型去理解并做出正确的反馈。

Token：在 NLP 中，Token通常是指将文本分割为最小的有意义的部分或单位，可以作为最小预测目标。

在具体阐述本申请实施例之前，对与本申请实施例有关的相关技术背景进行介绍，以便于本申请领域技术人员理解。

随着技术的快速发展，自从2022年底ChatGPT出现之后，各种类型大型生成式语言模型发展快速，主体架构都是基于Transform模型的。除了ChatGPT以外，还有LLaMA，LLaMA是包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合，以及GLM-130B，GLM-130B是一个开放的双语（英汉）双向密集预训练语言模型，拥有 1300亿个参数，使用通用语言模型（General Language Model， GLM）的算法进行预训练。这些大型生成式语言模型经过Instruction Tuning可以执行各种任务。

在全世界对象均作为数据的生产者和消费者而不断发展的信息世界中产生了海量数据，对象在这些不同的场景中可以发布多种形态的媒体对象，有文本，图片，音频，视频内容等等。不仅媒体对象形态多种多样，媒体对象的内容也涉及到各个领域。而多模态的大型生成式语言模型十分适合针对这些媒体内容的内容提供问答服务。但是，大型生成式语言模型（也包括多模态的）在实际应用当中存在诸多问题。比如LLM 会记忆训练数据中事实和知识，但是经常无法回忆出事实且出现幻觉问题，即生成具有错误事实的表述以及生成结果缺少对对应领域的深度知识和理解。

大型生成式语言模型的训练包括通用的无监督训练以及基于训练结果进行指令调整和强化学习，以完成最终的具体任务。大型生成式语言模型的预训练和后期指令调整的过程都需要收集和处理大量的数据及在各种相关的数据集合上进行验证，因此，数据的获取非常重要。获取到的数据并非数量越多越好，因为数据越多，需要消耗的计算资源和周期越长，成本越高。因此，数据获取的关键在于确保和提升获取到的数据的质量。

相关技术主要通过从公开数据和开源数据集中获取数据，但是这些数据缺少标记难以被直接使用，而标记和处理的成本都非常高。而且，在一些具体的特定技术领域，比如医学，教育，法律等领域拥有一堆非常专业、特有且不断更新的知识语料，这些知识语料是难以获取的。在机器学习领域，数据是模型的知识和能力的源泉。虽然大型生成式语言模型能力的学习能力很强，但是，难以获取高质量数据的技术问题依然成为了制约大型生成式语言模型能力的瓶颈问题。

相关技术中由于难以获得足够的且高质量的数据会导致大型生成式语言模型缺乏足够的事实知识，无法回忆出事实甚至可能出现幻觉问题。在特定业务领域，领域内部甚至都可能没有充分的垂类知识，这也会进一步造成大型生成式语言模型的幻觉问题，总结来说，就是由于缺少足够且高质的数据而导致大型生成式语言模型性能低下。

有鉴于此，本申请实施例提出相关技术中用于训练大型生成式语言模型的数据质量难以提高的三个主要原因：第一、难以获得足够的且高质量的数据；第二、很多关键的特定领域的垂类知识缺失；第三、特定业务领域的知识或者数据难以很好地泛化以供大型生成式语言模型学习。

基于本申请实施例提出的前述三个主要原因，本申请实施例提出获取用于训练大型生成式语言模型的足量且高质数据的发明构思：

第一、本申请实施例提出如果能够使用浓缩的、且准确率能够保质事实和质量的数据来进行大型生成式语言模型预训练，那么对大型生成式语言模型的能力增强非常有意义，高质量的数据可以减少对GPU（Graphic Processing Unit，图形处理器）计算资源的消耗，加速模型的收敛和降低训练成本。

考虑到目前的信息世界中已经积累了大量有价值的高质量的专家模型，比如用于进行字符识别的OCR（Optical Character Recognition，光学字符识别）识别模型、可以实现各种粒度的目标检测模型，ASR（Automatic Speech Recognition，自动语音识别技术）识别模型、图像标注模型等，图像标注模型是一种能够从图像中自动提取信息并生成自然语言描述的模型。本申请实施例提出通过多种专家模型对于信息世界中各种领域已有数据进行处理，得到专家模型输出的数据处理结果，使用专家模型输出的数据处理结果作为专家意见扩充已有数据，从而提升特殊技术领域和普适性技术领域各自的数据的泛化能力和数据总量，再从泛化能力和数据总量都被提升的数据中进行进一步的数据处理和数据浓缩，得到适合用于训练大型生成式语言模型的浓缩的、且准确率能够保证事实和质量的数据。

信息世界中的已有数据包括了各技术领域的知识文档、知识图谱以及各种存储形态下的媒体对象，这些已有数据本身可以经过严格确认和质量保证，并且生成这些数据的处理逻辑和历史服务也存在，自身的内容质量和内容价值都很高，根据这些已有数据结合专家模型可以得到泛化能力和数据总量都被提升的数据，从而为大型生成式语言模型的训练数据获取打下坚实基础。

第二、本申请实施例提出可以通过增加数据多样性提升训练数据质量，根据大型生成式语言模型的具体任务需求，确定各技术领域各自对应的数据或者数据集合的配比，确保训练数据的结构平衡可以很大程度上提升训练效果。

第三、本申请实施例提出从原始数据源头到实际训练大型生成式语言模型的数据消费端，构建一套完整的数据处理链路，该数据处理链路形成数据获取、数据扩充、数据形成和数据筛选的完备路径，该完备路径可以生产出适合大型生成式语言模型训练所需的足量且高质的训练数据。具体包括了数据预处理，专家模型处理，Prompt生成及处理，数据质量分级和基于分级结果的数据筛选。具体地，为了更好适配中文环境，该数据处理链路可以使用中文和英文的媒体对象，充分利用专家模型参与数据处理全流程，充分利用各个垂直领域积累的知识素材，实现多种模态下数据的相互转化，得到多种模态的数据，进一步提升数据质量。

第四、根据大型生成式语言模型的历史训练结果对该数据处理链路生产出来的数据进行反馈评测，从而根据反馈结果淘汰生产出来的低质量的数据，提升训练数据质量。评测阶段和数据的生产阶段关联起来，形成数据质量管理闭环。

第五、生产出的数据携带专家模型对应的任务标识，该任务标识可以作为大型生成式语言模型训练的学习目标，相当于通过任务标识引入一个可学习的外部数据信号，在实际训练数据和预测推理的时候可以加入空的Token，引导大型生成式语言模型激活对应的学习能力，提升最终构建的模型的效果，同时也能够减少对训练过程当中数据数量的依赖。并且，基于任务标识还可以调整训练数据中来自各专家模型的数据的数量占比，保证数据多样性。

综上上述，本申请实施例提出一种数据处理方法，该数据处理方法通过实施前述五项发明构思达到生产出足量且高质的训练数据的技术目的，该数据处理方法至少存在下述有益效果：

第一、能够通过高效的大模型数据处理链路和数据质量筛选处理过程来生产足量且高质的满足大型生成式语言模型各种训练需求的训练数据，降低训练数据获取难度和处理成本，提升研发效率；

第二、对训练数据进行明确的数据质量分级和质检，通过引入专家模型参与训练数据的构建，达到利用少量高质量的数据可以让大型生成式语言模型学习到更多的领域知识，减少和降低模型的实施性错误，减少GPU算力的消耗和加快模型本身训练的速度等技术效果；

第三、能够充分利用信息世界已有数据，提升训练数据质量，通过专家模型对已有数据进行特点标记，扩充已有数据信息量，并将专家模型的任务标识融入模型的训练过程，有效提升和激活模型对应领域的处理能力；

总之，通过本申请实施例提供的数据处理方案，可以从数据收集和处理角度入手，构建大型生成式语言模型训练的所需的训练数据对应的数据处理链路，最终改善和提升训练数据的构建效率和提升大型生成式语言模型本身的能力，为其增加对各个垂直领域的适配和社交网络多场景的业务支持，可以更好地服务各个不同业务领域训练符合自身需求的大型生成式语言模型，比如内容理解领域，内容推荐搜索领域及对话机器人领域等等，这些业务领域可以涵盖多种业务场景，比如知识问答，长尾搜索，多语言翻译，逻辑推理，角色扮演，内容摘要，智能文案，多模态对话，作业批改，智能助手，聊天辅助，闲聊机器人，智能助理虚拟数字人，写诗/写作文等等.

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供数据处理服务的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以提供依赖数据处理的信息流内容服务。例如，新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实（Virtual Reality，VR）类应用程序、增强现实（Augmented Reality，AR）类应用程序等，本申请实施例对此不作限定。本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。在一些实施例中，上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容，并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content DeliveryNetwork，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参考图2，其示出了本申请一个实施例提供的数据处理方法的流程图。该方法可应用于计算机设备中，上述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤：

步骤201，获取基础数据集，上述基础数据集包括至少一个媒体形态对应的媒体对象。

本申请实施例并不对媒体对象进行限定，可选地，上述媒体对象可以包括但不限于文本内容对象、图片内容对象、图文内容对象、音频内容对象、视频内容对象、音视频内容对象、音视频图文内容对象。

本申请实施例并不限定基础数据集中媒体对象涉及到的领域，比如，其可以涉及到目前信息世界中各个自然技术领域，包括日常领域和特殊领域，技术领域越多，越有利于后续所得到的训练数据的质量的提升。

本申请实施例中的媒体对象可以涉及到多种媒体形态，图文、视频、音频等媒体形态的综合覆盖也提升了后续所得到的训练数据的质量。

本申请实施例并不对基础数据集的获取方式进行限定，只要是从信息世界中的合法途径经过充分授权的数据获取方法都可以用于获取该基础数据集。为了确保基础数据集的质量，可以对该基础数据集进行下述至少一项处理，这些处理方案可以自由组合并且不限定执行顺序：

（1）将不同格式的数据解析为统一格式，将数据以数据字典形式进行存储。比如，原始的数据可以有不同的数据格式，例如可以是下述格式：JSON, LMDB , CSV, Parquet，统一被解析为JSON格式。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它采用完全独立于语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。LMDB (Lightning Memory-Mapped Database) 是一个超快速、超紧凑、持久的键值存储数据库。CSV（Comma Separated Values）是一种简单的文件格式，用于存储表格数据，如电子表格或数据库。Parquet是一种列式存储格式，主要用于分析型业务。它结合了按列的高效压缩和编码技术，有助于降低存储空间、并降低上层应用的延迟。

（2）格式清洗，比如对基础数据集中来自公开网页，或者使用网页解析器从源网页中提取的数据进行清理，去除无用的网页分割标识和表情符号等不包含实质内容的数据。

（3）过滤基础数据集中的低质量数据。举个例子，可以根据网页中的文本与内容的比例来评估数据质量，比如排除文本密度低于75%或包含少于100个中文字符的网页。当然，低质量数据的评估方式可以结合下游大型生成式语言模型执行目标训练任务的目标训练任务要求来具体确定。

（4）数据去重。由于获取基础数据集的来源和渠道很多，某些网站可能会重复发布相同的信息，所以需要对数据进行去重。本申请实施例并不限定去重的具体方法，比如可以使用局部敏感哈希算法，去除重复内容，同时保留训练数据的多样性。

（5）敏感信息保护。基于充分尊重隐私安全的考量，可以对基础数据集中的数据进行隐私保护。本申请实施例并不限定隐私保护方法，比如可以使用正则表达式来识别某些特定信息，如特定的号码、或电子邮件地址，并用特殊标记进行替换，还有一些涉及安全类的特殊数据也需要进行敏感信息保护。

（6）特殊数据过滤，可以过滤一些与大型生成式语言模型训练无关的数据。

步骤202，基于与上述媒体对象对应的媒体形态适配的至少一个专家模型，对上述媒体对象进行数据处理，得到数据处理结果。

本申请实施例中专家模型可以指代不同领域的专业模型。专家模型（ExpertModel）涉及多个领域，如自然语言处理、计算机视觉、语音识别、多模态学习等。本申请实施例中可以通过专家模型对媒体对象进行处理，得到数据处理结果，根据数据处理结果扩充数据内容从而得到更多更优质的数据。并且数据处理结果也可以用于为媒体对象进行标注，即提供真值数据，从而减轻人为标注的负担。

由于存量世界有大量的专业模型（专家模型）构建和处理知识文档，比如论文，书籍，题库等等，以及构建各种知识图谱，专家模型具备专家知识，而被专家模型处理过的知识文档和知识图谱包括大量的各种经过严格确认和能保障质量的数据集合，并且基于专家模型生成数据集合这个过程中，使用的和生成的知识处理逻辑和历史服务也存在，这些内容不仅是花费大量的资源和成本获取的，也是非常有价值的高质量内容，这些都可以成为高质量训练数据的一部分。

本申请实施例并不对专家模型进行限定，专家模型可以包括下述至少一个：

细粒度目标检测检测模型：计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替。人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。细粒度目标检测（Fine-grained Object Detection）是计算机视觉中的一个重要任务，旨在识别图像中特定类别的目标，并对这些目标进行精确的定位。与一般的目标检测任务不同，细粒度目标检测更加注重对目标细微差别和局部特征的捕捉。

Caption生成模型：Caption生成模型也称为图像描述生成模型或图像字幕生成模型，是一种用于根据图像内容生成相应文本描述的模型。这种模型的目标是将图像中的视觉信息转化为自然语言文本，以便人们能够理解和解释图像内容。Caption生成模型通常使用深度学习技术。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

人脸检测模型或人脸识别模型：人脸检测模型和人脸识别模型是计算机视觉领域中非常重要的两种模型。人脸检测模型的主要任务是确定图像中是否存在人脸，并标注出人脸的位置。这通常涉及到对图像的分析和处理，以便识别出其中的面部特征。人脸识别模型则更加复杂，它的主要任务是对检测到的人脸进行身份识别。这通常涉及到提取人脸的特征信息，然后与已知身份的人脸信息进行比对，从而确定身份。

OCR识别模型：OCR识别模型通过扫描和识别文档、图片中的文字，将其转换成可编辑和搜索的文本格式。OCR识别模型主要基于机器学习和深度学习算法，对图像中的文字进行定位和识别。

ASR识别模型：ASR（Automatic Speech Recognition，自动语音识别）识别模型是一种将人类语音转化为计算机可读的文本或命令的技术。

知识图谱扩展模型：知识图谱扩展模型是一种旨在扩展和丰富已有知识图谱的模型。知识图谱是一种用于表示实体之间关系的图形化数据结构，通常包括实体节点和关系边。知识图谱扩展模型的主要目标是发现新的实体和关系，并将其添加到已有的知识图谱中，以丰富和完善图谱的内容和结构。

翻译模型：翻译模型（Translation Model）通常指的是在机器翻译领域中使用的模型，旨在将一种自然语言自动翻译成另一种自然语言。翻译模型的核心任务是在保持原文语义的基础上，生成流畅、准确的译文。

通过这些专家模型对基础数据集中的数据进行加工和处理，从数据本身当中挖掘对应的信息，并且这些信息和原始的数据形成对应的关系，即得到数据对，比如形成文本—图像对、语音—文本对等，如果是英文内容通过翻译模型构建对应的中文语料得到双语料对，这些数据对非常适合作为大型生成式语言模型进行监督和微调的训练数据。举个例子，数据对可以在多模态大型生成式语言模型的训练时用于构造SFT指令微调数据集合。SFT是监督微调（Supervised Fine-Tuning）的缩写，这是一种常见的深度学习策略，通常在预训练的大型生成式语言模型上使用。

步骤S203. 根据上述基础数据集和上述数据处理结果，构建多个数据子集，上述数据子集中的数据对应于由任务标识和领域标识形成的组合，上述任务标识指示上述数据对应的专家模型，上述领域标识指示上述数据所属的自然技术领域。

每个数据子集包括对应的任务标识以及对应的领域标识，从而可以根据任务标识和/或领域标识来筛选合适的数据子集以用于生成特定的符合目标训练任务要求的训练数据，上述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求。这样可以使得本申请实施例实现自动化的训练数据生产和训练数据筛选，实现产业化的流水线模式的大型生成式语言模型的训练数据的数据准备，从而填补相关技术在难以自动得到训练数据方面的技术空白。

本申请实施例并不限定数据子集获取方法，其可以根据基础数据集和上述数据处理结果得到各种数据对，然后构建得到多个数据子集，数据子集的具体获取方法不构成本申请实施例的实施障碍。请参考图3，其示出本申请实施例提供的数据子集构建方法流程示意图。

S301.获取至少一个训练任务对应的提示模板，上述提示模板用于指示大型生成式语言模型进行对应的提示学习；

不同的提示模板可以用于实施不同的训练任务。提示模板（Prompt）在人工智能和自然语言处理领域中，特别是在使用大型生成式语言模型（LLM）是一个重要的概念。Prompt是用来引导模型生成特定类型输出的文本或指令。通过设计合适的Prompt，可以控制模型的行为，使其产生符合期望的输出。Prompt可以视为一种上下文或提示，它告诉模型希望它做什么。这可以是一个简单的问题、一个描述、一个指令或一个情境。通过适当地构造Prompt，可以影响模型的输出，使其更加精确、有用或符合特定的格式。

大型生成式语言模型除了基础预训练任务外，可以通过Instruction Tuning方式对模型进行微调，此时需要按照大型生成式语言模型支持的典型的基础任务，比如NLP（自然语言处理）相关的分类，聚类，摘要，写作，标签，提炼，翻译任务等，CV（计算机视觉）领域相关的比如问答，目标检测，Caption（图像标注）等等，通过Prompt实现InstructionTuning，本申请实施例提出通过结合提示模板Prompt进一步扩展数据，构建数据子集。

在一个实施方式中，可以构建Prompt库，Prompt库中各Prompt模板分别是适配各种Instruction Tuning的具体下游任务的提示模板。针对不同的专家模型的任务结合大型生成式语言模型用于执行Instruction Tuning的具体下游任务可以选择对应的Prompt模板，以Prompt模板作为专家任务的输出和下游的LLM模型的训练数据之前的连接数据，实现下游的LLM模型的训练数据的“目标数据形式”和“专家模型输入输出数据形式”之间的转化，例如将专家模型输出的分类数据的类别信息转化为文本描述；或将专家模型的检测框输出转化为文本描述，可以分别选用不同的Prompt模板。

在一个具体的实施方式中，所谓模板库的Prompt模板就是不同的提问方式，通过提问来实现数据连接和数据转化，比如对于摘要任务，Prompt模板的内容可以是“请对【XXX】内容进行提炼和总结，不超过XX字，结果为XXXX”，然后基于基础数据集中的数据和专家模型的输出得到具体的训练数据，该训练数据契合具体的训练任务，比如该训练数据可以被处理为SFT样例数据。

S302.根据上述基础数据集、上述数据处理结果和每一上述提示模板，生成基础训练数据，上述基础训练数据包括训练任务标识，上述训练任务标识指示对应的提示模板所对应的训练任务；

根据具体的下游的大型生成式语言模型的训练任务可以确定出需要哪种训练数据，该训练数据的形态与Prompt模板相关，因此，根据上述基础数据集、上述数据处理结果和每一上述提示模板，生成的基础训练数据包括三种标识，分别为表征来自哪个专家任务的任务标识，表征适配何种下游训练任务的训练任务标识，以及属于哪个技术领域的领域标识，这些标识用于后续的训练数据筛选。

S303.根据各上述基础训练数据，构建上述多个数据子集。

各个数据子集也包括三种标识，分别为表征来自哪个专家任务的任务标识，表征适配何种下游训练任务的训练任务标识，以及属于哪个技术领域的领域标识，这些标识用于后续的训练数据筛选。通过构建丰富的数据子集，可以根据具体的下游大型生成式语言模型的训练要求选择合适的数据子集，参与构成训练数据。

步骤S204. 在上述多个数据子集中确定符合目标训练任务要求的训练数据，上述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，上述目标训练任务要求包括上述任务标识对应的要求或上述领域标识对应的要求。

根据数据子集中的任务标识、训练任务标识和领域标识即可对数据子集进行筛选，得到符合目标训练任务要求的训练数据，本申请实施例不限定具体的筛选方法，不构成实施障碍。目标训练任务要求指的是下游执行的大型生成式语言模型的具体训练任务的训练要求，从而实现了本申请该实施例自由为各种下游的大型生成式语言模型的具体训练任务都提供合适的足量且高质的训练数据的技术目的。

请参考图4，其示出本申请实施例的训练数据确定方法流程示意图一。上述在上述多个数据子集中确定符合目标训练任务要求的训练数据，包括：

S401.根据上述目标训练任务要求，确定第一分配信息或第二分配信息，上述第一分配信息指示上述训练数据中至少两个领域标识各自对应的数据的比例分配关系，上述第二分配信息指示至少两个任务标识各自对应的数据的比例分配关系；

第一分配信息指示要选择哪些技术领域的数据子集参与构成训练数据，以及各个技术领域各自占比多少，第二分配信息指示要选择哪些专家任务生成的数据子集参与构成训练数据，以及各个专家模型参与生成的数据各自占比多少。定第一分配信息或第二分配信息根据目标训练任务要求确定，实现了本申请实施例为具体的下游任务自动确定合适的训练数据的技术目的，当然，本申请实施例不限定第一分配信息或第二分配信息的确定方法，不构成实施障碍。

在一个实施方式中，上述第一分配信息或上述第二分配信息基于下述至少一个分配要求得到：

（1）数据量级要求，上述数据量级要求用于限定训练数据的数量。

不同参数量的大型生成式语言模型所需的训练数据的体量是不同的，该体量可以被记录在目标训练任务要求中，用于限定根据目标训练任务要求确定从数据子集中筛选多少训练数据。本申请实施例中可以基于预设的数量规则来确定筛选多少数据，举个例子，每个参数需要大约 20 个token进行训练，那么参数体量为7字节的模型需要140字节个token，若每个token使用四字节进行编码的话，就是560GB的数据，形成了本申请实施例的数字量级标准，训练数据体量与大型生成式语言模型参数量成正比。

（2）最高比例要求，上述最高比例要求用于限定上述训练数据中属于预设数据来源的数据的最高占比；

本申请实施例提出不同数据子集的混合比例对于训练数据质量有重要影响。通过合理将来自不同来源，即对应不同任务标识、不同训练任务标识、不同领域标识的数据子集组合在一起，可以显著提升训练数据质量。本申请实施例提出对应不同任务标识、不同训练任务标识、不同领域标识的数据子集在训练时的表现各有利弊，比如数学题目这种类型的数据作为训练数据，具备损失低，学习速度快的优势，对比之下，书籍或多样化的网络文本数据需要更长学习时间。不同数据展现不同程度的泛化能力，例如：网页文本、百科全书和问答数据作为训练数据可以使得模型在多个数据源上展现出较强的泛化能力，相比之下，学术论文和代码数据作为训练数据得到的模型在数学能力上表现出色，但泛化方面较弱。

因此，本申请实施例提出最高比例要求，限定上述训练数据中属于预设数据来源的数据的最高占比，来保证训练数据的质量。比如，在一个实施方式中，限定数学题目数据的比例不得高于对应的最高占比，利用代码和学术数据来增强模型的数学能力，同时避免出现过拟合。

（3）最低比例要求，上述最低比例要求用于限定上述训练数据中属于预设数据来源的数据的最低占比。

本申请实施例进一步提出最低比例要求，上述最低比例要求用于限定上述训练数据中属于预设数据来源的数据的最低占比，来保证训练数据的质量。比如，保持来自高质量网络文本和百科全书的数据的比例在50%以上，因为它们具有多样性，可以提升模型泛化能力。保留对话和书籍数据比例在20%以上，有助于学习长程依赖关系。

S402.根据上述第一分配信息或上述第二分配信息，在上述多个数据子集中确定符合上述目标训练任务要求的训练数据。

本申请实施例并不对第一分配信息和第二分配信息的获取方法进行限定，其可以根据具体目标训练任务要求被确定。请参考图5，其示出本申请实施例中训练数据确定方法流程示意图二。上述根据上述第一分配信息或上述第二分配信息，在上述多个数据子集中确定符合上述目标训练任务要求的训练数据，包括：

S501.提取上述目标训练任务要求中的目标训练任务标识；

目标训练任务标识指示下游的大型生成式语言模型所执行的是哪种训练任务，每种训练任务都对于自身使用的训练数据有对应的要求，而数据子集中也包括训练任务标识，只有与目标训练任务标识契合的训练任务标识的数据子集才合适用在目标训练任务要求对应的目标训练任务中。本申请实施例可以支持下述至少一个训练任务：

PLM训练任务：PLM（Pre-trained Language Model）训练通常分为两个阶段：预训练阶段和微调阶段。因此，本申请实施例可以分别支持PLM预训练任务和PLM微调任务。预训练阶段PLM利用大量的无监督数据进行训练，以学习语言的通用特征。PLM进入微调阶段后针对具体的NLP任务进行训练，以调整模型的参数，使其更好地适应特定任务。这些任务可以包括文本分类、命名实体识别、情感分析、问答系统等。PLM主要是基础语料通常可以不需要是数据对，纯文本或者图片数据即可。

SFT训练任务：SFT（Supervised Fine-Tuning）是自然语言处理中一种常用的模型微调方法。它是基于有监督学习的，意味着在微调过程中，使用带有标签的数据来训练模型，使其更好地适应特定的任务。与无监督的预训练阶段不同，SFT的目标是优化模型在特定任务上的性能。SFT是有监督的数据，通常是文本问题和回答的数据对，或图片和文本描述的数据对。

RLHF训练任务：人类反馈强化学习（Reinforcement Learning with HumanFeedback，RLHF）是强化学习的一个扩展，它将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外，RLHF 代理从人类得到反馈，以更广泛的视角和更高的效率学习，与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁，RLHF 允许人类直接指导机器，并允许机器掌握明显嵌入人类经验中的决策要素，作为一种有效的对齐技术，RLHF 能够一定程度上帮助减轻大型生成式语言模型（LLM）产生的有害内容并提高信息完整性。

S502.在上述多个数据子集中，提取训练任务标识与上述目标训练任务标识一致的基础训练数据，得到多个基础训练数据子集；

根据目标训练任务的训练任务标识筛选多个数据子集，得到基础训练数据子集，也就是说，基础训练数据子集中的数据都契合目标训练任务。

S503.根据上述第一分配信息或上述第二分配信息，在上述多个基础训练数据子集中确定训练数据。

根据第一分配信息和/或第二分配信息中的比例在上述多个基础训练数据子集中进行筛选，筛选结果即为训练数据。

在一个实施方式中，为了保证筛选质量，可以对多个数据子集中的数据进行数据质量分级，本申请实施例中不限定质量分级方法。比如，可以包括人工抽检定级和基于大型生成式语言模型对数据子集质量进行打分分级。训练数据的数据质量对于大型生成式语言模型的调优非常重要。人工方式定义数据质量分级通常可以分为5档（5分最高，1分最低），一种典型的方式是通过人工均匀抽检数据子集当中的记录，对数据的质量进行抽检和统计，然后每按照100条数据当中有质量问题的记录条数划分为不同的档位来度量数据子集的质量，问题越少打分越高。如果打分过低，比如低于3分，则该数据子集不作为训练数据的备选。

在一个实施方式中，还可以基于上述多个数据子集中的数据的历史训练结果，确定上述数据对应的质量参数，上述质量参数指示对应的数据相对于历史训练任务的数据质量，数据质量用于量化历史训练效果。该质量参数其实就是衡量历史使用对应的数据子集中的数据进行训练时效果的好坏，如果效果好，则质量参数高，如果效果差，则质量参数低。

在一个实施方式中，上述目标训练任务要求还包括质量筛选条件，提取上述目标训练任务要求中的质量筛选条件；在上述多个数据子集中质量参数符合上述质量筛选条件的数据中，确定符合上述目标训练任务要求的训练数据。比如，该质量筛选条件约定参与筛选的数据子集的质量参数高于目标训练任务要求中的质量阈值，当然，该质量阈值与具体的目标训练任务有关。

在一个实施方式之前，上述在上述多个数据子集中确定符合目标训练任务要求的训练数据之前，上述方法包括：响应于训练数据订阅请求，提取上述训练数据订阅请求中上述目标训练任务的描述数据，上述描述数据用于描述下述至少一项内容：训练数据对应的业务场景、训练数据对应的训练阶段、训练数据对应的训练方法、训练数据对应的使用目的；根据上述描述数据，确定上述目标训练任务要求。

训练数据对应的业务场景可以是各种需要大型生成式语言模型的业务场景，比如智能问答、智能绘图、智能决策、文案分析、图像处理等等。训练阶段指的是预训练或者微调训练，训练方法可以指监督或无监督训练方法，训练数据的使用目的可以指训练或验证。根据上述描述数据，确定上述目标训练任务要求。具体来说，可以确定质量参数、目标训练任务标识、第一分配信息或第二分配信息。

除了混合比例，训练方法也影响大型生成式语言模型的学习能力，本申请实施例中使用专家模型进行了数据扩充，而不同的专家模型具备对应的任务标识，本申请实施例提出将该任务标识作为学习对象，可以激发大型生成式语言模型对该任务标识进行预测学习，从而激活模型能力，也就是在大型生成式语言模型原本的训练内容中额外叠加任务标识学习。请参考图6，其示出本申请实施例的训练方法流程示意图。上述训练数据包括任务标识，上述在上述多个数据子集中确定符合目标训练任务要求的训练数据之后，上述方法还包括：

S601.触发上述大型生成式语言模型基于上述训练数据执行上述目标训练任务，得到输出的任务执行结果，上述任务执行结果包括预测任务标识；

在模型推理的时候，加入空的Token，引导语言模型激活对应的能力，在输出的时候，该Token的预测值，即预测任务标识与任务标识的差异也作为模型损失的一部分，这样就可以引导模型对于任务标识进行分类识别。该Token是额外加的，也就是不影响模型原本的训练任务。以专家模型执行的是VQA任务为例，VQA（Visual Question Answering，视觉问答）任务是一种涉及计算机视觉和自然语言处理的多模态任务。可以设计一个专门的[vqa]标记，[vqa]标记就是对应VQA的预测任务标识，同理，Caption类型的任务，设计一个专门的[caption]标记，对于对象分析可以设计一个[detection]标记，通过这些标记明确引入外部数据本身的类型信息，即任务标识的信息，帮助大型生成式语言模型激活其自身的推理能力。

S602.基于上述训练数据的任务标识和上述预测任务标识之间的差异，调整上述大型生成式语言模型的参数。

在原本的损失的基础上，叠加基于上述训练数据的任务标识和上述预测任务标识之间的差异产生的损失，得到综合损失，然后基于综合损失调整上述大型生成式语言模型的参数。本申请实施例并不限定损失量化函数，不构成实施障碍。也不限定叠加方式，不构成实施障碍。

请参考图7，其示出本申请实施例提出的数据处理方案的框架示意图。对于大型生成式语言模型，包括多模态大型生成式语言模型，多样且高质量的数据对于最后模型的训练十分关键。为提高数据迭代的效率和效果，需要一套大模型数据处理框架来实现对多模态数据的模块化管理和自动加工，与手动管理相比，这种方法更加高效和灵活，对于已有的知识和专家模型能够得到更大程度的利用，而且可以通过数据来源及渠道给予针对性的训练。该大模型数据处理框架具体执行本申请实施例中的数据处理方法。

该大模型数据处理框架形成了管道式的闭环数据处理，原始训练数据指的就是从信息世界收集而来的最初的基础数据集，经过数据管线处理链路进行数据预处理、专家模型的数据扩充、基于提示模板的数据生成后得到多个数据子集，结合人工和机器的质量分级，可以对数据子集的质量进行控制。获取下游的各大型生成式语言模型，比如大模型1、大模型2、大模型N（N是大于2的整数）的具体训练任务后，根据数字量级标准和数据特征及类型，得到具体的目标训练任务的任务描述，根据该任务描述可以生成订阅任务，基于该订阅任务得到目标训练任务要求，根据该目标训练任务要求即可在各数据子集中进行筛选，从而得到训练数据，实现从原始训练数据到训练数据消费端的完备链路。

在示例性实施例中，上述数据处理方法可应用于信息流内容服务系统。请参考图8所示，其示例性示出了一种信息流内容服务系统的技术框架示意图。图8所示的信息流内容服务系统中各个服务模块及其主要功能如下。

一、端

（1）通过和消息与内容业务接入服务器通讯，完成消息功能上下行，另外内容生产者通过移动端或者后端接口系统，提供本地或者拍摄的视频，这些都是分发内容的主要内容来源，也可以认为是一个广义的端；

（2）内容与社交业务生态当中各种场景的功能的承载的载体，可以是真实用户也可以是各种各样的对话机器人，这些机器人可以具备虚拟形象和用户进行沉浸式对话（比如智能助手，聊天辅助，闲聊机器人，智能助理虚拟数字人），具备各个垂直领域的背景知识等等；

（3）发布内容的时候，通常先获取上传服务器接口地址，然后再上传本地文件，拍摄过程当中本地图文内容可以选择搭配的音乐，滤镜模板和滤镜的美化功能等等；

（4）和上报分析接口服务器通讯，收集社交网络场景下各个子业务场景下详细的用户的动作及反馈数据，将收集的数据保存在统计分析数据库当中，作为分析平台用户数据属性基础数据源，比如用于指导需要构建什么类型对话机器人，需要具备哪些领域的知识；

二．消息与内容业务接入服务器

（1）和端同步，完成消息的上下行通讯及同步；

（2）将消息内容通过消息队列系统与消息内容数据库存储及索引系统对接，完成消息存储处理逻辑；

（3）和内容生产端直接通讯，从前端提交的内容，通常是内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频直接通过该服务器进入服务端，把文件存入消息与内容数据库；

（4）将视频内容的元信息，比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等信息写入消息与内容数据库；

三．消息与内容数据库

（1）临时保存用户对话的消息，实现消息的漫游和多端消息的同步，比如点对点的消息和群组的消息，在好友列表当中添加各种对话机器人，互相的沟通也是通过发消息的方式；

（2）作为消息系统的核心模块，对消息的存储和索引处理高效率优化，消息多端同步的信息来源；

（3）内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，是否原创或者首发还包括人工审核过程中对内容的分类（包括一，二，三级别分类和标签信息，比如一篇讲解某某手机的视频，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息是手机厂商）；

（4）上下行内容接口服务在收到视频文件的时候对内容进行标准的转码操作，转码完成后异步返回元信息主要是文件大小，码率，规格，截取封面图这些信息都会保存在内容数据库当中；

四．消息系统

（1）负责社交消息同步和通讯的整个流转调度分发，包括点对点消息和群组消息等；

（2）负责和消息内容数据库通讯，完成消息的分发和处理；

五．上报与分析接口服务

（1）和端通讯，接收上报上来消息消费和分发过程当中的各种反馈，比如关于内容分发质量的举报和反馈，关于对话机器人对话结果的满意度打分等等；

（2）端在不同业务场景将用户的动作数据进行上报，经过数据实时清洗后存储到不同的存储引擎，结合不同业务场景的内容流挖掘对应的数据和反馈信息；

六．高质量训练数据处理管线

（1）按照上面的详细描述的过程，构建的多模态语言模型的处理管线全流程，具体包括了数据预处理，专家模型处理，Prompt生成及处理，数据质量筛选部分，最终实现数据质量的分级，最终的数据处理结果保存在高质量语料库当中；

七. 多模态大型语言预训练模型

（1）这里是指基于高质量内容处理管线构建的数据集来构建的多模态大型生成式语言模型，包括各种架构的基于Transformer的模型，然后在基础上首先进行第一阶段的语言模型预训练，然后再进行SFT微调对齐及强化学习对齐，如果是多模态语言模型也包括通过文本和视觉对齐的指令微调等等，它不是一个具体的模型而是一类模型的总称；

八．多模态大型生成式语言模型服务

将上述多模态大型生成式语言模型服务化；

和平台业务系统通讯，基于各个社交业务的子场景具体任务的需要，来通过指令微调和场景实际数据构建具体业务需要的服务比如内容理解分类，写作，消息摘要和空间说说提炼等等具体服务；

和平台系统业务服务通讯一起完成具体社交场景下的业务；

九．平台系统业务服务

（1）通常是指平台的运营系统，比如机器人聊天业务，频道业务，内容推荐系统，群组业务，表情业务等等业务

十．高质量训练语料库

（1）按照上面的描述；通过高质量训练语料管线系统处理的结果最终保存在这里，包括评测数据及针对大型生成式语言模型不同训练阶段的对应的语料库；

十一. 统计上报接口与分析服务

收集消费端用户主动反馈和举报的各种内容质量问题，同时也包括用户与机器人对话系统生成结果的各种交互行为的反馈及上报；

上报的结果经过清洗后分别会保存在统计分析数据库当中，用于评估和度量对话机器人本身的性能和是否达到预期的效果，指引后续的改进方向比如机器人对话系统当中回复的结果是否符合用户的期望，相关的挖掘结果可以作为最终训练数据集改进的依据。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的数据处理装置的框图。该装置具有实现上述数据处理方法的功能，上述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置可以包括：

基础数据获取模块901，用于获取基础数据集，上述基础数据集包括至少一个媒体形态对应的媒体对象；

数据生产模块902，用于基于与上述媒体对象对应的媒体形态适配的至少一个专家模型，对上述媒体对象进行数据处理，得到数据处理结果；以及，根据上述基础数据集和上述数据处理结果，构建多个数据子集，上述数据子集中的数据对应于由任务标识和领域标识形成的组合，上述任务标识指示上述数据对应的专家模型，上述领域标识指示上述数据所属的自然技术领域；

训练数据确定模块903，用于在上述多个数据子集中确定符合目标训练任务要求的训练数据，上述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，上述目标训练任务要求包括上述任务标识对应的要求或上述领域标识对应的要求。

在一个实施方式中，上述训练数据确定模块903，用于执行下述操作：

根据上述目标训练任务要求，确定第一分配信息或第二分配信息，上述第一分配信息指示上述训练数据中至少两个领域标识各自对应的数据的比例分配关系，上述第二分配信息指示至少两个任务标识各自对应的数据的比例分配关系；

根据上述第一分配信息或上述第二分配信息，在上述多个数据子集中确定符合上述目标训练任务要求的训练数据。

获取至少一个训练任务对应的提示模板，上述提示模板用于指示大型生成式语言模型进行对应的提示学习；

根据上述基础数据集、上述数据处理结果和每一上述提示模板，生成基础训练数据，上述基础训练数据包括训练任务标识，上述训练任务标识指示对应的提示模板所对应的训练任务；

根据各上述基础训练数据，构建上述多个数据子集；

提取上述目标训练任务要求中的目标训练任务标识；

在上述多个数据子集中，提取训练任务标识与上述目标训练任务标识一致的基础训练数据，得到多个基础训练数据子集；

根据上述第一分配信息或上述第二分配信息，在上述多个基础训练数据子集中确定训练数据。

基于上述多个数据子集中的数据的历史训练结果，确定上述数据对应的质量参数，上述质量参数指示对应的数据相对于历史训练任务的数据质量；

提取上述目标训练任务要求中的质量筛选条件；

在上述多个数据子集中质量参数符合上述质量筛选条件的数据中，确定符合上述目标训练任务要求的训练数据。

响应于训练数据订阅请求，提取上述训练数据订阅请求中上述目标训练任务的描述数据，上述描述数据用于描述下述至少一项内容：训练数据对应的业务场景、训练数据对应的训练阶段、训练数据对应的训练方法、训练数据对应的使用目的；

根据上述描述数据，确定上述目标训练任务要求。

数据量级要求，上述数据量级要求用于限定训练数据的数量；

最高比例要求，上述最高比例要求用于限定上述训练数据中属于预设数据来源的数据的最高占比；

最低比例要求，上述最低比例要求用于限定上述训练数据中属于预设数据来源的数据的最低占比。

在一个实施方式中，上述训练数据包括任务标识，上述训练数据确定模块903，用于执行下述操作：

触发上述大型生成式语言模型基于上述训练数据执行上述目标训练任务，得到输出的任务执行结果，上述任务执行结果包括预测任务标识；

基于上述训练数据的任务标识和上述预测任务标识之间的差异，调整上述大型生成式语言模型的参数。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述数据处理方法。具体来讲：

计算机设备1000包括中央处理单元（Central Processing Unit ，CPU）1001、包括随机存取存储器（Random Access Memory ，RAM）1002和只读存储器（Read Only Memory，ROM）1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（I/O（Input/Output）系统）1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器（未示出）连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者CD-ROM（Compact Disc Read-Only Memory，只读光盘）驱动器之类的计算机可读介质（未示出）。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM（Erasable Programmable Read Only Memory，可擦除可编程只读存储器）、EEPROM（Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器）、闪存或其他固态存储其技术，CD-ROM、DVD（Digital Video Disc，高密度数字视频光盘）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统（未示出）。

上述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述数据处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述数据处理方法。

具体地，该数据处理方法包括：

获取基础数据集，上述基础数据集包括至少一个媒体形态对应的媒体对象；

基于与上述媒体对象对应的媒体形态适配的至少一个专家模型，对上述媒体对象进行数据处理，得到数据处理结果；

根据上述基础数据集和上述数据处理结果，构建多个数据子集，上述数据子集中的数据对应于由任务标识和领域标识形成的组合，上述任务标识指示上述数据对应的专家模型，上述领域标识指示上述数据所属的自然技术领域；

在上述多个数据子集中确定符合目标训练任务要求的训练数据，上述目标训练任务要求指示大型生成式语言模型执行目标训练任务时对训练数据的要求，上述目标训练任务要求包括上述任务标识对应的要求或上述领域标识对应的要求。

在一个实施方式中，上述在上述多个数据子集中确定符合目标训练任务要求的训练数据，包括：

在一个实施方式中，上述根据上述基础数据集和上述数据处理结果，构建多个数据子集，包括：

根据各上述基础训练数据，构建上述多个数据子集；

上述根据上述第一分配信息或上述第二分配信息，在上述多个数据子集中确定符合上述目标训练任务要求的训练数据，包括：

提取上述目标训练任务要求中的目标训练任务标识；

在一个实施方式中，上述方法还包括：

上述在上述多个数据子集中确定符合目标训练任务要求的训练数据，包括：

提取上述目标训练任务要求中的质量筛选条件；

在一个实施方式中，上述在上述多个数据子集中确定符合目标训练任务要求的训练数据之前，上述方法包括：

根据上述描述数据，确定上述目标训练任务要求。

在一个实施方式中，上述训练数据包括任务标识，上述在上述多个数据子集中确定符合目标训练任务要求的训练数据之后，上述方法还包括：

可选地，该计算机可读存储介质可以包括：ROM（Read Only Memory，只读存储器）、RAM（Random Access Memory，随机存取记忆体）、SSD（Solid State Drives，固态硬盘）或光盘等。其中，随机存取记忆体可以包括ReRAM（Resistance Random Access Memory，电阻式随机存取记忆体）和DRAM（Dynamic Random Access Memory，动态随机存取存储器）。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述数据处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

另外，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上上述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述多个数据子集中确定符合目标训练任务要求的训练数据，包括：

根据所述目标训练任务要求，确定第一分配信息或第二分配信息，所述第一分配信息指示所述训练数据中至少两个领域标识各自对应的数据的比例分配关系，所述第二分配信息指示至少两个任务标识各自对应的数据的比例分配关系；

根据所述第一分配信息或所述第二分配信息，在所述多个数据子集中确定符合所述目标训练任务要求的训练数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述基础数据集和所述数据处理结果，构建多个数据子集，包括：

获取至少一个训练任务对应的提示模板，所述提示模板用于指示大型生成式语言模型进行对应的提示学习；

根据所述基础数据集、所述数据处理结果和每一所述提示模板，生成基础训练数据，所述基础训练数据包括训练任务标识，所述训练任务标识指示对应的提示模板所对应的训练任务；

根据各所述基础训练数据，构建所述多个数据子集；

所述根据所述第一分配信息或所述第二分配信息，在所述多个数据子集中确定符合所述目标训练任务要求的训练数据，包括：

提取所述目标训练任务要求中的目标训练任务标识；

在所述多个数据子集中，提取训练任务标识与所述目标训练任务标识一致的基础训练数据，得到多个基础训练数据子集；

根据所述第一分配信息或所述第二分配信息，在所述多个基础训练数据子集中确定训练数据。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述方法还包括：

基于所述多个数据子集中的数据的历史训练结果，确定所述数据对应的质量参数，所述质量参数指示对应的数据相对于历史训练任务的数据质量；

所述在所述多个数据子集中确定符合目标训练任务要求的训练数据，包括：

提取所述目标训练任务要求中的质量筛选条件；

在所述多个数据子集中质量参数符合所述质量筛选条件的数据中，确定符合所述目标训练任务要求的训练数据。

5.根据权利要求1所述的方法，其特征在于，所述在所述多个数据子集中确定符合目标训练任务要求的训练数据之前，所述方法包括：

响应于训练数据订阅请求，提取所述训练数据订阅请求中所述目标训练任务的描述数据，所述描述数据用于描述下述至少一项内容：训练数据对应的业务场景、训练数据对应的训练阶段、训练数据对应的训练方法、训练数据对应的使用目的；

根据所述描述数据，确定所述目标训练任务要求。

6.根据权利要求2所述的方法，其特征在于，所述第一分配信息或所述第二分配信息基于下述至少一个分配要求得到：

数据量级要求，所述数据量级要求用于限定训练数据的数量；

最高比例要求，所述最高比例要求用于限定所述训练数据中属于预设数据来源的数据的最高占比；

最低比例要求，所述最低比例要求用于限定所述训练数据中属于预设数据来源的数据的最低占比。

7.根据权利要求1所述的方法，其特征在于，所述训练数据包括任务标识，所述在所述多个数据子集中确定符合目标训练任务要求的训练数据之后，所述方法还包括：

触发所述大型生成式语言模型基于所述训练数据执行所述目标训练任务，得到输出的任务执行结果，所述任务执行结果包括预测任务标识；

基于所述训练数据的任务标识和所述预测任务标识之间的差异，调整所述大型生成式语言模型的参数。

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的数据处理方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，计算机设备的处理器读取所述计算机指令，所述计算机设备的处理器执行所述计算机指令实现如权利要求1至7任一项所述的数据处理方法。