CN117593595A

CN117593595A - 基于人工智能的样本增广方法、装置及电子设备

Info

Publication number: CN117593595A
Application number: CN202410076172.0A
Authority: CN
Inventors: 何俊烽; 黄展鹏; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593595B

Abstract

本申请提供了一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：获取第一数据样本；其中，第一数据样本包括第一样本图像以及对应的图像标签；对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述；将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；根据拼接文本进行图像生成处理，得到第二样本图像；根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。通过本申请，能够提升数据样本的多样性，从而更好地增强机器学习模型的鲁棒性。

Description

基于人工智能的样本增广方法、装置及电子设备

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

近年来，机器学习发展迅速，机器学习模型的质量与其训练数据集密切相关，如果没有足够的数据样本，机器学习模型很难捕捉到正确的数据特征。然而，现实生活中有时无法采集到足够的数据样本，因此，样本增广（或称数据增强）作为能够增大训练数据集规模的技术，被广泛应用于机器学习模型的训练中。

在相关技术提供的样本增广方案中，通常是在几何空间或者颜色空间对图像进行转换，例如，在几何空间中对图像进行翻转、旋转或者裁剪，在颜色空间调整图像的曝光度或者对比度等。然而，通过相关技术提供的样本增广方案所生成的新的图像与原图像在图像内容上过于近似，数据样本的多样性差，只能有限地增强机器学习模型的鲁棒性。

发明内容

本申请提供一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升数据样本的多样性，从而更好地增强机器学习模型的鲁棒性。

本申请的技术方案是这样实现的：

本申请提供一种种基于人工智能的样本增广方法，包括：

获取第一数据样本；其中，所述第一数据样本包括第一样本图像以及对应的图像标签；

对所述第一样本图像进行图像描述生成处理，得到所述第一样本图像的图像描述；

将所述第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；

根据所述拼接文本进行图像生成处理，得到第二样本图像；

根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本。

本申请提供一种基于人工智能的样本增广装置，包括：

获取模块，用于获取第一数据样本；其中，所述第一数据样本包括第一样本图像以及对应的图像标签；

图像描述生成模块，用于对所述第一样本图像进行图像描述生成处理，得到所述第一样本图像的图像描述；

拼接模块，用于将所述第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；

图像生成模块，用于根据所述拼接文本进行图像生成处理，得到第二样本图像；

构建模块，用于根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本。

本申请提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请提供的基于人工智能的样本增广方法。

本申请提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的样本增广方法。

本申请提供了一种计算机程序产品，该计算机程序产品包括可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的样本增广方法。

本申请具有以下有益效果：

本申请获取第一数据样本，对第一数据样本中的第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述，将第一样本图像的图像标签与图像描述进行拼接处理得到拼接文本，如此，得到的拼接文本能够准确、全面地描述第一样本图像的语义。根据拼接文本进行图像生成处理得到第二样本图像，一方面，由于拼接文本包括第一样本图像的图像标签与图像描述，因此第二样本图像与第一样本图像在语义上相似，能够将第一样本图像的图像标签作为第二样本图像的图像标签，即根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，实现数据样本的扩充；另一方面，第二样本图像是以拼接文本为条件重新生成的，因此第二样本图像与第一样本图像在图像内容上存在较大差异，能够更好地提升数据样本的多样性，从而更好地增强机器学习模型的鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是相关技术提供的样本增广方案的图像对比示意图；

图2是本申请实施例提供的基于人工智能的样本增广系统的一个架构示意图；

图3是本申请实施例提供的服务器的一个结构示意图；

图4A是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图；

图4B是本申请实施例提供的基于人工智能的样本增广方法的另一个流程示意图；

图4C是本申请实施例提供的基于人工智能的样本增广方法的另一个流程示意图；

图4D是本申请实施例提供的基于人工智能的样本增广方法的另一个流程示意图；

图4E是本申请实施例提供的基于人工智能的样本增广方法的另一个流程示意图；

图5是本申请实施例提供的基于人工智能的样本增广方法的另一个流程示意图；

图6是本申请实施例提供的图像描述生成模型的一个结构示意图；

图7是本申请实施例提供的扩散模型的一个结构示意图；

图8是本申请实施例提供的去噪模型的一个结构示意图；

图9是本申请实施例提供的图像生成处理的一个流程示意图；

图10是本申请实施例提供的另一个图像对比示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。在以下的描述中，所涉及的术语“多个”是指至少两个。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调（fine tune）后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2）计算机视觉技术（Computer Vision，CV）：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer、ViT、V-MOE、MAE等视觉领域的预训练模型经过微调可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据样本（如第一数据样本以及第二数据样本）用于训练视觉领域的模型，如图像分类模型。

3）自然语言处理（Nature Language processing，NLP）：是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。同样地，在NLP领域中可以采用大模型技术，例如大语言模型（Large Language Model，LLM）等NLP领域的预训练模型经过微调可以快速、广泛适用于下游具体任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在本申请实施例中，可以通过NLP领域的模型来完成文本相关的任务，如实现图像描述生成处理和/或提取拼接文本的文本特征。

4）机器学习（Machine Learning，ML）：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

在本申请实施例中，可以基于机器学习原理构建各种模型（如去噪模型），并通过训练模型或者使用预训练模型的方式，使得模型可以适用于具体任务。

5）数据样本：包括样本图像以及对应的图像标签，图像标签用于表示样本图像所属的类别。本申请实施例对图像标签的种类不做限定，根据具体任务而定，例如，在识别引人不适图像的任务中，图像标签可以包括“恶心食物”、“蛇”、“小型阴暗动物特写”、“正常”等；在图像质量识别的任务中，图像标签可以包括“经过裁剪”、“未经过裁剪”，或者可以包括“存在过曝”、“不存在过曝”；在视频频道分类任务中，图像标签可以包括“娱乐”、“生活”、“美食”、“旅游”等。

在本申请实施例中，样本增广即是指在已有的数据样本（第一数据样本）的基础上生成新的数据样本（第二数据样本）。从而，可以根据更多的数据样本训练机器学习模型，如图像分类模型。

在相关技术提供的样本增广方案中，通常是在几何空间或者颜色空间对图像进行转换，例如，在几何空间中对图像进行翻转、旋转或者裁剪，在颜色空间调整图像的曝光度或者对比度等。如图1所示，原图像为图像11，通过相关技术提供的样本增广方案进行样本增广后，得到了9个新的图像。结合图1可以确定，相关技术提供的样本增广方案至少存在以下问题：

1）新的图像与图像11在图像内容（如鹦鹉的位置、姿态等）上非常近似，导致数据样本的多样性差，在后续的模型训练阶段只能有限地增强机器学习模型的鲁棒性；

2）针对质量识别型任务（如识别图像是否经过裁剪、是否存在过曝），相关技术提供的样本增广方案由于会引入图像质量问题，导致生成的新的图像的可用率低，且容易造成计算资源的浪费。例如，图像11对应的图像标签为不存在过曝，但是通过相关技术提供的样本增广方案生成的某个新的图像存在过曝，由于无法根据该新的图像以及不存在过曝的图像标签构建数据样本，因此该新的图像无法使用。

本申请实施例提供一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够生成在图像内容上差异更大的新的图像，从而更好地增强机器学习模型的鲁棒性；同时，也能够提升生成的新的图像的可用率，减少计算资源的浪费。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器。

参见图2，图2是本申请实施例提供的基于人工智能的样本增广系统100的一个架构示意图，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是服务器为例，本申请实施例提供的基于人工智能的样本增广方法可以由服务器实现。例如，服务器200可以获取第一数据样本，第一数据样本包括第一样本图像以及对应的图像标签，其中，对第一数据样本的获取方式不做限定，例如可以从数据库500、区块链或者互联网中获取；对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述；将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；根据拼接文本进行图像生成处理，得到第二样本图像；根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

在得到第二数据样本的基础上，服务器200可以根据训练数据集来训练图像分类模型，并根据训练后的图像分类模型对待分类图像进行图像分类处理，得到待分类图像的图像标签，其中，训练数据集包括第一数据样本以及第二数据样本。

值得说明的是，图像标签的种类根据图像分类任务而定，本申请实施例对图像分类任务不做限定。

例如，服务器200可以是视频平台的后台服务器，图像分类任务是识别引人不适图像的任务，则图像标签可以包括“非正常”以及“正常”两种，“非正常”也可以进一步细分为“恶心食物”、“蛇”、“小型阴暗动物特写”等。服务器200在训练完成图像分类模型后，根据训练后的图像分类模型对视频作者上传的视频中的待分类图像（如该视频中的图像帧、或者该视频的封面图像）进行图像分类处理，得到待分类图像的图像标签，当待分类图像的图像标签为“非正常”时，服务器200确定该视频未通过审核，对该视频进行拦截，以使该视频不会在视频平台中播放；当待分类图像的图像标签为“正常”时，服务器200确定该视频通过审核，可以在视频平台中播放。如此，可以智能识别出引人不适的视频并执行拦截操作，有助于发展视频平台的良好生态，同时能够节省人工审核的成本。

又如，服务器200可以是视频平台的后台服务器，图像分类任务是视频频道分类任务，则图像标签可以包括“娱乐”、“生活”、“美食”、“旅游”等频道相关的标签，服务器200在训练完成图像分类模型后，根据训练后的图像分类模型对视频作者上传的视频中的待分类图像进行图像分类处理，得到待分类图像的图像标签，当待分类图像的图像标签为“娱乐”时，服务器200将该视频划分至娱乐频道，以使该视频在娱乐频道的界面中被推荐。如此，能够智能实现视频的频道划分，无需手动操作。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的基于人工智能的样本增广方法可以由终端设备实现。例如，终端设备400可以获取本地的第一数据样本，第一数据样本包括第一样本图像以及对应的图像标签；对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述；将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；根据拼接文本进行图像生成处理，得到第二样本图像；根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

在得到第二数据样本的基础上，终端设备400可以根据训练数据集来训练图像分类模型，并根据训练后的图像分类模型对待分类图像进行图像分类处理，得到待分类图像的图像标签，其中，待分类图像可以是终端设备400本地的图像。例如，图像分类任务是相册图像分类任务，则图像标签可以包括“人像”、“地点”、“风景”、“美食”等。终端设备400在训练完成图像分类模型后，根据训练后的图像分类模型对本地相册中的待分类图像（指本地相册中未进行过分类的图像）进行图像分类处理，得到待分类图像的图像标签，如此，根据待分类图像的图像标签对待分类图像进行分类，实现对本地相册的智能管理，便于用户快速查找到需要的图像。

在一些实施例中，本申请实施例提供的基于人工智能的样本增广方法也可以由终端设备及服务器协同实现。例如，终端设备400可以将第一数据样本发送至服务器200，以使服务器200构建第二数据样本；或者，服务器200可以将训练后的图像分类模型发送至终端设备400，以使终端设备400在本地部署训练后的图像分类模型，以根据训练后的图像分类模型执行图像分类任务。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的样本增广方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

本申请实施例所涉及的各种数据（如第一数据样本、第二数据样本、各种模型等）可以存放至区块链中，以便数据的需求方获取，基于区块链的不可篡改机制来保证数据可信。

以本申请实施例提供的电子设备是服务器为例说明，参见图3，图3是本申请实施例提供的服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250和至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（Read Only Memory，ROM），易失性存储器可以是随机存取存储器（Random Access Memory，RAM）。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个（有线或无线）网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（Universal Serial Bus，USB）等；

在一些实施例中，本申请实施例提供的基于人工智能的样本增广装置可以采用软件方式实现，图3示出了存储在存储器250中的基于人工智能的样本增广装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、图像描述生成模块2552、拼接模块2553、图像生成模块2554以及构建模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的样本增广方法。

参见图4A，图4A是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图，将结合图4A示出的步骤进行说明。

在步骤101中，获取第一数据样本；其中，第一数据样本包括第一样本图像以及对应的图像标签。

这里，获取已有的第一数据样本，其中，第一数据样本包括第一样本图像以及对应的图像标签，第一样本图像的图像标签可以是标注得到的，以保证其准确性。本申请实施例对第一数据样本的获取方式不做限定，例如可以从公共的训练数据集中获取，即是将公共的训练数据集中的若干个数据样本均作为第一数据样本。

本申请实施例对图像标签的种类不做限定，根据具体的图像分类任务而定，例如，在识别引人不适图像的任务中，图像标签可以包括“恶心食物”、“蛇”、“小型阴暗动物特写”、“正常”等；在图像质量识别的任务中，图像标签可以包括“经过裁剪”、“未经过裁剪”，或者可以包括“存在过曝”、“不存在过曝”；在视频频道分类任务中，图像标签可以包括“娱乐”、“生活”、“美食”、“旅游”等。

在步骤102中，对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述。

这里，对第一数据样本中的第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述，其中，图像描述为文本形式，图像描述生成处理的过程即是理解图像语义并生成自然语言描述（图像描述）的过程。

本申请实施例对图像描述生成处理的方式不做限定，可以采用视觉领域的机器学习模型如视觉-语言预训练（Vision-Language Pre-training，VLP）模型实现。

在步骤103中，将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本。

由于本申请实施例所要执行的是图像分类任务，因此，在得到第一样本图像的图像描述后，将第一样本图像的图像标签与第一样本图像的图像描述进行拼接处理，得到拼接文本，使得拼接文本能够准确、全面地表示第一样本图像的语义，并且后续在生成第二样本图像时，能够尽量保证第二样本图像的图像内容与第一样本图像的图像标签相符，例如，第一样本图像的图像标签是“蛇”，则能够尽量保证通过拼接文本生成的第二样本图像的图像内容同样包括蛇。

本申请实施例对拼接处理的方式不做限定，例如可以通过特定的间隔符（如“，”或者“/”）来区分第一样本图像的图像标签与第一样本图像的图像描述，如拼接文本可以是“第一样本图像的图像描述，第一样本图像的图像标签”或者“第一样本图像的图像标签，第一样本图像的图像描述”。

值得说明的是，在本申请实施例中，图像内容与图像语义的含义不同，图像内容可以是指图像语义在图像中的具体表现形式。例如，图像语义是“蛇”，则图像内容可以是指图像中的蛇的位置、姿态等表现形式。

在一些实施例中，第一样本图像的图像描述的数量为多个；可以通过这样的方式来实现上述的将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本：执行以下任意一种处理：将第一样本图像的图像标签与多个图像描述进行拼接处理，得到拼接文本；将第一样本图像的图像标签分别与多个图像描述进行拼接处理，得到多个拼接文本。

这里，第一样本图像的图像描述的数量为多个，例如可以通过多次执行步骤102来得到第一样本图像的多个图像描述，又如步骤102中所用的模型本身就会生成多个图像描述，又如可以通过不同模型执行步骤102来得到第一样本图像的多个图像描述。以第一样本图像的图像描述包括图像描述1、图像描述2以及图像描述3为例，则拼接处理的方式包括两种：

1）将第一样本图像的图像标签与多个图像描述进行拼接处理，得到拼接文本。其中，多个图像描述可以通过特定的间隔符进行区分，例如拼接文本为“图像描述1/图像描述2/图像描述3，第一样本图像的图像标签”。通过该方式得到的拼接文本的信息量更为全面，使得后续生成的第二样本图像与第一样本图像在语义上更为相似。

2）将第一样本图像的图像标签分别与多个图像描述进行拼接处理，得到多个拼接文本。例如拼接文本包括“图像描述1，第一样本图像的图像标签”、“图像描述2，第一样本图像的图像标签”、“图像描述3，第一样本图像的图像标签”。通过该方式能够得到更多数量的拼接文本，使得后续生成的第二样本图像的数量也更多，能够提升样本增广的效率。

在一些实施例中，第一样本图像的图像标签为多个；可以通过这样的方式来实现上述的将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本：将第一样本图像的多个图像标签与图像描述进行拼接处理，得到拼接文本。

这里，第一样本图像的图像标签为多个，即第一样本图像同时具有多种类别。在该情况下，为了尽量保证后续生成的第二样本图像的图像内容与第一样本图像的多个图像标签相符，将第一样本图像的多个图像标签与图像描述进行拼接处理，得到拼接文本。以第一样本图像的图像标签包括图像标签1、图像标签2以及图像标签3为例，则拼接文本可以是“第一样本图像的图像描述，图像标签1/图像标签2/图像标签3”。

在步骤104中，根据拼接文本进行图像生成处理，得到第二样本图像。

这里，根据拼接文本进行图像生成处理，得到第二样本图像。由于第二样本图像是重新生成的，而非是对第一样本图像在几何空间或者颜色空间进行转换得到的，因此，第二样本图像与第一样本图像在图像内容上存在差异，例如，第一样本图像的图像标签为“蛇”，则第二样本图像的图像内容虽然也包括蛇，但是第二样本图像中的蛇的位置、姿态与第一样本图像中的蛇的位置、姿态存在差异。

本申请实施例对图像生成处理的方式不做限定，例如可以通过文生图模型来实现。

值得说明的是，在通过步骤103得到的拼接文本的数量为多个的情况下，在步骤104中根据每个拼接文本进行图像生成处理，得到第二样本图像，即得到的第二样本图像的数量也为多个，其中每个第二样本图像对应一个拼接文本。

在步骤105中，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

由于拼接文本包括第一样本图像的图像标签，能够尽量保证根据拼接文本生成的第二样本图像的图像内容与第一样本图像的图像标签相符，因此，可以将第一样本图像的图像标签作为第二样本图像的图像标签，即根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，实现数据样本的扩充。

值得说明的是，在通过步骤104得到的第二样本图像的数量为多个的情况下，在步骤105中根据每个第二样本图像以及第一样本图像的图像标签构建第二数据样本，即得到的第二数据样本的数量也为多个，其中每个第二数据样本包括一个第二样本图像。

在一些实施例中，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本之前，基于人工智能的样本增广方法还包括：将第二样本图像与第一样本图像的图像标签进行匹配处理，得到匹配度；可以通过这样的方式来实现上述的根据第二样本图像以及第一样本图像的图像标签构建第二数据样本：当匹配度大于匹配度阈值时，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

这里，在得到第二样本图像之后，可以将第二样本图像与第一样本图像的图像标签进行匹配处理，得到匹配度。本申请实施例对匹配处理的方式不做限定，例如可以通过对比语言-图像预训练（Contrastive Language-Image Pre-training，CLIP）模型来计算第二样本图像与第一样本图像的图像标签之间的匹配度。

当第二样本图像与第一样本图像的图像标签之间的匹配度大于匹配度阈值时，证明第二样本图像的图像内容与第一样本图像的图像标签相符，因此根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，如此能够提升构建出的第二数据样本的样本质量；当第二样本图像与第一样本图像的图像标签之间的匹配度小于或等于匹配度阈值时，证明第二样本图像的图像内容与第一样本图像的图像标签不相符，因此可以丢弃第二样本图像以节省存储资源，同时避免构建出质量不合格的第二数据样本。

在一些实施例中，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本之前，基于人工智能的样本增广方法还包括：将第二样本图像以及第一样本图像的图像标签发送至审核方；可以通过这样的方式来实现上述的根据第二样本图像以及第一样本图像的图像标签构建第二数据样本：当接收到审核方发送的审核通过的结果时，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

这里，在得到第二样本图像之后，可以将第二样本图像以及第一样本图像的图像标签发送至审核方，以使审核方人工判断第二样本图像的图像内容与第一样本图像的图像标签是否相符，即进行人工筛选。当接收到审核方发送的审核通过的结果时，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，如此以保证第二数据样本的样本质量；当接收到审核方发送的审核不通过的结果时，可以丢弃第二样本图像以节省存储资源，同时避免构建出质量不合格的第二数据样本。

在一些实施例中，通过匹配度进行筛选的方式与人工筛选的方式也可以结合使用。例如，当第二样本图像与第一样本图像的图像标签之间的匹配度大于匹配度阈值时，将第二样本图像以及第一样本图像的图像标签发送至审核方；当接收到审核方发送的审核通过的结果时，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。如此，能够尽量提升第二数据样本的样本质量，同时，由于先通过匹配度进行了初步筛选，因此能够减少人工筛选的工作量。

如图4A所示，本申请实施例获取第一数据样本，对第一数据样本中的第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述，将第一样本图像的图像标签与图像描述进行拼接处理得到拼接文本，如此，得到的拼接文本能够准确、全面地描述第一样本图像的语义。根据拼接文本进行图像生成处理得到第二样本图像，一方面，由于拼接文本包括第一样本图像的图像标签与图像描述，因此第二样本图像与第一样本图像在语义上相似，能够将第一样本图像的图像标签作为第二样本图像的图像标签，即根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，实现数据样本的扩充；另一方面，第二样本图像是以拼接文本为条件重新生成的，因此第二样本图像与第一样本图像在图像内容上存在较大差异，能够更好地提升数据样本的多样性，从而在后续的模型训练阶段能够更好地增强模型的鲁棒性。此外，由于本申请实施例在图像生成过程中不会引入图像质量问题，因此能够适用于质量识别型任务，适用范围更广。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图，图4A示出的步骤104可以通过步骤201至步骤203实现，将结合各步骤进行说明。

在步骤201中，随机生成第一噪声图像的图像特征。

这里，可以基于扩散模型（Diffusion Models，DM）的原理来实现图像生成处理，其中，扩散模型先通过正向过程（或称前向过程、前向扩散过程）将噪声加入到图像中，然后通过反向过程（或称逆向过程、逆向重建过程）预测加入的噪声，通过将噪声去掉的方式还原得到无噪声的图像。扩散模型本质上是一个马尔可夫架构，能够提供强大的图像生成能力。

在本申请实施例提供的反向过程中，首先随机生成第一噪声图像的图像特征，其中，第一噪声图像的图像特征是第一噪声图像在特定的特征空间即隐空间（Latent Space）中的特征表示，则随机生成第一噪声图像的图像特征可以理解为在隐空间中随机生成第一噪声图像。

值得说明的是，隐空间是指比像素空间（Pixel Space）更小的特征空间，上述的正向过程以及反向过程可以在隐空间中实现，从而实现图像压缩，使得计算效率更高。

在步骤202中，根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征；其中，去噪控制条件包括拼接文本的文本特征。

这里，根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，即根据去噪控制条件预测第一噪声图像的图像特征中的噪声，并在第一噪声图像的图像特征中去除预测出的噪声，得到与去噪控制条件相关联的第二样本图像的图像特征。其中，去噪控制条件至少包括拼接文本的文本特征，还可以包括其他条件，如第一样本图像的图像特征。

在一些实施例中，根据去噪控制条件对第一噪声图像的图像特征进行去噪处理之前，基于人工智能的样本增广方法还包括：通过文本编码器对拼接文本进行文本编码处理，得到拼接文本的文本特征。

这里，可以通过文本编码器（Text Encoder）对拼接文本进行文本编码处理，得到拼接文本的文本特征，以通过文本特征来准确表示拼接文本。其中，文本编码器可以是预先训练好的，如CLIP模型中的文本编码器。

在步骤203中，根据第二样本图像的图像特征还原出第二样本图像。

这里，第二样本图像的图像特征是在隐空间中描述的，可以将隐空间中的第二样本图像的图像特征映射至像素空间，得到还原出的第二样本图像。

步骤201至步骤203的本质是将去噪控制条件作为提示（Prompt）来引导图像生成，得到与去噪控制条件相关联的第二样本图像，其中，去噪控制条件中的拼接文本的文本特征可以视为文本提示，在去噪控制条件还包括第一样本图像的图像特征的情况下，去噪控制条件中的第一样本图像的图像特征可以视为图像提示。

值得说明的是，步骤201中随机生成的第一噪声图像的图像特征的数量可以为多个，在该情况下，最终可以得到还原出的多个第二样本图像，从而提升样本增广效率，其中，每个第二样本图像对应一个第一噪声图像的图像特征。

在一些实施例中，可以通过这样的方式来实现上述的根据第二样本图像的图像特征还原出第二样本图像：通过图像解码器对第二样本图像的图像特征进行图像解码处理，得到第二样本图像。

这里，可以通过图像解码器（Image Decoder）对第二样本图像的图像特征进行图像解码处理，以实现从隐空间到像素空间的映射，得到第二样本图像。其中，图像解码器可以是预先训练好的，如CLIP模型中的图像解码器。

如图4B所示，本申请实施例可以将去噪控制条件作为提示，在隐空间中执行反向过程，从而引导图像生成。一方面，隐空间相较于像素空间来说更小，因此能够提升计算效率，进而提升样本增广效率；另一方面，在反向过程中根据去噪控制条件预测并去除第一噪声图像的图像特征中的噪声，得到与去噪控制条件相关联的第二样本图像的图像特征，能够提升图像生成效果。

在一些实施例中，参见图4C，图4C是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图，基于图4B，在步骤202之前（图4C中以步骤201之前为例），还可以在步骤301中，对第一样本图像的图像特征进行加噪处理，得到第二噪声图像的图像特征。

这里，可以通过去噪模型来实现去噪处理，为了提升去噪处理的效果，可以预先对去噪模型进行训练。例如，可以基于第一样本图像的图像特征执行正向过程以及反向过程，以实现对去噪模型的训练。

首先，执行正向过程，即对第一样本图像的图像特征进行加噪处理，为了便于区分，将加噪处理得到的图像特征命名为第二噪声图像的图像特征。其中，加噪处理所添加的噪声是已知的。

在步骤302中，通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征。

这里，执行反向过程，即通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，即预测并去除第二噪声图像的图像特征中的噪声，为了便于区分，将去噪处理得到的图像特征命名为去噪图像的图像特征。

在一些实施例中，步骤302所使用的去噪模型可以是预训练好的，如此，后续在预训练好的去噪模型的基础上进行微调（fine tune）即可，能够提升训练效率。

在一些实施例中，可以通过这样的方式来实现上述的对第一样本图像的图像特征进行加噪处理，得到第二噪声图像的图像特征：执行T轮加噪迭代，并在第t轮加噪迭代过程中执行以下处理：在第t轮加噪迭代输入的图像特征中添加噪声，得到第t+1轮加噪迭代输入的图像特征；其中，第一样本图像的图像特征用于作为第1轮加噪迭代输入的图像特征；第T轮加噪迭代得到的图像特征为第二噪声图像的图像特征；可以通过这样的方式来实现上述的通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征：执行T轮去噪迭代，并在第t轮去噪迭代过程中执行以下处理：通过去噪模型根据去噪控制条件预测第t轮去噪迭代输入的图像特征中的噪声，并在第t轮去噪迭代输入的图像特征中去除预测出的噪声，得到第t+1轮去噪迭代输入的图像特征；其中，第二噪声图像的图像特征用于作为第1轮去噪迭代输入的图像特征；第T轮去噪迭代得到的图像特征为去噪图像的图像特征；其中，T为大于1的整数，t为大于0且不超过T的整数。

这里，加噪处理的过程可以包括T轮加噪迭代，以逐步添加噪声，为了便于说明，以第t轮加噪迭代的过程为例进行说明，其中，T为大于1的整数，可以根据实际应用场景进行设定，如设定为30；t为大于0且不超过T的整数。则在第t轮加噪迭代中，在第t轮加噪迭代输入的图像特征中添加噪声，得到第t+1轮加噪迭代输入的图像特征。其中，第一样本图像的图像特征用于作为第1轮加噪迭代输入的图像特征；第T轮加噪迭代得到的图像特征（即第T+1轮加噪迭代输入的图像特征）为第二噪声图像的图像特征。

对应地，去噪处理的过程可以包括T轮去噪迭代，以逐步预测并去除噪声，为了便于说明，以第t轮去噪迭代的过程为例进行说明。则在第t轮去噪迭代中，通过去噪模型根据去噪控制条件预测第t轮去噪迭代输入的图像特征中的噪声，并在第t轮去噪迭代输入的图像特征中去除预测出的噪声，得到第t+1轮去噪迭代输入的图像特征。其中，第二噪声图像的图像特征用于作为第1轮去噪迭代输入的图像特征；第T轮去噪迭代得到的图像特征（即第T+1轮去噪迭代输入的图像特征）为去噪图像的图像特征。

值得说明的是，可以采样不同的T值来训练去噪模型，例如先根据具体为20的T值进行训练，再根据具体为30的T值进行训练，以使得训练后的去噪模型能够适配不同的T值。模型推理阶段所用的T值与模型训练阶段所用的T值可以相同或不同。

在步骤303中，根据加噪处理所添加的噪声与去噪处理所预测的噪声确定损失值，并根据损失值训练去噪模型。

这里，可以将加噪处理所添加的噪声视为期望结果，将去噪处理所预测的噪声视为预测结果，并计算期望结果与预测结果之间的差异以作为损失值，本申请实施例对用于计算损失值的损失函数的类型不做限定。

在得到损失值之后，根据损失值训练去噪模型，例如根据损失值在去噪模型中进行反向传播（Back Propagation），并在反向传播过程中沿梯度下降方向更新去噪模型的模型参数。

值得说明的是，可以根据多个第一样本图像构建去噪模型的训练数据集，并根据该训练数据集训练去噪模型，直至达到去噪模型的训练停止条件，去噪模型的训练停止条件如达到预设训练次数、或者损失值小于损失值阈值等，从而提升训练效果。

在一些实施例中，去噪模型包括第一特征交叉网络；可以通过这样的方式来实现上述的通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征：通过去噪模型中的第一特征交叉网络将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的图像特征；可以通过这样的方式来实现上述的根据损失值训练去噪模型：根据损失值训练去噪模型中的第一特征交叉网络。

这里，在去噪控制条件仅包括拼接文本的文本特征的情况下，去噪模型包括有第一特征交叉网络，第一特征交叉网络用于将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，即注入文本提示，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的图像特征。本申请实施例对第一特征交叉网络的网络结构不做限定，例如可以包括多头注意力（Multi- Head Attention）层，当然还可以包括其他网络层。

在计算出损失值后，根据损失值训练去噪模型中的第一特征交叉网络，使得根据训练后的第一特征交叉网络能够更好地预测噪声。

值得说明的是，本申请实施例所涉及的模型中的网络是指神经网络（人工神经网络），而非通信网络。

在一些实施例中，去噪控制条件还包括第一样本图像的图像特征；去噪模型包括第一特征交叉网络以及第二特征交叉网络；可以通过这样的方式来实现上述的通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征：通过去噪模型中的第一特征交叉网络将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第一子图像特征；通过去噪模型中的第二特征交叉网络将第一样本图像的图像特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第二子图像特征；将去噪图像的第一子图像特征与第二子图像特征进行特征融合处理，得到去噪图像的图像特征；可以通过这样的方式来实现上述的根据损失值训练去噪模型：根据损失值训练去噪模型中的第二特征交叉网络。

这里，在去噪控制条件同时包括拼接文本的文本特征、以及第一样本图像的图像特征的情况下，去噪模型除了包括第一特征交叉网络之外，还包括第二特征交叉网络，第一特征交叉网络与第二特征交叉网络可以具有相同的网络结构。第一特征交叉网络用于将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，即注入文本提示，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第一子图像特征；第二特征交叉网络用于将第一样本图像的图像特征与第二噪声图像的图像特征进行特征交叉处理，即注入图像提示，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第二子图像特征。然后，将去噪图像的第一子图像特征与第二子图像特征进行特征融合处理，得到去噪图像的图像特征，其中，对特征融合处理的方式不做限定，如相加处理。

对于同时包括第一特征交叉网络以及第二特征交叉网络的去噪模型来说，第一特征交叉网络可以是预训练好的，如此需要训练的部分仅包括第二特征交叉网络，例如在计算出损失值后，根据损失值训练去噪模型中的第二特征交叉网络，如此，一方面，由于无需训练第一特征交叉网络，能够减少训练过程中的计算资源消耗，实现轻量训练；另一方面，通过训练后的第二特征交叉网络来适配第一特征交叉网络，能够在一定程度上保证噪声预测的精度。当然，在不考虑计算资源消耗以及训练时间的情况下，也可以根据损失值训练第一特征交叉网络以及第二特征交叉网络。

在一些实施例中，上述两种训练方式也可以结合使用。例如，在去噪模型不包括第二特征交叉网络的情况下，可以先训练去噪模型中的第一特征交叉网络，然后，将第二特征交叉网络添加至去噪模型中，并训练第二特征交叉网络，其中，可以根据训练后的第一特征交叉网络的模型参数（或称网络参数）初始化第二特征交叉网络的模型参数，以提升第二特征交叉网络的训练效率。

值得说明的是，本申请实施例所涉及的模型参数是指神经网络中的权重和偏置，模型参数用于定义神经网络的基本结构和特征表示能力，训练模型的本质即为更新模型参数。

在一些实施例中，通过去噪模型中的第二特征交叉网络将第一样本图像的图像特征与第二噪声图像的图像特征进行特征交叉处理之前，基于人工智能的样本增广方法还包括：通过投影网络对第一样本图像的图像特征进行投影处理；其中，第一样本图像的投影处理后的图像特征用于进行特征交叉处理；根据加噪处理所添加的噪声与去噪处理所预测的噪声确定损失值之后，基于人工智能的样本增广方法还包括：根据损失值训练投影网络。

这里，在第一特征交叉网络与第二特征交叉网络具有相同的网络结构的情况下，第一特征交叉网络与第二特征交叉网络分别处理的特征的维度需要相同，因此，在提取到第一样本图像的图像特征之后（例如可以通过第一图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征），可以通过投影网络对第一样本图像的图像特征进行投影处理，得到第一样本图像的投影处理后的图像特征，以使第一样本图像的投影处理后的图像特征的维度与拼接文本的文本特征的维度相同。本申请实施例对投影网络的网络结构不做限定，例如可以包括一个线性（Linear）层以及一个归一化层（LayerNormalization，LN）。

得到的第一样本图像的投影处理后的图像特征用于进行特征交叉处理，即通过第二特征交叉网络将第一样本图像的投影处理后的图像特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第二子图像特征。

在计算出损失值后，除了根据损失值训练第二特征交叉网络之外，还可以根据损失值训练投影网络，以提升根据训练后的投影网络进行投影处理的效果，使得在投影处理的过程中能够提取图像特征中较为关键的信息。

在一些实施例中，可以通过这样的方式来实现上述的根据损失值训练去噪模型：执行以下任意一种处理：根据损失值学习增量参数，并根据增量参数对去噪模型的模型参数进行更新；根据损失值学习第一子增量参数以及第二子增量参数，将第一子增量参数与第二子增量参数进行参数融合处理得到增量参数，并根据增量参数对去噪模型的模型参数进行更新；其中，增量参数的维度与模型参数的维度相同。

这里，提供了根据损失值训练去噪模型的两种方式：

1）根据损失值学习增量参数，并根据增量参数对去噪模型的模型参数进行更新，其中，增量参数的维度与模型参数的维度相同。例如，将去噪模型的模型参数用W表示，W为m×n的矩阵，则学习到的增量参数ΔW同样为m×n的矩阵，根据增量参数对去噪模型的模型参数进行更新即是指执行W+ΔW的操作。该方式需要学习的参数量较大，训练后的去噪模型具有较好的去噪效果。

2）根据损失值学习第一子增量参数以及第二子增量参数，将第一子增量参数与第二子增量参数进行参数融合处理得到增量参数，并根据增量参数对去噪模型的模型参数进行更新。例如，可以根据秩数r将待学习的增量参数ΔW分解为第一子增量参数ΔW₁以及第二子增量参数ΔW₂，其中，ΔW₁为m×r的矩阵，ΔW₂为r×n的矩阵，秩数r可以根据实际应用场景进行设定。在根据损失值学习到第一子增量参数ΔW₁以及第二子增量参数ΔW₂后，将第一子增量参数ΔW₁与第二子增量参数ΔW₂进行参数融合处理得到增量参数，其中，参数融合处理可以是矩阵乘积处理，即ΔW=ΔW₁×ΔW₂。相较于方式1），方式2）需要学习的参数量更少，能够提升模型训练的效率，减少训练过程中的计算资源消耗。

在实际应用场景中，可以根据关注重点来选择方式1）或者方式2）进行训练，例如，若更关注准确性，则选择方式1）；若更关注训练效率，则选择方式2）。

在图4C中，图4B示出的步骤202可以更新为步骤304，在步骤304中，通过训练后的去噪模型根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征。

在完成对去噪模型的训练后，训练后的去噪模型具有较好的去噪能力，因此可以进入模型推理阶段，即通过训练后的去噪模型根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征。

在一些实施例中，对第一样本图像的图像特征进行加噪处理之前，基于人工智能的样本增广方法还包括：通过第一图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征；可以通过这样的方式来实现上述的根据第二样本图像的图像特征还原出第二样本图像：通过第一图像编码器对应的图像解码器对第二样本图像的图像特征进行图像解码处理，得到第二样本图像。

这里，第一图像编码器与图像解码器可以是配套的，且是预先训练好的，例如第一图像编码器可以是CLIP模型中的图像编码器，图像解码器可以是同一CLIP模型中的图像解码器。基于此，通过第一图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征，以便根据第一样本图像的图像特征执行正向过程以及反向过程；在得到第二样本图像的图像特征时，通过图像解码器对第二样本图像的图像特征进行图像解码处理，得到第二样本图像。通过配套的第一图像编码器与图像解码器，能够准确实现从像素空间到隐空间的映射、以及从隐空间到像素空间的映射。

如图4C所示，本申请实施例基于第一样本图像执行正向过程以及反向过程，根据正向过程中添加的噪声以及反向过程中预测的噪声计算损失值，从而根据损失值训练去噪模型，能够提升根据训练后的去噪模型进行去噪处理的效果，即能够更好地实现图像生成处理。

在一些实施例中，参见图4D，图4D是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图，图4A示出的步骤102可以通过步骤401至步骤403实现，将结合各步骤进行说明。

在步骤401中，通过第二图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征。

这里，可以通过图像描述生成模型来实现图像描述生成处理，图像描述生成模型包括第二图像编码器、转换器（Transformer）模型以及语言模型，其中，转换器模型用于充当第二图像编码器与语言模型之间的桥梁，以弥补不同模态的信息之间的差距（即图像与文本之间的差距）。

例如，可以首先通过第二图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征。其中，第二图像编码器可以是预训练好的，第二图像编码器与第一图像编码器可以相同或者不同，对此不做限定。

在步骤402中，通过转换器模型从第一样本图像的图像特征中提取关键图像特征。

这里，通过转换器模型从第一样本图像的图像特征中提取关键图像特征，即从第一样本图像的图像特征中提取与图像描述最相关的信息，以作为关键图像特征。

在步骤403中，通过语言模型根据关键图像特征进行语言生成处理，得到第一样本图像的图像描述。

这里，通过语言模型根据关键图像特征进行语言生成处理，得到第一样本图像的图像描述，即是将关键图像特征以文本形式来表示。其中，语言模型可以是预训练好的模型，如大语言模型（Large Language Model，LLM）。

在一些实施例中，可以先训练图像描述生成模型，再根据训练后的图像描述生成模型对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述。

这里，第二图像编码器以及语言模型可以预先训练好的，则图像描述生成模型的模型训练阶段主要是训练图像描述生成模型中的转换器模型，例如图像描述生成模型的模型训练阶段可以细分为两个阶段，在第一个阶段将转换器模型连接到冻结的第二图像编码器，并执行视觉-语言表征学习，使得转换器模型学习与文本最相关的图像特征；在第二个阶段将转换器模型连接到冻结的语言模型，并执行视觉到语言的生成学习，使得转换器模型输出的图像特征能够被语言模型准确解释。

值得说明的是，本申请实施例所涉及的冻结是指模型参数固定不变。另外，本申请实施例对用于训练图像描述生成模型的训练数据集不做限定，例如可以包括若干个图像-文本对。

如图4D所示，本申请实施例通过第二图像编码器、转换器模型与语言模型之间的协作，使得转换器模型能够有效弥补不同模态的信息之间的差距，从而准确生成第一样本图像的图像描述。

在一些实施例中，参见图4E，图4E是本申请实施例提供的基于人工智能的样本增广方法的一个流程示意图，基于图4A，在步骤105之后，还可以在步骤501中，将第一数据样本以及第二数据样本组合为训练数据集。

在构建出第二数据样本之后，可以将第一数据样本以及第二数据样本组合为图像分类模型的训练数据集，即训练数据集包括第一数据样本以及第二数据样本。

本申请实施例对图像分类模型的类型不做限定，例如可以是CLIP模型、swin-Transformer等。

在步骤502中，根据训练数据集中的数据样本确定损失值，并根据损失值对图像分类模型进行训练。

这里，根据训练数据集中的数据样本确定损失值，并根据损失值对图像分类模型进行训练，直至达到图像分类模型的训练停止条件。其中，根据损失值对图像分类模型进行训练可以是指根据损失值在图像分类模型中进行反向传播，并在反向传播过程中沿梯度下降方向更新图像分类模型的模型参数。

在一些实施例中，可以通过这样的方式来实现上述的根据训练数据集中的数据样本确定损失值：通过图像分类模型对目标数据样本中的样本图像进行图像分类处理，得到待对比的图像标签；根据待对比的图像标签与目标数据样本中的图像标签确定损失值；其中，目标数据样本表示训练数据集中的任意一个数据样本。

这里，图像分类模型的训练数据集包括若干个数据样本，每一个数据样本包括一个样本图像以及对应的图像标签，为了便于理解，以训练数据集中的任意一个数据样本即目标数据样本为例，说明确定目标数据样本对应的损失值的过程。

首先，通过图像分类模型对目标数据样本中的样本图像进行图像分类处理，为了便于区分，将这里得到的图像标签命名为待对比的图像标签。然后，根据待对比的图像标签与目标数据样本中的图像标签确定损失值，即计算待对比的图像标签与目标数据样本中的图像标签之间的差异，以作为损失值，其中，对损失函数不做限定，例如可以是交叉熵损失函数。通过上述方式确定损失值，并根据损失值对图像分类模型进行训练，能够在训练过程中学习到训练数据集隐含的数据规律，加强图像分类模型的图像分类能力。

在步骤503中，通过训练后的图像分类模型对待分类图像进行图像分类处理，得到待分类图像的图像标签。

在完成对图像分类模型的训练后，可以通过训练后的图像分类模型执行图像分类任务，例如通过训练后的图像分类模型对待分类图像进行图像分类处理，得到待分类图像的图像标签。根据待分类图像的图像标签可以进行进一步应用，例如在图像分类任务为识别引人不适图像的任务时，根据待分类图像的图像标签判断是否拦截待分类图像；在图像分类任务为频道分类任务时，根据待分类图像的图像标签将待分类图像划分到对应频道。

如图4E所示，本申请实施例可以将已有的第一数据样本以及通过样本增广得到的第二数据样本组合为训练数据集，并根据训练数据集对图像分类模型进行训练，由于训练数据集中的数据样本的多样性较强，因此能够极大地增强训练后的图像分类模型的鲁棒性，有助于提升预测出的待分类图像的图像标签的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。本申请实施例提供的基于人工智能的样本增广方法可以由视频平台的后台服务器实现，后台服务器用于通过图像分类模型对视频作者上传的视频中的待分类图像（例如视频中的某个图像帧或者视频的封面图像）进行图像分类处理，得到待分类图像的图像标签，根据待分类图像的图像标签判断该视频是否引人不适，并在确定出该视频引人不适时拦截该视频，以避免视频平台的用户观看到该视频。如此，有助于发展视频平台的良好生态，同时能够节省人工审核的成本。

在上述应用场景中，图像分类任务即为识别引人不适图像的任务。对于识别引人不适图像的任务，图像标签可以包括“正常”和“不正常”两类，其中，“不正常”也可以进一步细分为“恶心食物”、“蛇”、“小型阴暗动物特写”、“小型阴暗动物展示”、“主旨展示排泄物”等。当待分类图像的图像标签是“非正常”（例如“恶心食物”、“蛇”、“小型阴暗动物特写”、“小型阴暗动物展示”、“主旨展示排泄物”中的任意一种）时，确定待分类图像引人不适，进而确定待分类图像所属视频引人不适；当待分类图像的图像标签是“正常”时，确定待分类图像不会引人不适，进而确定待分类图像所属视频不会引人不适。

若要使图像分类模型具有较好的图像分类能力，则需要通过样本质量较好的训练数据集对图像分类模型进行训练。这里，可以通过本申请实施例提供的基于人工智能的样本增广方法来扩充数据样本，以提升训练数据集的样本质量，从而在根据训练数据集训练图像分类模型后，能够提升训练后的图像分类模型的鲁棒性，加强训练后的图像分类模型的图像分类能力。

本申请实施例提供了如图5所示的基于人工智能的样本增广方法的一个流程示意图，将结合图5，通过步骤形式进行说明。

1）通过图像描述生成模型对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述。其中，可以将已有的训练数据集中的每个样本图像均作为第一样本图像，则第一样本图像的图像标签是预先标注好的，即是已知的。考虑到在识别引人不适图像的任务中，所缺少的通常是图像标签不为“正常”的样本图像，因此，也可以将已有的训练数据集中图像标签不为“正常”的每个样本图像均作为第一样本图像。

另外，生成的第一样本图像的图像描述的数量可以是一个或者多个，后文以一个的情况进行示例说明。

2）将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本。

3）根据第一样本图像以及拼接文本，对去噪模型进行训练，其中，训练的方式可以是微调（fine tune），从而能够提升训练效率。

4）将拼接文本作为训练后的去噪模型的提示（Prompt），引导训练后的去噪模型进行图像生成处理，得到第二样本图像。

5）计算第二样本图像与第一样本图像的图像标签之间的匹配度，当匹配度大于匹配度阈值时，执行步骤6）；当匹配度小于或等于匹配度阈值时，丢弃第二样本图像。如此，基于匹配度实现对第二样本图像的筛选。

6）将第二样本图像与第一样本图像的图像标签发送至审核方，以进行人工精筛。当接收到审核方发送的审核通过的结果时，执行步骤7）；当接收到审核方发送的审核不通过的结果时，丢弃第二样本图像。

7）根据第二样本图像以及第一样本图像的图像标签构建第二数据样本，并将第二数据样本添加至已有的训练数据集中，以训练图像分类模型。

接下来，对上述步骤中涉及到的要点进行进一步阐述。

在上述步骤1）中使用到了图像描述生成模型，本申请实施例提供了如图6所示的图像描述生成模型的结构示意图，图像描述生成模型包括图像编码器（Image Encoder）、查询转换器（Querying Transformer）模型以及大语言模型（Large Language Model，LLM），图像描述生成模型中的图像编码器对应上文的第二图像编码器，查询转换器模型对应上文的转换器模型。在图像描述生成模型中，Image Encoder以及LLM都是冻结的，仅需训练Querying Transformer模型。Querying Transformer模型的模型训练阶段可以细分为两个阶段，在第一个阶段将Querying Transformer模型连接到冻结的Image Encoder，并执行视觉-语言表征学习（Vision-and-Language Representation Learning），使得QueryingTransformer模型学习与文本最相关的图像特征；在第二个阶段将Querying Transformer模型连接到冻结的LLM，并执行视觉到语言的生成学习（Vision-to-Language GenerativeLearning），使得Querying Transformer模型输出的图像特征能够被LLM准确解释。在完成对Querying Transformer模型的训练之后（即完成对图像描述生成模型的训练之后），通过训练后的图像描述生成模型对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述。

在上述步骤3）、4）中使用到了去噪模型，去噪模型是扩散模型的一部分，扩散模型可以基于文本生成图像，利用图文对可以对扩散模型中的去噪模型进行训练。本申请实施例提供了如图7所示的扩散模型的一个结构示意图，扩散模型包括一个变分自编码器（Variational Auto-Encoders，VAE）以及一个去噪模型，下面分别介绍两者的作用。

VAE包括图像编码器（对应上文的第一图像编码器）以及图像解码器，其中，图像编码器的作用是将原始图像（如上文的第一样本图像）从像素空间映射到隐空间，即提取出图像特征（如图7示出的z）；图像解码器的作用是将去噪模型输出的图像特征还原为复原图像（如上文的去噪图像）。其中，将图像从像素空间映射到隐空间的作用是实现图片压缩（降维），使得计算速度更快。

去噪模型用于实现反向过程，即根据去噪控制条件对噪声图像的图像特征（如图7示出的zT）进行去噪处理，得到注入有去噪控制条件的图像特征，然后将注入有去噪控制条件的图像特征输入至VAE中的图像解码器，得到由去噪控制条件控制生成的图像。在本申请实施例中，去噪控制条件至少包括拼接文本的文本特征，还可以包括第一样本图像的图像特征，其中，可以通过文本编码器生成拼接文本的文本特征，可以通过VAE中的图像编码器生成第一样本图像的图像特征。

在去噪模型的模型训练阶段，需要执行正向过程以及反向过程，此时，图7中的z是指第一样本图像的图像特征，zT是指第二噪声图像的图像特征；在去噪模型的模型推理阶段，仅执行反向过程，此时，图7中的zT是指第一噪声图像的图像特征，其中，第一噪声图像的图像特征可以是随机生成的。值得说明的是，在正向过程以及反向过程中均包括T轮迭代（图7中未示出）。

去噪模型包括有第一特征交叉网络，第一特征交叉网络包括有多头注意力层（包括若干个注意力层），多头注意力层用于计算输入的文本特征与图像特征之间的相关性，即实现特征交叉处理。当然，第一特征交叉网络还可以包括其他网络层。本申请实施例提供了如图8所示的去噪模型（第一特征交叉网络）的一个结构示意图，第一特征交叉网络可以包括输入卷积层（Conv_In）、三个第一下采样层（CrossAttnDownBlock2D）、一个第二下采样层（DownBlock2D）、一个连接层（MidBlock2DCrossAttn）、一个第一上采样层（UpBlock2D）、三个第二上采样层（CrossAttnUpBlock2D）以及一个输出卷积层（Conv_Out），其中，第一下采样层是带有注意力机制的resnet下采样层，可以视为注意力层，以下同理；第二下采样层是常规的（即不带有注意力机制）resnet下采样层；连接层是带有注意力机制的resnet连接层；第一上采样层是常规的resnet上采样层；第二上采样层是带有注意力机制的resnet上采样层。

在去噪模型的模型训练阶段，可以根据正向过程中添加的噪声与反向过程中预测的噪声计算损失值，根据损失值学习增量参数，并根据增量参数对去噪模型的模型参数进行更新，以取得更好的训练效果；或者，也可以根据损失值学习第一子增量参数以及第二子增量参数，将第一子增量参数与第二子增量参数进行参数融合处理得到增量参数，并根据增量参数对去噪模型的模型参数进行更新，以取得更快的训练效率。其中，增量参数的维度与模型参数的维度相同。

在训练完成去噪模型之后，即可根据训练后的去噪模型实现图像生成处理。本申请实施例提供了如图9所示的图像生成处理的一个流程示意图，其中，输入的文本为“一个骑马的宇航员”，所生成的图像的图像内容与该文本相符。

在一些实施例中，可以在扩散模型的基础上进一步优化，例如，可以在扩散模型中添加适配器模型，该适配器模型包括两方面的改进：第一方面，通过图像编码器（可以是VAE中的图像编码器，也可以是其他图像编码器）从第一样本图像中提取图像特征，并通过投影网络对第一样本图像的图像特征进行投影处理，以使第一样本图像的投影处理后的图像特征与拼接文本的文本特征在维度上一致，其中，投影网络可以包括一个线性层和一个归一化层；另一方面，提出了一种解耦交叉注意力机制，即引入了第二特征交叉网络，第二特征交叉网络的输入包括第一样本图像的投影处理后的图像特征、以及噪声图像（第一噪声图像或者第二噪声图像）的图像特征，第二特征交叉网络用于与第一特征交叉网络并行处理，两个特征交叉网络的结果可以相加，从而实现噪声预测并去除噪声。在已添加适配器模型的情况下，可以仅对适配器模型进行训练，具体可以对适配器模型中的投影网络以及第二特征交叉网络进行训练。

本申请实施例还提供了如图10所示的图像对比示意图，图像101为第一样本图像，图像102为通过相关技术提供的样本增广方案所生成的图像（示出了多个图像），图像103为通过本申请实施例提供的基于人工智能的样本增广方法生成的第二样本图像。相较于图像102与图像101在图像内容上的差异，图像103与图像101在图像内容上的差异明显更大，能够有效提升样本图像的多样性。其中，在生成图像103的过程中，所使用的拼接文本为“aclose up of a needle being inserted into a person's skin,keynote presentationof secretion/pathological features”。

通过本申请实施例，能够自动生成样本质量较高的第二数据样本，有效增强图像分类模型的训练数据集中的样本图像多样性，从而能够增强训练后的图像分类模型的鲁棒性，使得训练后的图像分类模型具有更强的图像分类能力。

下面继续说明本申请实施例提供的基于人工智能的样本增广装置255实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的基于人工智能的样本增广装置255中的软件模块可以包括：获取模块2551，用于获取第一数据样本；其中，第一数据样本包括第一样本图像以及对应的图像标签；图像描述生成模块2552，用于对第一样本图像进行图像描述生成处理，得到第一样本图像的图像描述；拼接模块2553，用于将第一样本图像的图像标签与图像描述进行拼接处理，得到拼接文本；图像生成模块2554，用于根据拼接文本进行图像生成处理，得到第二样本图像；构建模块2555，用于根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

在一些实施例中，图像生成模块2554还用于：随机生成第一噪声图像的图像特征；根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征；其中，去噪控制条件包括拼接文本的文本特征；根据第二样本图像的图像特征还原出第二样本图像。

在一些实施例中，图像生成模块2554还用于：对第一样本图像的图像特征进行加噪处理，得到第二噪声图像的图像特征；通过去噪模型根据去噪控制条件对第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征；根据加噪处理所添加的噪声与去噪处理所预测的噪声确定损失值，并根据损失值训练去噪模型；通过训练后的去噪模型根据去噪控制条件对第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征。

在一些实施例中，去噪模型包括第一特征交叉网络；图像生成模块2554还用于：通过去噪模型中的第一特征交叉网络将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的图像特征；根据损失值训练去噪模型中的第一特征交叉网络。

在一些实施例中，去噪控制条件还包括第一样本图像的图像特征；去噪模型包括第一特征交叉网络以及第二特征交叉网络；图像生成模块2554还用于：通过去噪模型中的第一特征交叉网络将拼接文本的文本特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第一子图像特征；通过去噪模型中的第二特征交叉网络将第一样本图像的图像特征与第二噪声图像的图像特征进行特征交叉处理，以预测并去除第二噪声图像的图像特征中的噪声，得到去噪图像的第二子图像特征；将去噪图像的第一子图像特征与第二子图像特征进行特征融合处理，得到去噪图像的图像特征；根据损失值训练去噪模型中的第二特征交叉网络。

在一些实施例中，图像生成模块2554还用于：通过投影网络对第一样本图像的图像特征进行投影处理；其中，第一样本图像的投影处理后的图像特征用于进行特征交叉处理；根据损失值训练投影网络。

在一些实施例中，图像生成模块2554还用于：执行T轮加噪迭代，并在第t轮加噪迭代过程中执行以下处理：在第t轮加噪迭代输入的图像特征中添加噪声，得到第t+1轮加噪迭代输入的图像特征；其中，第一样本图像的图像特征用于作为第1轮加噪迭代输入的图像特征；第T轮加噪迭代得到的图像特征为第二噪声图像的图像特征；执行T轮去噪迭代，并在第t轮去噪迭代过程中执行以下处理：通过去噪模型根据去噪控制条件预测第t轮去噪迭代输入的图像特征中的噪声，并在第t轮去噪迭代输入的图像特征中去除预测出的噪声，得到第t+1轮去噪迭代输入的图像特征；其中，第二噪声图像的图像特征用于作为第1轮去噪迭代输入的图像特征；第T轮去噪迭代得到的图像特征为去噪图像的图像特征；其中，T为大于1的整数，t为大于0且不超过T的整数。

在一些实施例中，图像生成模块2554还用于：通过第一图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征；通过文本编码器对拼接文本进行文本编码处理，得到拼接文本的文本特征；通过第一图像编码器对应的图像解码器对第二样本图像的图像特征进行图像解码处理，得到第二样本图像。

在一些实施例中，图像生成模块2554还用于：执行以下任意一种处理：根据损失值学习增量参数，并根据增量参数对去噪模型的模型参数进行更新；根据损失值学习第一子增量参数以及第二子增量参数，将第一子增量参数与第二子增量参数进行参数融合处理得到增量参数，并根据增量参数对去噪模型的模型参数进行更新；其中，增量参数的维度与模型参数的维度相同。

在一些实施例中，图像描述生成模块2552还用于：通过第二图像编码器对第一样本图像进行图像编码处理，得到第一样本图像的图像特征；通过转换器模型从第一样本图像的图像特征中提取关键图像特征；通过语言模型根据关键图像特征进行语言生成处理，得到第一样本图像的图像描述。

在一些实施例中，构建模块2555还用于：将第二样本图像与第一样本图像的图像标签进行匹配处理，得到匹配度；当匹配度大于匹配度阈值时，根据第二样本图像以及第一样本图像的图像标签构建第二数据样本。

在一些实施例中，基于人工智能的样本增广装置255还包括图像分类模块，用于：将第一数据样本以及第二数据样本组合为训练数据集；根据训练数据集中的数据样本确定损失值，并根据损失值对图像分类模型进行训练；通过训练后的图像分类模型对待分类图像进行图像分类处理，得到待分类图像的图像标签。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括可执行指令，该可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该可执行指令，处理器执行该可执行指令，使得该电子设备执行本申请实施例上述的基于人工智能的样本增广方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的样本增广方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的样本增广方法，其特征在于，包括：

根据所述拼接文本进行图像生成处理，得到第二样本图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述拼接文本进行图像生成处理，得到第二样本图像，包括：

随机生成第一噪声图像的图像特征；

根据去噪控制条件对所述第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征；其中，所述去噪控制条件包括所述拼接文本的文本特征；

根据所述第二样本图像的图像特征还原出所述第二样本图像。

3.根据权利要求2所述的方法，其特征在于，所述根据去噪控制条件对所述第一噪声图像的图像特征进行去噪处理之前，所述方法还包括：

对所述第一样本图像的图像特征进行加噪处理，得到第二噪声图像的图像特征；

通过去噪模型根据所述去噪控制条件对所述第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征；

根据加噪处理所添加的噪声与去噪处理所预测的噪声确定损失值，并根据所述损失值训练去噪模型；

所述根据去噪控制条件对所述第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征，包括：

通过训练后的去噪模型根据所述去噪控制条件对所述第一噪声图像的图像特征进行去噪处理，得到第二样本图像的图像特征。

4.根据权利要求3所述的方法，其特征在于，去噪模型包括第一特征交叉网络；所述通过去噪模型根据所述去噪控制条件对所述第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征，包括：

通过去噪模型中的第一特征交叉网络将所述拼接文本的文本特征与所述第二噪声图像的图像特征进行特征交叉处理，以预测并去除所述第二噪声图像的图像特征中的噪声，得到去噪图像的图像特征；

所述根据所述损失值训练去噪模型，包括：

根据所述损失值训练去噪模型中的第一特征交叉网络。

5.根据权利要求3所述的方法，其特征在于，所述去噪控制条件还包括所述第一样本图像的图像特征；去噪模型包括第一特征交叉网络以及第二特征交叉网络；所述通过去噪模型根据所述去噪控制条件对所述第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征，包括：

通过去噪模型中的第一特征交叉网络将所述拼接文本的文本特征与所述第二噪声图像的图像特征进行特征交叉处理，以预测并去除所述第二噪声图像的图像特征中的噪声，得到去噪图像的第一子图像特征；

通过去噪模型中的第二特征交叉网络将所述第一样本图像的图像特征与所述第二噪声图像的图像特征进行特征交叉处理，以预测并去除所述第二噪声图像的图像特征中的噪声，得到去噪图像的第二子图像特征；

将去噪图像的第一子图像特征与第二子图像特征进行特征融合处理，得到去噪图像的图像特征；

所述根据所述损失值训练去噪模型，包括：

根据所述损失值训练去噪模型中的第二特征交叉网络。

6.根据权利要求5所述的方法，其特征在于，所述通过去噪模型中的第二特征交叉网络将所述第一样本图像的图像特征与所述第二噪声图像的图像特征进行特征交叉处理之前，所述方法还包括：

通过投影网络对所述第一样本图像的图像特征进行投影处理；其中，所述第一样本图像的投影处理后的图像特征用于进行特征交叉处理；

所述方法还包括：

根据所述损失值训练所述投影网络。

7.根据权利要求3所述的方法，其特征在于，所述对所述第一样本图像的图像特征进行加噪处理，得到第二噪声图像的图像特征，包括：

执行T轮加噪迭代，并在第t轮加噪迭代过程中执行以下处理：

在第t轮加噪迭代输入的图像特征中添加噪声，得到第t+1轮加噪迭代输入的图像特征；

其中，所述第一样本图像的图像特征用于作为第1轮加噪迭代输入的图像特征；第T轮加噪迭代得到的图像特征为第二噪声图像的图像特征；

所述通过去噪模型根据所述去噪控制条件对所述第二噪声图像的图像特征进行去噪处理，得到去噪图像的图像特征，包括：

执行T轮去噪迭代，并在第t轮去噪迭代过程中执行以下处理：

通过去噪模型根据所述去噪控制条件预测第t轮去噪迭代输入的图像特征中的噪声，并在第t轮去噪迭代输入的图像特征中去除预测出的噪声，得到第t+1轮去噪迭代输入的图像特征；

其中，所述第二噪声图像的图像特征用于作为第1轮去噪迭代输入的图像特征；第T轮去噪迭代得到的图像特征为去噪图像的图像特征；

其中，T为大于1的整数，t为大于0且不超过T的整数。

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

通过第一图像编码器对所述第一样本图像进行图像编码处理，得到所述第一样本图像的图像特征；

通过文本编码器对所述拼接文本进行文本编码处理，得到所述拼接文本的文本特征；

所述根据所述第二样本图像的图像特征还原出所述第二样本图像，包括：

通过所述第一图像编码器对应的图像解码器对所述第二样本图像的图像特征进行图像解码处理，得到所述第二样本图像。

9.根据权利要求3所述的方法，其特征在于，所述根据所述损失值训练去噪模型，包括：

执行以下任意一种处理：

根据所述损失值学习增量参数，并根据所述增量参数对去噪模型的模型参数进行更新；

根据所述损失值学习第一子增量参数以及第二子增量参数，将所述第一子增量参数与所述第二子增量参数进行参数融合处理得到增量参数，并根据所述增量参数对去噪模型的模型参数进行更新；

其中，所述增量参数的维度与所述模型参数的维度相同。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述对所述第一样本图像进行图像描述生成处理，得到所述第一样本图像的图像描述，包括：

通过第二图像编码器对所述第一样本图像进行图像编码处理，得到所述第一样本图像的图像特征；

通过转换器模型从所述第一样本图像的图像特征中提取关键图像特征；

通过语言模型根据所述关键图像特征进行语言生成处理，得到所述第一样本图像的图像描述。

11.根据权利要求1至9任一项所述的方法，其特征在于，所述根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本之前，所述方法还包括：

将所述第二样本图像与所述第一样本图像的图像标签进行匹配处理，得到匹配度；

所述根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本，包括：

当所述匹配度大于匹配度阈值时，根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本。

12.根据权利要求1至9任一项所述的方法，其特征在于，所述根据所述第二样本图像以及所述第一样本图像的图像标签构建第二数据样本之后，所述方法还包括：

将所述第一数据样本以及所述第二数据样本组合为训练数据集；

根据所述训练数据集中的数据样本确定损失值，并根据所述损失值对图像分类模型进行训练；

通过训练后的图像分类模型对待分类图像进行图像分类处理，得到所述待分类图像的图像标签。

13.一种基于人工智能的样本增广装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的样本增广方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的样本增广方法。

16.一种计算机程序产品，其特征在于，包括可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的样本增广方法。