CN116682110B

CN116682110B - 图像处理方法、装置、设备及介质

Info

Publication number: CN116682110B
Application number: CN202310894097.4A
Authority: CN
Inventors: 朱城; 鄢科
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-31
Anticipated expiration: 2043-07-20
Also published as: CN116682110A

Abstract

本申请的实施例公开了一种图像处理方法、装置、设备及介质，该方法包括：获取待处理的目标图像；将目标图像输入至预训练的图文模型，图文模型的模型损失包括图像损失，图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；获取图文模型生成的用于描述目标图像的目标文本。本申请实施例的技术方案可以使生成的目标文本能够尽可能准确描述该目标图像，保证了目标文本的准确性。

Description

图像处理方法、装置、设备及介质

技术领域

本申请涉及视频及图像处理技术领域，具体而言，涉及一种图像处理方法、图像处理装置、电子设备及计算机可读存储介质。

背景技术

在图像领域中，常用的生成图像描述文本的基本方法有问答形式和看图说话形式；然而，通过问答形式生成的描述文本容易出现过度简化或遗漏关键信息的问题，导致描述文本与原图像内容的差异较大；另外，通过看图说话形式生成的描述文本则容易受到图像中不相关或次要的内容的干扰，同样会导致生成的文本与图像内容的差异较大。

发明内容

申请的实施例提供了一种图像处理方法、图像处理装置、电子设备、计算机可读存储介质及计算机程序产品，可以使生成的目标文本能够尽可能准确描述该目标图像，保证了目标文本的准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取待处理的目标图像；将所述目标图像输入至预训练的图文模型，所述图文模型的模型损失包括图像损失，所述图像损失是根据第一样本图像，以及用于描述所述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；获取所述图文模型生成的用于描述所述目标图像的目标文本；获取图文模型对待转译图像进行转译得到的目标图像域的目标图像，目标图像中所包含的关键信息与待转译图像中所包含的关键信息一致。

根据本申请实施例的一个方面，提供了一种图像处理装置，包括：获取模块，用于获取待处理的目标图像；输入模块，用于将所述目标图像输入至预训练的图文模型，所述图文模型的模型损失包括图像损失，所述图像损失是根据第一样本图像，以及用于描述所述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；获取模块，还用于获取所述图文模型生成的用于描述所述目标图像的图像内容的目标文本。

在本申请的一实施例中，装置还包括训练模块，用于获取待训练模型；获取用于描述图像内容的初始样本文本，并根据所述初始样本文本生成用于形容所述初始样本文本的第一样本图像；根据所述第一样本图像生成所述第一样本文本，并根据所述第一样本文本生成用于形容所述第一样本文本的第二样本图像；根据所述第一样本图像和所述第二样本图像的差异构建所述图像损失，并根据所述图像损失生成所述模型损失；根据所述模型损失对待训练模型的模型参数进行调整，得到所述图文模型。

在本申请的一实施例中，训练模块进一步用于对所述第一样本图像和所述第二样本图像分别进行特征提取，得到所述第一样本图像的第一样本图像特征和所述第二样本图像的第二样本图像特征；根据所述第一样本图像特征和所述第二样本图像特征之间的距离构建所述图像损失。

在本申请的一实施例中，训练模块进一步用于根据所述初始样本文本和所述第一样本文本的差异构建文本损失；根据所述文本损失和所述图像损失生成所述模型损失。

在本申请的一实施例中，训练模块进一步用于获取所述初始样本文本中具有语义信息的有效词句对应的初始样本文本特征，以及所述第一样本文本中所述有效词句对应的第一样本文本特征；根据所述初始样本文本特征和所述第一样本文本特征之间的距离构建所述文本损失。

在本申请的一实施例中，所述装置还包括补充模块，用于获取对所述目标文本进行补充的补充文本，并根据所述补充文本和所述目标文本生成待处理文本；输入模块还用于将所述待处理文本输入至所述图文模型，以获取所述图文模型生成的用于形容所述待处理文本的图像。

在本申请的一实施例中，训练模块进一步用于对所述初始样本文本进行特征提取，得到初始样本文本向量；获取随机加噪样本图像；根据所述初始样本文本向量对所述随机加噪样本图像进行去噪处理，得到所述第一样本图像。

在本申请的一实施例中，训练模块进一步用于对所述第一样本图像进行图像编码，得到图像特征向量；根据所述图像特征向量和预先通过文本信息所学习到的查询向量得到目标特征向量，所述目标特征向量用于表征所述第一样本图像中与文本信息相关的图像信息；根据所述目标特征向量生成样本图像文本；根据所述样本图像文本生成所述第一样本文本。

在本申请的一实施例中，训练模块进一步用于根据所述样本图像文本的语义信息对所述样本图像文本进行文本扩增处理，得到扩增样本文本；对所述扩增样本文本和所述样本图像文本进行归一化处理，得到所述第一样本文本。

在本申请的一实施例中，训练模块进一步用于对所述第一样本文本进行特征提取，得到第一样本文本向量；根据所述第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，其中，每次去噪处理对应的噪声强度相同；从所述多个噪声样本图像中选择至少两个噪声样本图像，所述至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像；根据所述至少两个噪声样本图像生成所述第二样本图像。

在本申请的一实施例中，训练模块进一步用于将所述至少两个噪声样本图像中除所述目标噪声样本图像之外的其他噪声样本图像进行对应像素的值相加，得到中间噪声样本图像；获取为所述目标噪声样本图像设置的扰动项，并根据所述扰动项对所述目标噪声样本图像进行扰动处理，得到扰动噪声样本图像；根据所述中间噪声样本图像和所述扰动噪声样本图像生成所述第二样本图像。

在本申请的一实施例中，训练模块进一步用于在对所述随机加噪样本图像进行任意一次去噪处理后，获取所得到的当前噪声样本图像；根据所述当前噪声样本图像和所述第一样本文本向量预测当前噪声值；根据所述当前噪声样本图像、所述第一样本文本向量与所述当前噪声值进行去噪处理，生成下一个噪声样本图像，直至去噪处理的次数达到所述预设噪声采样步数为止，以得到多个噪声样本图像。

根据本申请实施例的一个方面，本申请实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现如上所述的图像处理方法。

根据本申请实施例的一个方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使电子设备执行如上所述的图像处理方法。

根据本申请实施例的一个方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序，使得所述电子设备执行如上所述的图像处理方法。

在本申请的实施例所提供的技术方案中，将待处理的目标图像输入到图文模型，由于图文模型的模型损失包括图像损失，而图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的，其中经过了图生文和文生图的第二样本图像更能反映图像内容在转换过程的一致情况，进而基于图生文阶段的第一样本图像和文生图阶段的第二样本图像构建的图像损失，使得通过图像损失训练得到图文模型能改善转换过程中的内容信息的丢失，保证图像内容一致，进而图文模型生成的目标文本能够尽可能描述该目标图像，保证了目标文本的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本申请涉及的一种实施环境的示意图。

图2是本申请的一示例性实施例示出的一种图像处理方法的流程图。

图3是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图4是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图5是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图6是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图7是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图8是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图9是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图10是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图11是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图12是本申请的一示例性实施例示出的一种图像处理方法的流程图。

图13是本申请的一示例性实施例示出的另一种图像处理方法的流程图。

图14是本申请的一示例性实施例示出的一种待训练模型的结构示意图。

图15是本申请的另一示例性实施例示出的逆向模块的处理流程图。

图16是本申请的一示例性实施例示出的正向扩散和逆向扩散的示意图。

图17是本申请的一示例性实施例示出的去噪处理的流程示意图。

图18是本申请的另一示例性实施例示出的caption模块的处理流程图。

图19是本申请的一示例性实施例示出的图像处理装置的结构框图。

图20示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/，也不是必须按所描述的顺序执行。例如，有的操作/还可以分解，而有的操作/可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例的技术方案涉及人工智能(Artificial Intelligence，AI)技术领域，在介绍本申请实施例的技术方案之前，先简单介绍AI技术。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例的技术方案具体涉及AI中的机器学习技术，具体是基于机器学习技术预训练得到图文模型，进而实现对图像至文本的转换，以下对本申请实施例的技术方案进行详细介绍。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端10和服务器20。

终端10用于将待处理的目标图像发送至服务器20。

服务器20用于将目标图像输入至预训练的图文模型，进而获取图文模型生成的用于描述目标图像的目标文本，其中，图文模型的模型损失包括图像损失，图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的。

在一些实施例中，服务器20可以该目标文本发送至终端10，该终端10可以基于目标文本进行下游任务，例如对下游模型进行训练，又例如基于目标文本生成新的图像。

在一些实施例中，服务器20也可以自己获取待处理的目标图像，然后输入到图文模型，进而获取图文模型对该目标图像进行处理后所生成的目标文本，以基于目标文本进行后续处理。

在一些实施例中，终端10也可以单独实现图像处理，即终端10获取待处理的目标图像，然后输入到图文模型，进而获取图文模型对目标图像进行处理后所生成的目标文本。

其中，前述终端10可以是智能手机、平板、笔记本电脑、计算机、智能语音交互设备、智能家电、车载终端、飞行器等任意能够获取目标视频和待处理图像的电子设备，服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器，本处不对此进行限制。

终端10和服务器20预先通过网络建立通信连接，使得终端10和服务器20 之间可以通过网络互相通信。网络可以是有线网络，也可以是无线网络，本处也不进行限制。

需要说明的是：本发明实施例可以对各种图像进行图文转换，可应用于各种场景，包括但不限于云技术、AI（Artificial Intelligence，人工智能）、智慧交通、辅助驾驶等各种场景中的图像，或者也可以是对图像处理应用程序中的图像进行图像转换。

具体地，如果将本申请实施例的技术方案应用在智慧交通场景中，终端可以为车载终端，车载终端将行车记录仪拍摄的图像作为待处理的目标图像，将待处理的目标图像输入到图文模型，进而获取图文模型生成的描述该目标图像的目标文本，然后通过播放器播放该目标文本，以使得驾驶员即使没观察到道路中的相关事件，也可获知道路中的各种信息。

又例如将本申请实施例的技术方案应用在图像处理应用程序，服务器可以为图像处理服务器，例如图像处理服务器获取对象上传的待处理的目标图像，将目标图像输入到图文模型中，进而获取图文模型生成的描述该目标图像的目标文本，服务器基于该目标文本执行下游任务，例如训练语言模型。

需要说明的是，在本申请的具体实施方式中，目标图像涉及到对象相关，当本申请实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下对本申请实施例的技术方案的各种实现细节进行详细阐述。

如图2所示，图2是本申请的一个实施例示出的图像处理方法的流程图，该方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，该图像处理方法可以包括S210至S230，详细介绍如下。

S210、获取待处理的目标图像。

在本申请实施例中，待处理的目标图像可以是任意具有图像内容的图像，例如一张风景画、人物像等。

在一示例中，待处理的目标图像可以是视频中的一帧图像，即获取待处理的目标图像的过程为：通过指定的帧率或时间间隔来读取视频中的每一帧图像，从读取的帧图像中随机选择一帧或者选择关键帧作为目标图像。

在一示例中，待处理的目标图像可以是从其他设备传输得到的，如接收图像采集设备传输；目标图像也可以是直接从网络中下载的，还可以是对象上传的。

需要说明的是，在本申请的具体实施方式中，获取的目标图像涉及到与对象相关的信息，当本申请实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关对象信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

例如目标图像为人像图，则在获取该人像图，对该人像图中进行处理之前，会告知该人像图中包含的对象对应的信息处理规则，如会涉及该对象的人脸识别、人脸特征提取等处理规则，并征求该目标对象的单独同意，并严格准守法律法规要求和个人信息处理规则处理相关信息，采取技术措施保障相关数据安全。

S220、将目标图像输入至预训练的图文模型，图文模型的模型损失包括图像损失，图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的。

在本申请实施例中，图文模型是已经训练完成的模型，用于对图像进行图文转换，即将图像转换为文本，如将一个摄像头拍摄的在道路上的车流图像转换为“在道路上有不断行驶的车辆”的一段文字，因此将目标图像输入到图文模型后，可以得到用于描述目标图像的图像内容的目标文本。

值得注意的是，图文模型的模型损失包括图像损失，进而在训练阶段，可以根据该图像损失训练得到图文模型，该图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的。例如存在第一样本图像A1和用于描述第一样本图像A1的第一样本文本B1，第一样本文本B1转换得到第二样本图像A2，图像损失是根据第一样本图像A1和第二样本图像A2构建的。其中，在一示例中，第一样本文本B1可以是第一样本图像A1转换得到的。

如前所描述的，第一样本文本用于描述第一样本图像，则第一样本文本和第一样本图像所表达的内容相同，但通过第一样本文本转换得到第二样本图像，其中进行了图文之间的转换，使得该第一样本图像的图像内容和第二样本图像的图像内容可能相同，也可能不同，进而可以第一样本图像的图像内容和第二样本图像的图像内容构建图像损失，以此来表征转换过程中的内容信息的一致情况，进而通过图像损失训练得到图文模型能改善转换过程中的内容信息的丢失，使得进而在图文转换后，图文模型生成的文本能够尽可能准确描述图像。

S230、获取图文模型生成的用于描述目标图像的目标文本。

在本申请实施例中，将目标图像输入到图文模型后，可直接获取图文模型对目标图像进行图文转换处理得到目标文本，其中，由于图文模型是根据图像损失构建的，那么目标图像中所包含的图像内容不会丢失，与目标文本所表达的意思相同，实现用文本尽可能准确描述图像的内容。

在本申请实施例中，将待处理的目标图像输入到图文模型，由于图文模型的模型损失包括图像损失，而图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的，其中经过了图生文和文生图的第二样本图像更能反映图像内容在转换过程的一致情况，进而基于第一样本图像和第二样本图像构建的图像损失，使得通过图像损失训练得到图文模型能改善转换过程中的内容信息的丢失，保证图像内容一致，进而图文模型生成的目标文本能够尽可能描述该目标图像，保证了目标文本的准确性。

在本申请的一个实施例中，提供了另一种图像处理方法，该图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图3所示，该图像处理方法在图2中所示的S210~ S230的基础上，在图2中的S220之前增加了图文模型的训练过程，包括步骤S310~S350；其中，S310~S350详细介绍如下。

S310、获取待训练模型。

在本申请实施例中，待训练模型可以是某个类型的完整神经网络模型，该待训练模型也可以是由多个不同类型神经网络组合而成的神经网络模型，在此不进行限定。

S320、获取用于描述图像内容的初始样本文本，并根据初始样本文本生成用于形容初始样本文本的第一样本图像。

在本申请实施例中，获取初始样本文本，该初始样本文本用于描述图像内容，该图像内容可以任意合法合规的内容，在此不进行限定，其中获取方式可以是从网络中提取，也可以是由对象上传。

获取初始样本文本后，根据该初始样本文本生成第一样本图像，该第一样本图像用于形容初始样本文本，即用图像的形式来表达文本的内容。

在一示例中，可以将初始样本文本输入至待训练模型中，该待训练模型包括能够实现文生图的网络结构，进而可通过待训练模型从文本描述生成与描述相匹配的图像，进而生成第一样本图像，例如将文本转换为图像空间，同时将视觉特征与语言信息相互联系起来，以实现文本与图像之间的映射。

S330、根据第一样本图像生成第一样本文本，并根据第一样本文本生成用于形容第一样本文本的第二样本图像。

在一示例中，在获取第一样本图像后，可以将该第一样本图像输入至待训练模型中，该训练模型包括能够实现图生文的网络结构，进而可通过待训练模型生成第一样本文本，通过该第一样本文本描述第一样本图像。

在本申请实施例中，根据第一样本文本生成第二样本图像，通过第二样本图像形容第一样本文本。需要说明的是，为了后续更好的构建图像损失，根据初始样本文本生成第一样本图像的生成方式与根据第一样本文本生成第二样本图像的生成方式不同，例如通过实现文生图的第一网络结构实现初始样本文本至第一样本图像，通过实现文生图的第二网络结构实现第一样本文本至第二样本文本，而第一网络结构和第二网络结构不同，以通过不同的网络结构来反映对内容信息的处理结果的差异。

S340、根据第一样本图像和第二样本图像的差异构建图像损失，并根据图像损失生成模型损失。

在本申请实施例中，从初始样本文本至第一样本图像，从第一样本图像至第一样本文本，再从第一样本文本至第二样本图像，经过文生图、图生文、文生图，在此期间，形容的样本文本的图像内容可能发生了变化，为了待训练模型更好学习图与文之间的映射关系，通过第一样本图像和第二样本图像的差异构建图像损失，其中第一样本图像和第二样本图像的差异指的是第一样本图像和第二样本图像的相似度。

在生成图像损失后，根据图像损失生成模型损失，例如对图像损失进行处理后，如设置权重后生成模型损失。

S350、根据模型损失对待训练模型的模型参数进行调整，得到图文模型。

根据模型损失对待训练模型的模型参数进行调整，直到待训练模型网络收敛时，得到训练完成的图文模型。

需要说明的是，图3中所示S210~S230的其他详细介绍请参见图2所示的S210~S230，在此不再赘述。

本申请实施例中，通过描述图像内容的初始样本文本生成第一样本图像，即经过了文生图、图生文，以及文生图的转换过程，得到第一样本图像和第二样本图像，进而基于第一样本图像和第二样本图像的差异构建图像损失，使得图像损失更能衡量图像内容的一致性，进而后续在模型训练时，使得模型可以避免图像内容的丢失，使得生成的文本能够尽可能准确描述图像。

本申请实施例提供了另一种图像处理方法，该图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图4所示，该图像处理方法在图3中所示的基础上，将图3中所示的S340扩展为S410~S430。其中，S410~S430详细介绍如下。

S410、对第一样本图像和第二样本图像分别进行特征提取，得到第一样本图像的第一样本图像特征和第二样本图像的第二样本图像特征。

在本申请实施例中，对第一样本图像和第二样本图像分别进行特征提取，其特征提取方式可以相同，也可以不同，例如通过计算图像中每个像素点的梯度方向和强度来提取第一样本图像得到第一样本图像特征，通过对第二样本图像进行多尺度分析，提取出具有旋转不变性和尺度不变性的特征，得到第二样本图像的第二样本图像特征。

可以理解的是，若第一样本图像特征和第二样本图像特征的特征格式不同，还需对第一样本图像特征和第二样本图像特征进行归一化处理，以保证特征格式一致，以便于后续构建图像损失。

S420、根据第一样本图像特征和第二样本图像特征之间的距离构建图像损失。

在本申请实施例中，通过第一样本图像特征和第二样本图像特征之间的距离来反映图像特征之间的差异，距离越近，差异越小。其中，可以计算第一样本图像特征和第二样本图像特征之间相似度，将相似度作为第一样本图像特征和第二样本图像特征之间的距离。

在一示例中，第一样本图像特征和第二样本图像特征之间的相似度可以通过余弦相似度计算，也可以通过欧式距离计算相似度。

S430、根据图像损失生成模型损失。

需要说明的是，图4中所示S210~S230、S310~S330、S350的详细介绍请参见图3所示的S210~S230、S310~S330、S350，在此不再赘述。

本申请实施例中，通过第一样本图像的第一样本图像特征和第二样本图像的第二样本图像特征的距离可以反映第一样本图像和第二样本图像之间的相似度，进而保证构建的图像损失具有准确性。

本申请实施例还提供了另一种图像处理方法，该图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图5所示，在图3中所示的基础上，将图3中所示的S340扩展为S510~S530。其中，S510~S530详细介绍如下。

S510、根据第一样本图像和第二样本图像的差异构建图像损失。

S520、根据初始样本文本和第一样本文本的差异构建文本损失。

在本申请实施例中，文本损失用于表征在图文转换过程中的文本内容的丢失情况。

其中，如前所描述的，在生成第一样本文本前，经过了文生图和图生文，描述图像内容的文本语义也可能发生了变化，为了待训练模型更好学习图与文之间的映射关系，通过初始样本文本和第一样本文本的差异构建文本损失，其中初始样本文本和第一样本文本的差异指的是初始样本文本和第一样本文本的相似度。

S530、根据文本损失和图像损失生成模型损失。

在一示例中，可将文本损失和图像损失之和作为模型损失。

在一示例中，可为文本损失和图像损失配置权重，将文本损失和图像损失的加权求和作为模型损失。

需要说明的是，图5中所示的S210~S230、S310~S330、S350的其他详细介绍请参见图3中所示的S210~S230、S310~S330、S350，在此不再赘述。

本申请实施例中，不但考虑图像内容在转换过程中的一致性，还考虑文本描述在转换过程中的一致性，通过初始样本文本和第一样本文本构建文本损失，使得模型经过文本和图像的多重约束，保证后续模型能够避免图像内容和文本描述的信息丢失。

在本申请的一个实施例中，还提供了另一种图像处理方法，图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图6所示，该图像处理方法在图5中所示的基础上，将S520扩展为S610~S620。其中，S610~S620详细介绍如下。

S610、获取初始样本文本中具有语义信息的有效词句对应的初始样本文本特征，以及第一样本文本中有效词句对应的第一样本文本特征。

在本申请实施例中，初始样本文本和第一样本文本中的词语可能存在不同，首先需要获取初始样本文本中有效词句，该有效词句包括具有语义信息的词语或句子，例如“跳舞”，而如“的”、“是”等组词为非有效词；其中，要素之间的关系不清楚的句子，或缺乏上下文或语境，使人无法理解它们的含义的句子为不具备语义的句子，例如单独句子“那个事件很严重”为不具备语义的句子。

同理从第一样本文本中提取有效词句，然后对初始样本文本中的有效词句进行特征提取得到初始样本文本特征，对第一样本文本中的有效词句进行特征提取得到第一样本文本特征，其中对初始样本文本和第一样本文本进行特征提取的方式可以相同，也可以不同，例如将有效词句转换为向量表示，通过将有效词句与其周围的上下文有效词句联系起来，学习有效词句的分布式表示，得到初始样本文本特征；又例如，通过对有效词句的结构进行分析，提取句子中的名词、动词、形容词等语法信息，作为第一样本文本特征。

可以理解的是，若初始样本文本特征和第一样本文本特征的特征形式不同，还需对初始样本特征和第一样本文本特征进行处理，以统一特征形式，便于后续构建文本损失。

在一些示例中，为了提高特征提取的效率，在从样本文本中提取有效词句之后，还可以从有效词句中筛选出具有区分能力的词语进行特征提取，例如通过如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力。

S620、根据初始样本文本特征和第一样本文本特征之间的距离构建文本损失。

在本申请实施例中，通过初始样本文本特征和第一样本文本特征之间的距离来反映文本特征之间的差异，距离越小，差异越小。其中，可以算初始样本文本特征和第一样本文本特征之间的相似度，将相似度作为初始样本文本特征和第一样本文本特征之间的距离。

在一示例中，文本特征之间的相似度可以过余弦相似度计算，也可以通过欧式距离计算相似度。

需要说明的是，图6中所示的S210~S230、S310~S330、S510、S530和S350的其他详细介绍请参见图5所示的S210~S230、S310~S330、S510、S530和S350，在此不再赘述。

在本申请实施例中，通过初始样本文本中具有语义信息的有效词句对应的初始样本文本特征，以及第一样本文本中有效词句对应的第一样本文本特征的距离可以反映初始样本文本和第一样本文本之间的相似度，进而保证构建的文本损失具有准确性。

值得注意的是，在本申请的一个实施例中，还提供了另一种图像处理方法，图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图7所示，该图像处理方法在图5中所示的基础上，将S230之后增加通过图文模型实现文生图的过程，包括S710~S720。其中，S710~S720详细介绍如下。

S710、获取对目标文本进行补充的补充文本，并根据补充文本和目标文本生成待处理文本。

需要说明的是，本申请实施例中的图文模型可以实现图生文，也可以实现文生图，在获得描述待处理的目标图像的图像内容的目标文本之后，可以对目标文本进行补充，指的是在目标文本的基础上，通过添加新的信息、观点、数据等内容，使得文本更加完整和准确，例如基于目标文本的上下文补充事件或对象的细节内容得到补充文本。

在获得补充文本后，可以对目标文本和补充文本进行修改和润色，得到待处理文本，使待处理文本更加流畅、易读、有逻辑性。

S720、将待处理文本输入至图文模型，以获取图文模型生成的用于形容待处理文本的图像。

将待处理文本输入至图文模型，该图文模型的模型损失包括文本损失和图像损失，使得图文模型能够充分学习图像与文本之间的映射关系，进而获取图文模型生成的用于形容待处理文本的图像。

需要说明的是，图7中所示的S210~S230、S310~S330、S510~S530、S350的其他详细介绍请参见图5所示的S210~S230、S310~S330、S510~S530、S350，在此不再赘述。

在本申请实施例中，图文模型不但可以应用到图生文的应用场景，也可以应用到文生图的应用场景，通过目标文本进行补充，以生成待处理文本，进而基于待处理文本生成更加具有细节性的图像，能够符合各种再绘画图像的需求。

在本申请的一个实施例中，还提供了另一种图像处理方法，图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图8所示，该图像处理方法在图3中所示的基础上，将S320扩展为S810~S830。其中，S810~S830详细介绍如下。

S810、获取用于描述图像内容的初始样本文本，并对初始样本文本进行特征提取，得到初始样本文本向量。

在本申请实施例中，对初始样本文本进行特征提取，可通过Text Encoder 模块，将输入的初始样本文本编码成为一个表征向量，即得到初始样本文本向量。

S820、获取随机加噪样本图像。

在本申请实施例中，随机加噪样本图像指的是使用随机高斯噪声的样本图像，在一示例中，该随机加噪样本图像是处于潜在空间（latent space）。

S830、根据初始样本文本向量对随机加噪样本图像进行去噪处理，得到第一样本图像。

在本申请实施例中，基于初始样本文本向量对随机加噪样本图像进行去噪处理，一步步注入初始样本文本的语义，进而得到形容初始样本文本的第一样本图像。

在一示例中，去噪处理的过程包括：将初始样本文本向量和随机加噪样本图像输入待训练模型中的去噪模块，该去噪模块以初始样本文本向量为条件的同时迭代地对随机加噪样本图像进行去噪，其中，该去噪模块可以基于随机加噪样本图像和初始样本文本向量可以预测噪声，进而随机加噪样本图像减去该预测出的噪声，进而得到预测的去噪图像表示，在基于预测的去噪图像表示和该初始样本文本向量再次预测噪声，通过预测的去噪图像表示减去再次预测出的噪声，多次迭代；其中在去噪的过程中，通过注入的初始样本文本向量可以预测出噪声，进而逐步减去预测出的噪声，得到符合初始样本文本向量所对应的文本的第一样本图像，该第一样本图像可以准确形容初始样本文本。

需要说明的是，图8中所示的S210~S230、S310、S330~S350的其他详细介绍请参见图3所示的S210~S230、S310、S330~S350，在此不再赘述。

在本申请实施例中，对初始样本文本进行特征提取，得到初始样本文本向量，根据初始样本文本向量对随机加噪样本图像进行去噪处理，即在去噪的过程中注入语义信息，保证生成第一样本图像能准确形容初始样本文本。

在本申请的一个实施例中，还提供了另一种图像处理方法，图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图9所示，该图像处理方法在图3中所示的基础上，将S330扩展为S910~S940。其中，S910~S940详细介绍如下。

S910、对第一样本图像进行图像编码，得到图像特征向量。

在本申请实施例中，可以将第一样本图像输入至图像编码器（Image Encoder），以对第一样本图像进行图像编码，其中图像编码器用于从图像中提取特征向量，并将提取出的特征向量进行量化后进行压缩编码；在进行图像编码后，从图像编码器中提取所有特征向量，得到图像特征向量，其中，图像特征向量包括但不限于图像中的像素值、边缘和颜色特征。

S920、根据图像特征向量和预先通过文本信息所学习到的查询向量得到目标特征向量，目标特征向量用于表征第一样本图像中与文本信息相关的图像信息。

在本申请实施例中，需要先获取预先通过文本信息所学习到的查询向量，该查询向量是基于预设的文本信息和图像集进行视觉-语言特征向量的学习得到的；根据该查询向量可以学习图像特征向量中有关文本的所有图像信息，从而提取与文本相关的特征，得到目标特征向量，使得目标特征向量可表征第一样本图像中与文本信息相关的图像信息。

S930、根据目标特征向量生成样本图像文本。

在本申请实施例中，可以直接将目标特征向量输入语言模型，通过该语言模型对目标特征向量进行处理，以生成样本图像文本。在一示例中，该语言模型可以为LLM模型（Large Language Model），具有生成文本的神经网络模型、文本编码-解码器等。

在一示例中，由于目标特征向量用于表征第一样本图像中与文本信息相关的图像信息，可根据目标特征向量和预设的语言标签生成目标样本语言标签，如先从目标特征向量中提取关键文本信息对应的特征向量，包括物体的形状、颜色、大小等特征，将提出的关键文本信息对应的特征向量与预设的语言标签进行对比，得到最匹配的标签，即目标样本语言标签；该目标样本语言标签可以为单词、短句、整个句子中的至少一个，进而可根据目标样本语言标签预测文本的语法和语义，之后基于预测的文本的语法和语义生成文本描述，实现将目标特征向量转换为样本图像文本。

S940、根据样本图像文本生成第一样本文本，并根据第一样本文本生成用于形容第一样本文本的第二样本图像。

在一示例中，可以将样本图像文本直接作为第一样本文本。

在一示例中，还可以对样本图像文本进行处理，如文本扩增处理，基于处理后的文本生成第一样本文本。

基于第一样本文本生成第二样本图像的过程请参见后续实施例。

需要说明的是，图9中所示的S210~S230、S310~S320、S340~S350的其他详细介绍请参见图3所示的S210~S230、S310~S320、S340~S350，在此不再赘述。

在本申请实施例中，通过图像编码得到第一样本图像的图像特征向量，进而基于图像特征向量和学习到的查询向量得到用于表征第一样本图像中与文本信息相关的图像信息的目标特征向量，进而生成样本图像文本，使得到的样本图像文本能够准确描述样本图像。

在本申请的一个实施例中，还提供了另一种图像处理方法，图像处理方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图10所示，该图像处理方法在图9中所示的基础上，将S940扩展为S1010~S1020。其中，S1010~S1020详细介绍如下。

S1010、根据样本图像文本的语义信息对样本图像文本进行文本扩增处理，得到扩增样本文本。

在本申请实施例中，为了待训练模型充分学习描述图像内容的各种文本形式，在基于第一样本图像生成样本图像文本后，对样本图像文本进行文本扩增处理，其中根据样本图像文本的语义信息进行文本扩增处理，保证描述图像内容的含义相同。

在一示例中，可以根据样本图像文本的语义信息对样本图像文本中的部分词语进行同义词替换，即将与原文本意思相近的词语替换原文本中的某些词语，扩大词汇量，以得到扩增样本文本；还可以对样本图像文本中的句子进行重组，生成新的句子，但新的句子的语义信息与样本图像文本中的句子的语义信息相同，以得到扩增样本文本。

在一示例中，根据样本图像文本的语义信息对样本图像文本中的语言形式进行扩展，得到扩展样本文本，例如将中文形式的样本图像文本扩增为其他语言形式的样本图像文本，如英文的样本图像文本、日文的样本图像文本等。

在一示例中，在对样本图像文本进行文本扩增处理，如在样本图像文本中随机插入一些词语或短句，或随机删除一些词语或短句以增加文本的复杂度，得到扩增样本文本，该扩展样本文本与样本图像文本的语义信息相同。

S1020、对扩增样本文本和样本图像文本进行归一化处理，得到第一样本文本，并根据第一样本文本生成用于形容第一样本文本的第二样本图像。

在本申请实施例中，为了保证扩增样本文本和样本图像文本格式一致，对扩增样本文本和样本图像文本进行归一化处理，归纳统一样本的统计分布性，得到第一样本文本，可以理解的是，该第一样本文本包括样本图像文本和扩增样本文本。

其中，生成用于形容第一样本文本的第二样本图像，具体过程请参见后续实施例。

需要说明的是，图10中所示的S210~S230、S310~S320、S910~S930、S340~S350的其他详细介绍请参见图9所示的S210~S230、S310~S320、S910~S930、S340~S350，在此不再赘述。

在本申请实施例中，通过样本图像文本的语义信息对样本图像文本进行文本扩增处理，进而基于扩增样本文本和样本图像文本使得生成的第一样本文本具有丰富的含义，且能应用至各种场景，保证后续模型训练时，具有更好的鲁棒性。

本申请实施例提供了另一种图像处理方法，该方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图11所示，该图像处理方法在图3中所示的基础上，将S330扩展为S1110~S1140。其中，S1110~S1140详细介绍如下。

S1110、根据第一样本图像生成第一样本文本，并对第一样本文本进行特征提取得到第一样本文本向量。

在本申请实施例中，对第一样本文本进行特征提取，可通过文本编码器（TextEncoder）将输入的第一样本文本编码成为一个表征向量，即得到第一样本文本向量。

S1120、根据第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，其中，每次去噪处理对应的噪声强度相同。

在本申请实施例中，先获取随机加噪样本图像和预设噪声采样步数，该预设噪声采样步数包括进行去噪处理的步数，例如预设噪声采样步数为50，则需要对随机加噪样本图像进行50次去噪，其中每个噪声采样步数对应的噪声强度一致。

在一示例中，根据预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，在逐次去噪处理的过程中，根据第一样本文本向量注入语义。需要说明的是，逐次去噪处理指的是，基于随机加噪样本图像和初始样本文本向量预测出应减去的噪声，并从随机加噪样本图像中减去所预测出的噪声得到第一噪声样本图像，之后根据该预设噪声采样步数重复多次，即基于第一噪声样本图像和初始样本文本向量预测出应减去的噪声，并从第一噪声样本图像中减去所预测出的噪声得到第二噪声样本图像，以此类推，直到达到预设噪声采样步数，得到多个噪声样本图像，该噪声样本图像的数量与去噪处理的数量相同；其中，第一次去噪处理对应的噪声值和第二次去噪处理对应的噪声值可能不同，但噪声强度相同，其中，噪声值指的是图像中存在的噪声的数量或程度，噪声强度是指噪声在图像中的影响程度，也就是噪声对图像质量的影响程度，其中，噪声强度可以信噪比（SNR）或峰值信噪比（PSNR）等指标来衡量。

S1130、从多个噪声样本图像中选择至少两个噪声样本图像，至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像。

在本申请实施例中，该至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像，其中，最后一次去噪处理对应的目标噪声样本图像即为去噪完成后图像中不存在噪声值或者噪声值最小的样本图像，该目标噪声样本图像可以在一定程度上形容第一样本文本。

针对至少两个噪声样本图像中除目标噪声样本图像外的其他噪音样本图像，该其他噪声样本图像为具有一定噪声值的样本图像，其中可以随机从多个噪声样本图像中选择，也可以根据去噪处理的次数进行按周期选择，在此不进行限定。

在一示例中，该其他噪声样本图像的数量可以根据实际情况进行灵活选择，例如根据去噪处理的次数确定，去噪处理的次数越多，选择的其他噪声样本图像的数量越多。

S1140、根据至少两个噪声样本图像生成第二样本图像。

在本申请实施例中，为了保证对应第一样本文本的扰动，生成的第二样本图像具有足够的鲁棒性，结合具有一定噪声值的其他噪音样本图像和不存在噪声值的目标噪声样本图像生成第二样本图像，在一示例中，可以对其他噪音样本图像和目标噪声样本图像进行交集处理，生成第二样本图像。

需要说明的是，图11中所示的S210~S230、S310~S320、S340~S350的其他详细介绍请参见图10所示的S210~S230、S310~S320、S340~S350，在此不再赘述。

在本申请实施例中，根据第一样本文本对应的第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，从中选择包括最后一次去噪处理对应的目标噪声样本图像的至少两个噪声样本图像，进而生成第二样本图像，保证了对第一样本文本的扰动，使得第二样本图像具有足够的鲁棒性。

本申请实施例提供了另一种图像处理方法，该方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图12所示，该图像处理方法在图11中所示基础上，将图11所示的S1140扩展为S1210~S1230。其中，S1210~S1230详细介绍如下。

S1210、将至少两个噪声样本图像中除目标噪声样本图像之外的其他噪声样本图像进行对应像素的值相加，得到中间噪声样本图像。

如前所描述，其他噪声样本图像具有一定程度的噪声值，先将其他噪声样本图像逐像素进行相加，即对相同位置的像素的值相加，得到中间噪声样本图像。

S1220、获取为目标噪声样本图像设置的扰动项，并根据扰动项对目标噪声样本图像进行扰动处理，得到扰动噪声样本图像。

在本申请实施例，目标噪声样本图像不存在噪声值，而为了保证第二样本图像具有足够的扰动性，获取预先为目标噪声样本图像设置的扰动项，通过该扰动项对目标噪声样本图像进行扰动处理，例如将扰动项与目标噪声样本图像进行相乘处理，得到扰动噪声样本图像。

S1230、根据中间噪声样本图像和扰动噪声样本图像生成第二样本图像。

在本申请实施例中，将中间噪声样本图像和扰动噪声样本图像进行交集，生成第二样本图像，即将中间噪声样本图像和扰动噪声样本图像进行对应像素的值相加，得到该第二样本图像。

需要说明的是，图12中所示S210~S230、S310~S320、S1110~S1130、S340~S350的详细介绍请参见图11中所示的S210~S230、S310~S320、S1110~S1130、S340~S350，在此不再赘述。

本申请实施例中，通过其他噪声样本图像和目标噪声样本图像进行逐像素相加，以给目标噪声样本图像加入足够的扰动性。

需要说明的是，本申请实施例还提供了另一种图像处理方法，该方法可以应用于图1所示的实施环境，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明，如图13所示，该图像处理方法在图11中所示基础上，在S1120扩展为S1310~S1330。其中，S1310~S1330详细介绍如下。

S1310、在对随机加噪样本图像进行任意一次去噪处理后，获取所得到的当前噪声样本图像。

S1320、根据当前噪声样本图像和第一样本文本向量预测当前噪声值。

在本申请实施例中，在对随机加噪样本图像进行任意一次去噪处理后，获得到的当前噪声样本图像，通过预训练的去噪模块根据当前噪声样本图像和当前噪声采样步数预测当前噪声值。

其中，该去噪模块在训练时，会先执行对图像进行加噪的过程中，考虑向一个从真实数据分布中随机采样的变量添加噪声，添加N（预设噪声采样步数）次之后，会得到一个长度为N的序列，随着N的增大，原始数据会丢失它的特征而变成一个纯的高斯噪声；而去噪就是反向过程，随机选择一个噪声采样步数n，以及该噪声采样步数n对应的噪声样本图像，将噪声采样步数n对应的噪声样本图像和第一样本文本向量输入至预训练的去噪模块，该去噪模块能把反向过程转换为前向过程，进而逆向过程分布，从噪声样本图像中预测出噪声。

S1330、根据当前噪声样本图像与当前噪声值进行去噪处理，生成下一个噪声样本图像，直至去噪处理的次数达到预设噪声采样步数为止，以得到多个噪声样本图像。

在本申请实施例中，将当前噪声样本图像减去当前噪声值得到下一个噪声样本图像，重复执行S1320~S1330，即基于该下一个噪声样本图像和第一样本文本向量预测下一个噪声值，进而下一个噪声样本图像减去下一个噪声值，生成再下一个噪声样本图像，直至去噪处理的次数达到预设噪声采样步数为止，例如到达N次为止，第N次生成的噪声样本图像为最后一次去噪处理对应的目标噪声样本图像，将每次去噪处理后生成的噪声样本图像进行汇集，得到多个噪声样本图像。

需要说明的是，图13中所示S210~S230、S310~S320、S1110、S1130~S1140、S340~S350的其他详细介绍请参见图11所示的S210~S230、S310~S320、S1110、S1130~S1140、S340~S350，在此不再赘述。

为了便于理解，本申请实施例还提供一种图像处理方法，以具体的示例进行说明，如图14所示，提供了一种待训练模型的模型结构图，该待训练模型包括逆向扩散模块、caption模块、prompt扩增模块、具有鲁棒性约束的逆向扩散模块。该待训练模型的训练样本包括初始样本文本prompt，通过逆向扩散模块将初始样本文本转换为第一样本图像image，引入caption模块对第一样本图像进行文本再解析，再借助prompt扩增模块对于再解析的文本进行数据扩展，得到第一样本文本prompt-r，将第一样本文本输入至具有鲁棒性约束的逆向扩散模块，生成第二样本图像image-r，其中初始样本文本应当与第一样本文本尽可能保持一致，第一样本图像应该与第二样本图像尽可能保持一致，通过该对样本文本和样本图像的多重约束，保证该待训练模型训练得到的图文模型在生成图像后，该图像再解析的文本能够尽可能描述图像。

在此，对上述的逆向扩散模块、caption模块、prompt扩增模块、具有鲁棒性约束的逆向扩散模块进行详细说明，其中逆向扩散模块、caption模块、prompt扩增模块、具有鲁棒性约束的逆向扩散模块可以多种不同类型的神经网络。

如图15所示，该逆向扩散模块包括文本特征提取模块和去噪模块，该初始样本文本经过文本特征提取模块，得到text embedding，该text embedding和随机加噪样本图像（初始化使用随机高斯噪声Gaussian Noise）一起输入去噪模块，最后输出第一样本图像；其中，在一示例中，文本特征提取模块为CLIP（Contrastive Language-Image Pre-Training）模型。

在介绍去噪模块之前，先说明正向扩散过程，如图16所示，正向扩散过程即为对图像进行加噪的过程中，同一噪声强度下，不同噪声采样步数N进行加噪，生成不同噪声图，即从左到右分别是第0步（原图），第N/2步，第N步生成的噪声差异。

其中去噪模块在以文本嵌入为条件的同时迭代地对随机加噪样本图像进行去噪，可以看作加噪过程的逆向处理，如图16所示；即在去噪模块的去噪过程中，通过注意力机制给去噪的过程注入这个text embedding向量，得到不同的噪声样本图像。

如图17所示，去噪处理的过程包括：将随机加噪样本图像看作第0步的噪声图，根据随机加噪样本图像和text embedding向量预测第1步的噪声值，将随机加噪样本图像减去该第1步的噪声值，同理，用第1步的噪声样本图像和text embedding向量预测第2步的噪声值，将第1步的噪声样本图像减少第2步的噪声值，以此类推，直到去噪处理的次数执行N步，得到第N步的噪声样本图像，该第N步的噪声样本图像即去噪完成的原图。

如图18所示，caption模块包括图像编码器、查询变换模块（Q-Former）和语言模型（如LLM模型）；其中，在该Q-Former模块的训练阶段，将训练文本信息输入至Q-Former模块的第二分支，将训练图像集通过图像编码器输入至Q-Former模块的第一分支，且使用一组可学习的 query embedding作为第一分支的输入，通过第一分支和第二分支的交互，使得可学习的 query embedding与图像编码器输出的特征进行交互，同时可学习的 queryembedding与训练文本信息进行交互。在训练阶段，需联合优化三个目标，即图像-文本对比损失（Image-Text Contrastive Loss, ITC）：学习对齐图像表示和文本表示，以使它们的相互信息最大化；图像-文本匹配损失（Image-Text Matching Loss, ITM）：学习图像和文本表示之间的细粒度对齐；基于图像文本生成损失（Image-grounded Text GenerationLoos， ITG）：损失训练 Q-Former在给定输入图像作为条件的情况下生成文本。基于该三个目标，可学习的query embedding学习了文本-图像之间的特征表示，得到学习到的查询向量，进而可通过该学习的查询向量从图像编码器中学习与文本相关的特征，成为图像编码器和语言模型之间的桥梁。

在Q-Former模块的应用阶段，第一样本图像输入图像编码器，该图像编码器对第一样本图像进行图像编码，输出的图像特征向量，该图像特征向量输入Q-Former模块的第一分支，该Q-Former模块的第一分支的另一个输入为训练阶段学习到的查询向量，进而第一分支通过图像特征向量和学习到的查询向量得到目标特征向量；将该目标特征向量输出至语言模型得到样本图像文本；在本申请其他实施例中，该目标特征向量也可以直接输出至第二分支得到样本图像文本。

prompt扩增模块用于基于caption模块输出的样本图像文本进行文本补充，得到第一样本文本，例如根据样本图像文本的语义信息对样本图像文本进行文本扩增处理，得到扩增样本文本，对扩增样本文本和样本图像文本进行归一化处理，得到第一样本文本prompt-r。

值得注意的是，具有鲁棒性约束的逆向扩散模块包括逆向模块和鲁棒性约束模块，其中逆向模块如图15~图17所示，在此不再赘述。鲁棒性约束模块用于保证对于prompt的扰动，生成的图像具有足够的鲁棒性，在通过考虑引入在同一噪声强度下，不同N带来的噪声图与去噪完成的原图的交集。例如随机获取去噪处理过程中，第N/2和N/4和第N步生成的噪声样本图像，将第N/2和N/4和第N步生成的噪声样本图像逐像素进行相加，以给生成的N步图像加入足够的扰动性，如：M+αN；其中M为第N/2和N/4步的图像，N为第N步的图像， α取1.5。

将逐像素相加后得到的图像作为第二样本图像。

为了保证文生图，之后图生文后的prompt和图像在语义上保证一致，构建图像损失和文本损失。

将第一样本图像和第二样本图像经过逆向扩散模块中文本特征提取模块后得到的embedding张量，得到,/>，则图像损失为：/>，其中，/>表示图像损失，/>表示/>和/>的点积，/>表示/>的长度，/>表示/>的长度。

对于初始样本文本A和第一样本文本B，获取各自对应的TF（Term Frequency）向量，例如：；/>。

计算TF向量的欧式距离为：，其中，distance表示欧式距离，/>和/>分别表示向量A和向量B的第i个分量。/>

文本损失为：，其中，/>表示文本损失，distance表示欧式距离。

通过该图像损失和文本损失对待训练模型的模型参数进行调整，得到图文模型。

在本申请实施例中，在训练得到图文模型后，针对图生文的任务，可以只使用图文模型中caption模块来对图像进行解析得到想要的prompt；针对文生图的任务，可以使用整个图文模型来对文本进行解析得到想要的图像。

本申请实施例提供的图像处理方法，通过上述文本与图像的多重约束，保证了模型在生成图像后，其再解析的prompt能够尽可能描述该图像，且模型在生成文本后，其再解析的图像能够尽可能准确形容文本。

在此介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的图像处理方法的实施例。

本申请实施例提供了一种图像处理装置，如图19所示，装置包括：

获取模块1910，用于获取待处理的目标图像；

输入模块1920，将所述目标图像输入至预训练的图文模型，所述图文模型的模型损失包括图像损失，所述图像损失是根据第一样本图像，以及用于描述所述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；

获取模块1910，还用于获取所述图文模型生成的用于描述所述目标图像的图像内容的目标文本。

在本申请的一个实施例中，基于前述方案，装置还包括训练模块，用于获取待训练模型；获取用于描述图像内容的初始样本文本，并根据所述初始样本文本生成用于形容所述初始样本文本的第一样本图像；根据所述第一样本图像生成所述第一样本文本，并根据所述第一样本文本生成用于形容所述第一样本文本的第二样本图像；根据所述第一样本图像和所述第二样本图像的差异构建所述图像损失，并根据所述图像损失生成所述模型损失；根据所述模型损失对待训练模型的模型参数进行调整，得到所述图文模型。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于对所述第一样本图像和所述第二样本图像分别进行特征提取，得到所述第一样本图像的第一样本图像特征和所述第二样本图像的第二样本图像特征；根据所述第一样本图像特征和所述第二样本图像特征之间的距离构建所述图像损失。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于根据所述初始样本文本和所述第一样本文本的差异构建文本损失；根据所述文本损失和所述图像损失生成所述模型损失。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于获取所述初始样本文本中具有语义信息的有效词句对应的初始样本文本特征，以及所述第一样本文本中所述有效词句对应的第一样本文本特征；根据所述初始样本文本特征和所述第一样本文本特征之间的距离构建所述文本损失。

在本申请的一个实施例中，基于前述方案，所述装置还包括补充模块，用于获取对所述目标文本进行补充的补充文本，并根据所述补充文本和所述目标文本生成待处理文本；输入模块还用于将所述待处理文本输入至所述图文模型，以获取所述图文模型生成的用于形容所述待处理文本的图像。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于对所述初始样本文本进行特征提取，得到初始样本文本向量；获取随机加噪样本图像；根据所述初始样本文本向量对所述随机加噪样本图像进行去噪处理，得到所述第一样本图像。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于对所述第一样本图像进行图像编码，得到图像特征向量；根据所述图像特征向量和预先通过文本信息所学习到的查询向量得到目标特征向量，所述目标特征向量用于表征所述第一样本图像中与文本信息相关的图像信息；根据所述目标特征向量生成样本图像文本；根据所述样本图像文本生成所述第一样本文本。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于根据所述样本图像文本的语义信息对所述样本图像文本进行文本扩增处理，得到扩增样本文本；对所述扩增样本文本和所述样本图像文本进行归一化处理，得到所述第一样本文本。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于对所述第一样本文本进行特征提取，得到第一样本文本向量；根据所述第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，其中，每次去噪处理对应的噪声强度相同；从所述多个噪声样本图像中选择至少两个噪声样本图像，所述至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像；根据所述至少两个噪声样本图像生成所述第二样本图像。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于将所述至少两个噪声样本图像中除所述目标噪声样本图像之外的其他噪声样本图像进行对应像素的值相加，得到中间噪声样本图像；获取为所述目标噪声样本图像设置的扰动项，并根据所述扰动项对所述目标噪声样本图像进行扰动处理，得到扰动噪声样本图像；根据所述中间噪声样本图像和所述扰动噪声样本图像生成所述第二样本图像。

在本申请的一个实施例中，基于前述方案，训练模块进一步用于在对所述随机加噪样本图像进行任意一次去噪处理后，获取所得到的当前噪声样本图像；根据所述当前噪声样本图像和第一样本文本向量预测当前噪声值；根据所述当前噪声样本图像、所述第一样本文本向量与所述当前噪声值进行去噪处理，生成下一个噪声样本图像，直至去噪处理的次数达到所述预设噪声采样步数为止，以得到多个噪声样本图像。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

上述实施例所提供的装置可以设于终端内，也可以设于服务器内，通过本申请实施例提供的装置将待处理的目标图像输入到图文模型，由于图文模型的模型损失包括图像损失，而图像损失是根据第一样本图像，以及用于描述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的，其中经过了图生文和文生图的第二样本图像更能反映图像内容在转换过程的一致情况，进而基于第一样本图像和第二样本图像构建的图像损失，使得通过图像损失训练得到图文模型能改善转换过程中的内容信息的丢失，保证图像内容一致，进而图文模型生成的目标文本能够尽可能描述该目标图像，保证了目标文本的准确性。

本申请的实施例还提供了一种电子设备，包括一个或多个处理器，以及存储装置，其中，存储装置，用于存储一个或多个计算机程序，当一个或多个计算机程序被一个或多个处理器执行时，使得电子设备实现如上的图像处理方法。

需要说明的是，图20示出的电子设备的计算机系统2000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图20所示，计算机系统2000包括处理器（Central Processing Unit，CPU）2001，其可以根据存储在只读存储器（Read-Only Memory，ROM）2002中的程序或者从储存部分2008加载到随机访问存储器（Random Access Memory，RAM）2003中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 2003中，还存储有系统操作所需的各种程序和数据。CPU 2001、ROM 2002以及RAM 2003通过总线2004彼此相连。输入/输出（Input /Output，I/O）接口2005也连接至总线2004。

在一些实施例中，以下部件连接至I/O接口2005：包括键盘、鼠标等的输入部分2006；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid CrystalDisplay，LCD）等以及扬声器等的输出部分2007；包括硬盘等的储存部分2008；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分2009。通信部分2009经由诸如因特网的网络执行通信处理。驱动器2010也根据需要连接至I/O接口2005。可拆卸介质2011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2010上，以便于从其上读出的计算机程序根据需要被安装入储存部分2008。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分2009从网络上被下载和安装，和/或从可拆卸介质2011被安装。在该计算机程序被处理器（CPU）2001执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机程序的组合来实现。

描述于本申请实施例中所涉及到的单元或者模块可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元或者模块也可以设置在处理器中。其中，这些单元或者模块的名称在某种情况下并不构成对该单元或者模块本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的图像处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行上述各个实施例中提供如前所述的图像处理方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术者在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术者根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理的目标图像；

将所述目标图像输入至预训练的图文模型，所述图文模型的模型损失包括图像损失，所述图像损失是根据第一样本图像，以及用于描述所述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；

获取所述图文模型生成的用于描述所述目标图像的目标文本；

将所述目标图像输入至预训练的图文模型之前，所述方法还包括：

获取待训练模型；

获取用于描述图像内容的初始样本文本，并根据所述初始样本文本生成用于形容所述初始样本文本的第一样本图像；

根据所述第一样本图像生成所述第一样本文本，并对所述第一样本文本进行特征提取，得到第一样本文本向量，根据所述第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，其中，每次去噪处理对应的噪声强度相同；从所述多个噪声样本图像中选择至少两个噪声样本图像，所述至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像；对所述至少两个噪声样本图像进行交集处理，生成所述第二样本图像；

根据所述第一样本图像和所述第二样本图像的差异构建所述图像损失，并根据所述图像损失生成所述模型损失；

根据所述模型损失对所述待训练模型的模型参数进行调整，得到所述图文模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一样本图像和所述第二样本图像的差异构建所述图像损失，包括：

对所述第一样本图像和所述第二样本图像分别进行特征提取，得到所述第一样本图像的第一样本图像特征和所述第二样本图像的第二样本图像特征；

根据所述第一样本图像特征和所述第二样本图像特征之间的距离构建所述图像损失。

3.根据权利要求1所述的方法，其特征在于，所述根据所述图像损失生成所述模型损失，包括：

根据所述初始样本文本和所述第一样本文本的差异构建文本损失；

根据所述文本损失和所述图像损失生成所述模型损失。

4.根据权利要求3所述的方法，其特征在于，所述根据所述初始样本文本和所述第一样本文本的差异构建文本损失，包括：

获取所述初始样本文本中具有语义信息的有效词句对应的初始样本文本特征，以及所述第一样本文本中所述有效词句对应的第一样本文本特征；

根据所述初始样本文本特征和所述第一样本文本特征之间的距离构建所述文本损失。

5.根据权利要求3所述的方法，其特征在于，在所述获取所述图文模型生成的用于描述所述目标图像的目标文本之后，所述方法还包括：

获取对所述目标文本进行补充的补充文本，并根据所述补充文本和所述目标文本生成待处理文本；

将所述待处理文本输入至所述图文模型，以获取所述图文模型生成的用于形容所述待处理文本的图像。

6.根据权利要求1所述的方法，其特征在于，所述根据所述初始样本文本生成用于形容所述初始样本文本的第一样本图像，包括：

对所述初始样本文本进行特征提取，得到初始样本文本向量；

获取随机加噪样本图像；

根据所述初始样本文本向量对所述随机加噪样本图像进行去噪处理，得到所述第一样本图像。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一样本图像生成所述第一样本文本，包括：

对所述第一样本图像进行图像编码，得到图像特征向量；

根据所述图像特征向量和预先通过文本信息所学习到的查询向量得到目标特征向量，所述目标特征向量用于表征所述第一样本图像中与文本信息相关的图像信息；

根据所述目标特征向量生成样本图像文本；

根据所述样本图像文本生成所述第一样本文本。

8.根据权利要求7所述的方法，其特征在于，所述根据所述样本图像文本生成所述第一样本文本，包括：

根据所述样本图像文本的语义信息对所述样本图像文本进行文本扩增处理，得到扩增样本文本；

对所述扩增样本文本和所述样本图像文本进行归一化处理，得到所述第一样本文本。

9.根据权利要求1所述的方法，其特征在于，对所述至少两个噪声样本图像进行交集处理，生成所述第二样本图像，包括：

将所述至少两个噪声样本图像中除所述目标噪声样本图像之外的其他噪声样本图像进行对应像素的值相加，得到中间噪声样本图像；

获取为所述目标噪声样本图像设置的扰动项，并根据所述扰动项对所述目标噪声样本图像进行扰动处理，得到扰动噪声样本图像；

根据所述中间噪声样本图像和所述扰动噪声样本图像生成所述第二样本图像。

10.根据权利要求1所述的方法，其特征在于，所述根据所述第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，包括：

在对所述随机加噪样本图像进行任意一次去噪处理后，获取所得到的当前噪声样本图像；

根据所述当前噪声样本图像和所述第一样本文本向量预测当前噪声值；

根据所述当前噪声样本图像与所述当前噪声值进行去噪处理，生成下一个噪声样本图像，直至去噪处理的次数达到所述预设噪声采样步数为止，以得到多个噪声样本图像。

11.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待处理的目标图像；

输入模块，用于将所述目标图像输入至预训练的图文模型，所述图文模型的模型损失包括图像损失，所述图像损失是根据第一样本图像，以及用于描述所述第一样本图像的第一样本文本所转换得到的第二样本图像进行构建的；

获取模块，还用于获取所述图文模型生成的用于描述所述目标图像的图像内容的目标文本；

装置还包括训练模块，用于获取待训练模型；获取用于描述图像内容的初始样本文本，并根据所述初始样本文本生成用于形容所述初始样本文本的第一样本图像；根据所述第一样本图像生成所述第一样本文本，并对所述第一样本文本进行特征提取，得到第一样本文本向量，根据所述第一样本文本向量和预设噪声采样步数对随机加噪样本图像进行逐次去噪处理，得到多个噪声样本图像，其中，每次去噪处理对应的噪声强度相同；从所述多个噪声样本图像中选择至少两个噪声样本图像，所述至少两个噪声样本图像包括最后一次去噪处理对应的目标噪声样本图像；对所述至少两个噪声样本图像进行交集处理，生成所述第二样本图像；根据所述第一样本图像和所述第二样本图像的差异构建所述图像损失，并根据所述图像损失生成所述模型损失；根据所述模型损失对待训练模型的模型参数进行调整，得到所述图文模型。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备执行权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得所述电子设备执行权利要求1至10中任一项所述的方法。