CN116955686A

CN116955686A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN116955686A
Application number: CN202211534947.1A
Authority: CN
Inventors: 秦玉磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-10-27

Abstract

本申请公开了一种图像处理方法、装置、计算机设备及存储介质，属于图像处理技术领域。本申请可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，通过对搜索图像预筛选，粗筛掉一部分噪声样本，再引入图像特征和类别特征，分类得到干净图像和噪声图像，利用噪声图像在干净图像中进行以图搜图，剔除掉含噪图像，得到候选目标图像，最后引入文本模态的文本信息，对候选目标图像过滤得到目标图像，不但剔除掉关键词为多义词、歧义词等情况下引入的噪声，而且剔除掉含噪图像，并且还剔除掉与文本模态不匹配的候选目标图像，能够在极大压缩目标图像的筛选成本的条件下，提升了对目标图像的识别精准度。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

图像是一类广泛应用于各类业务场景的信号，虽然在互联网中广泛存在大量的图像，但这些图像中既包含噪声图像也包含干净图像，需要利用昂贵的人力，来人工剔除掉噪声图像，并对干净图像进行类别标注。

由于人力资源有限，在实际业务场景中普遍存在干净图像的样本不足的情况，因此，亟需一种能够精准筛选从海量互联网图像中筛选得到干净图像，并对干净图像进行类别标注的方法。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，能够在极大压缩目标图像的筛选成本的条件下，提升了对目标图像的识别精准度。该技术方案如下：

一方面，提供了一种图像处理方法，该方法包括：

基于多个图像类别进行关键词搜索，得到多个搜索图像，其中，每个图像类别与多个搜索图像相关联；

对所述多个搜索图像进行预筛选，得到多个备选图像；

基于所述多个备选图像的图像特征和所述多个图像类别的类别特征，对所述多个备选图像进行分类，得到多个干净图像和至少一个噪声图像；

从所述多个干净图像中，剔除与所述噪声图像符合相似条件的含噪图像，得到多个候选目标图像；

基于所述多个图像类别的文本信息，对所述多个候选目标图像进行过滤，得到至少一个目标图像。

一方面，提供了一种图像处理装置，该装置包括：

搜索模块，用于基于多个图像类别进行关键词搜索，得到多个搜索图像，其中，每个图像类别与多个搜索图像相关联；

预筛选模块，用于对所述多个搜索图像进行预筛选，得到多个备选图像；

分类模块，用于基于所述多个备选图像的图像特征和所述多个图像类别的类别特征，对所述多个备选图像进行分类，得到多个干净图像和至少一个噪声图像；

剔除模块，用于从所述多个干净图像中，剔除与所述噪声图像符合相似条件的含噪图像，得到多个候选目标图像；

过滤模块，用于基于所述多个图像类别的文本信息，对所述多个候选目标图像进行过滤，得到至少一个目标图像。

在一些实施例中，所述分类模块包括：

概率预测单元，用于对所述多个备选图像中任一备选图像，基于所述备选图像的图像特征，获取所述备选图像属于每个图像类别的预测概率；

相似度获取单元，用于基于所述备选图像的图像特征和每个图像类别的类别特征，获取所述备选图像与每个图像类别的类别相似度；

确定单元，用于基于所述多个图像类别的所述预测概率和所述类别相似度，确定所述备选图像属于每个图像类别的置信度；

分类单元，用于基于所述多个图像类别的所述置信度，对所述备选图像进行分类，其中，所述分类的结果指示所述备选图像属于所述干净图像还是所述噪声图像。

在一些实施例中，所述分类单元用于：

在所述多个图像类别中的最大置信度大于第一置信阈值的情况下，将所述备选图像分类为所述干净图像，所述干净图像的图像类别为所述最大置信度关联的图像类别；

在所述最大置信度小于或等于所述第一置信阈值的情况下，确定原始类别的置信度，所述原始类别是指搜索所述备选图像使用的图像类别；

在所述原始类别的置信度大于第二置信阈值的情况下，将所述备选图像分类为所述干净图像，所述干净图像的图像类别为所述原始类别；

在所述原始类别的置信度小于或等于所述第二置信阈值的情况下，将所述备选图像分类为所述噪声图像。

在一些实施例中，所述装置还包括：

特征提取模块，用于将所述备选图像输入特征提取模型，通过所述特征提取模型对所述备选图像进行卷积运算，得到所述备选图像的图像特征；其中，所述特征提取模型基于多个训练样本对以对比学习方式训练得到，每个训练样本对包括一个训练图像和一个基于所述训练图像变换得到的合成图像，所述对比学习方式是指控制所述训练图像和所述合成图像的特征相似，且控制所述训练样本对与其他训练样本对的特征不相似。

在一些实施例中，所述装置还包括类别特征更新模块，用于：

对任一图像类别，确定已分类到所述图像类别的多个训练样本；

将所述多个训练样本的图像特征的平均特征，确定为所述图像类别的类别特征；

每当新的训练样本再分类到所述图像类别时，基于所述新的训练样本的图像特征，更新所述图像类别的类别特征。

在一些实施例中，所述装置还包括领域数据增强模块，用于：

对所述特征提取模型的每个训练样本，通过领域分类模型对所述训练样本的业务领域进行预测，得到所述训练样本的领域概率，所述领域概率表征所述训练样本是否属于目标业务领域的可能性；

基于所述领域概率，确定对所述训练样本的变换概率，所述变换概率表征对所述训练样本进行随机数据增强的可能性；

按照所述变换概率，对所述训练样本进行数据增强，得到所述训练样本的增强样本。

在一些实施例中，所述装置还包括：

样本合成模块，用于对所述特征提取模型的每个训练样本，按照第一扰动概率，基于所述训练样本和其他训练样本合成目标训练样本；或，

类别设定模块，用于按照第二扰动概率，将所述训练样本的原始类别设定为除了所述原始类别以外的任一可能的类别。

在一些实施例中，所述剔除模块用于：

对所述多个干净图像中的任一干净图像，获取所述干净图像的图像特征与所述至少一个噪声图像的图像特征之间的多个噪声相似度；

在所述多个噪声相似度中任一噪声相似度大于相似阈值的情况下，将所述干净图像确定为所述含噪图像，剔除所述含噪图像。

在一些实施例中，每个图像类别的文本信息包括多个文本提示符，所述文本提示符表征所述图像类别下的图像风格描述；

所述过滤模块用于：

获取每个图像类别的多个文本提示符各自的多个文本特征；

对所述多个候选目标图像中的任一候选目标图像，获取所述候选目标图像的图像特征与每个图像类别的多个文本特征之间的多个文本相似度；

确定每个图像类别的所述多个文本相似度中的最大文本相似度，按照所述最大文本相似度从大到小的顺序，对所述多个图像类别进行排序；

在所述候选目标图像的图像类别在所述排序中位于前目标位的情况下，将所述候选目标图像确定为所述目标图像。

在一些实施例中，所述预筛选模块用于执行以下任一项或者至少两项的组合：

从所述多个搜索图像中，剔除不符合尺寸条件的搜索图像，所述尺寸条件表征所述备选图像的最小宽度或最小高度；

从所述多个搜索图像中，剔除不符合灰度条件的搜索图像，所述灰度条件表征所述备选图像中最高频次的灰度值的最大占比；

从所述多个搜索图像中，剔除与任一备选图像之间的图像相似度符合重复条件的搜索图像；

从所述多个搜索图像中，剔除符合破损条件的搜索图像，所述破损条件表征在经过格式转换后无法加载的搜索图像。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述图像处理方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述图像处理方法。

一方面，提供一种计算机程序产品，所述计算机程序产品包括一条或多条计算机程序，所述一条或多条计算机程序存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条计算机程序，所述一个或多个处理器执行所述一条或多条计算机程序，使得计算机设备能够执行上述图像处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对搜索图像预筛选，能够粗略筛选掉一部分噪声样本，得到备选图像，再引入图像特征和类别特征，将备选图像划分成干净图像和噪声图像两类，然后在干净图像的基础上，利用噪声图像进行以图搜图，剔除与噪声图像高度相似的含噪图像，得到候选目标图像，最后在候选目标图像的基础上，引入图像类别的文本信息，通过文本模态和图像模态的交互，对候选目标图像进行深度过滤，得到最终的目标图像，这样不但能够剔除掉关键词为多义词、歧义词等情况下搜索到的噪声图像，而且还能够剔除掉与噪声图像高度相似的含噪图像，并且还能够剔除掉与文本模态不匹配的候选目标图像，使得最终的目标图像具有极高的识别精准度，并且目标图像天然携带图像类别，无需人工标注，在极大压缩目标图像的筛选成本的条件下，提升了对目标图像的识别精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图；

图2是本申请实施例提供的一种图像处理方法的流程图；

图3是本申请实施例提供的一种图像处理方法的原理图；

图4是本申请实施例提供的一种图像处理方法的流程图；

图5是本申请实施例提供的一种图文预训练模型去噪流程的原理图；

图6是本申请实施例提供的一种特征提取模型的训练方法的流程图；

图7是本申请实施例提供的一种训练图像的领域偏差的示意图；

图8是本申请实施例提供的一种特征提取模型的训练方法的原理图；

图9是本申请实施例提供的一种标签去噪流程的原理图；

图10是本申请实施例提供的一种图像处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个图像类别是指两个或两个以上的图像类别。

本申请中术语“包括A或B中至少一项”涉及如下几种情况：仅包括A，仅包括B，以及包括A和B两者。

本申请中涉及到的用户相关的信息(包括但不限于用户的设备信息、个人信息、行为信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，当以本申请实施例的方法运用到具体产品或技术中时，均为经过用户许可、同意、授权或者经过各方充分授权的，且相关信息、数据以及信号的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的训练样本都是在充分授权的情况下获取的。

人工智能(Artificial Intelligence，AI)：人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维(3-Dimension，3D)物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。

机器学习(Machine Learning，ML)：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉中的图像处理技术，能够针对实际业务场景中面临的干净图像的样本不足、人工标注成本高等问题，设计一套基于互联网中获取的海量、带噪、弱标签的搜索图像，进行标签去噪与带噪学习的流程，能够实现对互联网中获取的搜索图像的有效利用，不仅能够精确筛选到目标图像，并且还能够对目标图像的图像类别进行精准标注。

以下，对本申请实施例涉及的术语进行解释说明。

WordNet：由普林斯顿大学研究者开发的公开数据集(英语字典)。该数据集包含了常见英语单词的释义及其语义关系，并按照名词、动词、形容词、副词进行分类。每种词性单独建立同义词网络，以表示每个单词在整个同义词网络中的上位词(父类)、下位词(子类)之间的关系。

ImageNet：一个由斯坦福大学发起并建立的、用于视觉对象识别软件研究的大型、公开、可视化的图像数据库。

ResNet(残差网络)：一种添加了残差块的卷积神经网络，其内部的残差块在不同的卷积层之间使用了跳跃连接，缓解了在卷积神经网络中增加深度带来的梯度消失问题。

像素：整个图像中不可分割的单位或者是元素。

灰度：使用黑色调表示物体，即用黑色为基准色，不同的饱和度的黑色来显示图像。

亮度：指发光体(或反光体)表面发光(或反光)强弱的物理量。

对比度：一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量。

饱和度：色彩的鲜艳程度，也称作纯度。

清晰度：指影像上各细部影纹及其边界的清晰程度。

类别特征：每个图像类别具有代表性的编码特征，也可称为类别原型。

CLIP(Contrastive Language–Image Pre-training，基于对比学习的图文预训练模型)：使用图像和文本匹配进行预训练的、基于对比学习的神经网络模型。

以下，对本申请实施例的系统架构进行说明。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图。参见图1，在该实施环境中包括：终端110和服务器120，终端110和服务器120能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

终端110上安装和运行有支持基于图像的业务的应用，该应用包括但不限于：社交应用、内容分享应用、即时通讯应用、音视频应用、修图应用、支付应用等，本申请实施例对应用的类型不进行具体限定。

可选地，终端110的设备类型包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等各类涉及到图像处理的任务和场景。

服务器120用于对上述支持基于图像的业务的应用提供后台服务，服务器120可以是一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器120承担主要计算工作，终端110承担次要计算工作；或者，服务器120承担次要计算工作，终端110承担主要计算工作；或者，服务器120和终端110之间采用分布式计算架构进行协同计算。

可选地，服务器120是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个示例性场景中，服务器120通过本申请实施例的图像处理方法，从海量的搜索图像中进行多次筛选，得到干净的、且携带已标注的图像类别的目标图像，目标图像和其携带的图像类别可以作为训练样本或补充的训练样本，投入到下游的各类计算机视觉任务的学习中，从而根据各类计算机视觉任务的学习结果，对终端110上的应用所访问的各类业务提供后台服务。

以下，对本申请实施例的图像处理流程进行简单介绍。

图2是本申请实施例提供的一种图像处理方法的流程图。参见图2，该实施例由计算机设备执行，以计算机设备为服务器为例进行说明，该实施例包括以下步骤：

201、服务器基于多个图像类别进行关键词搜索，得到多个搜索图像，其中，每个图像类别与多个搜索图像相关联。

在一些实施例中，服务器使用一种或多种搜索引擎，对每种搜索引擎，都以该多个图像类别中的每个图像类别作为关键词来进行搜索，对每个图像类别，都能够在该搜索引擎中搜索得到该图像类别下的多个搜索图像，且该多个搜索图像都以该图像类别作为原始类别，这一原始类别并不代表着搜索图像最终所属的类别，因为有可能会将与该原始类别不同的预测类别作为搜索图像最终所属的类别。

202、服务器对该多个搜索图像进行预筛选，得到多个备选图像。

在一些实施例中，服务器基于技术人员预先定义的预筛选规则，对上述步骤201获取到的多个搜索图像进行预筛选，以得到多个备选图像，比如，预筛选规则包括但不限于：剔除搜索图像中的无效样本，无效样本是指尺寸过小、纯色图片、冗余图片或者破损图片等，本申请实施例对预筛选规则和无效样本不进行具体限定。

203、服务器基于该多个备选图像的图像特征和该多个图像类别的类别特征，对该多个备选图像进行分类，得到多个干净图像和至少一个噪声图像。

在一些实施例中，服务器对每个备选图像都提取该备选图像的图像特征，同时还可以获取每个图像类别的类别特征，进而基于各个备选图像的图像特征和各个图像类别的类别特征，来对各个备选图像进行分类，即，对每个备选图像都将其分类到干净图像或者噪声图像这两类中的一类，从而能够将步骤202中预筛选所得的多个备选图像，划分成多个干净图像和至少一个噪声图像。

上述对备选图像的分类过程，也可视为是利用图像特征和类别特征，从备选图像中剔除掉噪声图像，并保留干净图像的筛选过程，由于引入了类别特征，针对关键词本身是多义词、歧义词的情况，通过判断搜索出来的备选图像的图像特征是否偏离所属图像类别的类别特征，能够精准识别出来备选图像属于干净图像还是噪声图像，极大提升了对干净图像的识别准确度。

204、服务器从该多个干净图像中，剔除与该噪声图像符合相似条件的含噪图像，得到多个候选目标图像。

在一些实施例中，服务器在步骤203中分类得到的多个干净图像的基础上，使用步骤203中分类得到的至少一个噪声图像，通过以图搜图的方式，从各个干净图像中，剔除掉与噪声图像符合相似条件的含噪图像，得到多个候选目标图像。这样，即使在步骤203中对含噪图像出现了误判，误将含噪图像分类到了干净图像，也能够通过以图搜图的方式快速查找到这类与噪声图像之间高度相似的含噪图像，并剔除查找到的含噪图像，从而能够实现对步骤203中分类得到的干净图像的进一步过滤和提纯，使得最终获取到的多个候选目标图像中，不再含有与噪声图像相似的含噪图像。

205、服务器基于该多个图像类别的文本信息，对该多个候选目标图像进行过滤，得到至少一个目标图像。

在一些实施例中，服务器在步骤204中获取到的各个候选目标图像，通过引入各个候选目标图像所属图像类别的文本信息，来进行深度过滤，以过滤掉一部分与自身图像类别的文本信息不匹配的候选目标图像，将保留下来的候选目标图像称为至少一个目标图像。这样除了图像模态以外，还额外引入了文本模态的多模态信息，来对候选目标图像进行深度过滤，能够进一步实现对候选目标图像的提纯，保证最终保留下来的目标图像是不含噪声的候选目标图像，而且目标图像的图像类别也是自动标注的，也不需要引入人工标注的高成本。

图3是本申请实施例提供的一种图像处理方法的原理图，如图3所示，从搜索引擎中以图像类别作为关键词进行搜索，得到原始的搜索图像，这一过程也称为网图获取，接着，按照人工定义的预筛选规则进行初步筛选，例如，剔除尺寸过小、纯色图片、冗余图片、破损图片等，接着，引入类别特征和图像特征，进行标签去噪流程，即，通过二分类方式来剔除噪声图像，保留干净图像，接着，以干净图像作为底库，通过以图搜图方式，从底库中搜索与噪声图像高度相似的含噪图像，并从底库中剔除含噪图像，得到候选目标图像，最终，引入图像类别的文本信息，按照图像双模态模型(即图文模型，或称为图文预训练模型)对候选目标图像进行深度去噪，得到最终的去噪网图即目标图像。

本申请实施例提供的方法，通过对搜索图像预筛选，能够粗略筛选掉一部分噪声样本，得到备选图像，再引入图像特征和类别特征，将备选图像划分成干净图像和噪声图像两类，然后在干净图像的基础上，利用噪声图像进行以图搜图，剔除与噪声图像高度相似的含噪图像，得到候选目标图像，最后在候选目标图像的基础上，引入图像类别的文本信息，通过文本模态和图像模态的交互，对候选目标图像进行深度过滤，得到最终的目标图像，这样不但能够剔除掉关键词为多义词、歧义词等情况下搜索到的噪声图像，而且还能够剔除掉与噪声图像高度相似的含噪图像，并且还能够剔除掉与文本模态不匹配的候选目标图像，使得最终的目标图像具有极高的识别精准度，并且目标图像天然携带图像类别，无需人工标注，在极大压缩目标图像的筛选成本的条件下，提升了对目标图像的识别精准度。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

在上述实施例中，简单介绍了图像处理方法的基本流程，而在本申请实施例中，将对图像处理方法的详细流程逐步骤进行说明。

图4是本申请实施例提供的一种图像处理方法的流程图。参见图4，该实施例由计算机设备执行，以计算机设备为服务器为例进行说明，该实施例包括以下步骤：

401、服务器基于多个图像类别进行关键词搜索，得到多个搜索图像，其中，每个图像类别与多个搜索图像相关联。

在一些实施例中，服务器使用一种或多种搜索引擎，对每种搜索引擎，都以该多个图像类别中的每个图像类别作为关键词来进行搜索，对每个图像类别，都能够在该搜索引擎中搜索得到该图像类别下的多个搜索图像，且该多个搜索图像都以该图像类别作为原始类别，这一原始类别并不代表着搜索图像最终所属的类别，因为有可能会将与该原始类别不同的预测类别作为搜索图像最终所属的类别。需要说明的是，本申请实施例对使用的搜索引擎的数量和类型不进行具体限定。

在一些实施例中，由于通常某些图像类别其类别名很可能会存在歧义，为了避免类别名作为关键词时出现歧义，如果图像类别作为关键词时的字符长度小于设定字符数，可以在该关键词中添加该图像类别所属的父类别，进一步地，如果该图像类别仅包含一个子类别，还可以同时将该图像类别包含的唯一子类别也添加到关键词中，这样，即使图像类别本身可能会存在歧义，但由于添加了父类别或子类别，能够排除掉较多不符合父类别或子类别的歧义干扰。其中，设定字符数为技术人员在服务器侧预先配置的大于或等于1的整数，例如，设定字符数为10。

在一个示例中，以图像类别为英文字符为例，图像类别中包含的字符词汇均被收录在WordNet数据集中，而WordNet数据集本身就提供了每个字符之间的上下类联系，这样在图像类别即关键词的字符长度不足设定字符数时，可以根据WordNet数据集，来查询图像类别所属的父类别，将查询到的父类别添加到关键词中。以图像类别为“drumstick”(WordNet ID：n03250847)为例，由于“drumstick”本身是一个多义词，包含“鸡腿”、“鼓槌”、“辣木菜”等多种语义，为了保证搜索引擎返回的搜索图像尽量匹配到“鼓槌”这一语义，可以添加“drumstick”在WordNet数据集中的父类别“mallet”(木槌)到关键词中，最终形成关键词“drumstick mallet”，以与“鸡腿”、“辣木菜”等其他语义构成明显区分。可选地，在关键词中添加父类别的基础上，还可以读取图像类别的子类别的个数，并在子类别的个数等于1的情况下，将子类别也添加到关键词中，这样能够进一步保证关键词更加贴合本身具有多种语义的图像类别所指示的特定语义，从而提升获取的搜索图像的语义准确程度。

402、服务器对该多个搜索图像进行预筛选，得到多个备选图像。

在一些实施例中，由于服务器通过搜索引擎所获取到的搜索图像，本身就有可能存在大量的无效样本，比如尺寸过小、纯色图片、冗余图片以及破损图片等，这些无效样本可以直接通过搜索图像本身的数据维度来进行预筛选，而无需引入特征空间或者其他模态下的信号，技术人员可以在服务器侧预先定义针对无效样本的预筛选规则，由服务器对每个搜索图像都运行该预筛选规则，以决策是否要筛除掉当前的搜索图像，遍历步骤401中获取到的所有搜索图像，即可完成对所有搜索图像的预筛选过程，在预筛选过程中筛除掉的搜索图像称为无效样本，在预筛选过程中保留下的搜索图像称为备选图像。

在一些实施例中，在上述预筛选过程中，设定的预筛选规则包括以下a～d中任一项或者至少两项的组合：

规则a、从该多个搜索图像中，剔除不符合尺寸条件的搜索图像，该尺寸条件表征该备选图像的最小宽度或最小高度。

可选地，技术人员预先定义尺寸条件，比如，尺寸条件表征备选图像的最小宽度W和最小高度H，接着过滤步骤201中获取到的全部搜索图像，如果任一搜索图像的宽度小于该最小宽度W或者高度小于该最小高度H，则代表该搜索图像的尺寸过小，因此丢弃该搜索图像。其中，最小宽度W和最小高度H是大于或等于0的数值，例如，最小宽度W和最小高度H均等于32个像素。

规则b、从该多个搜索图像中，剔除不符合灰度条件的搜索图像，该灰度条件表征该备选图像中最高频次的灰度值的最大占比。

可选地，技术人员预先定义灰度条件，比如，灰度条件表征备选图像中最高频次的灰度值的最大占比X％，接着过滤步骤201中获取到的全部搜索图像，如果任一搜索图像中最高频次的灰度值的占比大于该最大占比X％，则代表该搜索图像近似于一张纯色图片，因此丢弃该搜索图像。其中，X是大于0且小于或等于100的数值，例如，X＝90，这时最大占比为90％，当然X也可以取值为80、70等其他数值。

在一个示例中，服务器将搜索图像从彩色RGB(红绿蓝)图片转换成灰度图片，例如，对于彩色RGB图片中的任一像素，其RGB色彩向量为(R，G，B)，那么该像素在灰度图片中相同位置的灰度值L可以根据RGB色彩向量转换得到，转换关系可表示为：L＝int(R*299/1000+G*587/1000+B*114/1000)，其中，R表示该像素在彩色RGB图片中红色通道上的像素值，G表示该像素在彩色RGB图片中绿色通道上的像素值，B表示该像素在彩色RGB图片中蓝色通道上的像素值，Int()为取整数函数。遍历彩色RGB图片中的全部像素，将每个像素的RGB色彩向量都转换成该像素在灰度图片中相同位置的灰度值L，最终可以得到一张灰度图片，接着，在该灰度图片上可以对各个灰度值进行直方图频次统计，如果任一灰度值出现的频次大于或等于搜索图像中像素总数的X％，则认为该搜索图像属于纯色图片，因此需要丢弃掉纯色图片。其中，搜索图像的像素总数是指搜索图像中包含的像素的总数量，例如，像素总数等于搜索图像的宽度与高度之间的乘积。

规则c、从该多个搜索图像中，剔除与任一备选图像之间的图像相似度符合重复条件的搜索图像。

可选地，技术人员预先定义重复条件，比如，重复条件表征搜索图像与任一通过预筛选以后的备选图像之间的图像相似度大于设定阈值，设定阈值可以是任一大于0的数值，例如，设定阈值为0.9、0.8或其他数值。

可选地，使用同图检索模型f来进行基于规则c的过滤，同图检索模型f用于抽取每个搜索图像的embedding(嵌入)特征，例如，同图检索模型f为卷积神经网络，将每个搜索图像都输入到一个卷积神经网络中，通过卷积神经网络中的多个卷积层提取到每个搜索图像的图像特征，再利用多个全连接层对每个搜索图像的图像特征进行降维，得到每个搜索图像的embedding特征，其中，上述降维过程是指将图像特征从高维空间映射到低维的embedding空间。上述embedding特征用于表征搜索图像的语义信息。考虑到如果两张图像是高度相似或者重复的，那么在经过同图检索模型f计算得到的embedding特征也应当是高度相似的。因此，通过对每个搜索图像，都计算该搜索图像的embedding特征与其余搜索图像的embedding特征之间的特征相似度，并在特征相似度大于设定阈值的情况下，认为该搜索图像与该其余搜索图像之间符合重复条件，这时可以在两张图像中随机删除一张图像，或者优先删除分辨率较低的图像，本申请实施例对此不进行具体限定。

在一些实施例中，上述卷积神经网络被提供为残差网络ResNet，残差网络ResNet是在卷积神经网络的基础上设置了多个级联的残差块，残差块之间保持串接，且在每个残差块内部的不同的卷积层之间添加跳跃连接。为了简便起见，将跳跃连接两端的卷积层中位于后面的卷积层称为后一个卷积层，将跳跃连接两端的卷积层中位于前面的卷积层称为前一个卷积层，前一个卷积层和后一个卷积层可以是相邻或者不相邻的卷积层，这种跳跃连接可以使得前一个卷积层的输入特征图在与后一个卷积层的输出特征图进行拼接(Concat)以后，将拼接后的特征输入到后一个卷积层的再下一个卷积层中。可选地，残差网络ResNet可以是在ImageNet公开数据集上训练所得的模型，在训练完毕后，残差网络ResNet可以抽取输入图像的图像特征(如512维的高维向量)，接着，对该图像特征进行归一化(Normalization)后得到embedding特征，embedding特征的L2范数为1。在此基础上，计算任意两个搜索图像{A，B}之间的图像相似度，可以转换为计算上述两个搜索图像{A，B}各自通过残差网络ResNet抽取到的embedding特征{E_A，E_B}之间的点积cos(E_A,E_B)，这样通过点积能够以余弦相似度(即Cosine距离)来表征特征相似度，而特征相似度又反映了图像相似度Similarity(A,B)，即，上述图像相似度、特征相似度之间的关系如下述公式所示：

Similarity(A,B)＝cos(E_A,E_B)＝f(A)·f(B)/(||f(A)||·||f(B)||)

其中，f(A)代表将搜索图像A输入同图检索模型f后抽取到的embedding特征，f(B)代表将搜索图像B输入同图检索模型f后抽取到的embedding特征。

可选地，在对上述两个搜索图像{A，B}的图像相似度Similarity(A,B)计算完毕后，如果满足Similarity(A,B)≥设定阈值，则认为搜索图像A与搜索图像B之间高度相似，其中有一张图像是冗余图片或重复图片，应该随机丢弃A或B中的一张图像，例如，在上述两个搜索图像{A，B}中随机丢弃一张图像，或者，比较上述两个搜索图像{A，B}的分辨率，优先丢弃分辨率较小的图像。

规则d、从该多个搜索图像中，剔除符合破损条件的搜索图像，该破损条件表征在经过格式转换后无法加载的搜索图像。

可选地，技术人员预先定义破损条件，比如，破损条件表征搜索图像在经过格式转换后无法加载，这样代表搜索图像本身已经是受损的，没有作为干净样本的采集价值，应该被丢弃。

可选地，服务器可以使用公开Python图像库Pillow来判断搜索图像是否符合破损条件。例如，首先将搜索图像进行打开(open)操作，并将搜索图像转换为RGB格式(mode)，上述open操作和mode转换可通过图像库Pillow中的Pillow.open()函数实现，如果任一搜索图像无法被Pillow.open()函数成功加载或转换，则视为该搜索图像符合破损条件，因此需要进行丢弃。需要进行说明的是，这里仅以利用图像库Pillow来检测是否符合破损条件为例进行说明，但技术人员可以定义其他的图像库，或者使用其他语言来判断搜索图像是否破损，本申请实施例对此不进行具体限定。

在以上规则a～d中，提供了几种可能的预筛选规则的实施方式，技术人员可以选择其中的任一种，或者采用至少两种的组合，来实现对步骤401中获取到的搜索图像的预筛选，从而完成从搜索图像中剔除无效样本，以获取到剩余的备选图像，这样能够基于搜索图像这种图像本身的信号维度实现粗略筛选，完成对搜索图像的初步过滤，剔除掉一部分无效样本，能够节约后续筛选流程的计算量。

403、服务器对该多个备选图像中任一备选图像，将该备选图像输入特征提取模型，通过该特征提取模型对该备选图像进行卷积运算，得到该备选图像的图像特征。

其中，该特征提取模型基于多个训练样本对以对比学习方式训练得到，每个训练样本对包括一个训练图像和一个基于该训练图像变换得到的合成图像，该对比学习方式是指控制该训练图像和该合成图像的特征相似，且控制该训练样本对与其他训练样本对的特征不相似。关于特征提取模型的训练方式将在下一实施例中进行说明，这里不再赘述。

在一些实施例中，由于步骤402中规则c使用的同图检索模型f本身就会提取输入图像的图像特征，再对输入图像的图像特征进行降维，得到输入图像的embedding特征，因此，本步骤403中的特征提取模型可以复用同图检索模型f，这样能够节约服务器的计算量，并且由于在进行同图搜索的过程中，本身就需要遍历全部搜索图像来提取其图像特征和embedding特征，再来对比embedding特征之间的特征相似度，因此服务器侧可以缓存备选图像的图像特征和embedding特征，由于被剔除掉的无效样本本身不会参与后续过滤算法中，因此服务器侧也没必要缓存无效样本的特征，这样能够节约服务器侧的存储开销。即，服务器可以直接从缓存中读取备选图像的图像特征，如果缓存中没有读取到备选图像的图像特征，可以复用同图检索模型f作为特征提取模型f，来再次提取备选图像的图像特征，特征提取模型f中可以包括一个残差网络ResNet，将该备选图像输入残差网络ResNet，通过该残差网络ResNet中的各个残差块对备选图像进行基于残差连接的卷积运算，并将最后一个残差块输出的特征图作为备选图像的图像特征，残差网络ResNet的构造可参考规则c中描述，不再赘述。

在另一些实施例中，服务器也可以单独设计特征提取模型，而不是复用同图检索模型，特征提取模型可以与同图检索模型具有相同的架构，但配置不同的参数，例如，同图检索模型和特征提取模型均为ResNet-34但两者模型参数不同，或者，特征提取模型与同图检索模型具有不同的架构，例如，同图检索模型为ResNet-18，特征提取模型为ResNet-34，本申请实施例对特征提取模型是否与同图检索模型相同不进行具体限定。

404、服务器基于该备选图像的图像特征，获取该备选图像属于每个图像类别的预测概率。

在一些实施例中，基于步骤403中提取到的备选图像的图像特征，可以将该备选图像的图像特征输入到一个单层全连接层中，并通过该全连接层对备选图像的图像特征进行全连接处理，得到备选图像的全连接特征，接着将该全连接特征输入到一个softmax(指数归一化)层中，以将全连接特征映射成一个N维的概率向量，N代表图像类别的类别数，N为大于或等于2的整数，N维概率向量中的每个元素表征了备选图像属于一个图像类别的预测概率，例如，N维概率向量的第i个元素代表备选图像属于第i个图像类别的预测概率，i为大于或等于2且小于或等于N的整数。

示意性地，将特征提取模型f划分成卷积模块D、投影模块p和映射模块softmax，卷积模块D与映射模块softmax串连，卷积模块D还与投影模块p串连。其中，卷积模块D用于提取输入图像在高维空间的图像特征，投影模块p用于将图像特征从高维空间投影到低维embedding空间以得到embedding特征，映射模块softmax用于将图像特征映射到每个图像类别得到一个概率向量，概率向量包含了输入图像属于每个图像类别的预测概率，即，概率向量的维度等于图像类别的类别数。可选地，卷积模块D被实施为残差网络ResNet，如ResNet-18、ResNet-34、ResNet-50、ResNet-101等，本申请实施例对残差网络的层数不进行具体限定。可选地，投影模块p被实施为多个全连接层，每个全连接层用于对输入的特征图进行全连接处理，例如，投影模块p被实施为2个全连接层，或者还可以设计两个以上的全连接层，本申请实施例对投影模块p的深度不进行具体限定。可选地，映射模块softmax被实施为一个单层全连接层和一个级联的softmax层，在单层全连接层中提取输入的特征图的全连接特征，在softmax层中对全连接特征进行各个图像类别的预测概率的输出。

在一个示例中，对每个备选图像I，将备选图像I输入到特征提取模型f的卷积模块D中，以抽取到高维空间的图像特征D＝f(I)，例如，图像特征D是一个2048维的高维向量。接着，将图像特征D输入到投影模块p中，以将图像特征D从2048维空间映射到128维空间，得到一个128维的embedding特征z，接着对各个备选图像的embedding特征z进行归一化，使其L2范数为1，因此有embedding特征z＝p(D)。此外，将图像特征D还输入到映射模块softmax中，以将图像特征D映射到概率空间中，得到备选图像I属于每个图像类别的预测概率，假设全部图像类别的类别数为N(N≥2)，那么映射模块softmax将把图像特征D从2048维的特征向量压缩成N维的概率向量。

在此基础上，在步骤402中的规则c，将利用投影模块p获取的embedding特征z来进行同图检索，过滤掉重复图片或者高度相似的冗余图片，而在步骤403中，可以从缓存中读取卷积模块D获取的图像特征D，或者实时计算图像特征D，在步骤404中，将利用投影模块p所输出的N维概率向量，来表征当前的备选图像属于N个图像类别各自的预测概率。

405、服务器基于该备选图像的图像特征和每个图像类别的类别特征，获取该备选图像与每个图像类别的类别相似度。

在一些实施例中，服务器可以从缓存中读取每个图像类别的类别特征，每个图像类别的类别特征是在特征提取模型f的训练过程中会自然生成的，服务器可以缓存每个图像类别的类别特征，或者将每个图像类别的类别特征存入到本地的类别特征库中，以备后续样本筛选时的调用。

在另一些实施例中，如果服务器没有缓存每个图像类别的类别特征，由于每个备选图像都会天然具有一个原始类别，那么对每个图像类别，可以统计以该图像类别作为原始类别的所有备选图像的图像特征，再将所有备选图像的图像特征的平均特征作为该图像类别的类别特征，这样也能够快速获取到各个图像类别的类别特征。

在一些实施例中，根据步骤403中获取到的备选图像的图像特征，以及本步骤405中获取到的每个图像类别的类别特征，可以获取该备选图像的图像特征与每个图像类别的类别特征之间的类别相似度。可选地，该类别相似度可以是余弦相似度或者欧式距离等相似度的度量，本申请实施例对类别相似度的实施方式不进行具体限定。

在一个示例中，对于备选图像i来说，备选图像i的图像特征可以表示为z_i，以任一图像类别k(1≤k≤N，且N≥2)为例，图像类别k的类别特征可以表示为c_k，那么备选图像i的图像特征z_i与图像类别k的类别特征c_k之间的类别相似度可以表示为如下公式：

其中，τ表示温度系数(Temperature)，是技术人员预先定义的超参数，可以设置τ＝0.1或其他大于0的数值，以起到平滑概率输出的作用，exp()表示以自然底数e为底、以()内部数值为指数的幂次方运算。

406、服务器基于该多个图像类别的该预测概率和该类别相似度，确定该备选图像属于每个图像类别的置信度。

在一些实施例中，根据步骤404中获取到的备选图像属于每个图像类别的预测概率，以及步骤405中获取到的备选图像的图像特征与每个图像类别的类别特征之间的类别相似度，能够进一步获取到备选图像属于每个图像类别的置信度，这里的置信度表征的是备选图像依照预测概率的情况下属于某种图像类别的可信程度，例如，备选图像i属于图像类别k的预测概率80％，置信度0.99，代表备选图像i以80％的预测概率被分类到图像类别k的可信程度为99％。

在一些实施例中，对每个图像类别，服务器在获取到备选图像属于该图像类别的预测概率，与备选图像的图像特征与该图像类别的类别特征之间的类别相似度以后，可以对两者进行加权求和，将加权求和所得的和值作为备选图像在该图像类别上的置信度。

在一个示例中，仍以备选图像i为例，备选图像i属于图像类别k(1≤k≤N，且N≥2)的预测概率表示为p_i，备选图像i与图像类别k之间的类别相似度表示为技术人员预先设定了加权系数α，那么备选图像i在图像类别k上的置信度q_i表示为：

其中，加权系数α是技术人员预先设定的对预测概率p_i的权重，而(1-α)则是根据加权系数α获取到的对类别相似度的权重，技术人员可灵活设定加权系数α的取值，来控制预测概率p_i和类别相似度/>各自在置信度q_i中所占的权重，加权系数α是大于或等于0且小于或等于1的数值。

407、服务器基于该多个图像类别的该置信度，对该备选图像进行分类，其中，该分类的结果指示该备选图像属于干净图像还是噪声图像。

在一些实施例中，服务器根据该备选图像在每个图像类别下的置信度，可以对备选图像进行分类，以决策将该备选图像分类到干净图像还是噪声图像。

可选地，先获取该备选图像在该多个图像类别中的最大置信度，在该多个图像类别中的最大置信度大于第一置信阈值的情况下，将该备选图像分类为该干净图像，该干净图像的图像类别为该最大置信度关联的图像类别，这一最大置信度关联的图像类别就是对备选图像进行重分类后的预测类别，预测类别可能与原始类别相同或不同，该原始类别是指搜索该备选图像使用的图像类别；接着，在该最大置信度小于或等于该第一置信阈值的情况下，进一步确定原始类别的置信度，在该原始类别的置信度大于第二置信阈值的情况下，将该备选图像分类为该干净图像，该干净图像的图像类别为该原始类别，否则，即在该原始类别的置信度小于或等于该第二置信阈值的情况下，将该备选图像分类为该噪声图像。

在上述过程中，通过判断最大置信度是否大于第一置信阈值，并在最大置信度大于第一置信阈值的情况下，将备选图像分类到干净图像，直接将预测类别作为干净图像的图像类别，这样相当于干净图像置于该预测类别的可信程度非常高，因此原始类别可能标注有误(当然在两者相同的情况下也可能无误)，直接将最大置信度关联的图像类别即预测类别赋值为干净图像的图像类别。否则，即在最大置信度小于或等于第一置信阈值的情况下，说明备选图像属于预测类别的可信程度不高，这时可以进一步判断备选图像在原始类别下的置信度是否大于第二置信阈值，如果原始类别的置信度大于第二置信阈值，说明备选图像属于原始类别的可信程度较高，因此将备选图像也分类到干净图像，并将原始类别作为干净图像的图像类别。否则，在原始类别的置信度小于或等于第二置信阈值的情况下，说明备选图像既不属于预测类别也不属于原始类别，这时很可能就是一张在初筛过程中漏掉的噪声样本，因此可以直接将备选图像分类到噪声图像。

在一个示例中，假设第一置信阈值表示为T₁，第二置信阈值表示为T₂，那么上述分类逻辑可以表示为如下函数：

其中，表示干净图像的图像类别，y_i表示备选图像的原始类别，/>表示最大置信度，/>表示最大置信度所关联的图像类别(即预测类别)，OOD表示噪声图像，OOD也可称为无效离群点。可选地，第二置信阈值T₂可以设置为类别数N的倒数，即，T₂＝1/N。

在上述过程中，经过基于最大置信度和原始类别的置信度的两重判断，能够实现对部分干净图像的标签修正，即，将图像类别从原始类别修正到预测类别，并且还能够精准剔除掉一部分无效离群点。

在另一些实施例中，也可以仅基于最大置信度来进行分类，最大置信度大于第一置信阈值时，将备选图像分类到干净图像，并将预测类别作为干净图像的图像类别；否则，不进行基于原始类别的置信度的判断，直接将备选图像分类到噪声图像，这样可以节约服务器的计算量，提升对干净图像的筛选速率。

在另一些实施例中，也可以仅基于原始类别的置信度来进行分类，原始类别的置信度大于第二置信阈值时，将备选图像分类到干净图像，并将原始类别作为干净图像的图像类别；否则，不进行基于最大置信度的判断，直接将备选图像分类到噪声图像，这样可以节约服务器的计算量，提升对干净图像的筛选速率。

在上述步骤403-407中，提供了基于该多个备选图像的图像特征和该多个图像类别的类别特征，对该多个备选图像进行分类，得到多个干净图像和至少一个噪声图像的一种可能实施方式，通过基于图像特征来获取预测概率，并根据图像特征和类别特征来获取置信度，再基于置信度和预测概率来综合筛选干净图像，能够实现对部分干净图像的标签修正，这样即使干净图像一开始携带的原始类别不匹配，在分类逻辑中其原始类别也会被预测类别进行修正，并且，基于置信度的判断逻辑也极大提升了筛选干净图像的精准度，避免漏筛除无效的噪声图像，也避免误筛除有效的干净图像。

408、服务器从多个干净图像中，剔除与该噪声图像符合相似条件的含噪图像，得到多个候选目标图像。

在一些实施例中，由于步骤407中分类完毕的干净图像中也可能仍然存在含噪图像，并且这些含噪图像很可能与分类完毕的噪声图像之间存在一定的相似性，因此，可以使用步骤407中分类完毕的噪声图像作为种子点(seed)，采用以图搜图的方式，在分类完毕的干净图像中查找留存的含噪图像，这样可以剔除干净图像中的噪声样本即含噪图像，进一步地提纯干净图像，压缩干净图像中的噪声留存率，最终得到多个候选目标图像。

在一些实施例中，对该多个干净图像中的任一干净图像，服务器可以获取该干净图像的图像特征与该至少一个噪声图像的图像特征之间的多个噪声相似度，可选地，复用步骤402中规则c的同图检索模型f，对每个干净图像，都计算该干净图像的embedding特征与全部噪声图像的embedding特征之间的噪声相似度，噪声相似度的计算方式与特征相似度的计算方式同理，不再赘述；接着，在该多个噪声相似度中任一噪声相似度大于相似阈值的情况下，将该干净图像确定为该含噪图像，剔除该含噪图像，即，在该干净图像的embedding特征与任一噪声图像的embedding特征之间的噪声相似度大于相似阈值的情况下，视为该干净图像与某一噪声图像之间高度相似，代表很可能该干净图像是漏掉的含噪图像，因此，将该干净图像标记为含噪图像，并丢弃该含噪图像，这样能够进一步减少在干净图像中的噪声留存率。遍历全部的干净图像，对每个干净图像均执行上述基于同图检索模型f的过滤操作，以剔除掉干净图像中的所有可能的含噪图像，得到多个候选目标图像。

409、服务器基于该多个图像类别的文本信息，对该多个候选目标图像进行过滤，得到至少一个目标图像。

在一些实施例中，对每个图像类别，都预先保存该图像类别的文本信息，例如，每个图像类别的文本信息包括多个文本提示符(Prompt)，该文本提示符表征该图像类别下的图像风格描述。

示意性地，对于任一图像类别，根据该图像类别的类别名，按照7种可能的图像风格描述，构造如下7种不同的文本提示符：

(1)：'itap of a{CLASS_NAME}.'({某类别名}的示范画)

(2)：'a bad photo of the{CLASS_NAME}.'({某类别名}的低质量照片)

(3)：'a origami{CLASS_NAME}.'({某类别名}的折纸)

(4)：'a photo of the large{CLASS_NAME}.'({某类别名}的大照片)

(5)：'a{CLASS_NAME}in a video game.'({某类别名}的电子游戏截图)

(6)：'art of the{CLASS_NAME}.'({某类别名}的艺术照)

(7)：'a photo of the small{CLASS_NAME}.'({某类别名}的小照片)

需要说明的是，这里仅以构建7种文本提示符为例进行说明，服务器可以按照不同图像类别的风格特点，对不同图像类别定制不同数量和不同风格种类的文本提示符，每种图像类别的文本提示符的数量和风格种类可以更多或更少，本申请实施例对此不进行具体限定。

在一些实施例中，服务器获取每个图像类别的多个文本提示符各自的多个文本特征，比如，对每个图像类别，服务器使用CLIP模型(一种图文预训练模型)中的文本编码器(Text Encoder)，对该图像类别的所有文本提示符进行编码，得到所有文本提示符各自的文本特征，例如，使用CLIP模型的文本编码器抽取每个图像类别的7种文本提示符的7个文本特征。可选地，上述每个图像类别的多个文本特征可以预先缓存在服务器的文本特征库中，服务器无需实时计算各个图像类别的文本特征，而是直接从文本特征库或者缓存中读取，能够提升对文本特征的获取效率。

在一些实施例中，对该多个候选目标图像中的任一候选目标图像，服务器可以获取该候选目标图像的图像特征与每个图像类别的多个文本特征之间的多个文本相似度，即，对每个候选目标图像，都计算该候选目标图像的图像特征与每个图像类别的多个文本特征之间的多个文本相似度，例如，计算该候选目标图像的embedding特征与每个图像类别的7个文本特征之间的7个文本相似度。

在一些实施例中，服务器确定每个图像类别的该多个文本相似度中的最大文本相似度，按照该最大文本相似度从大到小的顺序，对该多个图像类别进行排序，比如，对一个候选目标图像来说，由于对每个图像类别都会计算出来7个文本相似度，而对每个图像类别只需要保留7个文本相似度中的最大文本相似度，这一最大文本相似度代表了候选目标图像与对应文本提示符之间的匹配程度，接着，由于对每个图像类别都仅保留最大文本相似度，这样可以将全部的N个图像类别按照最大相似度从大到小的顺序进行排序，使得N个图像类别按照最大文本相似度降序排列。

图5是本申请实施例提供的一种图文预训练模型去噪流程的原理图，如图5所示，图文预训练模型包括一个文本编码器510和一个图像编码器520，这里的图像编码器520可以复用特征提取模型的卷积模块，或者复用同图检索模型，能够节约服务器的计算资源，接着，对于任一图像类别来说，抽取该图像类别的文本信息中一条文本提示符501，例如，以类别名为leopard即豹子为例，在风格为小照片的情况下，第7类文本提示符表示为“A photoof the small leopard.”，将文本提示符501输入到文本编码器510中，获取到文本提示符501的文本特征T_i，同时，将候选目标图像502输入到图像编码器520中，获取到候选目标图像的图像特征I_i，接着，获取文本特征T_i和图像特征I_i之间的点积，将该点积作为该候选目标图像和图像类别leopard的第7类文本提示符之间的文本相似度。通过对图像类别leopard的全部文本提示符进行如上操作，一共可以得到7个文本相似度，接着只需要挑选7个文本相似度中最大文本相似度，即可得到该候选目标图像与该图像类别leopard的文本信息的匹配程度的具象化表征。需要说明的是，候选目标图像的图像特征I_i并非一定要服务器进行实时计算，在进行同图检索去除冗余图片时，或者在对备选图像分类到干净图像时，都会计算图像特征I_i，服务器可以缓存图像特征I_i，并从缓存中读取图像特征I_i，这样能够节约服务器的计算资源。

在一些实施例中，服务器可以在该候选目标图像的图像类别在该排序中位于前目标位的情况下，将该候选目标图像确定为该目标图像；否则，在该候选目标图像的图像类别在该排序中不位于前目标位的情况下，代表了候选目标图像在自身标注的图像类别下最匹配的文本提示符在整体排序中的次序较低，因此很可能候选目标图像并不属于自身标注的图像类别，这很可能是一张漏掉的噪声图像，因此需要丢弃这张候选目标图像。重复执行上述操作，可以对候选目标图像进行再一轮的深度过滤，最终剩余的候选目标图像即为所需的目标图像。其中，前目标位的位数是任一大于或等于1且小于或等于类别数N的整数，例如前目标位可以是前5位、前3位、前N/2位等，本申请实施例对前目标位的位数不进行具体限定。

在上述过程中，使用图像预训练模型，在候选目标图像的基础上进行进一步去噪，得到最终的目标图像，这样能够弥补单纯使用图像模态进行去噪的不足，考虑到图像本身与其附近所属的文本信息(可能是标题、摘要、风格描述等)具有强相关性，因此，如果一个候选目标图像的embedding特征与所属图像类别的文本特征(如对文本提示符进行语义编码所得的文本embedding向量)不相似，说明对该候选目标图像所标注的图像类别很可能是错误的，这时可以直接剔除掉这部分候选目标图像，保留剩余的目标图像。或者，也可以将这部分标注错误的候选目标图像输出给技术人员进行人工标注，避免浪费掉这部分候选目标图像，本申请实施例对此不进行具体限定。

进一步的，对于搜索引擎中获取到的搜索图像，能够从数据源头入手，通过父类别或子类别来定义关键词，能够改善图像类别作为关键词进行搜索时的歧义问题；接着，通过针对获取到的搜索图像进行预筛选操作，能够大幅减少备选图像中的噪声比例，减少后续过滤流程的计算量，有利于提升目标图像的样本质量。

在上述实施例中，提供了从搜索图像的获取、搜索图像的处理、搜索图像的去噪的整体流程，由于在上述实施例中涉及到了特征提取模型，而在本申请实施例中，将对特征提取模型的训练流程进行介绍。可选地，在对特征提取模型进行训练时，可以采取带噪学习的方式，防止特征提取模型过拟合噪声样本，并且还设计一种领域分类模型，以提升特征提取模型在跨领域(Domain)验证集上的泛化性能。

图6是本申请实施例提供的一种特征提取模型的训练方法的流程图。参见图6，该实施例由计算机设备执行，以计算机设备为服务器为例进行说明，该实施例包括以下步骤：

601、服务器初始化特征提取模型的模型参数。

在一些实施例中，服务器构建如上一实施例中步骤404中所介绍过的特征提取模型，并基于高斯分布或者其他分布，对特征提取模型的模型参数进行随机初始化，特征提取模型的模型结构参考步骤404，不再赘述。

在一些实施例中，服务器也可以不对模型参数进行随机初始化，而是使用自监督方式来预训练得到一个特征提取模型。可选地，基于自监督预训练的方式，在通过步骤401-402同理的方式获取到多个训练图像(即获取训练阶段的搜索图像，并对搜索图像预筛选后得到备选图像)以后，对每个训练图像都变换得到一个合成图像，训练图像与其变换所得的合成图像可以构成一个训练样本对，所有的训练样本对形成了预训练阶段的训练样本集，即，训练图像和合成图像都充当预训练阶段的训练样本，然后，基于全部训练样本进行实例与实例之间的对比学习，这里的实例是指一个训练样本，训练样本既可以是训练图像也可以是合成图像。接着，根据对比学习后所得的自监督预训练的模型参数，来对特征提取模型进行初始化，即，将对比学习后所得的模型参数作为特征提取模型的初始化参数，这样能够使得特征提取模型跳出局部最优解，有利于促进特征提取模型收敛到全局最优解，从而取得更好地训练性能，并且，实例与实例之间的对比学习能够增强特权提取模型对图像特征的判别力。其中，实例与实例之间的对比学习是指：在预训练阶段，控制同一个训练样本对中的一对训练样本的图像特征尽可能地特征相似度较高，而不同的训练样本对之间的训练样本的图像特征尽可能地特效相似度较低。

需要说明的是，在选取训练图像的时候，可以无需将从搜索引擎中搜索到的每个图像类别的所有训练图像都添加到训练样本集中，而是考虑到每个搜索引擎返回的搜索结果中，通常排名靠前的图像都是与关键词最相关、最干净的样本，因此，可以对每个图像类别，都从每种搜索引擎的搜索结果中挑选出来排名(Rank)靠前的设定数量个训练图像添加到训练样本集中，设定数量是技术人员预先定义的大于或等于1的整数，例如，设定数量为100、200等。在上述过程中，由于排名靠前的训练图像与对应的原始类别强相关，属于干净样本的可能性更大，此外，每个原始类别都取同样数量的训练图像，也有助于缓解训练时各个图像类别的样本数量不均衡导致的问题，而且，通过灵活控制设定数量的取值，在设定数量取值恰当时，也有助于灵活把控训练时间和训练开销。

示意性地，在预训练阶段进行实例与实例之间的对比学习时，对任一个训练图像x_i，在训练图像x_i的基础上施加至少两种不同的数据增强操作，得到一张合成图像x_i’，训练图像x_i和合成图像x_i’即可构成一个训练样本对。接着，对每一个训练样本对，使用一个随机初始化后的残差网络ResNet(即特征提取模型中的卷积模块D)抽取训练图像x_i的图像特征z_i＝f(x_i)，以及合成图像x_i’的图像特征z_i’＝f(x_i’)，上述图像特征用于表征对应训练样本的高维的语义特征，f()表征残差网络ResNet的卷积运算。同时，服务器侧还维护一个已经抽取完毕的图像特征序列Q＝[z_1,z_2,…,z_R]，这里以图像特征序列中仅保存各个训练图像的图像特征为例，即，图像特征序列中不保存各个合成图像的图像特征，这样能够节约预训练阶段的存储开销，以及降低预训练阶段的计算量。

可选地，数据增强操作包括但不限于：色彩抖动、直方图均衡化、扣图、锐化、灰度化、基于网格的形变、添加噪声、下采样、尺寸变化、模糊(或平滑/滤波)、添加文字、添加遮挡等，本申请实施例对数据增强操作的方式不进行具体限定。

进一步的，在预训练阶段进行对比学习时，使得同一个训练样本中一对训练样本的图像特征z_i与z_i’的特征相似度尽可能高，同时保证图像特征z_i与图像特征队列Q中的其他图像特征的特征相似度尽可能低，能够使用各个训练样本自身即可达到自监督地预训练。

示意性地，预训练阶段的预训练损失项可以表示为如下公式：

其中，i表示训练图像的序号即第i个训练图像x_i，z_i表示训练图像x_i的图像特征，z_i′表示训练图像x_i的合成图像x_i’的图像特征，τ表示温度系数，用于平滑预测输出的相似度分布，z_r′表示图像特征队列Q中的第r个图像特征，R+1表示图像特征队列Q的长度，r为大于或等于0且小于或等于R的整数，R为大于或等于0的整数。

602、服务器对每个训练图像变换得到合成图像，将该训练图像和该合成图像确定一个训练样本对，该训练样本对中训练图像和合成图像具有相同的参考类别。

在一些实施例中，如果服务器在步骤601中进行的是随机初始化，那么可以通过与步骤601中介绍过的预训练阶段同理的方式，基于从搜索引擎中获取到的训练图像，来进行数据增强操作以获取到一个合成图像，并将训练图像和合成图像组成一组训练样本对，后文中为了简便起见，将训练图像和合成图像统称为训练样本。如果服务器在步骤601中进行的是自监督预训练，那么由于在预训练阶段已经获取到了多对训练样本对，因此可以跳过步骤602，进入步骤603。

在一些实施例中，在构建训练样本对以外，服务器还可以通过领域分类和随机扰动这两种方式，来进一步提升特征提取模型的训练性能，下面进行说明。

方式一、领域分类

由于从搜索引擎中搜索到的训练图像，很可能与真实业务场景中使用的图像之间存在领域偏差(Domain Gap)，即训练图像和实际应用使用的搜索图像之间，可能其内容一致但是其风格迥异。这样，如果直接将训练图像用于训练特征提取模型，则有可能使得特征提取模型过拟合于源领域的图像特征，即，在提取图像特征时不仅提取训练图像的语义内容，还提取了训练图像在源领域的风格特征，这很可能会导致特征提取模型的泛化性能降低，比如在应用到目标领域时，对同种图像类别的物体则特征提取能力较差，提取到的图像特征表达能力降低。

示意性地，图7是本申请实施例提供的一种训练图像的领域偏差的示意图，如图7所示，针对同一个图像类别“水杯”，在不同搜索引擎中通常会检索到来自不同源领域的训练图像，如搜索引擎中获取到的源领域下的搜索图像，通常为一些简笔画、概念图、海报、设计封面、游戏截图等虚拟水杯，甚至还可能搜索到一些白底的水杯商品图等，而实际业务应用的目标领域则是真实世界中的水杯照片，图7示出了源领域和目标领域下同一图像类别“水杯”的图像风格差异，显然，这种领域偏差现象是普遍存在的。

有鉴于此，服务器侧可以训练一个二分类模型作为领域分类模型，该领域分类模型用于判断输入图像是否属于实际业务的图像领域(即目标领域)，换言之，领域分类模型用于判断输入图像所属源领域是否与实际业务的目标领域一致。可选地，可以利用卷积神经网络进行参数的随机初始化，构建一个二分类的领域分类模型，并利用采集一系列图像及其领域标签信息，根据采集到的一系列图像及其领域标签信息来训练得到该领域分类模型，使得该领域分类模型能够对输入图像是否属于目标领域进行二分类的判别。可选地，该领域分类模型的架构可以包括多个卷积层、一个全连接层和一个softmax层，或者该领域分类模型还可以是基于决策树的模型，本申请实施例对此不进行具体限定。

在一些实施例中，在训练完毕领域分类模型以后，服务器对该特征提取模型的每个训练样本，通过领域分类模型对该训练样本的业务领域进行预测，得到该训练样本的领域概率，该领域概率表征该训练样本是否属于目标业务领域的可能性，目标业务领域即为实际业务的目标领域。例如，针对训练样本i，将训练样本i输入到领域分类模型中，通过该领域分类模型来预测该训练样本i属于目标领域的领域概率p_i。

在一些实施例中，服务器基于该领域概率，确定对该训练样本的变换概率，该变换概率表征对该训练样本进行随机数据增强的可能性。例如，针对训练样本i，在获取到训练样本i属于目标领域的领域概率p_i以后，以(1-p_i)作为训练样本i的变换概率。

在一些实施例中，服务器按照该变换概率，对该训练样本进行数据增强，得到该训练样本的增强样本。例如，服务器以(1-p_i)的变换概率，对训练样本i进行数据增强操作，以有针对性地对训练样本i进行图像变换，得到一个增强样本。

示意性地，该数据增强操作包括以下任一项或者至少两项的组合：

A、如果当前的训练样本存在纯色背景，则抠出训练样本的前景图像，并随机地从大量风景图像中抽选出一张作为背景图像，并将背景图像替换掉当前的训练样本的纯色背景。

B、对训练样本的色彩进行抖动(包括亮度、对比度、饱和度等维度的变换)。

C、对训练样本进行直方图均衡化。

D、对训练样本进行锐化。

E、对训练样本进行灰度化。

F、对训练样本进行基于网格的形变(Grid Distortion)。

G、对训练样本添加ISO(感光度)噪声、加雾噪声、加雨噪声、加雪噪声、加阴影噪声、加高斯噪声等各类噪声。

H、对训练样本进行下采样、压缩等质量攻击。

I、对训练样本施加运动模糊、高速模糊等模糊噪声。

J、在训练样本上添加任意文字覆盖。

在一个示例中，对于每个训练样本i，都以(1-p_i)的变换概率，从上述数据增强操作A～J中随机抽取至少3种，来对训练样本i进行数据增强，得到训练样本i的增强样本，这样通过对不同训练样本，以随机方式对多种数据增强手段进行组合，能够极大提升模型对于不同领域下的图像的适应学习能力，从而有利于提升特征提取模型的泛化性能。

方式二、随机扰动

在一些实施例中，由于在特征提取模型的训练阶段，各个训练样本都具有4种类别：原始类别(指搜索训练图像时使用的关键词指示的类别)、预测类别(指根据图像特征预测出来的类别)、标注类别(指根据预测概率和置信度修正后的类别，标注类别可能是原始类别也可能是预测类别，获取方式参见上一实施例中的步骤403-407)以及参考类别(在训练前期等同于原始类别，在训练后期则等于原始类别和预测类别的加权和)。而这些类别都是未经过人工标注的，因此有可能会存在一定概率标注出错，为了避免特征提取模型过拟合噪声，在带噪学习中可以使用多种正则化手段，来施加一定的扰动。

在一些实施例中，对该特征提取模型的每个训练样本，服务器按照第一扰动概率，基于该训练样本和其他训练样本合成目标训练样本；或，服务器按照第二扰动概率，将该训练样本的原始类别设定为除了原始类别以外的任一可能的类别。第一扰动概率和第二扰动概率均为大于或等于0且小于或等于1的数值，例如，第一扰动概率为0.5、0.6、0.4等，第二扰动概率为0.1、0.2、0.15等。

在一些实施例中，服务器在基于该训练样本和其他训练样本合成目标训练样本时，可以采取CUT-MIX和MIX-UP两种不同的合成方式。

CUT-MIX：指从训练样本集中，随机地(按照第一扰动概率)挑选训练样本A和其他训练样本B，合成一张目标训练样本C，具体地，从B图上随机切下一块区域x_B，并随机粘贴在A图中的任一位置，得到C图。进一步的，C图的原始类别是由A图的原始类别与B图的原始类别经过线性加权组合得到的，且权重分别为区域A的图像面积(R_A-R_xB)和区域x_B的图像面积R_xB各自在C图的图像面积R_A中所占的比值，即，C图的原始类别y_C＝c_A*(R_A–R_xB)/R_A+c_B*R_xB/R_A，其中，c_A为A图的原始类别，c_B为B图的原始类别，R_A为A图的图像面积，R_xB为B图中剪切下来的区域x_B的区域面积。

MIX-UP：指从训练样本集中，随机地(按照第一扰动概率)挑选训练样本A和其他训练样本B，合成一张目标训练样本C，具体地，将A图与B图进行线性组合，得到C图，即，C＝w1*A+(1–w1)*B，w1为线性组合的系数，可由技术人员预先配置，或者由服务器进行随机生成，同时C图的原始类别为y_C＝w1*c_A+(1–w1)*c_B，其中，c_A为A图的原始类别，c_B为B图的原始类别。

在一些实施例中，服务器按照第二扰动概率，将该训练样本的原始类别设定为除了原始类别以外的任一可能的类别的过程，也称为标签平滑(LabelSmoothing)，标签平滑是指：在训练特征提取模型时，按照第二扰动概率，将任一个训练样本的原始类别设定为除了原始类别以外所有其他可能的图像类别，具体地，以第二扰动概率为0.1为例进行举例说明，对于每个训练样本来说，该训练样本的原始类别被设定为搜索时的关键词指示的类别的概率为0.9，而该训练样本的原始类别被设定为任意其他可能的任一种图像类别的概率为0.1/(N-1)，N为总的类别数。

通过引入以上施加扰动的方式二，本技术方案能够在训练特征提取模型时有效避免过拟合噪声的问题。并且在方式二中，通过CUT-MIX、MIX-UP、标签平滑等不同的手段，都能够实现对训练样本的原始类别进行标签软化(Soften)的效果，这样能够增加特征提取模型对于不同图像属于不同类别的容忍度，减少了特征提取模型过拟合到错误的噪声类别的可能。

603、服务器使用特征提取模型提取每个训练样本对中一对训练样本的图像特征，该训练样本为训练图像或合成图像。

上述步骤603与上一实施例中的步骤403同理，不再赘述。

604、服务器基于各个训练样本对中一对训练样本的图像特征，获取样本对比损失项。

其中，样本对比损失项用于表征不同训练样本的实例之间的对比损失。

在一些实施例中，以某个训练样本对{训练图像x_i，合成图像x_i’}为例进行说明，合成图像x_i’是在训练图像x_i的基础上，使用强数据增强操作(如随机RGB通道颜色抖动、随机灰度变换、随机缩放剪裁等变换)变换得到的。特征提取模型抽取训练图像x_i的图像特征z_i以及合成图像x_i’的图像特征z_i’，接着，服务器侧还维护一个已经抽取完毕的图像特征序列Q＝[z_1,z_2,…,z_R]，这里以图像特征序列中仅保存各个训练图像的图像特征为例，即，图像特征序列中不保存各个合成图像的图像特征，这样能够节约预训练阶段的存储开销，以及降低预训练阶段的计算量。假设图像特征序列Q的长度为R+1，R为大于或等于0的整数。

在计算样本对比损失项时，实例与实例之间的对比学习的目的是，通过训练特征提取模型，以使得来自同一图像的特征对(z_i与z_i’)之间的特征相似度最大，同时使得来自不同图像的特征对(z_i与候选队列Q中的所有其他图像特征z_r’)之间的特征相似度尽可能小。因此，该样本对比损失项可以表示为如下交叉熵损失公式：

605、服务器基于每个训练样本的图像特征，获取每个训练样本在参考类别上的预测概率。

可选地，服务器基于上一实施例中步骤404同理的方式，对每个训练样本都获取到一个N维概率向量，接着，从N维概率向量中找到参考类别的预测概率。其中，在训练前期，参考类别/>取训练样本的原始类别，在训练后期，参考类别/>取训练样本的原始类别y_i和预测类别p_i之间的加权值，例如，原始类别和标注类别的权重均为0.5的情况下，则有这里预测类别p_i是指上一实施例中涉及的最大置信度所指示的类别。

606、服务器基于各个训练样本在参考类别上的预测概率，获取类别预测损失项。

在一些实施例中，服务器基于各个训练样本在参考类别上的预测概率，构建分类交叉熵损失，并将分类交叉熵损失作为类别预测损失项。

示意性地，类别预测损失项表示为如下公式：

其中，p_i表示训练样本i的N维概率向量(概率分布在0～1之间)，表示训练样本i的参考类别。在训练前期，参考类别/>取训练样本i的原始类别y_i，能够有助于训练图像收敛到原始类别，在训练后期，由于特征提取模型已经具备了一定的推理能力，能够修正可能标注错误的原始类别y_i，因此参考类别/>取训练样本的原始类别y_i和预测类别p_i之间的加权值，并且，还可以随着迭代次数的增加，逐渐增加预测类别p_i的权重，并逐渐减少原始类别y_i的权重，有利于达到更好地训练效果。

607、服务器对每个图像类别，获取该图像类别的类别特征。

在一些实施例中，对任一图像类别，服务器可以确定已分类到该图像类别的多个训练样本，接着，将该多个训练样本的图像特征的平均特征，确定为该图像类别的类别特征。可选地，每当新的训练样本再分类到该图像类别时，服务器还可以基于该新的训练样本的图像特征，更新该图像类别的类别特征，具体更新方式将在下一步骤608中详细说明。

608、服务器基于每个训练样本的图像特征和各个图像类别的类别特征，获取每个训练样本的标注类别，该标注类别为原始类别或预测类别。

上述步骤608中标注类别的获取方式，与上一实施例中步骤404-407同理，标注类别就是在步骤407中对干净图像修正后的类别，标注类别可能是原始类别，也可能是最大置信度所指示的类别，这里不再赘述。

在一些实施例中，由于对每个训练样本来说，在确定完毕标注类别以后，相当于将该训练样本重分类到了该标注类别，即，相当于标注类别下有了新的分类过来的训练样本，因此，可以基于该新的训练样本的图像特征，更新该标注类别的类别特征。

示意性地，针对新的训练样本i，在将训练样本i重分类到标注类别k以后，以标注类别k等于参考类别为例，此时，服务器还需要根据训练样本i的图像特征z_i，来更新标注类别k的类别特征c_k，比如，使用动量法来基于图像特征z_i更新类别特征c_k，动量法的更新方式如下述公式：

其中m为动量法的更新系数，m为大于或等于0且小于或等于1的数值，例如，m为0.999。

在以上过程中，通过动量法来不断根据新的训练样本的图像特征z_i，来更新所属标注类别k的类别特征c_k，能够随着训练的进行，保证类别内部的图像特征不断与类别特征靠近，有利于实现实例与类别之间的对比学习。

609、服务器基于各个训练样本的图像特征、各个训练样本的参考类别的类别特征以及各个图像类别的类别特征，获取类别对比损失项。

在一些实施例中，根据各个训练样本的图像特征z_i，各个训练样本的参考类别的类别特征/>以及各个图像类别自身的类别特征，可以构建一个交叉熵损失作为类别对比损失项。

示意性地，上述类别对比损失项表示为如下公式：

其中，z_i表示训练样本i的图像特征，表示训练样本i的参考类别/>的类别特征，c_k表示第k个图像类别的类别特征，k为大于或等于1且小于或等于类别数N的整数，τ为温度系数。

610、服务器基于样本对比损失项、类别预测损失项、类别对比损失项，来获取损失函数值。

在一些实施例中，服务器基于步骤604获取的基于样本对比损失项、步骤606获取的类别预测损失项以及步骤609获取的类别对比损失项，来获取本次迭代的损失函数值。

可选地，服务器将上述样本对比损失项、类别预测损失项、类别对比损失项进行求和，得到损失函数值，或者，服务器将上述样本对比损失项、类别预测损失项、类别对比损失项进行加权求和，得到损失函数值，本申请实施例对此不进行具体限定。

611、服务器迭代训练特征提取模型，直到损失函数值符合迭代停止条件或者迭代次数到达次数阈值。

在一些实施例中，服务器迭代执行步骤602-610，以不断调整特征提取模型的模型参数，直到在某次迭代中的损失函数值符合迭代停止条件，或者整体的迭代次数到达次数阈值，次数阈值为任一大于0的整数，例如次数阈值为1000、5000、10000等。

可选地，迭代停止条件包括但不限于：损失函数值小于损失阈值，或者，损失函数值在连续两次迭代中的变化量小于变化阈值，或者，损失函数值不再减少等，本申请实施例迭代停止条件不进行具体限定。

图8是本申请实施例提供的一种特征提取模型的训练方法的原理图，如图8所示，在通过预筛选进行去噪后的训练样本(即去噪网图)的基础上，通过引入领域分类模型来减少领域偏差，并通过引入自监督预训练来代替模型参数的随机初始化以避免限于局部最优解，最终通过增加扰动的手段来进行带噪学习，并结合基于实例与实例之间的对比学习，以及实例与类别之间的对比学习，能够极大提升训练得到的特征提取模型的特征抽取能力。

进一步的，上一实施例中获取到的目标图像，以及本申请实施例训练得到的特征提取模型，两者均可以直接应用到下游的特征提取任务、图像分类任务、目标检测任务、语义分割任务等各类任务中，目标图像可以作为去噪后的干净样本，而特征提取模型则可以作为图像特征的抽取器。并且，目标图像在每个图像类别上的置信度还可以作为目标图像的质量评分系数，而领域分类模型输出的领域概率又可以作为判断图像是否属于真实业务场景的目标业务领域的可靠依据，因此针对下游各类图像处理任务，具有很高的可迁移性和高可用性。

在本申请实施例中，通过对训练图像进行预筛选，能够过滤掉不适合特征提取模型学习的低质量图像，并且，通过设计标签去噪方式，来引入各个图像类别的类别特征及训练图像在每个图像类别上的置信度，能够有效清理掉与原始类别不匹配的噪声图像，并且使用预测类别来对原本可能错误标注的原始类别进行更新，使得特征提取模型具有推理出来可能正确的预测类别的能力，最后，通过设计带噪学习的训练流程，能够防止特征提取模型过拟合到噪声图像，同时提升了特征提取模型在跨领域验证集上的泛化性能。

进一步地，在标签去噪方式中，不但考虑了实例与实例之间的对比学习，还考虑了实例与各个图像类别整体均值原型(Prototype)即类别特征之间的对比学习，能够充分进行对比学习，不仅使得相似图像的图像特征更相似，还能够使得图像特征与所属类别的类别特征也更相似。

进一步地，在标签去噪过程中，不仅考虑了特征提取模型基于图像特征在各个图像类别上获取的softmax预测概率，而且考虑了图像特征与各个图像类别的类别特征之间的类别相似度，从而根据预测概率和类别相似度来计算在每个图像类别上置信度，能够有效过滤掉低置信度的噪声样本，还能够纠正部分被错误标记的干净样本。

进一步地，针对领域偏差问题，综合分析了不同数据源获取的图像特点，设计了领域分类模型，并对领域差异较大的训练图像有针对性地设计使用了图像增强手段，增强了特征提取模型在目标任务数据集上的泛化性能。

图9是本申请实施例提供的一种标签去噪流程的原理图，如图9所示，以类别名“Black_footed_Albatross”(黑足信天翁)为关键词在各类搜索引擎中进行搜索，得到一系列的训练样本901。同时，一共设置了一系列的图像类别：Black_footed_Albatross(黑足信天翁)、Laysan_Albatross(黑背信天翁)、Sooty_Albatross(乌信天翁)……等。在训练阶段，将各个训练样本901输入到特征提取模型902中，特征提取模型902可以视为一个图像编码器，提取到各个训练样本高维的图像特征，接着，对各个训练样本高维的图像特征进行映射和L2归一化，得到各个训练样本低维的embedding特征。此外，各个图像类别都会通过一个动量更新图片编码器903，来基于动量法，不断根据新分到的训练样本的图像特征，来更新自身的类别特征。在服务器侧，维护一个图像特征序列Q＝[z_1,z_2,…,z_R]，记录各个训练样本对中的训练图像的图像特征，同时，维护一个图像特征序列Q’＝[z_1’,z_2’,…,z_R’]，记录各个训练样本对中的合成图像的图像特征，同时，维护一个类别特征序列C＝[c_1,c_2,…,c_N]，R表示图像特征序列Q的长度，N表示类别数，z_i表示训练图像i的图像特征，z_i’表示合成图像i’的图像特征，c_k表示图像类别k的类型特征，i为大于或等于1的整数，k为大于或等于1且小于或等于N的整数。

进一步的，基于图像特征序列Q和Q’，可以实现实例-实例对比学习，构建样本对比损失项；基于图像特征序列Q和类别特征序列C，可以实现实例-类别对比学习，构建类别对比损失项。

进一步的，将各个训练样本高维的图像特征输入到一个分类器904(即映射模块softmax)中，可以对每个训练样本都预测得到一个N维概率向量，结合N维概率向量和实例-类别之间的类别相似度，能够计算出来每个训练样本在每个图像类别上的置信度，以基于每个训练样本在各个图像类别上的置信度，实现对训练样本的标签去噪，以及对图像类别的重分类(即标注类别的获取)。

上述各个实施例所提供的技术方案，涉及了一套几乎零成本的数据扩充方案，通过利用互联网上的搜索图像，以关键词作为零标注成本的原始类别，通过多轮筛选和过滤，有效去除掉了搜索图像中的噪声样本，并对部分搜索图像的原始类别修正为预测类别，通过从标签去噪和带噪学习的角度，一体化综合地考虑了如何减轻网络图像噪声(如错误标签、低质量图像等)对于特征提取模型的训练过程的恶劣影响。即，通过设计合理的查询关键词，从源头把控网络获取到的搜索图像的质量；通过预先定义的预筛选规则，直接剔除掉无意义的低质量样本；通过设计基于对比学习(包括实例-实例间的对比以及实例-类别间的对比)的标签去噪流程，实现类别修正与低质量样本过滤；通过图文模型引入除了图像模态以外的不同模态(文本模态)进行辅助去噪；通过设计领域分类模型，使用合理的数据增强方法，使得特征提取模型具有对多种不同领域的泛化性能；通过设计合理的带噪学习策略，使得特征提取模型能够避免过拟合到噪声样本上。

进一步的，本技术方案筛选到的目标图像以及训练完毕的特征提取模型，均能够投入到下游各类任务中，并且目标图像的置信度、标注类别、领域概率、数据源信息(搜索引擎名称与搜索结果排名)、相关文本(如图像标题)等，均可以作为目标图像的辅助信息来输出，能够综合评价目标图像的质量，而且辅助信息有可能投入到下游任务中起到样本补充数据的效果。例如，在某类人物交互(Human Object Interaction，HOI)任务中，通过积累、清洗互联网中获取到的目标图像进行辅助训练，能够提升AP50指标约2％(28.215％->30.623％)。其中，AP是指Average Precision即平均精确率，AP50是指IoU(IntersectionoverUnion，交并比)阈值大于0.5，也就是预测框和标签IoU>0.5为正样本。

以下，对本申请实施例的测试结果进行说明。

在一个测试场景中，基于开源数据集ImageNet-1000对应的1000个图像类别开展了相应的测试实验。从4种不同的搜索引擎中来获取每种图像类别的搜索图像，构成原始的搜索图像集。在测试过程中，使用ImageNet-1000数据集官方的验证集作为目标业务领域的数据集。测试结果如下：

首先，直接使用ImageNet-1000官方训练集(人工标记整理的目标数据集)训练特征提取模型，测试结果Top 1Acc为74％，Acc是指准确率，即正确分类的样本数除以总样本数所得的数值。

相对的，直接使用网络获取到的搜索图像集(大约530万张图像)训练特征提取模型，测试结果Top 1Acc为47％，与上面情况中开源训练结果的性能差异为27％(47％<->74％)。

进一步地，在搜索图像集的基础上添加预筛选模块，以过滤冗余、破损、小尺寸、纯色等图片(大约将530万张图像过滤后剩余＝>210万张图像)，此时噪声留存率降低了5％(50％＝>45％)，而且提升了测试结果的Top 1Acc 6.18％(47.03％＝>53.22％)。

进一步地，在上一情况的基础上添加标签去噪模块，以过滤噪声(大约将210万张图像过滤后剩余＝>168万张图像)，噪声留存率降低了36％(45％＝>9％)，而且提升了测试结果的Top 1Acc 5.41％(53.22％＝>58.63％)。

进一步地，在上一情况的基础上添加图文去噪模块，以过滤噪声(大约将168万张图像过滤后剩余＝>138万张图像)，噪声留存率降低了2％(9％＝>7％)，而且提升了测试结果的Top 1Acc 0.1％(58.63％＝>58.74％)。

进一步地，在上一情况的基础上添加带噪学习模块，提升了测试结果的Top1Acc1.26％(58.74％＝>60.00％)。

进一步地，在上一情况的基础上添加领域分类模型，使得区分目标领域的分类准确率可达83％，且使用领域相关的数据增强可提升测试结果的Top 1Acc1.9％(60％＝>61.9％)。

进一步地，在上一情况的基础上，针对网图数据严重类别不均衡问题，采用二阶段重加权finetune(微调)策略，二阶段重加权是指先预训练一个模型，再在预训练模型在进行权重微调，提升了测试结果的Top 1Acc 1.39％(61.9％＝>63.29％)。

进一步地，在上一情况的基础上，利用自监督对比学习获得模型预训练参数，即，限定模型的预训练方式为自监督对比学习，可进一步提升测试结果的Top 1Acc 1.6+％(63.29＝>64.9+％)。

测试结果表明，本技术方案可以显著缩小网图训练数据与真实训练数据间的性能差异，与人工标注情况下的训练性能相比较，将原先的裸训性能差异27％下降至目前的10％以内，这极大地提升了网图数据的利用效率，使网图数据能够真正达到可用的状态，能够辅助实际业务，而且不需要消耗人力成本进行类别标注。

图10是本申请实施例提供的一种图像处理装置的结构示意图，请参考图10，该装置包括：

搜索模块1001，用于基于多个图像类别进行关键词搜索，得到多个搜索图像，其中，每个图像类别与多个搜索图像相关联；

预筛选模块1002，用于对该多个搜索图像进行预筛选，得到多个备选图像；

分类模块1003，用于基于该多个备选图像的图像特征和该多个图像类别的类别特征，对该多个备选图像进行分类，得到多个干净图像和至少一个噪声图像；

剔除模块1004，用于从该多个干净图像中，剔除与该噪声图像符合相似条件的含噪图像，得到多个候选目标图像；

过滤模块1005，用于基于该多个图像类别的文本信息，对该多个候选目标图像进行过滤，得到至少一个目标图像。

本申请实施例提供的装置，通过对搜索图像预筛选，能够粗略筛选掉一部分噪声样本，得到备选图像，再引入图像特征和类别特征，将备选图像划分成干净图像和噪声图像两类，然后在干净图像的基础上，利用噪声图像进行以图搜图，剔除与噪声图像高度相似的含噪图像，得到候选目标图像，最后在候选目标图像的基础上，引入图像类别的文本信息，通过文本模态和图像模态的交互，对候选目标图像进行深度过滤，得到最终的目标图像，这样不但能够剔除掉关键词为多义词、歧义词等情况下搜索到的噪声图像，而且还能够剔除掉与噪声图像高度相似的含噪图像，并且还能够剔除掉与文本模态不匹配的候选目标图像，使得最终的目标图像具有极高的识别精准度，并且目标图像天然携带图像类别，无需人工标注，在极大压缩目标图像的筛选成本的条件下，提升了对目标图像的识别精准度。

在一些实施例中，基于图10的装置组成，该分类模块1003包括：

概率预测单元，用于对该多个备选图像中任一备选图像，基于该备选图像的图像特征，获取该备选图像属于每个图像类别的预测概率；

相似度获取单元，用于基于该备选图像的图像特征和每个图像类别的类别特征，获取该备选图像与每个图像类别的类别相似度；

确定单元，用于基于该多个图像类别的该预测概率和该类别相似度，确定该备选图像属于每个图像类别的置信度；

分类单元，用于基于该多个图像类别的该置信度，对该备选图像进行分类，其中，该分类的结果指示该备选图像属于该干净图像还是该噪声图像。

在一些实施例中，该分类单元用于：

在该多个图像类别中的最大置信度大于第一置信阈值的情况下，将该备选图像分类为该干净图像，该干净图像的图像类别为该最大置信度关联的图像类别；

在该最大置信度小于或等于该第一置信阈值的情况下，确定原始类别的置信度，该原始类别是指搜索该备选图像使用的图像类别；

在该原始类别的置信度大于第二置信阈值的情况下，将该备选图像分类为该干净图像，该干净图像的图像类别为该原始类别；

在该原始类别的置信度小于或等于该第二置信阈值的情况下，将该备选图像分类为该噪声图像。

在一些实施例中，基于图10的装置组成，该装置还包括：

特征提取模块，用于将该备选图像输入特征提取模型，通过该特征提取模型对该备选图像进行卷积运算，得到该备选图像的图像特征；其中，该特征提取模型基于多个训练样本对以对比学习方式训练得到，每个训练样本对包括一个训练图像和一个基于该训练图像变换得到的合成图像，该对比学习方式是指控制该训练图像和该合成图像的特征相似，且控制该训练样本对与其他训练样本对的特征不相似。

在一些实施例中，基于图10的装置组成，该装置还包括类别特征更新模块，用于：

对任一图像类别，确定已分类到该图像类别的多个训练样本；

将该多个训练样本的图像特征的平均特征，确定为该图像类别的类别特征；

每当新的训练样本再分类到该图像类别时，基于该新的训练样本的图像特征，更新该图像类别的类别特征。

在一些实施例中，基于图10的装置组成，该装置还包括领域数据增强模块，用于：

对该特征提取模型的每个训练样本，通过领域分类模型对该训练样本的业务领域进行预测，得到该训练样本的领域概率，该领域概率表征该训练样本是否属于目标业务领域的可能性；

基于该领域概率，确定对该训练样本的变换概率，该变换概率表征对该训练样本进行随机数据增强的可能性；

按照该变换概率，对该训练样本进行数据增强，得到该训练样本的增强样本。

在一些实施例中，基于图10的装置组成，该装置还包括：

样本合成模块，用于对该特征提取模型的每个训练样本，按照第一扰动概率，基于该训练样本和其他训练样本合成目标训练样本；或，

类别设定模块，用于按照第二扰动概率，将该训练样本的原始类别设定为除了该原始类别以外的任一可能的类别。

在一些实施例中，该剔除模块1004用于：

对该多个干净图像中的任一干净图像，获取该干净图像的图像特征与该至少一个噪声图像的图像特征之间的多个噪声相似度；

在该多个噪声相似度中任一噪声相似度大于相似阈值的情况下，将该干净图像确定为该含噪图像，剔除该含噪图像。

在一些实施例中，每个图像类别的文本信息包括多个文本提示符，该文本提示符表征该图像类别下的图像风格描述；

该过滤模块1005用于：

获取每个图像类别的多个文本提示符各自的多个文本特征；

对该多个候选目标图像中的任一候选目标图像，获取该候选目标图像的图像特征与每个图像类别的多个文本特征之间的多个文本相似度；

确定每个图像类别的该多个文本相似度中的最大文本相似度，按照该最大文本相似度从大到小的顺序，对该多个图像类别进行排序；

在该候选目标图像的图像类别在该排序中位于前目标位的情况下，将该候选目标图像确定为该目标图像。

在一些实施例中，该预筛选模块1002用于执行以下任一项或者至少两项的组合：

从该多个搜索图像中，剔除不符合尺寸条件的搜索图像，该尺寸条件表征该备选图像的最小宽度或最小高度；

从该多个搜索图像中，剔除不符合灰度条件的搜索图像，该灰度条件表征该备选图像中最高频次的灰度值的最大占比；

从该多个搜索图像中，剔除与任一备选图像之间的图像相似度符合重复条件的搜索图像；

从该多个搜索图像中，剔除符合破损条件的搜索图像，该破损条件表征在经过格式转换后无法加载的搜索图像。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见图像处理方法实施例，这里不再赘述。

图11是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1100可因配置或性能不同而产生比较大的差异，该计算机设备1100包括一个或一个以上处理器(Central Processing Units，CPU)1101和一个或一个以上的存储器1102，其中，该存储器1102中存储有至少一条计算机程序，该至少一条计算机程序由该一个或一个以上处理器1101加载并执行以实现上述各个实施例提供的图像处理方法。可选地，该计算机设备1100还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1100还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由计算机设备中的处理器执行以完成上述各个实施例中的图像处理方法。例如，该计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条计算机程序，该一条或多条计算机程序存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条计算机程序，该一个或多个处理器执行该一条或多条计算机程序，使得计算机设备能够执行以完成上述实施例中的图像处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

对所述多个搜索图像进行预筛选，得到多个备选图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个备选图像的图像特征和所述多个图像类别的类别特征，对所述多个备选图像进行分类，得到多个干净图像和至少一个噪声图像包括：

对所述多个备选图像中任一备选图像，基于所述备选图像的图像特征，获取所述备选图像属于每个图像类别的预测概率；

基于所述备选图像的图像特征和每个图像类别的类别特征，获取所述备选图像与每个图像类别的类别相似度；

基于所述多个图像类别的所述预测概率和所述类别相似度，确定所述备选图像属于每个图像类别的置信度；

基于所述多个图像类别的所述置信度，对所述备选图像进行分类，其中，所述分类的结果指示所述备选图像属于所述干净图像还是所述噪声图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个图像类别的所述置信度，对所述备选图像进行分类包括：

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

将所述备选图像输入特征提取模型，通过所述特征提取模型对所述备选图像进行卷积运算，得到所述备选图像的图像特征；其中，所述特征提取模型基于多个训练样本对以对比学习方式训练得到，每个训练样本对包括一个训练图像和一个基于所述训练图像变换得到的合成图像，所述对比学习方式是指控制所述训练图像和所述合成图像的特征相似，且控制所述训练样本对与其他训练样本对的特征不相似。

5.根据权利要求4所述的方法，其特征在于，每个图像类别的类别特征的获取方式包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述特征提取模型的每个训练样本，按照第一扰动概率，基于所述训练样本和其他训练样本合成目标训练样本；或，按照第二扰动概率，将所述训练样本的原始类别设定为除了所述原始类别以外的任一可能的类别。

8.根据权利要求1所述的方法，其特征在于，所述从所述多个干净图像中，剔除与所述噪声图像符合相似条件的含噪图像包括：

9.根据权利要求1所述的方法，其特征在于，每个图像类别的文本信息包括多个文本提示符，所述文本提示符表征所述图像类别下的图像风格描述；

所述基于所述多个图像类别的文本信息，对所述多个候选目标图像进行过滤，得到至少一个目标图像包括：

获取每个图像类别的多个文本提示符各自的多个文本特征；

10.根据权利要求1所述的方法，其特征在于，所述对所述多个搜索图像进行预筛选包括以下任一项或者至少两项的组合：

11.一种图像处理装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。