CN113392866A

CN113392866A - 一种基于人工智能的图像处理方法、装置及存储介质

Info

Publication number: CN113392866A
Application number: CN202011306103.2A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-09-14

Abstract

本申请实施例提出了一种基于人工智能的图像处理方法、装置及存储介质，该方法包括：获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集；利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数；根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量，可以使得模型实现度量学习的同时具备语义提取能力，基于模型提取的图像特征可以提高图像检索的准确度。

Description

一种基于人工智能的图像处理方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于人工智能的图像处理方法、装置及存储介质。

背景技术

随着互联网技术的飞速发展，多媒体数据量急速增长，尤其是图像数据作为最主要的信息承载方式，如何在这些海量的图像中准确的查询并检索出和检索图像相似的图像数据，已经成为研究的热点。

图像检索的能力往往依赖于表征图像的图像特征，在海量数据图像驱动场景下，传统的用于图像对比的图像特征，如尺度不变特征变换(Scale-invariant featuretransform，SIFT)特征、颜色直方图特征、方向梯度直方图(Histogram of OrientedGradient,HOG)特征等图像特征在处理未见过的图像或带噪声图像等时表现不佳，基于度量学习的深度学习模型提取的图像特征，如SimCLR(A Simple Framework forContrastive Learning of Visual Representations)方法和BYOL(Bootstrap Your OwnLatent A New Approach to Self-Supervised Learning)方法，在处理进行了某些空间变换攻击(如裁剪1/3以上)的图像或从未见过的图像时，常常无法准确有效地检索出图像数据。

发明内容

本发明实施例提供了一种基于人工智能的图像处理方法、装置及存储介质，可以使得模型实现度量学习的同时具备语义提取能力，基于模型提取的图像特征可以提高图像检索的准确度。

一方面，本发明实施例提供了一种基于人工智能的图像处理方法，所述方法包括：

获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集；

利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数；

根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量。

另一方面，本发明实施例提供了一种基于人工智能的图像处理方法装置，所述装置包括：

获取模块，用于获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集；

处理模块，用于利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数；

确定模块，用于根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量。

再一方面，本发明实施例提供了一种服务器，该服务器包括处理器、通信接口和存储器，所述处理器、通信接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行上述一种基于人工智能的图像处理方法所涉及到的操作。

相应地，本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于人工智能的图像处理方法所涉及的程序。

相应地，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一种基于人工智能的图像处理方法。

本发明实施例通过获取训练样本集，利用训练样本集对初始化模型中的语义学习模型和度量学习模型进行训练，根据训练后的原始模型确定图像特征提取模型；同时利用图像特征提取模型对输入的待检索图像进行处理，得到待检索图像的特征向量，并利用待检索图像的特征向量和图像特征库中的特征向量确定待检索图像的相似图像。由此可见，本申请提出的图像特征提取模型在实现度量学习的同时可以具备语义提取能力，使得用图像特征提取模型得到的待检索图像的特征向量可以保持图像的语义信息，从而提高对未知的图像和裁剪等空间变化类攻击图像等图像检索的准确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于人工智能的图像处理系统的架构示意图；

图2为本发明实施例提供的一种基于人工智能的图像处理方法的流程示意图；

图3为本发明实施例提供的图像增强的示意图；

图4为本发明实施例提供的一种原始模型的模型结构示意图；

图5为本发明实施例提供的一种残差块的结构示意图；

图6为本发明实施例提供的一种原始模型中第二分支网络的网络结构示意图；

图7为本发明实施例提供的一种第二分支网络训练的流程示意图；

图8a为本发明实施例提供的另一种基于人工智能的图像处理方法的流程示意图；

图8b为本发明实施例提供的另一种基于人工智能的图像处理方法的流程示意图；

图9为本发明实施例提供的一种检索排序效果示意图；

图10为本发明实施例提供的一种基于人工智能的图像处理装置的结构示意图；

图11为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

对本发明实施例中所涉及的技术用语做如下解释：

图像识别：类别级别的识别，不考虑对象的特定实例，仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集ImageNet中的识别任务，识别出某个物体是1000个类别中的哪一个。图像识别提供了图像的语义信息。

图像检索：给定一个包含特定实例(例如特定目标、场景、建筑等)的待检索图像，图像检索旨在从数据库图像中找到包含相同实例的图像。

图像排重：图像排重检索的任务是在现有图库基础上，查找新增图像中与现有图库重复的图像。

ImageNet数据集：大型通用物体识别开源数据集。

ImageNet预训练模型：基于ImageNet训练一个深度学习网络模型，得到该模型的参数权重即为ImageNet预训练模型。

半监督学习：半监督学习(Semi-supervised Learning,SSL)是一种机器学习方法，在训练过程中将少量带标签的数据与大量未带标签的数据结合在一起。半监督学习介于非监督学习和监督学习之间。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习技术等技术，具体通过如下实施例进行说明。

本申请实施例中的基于人工智能的图像处理方法，可以应用于一些常见的图像检索任务中，下面列举部分应用场景。

例如，终端可以将需要检索的图像发送给服务器，服务器在接收到终端发送的检索图像后，可以将图像输入建立好的图像特征提取模型中，提取待检索图像的图像特征，利用待检索图像的特征向量与图像库中保存的图像的特征向量计算相似度，可以根据相似度执行图像排重或图像检索任务，如相似度大于等于预设值，可以判定待检索图像在图像库中，为图像库中的重复图像，或待检索图像是图像库中的图像添加水印之后的攻击图；同时也可以将相似度大于等于预设值的图像作为待检索图像的相似图像，如检索图像中的图像类型是“荷花”，则从图像库中查询所有包含“荷花”的图像，还可以应用于基于内容的视频排重等任务中。

如图1所示，本申请实施例提供了一种基于人工智能的图像处理系统，该图像处理系统具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。比如，该图像处理系统可以集成在终端中。终端可以是手机、平板电脑、笔记本电脑、台式计算机、个人计算机(PC，Personal Computer)、智能音箱或智能手表等，但并不局限于此。又比如，该图像处理系统可以集成在服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可以理解的是，本实施例的基于人工智能的图像处理方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

基于人工智能的图像处理系统包括用户终端101和服务器102，用户终端101与服务器102之间通过网络连接，比如，通过无线网络连接等。以终端和服务器共同执行基于人工智能的图像处理方法为例。在描述终端101与服务器102之间的交互之前，需要先描述服务器102训练得到图像特征提取模型的过程，该图像特征提取模型用于获取终端101发送的待检索图像和待注册图像的特征向量，例如用户在终端101或终端101上安装的用于图像检索的应用程序上发送待检索图像，服务器102根据待检索图像的特征向量与图像特征库中包括的图像的特征向量计算距离后，进行相似度对比，将相似度大的特征向量对应的图像作为待检索图像的相似图形。

下面详细介绍服务器102训练图像特征提取模型的过程，该图像特征提取模型是基于SSL的带语义度量学习框架，该学习框架包括语义学习网络和度量学习网络。具体的，在训练图像特征提取模型之前，需要获取训练集，训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集，然后利用第一图像样本集获取分类损失函数和一致性损失函数，利用第二图像样本集获取三元组损失函数，同时把第一图像样本集输入原始模型中的第一分支网络，将第二图像样本集输入原始模型中的第二分支网络，进行语义学习(semantic learning)的训练以及度量学习(metric learning)的训练，其中，第一分支网络具体是语义学习网络，第二分支网络具体是度量学习网络，使得第一图像样本集和第二图像样本集同时进行网络前向计算并计算原始模型的总损失函数，最后更新模型的整体权重，使得模型实现度量学习的同时具备语义提取能力，基于模型提取的图像特征可以提高图像检索的准确度。

可以理解的是，本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在一个实施例中，如图2所示，是本发明实施例基于图1的基于人工智能的图像处理系统提供的一种基于人工智能的图像处理方法。以服务器是图1中提及的服务器102为例。以下结合图2对本发明实施例的所述方法进行说明。

S201、获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集。

在一个实施例中，第一样本集为包括类别标签的图像样本集，如ImageNet数据集，COCO数据集等，本申请对此不作限定。第二样本集通过从图像数据集中采样，获取得到包括三元组的图像样本集，采样图像数据集可以为包括类别标签的图像数据集也可以为不包括类别标签的图像数据集，本申请对此不作限定。示例地，本申请从不带类别标签的图像数据集中随机选取一张图像样本作为参考图像样本(anchor)，对参考图像样本进行图像增强处理，如加高斯噪声、椒盐噪声、裁剪、旋转、加水印、色调变换、上下翻转、左右翻转、加黑框中的一种或多种，如图3所示，为图像增强的示意图，得到与参考图像样本属于同一个类别的正图像样本(positive)，并从采样图像数据集中选取除参考图像样本以外的图像样本作为与参考图像样本属于不同类别的负图像样本(negative)。此时，参考图像样本、正图像样本和负图像样本构成一个三元组。在某些图像数据集中，如类别标签为“狗”中的图像数据包括“柯基”、“金毛”，而本实施例中，将每一张样本作为一个类别，使得包括三元组的第二图像样本集可以更加细化的得到图像的类别属性。

S202、利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数。

在一个实施例中，如图4所示，为原始模型的模型结构示意图，原始模型包括第一分支网络和第二分支网络，其中，第一分支网络包括分类层，第二分支网络包括特征度量层，同时第一分支网络和第二分支网络还包括共用的网络参数，可以使得第一分支网络和第二分支网络中共用网络参数的网络模型在学习时保持同步。在对原始模型的训练过程中，利用第一图像样本集训练原始模型中第一分支网络，利用第二样本集训练原始模型中的第二分支网络，根据第一图像样本集在第一分支网络的预测结果和第二样本集在第二分支网络的预测结果以及原始模型的总损失函数得到总损失值，其中，总损失函数包括第一分支网络的损失函数：分类损失函数和一致性损失函数，以及第二分支网络的损失函数：三元组损失函数，根据总损失值对第一分支网络的网络参数和第二分支网络的网络参数进行调整，以完成对原始模型进行语义学习的训练以及度量学习的训练。由图5可知，原始模型中分类层和特征度量层前的网络模型主要在对图像进行特征提取，通过两个分支网络中共用网络参数的网络模型，使得原始模型能够同时适应语义学习和度量学习这两个任务，从而使得模型实现度量学习的同时具备语义提取能力。

S203、根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量。

在一个实施例中，在得到训练后的原始模型后，根据原始模型中的第二分支网络中的特征度量层提取图像的特征向量。

在本申请实施例中，首先获取训练样本集，接着利用训练样本集中第一图像样本集对第一分支网络进行语义学习的训练，以及利用训练样本集中第二图像样本集对第二分支网络进行度量学习的训练，最后根据训练后的原始模型确定图像特征提取模型，可以使得原始模型在实现度量学习的同时具备语义提取能力，使得图像特征提取模型可以获取图像的语义信息，提高图像检索的准确度。

在一个实施例中，所述利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，包括：利用所述第一图像样本集对所述第一分支网络进行语义学习的训练，以及利用所述第二图像样本集对所述第二分支网络进行度量学习的训练；其中，所述第一分支网络和所述第二分支网络包括共用的模型参数，所述第二图像样本集中的每个三元组包括参考图像样本、正图像样本和负图像样本。

其中，原始模型中的第一分支网络和第二分支网络中包括共用的网络参数，其对应的网络模型结构可以为VGG、AlexNet或ResNet-101网络等，本申请对此不作限定。以网络模型结构为在ImageNet数据集上预训练的ResNet-101为例，如表1所示，记录了ResNet-101网络的模型结构。

表1

如上述表1所示，ResNet-101包括5个卷积层，在第一卷积层Conv1使用了64个步长为2，大小为7×7的卷积核；在第二卷积层使用了大小为3×3，步长为2的最大池化，以及3个残差块，残差块结构如图5所示，包括三个残差单元，残差单元主要使用大小为1×1和3×3的卷积核，其中，第一个大小为1×1的卷积核主要用来压缩特征图的数量，第二个大小为1×1的卷积核用来恢复特征图的数量，其后(64、128、256、512、1024和2048)为卷积核的数目；在第三卷积层使用了4个残差块；在第四卷积层使用了23个残差块；在第五卷积层使用了3个残差块，ResNet-101共使用了34个残差块。

请参见表2，显示了原始模型中的第一分支网络中的分类层的网络结构，分类层包括一个采用最大池化的池化层和一个全连接层，在利用网络模型提取输入的第一样本集中的图片样本的特征向量后，将其进一步输入分类层，利用分类层中的池化层降低ResNet-101输出的图像特征的维度，并在全连接层利用分类函数(如softmax函数)得到输入图片样本的预测结果，全连接层输出的N_cls为第一样本集的类别数量，例如，第一样本集中包括五个人的人脸，则第一样本集的类别数量为五。

表2

网络层名称	输出尺寸	网络
			池化层	1×2048	Max pool(最大池化)
全连接层	1×N_cls	full connetction(全连接)

其中，语义学习模型的分类层可以采用方差为0.01，均值为0的高斯分布进行参数初始化。

在一个实施例中，如图6所示，为原始模型中第二分支网络的模型结构示意图，第二样本组中的每个三元组包括参考图像样本、正图像样本和负图像样本，将三元组中的参考图像样本、正图像样本和负图像样本分别输入原始模型中的第二分支网络，在特征度量层得到参考图像样本、正图像样本和负图像样本的特征向量，特征度量层的网络结构为一个表示图像的特征向量的全连接层，尺寸大小可以为1×2048或1×1024等，本申请对此不作限定。

在一个实施例中，利用第一图像样本集训练原始模型中第一分支网络，利用第二样本集训练原始模型中的第二分支网络。

具体的，基于SSL对原始模型进行训练，在每一轮batch训练过程中，从第一图像样本集(共N张图)选择每bs张图像作为1个分类batch，则每训练1epoch需执行N/bs个分类batch；从第二图像样本集中选择每5*bs个三元组作为1个度量batch，共采样N/bs个batch，在每一轮batch训练过程中，将分类batch作为原始模型中的第一分支网络的输入，根据第一分支网络的预测结果和分类batch中每张图像对应的类别标签计算分类损失函数值，利用分类batch中每张图像和对应的增强后的图像在第一分支网络的预测结果计算一致性损失函数值；将度量batch作为原始模型中的第二分支网络的输入，得到度量batch中三元组的图像的预测结果，根据三元组的图像的预测结果之间的距离计算三元组损失函数值；根据分类损失函数值、一致性损失函数值和三元组损失函数值确定原始模型的总损失值，接着可以基于SGD(Stochastic Gradient Descent，随机梯度下降)算法求解目标模型的卷积参数和偏置参数，并反向传播到原始模型中，调整原始模型的模型参数。

进一步地，当完成一轮batch训练后，服务器在原始模型的模型参数调整的基础上，再取一组分类batch和度量batch继续训练原始模型，直至满足训练停止条件，如达到指定数量的训练次数就满足训练停止条件，或总损失函数收敛就满足训练停止条件。

在本申请实施例中，基于SSL使用部分数据带类别标签，部分数据是三元组对原始模型训练，联合基于分类学习和基于度量学习的两种不同标注数据集，可以在有限资源下提高数据的利用率，实现多任务相互促进的作用。

在一个实施例中，在对原始模型训练之前，需要确定原始模型的总损失函数，包括：获取所述第一分支网络的损失函数和所述第二分支网络的损失函数，所述第一分支网络的损失函数包括分类损失函数和一致性损失函数；确定所述第一分支网络的损失函数和所述第二分支网络的损失函数中各个损失函数的权重参数；根据所述第一分支网络的损失函数、所述第二分支网络的损失函数以及所述各个损失函数的权重参数，确定所述原始模型的总损失函数。

在一个实施例中，可以根据第一样本集中的图像样本在原始模型中的第一分支网络输出的预测结果和对应的类别标签，确定第一分支网络的分类损失函数，分类损失函数请参见下述公式(1)：

其中，y为图像样本对应的类别标签，

为通过目标模型中的第一分支网络的预测结果，N为图像样本数。

例如，第一图像样本集中的图像样本在原始模型中的第一分支网络类似于多分类器，输出的预测结果包括图像样本为每一种类别标签的概率，概率值之和为1。假设第一图像样本集的类别标签为A、B、C，第一分支网络的输出的预测结果为[0.3,0.6,0.1]，表示图像样本为类别A的概率为0.3，为类别B的概率为0.6，为类别C的概率为0.1。

在一个实施例中，根据第一图像样本集中的图像样本在原始模型中的第一分支网络中的第一预测结果和对应的增强后的图像样本在原始模型中的第一分支网络中的第二预测结果，确定针对第一分支网络的一致性损失函数，例如，原始图像样本p的输出预测结果为[0.7,0.2,0.1]，表示属于类别A的概率为0.7，属于类别B的概率为0.2，属于类别C的概率为0.1；增强后的图像样本的输出预测结果为[0.6,0.2,0.2]，表示属于类别A的概率为0.6，属于类别B的概率为0.2，属于类别C的概率为0.2；则基于原始图像样本p的输出预测结果[0.7,0.2,0.1]和增强后的图像样本的输出预测结果[0.6,0.2,0.2]之间的差异计算一致性损失函数，一致性损失函数请参见下述公式(2)：

其中，p(x_i)为第一预测结果，q(x_i)为第二预测结果。

在一个实施例中，将第二图像样本集作为原始模型中第二分支网络的输入，根据第二图像样本集中的三元组的图像样本之间的距离，确定针对第二分支网络对应的损失函数。示例地，三元组样本包括参考图像样本A、正图像样本P和负图像样本N，在训练目标模型的时候，需要根据参考图像样本A、正图像样本P和负图像样本N的距离确定第二分支网络对应的损失函数，在原始模型训练过程中要使得参考图像样本A和正图像样本P之间的距离尽可能小，参考图像样本A和负图像样本N之间的距离尽可能大，因此第二损失函数请参见下述公式(3)：

其中，

为参考图像样本A基于原始模型的特征度量层得到的预测结果，

为正图像样本P基于原始模型的特征度量层得到的预测结果，

为负图像样本N基于原始模型的特征度量层得到的预测结果，M为三元组样本数，α为任意合理常数，例如取值为0.2。

在一个实施例中，服务器获取第一分支网络的分类损失函数和一致性损失函数，以及第二分支网络的损失函数，以及各损失函数对应的权重参数，其中，损失函数对应的权重参数越大表明在对原始模型的模型参数调整时的影响程度越大，损失函数对应的权重参数越小，表明在对原始模型的模型参数调整时的影响程度越小。可以将分类损失函数、一致性损失函数和第二分支网络的损失函数分别和对应的权重参数进行加权计算后求和，得到总损失函数，总损失函数请参见下述公式(4)：

L_total＝w₁L_cls+w₂L_KL+w₃L_tri (4)

其中，w₁为分类损失函数对应的权重参数，w₂为一致性损失函数对应的权重参数，w₃为第二损失函数对应的权重参数，其中w₁、w₂和w₃可以根据经验值设定，如设定w₁为1，w₂和w₃为0.5，此时分类损失函数在对原始模型的模型参数调整时的影响最大。

在一个实施例中，所述利用所述第一图像样本集对所述第一分支网络进行语义学习的训练，以及利用所述第二图像样本集对所述第二分支网络进行度量学习的训练，包括：将所述第一图像样本集包括的图像以及对应的类别标签输入所述第一分支网络，以获取所述第一分支网络的预测结果；将所述第二图像样本集包括的三元组输入所述第二分支网络，以获取所述第二分支网络的预测结果；根据所述第一分支网络的预测结果、所述第二分支网络的预测结果和所述原始模型的总损失函数，对所述第一分支网络的网络参数和所述第二分支网络的网络参数进行调整，以完成对所述原始模型进行语义学习的训练以及度量学习的训练。

在一个实施例中，将第一图像样本集包括的图像以及对应的类别标签输入第一分支网络，以获取第一分支网络的预测结果。同时对第一图像样本集包括的图像进行增强处理，得到增强处理后的图像，如加高斯噪声、椒盐噪声、裁剪、旋转、加水印、色调变换、上下翻转、左右翻转、加黑框中的一种或多种，将增强处理后的图像以及对应的类别标签输入第一分支网络，得到第二预测结果，将第一预测结果和第二预测结果作为第一分支网络的预测结果。通过对第一数据集进行数据增强，并将数据增强后的图像引入到原始模型训练中，使得原始模型具备对抗攻击图像的能力，如图像进行变换大小、方向、裁剪、以及添加水印等后依然具有良好的检索准确度。

具体的，原始模型中的第一分支网络类似于多分类器，第一图像样本集中的图像样本在原始模型中输出的预测结果包括图像样本为每一种类别标签的概率，概率值之和为1。例如，假设第一图像样本集的类别标签为A、B、C，第一分支网络的输出的预测结果为[0.3,0.6,0.1]，表示图像样本为类别A的概率为0.3，为类别B的概率为0.6，为类别C的概率为0.1。

在一个实施例中，将第二图像样本集包括的三元组输入第二分支网络，得到三元组中每张图像样本的特征向量，将三元组中每张图像样本的特征向量作为第二分支网络的预测结果。

在一个实施例中，在原始模型的每一轮batch训练过程中，根据第一图像样本集中的分类batch中的每张图像样本在原始模型中的第一分支网络中的第一预测结果和对应的类别标签，确定每一轮batch训练过程中的分类损失函数值；根据第一图像样本集中的分类batch中的每张图像样本在原始模型中的第一分支网络中的第一预测结果和对应的增强后的图像样本在原始模型中的第一分支网络中的第二预测结果，确定每一轮batch训练过程中的一致性损失函数值；根据第二图像样本集中的度量batch中的每个三元组中每张图像样本在原始模型中的第二分支网络中的预测结果之间的距离，即三元组中每张图像样本的特征向量之间的距离，确定每一轮batch训练过程中的三元组损失函数值，根据上述总损失函数的计算公式，以及分类损失函数值、一致性损失函数值和三元组损失函数值得到原始模型的总损失值，从而可以根据梯度下降算法对第一分支网络的网络参数和所述第二分支网络的网络参数进行调整，以完成对原始模型进行语义学习的训练以及度量学习的训练。

在一个实施例中，如图7所示，提供了一种第二分支网络训练的流程示意图，其训练过程包括以下步骤：

S701、将所述第二图像样本集包括的三元组输入所述第二分支网络，以获取所述第二图像样本集中每个三元组包括的图像之间的距离；

S702、根据所述距离从所述第二图像样本集包括的三元组中确定作为难样本的目标三元组，并获取所述目标三元组包括的每张图像的预测特征向量；

S703、将所述目标三元组包括的每张图像的预测特征向量作为所述第二分支网络的预测结果。

在一个实施例中，根据第二样本集中的三元组中每张图像样本在第二分支网络得到的每张图像的预测特征向量，计算三元组中每张图像样本的图像之间的距离，例如，f(x^a)为一个三元组中参考图像样本A的特征向量，f(x^p)为一个三元组中正图像样本P的特征向量，f(xⁿ)为一个三元组中负图像样本N的特征向量，计算||f(x^a)-f(x^p)||-||f(x^a)-f(xⁿ)||之间的距离，如果||f(x^a)-f(x^p)||-||f(x^a)-f(xⁿ)||大于等于阈值，如大于等于0，将此三元组作为难样本的目标三元组，并根据目标三元组包括的每张图像的预测特征向量f(x^a)、f(x^p)和f(xⁿ)作为所述第二分支网络的预测结果。通过只将目标三元组作为第二分支网络的预测结果计算第二网络分支的三元组损失函数值，能够保证原始模型每次训练梯度都有较大更新，从而加快原始模型的训练速度。

在一个可能的实施例中，在对原始模型的每一轮batch训练过程中，可以从第二图像样本集中选择每5*bs个三元组作为1个度量batch，其中，1个度量batch中作为难样本的目标三元组和其他普通三元组的比例可以为1:4。

在一个实施例中，如图8a所示，是本发明实施例基于图1的基于人工智能的图像处理系统提供的另一种基于人工智能的图像处理方法。本实施例主要以该方法应用于上述图1中的服务器102来举例说明，包括以下步骤：

S801、获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集；

S802、利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数；

S803、根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量；

S804、获取待检索图像；

S805、将所述待检索图像输入所述图像特征提取模型，以得到所述待检索图像的特征向量；

S806、利用所述待检索图像的特征向量和图像特征库确定所述待检索图像的相似图像，所述图像特征库包括至少一张图像的特征向量。

在一个实施例中，在利用待检索图像的特征向量和图像特征库确定待检索图像的相似图像之前，如图8b所示，服务器需要获取待注册图像，用户在终端将待注册图像发送给服务器，服务器将待注册图像输入注册模块中，在注册模块中基于本申请训练的图像特征提取模型，从图像特征提取模型中的特征度量层得到待注册图像的特征向量，并将待注册图像的特征向量以及图像标识添加到图像特征库中。例如，卖家可以在应用app上传商品相关的图片，服务器获取上传的图片的特征向量，存储到云端的图像库中，便于后续用户通过以图搜图的方式，获取商品信息。

在一个实施例中，S804-S806包括：服务器在接收终端发送的待检索图像后，利用检索模块中的图像特征抽取模型对输入的待检索图像进行处理，得到待检索图像的特征向量，并确定待检索图像的特征向量和图像特征库中每个特征向量的相似度，将图像特征库中与待检索图像的特征向量的相似度大于相似度阈值的特征向量对应的图像，确定为待检索图像的相似图像，在确定待检索图像的相似图像后，可以根据图像特征库中图像标识与待注册图像的对应关系，从云端图像库中将图像信息作为检索结果发送给终端，或终端在本地图像库中进行检索时，将图像标识作为检索结果发送给终端，终端根据图像标识从本地图像库中获取相似图像。S801-S803在上述实施例中已详细说明，本实施例中不再赘述。如图9所示，为检索排序效果图，其中每行第一张为待检索图像，后续图像按相似度大小排列。

其中，相似度用于待检索图像的特征向量和图像特征库中每个特征向量的相似性，可以使用相似度算法计算相似度，相似度算法包括但不限于欧几里得距离算法、余弦相似度算法、皮尔逊相关系数算法、杰卡德相似系数算法等等。

在本申请实施例中，利用特征提取模型获取待检索图像的特征向量，使得待检索图像的特征向量持有语义信息，即使在待检索图像进行大面积裁剪或处理待带噪声的待检索图像时，仍然有良好的检索准确度。

在一个实施例中，可以使用不同的网络模型(VGG、ResNet-50或AlexNet等)、不同的预训练模型权重(如Open-image等数据上的预训练模型替代ImageNet的预训练模型)作为共用网络参数的网络模型，本申请对此不作限定。第一分支网络还可以使用其他任务的数据与第二分支网络做多任务学习，如可以是视频多标签识别任务(如给视频打上：是否有人、是否为户外、是否是开心的场景、是否为人文建筑、是否为旅游景点等标签)等，本申请对此不作限定。若采用其他任务，则需要采用其他任务对应的损失函数计算公式来替代第一分支网络的损失函数。

如图10所示，图10是本申请实施例提供的一种基于人工智能的图像处理装置的结构示意图，所述装置包括：

获取模块1001，用于获取训练样本集，所述训练样本集包括带类别标签的第一图像样本集以及由三元组组成的第二图像样本集；

处理模块1002，用于利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络包括共用的网络参数；

确定模块1003，用于根据训练后的原始模型确定图像特征提取模型，所述图像特征提取模型用于提取图像的特征向量。

在一个实施例中，所述处理模块1002，具体用于：

利用所述第一图像样本集对所述第一分支网络进行语义学习的训练，以及利用所述第二图像样本集对所述第二分支网络进行度量学习的训练；

其中，所述第一分支网络和所述第二分支网络包括共用的模型参数，所述第二图像样本集中的每个三元组包括参考图像样本、正图像样本和负图像样本。

在一个实施例中，所述处理模块1002，具体用于：

将所述第一图像样本集包括的图像以及对应的类别标签输入所述第一分支网络，以获取所述第一分支网络的预测结果；

将所述第二图像样本集包括的三元组输入所述第二分支网络，以获取所述第二分支网络的预测结果；

根据所述第一分支网络的预测结果、所述第二分支网络的预测结果和所述原始模型的总损失函数，对所述第一分支网络的网络参数和所述第二分支网络的网络参数进行调整，以完成对所述原始模型进行语义学习的训练以及度量学习的训练。

在一个实施例中，所述处理模块1002，还用于获取所述第一分支网络的损失函数和所述第二分支网络的损失函数，所述第一分支网络的损失函数包括分类损失函数和一致性损失函数；确定所述第一分支网络的损失函数和所述第二分支网络的损失函数中各个损失函数的权重参数；根据所述第一分支网络的损失函数、所述第二分支网络的损失函数以及所述各个损失函数的权重参数，确定所述原始模型的总损失函数。

在一个实施例中，所述处理模块1002，具体用于：

将所述第一图像样本集包括的图像以及对应的类别标签输入所述第一分支网络，得到第一预测结果；

对所述第一图像样本集包括的图像进行增强处理，得到增强处理后的图像；

将所述增强处理后的图像以及对应的类别标签输入所述第一分支网络，得到第二预测结果；

将所述第一预测结果和所述第二预测结果作为所述第一分支网络的预测结果。

在一个实施例中，所述处理模块1002，具体用于：

将所述第二图像样本集包括的三元组输入所述第二分支网络，以获取所述第二图像样本集中每个三元组包括的图像之间的距离；

根据所述距离从所述第二图像样本集包括的三元组中确定作为难样本的目标三元组，并获取所述目标三元组包括的每张图像的预测特征向量；

将所述目标三元组包括的每张图像的预测特征向量作为所述第二分支网络的预测结果。

在一个实施例中，所述获取模块1001，还用于获取待检索图像；

所述处理模块1002，还用于将所述待检索图像输入所述图像特征提取模型，以得到所述待检索图像的特征向量；利用所述待检索图像的特征向量和图像特征库确定所述待检索图像的相似图像，所述图像特征库包括至少一张图像的特征向量。

在一个实施例中，所述获取模块1001，还用于获取待注册图像；

所述处理模块1002，还用于将所述待注册图像输入所述图像特征提取模型，以得到所述待注册图像的特征向量；将所述待注册图像的特征向量以及图像标识添加到所述图像特征库中。

如图11所示，图11是本申请实施例提供的一种服务器的结构示意图，该服务器内部结构如图11所示，包括：一个或多个处理器1101、存储器1102、通信接口1103。上述处理器1101、存储器1102和通信接口1103可通过总线1104或其他方式连接，本申请实施例以通过总线1104连接为例。

其中，处理器1101(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口1103可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器1101的控制用于收发数据。存储器1102(Memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1102既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器1102提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Windows系统、Linux系统等等，本申请对此并不作限定。

在一实施例中，处理器1101通过运行存储器1102中的可执行程序代码，执行如下操作：

在一个实施例中，所述处理器1101，具体用于：

在一个实施例中，所述处理器1101，还用于获取所述第一分支网络的损失函数和所述第二分支网络的损失函数，所述第一分支网络的损失函数包括分类损失函数和一致性损失函数；确定所述第一分支网络的损失函数和所述第二分支网络的损失函数中各个损失函数的权重参数；根据所述第一分支网络的损失函数、所述第二分支网络的损失函数以及所述各个损失函数的权重参数，确定所述原始模型的总损失函数。

在一个实施例中，所述处理器1101，具体用于：

在一个实施例中，所述处理器1101，还用于获取待检索图像；将所述待检索图像输入所述图像特征提取模型，以得到所述待检索图像的特征向量；利用所述待检索图像的特征向量和图像特征库确定所述待检索图像的相似图像，所述图像特征库包括至少一张图像的特征向量。

在一个实施例中，所述处理器1101，还用于获取待注册图像；将所述待注册图像输入所述图像特征提取模型，以得到所述待注册图像的特征向量；将所述待注册图像的特征向量以及图像标识添加到所述图像特征库中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述文件管理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本申请一个或多个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述训练样本集对原始模型进行语义学习的训练以及度量学习的训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一图像样本集对所述第一分支网络进行语义学习的训练，以及利用所述第二图像样本集对所述第二分支网络进行度量学习的训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一分支网络的预测结果、所述第二分支网络的预测结果和所述原始模型的总损失函数对所述第一分支网络的网络参数和所述第二分支网络的网络参数进行调整，以完成对所述原始模型进行语义学习的训练以及度量学习的训练之前，所述方法还包括：

获取所述第一分支网络的损失函数和所述第二分支网络的损失函数，所述第一分支网络的损失函数包括分类损失函数和一致性损失函数；

确定所述第一分支网络的损失函数和所述第二分支网络的损失函数中各个损失函数的权重参数；

根据所述第一分支网络的损失函数、所述第二分支网络的损失函数以及所述各个损失函数的权重参数，确定所述原始模型的总损失函数。

5.根据权利要求3或4所述的方法，其特征在于，所述将所述第一图像样本集包括的图像以及对应的类别标签输入所述第一分支网络，以获取第一分支网络的预测结果，包括：

6.根据权利要求3或4所述的方法，其特征在于，所述将所述第二图像样本集包括的三元组输入所述第二分支网络，以获取所述第二分支网络的预测结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据训练后的原始模型确定图像特征提取模型之后，所述方法还包括：

获取待检索图像；

将所述待检索图像输入所述图像特征提取模型，以得到所述待检索图像的特征向量；

利用所述待检索图像的特征向量和图像特征库确定所述待检索图像的相似图像，所述图像特征库包括至少一张图像的特征向量。

8.根据权利要求7所述的方法，其特征在于，所述利用所述待检索图像的特征向量和图像特征库确定所述待检索图像的相似图像之前，所述方法还包括：

获取待注册图像；

将所述待注册图像输入所述图像特征提取模型，以得到所述待注册图像的特征向量；

将所述待注册图像的特征向量以及图像标识添加到所述图像特征库中。

9.一种基于人工智能的图像处理装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～8任一项所述的方法。