CN112084812A

CN112084812A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112084812A
Application number: CN201910505670.1A
Authority: CN
Inventors: 王吉; 陈志博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-12-15
Anticipated expiration: 2039-06-12
Also published as: CN112084812B

Abstract

本发明公开了一种图像处理方法、装置、计算机设备及存储介质，属于人脸识别技术领域。本发明通过多个人脸图像得到至少一个第一图像集合，根据各个第一图像集合中各个人脸图像的标注信息，确定标注信息为第一标注信息的人脸图像，本发明避免了由于置信概率准确度不高所造成的人脸图像误筛问题，可以在不额外增加人力成本的基础上，提升了用于训练人脸相似度模型的人脸图像的产出率，提升了人脸相似度模型的智能性。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及人脸识别技术领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着人脸识别技术的发展，服务器可以通过人脸相似度模型来进行人脸识别，而人脸相似度模型的智能性则依赖于训练图像的数量和质量。

目前，服务器可以基于监控视频来获取上述人脸相似度模型的训练图像，例如，服务器可以提取监控视频中的多个关键帧，对该多个关键帧进行人脸检测，得到该多个关键帧中的多个人脸区域，将每个人脸区域与人脸数据库中已有的人脸图像进行匹配，根据各个人脸区域的匹配结果的置信概率对该多个人脸区域进行筛选，对筛选后的人脸区域进行人工标注，最后得到携带标注结果的训练图像。

在上述过程中，服务器直接将检测出的人脸区域与人脸数据库中已有的人脸图像进行匹配时，由于上述匹配过程得出的置信概率通常准确度不高，导致存在大量的实际上能够匹配成功的人脸区域，这些人脸区域会由于置信概率低而被筛除掉，从而降低了训练图像的产出率，也就影响了人脸相似度模型的智能性，因此，如何在不增加人力成本的基础上，提升训练图像的产出率、提升人脸相似度模型的智能性称为一个亟需解决的问题。

发明内容

本发明实施例提供了一种图像处理方法、装置、计算机设备及存储介质,能够解决由于置信概率准确度不高，导致人脸相似度模型的训练图像产出率低、人脸相似度模型智能性差的问题。该技术方案如下：

一方面，提供了一种图像处理方法，该方法包括：

基于多个人脸图像，得到至少一个第一图像集合，所述至少一个第一图像集合中各个人脸图像的相似度符合目标条件；

获取所述至少一个第一图像集合中各个人脸图像的标注信息；

根据所述至少一个第一图像集合中各个人脸图像的标注信息，对所述至少一个第一图像集合中各个人脸图像进行筛选，得到标注信息为第一标注信息的人脸图像。

在一种可能实施方式中，对所述多个人脸图像进行特征提取，得到所述多个人脸图像的人脸特征之前，所述方法还包括：

获取所述多个人脸图像的图像质量分，删除图像质量分低于质量分阈值的人脸图像。

一方面，提供了一种图像处理装置，该装置包括：

得到模块，用于基于多个人脸图像，得到至少一个第一图像集合，所述至少一个第一图像集合中各个人脸图像的相似度符合目标条件；

获取模块，用于获取所述至少一个第一图像集合中各个人脸图像的标注信息；

筛选模块，用于根据所述至少一个第一图像集合中各个人脸图像的标注信息，对所述至少一个第一图像集合中各个人脸图像进行筛选，得到标注信息为第一标注信息的人脸图像。

在一种可能实施方式中，所述获取模块用于：

向终端发送包括所述至少一个第一图像集合的标注入口的第一标注页面；

接收所述终端基于所述第一标注页面返回的所述至少一个第一图像集合中各个人脸图像的标注信息。

在一种可能实施方式中，所述装置还包括：

添加模块，用于将标注信息为第二标注信息的至少一个人脸图像添加至第二图像集合；

所述获取模块，还用于获取所述第二图像集合中各个人脸图像的对象标签；

所述筛选模块，还用于根据所述第二图像集合中各个人脸图像的对象标签以及各个对象标签的出现频次，对所述第二图像集合中各个人脸图像进行筛选，得到对象标签的出现频次符合频次条件的人脸图像。

在一种可能实施方式中，所述筛选模块用于：

获取所述第二图像集合中各个人脸图像的对象标签中出现频次最高的对象标签，确定所述出现频次最高的对象标签所对应的人脸图像。

在一种可能实施方式中，所述获取模块用于：

向终端发送包括所述第二图像集合的标注入口的第二标注页面；

接收所述终端基于所述第二标注页面返回的所述第二图像集合中各个人脸图像的对象标签。

在一种可能实施方式中，所述装置还包括：

合并模块，用于根据各个人脸图像的人脸特征，将至少一个第一图像集合合并为至少一个第三图像集合，每个第三图像集合中每个第一图像集合对应于一个目标对象。

在一种可能实施方式中，所述合并模块包括：

第一确定单元，用于对任一第一图像集合，根据所述第一图像集合中各个人脸图像的人脸特征，确定与所述第一图像集合对应的多个待合并集合；

获取单元，用于获取所述第一图像集合对应的所述多个待合并集合的合并标签；

第二确定单元，用于根据所述多个待合并集合的合并标签，从所述多个待合并集合中，确定合并标签为目标合并标签的一个或多个待合并集合；

合并单元，用于将所述第一图像集合与所述一个或多个待合并集合合并，得到一个第三图像集合。

在一种可能实施方式中，所述第一确定单元包括：

获取子单元，用于获取所述第一图像集合的平均人脸特征；

排序子单元，用于按照与所述平均人脸特征之间的相似度从大到小的顺序，对除了所述第一图像集合之外的第一图像集合进行排序；

确定子单元，用于将排序位于前第一目标数量的第一图像集合确定为所述多个待合并集合。

在一种可能实施方式中，所述获取子单元用于：

获取所述第一图像集合中图像质量分位于前第二目标数量的人脸图像；

将所述前第二目标数量的人脸图像的人脸特征的平均特征确定为所述平均人脸特征。

在一种可能实施方式中，所述获取单元用于：

向终端发送包括各个第一图像集合对应的多个待合并集合的标注入口的第三标注页面；

接收所述终端基于所述第三标注页面返回的所述多个待合并集合的合并标签。

在一种可能实施方式中，所述得到模块包括：

提取单元，用于对所述多个人脸图像进行特征提取，得到所述多个人脸图像的人脸特征；

聚类单元，用于根据所述多个人脸图像的人脸特征，对所述多个人脸图像进行聚类处理，得到所述至少一个第一图像集合。

在一种可能实施方式中，所述聚类单元用于：

将所述多个人脸图像的人脸特征输入聚类模型，通过所述聚类模型获取各个人脸图像的人脸特征之间的相似度，将相似度符合所述目标条件的多个人脸图像分配至同一个第一图像集合。

在一种可能实施方式中，所述装置还包括：

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条指令，该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法所执行的操作。

一方面，提供了一种存储介质，该存储介质中存储有至少一条指令，该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过多个人脸图像得到至少一个第一图像集合，根据各个第一图像集合中各个人脸图像的标注信息，确定标注信息为第一标注信息的人脸图像，由于并不基于置信概率进行人脸图像的筛选，也就避免了由于置信概率准确度不高所造成的人脸图像误筛问题，而由于先按照相似度对多个人脸图像进行了第一图像集合的划分，获取到了相似度符合目标条件的第一图像集合的标注信息，能够大大降低标注时投入的人力成本，因此可以在不额外增加人力成本的基础上，提升了用于训练人脸相似度模型的人脸图像的产出率，也就提升了人脸相似度模型的智能性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像处理方法的实施环境示意图；

图2是本发明实施例提供的一种图像处理方法的流程图；

图3是本发明实施例提供的一种图像处理方法的交互流程图；

图4是本发明实施例提供的一种第一标注页面的示意图；

图5是本发明实施例提供的一种标注子页面的示意图；

图6是本发明实施例提供的一种图像处理方法的交互流程图；

图7是本发明实施例提供的一种第二标注页面的示意图；

图8是本发明实施例提供的一种图像处理方法的交互流程图；

图9是本发明实施例提供的一种第三标注页面的示意图；

图10是本发明实施例提供的一种图像处理方法的原理性示意图；

图11是本发明实施例提供的一种图像处理装置的结构示意图；

图12是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种图像处理方法的实施环境示意图。参见图1，在该实施环境中可以包括第一服务器101、第二服务器102、终端103、第一存储设备104和第二存储设备105，下面进行详述：

其中，该第一服务器101用于对视频进行图像处理，其中，该视频可以是监控视频、短视频、电影视频等任一视频。第一服务器101在获取视频后，可以对该视频进行解码，得到视频的多个图像帧和多个音频帧，进而执行对视频中人脸图像的聚类过程，得到至少一个第一图像集合，向第二服务器102发送图像处理后得到的各个第一图像集合。

在一些实施例中，由于第一服务器101需要检测该多个图像帧中的多个人脸图像，还涉及到提取多个人脸图像的人脸特征，因此该第一服务器101通常可以具有较高的并行图像处理能力，换言之，该第一服务器101可以视为一个高性能的GPU(graphicsprocessing unit，图像处理器)处理设备。

当然，可选地，该第一服务器101得到该第一图像集合之后，不仅可以向第二服务器102发送该第一图像集合，而且还可以将该第一图像集合以及提取到的各个人脸图像的人脸特征等人脸数据上传至第一存储设备104，实现人脸数据的数据备份，从而节约了第一服务器101的存储空间，提升了人脸数据在存储过程中的安全性和可靠性，而且还方便了后续第二服务器102对人脸特征的访问，也即避免了第二服务器102的对人脸特征的冗余计算，提升了图像处理过程的效率。其中，该第一存储设备104可以是不处于第一服务器101本地的设备，该第一存储设备104可以是分布式文件系统的形式，例如HDFS(Hadoopdistributed file system，Hadoop分布式文件系统)、Ceph(一种Linux系统下的分布式文件系统)等。

其中，该第二服务器102用于为终端103提供标注页面(例如本发明实施例提供的第一标注页面、第二标注页面或者第三标注页面)，该终端103用于显示上述标注页面，使得用户可以在登录终端103之后，通过访问该标注页面对图像集合(例如本发明实施例提供的第一图像集合、第二图像集合或者待合并集合)进行标注，第二服务器102再基于标注内容(例如本发明实施例提供的标注信息、对象标签或者合并标签)对图像集合进行处理，从而在第二服务器102以及终端103的交互过程中筛选出用于训练人脸相似度模型的人脸图像。

在一些实施例中，第二服务器102在接收到第一服务器101发送的第一图像集合之后，可以将该第一图像集合上传至第二存储设备105，通过第二存储设备105可以妥善存储第一图像集合，避免了由于第二服务器102宕机导致的数据损毁或丢失，而当第二服务器102对第一图像集合筛选完成后，可以在第二存储设备105中将被筛选掉的人脸图像删除，当然，第二服务器102也可以不进行删除，而是在第二存储设备105中为用于训练人脸相似度模型的人脸图像和被筛选掉的人脸图像添加不同的标识信息。其中，该第二存储设备105可以是不处于第二服务器102本地的设备，例如，该第二存储设备105可以是Oracle、MySQL/InnoDB等。

需要说明的是，上述第一服务器101、第二服务器102、第一存储设备104以及第二存储设备105中的任一项或者至少两项，均可以是相同的物理实体设备，也可以是不同的物理实体设备，也即是说，上述第一服务器101和上述第二服务器102可以是同一个服务器，使得在该服务器上既对人脸图像进行聚类，又对聚类后的第一图像集合进行筛选。

在上述过程中，上述第一服务器101、第二服务器102、第一存储设备104或者第二存储设备105可以是单机设备，也可以是集群设备，本发明实施例不对设备的类型进行具体限定。此外，上述终端103的数量也可以是一个或多个，本发明实施例不对终端103的数量进行具体限定。

示意性地，在一些应用场景中，该第二服务器102和终端103之间可以是基于B/S(browser/server，浏览器/服务器)模式实现交互的，上述交互过程也即是：终端103可以通过标注页面的URL(uniform resource locator，统一资源定位符)向第二服务器102发送访问请求，第二服务器102为终端103提供标注页面，终端103基于浏览器显示该标注页面，在该标注页面上可以包括各个图像集合的标注入口，用户点击某个图像集合的标注入口时，可以将该图像集合内包括的一个或多个人脸图像下载至本地，可选地，在标注页面中各个人脸图像的周围还可以显示多个标注选项，使得用户可以通过点击任一标注选项来为各个人脸图像添加标注内容，向第二服务器102发送该标注内容。

例如，对第一图像集合的标注选项可以是“确认为同一个人”、“确认为不同的人”、“无法分辨”等。当然，用户也可以手动输入标注内容，本发明实施例不对标注内容的添加方式进行具体限定。

示意性地，在一些应用场景中，该第二服务器102和终端103之间也可以是基于C/S(client/server，客户端/服务器)模式实现交互的，上述交互过程也即是：终端103上安装有应用客户端，用户在登录应用客户端之后，终端103可以基于应用客户端显示标注页面，在该标注页面上可以包括各个图像集合的标注入口，用户点击某个图像集合的标注入口时，可以将该图像集合内包括的一个或多个人脸图像下载至本地，用户通过对标注页面内各个标注选项的触发操作，为各个人脸图像添加标注内容，向第二服务器102发送该标注内容，标注页面的布局可以与上述B/S模式类似，当然标注页面的布局也可以不同，这里不做赘述。

基于上述实施环境，以第一服务器和第二服务器为不同的设备为例进行说明，在第一服务器上对视频进行图像处理，将图像处理得到的至少一个第一图像集合发送至第二服务器，下面将对第一服务器的图像处理过程进行详述。

图2是本发明实施例提供的一种图像处理方法的流程图，应用于第一服务器。参见图2，该实施例可以包括下述步骤：

201、第一服务器获取视频。

其中，该第一服务器可以是任一能够进行图像处理的计算机设备，可选地，该第一服务器可以是单机设备，也可以是集群设备，本发明实施例不对第一服务器的设备类型进行具体限定。例如，该第一服务器可以是具有较高的图像处理性能的计算机设备，以便于提升第一服务器对视频中各个图像帧的图像处理速度。

其中，该视频可以是任一包括人脸图像的视频，例如，该视频可以是监控视频、短视频、电影视频等，需要说明的是，该视频的数量可以是一个或多个，本发明实施例不对获取到的视频数量进行具体限定。

在上述步骤201，第一服务器可以调用摄像头组件录制视频，当然，第一服务器也可以直接从本地数据库中读取视频，可选地，第一服务器还可以从云端下载视频。

在一些实施例中，第一服务器还可以在挂载外部存储设备后，从该外部存储设备中读取视频，本发明实施例不对该视频的获取方式进行具体限定，例如，该外部存储设备可以是SSD(solid state drive，固态驱动器)、机械硬盘等。

202、第一服务器对视频中的多个图像帧进行人脸检测，确定该多个图像帧中的多个人脸图像。

其中，该多个图像帧可以是来源于同一个视频，也可以来源于不同的视频，每个图像帧都可以是任一视频中任意时间戳所对应的图像帧。其中，每个人脸图像都可以是任一图像帧中任一人脸区域所对应的图像。

可选地，第一服务器可以将各个视频中的所有图像帧确定为该多个图像帧，可选地，第一服务器也可以将各个视频中随机的任意数量个图像帧确定为该多个图像帧，当然，在一些实施例中，第一服务器还可以识别出各个视频中的关键帧，将各个视频中的关键帧确定为该多个图像帧。

在上述步骤202中，第一服务器可以将该多个图像帧输入人脸检测模型，通过该人脸检测模型提取该多个图像帧中多个区域的图像特征，当任一图像帧中任一区域的图像特征符合检测条件时，将该区域确定为一个人脸图像。

在一些实施例中，该人脸检测模型可以是一个级联分类器，该级联分类器为多个强学习器所级联而成。在这种情况下，第一服务器将该多个图像帧输入该级联分类器，对任一图像帧而言，通过扫描窗口对该图像帧中的各个区域进行滑动扫描，每当扫描窗口滑动至一个区域时，可以提取该区域内各个像素点的图像特征，通过多个强学习器对该图像特征进行判定，当该图像特征通过所有强学习器的判定条件时，将该扫描窗口当前所处的区域确定为一个人脸图像，扫描窗口滑动至下一个区域，重复执行上述步骤所执行的操作，直到对所有的图像帧中的所有区域都完成了扫描，此时可以确定出该多个人脸图像。

需要说明的是，在上述过程中，该扫描窗口可以按照扫描步长进行滑动，该扫描步长可以是任一大于0的数值，而在一些实施例中，还可以采用尺寸不同的多个扫描窗口分别执行上述步骤，从而能够更加准确的确定出尺寸不同的人脸图像。

可选地，上述过程中的图像特征可以是类Haar(Haar-like，类哈尔)特征，可以是HOG(histogram of oriented gradient，方向梯度直方图)特征，还可以是LBP(localbinary pattern，局部二值模式)特征等，本发明实施例不对人脸检测过程采用的图像特征的类型进行具体限定。

在上述过程中，仅以人脸检测模型为级联分类器为例进行说明，在一些实施例中，该人脸检测模型还可以是DPM(deformable parts model，可变性部件模型)、RCNN(regionswith convolutional neural networks，卷积神经网络区域检测)、SPP-Net(spatialpyramid pooling network，空间金字塔池化网络)等，本发明实施例不对该人脸检测模型的类型进行具体限定。

在一些实施例中，对任一视频而言，第一服务器检测出该视频的任一关键帧中的人脸图像后，可以在该视频中对该人脸图像的对象进行人脸跟踪，从而可以得到该视频中该对象所在的各个图像帧中的人脸图像，从而能够得到更加丰富的人脸图像素材，有利于提升用于训练人脸相似度模型的人脸图像的产出率。

203、第一服务器获取该多个人脸图像的图像质量分，删除图像质量分低于质量分阈值的人脸图像。

在上述过程中，第一服务器通过各个人脸图像的图像质量分，删除掉图像质量分低于质量分阈值的人脸图像，实现对人脸图像的初步筛选，从而可以在下述步骤204中仅提取筛选后的人脸图像的人脸特征，从而节约了对图像质量较差的人脸图像进行特征提取的计算量。

在一些实施例中，第一服务器在获取图像质量分的时候，可以直接获取各个人脸图像基于某一IQA(image quality assessment，图像质量评估指标)的评估分数，将该评估分数确定为各个人脸图像的图像质量分，例如，该IQA可以是信息熵、PSNR(peak signal tonoise ratio，峰值信噪比)或者SSIM(structural similarity，结构相似性)等指标，本发明实施例不对IQA的类型进行具体限定。

在一些实施例中，第一服务器还可以通过质量分评估模型获取图像质量分，也即是第一服务器可以将该多个人脸图像输入质量分评估模型，通过该质量分评估模型对各个人脸图像的像素值进行计算，输出该多个人脸图像的图像质量分。

其中，不同的质量分评估模型对应于不同的计算类型，例如该计算类型可以是线性计算、卷积计算、加权计算等。例如，该质量分评估模型可以是SVM(support vectormachine，支持向量机)、CNN(convolutional neural networks，卷积神经网络)等。

在一些实施例中，第一服务器还可以不执行上述步骤203，而是在执行上述步骤202之后，直接执行下述步骤204，从而简化了第一服务器上的图像处理流程。

204、第一服务器对该多个人脸图像进行特征提取，得到该多个人脸图像的人脸特征。

其中，该人脸特征用于表示人脸区域的可视化信息，例如，该可视化信息中可以包括人脸关键点的位置、纹理、光照、颜色、边缘等。

在上述步骤204中，第一服务器可以对该多个人脸图像进行关键点检测，将检测得到的多个人脸关键点的坐标确定为该多个人脸图像的人脸特征，例如，该人脸关键点可以为5个，分别包括左眼瞳孔、右眼瞳孔、鼻尖、左嘴角以及右嘴角，当然，在一些实施例中，该人脸关键点还可以包括脸部轮廓关键点、眉毛轮廓关键点等，从而可以表现出更加丰富的人脸特征。

在上述过程中，第一服务器可以基于特征描述算法来检测关键点，例如，该特征描述算法可以是SIFT(scale-invariant feature transform，尺度不变特征变换)算法、SURF(speeded up robust features，加速稳健特征)算法、ORB(oriented FAST and rotatedBRIEF，定向FAST算法和旋转BRIEF算法)算法等。

在一些实施例中，第一服务器还可以直接将上述步骤202中进行人脸检测时使用的类Haar、HOG特征或者LBP特征作为各个人脸图像的人脸特征，从而能够进一步地节约图像处理过程的计算量。

在一些实施例中，第一服务器还可以基于CNN提取该多个人脸图像的人脸特征，第一服务器将该多个人脸图像输入CNN，通过CNN中的至少一个卷积层对该多个人脸图像进行卷积处理，输出该多个人脸图像的人脸特征，从而能够通过神经网络的架构，提取出各个人脸图像的深层次的人脸特征。

在一些实施例中，第一服务器可以每确定一个人脸图像，就提取该人脸图像的人脸特征。当然，第一服务器还可以在对所有的人脸图像都完成上述步骤203中的初步筛选后，直接对筛选得到的所有人脸图像进行特征提取。

在一些实施例中，第一服务器还可以按批次进行特征提取，例如，每当经过初步筛选后的人脸图像达到第三目标数量时，对该第三目标数量个人脸图像进行特征提取，本发明实施例不对特征提取的执行时刻进行具体限定。其中，该第三目标数量可以是任一大于或等于0的数值，例如，该第三目标数量可以是20000。

在上述过程中，当第一服务器完成人脸特征的提取之后，还可以将该多个人脸图像以及该多个人脸图像的人脸特征上传至第一存储设备，该第一存储设备可以是不处于第一服务器本地的设备，从而可以通过第一存储设备实现对人脸图像和人脸特征的持久化存储，实现对人脸图像和人脸特征的备份，增加了数据存储过程的安全性和可靠性。

205、第一服务器将该多个人脸图像的人脸特征输入聚类模型，通过该聚类模型获取各个人脸图像的人脸特征之间的相似度，将相似度符合目标条件的多个人脸图像分配至同一个第一图像集合。

在上述过程中，第一服务器实现了根据多个人脸图像的人脸特征，对该多个人脸图像进行聚类处理，得到至少一个第一图像集合，而由于通过聚类模型对相似度较高的人脸特征进行粗聚类，能够增加聚类过程的准确度和智能性，便于后续第二服务器对该至少一个第一图像集合进行图像处理。

在上述过程中，该聚类模型可以是KNN(k-nearest neighbor，k最近邻)模型，可以是K-means(K均值)模型，还可以GMM(Gaussian mixture model，高斯混合模型)等，本发明实施例不对该聚类模型的类型进行具体限定。

可选地，各个聚类模型所采用的相似度可以是欧式距离的倒数、余弦相似度、Rank-Order(等级-次序)距离的倒数等，本发明实施例也不对相似度的类型进行具体限定。

下面以KNN模型为例对聚类过程进行说明，对任一人脸图像的人脸特征而言，第一服务器将该人脸特征输入KNN模型，基于该KNN模型获取该人脸特征与其他人脸特征(指除了该人脸特征之外的一个或多个人脸特征)之间的多个相似度，按照相似度从大到小的顺序，对该其他人脸特征进行排序，确定排序位于前第四目标数量的人脸特征所属的图像集合中频数最高的图像集合，将该频数最高的图像集合确定为该人脸特征的图像集合。其中，该第四目标数量可以任一大于或等于1的数值。

在上述步骤204-205中，第一服务器能够基于多个人脸图像，得到至少一个第一图像集合，该至少一个第一图像集合中各个人脸图像的相似度符合目标条件，由于可以通过聚类模型来得到各个第一图像集合，将多个人脸图像的人脸特征输入聚类模型之后，将相似度符合目标条件的人脸图像分配至同一个第一图像集合，从而能够得到该多个人脸图像按照相似度聚类形成的至少一个第一图像集合，执行下述步骤206。

206、第一服务器向第二服务器发送至少一个第一图像集合。

在上述过程中，第一服务器可以对该至少一个第一图像集合按照固定的编码格式进行压缩之后，生成数据传输报文，将该数据传输报文发送至该第二服务器。可选地，该第一服务器还可以对该数据传输报文进行加密，从而增加数据传输过程的安全性，例如，第一服务器可以基于对称加密算法、非对称加密算法等进行加密。

在一些实施例中，第一服务器在聚类形成该至少一个第一图像集合之后，还可以将该至少一个第一图像集合上传至上述步骤204中所涉及到的第一存储设备，可选地，在该第一存储设备的数据库中，不同的第一图像集合可以对应于不同的数据表，从而能够方便对同一个第一图像集合中各个人脸图像和人脸特征的访问操作。

示意性的，在一些应用场景中，以上述实施例中的视频为不同地点、不同时段的多个监控视频为例进行说明，第一服务器通过SSD读取到多个监控视频之后，可以识别该多个监控视频中的多个关键帧，对该多个关键帧进行人脸检测之后，确定出各个关键帧中的人脸图像，进而对在各个监控视频中对人脸图像所对应的对象(也即是人脸所属的人)进行人脸跟踪，从而可以得到在监控视频中包括该对象的各个图像帧中的人脸图像，重复执行上述过程，能够得到每个监控视频中人脸跟踪得到的多个人脸图像。由于视频的图像帧通常体量较大，第一服务器可以对该多个人脸图像进行初步筛选，删除图像质量分较低的人脸图像，得到图像质量分较高的人脸图像，基于该人脸图像的人脸特征，对该人脸图像进行聚类处理之后，能够将不同地方、不同时段的监控视频中，同一个对象的人脸图像聚类到同一个第一图像集合中，也即是实现了对不同时间、不同空间下同一对象的人脸图像的初步聚类，优化了图像处理的逻辑。

例如，假设人物A通常在早上9点出现在地点B，在晚上7点出现在地点C，那么通过本发明实施例中的图像处理方法，能够将早上9点的地点B的监控视频中人物A的多个人脸图像，以及晚上7点的地点C的监控视频中人物A的多个区域聚类在同一个第一图像集合中。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本发明实施例提供的方法，在检测出视频中的人脸图像之后，提取人脸图像的人脸特征，通过人脸特征来对人脸图像进行聚类处理，从而能够得到第一图像集合，发送该第一图像集合，从而可以通过人脸特征实现对人脸图像的初步聚类，便于了后续第二服务器基于第一图像集合来筛选人脸图像，优化了图像处理的逻辑。

进一步地，由于第一服务器直接向第二服务器发送第一图像集合，从而能够将第一图像集合的标注部署在线上，也就避免了由于存储介质的损坏导致的数据丢失问题，还可以在线上实时对各个第一图像集合进行统计，方便了基于第一图像集合的数据分析和图像处理工作。

进一步地，在提取各个人脸图像的人脸特征之前，通过各个人脸图像的图像质量分，删除掉图像质量分低于质量分阈值的人脸图像，实现对人脸图像的初步筛选，从而仅提取筛选后的人脸图像的人脸特征，节约了对图像质量较差的人脸图像进行特征提取的计算量。

进一步地，通过聚类模型来对各个人脸图像的人脸特征进行聚类，可以将相似度较高的人脸特征聚类到同一个第一图像集合中，从而增加了聚类过程的准确度和智能性。

在上述实施例中，第一服务器通过人脸图像的人脸特征，实现了对各个人脸图像的聚类处理，从而能够将不同时间、不同空间下属于同一对象的人脸图像划分至一个第一图像集合中，提升了各个人脸图像的聚合度，第一服务器在得到第一图像集合之后，向第二服务器发送该第一图像集合，在本发明实施例中将对第二服务器基于第一图像集合筛选人脸图像的过程进行详述。

图3是本发明实施例提供的一种图像处理方法的交互流程图，参见图3，该实施例可以包括下述步骤：

301、第二服务器接收至少一个第一图像集合，该至少一个第一图像集合中各个人脸图像的相似度符合目标条件。

其中，该第二服务器可以是任一能够进行图像处理的计算机设备，可选地，该第二服务器可以是单机设备，也可以是集群设备，本发明实施例不对第二服务器的设备类型进行具体限定。

在上述过程中，第二服务器可以接收第一服务器发送的任一报文，对该报文的第一目标字段进行检测，当该第一目标字段中携带数据传输标识时，将该报文确定为数据传输报文，对该数据传输报文进行解析，得到至少一个第一图像集合。例如，该第一目标字段可以是报文的请求头字段。

302、第二服务器向终端发送包括该至少一个第一图像集合的标注入口的第一标注页面。

其中，该终端可以是任一能够显示标注页面(例如本发明实施例中的第一标注页面、第二标注页面或者第三标注页面)的电子设备，需要说明的是，第二服务器可以向一个或多个终端提供标注页面，本发明实施例仅以一个终端为例进行说明，不应构成对能够显示标注页面的终端的数量的具体限定。

在上述过程中，第二服务器可以基于B/S模式向终端提供第一标注页面。在上述模式下，用户在终端上的浏览器的地址栏中输入第一标注页面的URL，终端通过该第一标注页面的URL向该第二服务器发送访问请求，当第二服务器接收到访问请求，第二服务器对该访问请求进行验证，当验证通过时，第二服务器向终端发送页面资源，终端接收该页面资源，执行下述步骤303。

在一些实施例中，第二服务器还可以基于C/S模式向终端提供第一标注页面，在上述模式下，终端上可以安装有应用客户端，用户登录应用客户端后，可以基于应用客户端向第二服务器发送访问请求，当第二服务器接收到访问请求，第二服务器对该访问请求进行验证，当验证通过时，第二服务器向终端发送页面资源，终端接收该页面资源，执行下述步骤303。

303、当终端接收到该第一标注页面时，显示该第一标注页面。

在上述过程中，当终端接收到第一标注页面的页面资源之后，可以由渲染引擎驱动终端底层的GPU对该页面资源进行渲染，使得终端可以在显示屏上显示该第一标注页面。可选地，终端可以基于浏览器或者应用客户端来显示该第一标注页面。

在一些实施例中，图4是本发明实施例提供的一种第一标注页面的示意图，参加图4，在该第一标注页面上可以包括至少一个第一图像集合的封面，在各个第一图像集合的封面上可以显示标注入口，例如，对任一第一图像集合而言，该第一图像集合的封面可以是该第一图像集合内多个人脸图像的缩略图所构成的图像，可选地，该第一图像集合的封面还可以是该第一图像集合对应的目标对象的任一图像，可选地，该第一图像集合的封面还可以是该第一图像集合中的任一个人脸图像(比如图像质量分最高的人脸图像等)，本发明实施例不对各个第一图像集合的封面的获取方式进行具体限定。

基于上述示例，当检测到用户对某个第一图像集合的封面的触控操作时，终端将该第一图像集合内包括的一个或多个待标注的人脸图像下载至本地，跳转至该第一图像集合对应的标注子页面，在该标注子页面中，可以显示该第一图像集合内的一个或多个待标注的人脸图像，在各个待标注的人脸图像的周围还可以显示多个标注选项。

图5是本发明实施例提供的一种标注子页面的示意图，如图5所示，当用户点击第一图像集合1的封面时，进入第一图像集合1的标注子页面，在该标注子页面上可以显示第一图像集合1的目标对象以及多个待标注的人脸图像，在每个人脸图像下方均显示了多个标注选项，该标注选项可以是“确认为同一个人”、“确认为不同的人”、“无法分辨”等，从而当检测到用户对某一人脸图像的标注选项的触控操作时，生成该人脸图像的标注信息，向第二服务器发送该人脸图像的标注信息。

在上述过程中，该至少一个第一图像集合之间可以是横排显示，可以是纵列显示，也可以是以表格的形式显示，本发明实施例不对第一标注页面的布局信息进行具体限定。

304、当检测到用户对任一人脸图像的标注操作时，终端生成该人脸图像的标注信息，向第二服务器发送该标注信息。

在上述过程中，用户的标注操作可以是对标注页面中已有的标注选项的触控操作，当然，用户的标注操作还可以是在标注页面中手动输入或者语音输入标注内容等，可选地，用户还可以通过面部识别来进行标注，当识别出用户的点头动作时，确定标注内容为“确认为同一个人”，当识别出用户的摇头动作时，确定标注内容为“确认为不同的人”等，本发明实施例不对用户的标注操作的方式进行具体限定。

在上述步骤304中，终端可以获取标注内容和人脸图像标识，可以按照固定的编码格式对该标注内容和人脸图像标识进行编码，生成标注信息，其中，该标注内容可以是上述标注选项所对应的内容、用户手动输入或者语音输入的内容或者对用户面部识别得到的内容等，其中，该人脸图像标识用于唯一标识人脸图像，例如，该人脸图像标识可以为A130，A表示该人脸图像所属的第一图像集合，130表示该人脸图像在该第一图像集合中的标识号码。

需要说明的是，任一终端对应的用户可以对一个或多个人脸图像执行标注操作，上述一个或多个人脸图像可以是属于同一第一图像集合的，也可以是属于不同第一图像集合的，每当用户执行标注操作时，终端可以重复执行上述步骤304中所执行的操作，而对于不同的终端而言，可以执行与上述步骤303-304类似的操作，这里不做赘述。

305、第二服务器接收终端基于该第一标注页面返回的对至少一个第一图像集合中各个人脸图像的标注信息。

在上述过程中，第二服务器可以接收终端发送的任一报文，对该报文的第二目标字段进行检测，当该第二目标字段中携带标注标识时，将该报文确定为标注信息，第二服务器对该标注信息进行解析，可以得到人脸图像标识和标注内容。例如，该第二目标字段可以是报文的请求头字段。

在上述步骤302-305中，第二服务器通过与终端之间的交互过程，获取至少一个第一图像集合中各个人脸图像的标注信息，在一些实施例中，用户还可以直接在第二服务器上对各个人脸图像进行标注，从而简化了图像处理的流程。

306、第二服务器根据该至少一个第一图像集合中各个人脸图像的标注信息，对该至少一个第一图像集合中各个人脸图像进行筛选，得到标注信息为第一标注信息的人脸图像。

其中，该标注信息为第一标注信息的人脸图像用于训练人脸相似度模型。

在一些实施例中，该标注信息可以是第一标注信息，该第一标注信息用于表示人脸图像与第一图像集合对应的目标对象相匹配，可选地，该标注信息也可以是第二标注信息，该第二标注信息用于表示人脸图像与第一图像集合对应的目标对象不匹配。

其中，该目标对象可以是各个第一图像集合在聚类时位于聚类中心的对象，当然，该目标对象也可以是用户在第二服务器侧为各个第一图像集合标注的对象。在上述过程中，人脸图像与目标对象匹配是指该人脸图像为目标对象的脸部图像。

在上述过程中，第二服务器能够通过向终端发送第一标注页面，接收终端返回的标注信息，从而根据各个第一图像集合内人脸图像的标注信息，实现对各个第一图像集合的筛选，具体地，当人脸图像的标注信息为第一标注信息时，可以执行上述步骤306，而当人脸图像的标注信息为第二标注信息时，还可以执行下述实施例中的步骤601，这里不做赘述。

在本发明实施例中，通过终端与第二服务器之间的交互来获取第一图像集合中各个人脸图像的标注信息，也即是将标注流程部署在线上，不仅避免了离线标注时存储介质已损坏、数据复制工作繁琐等问题，而且在终端侧可以随时下载人脸图像进行标注，在第二服务器侧可以实时查询各个人脸图像的标注信息的统计结果，提升了对人脸图像的标注效率，从而提升了用于训练人脸相似度模型的人脸图像的产出率，推动了人脸相似度模型的迭代优化。

在一些实施例中，第二服务器确定了人脸图像之后，还可以将该人脸图像发送至第二存储设备，该第二存储设备可以是不处于第二服务器本地的设备，从而可以通过第二存储设备实现对人脸图像的持久化存储，增加了人脸图像在存储过程的安全性和可靠性。

可选地，第二存储设备在存储该人脸图像的时候，可以按照该人脸图像对应的第一图像集合进行存储，例如，每个第一图像集合可以对应于数据库中的一个数据表，从而能够实现对人脸图像的归类，方便了对人脸图像的访问操作。

在上述过程中，第二服务器可以每当确定一个人脸图像，就将该人脸图像发送至第二存储设备，当然，第二服务器也可以每间隔第一目标时长，将距离当前时刻之前第一目标时长内确定的用于训练人脸相似度模型的人脸图像发送至第二存储设备，本发明实施例不对第二服务器对人脸图像的发送时刻进行具体限定。其中，该第一目标时长可以为任一大于0的数值。

示意性地，在一些应用场景中，以终端与第二服务器之间采用B/S模式交互为例，用户登录终端之后，可以基于浏览器访问第一标注页面，用户点击第一标注页面中任一第一图像集合的标注入口，将该第一图像集合中的各个人脸图像进行标注，例如，第一图像集合中包括100个人脸图像，用户在某次标注时下载了10个人脸图像，对该10个人脸图像中的8个人脸图像标注“确认为同一个人”，2个人脸图像标注“确认为不同的人”，终端在生成这10个人脸图像的标注信息后，将该标注信息发送至第二服务器。

可选地，每个第一图像集合可以由多个终端对应的多个用户分别进行重复标注，第二服务器统计各个终端对各个人脸图像的标注信息之后，将出现频次最高的标注信息确定为各个人脸图像的标注信息，例如，某个人脸图像被10个用户标注，其中7个用户标注为“确认为同一个人”，3个用户标注为“无法分辨”，第二服务器将出现频次最高的“确认为同一个人”确定为该人脸图像的标注信息，由于该标注信息表示人脸图像与目标对象匹配，也即是该标注信息为第一标注信息，因此第二服务器将该人脸图像确定为一个用于训练人脸相似度模型的人脸图像(也即是人脸相似度模型的训练图像)。

在上述过程中，用户可以自行选择想要进行标注的第一图像集合，在一些实施例中，第二服务器还可以为每个用户分配固定数量的人脸图像，当用户对这些人脸图像标注完成后，再分配下一批固定数量的人脸图像，从而能够方便对各个人脸图像的标注工作的宏观调配。

在上述过程中，通过终端与第二服务器之间的交互过程，能够对第一服务器聚类后的第一图像集合进行数据清洗，确定出与各个第一图像集合的目标对象匹配的人脸图像，将这些人脸图像作为人脸相似度模型的训练图像，而对于与目标对象不匹配的人脸图像，可以通过下述实施例中的步骤进行再次标注，从而在与目标对象不匹配的人脸图像中再次筛选出能够用于训练人脸相似度模型的人脸图像，从而提升了人脸相似度模型的训练图像的产出率。

本发明实施例提供的方法，通过多个人脸图像得到至少一个第一图像集合，根据各个第一图像集合中各个人脸图像的标注信息，确定标注信息为第一标注信息的人脸图像，由于并不基于置信概率进行人脸图像的筛选，也就避免了由于置信概率准确度不高所造成的人脸图像误筛问题，而由于先按照相似度对多个人脸图像进行了第一图像集合的划分，获取到了相似度符合目标条件的第一图像集合的标注信息，能够大大降低标注时投入的人力成本，因此可以在不额外增加人力成本的基础上，提升了用于训练人脸相似度模型的人脸图像的产出率，也就提升了人脸相似度模型的智能性。

进一步地，由于接收到的第一图像集合是经过第一服务器聚类处理的，相当于第一服务器对各个人脸图像进行了初步归类，使得用户在终端侧能够以第一图像集合为单位进行标注，而各个第一图像集合中的人脸图像是相似度较高的，能够提升对海量的人脸图像的标注效率，优化了图像处理的逻辑。

进一步地，由于将第一图像集合的标注部署在线上，也就避免了离线标注情况下由于存储介质的损坏而导致的数据丢失问题，此外，终端可以随时对人脸图像进行下载，避免了离线标注情况下繁琐的数据复制工作，提升了对人脸图像的标注效率，从而提升了用于训练人脸相似度模型的人脸图像的产出率，推动了人脸相似度模型的迭代优化。

在上述实施例中，提供了直接确定标注信息为第一标注信息的人脸图像的情况，然而在一些实施例中，当标注信息为第二标注信息时，第二服务器还可以执行下述实施例中的方法，来确定出用于训练人脸相似度模型的人脸图像，下面进行详述。

图6是本发明实施例提供的一种图像处理方法的交互流程图，参见图6，当第二服务器执行上述步骤306中筛选人脸图像的操作之后，还可以执行下述步骤：

601、第二服务器标注信息为第二标注信息的至少一个人脸图像添加至第二图像集合。

其中，该第二标注信息用于表示人脸图像与第一图像集合对应的目标对象不匹配。

在上述过程中，第二服务器将各个第一图像集合中与目标对象不匹配的各个人脸图像均添加至第二图像集合，从而可以通过对第二图像集合进行二次标注，实现对第一图像集合中筛掉的人脸图像进行二次筛选，进一步地提升用于训练人脸相似度模型的人脸图像的产出率。

例如，在一些场景下，人脸图像M与第一图像集合P的目标对象不匹配，人脸图像N与第一图像集合Q的目标对象不匹配，然而人脸图像M和人脸图像N有可能是属于同一个目标对象的脸部图像，因此，将人脸图像M与人脸图像N添加至第二图像集合中，执行下述步骤602。

在一些实施例中，第二服务器还可以不执行步骤601-606，而是标注信息为第二标注信息的人脸图像删除，从而能够提升图像处理的效率，简化图像处理的流程。

602、第二服务器向终端发送包括该第二图像集合的标注入口的第二标注页面。

上述步骤602与上述步骤302类似，这里不做赘述。

603、当终端接收到该第二标注页面时，显示该第二标注页面。

上述步骤603与上述步骤303类似，这里不做赘述。

其中，第二标注页面可以与第一标注页面的布局相同，也可以不同，本发明实施例不对第二标注页面的布局进行具体限定。

604、当检测到用户对任一人脸图像的标注操作时，终端生成该人脸图像的对象标签，向第二服务器发送该对象标签。

上述步骤604与上述步骤304类似，这里不做赘述。

其中，该对象标签用于表示第二图像集合中各个人脸图像所属的对象。

图7是本发明实施例提供的一种第二标注页面的示意图，参见图7，例如，第二图像集合中多个人脸图像可以属于多个对象，此时在第二标注页面中，左侧可以显示各个对象的图像，在右侧显示各个人脸图像，可选地，在每个人脸图像的下方都可以显示多个对象的标注选项，用户通过点击各个人脸图像周围的标注选项，获取与该标注选项对应的对象标签，将该对象标签以及人脸图像标识发送至第二服务器。

605、第二服务器接收终端基于该第二标注页面返回的该第二图像集合中各个人脸图像的对象标签。

上述步骤605与上述步骤305类似，这里不做赘述。

在上述步骤602-605中，第二服务器通过与终端之间的交互过程，获取第二图像集合中各个人脸图像的对象标签，在一些实施例中，用户还可以直接在第二服务器上对各个人脸图像进行标注，得到各个人脸图像的对象标签，从而简化了图像处理的流程。

606、第二服务器根据第二图像集合中各个人脸图像的对象标签以及各个对象标签的出现频次，对该第二图像集合中各个人脸图像进行筛选，得到对象标签的出现频次符合频次条件的人脸图像。

在上述步骤606中，在一种可能实施方式中，第二服务器可以获取该第二图像集合中各个人脸图像的对象标签中出现频次最高的对象标签，确定该出现频次最高的对象标签所对应的人脸图像。

在上述过程中，由于出现频次最高的对象标签意味着样本容量较多，因此直接确定出现频次最高的对象标签所对应的人脸图像，能够得到样本容量较大的人脸图像，而对于不符合频次条件的人脸图像，由于样本容量较小，导致训练价值不高，因此第二服务器可以直接删除上述不符合频次条件的人脸图像，从而节约了存储空间。

例如，在第二图像集合的50个人脸图像中，各个终端对应的用户的标注结果为25个人脸图像与目标对象S匹配，5个人脸图像与目标对象T匹配，剩余20个人脸图像无法分辨，那么第二服务器可以确定与目标对象S匹配的这25个人脸图像，可选地，在存储该25个人脸图像时，可以将该25个人脸图像所属的集合确定为第二图像集合。

第二服务器在获取人脸图像之后，可以直接基于上述步骤606以及上述步骤306中所确定的人脸图像训练人脸相似度模型，从而基于训练得到的人脸相似度模型进行人脸识别，由于用于训练人脸相似度模型的人脸图像产出率大大提升，从而使得人脸相似度模型的智能性提升，也就提升了人脸识别过程的准确度。

在一些实施例中，第二服务器还可以基于上述步骤606以及上述步骤306中所确定的人脸图像对已有的人脸相似度模型进行迭代优化，从而也能够提升已有的人脸相似度模型的智能性，提升了人脸识别过程的准确度。

在一些实施例中，当第二服务器通过执行上述步骤601-606确定出人脸图像之后，仍然可以将确定出的人脸图像上传至第二存储设备，当然，第二服务器也可以每间隔第二目标时长，将距离当前时刻之前第二目标时长内确定的人脸图像发送至第二存储设备，本发明实施例不对第二服务器对人脸图像的发送时刻进行具体限定。其中，该第二目标时长可以为任一大于0的数值，该第二目标时长可以与第一目标时长相同，也可以不同。

在一些实施例中，第二服务器还可以不执行上述步骤601-606，而是直接将标注信息为第二标注信息的人脸图像删除，从而简化了图像处理的流程，这里不做赘述。

本发明实施例提供的方法，将标注信息为第二标注信息的至少一个人脸图像添加至第二图像集合，获取该第二图像集合中各个人脸图像的对象标签，根据对象标签以及各个对象标签的出现频次，得到对象标签的出现频次符合频次条件的人脸图像，从而能够对初步筛选中各个第一图像集合中筛掉的人脸图像进行二次筛选，将有训练价值的人脸图像确定出来，能够进一步地避免了原本有训练价值的人脸图像被误筛掉，提升了用于训练人脸相似度模型的人脸图像的产出率，从而有利于人脸相似度模型的迭代优化，有利于提升人脸相似度模型的智能性。

进一步地，直接确定第二图像集合中出现频次最高的对象标签所对应的人脸图像，能够获取到第二图像集合中最具有训练价值的人脸图像，对于一些出现频次不够多的人脸图像，由于样本容量过小、训练价值不高，第二服务器直接进行删除，能够节约第二服务器的存储空间，当第一服务器向第二服务器再次发送第一图像集合时，可以返回执行步骤301。

在上述实施例中，第二服务器通过标注信息对第一图像集合内的人脸图像进行一次筛选，将标注信息为第二标注信息的人脸图像添加至第二图像集合，从而通过各个人脸图像的对象标签，对第二图像集合内的人脸图像进行二次筛选，将第一次筛选中为第一标注信息以及第二次筛选中符合频次条件的人脸图像统统投入到人脸相似度模型的训练过程中，将第二次筛选中不具有出现频次最高的对象标签的人脸图像删除，从而可以最大程度地避免对有训练价值的人脸图像的误筛，提升用于训练人脸相似度模型的人脸图像的产出率，使得基于上述人脸图像训练人脸相似度模型之后，由于人脸图像的数量和质量均大大提升，因此可以提升人脸相似度模型的智能性。

而在一些实施例中，由于第一服务器在进行初步聚类的时候，有可能会导致同一个对象在不同光照、背景下的人脸图像被聚类为多个第一图像集合，也就使得第二服务器即使通过与终端的交互，实现了对各个第一图像集合内部包含的噪声数据(也即是无价值的人脸图像)的筛除，仍然无法避免不同的第一图像集合可能会对应于同一个对象的问题，导致人脸图像在各个第一图像集合(或第二图像集合)之间的聚合度不高，使得人脸图像较为松散。基于上述情况，为了增加人脸图像的聚合度，第二服务器可以在筛选出人脸图像之后，执行本发明实施例中的方法，下面进行详述。

图8是本发明实施例提供的一种图像处理方法的交互流程图，参见图8，该实施例可以包括下述步骤：

801、对任一第一图像集合，第二服务器获取该第一图像集合的平均人脸特征。

可选地，由于第一服务器在上述步骤204中提取出了多个人脸图像的人脸特征，如果第一服务器将该多个人脸图像的人脸特征上传至第一存储设备，由于筛选后得到的人脸图像为原始人脸图像中的一部分人脸图像，那么第二服务器可以直接从第一存储设备中下载各个人脸图像的人脸特征，从而节约了图像处理的时长。

在一些实施例中，第二服务器还可以通过执行与上述步骤204类似的操作，对该第一图像集合中的各个人脸图像进行特征提取，得到该第一图像集合中各个人脸图像的人脸特征，这里不做赘述。

需要说明的是，由于第二服务器在执行上述步骤301-306之后，不仅能够直接确定标识信息为第一标识信息的人脸图像，而且可以通过执行步骤601-606所执行的操作来确定人脸图像，在这种情况下，一部分人脸图像对应于各自的第一图像集合，而另一部分人脸图像则可以对应于第二图像集合，此时第二图像集合相当于本发明实施例中的一个特殊的第一图像集合，可以执行与各个第一图像集合相同的合并操作，在此不作赘述。

当然，在一些实施例中，如果第二服务器不执行步骤601-606，而是直接将不匹配于目标对象的人脸图像删除，那么各个人脸图像将与各个第一图像集合呈一一对应的关系。

在上述步骤801中，由于人脸图像与第一图像集合(或第二图像集合)是具有对应关系的，因此第二服务器可以获取每个第一图像集合的平均人脸特征，可选地，第二服务器可以将第一图像集合中所有人脸图像的人脸特征的平均特征确定为该第一图像集合的平均人脸特征，使得平均人脸特征能够反映出每个人脸图像的人脸特征。

在一些实施例中，第二服务器通过下述方式获取平均人脸特征：第二服务器获取该第一图像集合中图像质量分位于前第二目标数量的人脸图像；将该前第二目标数量的人脸图像的人脸特征的平均特征确定为该平均人脸特征。其中，该第二目标数量可以是任一大于或等于1的整数。

在上述情况中，第二服务器在获取第一图像集合中各个人脸图像的图像质量分时，可以采用与上述步骤203中获取图像质量分的类似方法，也即是第二服务器可以直接获取各个人脸图像基于某一IQA的评估分数，将该评估分数确定为各个人脸图像的图像质量分，例如，该IQA可以是信息熵、PSNR或者SSIM等，本发明实施例不对IQA的类型进行具体限定。

在一些实施例中，第二服务器还可以通过质量分评估模型获取图像质量分，也即是第二服务器可以将该第一图像集合输入质量分评估模型，通过该质量分评估模型对该第一图像集合内各个人脸图像的像素值进行计算，输出各个人脸图像的图像质量分。

在上述过程中，不同的质量分评估模型可以对应于不同的计算类型，例如该计算类型可以是线性计算、卷积计算、加权计算等。例如，该质量分评估模型可以是SVM(supportvector machine，支持向量机)、VGG(visual geometry group，视觉几何组)等。

基于上述方式，第二服务器能够以图像质量分较高的第二目标数量个人脸图像的人脸特征的平均特征，来表示整个第一图像集合的平均人脸特征，从而能够在保证平均人脸特征的精度的同时，使得该平均人脸特征更具有代表性。

802、第二服务器按照与该平均人脸特征之间的相似度从大到小的顺序，对除了该第一图像集合之外的第一图像集合进行排序。

在一些实施例中，上述过程采取的相似度可以是欧氏距离的倒数、余弦相似度、Rank-Order(等级-次序)距离的倒数等，本发明实施例不对相似度的类型进行具体限定。

803、第二服务器将排序位于前第一目标数量的第一图像集合确定为该多个待合并集合。

在上述过程中，对每个第一图像集合，第二服务器都可以执行上述步骤801-803，从而得到与每个第一图像集合所对应的多个待合并集合。其中，该第一目标数量可以是任一大于或等于1的整数。

在上述步骤801-803中，对任一第一图像集合而言，第二服务器根据该第一图像集合中各个人脸图像的人脸特征，确定与该第一图像集合对应的多个待合并集合，相当于第二服务器在向终端发送第三标注页面之前，实现了对第一图像集合进行预筛选，也就减少了终端对应的用户在进行标注时的工作量，降低了标注时的人力成本。

804、第二服务器向终端发送包括各个第一图像集合对应的多个待合并集合的标注入口的第三标注页面。

上述步骤804与上述步骤602类似，这里不做赘述。

805、当终端接收到该第三标注页面时，显示该第三标注页面。

上述步骤805与上述步骤603类似，这里不做赘述。

图9是本发明实施例提供的一种第三标注页面的示意图，参见图9，以任一第一图像集合为例进行说明，第三标注页面可以在页面的左侧显示第一图像集合中图像质量分最高的人脸图像，在页面的右侧分别显示多个待合并集合中图像质量分最高的人脸图像，在页面上方可以显示标注提醒信息，该标注提醒信息用于提醒用户点击右侧的多个人脸图像中与左侧的人脸图像对应于同一个目标对象的图像，在页面下方可以显示提交按钮，从而当用户点击右侧的一个或多个人脸图像，点击该提交按钮之后，执行下述步骤806。

806、当检测到用户对任一第一图像集合对应的多个待合并集合的标注操作时，终端生成该多个待合并集合的合并标签，向第二服务器发送该合并标签。

上述步骤806与上述步骤604类似，这里不做赘述。

在一些实施例中，当终端发送该合并标签之后，可以在该第三标注页面中自动刷新显示下一个第一图像集合以及对应的多个待合并集合，从而可以重复执行上述步骤806所执行的操作，向第二服务器发送各个第一图像集合的合并标签。

807、第二服务器接收终端基于该第三标注页面返回的该多个待合并集合的合并标签。

上述步骤807与上述步骤605类似，这里不做赘述。

可选地，对于任一第一图像集合所对应的任一待合并集合而言，合并标签可以为“与第一图像集合对应于同一个目标对象”，也可以为“与第一图像集合不对应于同一个目标对象”，本发明实施例不对该合并标签的内容进行具体限定。

在上述步骤804-807中，第二服务器通过与终端之间的交互过程，获取第一图像集合对应的多个待合并集合的合并标签，在一些实施例中，用户还可以直接在第二服务器上对各个第一图像集合的待合并集合进行标注，得到各个第一图像集合的待合并集合的合并标签，从而简化了图像处理的流程。

808、第二服务器根据该多个待合并集合的合并标签，从该多个待合并集合中，确定合并标签为目标合并标签的一个或多个待合并集合。

在上述过程中，如果任一合并标签表示某一待合并集合与第一图像集合属于同一个目标对象，第二服务器将该合并标签确定为目标合并标签，从而确定出与该目标合并标签对应的待合并集合。

809、第二服务器将该第一图像集合与该一个或多个待合并集合合并，得到一个第三图像集合。

在上述过程中，如果所有的待合并集合的合并标签中没有目标合并标签，第二服务器可以直接将该第一图像集合确定为一个第三图像集合。

在一些实施例中，第二服务器向多个终端发送第三标注页面之后，可以分配多个用户对同一个第一图像集合的各个待合并集合进行标注，此时第二服务器可以按照合并标签的出现频次来确定第三图像集合的合并方式，能够进一步提升合并过程的准确度。

例如，第一图像集合A对应于5个待合并集合B、C、D、E、F，由10名用户对该第一图像集合A进行标注，其中8名用户标注待合并集合B、E、F与第一图像集合A属于同一目标对象，而有2名用户标注待合并集合B、C与第一图像集合A属于同一目标对象，此时由于各个待合并集合中B、E、F组合的出现频次最高，第二服务器将第一图像集合A、待合并集合B、待合并集合E、待合并集合F合并为一个第三图像集合。

需要说明的是，对每个第一图像集合，第二服务器均执行上述步骤801-809，从而可以根据各个人脸图像的人脸特征，将至少一个第一图像集合合并为至少一个第三图像集合，每个第三图像集合中每个第一图像集合对应于一个目标对象，实现了对各个第一图像集合的再次合并标注。

第二服务器在获取至少一个第三图像集合之后，可以基于第三图像集合内的各个人脸图像训练人脸相似度模型，从而基于训练得到的人脸相似度模型进行人脸识别，由于上述步骤809中得到的人脸图像的产出率大大提升，并且上述步骤809中得到的人脸图像的聚合度远高于上述步骤306或步骤606中得到人脸图像的聚合度(也即是人脸图像的质量优于人脸图像)，从而使得人脸相似度模型的智能性大幅提升，也就大幅提升了人脸识别过程的准确度。

在一些实施例中，第二服务器还可以基于上述步骤809中得到的第三图像集合内的各个人脸图像对已有的人脸相似度模型进行迭代优化，从而也能够大幅提升已有的人脸相似度模型的智能性，从而大幅提升了人脸识别过程的准确度。

在一些实施例中，第二服务器获取了第三图像集合之后，还可以将各个第三图像集合发送至第二存储设备，通过第二存储设备实现对第三图像集合的持久化存储，增加了第三图像集合在存储过程的安全性和可靠性，与上述步骤606中所涉及的操作类似，这里不做赘述。

本发明实施例提供的方法，第二服务器通过与终端之间的交互，获取到各个第一图像集合所对应的各个待合并集合的合并标签，基于合并标签来对第一图像集合和一个或多个待合并集合进行合并，得到至少一个第三图像集合，从而相较于原本确定出的人脸图像，各个第三图像集合能够将属于同一目标对象的第一图像集合聚合在一起，避免了同一个目标对象的人脸图像分散在不同的第一图像集合中，使得获取的人脸图像具有更高的聚合度以及更好的训练价值，推动了人脸相似度模型的迭代优化，有利于提升人脸相似度模型的智能性。

需要说明的是，在执行上述各个实施例提供的图像处理方法之前，第一服务器、第二服务器和终端之间可以通过测试数据来对图像处理流程进行测试，下面进行详述：

在获取视频的阶段，可以派遣多个具有目标标志的用户参与视频录制，不同的用户可以具有不同的目标标志，例如，用户A的左脸可以贴有红色爱心贴画，用户B的额头可以贴有蓝色圆圈贴画等，将录制得到的视频复制至第一服务器，执行与上述步骤201-206类似的过程，得到至少一个第一图像集合，将至少一个第一图像集合发送至第二服务器，由第二服务器执行与上述步骤301-306(或者与执行步骤301-306之后执行步骤601-606)类似的操作，确定出用于训练人脸相似度模型的人脸图像。

进一步地，由第二服务器对该至少一个第一图像集合进行合并时，获取该多个具有目标标注的用户的证件照的人脸特征，再获取各个第一图像集合的平均人脸特征与上述多个用户的证件照的人脸特征之间的相似度，将各个第一图像集合确定为相似度最高的用户的待合并集合，使得每个用户都对应于多个待合并集合，进而向终端提供各个用户所对应的多个待合并集合的标注页面，由于用户在录制视频时具有目标标志，使得标注人员在进行标注时，不仅可以比对人脸图像与用户的证件照，还可以通过比对目标标志来进行快速标注，快速地给出多个待合并集合的标注信息，极大程度地保证了在测试过程中标注环节的误差，基于上述情况，还可以根据测试数据的标注信息与测试数据的实际情况，对第一服务器侧的聚类算法以及第二服务器侧确定待合并集合的算法进行优化，提升了图像处理过程的准确率和可信度，从而可以将优化后的聚类算法和确定待合并集合的算法投入到用于训练人脸相似度模型的人脸图像的获取过程中。

图10是本发明实施例提供的一种图像处理方法的原理性示意图，参见图10，示意性地，在一些针对监控视频的人脸数据挖掘场景中，第一服务器从挂载的SSD或机械硬盘中获取监控视频，对该监控视频进行人脸检测和人脸跟踪，得到多个人脸图像，根据IQA获取多个人脸图像的图像质量分，优选出图像质量分较高的人脸图像，删除掉图像质量分较低的人脸图像，将优选出的各个人脸图像上传至第一存储设备，每当优选出的人脸图像累计到20000个(或者对监控视频处理完毕)时，对这20000个人脸图像进行特征提取，得到该20000个人脸图像的人脸特征，按照该20000个人脸图像的人脸特征，对该20000个人脸图像进行聚类处理，实现对监控视频中跨时段、跨地点的人脸图像的归类，得到至少一个第一图像集合，将该至少一个第一图像集合以及对应的人脸特征上传至第一存储设备，将该至少一个第一图像集合发送至第二服务器，通知web(网页)标注系统。

第二服务器(也即是web标注系统的后台服务器)接收该至少一个第一图像集合，将该至少一个第一图像集合上传至第二存储设备，第二服务器向终端提供第一标注页面(或第二标注页面)，终端基于第一标注页面(或第二标注页面)从第二存储设备中查询并下载人脸图像之后，根据用户的标注操作，终端生成标注信息(或对象标签)，将第二服务器发送该标注信息(或对象标签)，第二服务器获取该标注信息(或对象标签)，对至少一个第一图像集合筛选，确定出具有第一标注信息或符合频次条件的人脸图像，将第二存储设备中其余的人脸图像删除，实现对各个第一图像集合内部的“拆分”标注，对第一图像集合内部的人脸图像进行筛选。

在确定人脸图像之后，第二服务器从第一存储设备中下载各个人脸图像的人脸特征，根据每个第一图像集合的平均人脸特征，根据各个平均人脸特征之间的相似度，确定出各个第一图像集合对应的多个待合并集合，向终端提供第三标注页面，获取终端发送的合并标签，对各个第一图像集合进行合并，实现对第一图像集合之间的“合并”标注，生成至少一个第三图像集合，提升了人脸图像之间的聚合度，对第二存储设备中存储的人脸图像所对应的图像集合进行更新(从第一图像集合更新为对应的第三图像集合)。

在上述过程中，通过“拆分”、“合并”两次标注，能够实现在得到的人脸图像中，尽量保证单一的第三图像集合对应于单一的目标对象，相当于对同一个目标对象在第二存储设备中建立一个单一的人脸数据“档案”，优化了属于同一个目标对象的人脸图像分散在不同图像集合所造成的数据松散问题，提升了用于训练人脸相似度模型的人脸图像的聚合度，也就提升了人脸相似度模型的智能性。

在上述过程中，有效地利用了监控视频内的人脸数据，避免了由于置信概率准确度低所造成的数据误筛问题，使得在不增加额外的人力成本的同时，保证了用于训练人脸相似度模型的人脸图像的产出率，此外将图像处理过程部署在线上，避免了频繁的数据复制工作，避免了存储介质损坏导致的延误问题，大幅提升了标注效率，第二服务器还可以为人脸数据的需求方提供质检接口或统计接口，使得人脸数据的需求方可以实时地查看人脸图像的标注信息的统计结果。

图11是本发明实施例提供的一种图像处理装置的结构示意图，参见图11，在该装置中可以包括得到模块1101、获取模块1102和筛选模块1103，下面进行详述：

得到模块1101，用于基于多个人脸图像，得到至少一个第一图像集合，该至少一个第一图像集合中各个人脸图像的相似度符合目标条件；

获取模块1102，用于获取该至少一个第一图像集合中各个人脸图像的标注信息；

筛选模块1103，用于根据该至少一个第一图像集合中各个人脸图像的标注信息，对该至少一个第一图像集合中各个人脸图像进行筛选，得到标注信息为第一标注信息的人脸图像。

本发明实施例提供的装置，通过多个人脸图像得到至少一个第一图像集合，根据各个第一图像集合中各个人脸图像的标注信息，确定标注信息为第一标注信息的人脸图像，由于并不基于置信概率进行人脸图像的筛选，也就避免了由于置信概率准确度不高所造成的人脸图像误筛问题，而由于先按照相似度对多个人脸图像进行了第一图像集合的划分，获取到了相似度符合目标条件的第一图像集合的标注信息，能够大大降低标注时投入的人力成本，因此可以在不额外增加人力成本的基础上，提升了用于训练人脸相似度模型的人脸图像的产出率，也就提升了人脸相似度模型的智能性。

在一种可能实施方式中，该获取模块1102用于：

向终端发送包括该至少一个第一图像集合的标注入口的第一标注页面；

接收该终端基于该第一标注页面返回的该至少一个第一图像集合中各个人脸图像的标注信息。

在一种可能实施方式中，基于图11的装置组成，该装置还包括：

该获取模块1102，还用于获取该第二图像集合中各个人脸图像的对象标签；

该筛选模块1103，还用于根据该第二图像集合中各个人脸图像的对象标签以及各个对象标签的出现频次，对该第二图像集合中各个人脸图像进行筛选，得到对象标签的出现频次符合频次条件的人脸图像。

在一种可能实施方式中，该筛选模块1103用于：

获取该第二图像集合中各个人脸图像的对象标签中出现频次最高的对象标签，确定该出现频次最高的对象标签所对应的人脸图像。

在一种可能实施方式中，该获取模块1102用于：

向终端发送包括该第二图像集合的标注入口的第二标注页面；

接收该终端基于该第二标注页面返回的该第二图像集合中各个人脸图像的对象标签。

在一种可能实施方式中，基于图11的装置组成，该合并模块包括：

第一确定单元，用于对任一第一图像集合，根据该第一图像集合中各个人脸图像的人脸特征，确定与该第一图像集合对应的多个待合并集合；

获取单元，用于获取该第一图像集合对应的该多个待合并集合的合并标签；

第二确定单元，用于根据该多个待合并集合的合并标签，从该多个待合并集合中，确定合并标签为目标合并标签的一个或多个待合并集合；

合并单元，用于将该第一图像集合与该一个或多个待合并集合合并，得到一个第三图像集合。

在一种可能实施方式中，该第一确定单元包括：

获取子单元，用于获取该第一图像集合的平均人脸特征；

排序子单元，用于按照与该平均人脸特征之间的相似度从大到小的顺序，对除了该第一图像集合之外的第一图像集合进行排序；

确定子单元，用于将排序位于前第一目标数量的第一图像集合确定为该多个待合并集合。

在一种可能实施方式中，该获取子单元用于：

获取该第一图像集合中图像质量分位于前第二目标数量的人脸图像；

将该前第二目标数量的人脸图像的人脸特征的平均特征确定为该平均人脸特征。

在一种可能实施方式中，该获取单元用于：

接收该终端基于该第三标注页面返回的该多个待合并集合的合并标签。

在一种可能实施方式中，基于图11的装置组成，该得到模块1101包括：

提取单元，用于对该多个人脸图像进行特征提取，得到该多个人脸图像的人脸特征；

聚类单元，用于根据该多个人脸图像的人脸特征，对该多个人脸图像进行聚类处理，得到该至少一个第一图像集合。

在一种可能实施方式中，该聚类单元用于：

将该多个人脸图像的人脸特征输入聚类模型，通过该聚类模型获取各个人脸图像的人脸特征之间的相似度，将相似度符合该目标条件的多个人脸图像分配至同一个第一图像集合。

获取该多个人脸图像的图像质量分，删除图像质量分低于质量分阈值的人脸图像。

需要说明的是：上述实施例提供的图像处理装置在处理数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见图像处理方法实施例，这里不再赘述。

图12是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条指令，该至少一条指令由该处理器1201加载并执行以实现上述各个方法实施例提供的图像处理方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由终端中的处理器执行以完成上述实施例中图像处理方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述至少一个第一图像集合中各个人脸图像的标注信息包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将标注信息为第二标注信息的至少一个人脸图像添加至第二图像集合；

获取所述第二图像集合中各个人脸图像的对象标签；

根据所述第二图像集合中各个人脸图像的对象标签以及各个对象标签的出现频次，对所述第二图像集合中各个人脸图像进行筛选，得到对象标签的出现频次符合频次条件的人脸图像。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二图像集合中各个人脸图像的对象标签以及各个对象标签的出现频次，对所述第二图像集合中各个人脸图像进行筛选，得到对象标签的出现频次符合频次条件的人脸图像包括：

5.根据权利要求3所述的方法，其特征在于，所述获取所述第二图像集合中各个人脸图像的对象标签包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第一图像集合中各个人脸图像的标注信息，对所述至少一个第一图像集合中各个人脸图像进行筛选，得到标注信息为第一标注信息的人脸图像之后，所述方法还包括：

根据各个人脸图像的人脸特征，将至少一个第一图像集合合并为至少一个第三图像集合，每个第三图像集合中每个第一图像集合对应于一个目标对象。

7.根据权利要求6所述的方法，其特征在于，所述根据各个人脸图像的人脸特征，将至少一个第一图像集合合并为至少一个第三图像集合包括：

对任一第一图像集合，根据所述第一图像集合中各个人脸图像的人脸特征，确定与所述第一图像集合对应的多个待合并集合；

获取所述第一图像集合对应的所述多个待合并集合的合并标签；

根据所述多个待合并集合的合并标签，从所述多个待合并集合中，确定合并标签为目标合并标签的一个或多个待合并集合；

将所述第一图像集合与所述一个或多个待合并集合合并，得到一个第三图像集合。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一图像集合中各个人脸图像的人脸特征，确定与所述第一图像集合对应的多个待合并集合包括：

获取所述第一图像集合的平均人脸特征；

按照与所述平均人脸特征之间的相似度从大到小的顺序，对除了所述第一图像集合之外的第一图像集合进行排序；

将排序位于前第一目标数量的第一图像集合确定为所述多个待合并集合。

9.根据权利要求8所述的方法，其特征在于，所述获取所述第一图像集合的平均人脸特征包括：

10.根据权利要求8所述的方法，其特征在于，所述获取所述第一图像集合对应的所述多个待合并集合的合并标签包括：

11.根据权利要求1所述的方法，其特征在于，所述基于多个人脸图像，得到至少一个第一图像集合包括：

对所述多个人脸图像进行特征提取，得到所述多个人脸图像的人脸特征；

根据所述多个人脸图像的人脸特征，对所述多个人脸图像进行聚类处理，得到所述至少一个第一图像集合。

12.根据权利要求11所述的方法，其特征在于，所述根据所述多个人脸图像的人脸特征，对所述多个人脸图像进行聚类处理，得到所述至少一个第一图像集合包括：

13.一种图像处理装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的图像处理方法所执行的操作。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的图像处理方法所执行的操作。