CN113065579B

CN113065579B - 对目标对象分类的方法和装置

Info

Publication number: CN113065579B
Application number: CN202110268662.7A
Authority: CN
Inventors: 罗嫚; 刘健; 郭明宇
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-04-12
Anticipated expiration: 2041-03-12
Also published as: CN113065579A

Abstract

本说明书实施例提供一种对目标对象分类的方法和装置。方法包括：客户端获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；所述客户端通过频域变换，得到所述初始图像对应的频谱图；所述客户端将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；所述客户端向服务端发送所述频谱图和所述压缩图像，以使所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。能够提高对目标对象分类的准确率。

Description

对目标对象分类的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及对目标对象分类的方法和装置。

背景技术

目前图像识别中涉及采集目标对象的图像，以及基于图像对目标对象分类，通常由客户端和服务端配合执行。客户端所采集的目标对象的初始图像一般都是高分辨率的(例如，1080或1920)，考虑到整个链路的处理速度，通常会先将高分辨率的初始图像压缩至低分辨率(例如224或256)，再上传到服务端进行针对目标对象的分类。此压缩过程将会导致信息损失，例如大量纹理细节的丢失，从而降低分类的准确率。

因此，希望能有改进的方案，能够提高对目标对象分类的准确率。

发明内容

本说明书一个或多个实施例描述了一种对目标对象分类的方法和装置，能够提高对目标对象分类的准确率。

第一方面，提供了一种对目标对象分类的方法，方法包括：

客户端获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；

所述客户端通过频域变换，得到所述初始图像对应的频谱图；

所述客户端将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；

所述客户端向服务端发送所述频谱图和所述压缩图像，以使所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。

在一种可能的实施方式中，所述初始图像为人脸图像；

所述客户端获取通过摄像头采集的目标对象的初始图像，包括：

所述客户端获取摄像头视野中的全景图像；

检测所述全景图像中的人脸区域；

从所述全景图像中提取所述人脸区域，以得到所述人脸图像。

进一步地，所述从所述全景图像中提取所述人脸区域，以得到所述人脸图像，包括：

使用人脸质量评估模型，评估所述人脸区域中人脸的质量分；

在所述质量分大于预设阈值的情况下，将所述人脸区域的图像作为所述人脸图像。

在一种可能的实施方式中，所述频域变换包括：

快速傅里叶变换(fast Fourier transform，FFT)、离散余弦变换(discretecosine transform，DCT)或分块离散余弦变换(block discrete cosine transform，BDCT)。

第二方面，提供了一种对目标对象分类的方法，方法包括：

服务端从客户端接收目标对象的频谱图和压缩图像；其中，所述频谱图为初始图像经过频域变换得到的，所述初始图像具有第一分辨率；所述压缩图像为所述初始图像压缩后得到的，具有第二分辨率，所述第二分辨率小于所述第一分辨率；

所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。

在一种可能的实施方式中，所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类，包括：

提取所述频谱图对应的第一特征向量；

提取所述压缩图像对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入分类网络，得到所述目标对象的目标类别。

进一步地，所述提取所述频谱图对应的第一特征向量，包括：

利用卷积神经网络(convolutional neural networks，CNN)，提取所述频谱图对应的第一特征向量；其中，所述CNN通过分类约束来预先训练。

提取所述频谱图中的预设特征点，根据所述预设特征点确定所述第一特征向量。

将所述频谱图输入第一分类模型，通过所述第一分类模型得到所述目标对象分别对应于各个预设类别的各第一得分；

将所述压缩图像输入第二分类模型，通过所述第二分类模型得到所述目标对象分别对应于所述各个预设类别的各第二得分；

根据各第一得分和各第二得分，从所述各个预设类别中综合确定所述目标对象的目标类别。

在一种可能的实施方式中，所述初始图像为人脸图像；

所述对所述目标对象分类，包括：

对所述目标对象进行二分类，所述二分类的两种类别为：所述目标对象是活体，所述目标对象不是活体。

第三方面，提供了一种对目标对象分类的装置，所述装置设置于客户端，所述装置包括：

获取单元，用于获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；

频域变换单元，用于通过频域变换，得到所述获取单元获取的初始图像对应的频谱图；

压缩单元，用于将所述获取单元获取的初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；

发送单元，用于向服务端发送所述频域变换单元得到的频谱图和所述压缩单元得到的压缩图像，以使所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。

第四方面，提供了一种对目标对象分类的装置，所述装置设置于服务端，所述装置包括：

接收单元，用于从客户端接收目标对象的频谱图和压缩图像；其中，所述频谱图为初始图像经过频域变换得到的，所述初始图像具有第一分辨率；所述压缩图像为所述初始图像压缩后得到的，具有第二分辨率，所述第二分辨率小于所述第一分辨率；

分类单元，用于根据所述接收单元接收的所述频谱图和所述压缩图像对所述目标对象分类。

第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一或二方面的方法。

第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一或二方面的方法。

通过本说明书实施例提供的方法和装置，客户端首先获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；然后通过频域变换，得到所述初始图像对应的频谱图；接着将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；最后向服务端发送所述频谱图和所述压缩图像，以使所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。由上可见，本说明书实施例，客户端不仅向服务端发送压缩图像，还向服务端发送频谱图，该频谱图中包含了初始图像中的完整的频域信息，从而可以弥补压缩图像中的信息损失，服务端根据所述频谱图和所述压缩图像对所述目标对象分类，相对于服务端仅根据压缩图像对所述目标对象分类，能够提高对目标对象分类的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的对目标对象分类的方法交互示意图；

图3示出根据一个实施例的对目标对象分类的装置的示意性框图；

图4示出根据另一个实施例的对目标对象分类的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及对目标对象分类。参照图1，目标对象为人、包含人像的照片、或者人物雕像等，其中，人是活体，照片或者人物雕像不是活体。人脸识别中，常常需要进行活体攻击的检测，也就是说，对目标对象进行二分类，所述二分类的两种类别为：所述目标对象是活体，所述目标对象不是活体。本说明书实施例，由客户端11和服务端12配合实现对目标对象分类，客户端11首先获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率，然后通过频域变换，得到所述初始图像对应的频谱图，接着将所述初始图像压缩后，得到具有第二分辨率的压缩图像，其中，所述第二分辨率小于所述第一分辨率，最后向服务端12发送所述频谱图和所述压缩图像，以使所述服务端12根据所述频谱图和所述压缩图像对所述目标对象分类，由于频谱图中包含了初始图像中的完整的频域信息，从而可以弥补压缩图像中的信息损失，服务端12根据所述频谱图和所述压缩图像对所述目标对象分类，相对于服务端12仅根据压缩图像对所述目标对象分类，能够提高对目标对象分类的准确率。

需要说明的是，本说明书实施例可以但并不限定于上述实施场景，对目标对象分类并不一定是人脸识别中用到，可以用于任何图像识别场景，例如，还可以是指纹识别等。

图2示出根据一个实施例的对目标对象分类的方法交互示意图，该方法可以基于图1所示的实施场景，执行主体包括客户端和服务端。如图2所示，该实施例中对目标对象分类的方法包括以下步骤：步骤21，客户端获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；步骤22，客户端通过频域变换，得到所述初始图像对应的频谱图；步骤23，客户端将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；步骤24，客户端向服务端发送所述频谱图和所述压缩图像；步骤25，服务端根据所述频谱图和所述压缩图像对所述目标对象分类。下面描述以上各个步骤的具体执行方式。

首先在步骤21，客户端获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率。可以理解的是，摄像头与客户端可以是一体的，也可以是分体的，例如，客户端可以为手机，通过手机自带的摄像头采集目标对象的初始图像，或者，通过与手机独立设置的摄像头采集目标对象的初始图像，手机与独立设置的摄像头之间具有通信连接。

在一个示例中，所述初始图像为人脸图像；

所述客户端获取摄像头视野中的全景图像；

检测所述全景图像中的人脸区域；

可以理解的是，上述全景图像除了包括人脸区域，还可能包括人的其他身体部位的影像，或者还包括人所处的环境的影像，通过运行人脸检测算法，可以提取摄像头视野中最大的人脸区域。检测所述全景图像中的人脸区域。从所述全景图像中提取所述人脸区域，具体可以是从所述全景图像中提取包括所述人脸区域的矩形区域。

本说明书实施例，在摄像头采集目标对象的初始图像之前，还可以初始化摄像头并完成参数设置。

可以理解的是，在所述质量分小于或等于预设阈值的情况下，可以获取通过摄像头再次采集的目标对象的初始图像，直到所述质量分大于预设阈值。由于目标对象所处环境的亮度可能会影响通过摄像头采集的图像的质量，相应地，会影响人脸的质量分，通过摄像头再次采集目标对象的初始图像之前，还可以提醒用户改变环境的亮度。

然后在步骤22，客户端通过频域变换，得到所述初始图像对应的频谱图。可以理解的是，上述频域变换将二维图像从空间域变换到频域。

在一个示例中，所述频域变换包括：

其中，FFT是离散傅里叶变换的快速计算形式，基于傅里叶变换提取频谱信息；相比FFT，DCT具有更好的频域能量聚集度，对于那些不重要的频域区域和系数就能够直接裁剪掉；BDCT是在DCT的基础上进一步改进，DCT变换的复杂度比较高，BDCT将图像进行分块，然后在每一块中对图像进行DCT变换和反变换，再合并分块，从而提升变换的效率。

本说明书实施例可以采用上述任一种频域变换，以得到所述初始图像对应的频谱图，以FFT为例，调用如下FFT频域变换函数来提取频域信息，以得到频谱图：

其中，x_n表示空间域的信息，X_k表示频域信息。

本说明书实施例，用户对于上述频域变换过程，可以无感知。

接着在步骤23，客户端将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率。可以理解的是，分辨率越高，则图像越清晰，越能分辨出图像的纹理细节。

本说明书实施例，第一分辨率和第二分辨率的具体数值可以是预先设定的。

再在步骤24，客户端向服务端发送所述频谱图和所述压缩图像。可以理解的是，所述频谱图和所述压缩图像都对应于目标对象的初始图像，频谱图相对于初始图像无频域信息的损失，而压缩图像相对于初始图像具有频域信息的损失。

在一个示例中，客户端将所述频谱图和所述压缩图像一起打包后，将打包后得到的压缩包发送给服务端。

最后在步骤25，服务端根据所述频谱图和所述压缩图像对所述目标对象分类。可以理解的是，分类的依据包括了频域信息和空间域的信息。

本说明书实施例，若客户端将所述频谱图和所述压缩图像一起打包后，将打包后得到的压缩包发送给服务端，则服务端需要对该压缩包进行解压，得到所述频谱图和所述压缩图像。

在一个示例中，所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类，包括：

提取所述频谱图对应的第一特征向量；

提取所述压缩图像对应的第二特征向量；

可以理解的是，上述分类约束具体可以取决于目标对象分类的类别。

本说明书实施例，可以通过两个不同的神经网络分别提取频谱图和压缩图像的特征向量，然后将两个特征向量进行串接(concate)之后，最后使用同一个交叉熵损失进行约束训练。这种方式是深度学习的方式，通过训练网络模型来学习，依赖数据集质量和规模，可以学习到更泛化的高维特征。

举例来说，可以采用AKAZE和方向梯度直方图(histogram of orientedgradient，HOG)等传统计算机视觉中提取角点特征的算子，这种方式可以清楚每一步的公式步骤和含义。

本说明书实施例，可以采取与提取第一特征向量类似的方式，提取所述压缩图像对应的第二特征向量。

在另一个示例中，所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类，包括：

本说明书实施例，可以预先设定第一得分对应的第一权重，以及第二得分对应的第二权重，采用加权求和的方式，确定综合得分，根据该综合得分与预设分数阈值相比较，从而确定所述目标对象的目标类别。或者，采用决策树的方式，先根据第二得分确定所述目标对象的目标类别，当第二得分无法单独确定所述目标对象的目标类别时，再结合第一得分确定所述目标对象的目标类别。

在一个示例中，所述初始图像为人脸图像；

所述对所述目标对象分类，包括：

通过本说明书实施例提供的方法，客户端首先获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；然后通过频域变换，得到所述初始图像对应的频谱图；接着将所述初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；最后向服务端发送所述频谱图和所述压缩图像，服务端根据所述频谱图和所述压缩图像对所述目标对象分类。由上可见，本说明书实施例，客户端不仅向服务端发送压缩图像，还向服务端发送频谱图，该频谱图中包含了初始图像中的完整的频域信息，从而可以弥补压缩图像中的信息损失，服务端根据所述频谱图和所述压缩图像对所述目标对象分类，相对于服务端仅根据压缩图像对所述目标对象分类，能够提高对目标对象分类的准确率。

根据另一方面的实施例，还提供一种对目标对象分类的装置，所述装置设置于客户端，用于执行本说明书提供的方法实施例中客户端的动作。图3示出根据一个实施例的对目标对象分类的装置的示意性框图。如图3所示，该装置300包括：

获取单元31，用于获取通过摄像头采集的目标对象的初始图像，所述初始图像具有第一分辨率；

频域变换单元32，用于通过频域变换，得到所述获取单元31获取的初始图像对应的频谱图；

压缩单元33，用于将所述获取单元31获取的初始图像压缩后，得到具有第二分辨率的压缩图像；其中，所述第二分辨率小于所述第一分辨率；

发送单元34，用于向服务端发送所述频域变换单元32得到的频谱图和所述压缩单元33得到的压缩图像，以使所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类。

可选地，作为一个实施例，所述初始图像为人脸图像；

所述获取单元31包括：

获取子单元，用于获取摄像头视野中的全景图像；

检测子单元，用于检测所述获取子单元获取的全景图像中的人脸区域；

提取子单元，用于从所述获取子单元获取的全景图像中提取所述检测子单元检测的人脸区域，以得到所述人脸图像。

进一步地，所述提取子单元包括：

评估模块，用于使用人脸质量评估模型，评估所述人脸区域中人脸的质量分；

提取模块，用于在所述评估模块得到的质量分大于预设阈值的情况下，将所述人脸区域的图像作为所述人脸图像。

可选地，作为一个实施例，所述频域变换包括：

快速傅里叶变换FFT、离散余弦变换DCT或分块离散余弦变换BDCT。

根据另一方面的实施例，还提供一种对目标对象分类的装置，所述装置设置于服务端，用于执行本说明书提供的方法实施例中服务端的动作。图4示出根据另一个实施例的对目标对象分类的装置的示意性框图。如图4所示，该装置400包括：

接收单元41，用于从客户端接收目标对象的频谱图和压缩图像；其中，所述频谱图为初始图像经过频域变换得到的，所述初始图像具有第一分辨率；所述压缩图像为所述初始图像压缩后得到的，具有第二分辨率，所述第二分辨率小于所述第一分辨率；

分类单元42，用于根据所述接收单元41接收的所述频谱图和所述压缩图像对所述目标对象分类。

可选地，作为一个实施例，所述分类单元42包括：

第一特征提取子单元，用于提取所述频谱图对应的第一特征向量；

第二特征提取子单元，用于提取所述压缩图像对应的第二特征向量；

分类子单元，用于将所述第一特征提取子单元提取的第一特征向量和所述第二特征提取子单元提取的第二特征向量输入分类网络，得到所述目标对象的目标类别。

进一步地，所述第一特征提取子单元，具体用于利用卷积神经网络CNN，提取所述频谱图对应的第一特征向量；其中，所述CNN通过分类约束来预先训练。

进一步地，所述第一特征提取子单元，具体用于提取所述频谱图中的预设特征点，根据所述预设特征点确定所述第一特征向量。

可选地，作为一个实施例，所述分类单元42包括：

第一分类子单元，用于将所述频谱图输入第一分类模型，通过所述第一分类模型得到所述目标对象分别对应于各个预设类别的各第一得分；

第二分类子单元，用于将所述压缩图像输入第二分类模型，通过所述第二分类模型得到所述目标对象分别对应于所述各个预设类别的各第二得分；

融合子单元，用于根据所述第一分类子单元得到的各第一得分和所述第二分类子单元得到的各第二得分，从所述各个预设类别中综合确定所述目标对象的目标类别。

可选地，作为一个实施例，所述初始图像为人脸图像；

所述分类单元42，具体用于对所述目标对象进行二分类，所述二分类的两种类别为：所述目标对象是活体，所述目标对象不是活体。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种对目标对象分类的方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述初始图像为人脸图像；

所述客户端获取摄像头视野中的全景图像；

检测所述全景图像中的人脸区域；

3.如权利要求2所述的方法，其中，所述从所述全景图像中提取所述人脸区域，以得到所述人脸图像，包括：

4.如权利要求1所述的方法，其中，所述频域变换包括：

5.一种对目标对象分类的方法，所述方法包括：

6.如权利要求5所述的方法，其中，所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类，包括：

提取所述频谱图对应的第一特征向量；

提取所述压缩图像对应的第二特征向量；

7.如权利要求6所述的方法，其中，所述提取所述频谱图对应的第一特征向量，包括：

利用卷积神经网络CNN，提取所述频谱图对应的第一特征向量；其中，所述CNN通过分类约束来预先训练。

8.如权利要求6所述的方法，其中，所述提取所述频谱图对应的第一特征向量，包括：

9.如权利要求5所述的方法，其中，所述服务端根据所述频谱图和所述压缩图像对所述目标对象分类，包括：

10.如权利要求5所述的方法，其中，所述初始图像为人脸图像；

所述对所述目标对象分类，包括：

11.一种对目标对象分类的装置，所述装置设置于客户端，所述装置包括：

12.如权利要求11所述的装置，其中，所述初始图像为人脸图像；

所述获取单元包括：

获取子单元，用于获取摄像头视野中的全景图像；

13.如权利要求12所述的装置，其中，所述提取子单元包括：

14.如权利要求11所述的装置，其中，所述频域变换包括：

15.一种对目标对象分类的装置，所述装置设置于服务端，所述装置包括：

16.如权利要求15所述的装置，其中，所述分类单元包括：

17.如权利要求16所述的装置，其中，所述第一特征提取子单元，具体用于利用卷积神经网络CNN，提取所述频谱图对应的第一特征向量；其中，所述CNN通过分类约束来预先训练。

18.如权利要求16所述的装置，其中，所述第一特征提取子单元，具体用于提取所述频谱图中的预设特征点，根据所述预设特征点确定所述第一特征向量。

19.如权利要求15所述的装置，其中，所述分类单元包括：

20.如权利要求15所述的装置，其中，所述初始图像为人脸图像；

所述分类单元，具体用于对所述目标对象进行二分类，所述二分类的两种类别为：所述目标对象是活体，所述目标对象不是活体。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项的所述的方法。