CN112115912B

CN112115912B - 图像识别方法、装置、计算机设备及存储介质

Info

Publication number: CN112115912B
Application number: CN202011041571.1A
Authority: CN
Inventors: 张勇; 罗宇辰; 严骏驰; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-11-28
Anticipated expiration: 2040-09-28
Also published as: CN112115912A

Abstract

本申请公开了一种图像识别方法、装置、计算机设备及存储介质。该方法包括：根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图，所述第一特征图是从所述待检测图像的残差图像中提取的特征图；根据所述第一特征图以及所述第二特征图，按照第二特征尺度获取第三特征图以及第四特征图；根据所述第三特征图以及所述第四特征图，获取特征向量；根据所述特征向量，获取所述待检测图像的识别结果，所述识别结果用于指示所述待检测图像中是否包含替换区域。通过本申请所示的方案，能够提高对通过部分区域进行替换的方式生成的合成图像的识别准确性。

Description

图像识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像识别方法、装置、计算机设备及存储介质。

背景技术

随着深度生成模型的快速发展，使得网络出现大量的换脸图像。这些换脸图像危害网络安全和侵害用户隐私。

在相关技术中，对于通过部分区域替换的方式生成的合成图像(典型的比如换脸图像)的识别，通常使用高频滤波器将RGB图像转化到高频空间，并对RGB和高频图像分别建立网络分支，在网络末端将高层特征进行融合，并通过融合后的特征进行识别。

然而，相关技术中特征提取和融合方式得到的特征的丰富程度不足，影响对通过部分区域进行替换的方式生成的合成图像的准确性。

发明内容

本申请实施例提供了一种图像识别方法、装置、计算机设备及存储介质，可以用于提高对通过部分区域进行替换的方式生成的合成图像的识别准确性，该技术方案如下：

一方面，本申请实施例提供了一种图像识别方法，所述方法由计算机设备执行，所述方法包括：

根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图，所述第一特征图是从所述待检测图像的残差图像中提取的特征图，所述第二特征图是所述待检测图像的特征图；

根据所述第一特征图以及所述第二特征图，按照第二特征尺度获取第三特征图以及第四特征图，所述第三特征图中包含所述第二特征图的图像信息，所述第四特征图是所述第二特征图的特征图，所述第二特征尺度小于所述第一特征尺度；

根据所述第三特征图以及所述第四特征图，获取特征向量；

根据所述特征向量，获取所述待检测图像的识别结果，所述识别结果用于指示所述待检测图像中是否包含替换区域，所述替换区域用于指示所述待检测图像中对应所述替换区域的图像内容被替换。

另一方面，本申请实施例提供了一种图像识别装置，所述装置用于计算机设备中，所述装置包括：

第一获取模块，用于根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图，所述第一特征图是从所述待检测图像的残差图像中提取的特征图，所述第二特征图是所述待检测图像的特征图；

第二获取模块，用于根据所述第一特征图以及所述第二特征图，按照第二特征尺度获取第三特征图以及第四特征图，所述第三特征图中包含所述第二特征图的图像信息，所述第四特征图是所述第二特征图的特征图，所述第二特征尺度小于所述第一特征尺度；

向量获取模块，用于根据所述第三特征图以及所述第四特征图，获取特征向量；

图像识别模块，用于根据所述特征向量，获取所述待检测图像的识别结果，所述识别结果用于指示所述待检测图像中是否包含替换区域，所述替换区域用于指示所述待检测图像中对应所述替换区域的图像内容被替换。

在一种可能的实现方式中，所述第一获取模块，用于，

根据待检测图像，生成所述待检测图像的残差图像；

根据所述待检测图像的残差图像，按照所述第一特征尺度获取所述第一特征图；

根据所述待检测图像，按照所述第一特征尺度获取所述第二特征图。

在一种可能的实现方式中，所第二获取模块，用于，

根据所述第二特征图，生成所述第二特征图的残差图像；

将所述第二特征图的残差图像以及所述第一特征图进行拼接，获取第一拼接图像；

根据所述第一拼接图像，按照所述第二特征尺度获取所述第三特征图；

根据所述第二特征图，按照所述第二特征尺度获取所述第四特征图。

在一种可能的实现方式中，所述图像识别模块，用于，

根据所述特征向量，计算预测概率，所述预测概率用于指示所述待检测图像中是否包含所述替换区域的概率；

根据所述预测概率，获得所述识别结果。

在一种可能的实现方式中，所述向量获取模块，用于，

根据所述第四特征图，生成所述第四特征图的残差图像；

将所述第二特征图的残差图像以及所述第三特征图进行拼接，获取第二拼接图像；

根据所述第二拼接图像以及所述第四特征图，获取所述特征向量。

在一种可能的实现方式中，所述向量获取模块，用于，

根据所述第二拼接图像，获取所述第二拼接图像的特征向量；

根据所述第四特征图，获取所述第四特征图的特征向量；

将所述第二拼接图像的特征向量与所述第四特征图的特征向量进行拼接，获取所述特征向量。

在一种可能的实现方式中，所述待检测图像是RGB红绿蓝图像。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的图像识别方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的图像识别方法。

一个方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得所述计算机设备执行上述一个方面提供的图像识别方法。

本申请提供的技术方案可以包括以下有益效果：

通过从待检测图像的残差图像中按照第一特征尺度获取残差图像的特征图，按照第一特征尺度获取待检测图像的特征图，并继续根据残差图像的特征图以及待检测图像的特征图，按照第二特征尺度获取第三特征图以及第四特征图，其中，第二特征尺度小于第一特征尺度；根据第三特征图以及第四特征图获取对应的特征向量，从而获取待检测图像的识别结果，识别结果用于指示待检测图像中是否包含替换区域。通过本申请所示的方案，在按照第一特征尺度以及第二特征尺度对图像特征进行截取的情况下，可以使得提取到的特征丰富程度更高，从而提高对通过部分区域进行替换的方式生成的合成图像的识别准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一示例性实施例涉及的一种图像检测系统的结构示意图；

图2是本申请实施例提供的一种图像识别方法的方法流程图；

图3是本申请实施例提供的一种图像识别方法的方法流程图；

图4是本申请实施例提供的一种图像识别方法的方法流程图；

图5是本申请一示例性实施例涉及的一种图像识别装置的结构方框示意图；

图6是本申请一个示例性实施例示出的计算机设备的结构框图；

图7是本申请一个示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着科学技术的进步和发展，人们在日常生活中可以通过使用终端对环境以及自身进行拍照，得到各种各样的照片，人们还可以对这些照片进行处理，将其中包含的图像替换，或者，通过多个照片进行结合获得合成图像等。

请参考图1，其示出了本申请一示例性实施例涉及的一种图像检测系统的结构示意图。如图1所示，该图像检测系统可以包括终端110和服务器120。

终端110可以是具有图像拍摄或者图像检测功能的终端设备，比如，该终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、膝上型便携计算机和台式计算机等等。

服务器120是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

终端110与服务器120之间通过通信网络相连。可选的，该通信网络可以是有线网络或无线网络。

可选地，上述的无线网络或者有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

可选地，上述终端110可以具有图像检测功能，比如，终端110中可以运行有某个图像检测系统对应的应用程序，该应用程序可以提供相应的图像检测功能，通过终端可以对用户上传的照片进行检测，查看该照片否符合。或者，上述服务器120中具有图像检测系统，终端可以将用户上传的照片再次通过通信网络发送给服务器，由服务器进行检测。

目前，在很多方面都需要用到通过照片实现安全性的检测，因此，在相关技术中，这些检测方案一般都是通常使用高频滤波器将RGB图像转化到高频空间，并对RGB和高频图像分别建立网络分支，在网络末端将高层特征进行融合，并通过融合后的特征进行识别。其中，由于特征提取和融合方式得到的特征的丰富程度不足，影响了对通过部分区域进行替换的方式生成的合成图像的准确性，造成终端或者服务器对合成的照片识别的准确性低的问题。

为了解决上述相关技术中存在的技术问题，提高对图像识别的准确性，本申请实施例提供了一种图像识别方法，请参考图2，其示出了本申请实施例提供的一种图像识别方法的方法流程图，该方法可以用于上述图1所示的图像检测系统中，由该系统中的终端或者服务器执行，如图2所示，该方法可以包括如下步骤：

步骤201，根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图。

其中，第一特征图是从待检测图像的残差图像中提取的特征图，第二特征图是待检测图像的特征图。

可选地，待检测图像可以是图像识别系统接收到的任意一个需要检测的图像，残差图像可以看做是对待检测图像通过高频滤波器将待检测图像转化到高频空间后的图像。

步骤202，根据第一特征图以及第二特征图，按照第二特征尺度获取第三特征图以及第四特征图。

其中，第三特征图中包含第二特征图的图像信息，第四特征图是第二特征图的特征图，第二特征尺度小于第一特征尺度。

步骤203，根据第三特征图以及第四特征图，获取特征向量。

步骤204，根据特征向量，获取待检测图像的识别结果。

其中，识别结果用于指示待检测图像中是否包含替换区域，替换区域用于指示待检测图像中对应替换区域的图像内容被替换。

综上所述，通过从待检测图像的残差图像中按照第一特征尺度获取残差图像的特征图，按照第一特征尺度获取待检测图像的特征图，并继续根据残差图像的特征图以及待检测图像的特征图，按照第二特征尺度获取第三特征图以及第四特征图，其中，第二特征尺度小于第一特征尺度；根据第三特征图以及第四特征图获取对应的特征向量，从而获取待检测图像的识别结果，识别结果用于指示待检测图像中是否包含替换区域。通过本申请所示的方案，在按照第一特征尺度以及第二特征尺度对图像特征进行截取的情况下，可以使得提取到的特征丰富程度更高，从而提高对通过部分区域进行替换的方式生成的合成图像的识别准确性。

在一种可能实现的方式中，上述待检测图像是RGB(Red、Green、Blue，红绿蓝)图像为例，对上述图2所示的方法实施例进行举例介绍。

请参考图3，其示出了本申请实施例提供的一种图像识别方法的方法流程图，该方法可以用于上述图1所示的图像检测系统中，由该系统中的终端或者服务器执行，如图3所示，该方法可以包括如下步骤：

步骤301，根据待检测图像，生成待检测图像的残差图像。

可选地，本申请中，计算机设备(终端或者服务器)可以通过机器学习模型训练出提供本申请的图像识别方法，在计算机设备向训练好的机器学习模型中输入待检测图像后，计算机设备可以通过该机器学习模型执行本方案执行的各个步骤。

可选地，在本申请中，机器学习模型训练的过程中，可以基于Xception模型结构基础，使用两个Xception网络，并且更改Xception网络中的前两个卷积公式，使得提取高频特征后的网络结构与Xception的一致。比如，上述机器学习模型数据的尺寸可以是256*256。其中，模型训练时可以采用标准的Cross-Entropy损失函数来训练模型，Cross-Entropy损失函数如下：

其中，y_n∈{0，1}是标注(即，实际包含替换区域的情况),p_n∈[0，1]为预测概率(即，指示图像是否是包含替换区域的概率)。

可选地，计算机设备根据输入的待检测图像，通过高频滤波器对待检测图像进行过滤，生成待检测图像的残差图像。其中，该高频滤波器可以是SRM(Steganalysis RichModel convolution，隐写分析富模型卷积)滤波器。该滤波器的形式可以如下：

或者，该滤波器的形式可以如下：

可选地，以上述待检测图像的尺寸大小为256*256，高频滤波器采用了上述3个高频滤波器为例，计算机设备将待检测图像输入至高频滤波器后，可以通过上述3个高频滤波器分别对待检测图像进行卷积，并采用Hardtanh(-3,3)作为激励函数，得到3*256*256的残差图像。

步骤302，根据待检测图像的残差图像，按照第一特征尺度获取第一特征图。

可选地，对得到的待检测图像的残差图像进行特征提取时，可以按照第一特征尺度进行提取，该第一特征尺度可以是开发人员预先设计在机器学习模型中的。例如，开发人员可以对第一特征尺度对应的分别为三个维度H(Height，高度)，W(Width，宽度)，C(Channel，深度)分别进行设置，控制提取到的第一特征图的维度。

比如，第一特征尺度对应的H，W，C分别是H₁，W₁，C₁，那么，计算机设备根据待检测图像的残差图像进行特征提取后，可以得到特征尺度为H₁，W₁，C₁的第一特征图。可选地，计算机设备在根据待检测图像的残差图像，按照第一特征尺度获取第一特征图时，可以按照C通道的特征图进行卷积，同样采用Hardtanh(-3,3)作为激励函数，得到残差图像对应的特征图。

步骤303，根据待检测图像，按照第一特征尺度获取第二特征图。

可选地，计算机设备可以对待检测图像直接进行卷积，按照第一特征尺度获取到对应的第二特征图。其中，获取第二特征图的卷积方式可以参照上述获取第一特征图的卷积方式，此处不再赘述。

步骤304，根据第二特征图，生成第二特征图的残差图像。

可选地，本申请中，可以再次通过高频滤波器对第二特征图进行处理，得到第二特征图的残差图像。可选地，该高频滤波器可以与上述的高频滤波器相同，此处不再赘述。

步骤305，将第二特征图的残差图像以及第一特征图进行拼接，获取第一拼接图像。

可选地，本申请中可以对上述得到的第二特征图的残差图像以及第一特征图进行拼接，获取两者的拼接结果。其中，该拼接方法可以通过深度维度直接拼接的方式，也可以通过注意力机制的特征融合方式进行拼接，本申请实施例对特征图之间的拼接方式并不加以限定。

例如，本申请可以通过1*1的卷积将第二特征图的残差图像以及第一特征图按照C通道维度进行拼接，获取到第一拼接图像，该第一拼接图像中便可以包含第二特征图的信息。

步骤306，根据第一拼接图像，按照第二特征尺度获取第三特征图。

可选地，本申请可以通过卷积的形式，对第一拼接图像进行特征提取，提取到第二特征尺度的第三特征图，由于第一拼接图像中包含第二特征图的图像信息，那么，根据第一拼接图像获取的第三特征图中也包含有第二特征图的图像信息。

步骤307，根据第二特征图，按照第二特征尺度获取第四特征图。

可选地，本步骤中也可以通过卷积的形式，对第二特征图进行特征提取，提取到第二特征尺度的第四特征图，第四特征图相当于是第二特征图的特征图。

步骤308，根据第四特征图，生成第四特征图的残差图像。

可选地，本步骤中还可以根据第四特征图通过上述高频滤波器进行处理，得到第四特征图的残差图像。

步骤309，将第四特征图的残差图像以及第三特征图进行拼接，获取第二拼接图像。

可选地，本步骤中的拼接方式可以参照上述步骤305中获取第一拼接图像的方式，此处不再赘述。

步骤310，根据第二拼接图像以及第四特征图，获取特征向量。

在一种可能实现的方式中，根据第二拼接图像，获取第二拼接图像的特征向量；根据第四特征图，获取第四特征图的特征向量；将第二拼接图像的特征向量与第四特征图的特征向量进行拼接，获取特征向量。

即，在得到各个第二拼接图像以及各个第四特征图后，可以分别将各个第二拼接图像进行卷积，获取第二拼接图像的特征向量，将各个第四特征图进行卷积，获取第四特征图的特征向量，将两者的特征向量进行拼接，从而获取到特征向量。

步骤311，根据特征向量，计算预测概率，预测概率用于指示待检测图像中是否包含替换区域的概率。

可选地，特征向量拼接之后，通过一个全连接层来预测真假。比如特征为f，全连接层为W，那么输入为y＝softmax(W^T*f)。y是预测概率，y的第一位表示real，第二位表示fake，两者和为1。如果real的概率大于fake的概率，那么预测是real。

步骤312，根据预测概率，获得识别结果。

即，上述如果y的预测概率中第一位的值大于第二位的值，说明该图像未被替换，如果第一位的值不大于第二位的值，说明该图像被替换。

可选地，上述方案中是以第一特征尺度以及第二特征尺度进行举例说明的，在实际应用中，开发人员也可以设计更多的特征尺度，比如，第三特征尺度(第三特征尺度小于第二特征尺度)，在方案步骤309之前再次按照第三特征尺度提取对应的特征图，结合之前获取到的多个尺度的特征图获取特征向量，本申请对此并不加以限定。

在一种可能实现的方式中，以上述待检测图像是包含人脸的RGB图像，本申请的上述方案可以用于检测待检测图像中的人脸是否是被替换过的人脸图像。请参考图4，其示出了本申请一示例性实施例涉及的图像识别方法的方法示意图。该方法可以由计算机设备执行，如图4所示，该方法可以包括如下几个步骤：

步骤401，输入RGB图像。

步骤402，通过滤波器获取RGB图像的残差图像。

步骤403，根据RGB图像的残差图像，通过卷积获取第一特征尺度的第一特征图。

步骤404，根据RGB图像，通过卷积获取第一特征尺度的第二特征图。

步骤405，通过滤波器获取第二特征图的残差图像。

步骤406，将第二特征图的残差图像以及第一特征图进行拼接，获取第一拼接图像。

步骤407，根据第一拼接图像，通过卷积获取第二特征尺度的第三特征图。

步骤408，根据第二特征图，通过卷积获取第二特征尺度的第四特征图。

步骤409，通过滤波器获取第四特征图的残差图像。

步骤410，将第四特征图的残差图像以及第三特征图进行拼接，获取第二拼接图像。

步骤411，根据第二拼接图像以及第四特征图，获取特征向量。

步骤412，根据特征向量，计算预测概率。

可选地，上述步骤401至步骤412的执行细节可以参照上述步骤301至步骤311的过程，此处不再赘述。

请参考图5，其示出了本申请一示例性实施例涉及的一种图像识别装置的结构方框示意图。该图像识别装置可以用于计算机设备中，以执行图2或图3或图4对应实施例所示的方法中由计算机设备执行的全部或者部分步骤。该图像识别装置可以包括如下模块：

第一获取模块501，用于根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图，所述第一特征图是从所述待检测图像的残差图像中提取的特征图，所述第二特征图是所述待检测图像的特征图；

第二获取模块502，用于根据所述第一特征图以及所述第二特征图，按照第二特征尺度获取第三特征图以及第四特征图，所述第三特征图中包含所述第二特征图的图像信息，所述第四特征图是所述第二特征图的特征图，所述第二特征尺度小于所述第一特征尺度；

向量获取模块503，用于根据所述第三特征图以及所述第四特征图，获取特征向量；

图像识别模块504，用于根据所述特征向量，获取所述待检测图像的识别结果，所述识别结果用于指示所述待检测图像中是否包含替换区域，所述替换区域用于指示所述待检测图像中对应所述替换区域的图像内容被替换。

在一种可能的实现方式中，所述第一获取模块501，用于，

根据待检测图像，生成所述待检测图像的残差图像；

在一种可能的实现方式中，所第二获取模块502，用于，

根据所述第二特征图，生成所述第二特征图的残差图像；

在一种可能的实现方式中，所述图像识别模块504，用于，

根据所述预测概率，获得所述识别结果。

在一种可能的实现方式中，所述向量获取模块503，用于，

根据所述第四特征图，生成所述第四特征图的残差图像；

在一种可能的实现方式中，所述向量获取模块503，用于，

根据所述第四特征图，获取所述第四特征图的特征向量；

图6是本申请一个示例性实施例示出的计算机设备600的结构框图。所述计算机设备600包括中央处理单元(Central Processing Unit，CPU)601、包括随机存取存储器(Random Access Memory，RAM)602和只读存储器(Read Only Memory，ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读存储器)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，带电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理单元601通过执行该一个或一个以上程序来实现图1、图2或图3任一所示的方法中由计算机设备执行的全部或者部分步骤。

图7是本申请一个示例性实施例示出的计算机设备700的结构框图。该计算机设备700可以是用户终端，比如智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的信息推送方法。

在一些实施例中，计算机设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置计算机设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在计算机设备700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在计算机设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、光学传感器715以及接近传感器716。

加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在计算机设备700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时，可以检测用户对计算机设备700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法中，由计算机设备执行的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得所述计算机设备执行本申请各个实施例所示的方法中，由计算机设备执行的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，所述方法由计算机设备执行，所述方法包括：

根据所述第二特征图，生成所述第二特征图的残差图像；将所述第二特征图的残差图像以及所述第一特征图进行拼接，获取第一拼接图像；根据所述第一拼接图像，按照第二特征尺度获取第三特征图；根据所述第二特征图，按照所述第二特征尺度获取第四特征图，所述第二特征尺度小于所述第一特征尺度；

根据所述第三特征图以及所述第四特征图，获取特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据待检测图像，按照第一特征尺度获取第一特征图以及第二特征图，包括：

根据待检测图像，生成所述待检测图像的残差图像；

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量，获取所述待检测图像的识别结果，包括：

根据所述预测概率，获得所述识别结果。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述第三特征图以及所述第四特征图，获取特征向量，包括：

根据所述第四特征图，生成所述第四特征图的残差图像；

将所述第四特征图的残差图像以及所述第三特征图进行拼接，获取第二拼接图像；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二拼接图像以及所述第四特征图，获取所述特征向量，包括：

根据所述第四特征图，获取所述第四特征图的特征向量；

6.根据权利要求1至3任一所述的方法，其特征在于，所述待检测图像是RGB红绿蓝图像。

7.一种图像识别装置，其特征在于，所述装置用于计算机设备中，所述装置包括：

第二获取模块，用于根据所述第二特征图，生成所述第二特征图的残差图像；将所述第二特征图的残差图像以及所述第一特征图进行拼接，获取第一拼接图像；根据所述第一拼接图像，按照第二特征尺度获取第三特征图；根据所述第二特征图，按照所述第二特征尺度获取第四特征图，所述第二特征尺度小于所述第一特征尺度；

8.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的图像识别方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的图像识别方法。