CN115966030A

CN115966030A - 图像处理方法、装置及智能终端

Info

Publication number: CN115966030A
Application number: CN202111189978.3A
Authority: CN
Inventors: 尹邦杰; 李泽鑫; 姚太平; 吴双; 孟嘉; 丁守鸿; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2023-04-14

Abstract

本申请提出了一种图像处理方法、装置及智能终端，其中方法包括：获取待检测对象的目标图像，以及待检测对象的目标视频；调用图像处理模型的特征提取网络对目标图像进行语义特征提取处理，得到目标图像的图像特征，以及调用特征提取网络对视频帧序列进行时序特征提取处理，得到目标视频的视频特征；将图像特征和视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征；调用图像处理模型的特征分类网络对目标特征进行特征分类处理，得到待检测对象的活体检测结果。本申请可以应用于云技术、人工智能、智慧交通、车载互联网等各种场景，可以提高活体检测效率和准确率。

Description

图像处理方法、装置及智能终端

技术领域

本申请涉及计算机技术领域，具体涉及一种图像处理方法、装置及智能终端。

背景技术

随着计算机技术的不断发展和应用，越来越多的场景需要用到图像处理技术，例如通过图像处理技术对人体图像数据进行活体检测，以此保障用户的信息隐私和财产安全。然而有些不法份子利用人体翻拍图片或人体翻拍视频代替真人去进行活体检测，使活体检测系统存在安全隐患。因此，人们对活体检测技术提出了更高的要求。

目前，活体检测采用人工检测的方法，即根据检测人员的现有经验和主观意识对检测对象进行活体的检测，但是当检测对象是高仿真的人像模型或者高清照片时，容易出现误判的情况。该方法的活体检测效率低，准确率低。

发明内容

本申请提供一种图像处理方法、装置及智能终端，可以提高活体检测效率和准确率。

本申请提供了一种图像处理方法，该方法包括：获取待检测对象的目标图像，以及所述待检测对象的目标视频；

调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，以及调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征；所述视频帧序列是对所述目标视频划分后生成的；

将所述图像特征和所述视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征；

调用所述图像处理模型的特征分类网络对所述目标特征进行特征分类处理，得到所述待检测对象的活体检测结果。

本申请提供了一种图像处理装置，该装置包括：

获取模块，用于获取待检测对象的目标图像，以及上述待检测对象的目标视频；

处理模块，用于调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，以及调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征；所述视频帧序列是对所述目标视频划分后生成的；

所述处理模块，还用于将所述图像特征和所述视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征；

分类模块，用于调用所述图像处理模型的特征分类网络对所述目标特征进行特征分类处理，得到所述待检测对象的活体检测结果。

其中，所述特征提取网络包括图像特征提取网络，所述图像特征提取网络包括卷积层、池化层和全连接层；

处理模块在用于调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征时，具体用于：

调用所述卷积层对所述目标图像进行卷积处理，得到卷积特征；

调用所述池化层对所述卷积特征进行池化处理，得到池化特征；

调用所述全连接层对所述池化特征进行全连接处理，得到所述目标图像的图像特征。

其中，所述特征提取网络还包括视频特征提取网络，所述视频特征提取网络包括深度特征网络和长短期记忆网络，所述视频帧序列包括N个视频帧，N是正整数；

处理模块在用于调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

调用所述深度特征网络提取每个视频帧的视频帧特征；

调用所述长短期记忆网络对N个视频帧特征进行时序特征提取处理，得到所述目标视频的视频特征。

其中，所述长短期记忆网络包括第一记忆网络和第二记忆网络，所述N个视频帧特征包括第一视频帧特征和第二视频帧特征；

处理模块在用于调用所述长短期记忆网络对N个视频帧特征进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

调用所述第一记忆网络对初始隐藏特征和所述第一视频帧特征进行编码，得到第一隐藏特征；

调用所述第二记忆网络对所述第一隐藏特征和所述第二视频帧特征进行编码，得到目标视频的视频特征。

其中，所述获取模块在用于获取待检测对象的目标图像时，具体用于：

获取原始图像，对原始图像进行目标检测，得到原始图像的目标区域；

根据目标区域对原始图像进行裁剪操作，得到裁剪图像，按照目标尺寸，对裁剪图像进行缩放处理，得到目标图像。

其中，获取模块，还用于：

获取目标区域的尺寸，以及获取原始图像的尺寸；

若目标区域的尺寸与原始图像的尺寸之间的比例小于比例阈值，则执行根据目标区域对原始图像进行裁剪操作，得到裁剪图像的步骤；

若目标区域的尺寸与原始图像的尺寸之间的比例大于或等于比例阈值，则按照目标尺寸，对原始图像进行缩放处理，得到目标图像。

其中，当原始图像为人脸图像时，所述获取模块在用于对原始图像进行目标检测，得到原始图像的目标区域时，具体用于：

对原始图像进行人脸配准处理，得到人脸特征点坐标集合；

根据人脸特征点坐标集合确定原始图像的目标区域。

其中，处理模块还用于：

获取样本对象的样本图像，以及样本对象的样本视频；

调用样本图像处理模型对所述样本图像和所述样本视频进行特征提取处理，得到所述样本图像的样本图像特征和样本视频的样本视频特征；

将所述样本图像特征和所述样本视频特征分别进行线性变换，将线性变换后的样本图像特征和线性变换后的样本视频特征叠加为样本融合特征；

调用样本图像处理模型对所述样本融合特征分类处理，得到所述样本对象的活体预测标签；

获取所述样本对象的活体结果标签，根据所述活体预测标签和所述活体结果标签训练所述样本图像处理模型，得到所述图像处理模型。

本申请提供了一种智能终端，包括：存储器、处理器，其中，上述存储器上存储有图像处理程序，该图像处理程序被上述处理器执行时实现如上述方法的步骤。

本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行，用以执行上述的图像处理方法。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像处理方法。

本申请由终端设备自动进行活体检测，不需要人工参与，可以提高活体检测的效率，且自动识别不受主观因素影响，可以提高活体检测准确率；再有，本申请利用图像和视频两种多媒体数据特征融合后进行特征识别，相比单一数据，融合后的特征更具有区分性，可以进一步提升活体检测准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种图像处理系统的架构示意图；

图2是本申请一个示例性实施例提供的一种图像处理方法的流程示意图；

图3是本申请一个示例性实施例提供的一种图像处理的流程示意图；

图4是本申请另一个示例性实施例提供的一种图像处理方法的流程示意图；

图5是本申请另一个示例性实施例提供的一种图像处理装置的示意框图；

图6是本申请另一个示例性实施例提供的一种智能终端的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的计算机视觉和机器学习等技术，下面将对计算机视觉技术和机器学习技术进行叙述。

计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，并进一步做图形处理，使电脑处理后的图像成为更适合人眼观察或传送给仪器检测。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请主要涉及计算机视觉技术中的图像识别技术，具体来说，终端设备通过识别检测对象的图像和视频，来判断检测对象是否为活体。后续，可以基于检测对象的活体检测结果进行人脸识别等操作，提升人脸识别的准确率。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请主要涉及机器学习技术中的人工神经网络，具体来说，终端设备通过人工神经网络自动对采集到的图像数据和视频数据进行特征提取，自动识别检测对象的活体检测结果，使得活体检测更加智能化，提了升活体检测的准确率。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等。随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

活体检测是一种应用于身份验证场景，用以确定检测对象是否具有真实生理特征的方法。活体检测技术可以有效抵御照片、换脸、面具、遮挡以及图像翻拍等常见的攻击手段，从而帮助终端设备甄别欺诈行为，保障用户的利益。本申请所提供的活体检测方法可以应用于人脸识别相关的应用，包括但不限于：门禁人脸识别系统，智能设备解锁，刷脸支付，无人超市，安防系统等。

当本申请应用于安防系统、门禁人脸识别系统、智能设备解锁时、刷脸支付时，可以通过前端设备(例如此场景中的监控摄像头、门禁装置、智能设备、支付设备)采集待检测对象的图像数据和视频数据，根据采集到的数据进行活体检测，在活体检测成功后，再进行身份识别，可以有效防止恶意者伪造或窃取他人的人脸特征用于身份认证。活体检测作为人脸识别的前置步骤，用以判断提交的人脸特征是否来自有生命的真实个体，在保障系统安全方面有着重要作用。在身份认证和无感通行日益普及的今天，本申请提供的图像处理方法为大众的工作和生活提供更多的安全保障。

当本申请应用于无人超市等无人值守情况下时，可以通过前端设备(例如此场景中的监视器、红外成像仪)实时采集当前场景中检测对象的图像数据和视频数据，根据采集到的数据进行活体检测，便于无人值守情况下的智能管理，也能提升用户的体验。例如对某一范围进行数据采集，根据采集数据进行活体检测，当检测到活体时，进行智能操作(例如自动开门、打开检测到活体的范围内的灯)；还可以对监视环境中的活体进行实时生命信号的检测，便于在突发情况下做出紧急处理。除此之外，本申请也能杜绝在考勤、签到、考试等场景的顶替、作弊行为。本申请提供的活体检测方法是无人值守场景下各种应用必不可缺的核心技术。

本申请还可以应用于云技术、人工智能、智慧交通、车载互联网等各种场景，在云技术领域，本申请可以将活体检测的中间数据以及活体检测结果存储于云服务器上，中间数据可以包括图像、视频、特征信息等多种数据，便于数据的管理和复用，待需要活体识别结果时，即可从云服务器上直接获取；在人工智能领域，可以利用具有活体检测技术的AI机器人对高危风险区域、险峻地势区域进行活体探测、抢险救灾等，基于活体检测技术发展出更多的智能应用服务；在智慧交通领域，可以利用活体检测技术统计活体数量，根据统计到的活体数量对红绿灯、变道指示器的参数进行调整，以此缓解道路拥堵的问题；在车载互联网领域，可以利用活体检测技术，结合摄像头、温度传感器对熄火后的车内进行活体识别，当检测到温度过高且有活体信号时，进行报警操作，以此保障车内人员的安全。

本申请将具体通过如下实施例进行说明:

请参阅图1，图1是本申请一个示例性实施例提供的一种图像处理系统的架构示意图。如图1所示，该图像处理系统具体可以包括终端设备101和服务器102，终端设备101与服务器102之间通过网络连接，比如，通过无线网络连接等。基于本申请提出的图像处理方法，可以由终端设备101采集需要进行图像处理的原始数据，由该终端设备101进行活体检测操作(该活体检测操作是基于原始数据进行的)，得到活体检测结果，并且在处理过程中将采集数据、检测结果等中间数据发送给服务器102，便于服务器102进行后续的管理；也可以由服务器102执行图像处理的操作，当服务器102执行时，可以由终端设备101采集需要进行图像处理的原始数据，将该数据发送给服务器102进行图像处理操作，服务器102将活体检测结果等处理结果返回给终端设备101，再进行后续身份识别等操作。

终端设备101也称为终端(Terminal)、用户设备(user equipment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等，但并不局限于此。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可以理解的是，本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图2，图2是本申请一个示例性实施例提供的一种图像处理方法的流程示意图，以该方法应用于图1中的终端设备为例进行说明，该方法可包括以下步骤：

S201、获取待检测对象的目标图像，以及待检测对象的目标视频。

可选的，待检测对象为需要进行活体检测的对象，待检测对象的目标图像为基于待检测对象获取到的图像数据，待检测对象的目标视频为基于待检测对象获取到的视频数据。该步骤是为了获取进行图像处理操作的数据，在后续步骤中，都是基于本步骤获取到的图像数据和视频数据进行的。

在一实施例中，待检测对象可以是真实用户，在该情况下，目标图像可以是终端设备采集到的真实用户的图像数据，目标视频可以是终端设备采集到的真实用户的视频数据。待检测对象也可以是仿真人像，由于仿真人像一般为静态，采集到的视频数据中的人像也一般为静态。除此之外，待检测对象还可以是翻拍的人体图像或者翻拍的人体视频，在这种情况下，也即是终端设备对翻拍的人体图像或者视频数据再次进行数据采集。

在一实施例中，终端设备可以是智能家电、具有无线通信功能的手持设备、计算设备、车载终端、可穿戴设备或者其他智能装置等。通过终端设备中的图像输入设备(例如摄像头)可以获取到检测对象的目标图像和目标视频。

在一实施例中，目标图像和目标视频来自同一目标主体，基于同一目标主体的目标图像和目标视频得到的融合特征信息能够达到更佳的活体检测准确率。终端设备可以在同一时间段采集待检测对象的多张目标图像和多段目标视频，也可以在多个时间段分别采集，例如可以通过终端设备在第一天上午获取待检测对象的多张目标图像，在第一天下午获取待检测对象的多段目标视频。需要说明的是，目标图像可以是单独采集的，也可以是来源于目标视频的，例如可以通过终端设备先获取待检测对象的多段视频，然后在获取到的多段视频中根据选择规则(例如将最清晰的N张视频帧作为选择目标，N大于1)确定待检测对象的多张目标图像。从目标视频中获取目标图像，省去了单独采集目标图像的操作，提高了数据的利用率。

在一实施例中，终端设备可以采集多种类型的目标图像，待检测对象的目标图像既可以是待检测对象的人脸图像，也可以是待检测对象的红外图像、深度图像、频谱图。需要说明的是，上述红外图像可以是通过温度传感器采集的温度数据转换得到，也可以是通过红外图像设备(例如红外成像仪)直接获取的红外图像；上述深度图像是基于人脸图像通过图像深度处理(例如被动测距传感、主动深度传感)得到的；上述频谱图是基于人脸图像、红外图像、深度图像中的一个或多个进行频域变换(例如傅里叶变换)后得到的。

终端设备可以将目标视频划分为包含N个视频帧的视频帧序列。

S202、调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，以及调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征。

可选的，每张图像都是一个个像素值组成的矩阵，可以包含多种图像信息，这里的图像信息可以包含图像的固有参数信息(例如图像曝光度、图像灰度、图像尺寸等)，基于这些固有参数信息提取图像特征(例如通过检测算子对图像的参数信息进行图像特征提取)，可以得到图像的图像特征(例如图像边缘特征、图像纹理特征、图像空间关系特征等)；这里的图像信息也可以包含用来标识图像特征的特征信息(例如人脸的特征、猫的特征)，基于这些特征信息提取图像特征(例如通过卷积神经网络对特征信息进行图像特征提取)，可以得到图像的图像特征(例如人脸特征信息、猫特征信息等)。

基于上述内容可以总结出，图像的特征提取方法有两类：一类是基于先验知识的特征提取方法，该特征提取方法的检测算子一般是人为设计好的，是经过大量的先验知识总结得到的；另一类是基于深度学习的特征提取方法，该特征提取方法包含卷积神经网络(Convolutional Neural Networks,CNN)。CNN特征提取相当于在训练一个个filter(过滤器、卷积核)，这些filter就如基于先验知识的特征提取方法中的检测算子，也就是说，CNN特征提取是利用神经网络的自主学习得到的。本实施例主要采用基于深度学习的特征提取方法，获取待检测对象的多种高维特征信息，为后续的特征融合操作和活体检测操作提供数据基础，便于进行后续的图像处理操作。

下面对这两类特征提取方法进行详细说明，首先说明基于先验知识的特征提取方法：该方法一般提取的是图像的边缘、角、纹理等特征。基于先验知识的特征提取方法一般分为预处理、特征提取、特征处理三个步骤，预处理的目的主要是排除图像中的干扰因素对目标图像特征的影响，即突出目标特征信息，预处理可以采用图片标准化处理(例如调整图片尺寸)、图片归一化处理(例如调整图片重心为0)等技术；特征提取的目的主要是利用特殊的特征提取算子(例如Harris、SIFT、SURF、LBF、HOG、DPM、ORB等算子)对图像进行特征提取；特征处理的目的主要是排除信息量小的特征，以减少计算量，可以采用降维方法(例如主成分分析、奇异值分解、线性判别分析等方法)进行特征处理方法。可以利用上述方法对多种数据(例如图像和视频)进行特征提取后，对提取的多种特征进行特征融合处理，然后再利用机器学习等方法针对融合特征进行目标分类等操作。

然后再对基于深度学习的特征提取方法进行详细说明：基于深度学习的特征提取方法可以使得提取的特征更加准确，利于后续基于提取的特征对待检测对象进行活体检测。终端设备可以利用图像处理模型对目标图像和目标视频进行特征提取操作。本实施例提出的图像处理模型包括两个网络，分别是特征提取网络(特征提取网络又包括图像特征提取网络和视频特征提取网络)和特征分类网络。特征提取网络的作用主要是对目标图像和目标视频进行特征提取处理，获取目标图像的高维特征信息和目标视频的高维特征信息，作为后续利用图像和视频的高维特征信息进行特征融合的基础；特征分类网络的作用主要是对待检测对象的融合特征信息进行特征分类处理，得到待检测对象与多种类别标签之间(例如活体和非活体)的匹配概率；再根据匹配概率确定待检测对象的活体检测结果。进一步地，图像特征提取网络是用于提取图像的语义特征(即本申请的图像特征)，视频特征网络是用于提取视频的序列特征(即本申请的视频特征)，图像特征提取网络可以是CNN，视频特征提取网络可以是CNN+LSTM。

在一实施例中，如图3所示，终端设备可以通过如下方式对待检测对象进行活体检测：将目标图像(例如待检测对象的RGB图像)输入到特征提取网络(例如包括CNN的特征提取网络)得到目标图像的图像特征；将目标视频(例如待检测对象的视频帧序列)输入到特征提取网络(例如包括卷积神经网络和长短期记忆网络(Long Short-Term Memorynetworks，LSTM)的特征提取网络)得到目标视频的视频特征。然后将上述图像特征和视频特征进行特征融合，得到目标特征。再将目标特征输入到特征分类网络，得到待检测对象与多种类别标签(例如：活体和非活体)之间的匹配概率；再根据匹配概率确定待检测对象的活体检测结果。本申请中提取目标视频的视频特征的方法可以先对目标视频进行分解，得到视频帧序列，然后将视频帧序列的每一帧图像利用上述基于深度学习的图像特征提取方法逐帧提取图像特征(也即是利用CNN对输入的图像进行特征提取)，将得到的多个图像特征输入到循环神经网络(也即是利用LSTM对输入的多个图像特征进行处理)，得到目标视频的视频特征(也即是多个图像特征融合后的特征)。

下面将对CNN和LSTM进行详细说明，首先是CNN：CNN由输入层、卷积层、激活层、池化层、连接层和输出层构成。卷积层可以进行多维度的特征提取；池化层用于降低了图片尺寸、提升训练速度，池化虽然丢失了一些图片信息，但是同时增加了鲁棒性；连接层(也可以称为全连接层)一般在CNN的尾部进行特征拟合，减少特征信息的损失。需要说明的是，直接对原始图像做卷积，会存在两个问题。一是每次卷积后图像都会缩小；二是相比于图片中间的点，图片边缘的点在卷积中被利用的次数较少，导致边缘的信息容易丢失。若想要卷积后得到与输入图像同等大小的图像，则可以采用填充的方法，例如在每次卷积前，对图片周围都补一圈空白，让卷积之后图片跟原来一样大，同时也让边缘的点被计算了更多次。

具体来说，图像特征提取网络可以包括卷积层、池化层和全连接层，卷积层可以对图像进行卷积处理，以提取出目标图像的卷积特征，池化层对卷积特征进行池化处理，以提取出目标图像的池化特征，全连接层对池化特征进行全连接处理，可以得到目标图像的图像特征。

然后再对LSTM进行说明：LSTM是一种特殊的循环神经网络(Recurrent NeuralNetwork，RNN)，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。相比于RNN，LSTM还多了一个隐藏状态，这个隐藏状态也称为细胞状态(Cell State)。LSTM模型包括遗忘门(forgetgate)、输入门(input gate)和输出门(output gate)，遗忘门是将细胞状态中的信息进行选择性的遗忘，即在LSTM中以一定的概率控制是否遗忘上一层的隐藏细胞状态。输入门负责处理当前序列位置的输入，将新的信息选择性的记录到细胞状态中。输出门负责输出下一个LSTM单元的隐藏层输出。

具体来说，视频特征提取网络包括深度特征网络(CNN)和长短期记忆网络(LSTM)，深度特征网络分别提取出每个视频帧的视频帧特征，其中，提取视频帧特征的具体过程和提取目标图像的图像特征的过程一致，不再赘述。提取出每个视频帧的视频帧特征后，再基于长短期记忆网络对这N个视频帧特征进行循环编码，具体来说：长短期记忆网络包括第一记忆网络和第二记忆网络(第二记忆网络的数量为N-1)，且第一记忆网络和第二记忆网络是共享参数的，N个视频帧特征包括第一视频帧特征和第二视频帧特征(第二视频帧特征的数量也为N-1)，基于第一记忆网络对第一视频帧特征以及长短期记忆网络的初始隐藏特征进行编码，得到第一隐藏特征。检测第二记忆网络的数量是否为1；若不为1，将与当前第一记忆网络相邻的第二记忆网络作为新的第一记忆网络，将第一隐藏特征作为新的初始隐藏特征，将与当前第一视频帧特征相邻的第二视频帧特征作为新的第一视频帧特征，基于新的第一记忆网络对新的第一视频帧特征以及新的初始隐藏特征再次进行编码，再次得到第一隐藏特征。不断循环；若第二记忆网络的数量为1，基于第二记忆网络对第二视频帧特征以及最新的第一隐藏特征进行编码，得到第二隐藏特征，该第二隐藏特征即是目标视频的视频特征。

在一实施例中，resnet50具有良好的分类性能，能够较好地契合本方法所包含的特征提取步骤。终端设备可以采用resnet50作为CNN的网络主干(backbone)，CNN网络可以对目标图像进行特征提取，CNN+LSTM网络可以对目标视频进行特征提取。需要说明的是，除了resnet50以外，CNN框架部分还可以选取其他的网络模型作为主干网络，例如深度卷积神经网络VggNet。如果需要在移动端设备部署模型，也可以使用squeezenet或mobilenet等轻量级模型作为网络模型的主干网络。

S203、将所述图像特征和所述视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征。

在一实施例中，本申请的图像处理模型具有对多种特征进行融合的功能。该功能可以是基于图像处理模型中的一个网络模型(例如特征融合网络)实现，也可以是通过内置的特征融合算法实现的。

检测图像特征和视频特征的维度是否相同，若相同，可以直接将图像特征和视频特征叠加为目标特征，此处的叠加可以是堆叠(也即是直接进行对应向量元素的相加操作)，也可以是拼接，且可以是从行维度上拼接，也可以是从列维度上拼接。

示例性的，如图3所示，终端设备基于目标图像得到的特征向量为Feature_1(通道数为d，尺寸为1*d)，基于目标视频得到的特征向量为Feature_2(通道数为d，尺寸为1*d)，通过堆叠的方式进行特征融合，得到目标向量Feature(通道数为d，尺寸为1*2*d)。该示例即是行维度上的拼接。

若图像特征和视频特征的维度不相同，可以分别对图像特征和视频特征进行线性变换，线性变换的目的是使得这两个特征维度相同，且不会改变特征所表征的含义。再对线性变换后的图像特征和视频特征进行叠加，即可得到目标特征。

在一实施例中，终端设备可以对图像处理模型中的特征提取网络进行预训练。特征提取网络的网络参数是需要预先设置的，可以通过随机生成的方法进行初始模型的网络参数设置，也可以根据现有经验，预先设置初始模型的网络参数。当然，根据现有经验进行参数设置可以一定程度上减少训练的数据量，比较适用于训练样本较少的情况，但上述两种方式都能达到完成模型训练的目的。在设置好初始模型的网络参数后，终端设备即可利用训练样本对初始模型进行训练，例如采集一定数量的真人人脸视频、翻拍视频、真人人脸图片、翻拍图片，将其输入初始模型，进行特征提取，使得特征提取网络具备良好的特征提取能力。当然，本实施例也可以使用预先训练好的特征提取网络，以此来简化操作。需要说明的是，除了使用待检测对象的人脸图像或视频，本实施例也可以利用待检测对象的红外图像、深度图像、频谱图中的一个或多个对特征提取网络进行模型训练，该频谱图是基于人脸图像、红外图像、深度图像中的一个或多个进行频域变换后得到的。

S204、调用所述图像处理模型的特征分类网络对所述目标特征进行特征分类处理，得到所述待检测对象的活体检测结果。

可选的，终端设备将目标特征输入到特征分类网络，可以得到待检测对象与多种类别标签之间(例如活体和非活体)的匹配概率，再根据匹配概率确定待检测对象的活体检测结果。

在一实施例中，终端设备为了获取待检测对象与多种类别标签之间的匹配概率，可以将目标特征输出到全连接层(FC)，经过归一化指数函数(Softmax)输出预设尺度的二分类概率向量，根据选取规则(例如选取概率值最大者的类别)确定类别标签。示例性的，当终端设备通过特征分类网络输出的待检测对象与“活体”标签对应的概率大于或等于判断阈值(例如0.5)，将“活体”标签作为待检测对象的预测类别标签，也即是活体检测结果为“活体”；当通过特征分类网络输出的待检测对象与“活体”标签对应的概率小于判断阈值(例如0.5)，将“非活体”标签作为待检测对象的预测类别标签，也即是活体检测结果为“非活体”。

在一实施例中，终端设备可以对样本图像处理模型中的网络参数进行预训练，以得到图像处理模型。图像处理模型中的网络参数可以预先设置，可以通过随机生成的方法进行样本图像处理模型的网络参数设置，也可以根据现有经验，预先设置样本图像处理模型的网络参数，当然，根据现有经验进行参数设置可以一定程度上减少训练的数据量，比较适用于训练样本较少的情况，但上述两种方式都能达到完成模型训练的目的。在设置好样本图像处理模型的网络参数后，将样本对象的样本图像输入样本图像处理模型，以提取出样本图像的样本图像特征，将样本对象的样本视频输入样本图像处理模型，以提取出样本视频的样本视频特征。同样地，将上述样本图像特征和样本视频特征分别进行线性变换，并将线性变换后的样本图像特征和样本视频特征叠加为样本融合特征；或者直接将样本图像特征和样本视频特征叠加为样本融合特征。基于样本图像处理模型对样本融合特征分类处理，得到样本对象的活体预测标签。获取样本对象的活体结果标签(即是样本对象的活体真实标签)，基于这两个标签确定样本图像处理模型的分类误差，依据分类误差训练样本图像处理模型。不断更新样本图像处理模型的网络参数，当网络参数不再变化(或者变化很小)时，可以将训练后的样本图像处理模型作为图像处理模型。

需要说明的是，除了使用待检测对象的人脸图像或视频，本实施例也可以利用待检测对象的红外图像、深度图像、频谱图中的一个或多个对特征分类网络进行模型训练，该频谱图是基于人脸图像、红外图像、深度图像中的一个或多个进行频域变换后得到的。

示例性的，在模型训练中可以使用二分类函数(Binary cross-entropy lossfunction)，然后根据输出的1*2尺度的二分类概率向量和真实类别标签计算交叉熵，就可以获得分类损失函数。基于二分类的交叉熵损失函数公式如下：

其中n为样本数量，y_i为第i个样本的真实标签值，p_i为该标签对应的预测概率值。随后，在训练中可以使用梯度下降法(Gradient Descent)对该分类损失函数进行最小化，计算损失函数的梯度并迭代更新初始化模型的参数。梯度下降法公式如下：

w＝w₀-ηf′(w₀)

其中w₀为调整前的模型参数，w为调整后的模型参数，η为学习率，f′(w₀)为对损失函数求导。模型的参数包括如图3中的CNN网络的参数和CNN+LSTM网络的参数。

对该损失函数的最小化可以达到以下效果：概率向量值最大的位置对应的类别标签和真实的类别标签保持一致。示例性的，如果输入的样本为真人的RGB人脸图片或真人的视频帧序列，那么网络的输出应该是一个接近0的概率值，最终的预测类别为0(也即是：活体)；如果输入的样本为翻拍的RGB攻击图片或者翻拍的视频帧序列，那么网络的输出应该是一个接近1的概率值，最终的预测类别为1(也即是：非活体)。

本申请实施例由终端设备获取检测数据并自动进行活体检测，相比于人工检测来说，提高了活体检测的效率；在检测过程中基于深度学习和图像处理模型对检测目标进行自动化检测，不受检测人员主观因素的干扰，提高了活体检测的准确性，使得活体检测更加智能化；同时，本申请利用图像和视频两种多媒体数据特征融合后进行特征识别，相比单一数据，融合后的特征更具有区分性，可以进一步提升活体检测准确率，并且本申请基于图像和视频的异构数据融合进行活体检测，可以有效防御针对单一结构数据的模型的攻击，提高了鲁棒性；再有，本申请可以利用多种类型的图像数据进行活体检测，使得本方法的使用场景多样化，提高了适用性。

请参阅图4，图4是本申请另一个示例性实施例提供的一种图像处理方法的流程示意图，以该方法应用于图1中的终端设备101为例进行说明，该方法可包括以下步骤：

S401、获取待检测对象的目标图像，以及待检测对象的目标视频。

可选的，终端设备在进行图像处理操作之前，需要获取操作主体，也即是上述目标图像和目标视频，步骤S401对于获取待检测对象的目标图像以及待检测对象的目标视频的方法可如前述步骤S201所述，此处不再赘述。

可选的，在步骤S201的基础上，终端设备还可以包括对待检测图像进行剪裁操作和缩放操作，剪裁操作是为了获取原始图像需要进行检测的区域，提高数据的利用率和处理效率；缩放操作是将裁剪后的图像缩放为统一大小，便于进行后续的图像处理操作，提高处理效率。因此，获取待检测对象的目标图像的方法可以包括如下步骤：

(1)、获取原始图像，对原始图像进行目标检测，得到原始图像的目标区域。

可选的，原始图像可以是用户通过终端设备自主拍摄的，图像质量参差不齐，利用提供针对拍摄物的限定框规范用户的拍摄方法，终端设备可以得到较高质量的原始图像。但是，也会存在较多低质量图像，例如需要检测的目标区域在整张图像中只占据很小一部分的原始图像，图像中冗余了大量的背景图像信息，而真正有用的目标图像信息只在这一小部分区域中。如果利用上述这种低质量图像直接进行图像处理操作，则会对原始图像的全部区域进行检测与处理，降低了图像处理效率，也浪费了资源。上述步骤(1)是先获取进行图像处理操作的原始数据，再进行目标区域检测的图像预处理操作，在后续步骤中，利用基于本步骤获取到的原始图像的目标区域进行后续图像处理操作，得到目标图像。

在一实施例中，当原始图像为人脸图像时，终端设备对原始图像进行目标检测，得到原始图像的目标区域的方法包括如下步骤：

1)、对原始图像进行人脸配准处理，得到人脸特征点坐标集合。

人脸配准处理是在人脸检测的基础上，根据输入的包含人脸的原始图像，确定人脸特征点，例如眼睛、鼻尖、嘴角点、眉毛等人脸各部件轮廓点。人脸配准处理的输入可以是包含人脸的原始图像，输出可以是原始图像中人脸特征点坐标集合。人脸特征点坐标的数量可以预先设定好的一个固定数值，可以根据不同的语义来定义。示例性的，人脸配准处理可以采用基于传统人脸配准的方法(例如ASM(Active Shape Model)方法和AAM(ActiveAppearnce Model)方法)；也可以采用基于级联形状回归的方法(例如CPR(Cascaded PoseRegression)方法)；还可以采用基于深度学习的方法(例如DCNN(Deep ConvolutionalNetwork)方法)。

2)、根据人脸特征点坐标集合确定原始图像的目标区域。

在得到原始图像中人脸特征点坐标集合之后，终端设备即可根据预设的选取规则对原始图像中的人脸区域进行目标区域的选择。例如，可以先识别检测出原始图像中的所有人脸特征点，然后对人脸进行角度纠正处理，再将纠正后的所有人脸特征点所在的正方形区域取出，作为原始图像的目标区域。

在一实施例中，当原始图像为红外图像时，终端设备可以对原始图像进行目标检测，将待检测对象所在区域(也即是色彩系数高于色彩阈值的区域)作为原始图像的目标区域，从而去掉冗余的背景，提高图像处理效率。

(2)、根据目标区域对原始图像进行裁剪操作，得到裁剪图像，按照目标尺寸，对裁剪图像进行缩放处理，得到目标图像。

可选的，根据上述方法得到的目标区域，即可对原始图像进行裁剪操作。需要说明的是，在裁剪操作中，如果忽略了宽高比，图像变得压缩。因此，在不影响识别目标的前提下，可以牺牲部分图像(也即是剪掉部分图像)，来保持剪裁后的图像的宽高比，图像就不会失真和扭曲，也利于后续步骤中对图像处理模型的训练和使用。

可选的，在全卷积网络(FCN)中可以输入任意大小的图像尺寸，但卷积网络(CNN)需要输入尺寸的图像。卷积网络有卷积层和全连接层，卷积层对输入的图像尺寸是没有限制的，而全连接层对输入的图像有统一尺寸的要求。因为全连接层输入向量的维数对应其层的神经元个数，如果输入向量的维数不固定，那么全链接的权值参数的数量也是不固定的，这样网络就是变化的，无法对模型训练，因此全连接层的输入需要固定大小的图像。基于此，在剪裁原始图像之后，按照预设的目标尺寸，对裁剪图像进行缩放处理，得到统一大小的目标图像，从而便于进行后续的图像处理操作。

示例性的，用于处理原始图像的特征提取网络(例如CNN网络)输入固定尺寸(例如224*224*3)的原始图像(例如RGB图像)，得到目标图像具体实现方式为：对RGB图片进行人脸配准操作；对配准后的图片进行缩放处理，得到固定尺寸(例如224*224*3)的目标图像。用于处理原始视频的特征提取网络(例如CNN+LSTM网络)输入固定尺寸(例如224*224*3)的原始视频的视频帧序列，得到目标视频具体实现方式为：对视频帧序列中的每一帧图像进行人脸配准操作；对配准后的每一帧图像进行缩放处理，将缩放处理后的每一帧图像进行组合，得到固定尺寸(例如224*224*3)的目标视频。上述用于处理原始图像和原始视频可以包含基于活体的人脸图像和人脸视频，也可以包含基于非活体的人脸图像和人脸视频(例如翻拍的人脸图像和人脸视频)。

在一实施例中，终端设备可以根据选取规则确定原始图像是否需要进行剪裁操作，从而提高图像的处理效率。可以采用目标区域比例检测的方法进行剪裁判断，该方法包括如下步骤：

(1)、获取目标区域的尺寸，以及获取原始图像尺寸；

(2)、若目标区域的尺寸与原始图像的尺寸之间的比例小于比例阈值，则执行根据目标区域对原始图像进行裁剪操作，得到裁剪图像的步骤；

(3)、若目标区域的尺寸与原始图像的尺寸之间的比例大于或等于比例阈值，则按照目标尺寸，对原始图像进行缩放处理，得到目标图像。

上述步骤可以理解为，若所需要进行检测的目标区域在原始图像中的区域占比较大(即：目标区域的尺寸与原始图像的尺寸之间的比例大于或等于比例阈值)，则终端设备确定此时无用区域占比较小，即不进行图像剪裁操作，直接进行图像缩放处理；若所需要进行检测的目标区域在原始图像中的区域占比较小(即：目标区域的尺寸与原始图像的尺寸之间的比例小于比例阈值)，则终端设备确定此时无用区域占比较大，需要进行图像剪裁操作，然后进行图像缩放处理，上述方法将满足预设条件的原始图像直接进行缩放处理，缩短了图像处理的技术路径，提高了图像处理效率。

需要说明的是，上述终端设备获取原始图像，对原始图像进行目标检测，得到原始图像的目标区域的方法，以及根据目标区域对原始图像进行裁剪操作，得到裁剪图像，再按照目标尺寸对裁剪图像进行缩放处理，得到目标图像的方法，均可用于获取目标视频。在获取原始视频的视频帧序列后，将原始视频的每一帧按照上述处理原始图像的方法进行图像处理操作，得到目标视频。

S402、调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，以及调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征；所述视频帧序列是对所述目标视频划分后生成的；将所述图像特征和所述视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征。

S403、调用所述图像处理模型的特征分类网络对所述目标特征进行特征分类处理，得到所述待检测对象的活体检测结果。

可选的，该方法可以部署于身份识别模型之前，对需要进行身份识别的图片或视频进行判断，若终端设备判断待检测对象是活体，则通过检测，进入到后续的身份识别流程中；若终端设备判断待检测对象是非活体，则可以进行报错提示重试。该方法可以应用于所有人脸识别相关的应用，包括但不限于：门禁人脸识别系统，安防系统，无人超市，刷脸支付，智能设备解锁等。其中，步骤S402～S403的具体实施方式参见前述实施例中步骤S202～S203的相关描述，此处不再赘述。

S404、当检测到待检测对象的活体检测结果为活体时，显示第一提示消息，第一提示消息用于表示待检测对象通过活体检测；根据目标图像或目标视频对待检测对象进行身份识别，输出待检测对象的身份识别结果。

在一实施例中，当终端设备检测到待检测对象的活体检测结果为活体时，显示第一提示消息，例如向用户显示“您已通过活体检测！”的消息弹窗，也可以是在终端设备生成一个新页面进行消息显示。然后对待检测对象进行身份识别操作，可以利用在活体检测阶段采集到的目标图像和目标视频对待检测对象进行身份识别，提高数据的利用率；也可以是重新通过终端设备进行待检测对象的图像数据和视频数据的采集。需要说明的是，对待检测对象进行身份识别可以单一的利用图像数据或者视频数据，也可以使用基于待检测对象的图像数据和视频数据的数据融合的方法进行身份识别，本实施例不对身份识别的方法进行限制。

S405、当检测到待检测对象的活体检测结果为非活体时，显示第二提示消息，第二提示消息用于表示待检测对象未通过活体检测；统计待检测对象被检测为非活体的次数；若待检测对象被检测为非活体的次数大于次数阈值，则将待检测对象的用户账号进行锁定。

可选的，当终端设备检测到待检测对象的活体检测结果为非活体时，表示获取的数据为待检测对象提供的攻击数据，需要对待检测对象进行防范处理，以达到降低系统风险，保护系统安全的目的。

在一实施例中，当终端设备检测到待检测对象的活体检测结果为非活体时，显示第二提示消息(例如：“活体检测失败，请稍后再试！”)，并且可以在预设时间(例如：5分钟)内拒绝用户的活体检测请求。终端设备可以统计待检测对象被检测为非活体的次数，预设时间可以在单位时间(例如：1天)内根据待检测对象被检测为非活体的次数进行增加(例如：第一次活体检测失败预设时间为5分钟，第二次活体检测失败预设时间为30分钟，第三次活体检测失败预设时间为60分钟，等等)。若待检测对象被检测为非活体的次数大于次数阈值(例如：5次)，则可以将待检测对象的用户账号进行锁定，防止其再次进行攻击，保障用户账号安全。

在一实施例中，终端设备除了对进行异常检测的待检测对象进行终端操作上的限制外，还可以对其进行警告。当终端设备检测到待检测对象的活体检测结果为非活体时，可以将待检测对象的用户账号标记为风险账号，风险账号用于标识该类账号曾经出现过活体检测失败的情况。在后续过程中，当检测到风险账号在终端设备上再次进行活体检测、身份识别等操作时，可以先检测风险账号的状态信息(例如：登录设备信息、登录地信息、登录IP地址等)，若检测风险账号的状态信息异常(例如：登录地为外地，且登录设备为未记录的新设备)，则向风险账号输出风险警告信息(例如：“状态异常，请稍后重试！”)，并退出用户流程；若终端设备检测到风险账号的状态信息正常，则允许进行活体检测、身份识别等操作。

在一实施例中，若终端设备检测到风险账号在单位时间(例如：90天)内被检测为非活体的次数为0，且在该单位时间内被检测为活体的次数大于次数阈值(例如：3次)，则取消此账号的风险标记，视为正常账号。

在一实施例中，当终端设备检测到待检测对象的活体检测结果为非活体时，表示用户可能在用别人的信息进行非法登录。再用目标图像和目标视频在已核验身份信息的用户数据库中查询与该目标图像和目标视频相似度大于相似度阈值的用户对象。若终端设备在用户数据库中查询到目标用户对象，则根据该目标用户对象的身份信息向目标用户对象输出风险告知信息(例如：“您的账号可能出现登录异常状况，请核实！”)。

本申请可以根据活体检测结果显示相应的提示消息，使得用户能够明确的知道自己的检测结果，提升用户体验；在检测到活体时才进行身份识别操作、进行账号风险提示以及根据预设条件对用户账号进行标记、锁定等操作，保证了用户账号的安全，也进一步提升了智能性；再有，本方法会对原始图像进行剪裁操作和缩放操作，进一步提高了活体检测的准确率，并设定条件将满足条件的原始数据跳过剪裁操作，直接进行缩放处理，缩短了活体检测方法的技术路径，提高了活体检测效率。

请参阅图5，图5是本申请实施例提供的一种图像处理装置的示意框图。其中，图像处理装置具体可以包括：

获取模块501，用于获取待检测对象的目标图像，以及待检测对象的目标视频；

处理模块502，用于调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，以及调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征；所述视频帧序列是对所述目标视频划分后生成的；

所述处理模块502，还用于将所述图像特征和所述视频特征分别进行线性变换，将线性变换后的图像特征和线性变换后的视频特征叠加目标特征；

分类模块503，用于调用所述图像处理模型的特征分类网络对所述目标特征进行特征分类处理，得到所述待检测对象的活体检测结果。

在一实施例中，待检测对象的目标图像包括待检测对象的人脸图像、红外图像、深度图像、频谱图中的一个或多个，该频谱图是基于人脸图像、红外图像、深度图像中的一个或多个进行频域变换后得到的。

可选的，所述处理模块502，还用于：

当检测到待检测对象的活体检测结果为活体时，显示第一提示消息，该第一提示消息用于表示待检测对象通过活体检测；

根据目标图像或目标视频对待检测对象进行身份识别，输出待检测对象的身份识别结果。

可选的，所述处理模块502，还用于：

当检测到待检测对象的活体检测结果为非活体时，显示第二提示消息，该第二提示消息用于表示待检测对象未通过活体检测；

统计待检测对象被检测为非活体的次数；

若待检测对象被检测为非活体的次数大于次数阈值，则将待检测对象的用户账号进行锁定。

可选的，所述获取模块501在用于获取待检测对象的目标图像时，具体用于：

可选的，所述获取模块501，还用于：

获取目标区域的尺寸，以及获取原始图像的尺寸；

可选的，当原始图像为人脸图像时，所述获取模块501在用于对原始图像进行目标检测，得到原始图像的目标区域时，具体用于：

对原始图像进行人脸配准处理，得到人脸特征点坐标集合；

根据人脸特征点坐标集合确定原始图像的目标区域。

可选的，所述特征提取网络包括图像特征提取网络，所述图像特征提取网络包括卷积层、池化层和全连接层；

所述处理模块502在用于调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征时，具体用于：

可选的，所述特征提取网络还包括视频特征提取网络，所述视频特征提取网络包括深度特征网络和长短期记忆网络，所述视频帧序列包括N个视频帧，N是正整数；

所述处理模块502在用于调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

调用所述深度特征网络提取每个视频帧的视频帧特征；

可选的，所述长短期记忆网络包括第一记忆网络和第二记忆网络，所述N个视频帧特征包括第一视频帧特征和第二视频帧特征；

所述处理模块502在用于调用所述长短期记忆网络对N个视频帧特征进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

可选的，处理模块502还可以用于：

获取样本对象的样本图像，以及样本对象的样本视频；

需要说明的是，本申请实施例的图像处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参阅图6，图是本申请一实施例提供的一种智能终端示意框图。如图所示的本实施例中的智能终端可以包括：处理器601、存储装置602以及网络接口603。上述处理器601、存储装置602以及网络接口603之间可以进行数据交互。

上述存储装置602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置602也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；上述存储装置602还可以包括上述种类的存储器的组合。

上述处理器601可以是中央处理器(central processing unit，CPU)。在一个实施例中，上述处理器601还可以是图形处理器(Graphics Processing Unit，GPU)。上述处理器601也可以是由CPU和GPU的组合。在一个实施例中，上述存储装置602用于存储程序指令，上述处理器601可以调用上述程序指令，执行如下操作：

获取待检测对象的目标图像，以及所述待检测对象的目标视频；

可选的，所述处理器601，还用于：

统计待检测对象被检测为非活体的次数；

可选的，所述处理器601在用于获取待检测对象的目标图像时，具体用于：

可选的，所述处理器601，还用于：

获取目标区域的尺寸，以及获取原始图像的尺寸；

可选的，当原始图像为人脸图像时，所述处理器601在用于对原始图像进行目标检测，得到原始图像的目标区域时，具体用于：

对原始图像进行人脸配准处理，得到人脸特征点坐标集合；

根据人脸特征点坐标集合确定原始图像的目标区域。

所述处理器601在用于调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征时，具体用于：

所述处理器601在用于调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

调用所述深度特征网络提取每个视频帧的视频帧特征；

所述处理器601在用于调用所述长短期记忆网络对N个视频帧特征进行时序特征提取处理，得到所述目标视频的视频特征时，具体用于：

可选的，所述处理器601还用于：

获取样本对象的样本图像，以及样本对象的样本视频；

具体实现中，本申请实施例中所描述的处理器601、存储装置602以及网络接口603可执行本申请实施例图2或图4提供的图像处理方法的相关实施例中所描述的实现方式，也可执行本申请实施例图5提供的图像处理装置的相关实施例中所描述的实现方式，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像处理装置所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图2、图4所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图2、图4所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括图像特征提取网络，所述图像特征提取网络包括卷积层、池化层和全连接层；

所述调用图像处理模型的特征提取网络对所述目标图像进行语义特征提取处理，得到所述目标图像的图像特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述特征提取网络还包括视频特征提取网络，所述视频特征提取网络包括深度特征网络和长短期记忆网络，所述视频帧序列包括N个视频帧，N是正整数；

所述调用所述特征提取网络对视频帧序列进行时序特征提取处理，得到所述目标视频的视频特征，包括：

调用所述深度特征网络提取每个视频帧的视频帧特征；

4.根据权利要求3所述的方法，其特征在于，所述长短期记忆网络包括第一记忆网络和第二记忆网络，所述N个视频帧特征包括第一视频帧特征和第二视频帧特征；

所述调用所述长短期记忆网络对N个视频帧特征进行时序特征提取处理，得到所述目标视频的视频特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待检测对象的目标图像，包括：

获取原始图像，对所述原始图像进行目标检测，得到所述原始图像的目标区域；

根据所述目标区域对所述原始图像进行裁剪操作，得到裁剪图像，按照目标尺寸，对所述裁剪图像进行缩放处理，得到目标图像。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取目标区域的尺寸，以及获取原始图像的尺寸；

若目标区域的尺寸与原始图像的尺寸之间的比例小于比例阈值，则执行根据所述目标区域对所述原始图像进行裁剪操作，得到裁剪图像的步骤；

若目标区域的尺寸与原始图像的尺寸之间的比例大于或等于比例阈值，则按照目标尺寸，对所述原始图像进行缩放处理，得到目标图像。

7.根据权利要求5所述的方法，其特征在于，当原始图像为人脸图像时，所述对所述原始图像进行目标检测，得到所述原始图像的目标区域，包括：

对所述原始图像进行人脸配准处理，得到人脸特征点坐标集合；

根据所述人脸特征点坐标集合确定所述原始图像的目标区域。

8.根据权利要求1所述的方法，其特征在于，还包括：

获取样本对象的样本图像，以及样本对象的样本视频；

9.一种图像处理装置，其特征在于，所述装置包括：

10.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器，其中，所述存储器上存储图像处理程序，所述图像处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的图像处理方法的步骤。