CN117237856B

CN117237856B - 图像识别方法、装置、计算机设备、存储介质

Info

Publication number: CN117237856B
Application number: CN202311501779.0A
Authority: CN
Inventors: 沈雷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-03-01
Anticipated expiration: 2043-11-13
Also published as: CN117237856A

Abstract

本申请涉及一种图像识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法可以应用于人工智能和智能交通的应用场景，该方法包括：对图像序列中的各图像进行特征提取，得到各所述图像的图像特征；分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征；根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征；所述第二时间尺度大于所述第一时间尺度；基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到对象识别结果。采用本方法能够提高识别结果的准确性。

Description

图像识别方法、装置、计算机设备、存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，基于人工智能的图像识别技术得到了广泛的应用，如对图像中的目标对象进行生物识别，以便根据识别结果执行相关业务逻辑，如进行支付或开启门禁等业务。

在传统的识别方案中，在对图像中的目标对象进行生物识别时，通常会采集一帧图像进行去噪处理，然后提取出相应的图像特征（如人脸特征），然后将该图像特征与数据库中的模板特征进行匹配，从而得到识别结果。然而，在采集图像时，如果所要采集的目标对象在面对采集设备时所呈现的角度较大，或呈现的姿态异常（如未完全按照要求呈现或保持相应的姿态），此时所得的识别结果将会不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种图像识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，能够提高识别结果的准确性。

第一方面，本申请提供了一种图像识别方法，所述方法包括：

对图像序列中的各图像进行特征提取，得到各所述图像的图像特征；

分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征；

根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征；所述第二时间尺度大于所述第一时间尺度；

基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到对象识别结果。

第二方面，本申请还提供了一种图像识别装置，所述装置包括：

提取模块，用于对图像序列中的各图像进行特征提取，得到各所述图像的图像特征；

处理模块，用于分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征；

生成模块，用于根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征；所述第二时间尺度大于所述第一时间尺度；

识别模块，用于基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到对象识别结果。

在其中的一个实施例中，所述装置还包括：

获取模块，用于获取在目标时间窗口内对所述目标对象进行视频采集所得的视频，对所述视频进行解码得到视频帧序列；在所述视频帧序列中进行图像采样，得到所述图像序列；或者，获取在所述目标时间窗口内对所述目标对象进行图像采集所得的图像序列。

在其中的一个实施例中，所述处理模块，还用于以各相邻所述图像中的第一图像的图像特征为键值，以各相邻所述图像中的第二图像的图像特征为查询特征，对所述键值和所述查询特征进行注意力处理，得到各相邻所述图像之间的第一时间尺度的依赖特征。

在其中的一个实施例中，所述处理模块，还用于对所述键和所述查询特征进行交叉注意力处理，得到注意力特征；对所述注意力特征进行逻辑回归处理，得到注意力权重；基于所述注意力权重和所述值，生成各相邻所述图像之间的第一时间尺度的依赖特征。

在其中的一个实施例中，所述处理模块，还用于确定所述键和所述查询特征之间的距离；确定所述键和所述查询特征之间的乘积；根据所述键和所述查询特征之间的乘积与所述距离确定注意力特征。

在其中的一个实施例中，所述生成模块，还用于根据所述图像序列中第一时间步对应的图像特征确定隐藏状态；将所述第一时间尺度的第二时间步的依赖特征与所述隐藏状态进行拼接，得到拼接特征；所述第一时间步是在所述第二时间步之前的时间步；依据所述拼接特征和第一映射矩阵确定状态影响信息；根据所述拼接特征和第二映射矩阵确定状态组合信息，基于所述拼接特征、所述状态组合信息和第三映射矩阵确定第一中间隐藏状态；其中，所述状态影响信息是用于表征前一个时间步的所述隐藏状态对当前时间步的所述隐藏状态的影响程度，所述状态组合信息是用于表征前一个时间步的所述隐藏状态与当前时间步的所述依赖特征组合的信息；根据所述第一中间隐藏状态和所述状态影响信息，生成第二时间尺度的依赖特征。

在其中的一个实施例中，所述识别模块，还用于确定所述第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度；在所得的相似度中选取满足相似条件的目标相似度；将所述目标相似度对应的模板特征的对象标识作为对象识别结果。

在其中的一个实施例中，所述装置还包括：

第一业务模块，用于根据所述对象识别结果和交互的产品信息进行资源转移；

第二业务模块，用于基于所述对象识别结果对门禁系统的开闭状态进行控制。

在其中的一个实施例中，所述图像特征是通过特征提取网络提取所得的；所述装置还包括：

所述提取模块，还用于通过初始卷积神经网络对第一图像样本进行特征提取，并基于提取到的图像特征对所述第一图像样本中的对象样本进行分类处理，得到分类结果；

确定模块，用于基于所述分类结果和所述第一图像样本的标签确定分类损失值；

优化模块，用于根据所述分类损失值对所述初始卷积神经网络进行参数优化，得到卷积神经网络；

删除模块，用于将所述卷积神经网络中的用于分类的全连接层删除，并将删除所述全连接层的卷积神经网络作为所述特征提取网络；其中，所述特征提取网络用于与注意力网、门控循环单元构建所述识别模型。

在其中的一个实施例中，所述提取模块，还用于通过所述识别模型中的特征提取网络对图像训练集内的各第二图像样本进行特征提取，得到各所述第二图像样本的训练图像特征；

所述处理模块，还用于通过所述识别模型中的注意力网络分别对各相邻所述第二图像样本的训练图像特征进行注意力处理，得到各相邻所述第二图像样本之间的第一时间尺度的训练依赖特征；

所述生成模块，还用于通过所述识别模型中的门控循环单元对所述第一时间尺度的各训练依赖特征和各所述第二图像样本的训练图像特征进行门控处理，得到所述第二时间尺度的训练依赖特征；

所述识别模块，还用于基于所述第二时间尺度的训练依赖特征对所述第二图像样本中的对象样本进行识别，得到样本识别结果；

所属优化模块，还用于根据所述样本识别结果与所述对象样本的标签之间的识别损失值，对所述识别模型进行参数优化。

在其中的一个实施例中，所述第一时间尺度的训练依赖特征包括所述第一时间尺度的各时间步的训练依赖特征；

所述生成模块，还用于根据所述图像序列中第一时间步对应的图像特征确定隐藏状态；将所述第一时间尺度的第二时间步的训练依赖特征与所述隐藏状态进行拼接，得到训练拼接特征；通过所述门控循环单元中的更新门对所述训练拼接特征进行处理，得到训练状态影响信息；通过所述门控循环单元中的重置门对所述训练拼接特征进行处理，得到训练状态组合信息；通过所述门控循环单元中的隐藏门对所述训练状态组合信息和所述训练拼接特征进行处理，得到第二中间隐藏状态；根据所述第二中间隐藏状态和所述训练状态影响信息，生成第二时间尺度的训练依赖特征。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图像识别方法、装置、计算机设备、存储介质和计算机程序产品，在对图像序列中的各图像进行特征提取得到各图像的图像特征之后，并不会直接利用该图像特征识别出图像中的目标对象，而是分别对各相邻图像的图像特征进行依赖关系处理，从而构建出短时帧间的特征关系，得到各相邻图像之间短时的依赖特征，然后根据第一时间尺度的各依赖特征和各图像的图像特征构建长时帧间的特征关系，得到长时的依赖特征，提升了单位时间内图像的特征有效性，因此基于长时的依赖特征对图像中的目标对象进行生物识别，可以有效地避免因单帧图像质量不足而影响识别结果的准确性，即使目标对象在面对采集设备时所呈现的角度较大，或呈现的姿态异常（如未完全按照要求呈现或保持相应的姿态）时，也能准确地识别出图像中的目标对象，大大地提高了对象识别结果的准确性。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2为一个实施例中图像识别方法的流程示意图；

图3为一个实施例中识别模型的结构示意图；

图4为一个实施例中图像识别方法应用于支付场景的示意图；

图5为一个实施例中图像识别方法应用于门禁系统场景的示意图；

图6为一个实施例中对卷积神经网络进行训练的流程示意图；

图7为一个实施例中对识别模型进行训练的流程示意图；

图8为一个实施例中手掌图像的采集示意图；

图9为一个实施例中手掌图像识别的流程示意图；

图10为一个实施例中图像识别装置的结构框图；

图11为另一个实施例中图像识别装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，在以下的描述中，所涉及的术语“第一、第二和第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一、第二和第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在对本申请的方案进行阐述之前，先对本申请所涉及的技术进行解释说明，具体如下：

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调（fine tune）后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习和式教学习等技术。

本申请实施例提供的图像识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102可以对目标对象（如人物对象的手指、手掌或人脸）进行视频或图像采集，以获得由多帧图像所组成的图像序列，此时可以将该图像序列发送给服务器104进行图像识别，也可以由终端102进行图像识别，其中图像识别的步骤包括：对图像序列中的各图像进行特征提取，得到各图像的图像特征；分别对各相邻图像的图像特征进行依赖关系处理，得到各相邻图像之间的第一时间尺度的依赖特征；根据第一时间尺度的各依赖特征和各图像的图像特征，生成第二时间尺度的依赖特征；第二时间尺度大于第一时间尺度；基于第二时间尺度的依赖特征对图像中的目标对象进行生物识别，得到对象识别结果。在获得该对象识别结果之后，终端102或服务器104可以根据该对象识别结果执行相应的业务逻辑，如进行支付、开启门禁或其它的办理业务（如办理银行业务）等。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

服务器104可以是独立的物理服务器，也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成点对点（Peer To Peer）网络，点对点协议是一个运行在传输控制协议（TCP，Transmission Control Protocol）协议之上的应用层协议。此外，服务器104还可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（ContentDelivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线）或者网络等通讯连接方式进行连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种图像识别方法，该方法可由图1中的服务器或终端执行，或由服务器和终端协同执行，以该方法由图1中的终端执行为例进行说明，包括以下步骤：

S202，对图像序列中的各图像进行特征提取，得到各图像的图像特征。

其中，图像序列可以是由多帧图像所组成的有序集合。该图像序列中的图像可以是采集目标对象所得的图像，如采集人物对象的手指、手掌、人脸或虹膜所得的图像。对应的，图像特征可以是指纹特征、掌纹特征、人脸特征或虹膜特征。

在一个实施例中，终端可以获取在目标时间窗口内对目标对象进行视频采集所得的视频，对视频进行解码得到视频帧序列；在视频帧序列中进行图像采样，得到图像序列；此外，也可以将视频帧序列作为本申请中的图像序列；或者，获取在目标时间窗口对目标对象进行图像采集所得的图像序列。

其中，目标时间窗口可以是进行图像采集的时间窗口，该目标时间窗口的长度可以是固定的时间长度，可以由开发人员根据经验进行设定；此外，该目标时间窗口的长度也可以根据实际环境动态调整，从而可以动态控制图像序列中图像的数量。例如，在光线亮的环境中，可以对该目标时间窗口的长度进行调小，以便减少图像序列中图像的数量，从而降低计算量；而在光线亮的环境中，可以对该目标时间窗口的长度进行调大，可以适当增加图像序列中图像的数量，从而有利于提高识别结果的准确性。

在一个实施例中，终端可以将图像序列中的各图像输入至识别模型，通过识别模型中的特征提取网络对图像序列中的各图像进行特征提取，得到各图像的图像特征。

例如，终端将手掌图像序列中的各手掌图像输入至识别模型，通过识别模型中的特征提取网络对手掌图像序列中的各手掌图像进行特征提取，得到各手掌图像的掌纹特征。

在一个实施例中，终端在进行特征提取之前，可以先对图像序列中的各图像进行去噪和图像增强处理，得到处理后图像序列；然后对处理后图像序列中的各图像进行特征提取，得到各图像的图像特征；或者，将处理后图像序列中的各图像输入至识别模型，通过识别模型中的特征提取网络对处理后图像序列中的各图像进行特征提取，得到各图像的图像特征。

S204，分别对各相邻图像的图像特征进行依赖关系处理，得到各相邻图像之间的第一时间尺度的依赖特征。

其中，相邻图像可以指图像序列中所有相邻帧的两张图像。各相邻图像可以指图像序列中所有相邻帧的两张图像，如图像序列是由图像1、图像2、…、图像10所组成的有序集合，那么图像1和图像2、图像2和图像3、…、图像9和图像10均为相邻图像。

第一时间尺度可以用于衡量时间长短，在本申请的实施例中，可以是短时（也即短期）。因此，第一时间尺度的依赖特征可以是短时依赖特征，用于反映短时帧间图像之间的依赖关系。

依赖关系处理可以指通过特征处理的方式构建出相邻两个图像之间的依赖关系，如对各相邻图像的图像特征进行注意力处理或特征交叉（如两个特征之间进行相乘或拼接等），从而得到相邻两个图像之间的第一时间尺度的依赖特征。该注意力处理可以交叉注意力处理，而交叉注意力处理也可以称为跨注意力（Cross-Attention）处理，对各相邻图像的图像特征进行注意力处理之后，所得的第一时间尺度的依赖特征可以包含丰富的上下文信息。此外，该注意力处理也可以是自注意力处理。

在一个实施例中，终端在进行依赖关系处理时，终端可以将各相邻图像的图像特征分别输入识别模型中的注意力网络，利用注意力网络分别对各相邻图像的图像特征进行注意力处理，得到各相邻图像之间的第一时间尺度的依赖特征。其中，该注意力网络可以是交叉注意力网络或自注意力网络。此外，终端也可以将各相邻图像的图像特征分别输入识别模型中的特征交叉网络中，利用特征交叉网络分别对各相邻图像的图像特征进行特征交叉处理，得到各相邻图像之间的第一时间尺度的依赖特征。

例如，假设图像序列中有n个图像，如图3所示，通过识别模型中的特征提取网络提取出每个图像对应的图像特征，然后将这些图像特征分别输入识别模型中的注意力网络，这些注意力网络分别对图像1的图像特征（记为）与图像2的图像特征（记为）进行注意力处理，以及对图像2的图像特征（记为/>）与图像3的图像特征（记为/>）进行注意力处理，以此类推，从而得到各相邻图像之间的短时依赖特征。需要指出的是，图3中示例的识别模型中有多个特征提取网络、多个交叉注意力网络，在实际应用中，识别模型中的特征提取网络和交叉注意力网络可以是多个（即两个以上），也可以是一个。

在一个实施例中，终端可以以各相邻图像中的第一图像的图像特征为键值，以各相邻图像中的第二图像的图像特征为查询特征，对键值和查询特征进行注意力处理，得到各相邻图像之间的第一时间尺度的依赖特征。

其中，相邻图像中的第一图像可以是相邻的两个图像中的第一个图像，如相邻图像中包含第i个图像和第i+1个图像，则第一图像可以指该相邻图像中的第i个图像。此外，相邻图像中的第二图像可以是相邻的两个图像中的第二个图像，如相邻图像中包含第i个图像和第i+1个图像，则第二图像可以指该相邻图像中的第i+1个图像。

键值可以包括键（Key）和值（Value），键可以是键向量，值可以是值向量。查询（Query）特征可以称为查询向量。

因此，在对键值和查询特征进行注意力处理的过程中，终端可以对键和查询特征进行交叉注意力处理，得到注意力特征；对注意力特征进行逻辑回归处理，得到注意力权重；基于注意力权重和值，生成各相邻图像之间的第一时间尺度的依赖特征。

作为一个示例，为了描述方便，这里以图像i的图像特征（记为）和图像i+1的图像特征（记为/>）为例进行说明，终端将/>作为键向量key和值向量value，将/>作为查询向量query，然后对key和query进行交叉注意力处理，得到注意力特征；然后利用softmax函数（或sigmoid函数）对注意力特征进行逻辑回归处理，得到注意力权重；基于注意力权重和value生成图像i和图像i+1之间的短时依赖特征。

此外，在对键和查询特征进行交叉注意力处理时，终端可以先确定键和查询特征之间的距离；然后确定键和查询特征之间的乘积；根据键和查询特征之间的乘积与距离确定注意力特征，如对键和查询特征之间的乘积与距离进行商值运算，并将商值结果作为注意力特征。

其中，该距离可以是欧式距离、余弦距离或其它距离。

接着上面的例子进行说明，终端可以先计算key和query之间的欧式距离，然后计算key和query之间的乘积，然后将key和query之间的乘积与欧式距离（也可以是欧式距离的平方根）之间的比值结果作为注意力特征。接着利用softmax函数（或sigmoid函数）对注意力特征进行逻辑回归处理，得到注意力权重；基于注意力权重和值生成图像i和图像i+1之间的短时依赖特征。其中，上述的计算过程，可以参考如下计算式进行计算，该计算式如下：

其中，表示注意力特征，/>表示键向量的转置向量，/>表示key和query之间的欧式距离；featurefusion表示短时依赖特征。

S206，根据第一时间尺度的各依赖特征和各图像的图像特征，生成第二时间尺度的依赖特征。

其中，第二时间尺度可以用于衡量时间长短，在本申请的实施例中，第二时间尺度大于第一时间尺度，可以是长时（也即长期）。因此，第二时间尺度的依赖特征可以是长时依赖特征，具体是有选择性地保留或遗忘历史信息的特征，可用于反映长时帧间图像之间的依赖关系，因此人物对象即使未完全按照要求呈现或保持相应的姿态进行图像采集，也可以对不符合要求的特征进行遗忘，对符合要求的特征进行保留，从而可以有利于提高识别的准确性。

在一个实施例中，第一时间尺度的各依赖特征包括第一时间尺度的各时间步的依赖特征；终端根据图像序列中第一时间步对应的图像特征确定隐藏状态；将第一时间尺度的第二时间步的依赖特征与隐藏状态进行拼接，得到拼接特征；第一时间步是在第二时间步之前的时间步；依据拼接特征和第一映射矩阵确定状态影响信息；根据拼接特征和第二映射矩阵确定状态组合信息，基于隐藏状态、状态组合信息和第三映射矩阵确定第一中间隐藏状态；根据第一中间隐藏状态和状态影响信息，生成第二时间尺度的依赖特征。

其中，使用不同相邻图像对应的拼接特征可以得到相应不同的状态影响信息和状态组合信息。该隐藏状态可以是第一时间步的隐藏状态，由第一时间步的图像特征确定的，如对第一时间步的图像特征进行特征处理所得。

时间步可以是图像特征的时间信息和第一时间尺度的依赖特征的时间信息。第一时间步是在第二时间步之前的时间步，对于相邻的两个图像特征和，第一时间步可以是时间i-1，第二时间步可以是时间i；又例如，对于相邻的两个图像特征/>和/>，那么第一时间步可以是时间i，第二时间步可以是时间i+1。

状态影响信息可以是用于表征前一个时间步的隐藏状态对当前时间步的隐藏状态的影响程度，如表征第一时间步的隐藏状态（如隐藏状态）对第二时间步的隐藏状态（如隐藏状态/>）的影响程度。状态组合信息可以是用于表征前一个时间步的隐藏状态与当前时间步的第一时间尺度的依赖特征（即当前输入的第一时间尺度的依赖特征）进行组合的信息，如表征第一时间步的隐藏状态（隐藏状态/>）与第二时间步的依赖特征（即当前输入的/>）组合的信息。其中，/>是对图像特征和/>注意力处理所得的第一时间尺度的依赖特征。

在一个实施例中，在计算状态影响信息、状态组合信息和第一中间隐藏状态时，可以采用门控循环单元中的更新门计算出状态影响信息，利用门控循环单元中的重置门计算出状态组合信息，利用门控循环单元中的隐藏门计算出第一中间隐藏状态。

在计算状态影响信息、状态组合信息和第一中间隐藏状态的过程中，终端可以通过门控循环单元中的更新门对拼接特征进行门控处理，如通过该更新门计算拼接特征与第一映射矩阵之间的乘积，然后利用sigmoid函数对该乘积进行处理，可参考如下更新门的计算式，从而可以得到状态影响信息。

其中，为第一映射矩阵，是一个可学习的矩阵，可用于构建前后隐藏状态之间的影响关系，/>为sigmoid函数，/>表示隐藏状态/>与第一时间尺度的依赖特征/>之间的拼接特征。

此外，然后通过门控循环单元中的重置门对拼接特征进行门控处理，如通过该重置门计算拼接特征与第二映射矩阵之间的乘积，然后利用sigmoid函数对该乘积进行处理，可参考如下重置门的计算式，从而可以得到状态组合信息。

其中，为第二映射矩阵，可用于构建前后隐藏状态之间的组合关系。

在获得状态组合信息之后，终端还可以通过门控循环单元中的隐藏门对更新门输出的状态组合信息、隐藏状态/>以及第一时间尺度的依赖特征/>进行门控处理，如该隐藏门依据状态组合信息/>对隐藏状态/>和第一时间尺度的依赖特征/>进行拼接，得到新的拼接特征，然后计算新的拼接特征与第三映射矩阵之间的乘积，最后利用双曲正切激活函数对该乘积进行处理，可参考如下隐藏门的计算式，从而可以得到第一中间隐藏状态。

其中，表示第一中间隐藏状态，tanh表示双曲正切激活函数；为第三映射矩阵，是可学习的矩阵；/>用于表示点积运算；此外，上述计算式中的，表示依据状态组合信息/>对隐藏状态/>和第一时间尺度的依赖特征/>进行拼接所得的新的拼接特征。

在获得状态影响信息和第一中间隐藏状态之后，终端还可以通过门控循环单元对更新门输出的状态影响信息和第一中间隐藏状态计算出第二时间尺度的依赖特征。在一个实施例中，终端可以计算更新门输出的状态影响信息与第一中间隐藏状态的点积，以及对更新门输出的状态影响信息进行处理，然后利用处理后的状态影响信息与隐藏状态计算点积，然后将上述两种点积之间的和值作为二时间尺度的其中一个时间步的依赖特征，其中的计算式如下所述：

采用上述方式，得到二时间尺度的各时间步的依赖特征，将这些时间步的依赖特征进行融合，得到第二时间尺度的依赖特征，然后执行S208。

S208，基于第二时间尺度的依赖特征对图像中的目标对象进行识别，得到对象识别结果。

其中，目标对象可以是人物对象的手指、手掌、人脸或虹膜。对目标对象进行识别，可以是对人物对象的手指、手掌、人脸或虹膜进行识别，从而得到表征人物对象身份的对象识别结果。

在一个实施例中，终端可以确定第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度；在所得的相似度中选取满足相似条件的目标相似度；将目标相似度对应的模板特征的对象标识作为对象识别结果。

其中，该相似度可以是余弦相似度，或其它可用于表示相似度的值（如欧式距离）。对象标识可以是用于表示人物对象身份的标识信息。

相似条件可以是相似度大于或等于相似阈值，且为所有相似度中最大的一个相似度。

特征库可以是用于存储各人物对象预留的生物特征，该生物特征可以是采用上述方式所得的关于手指、手掌、人脸或虹膜的长时依赖特征；此外，也可以同时存储手指、手掌、人脸或虹膜的短时依赖特征。

在一个实施例中，终端除了可以基于第二时间尺度的依赖特征对图像中的目标对象进行识别得到对象识别结果之外，也可以结合第一时间尺度的依赖特征和第二时间尺度的依赖特征对图像中的目标对象进行识别得到对象识别结果，可以有利于提高识别的准确性。

例如，终端可以确定第一时间尺度的依赖特征识与特征库中各模板特征之间的相似度，以及第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度，对上述两种相似度进行加权求和，得到加权相似度；在所得的加权相似度中选取满足相似条件的目标加权相似度；将目标加权相似度对应的模板特征的对象标识作为对象识别结果。

上述实施例中，在对图像序列中的各图像进行特征提取得到各图像的图像特征之后，并不会直接利用该图像特征识别出图像中的目标对象，而是分别对各相邻图像的图像特征进行依赖关系处理，从而构建出短时帧间的特征关系，得到各相邻图像之间短时的依赖特征，然后根据第一时间尺度的各依赖特征和各图像的图像特征构建长时帧间的特征关系，得到长时的依赖特征，提升了单位时间内图像的特征有效性，因此基于长时的依赖特征对图像中的目标对象进行生物识别，可以有效地避免因单帧图像质量不足而影响识别结果的准确性，即使目标对象在面对采集设备时所呈现的角度较大，或呈现的姿态异常（如未完全按照要求呈现或保持相应的姿态）时，也能准确地识别出图像中的目标对象，大大地提高了对象识别结果的准确性。

在一个实施例中，上述图像识别方法可应用于支付场景，终端可以根据对象识别结果和交互的产品信息进行资源转移；其中，该终端可以指支付设备。

例如，如图4所示，支付设备40的支付请求页面中包括交互的产品信息402和支付控件404；当用户点击支付控件404时，支付设备会产生资源转移请求，以向服务器42发起资源转移的过程，在发起资源转移的过程中进行身份识别。在本实施例中，上述图像识别方法应用于支付场景的具体流程如下所述：

S402，支付设备40向服务器42发送资源转移请求。

S404，服务器42响应于资源转移请求，向支付设备40发送图像识别指令，以指示支付设备40采集并识别人物对象的图像，该图像可以是人脸图像或虹膜图像，此外还可以是手指图像或手掌图像。

支付设备40响应于图像识别指令，采集人物对象的图像得到图像序列，然后对图像序列中的各图像进行特征提取，得到各图像的图像特征；分别对各相邻图像的图像特征进行依赖关系处理，得到各相邻图像之间的第一时间尺度的依赖特征；根据第一时间尺度的各依赖特征和各图像的图像特征，生成第二时间尺度的依赖特征；第二时间尺度大于第一时间尺度；基于第二时间尺度的依赖特征对图像中的目标对象进行识别，得到对象识别结果。

S406，支付设备40在根据对象识别结果确定进行支付操作时，根据交互的产品信息将人物对象账号中的资源转至服务器42上的平台账号。

其中，若对象识别结果表示进行支付的人物对象的第二时间尺度的依赖特征与预留的模板特征一致，则进行支付操作，若不一致，则直接显示支付失败的提示信息。

S408，支付设备40显示支付成功的结果信息。

上述实施例中，采用本申请的图像识别方案，可以确保支付过程中的识别准确性，因此在进行支付时，保证了资源转移的安全性。

上述图像识别方法可应用于门禁系统场景，终端可以基于对象识别结果对门禁系统的开闭状态进行控制；其中，该终端可以是集成了门禁系统的服务设备，简称门禁设备。

例如，如图5所示，当人物对象门禁设备时，触发门禁设备中的图像识别端502对人物对象进行图像识别，门禁设备中的数据采集端504显示出入开关控制页面，该出入开关控制页面中包含图像采集框，从而数据采集端504可以通过图像采集框采集人物对象的图像，得到图像序列；其中，采集的图像可以是人脸图像或虹膜图像；此外，也可以是人物对象的手指图像或手掌图像。需要指出的是，图5中示出的该数据采集端可以是具有显示器的图像采集设备，此外也可以是采集指纹或掌纹的传感器。

当采集到人物对象的图像时，数据采集端502将采集到的图像发送给图像识别端504；图像识别端504对图像序列中的各图像进行特征提取，得到各图像的图像特征；分别对各相邻图像的图像特征进行依赖关系处理，得到各相邻图像之间的第一时间尺度的依赖特征；根据第一时间尺度的各依赖特征和各图像的图像特征，生成第二时间尺度的依赖特征；第二时间尺度大于第一时间尺度；基于第二时间尺度的依赖特征对图像中的目标对象进行识别，得到对象识别结果。若对象识别结果表示进行扫描的人物对象的第二时间尺度的依赖特征与预留的模板特征一致，则开启闸门，并在结果显示区显示“请通行”的字样；若不一致，则不开启闸门，并发出提示语音。

上述实施例中，对请求开启出入闸门的人物对象进行图像识别，以对人物对象的身份进行验证，在通过验证时开启闸门，保证了门禁系统的安全，并且相比于人工对人物对象进行验证，节省了成本，提高了通行效率。

此外，除了上述两种应用场景之外，还可以应用于业务办理的场景，如在银行柜台办理小额免密支付业务、开通信用卡业务，又或者通过社交应用进行免输账号绑卡的业务等等。

在一个实施例中，所述图像特征是通过特征提取网络提取所得的；在S202之前，可以对先进行模型训练得到特征提取网络，训练过程可参考图6，具体步骤包括：

S602，通过初始卷积神经网络对第一图像样本进行特征提取，并基于提取到的图像特征对第一图像样本中的对象样本进行分类处理，得到分类结果。

其中，初始卷积神经网络可以是未进行训练的卷积神经网络，该卷积神经网络可以采用inception resnet101结构的网络用于进行特征提取。

第一图像样本可以是用于对初始卷积神经网络进行训练的图像，包括对样本人物对象的手指、手掌、人脸或虹膜进行图像采集所得的图像。

在一个实施例中，终端可以通过初始卷积神经网络对单帧的第一图像样本进行特征提取，并基于提取到的图像特征对第一图像样本中的对象样本进行分类处理，得到基于单帧图像的分类结果。

S604，基于分类结果和第一图像样本的标签确定分类损失值。

在一个实施例中，终端可以采用arcface函数作为损失函数，计算分类结果和第一图像样本的标签之间的损失值，将该损失值作为网络训练过程中的分类损失值。

S606，根据分类损失值对初始卷积神经网络进行参数优化，得到卷积神经网络。

在一个实施例中，终端将分类损失值在初始卷积神经网络进行反向传播，从而对初始卷积神经网络进行参数优化，直至网络收敛，得到训练后的卷积神经网络。

S608，将卷积神经网络中的用于分类的全连接层删除，并将删除全连接层的卷积神经网络作为特征提取网络。

其中，特征提取网络用于与注意力网、门控循环单元构建识别模型。

上述实施例中，对初始卷积神经网络进行预训练得到特征提取网络，从而可以使特征提取网络可以学习到提取符合图像识别条件的图像特征，进而可以在第二阶段的训练过程中，可以加快训练进度，缩短训练时间。

在一个实施例中，如图7所示，该方法还包括：

S702，通过识别模型中的特征提取网络对图像训练集内的各第二图像样本进行特征提取，得到各第二图像样本的训练图像特征。

其中，图像训练集可以是由多帧图像（即多个第二图像样本）所组成的有序集合。该图像训练集中的第二图像样本可以是采集样本人物对象所得的图像，如采集样本人物对象的手指、手掌、人脸或虹膜所得的图像。对应的，训练图像特征可以是训练过程中，针对第二图像样本的指纹特征、掌纹特征、人脸特征或虹膜特征。

在一个实施例中，终端可以获取在目标时间窗口内对样本人物对象进行视频采集所得的视频，对视频进行解码得到视频帧序列；在视频帧序列中进行图像采样，得到图像训练集；或者，获取在目标时间窗口对样本人物对象进行图像采集所得的图像训练集。

在一个实施例中，终端可以将图像训练集中的各第二图像样本输入至识别模型，通过识别模型中的特征提取网络，提取网络对图像训练集内的各第二图像样本进行特征提取，得到各第二图像样本的训练图像特征。

例如，终端将手掌图像训练集中的各手掌图像输入至识别模型，通过识别模型中的特征提取网络对手掌图像训练集中的各手掌图像进行特征提取，得到各手掌图像的训练掌纹特征。

在一个实施例中，终端在进行特征提取之前，可以先对图像训练集中的各第二图像样本进行去噪和图像增强处理，得到处理后图像训练集；然后对处理后图像训练集中的各第二图像样本进行特征提取，得到各第二图像样本的训练图像特征；或者，将处理后图像训练集中的各第二图像样本输入至识别模型，通过识别模型中的特征提取网络对处理后图像训练集中的各第二图像样本进行特征提取，得到各第二图像样本的训练图像特征。

S704，通过识别模型中的注意力网络分别对各相邻第二图像样本的训练图像特征进行注意力处理，得到各相邻第二图像样本之间的第一时间尺度的训练依赖特征。

其中，各相邻第二图像样本可以指图像训练集中所有相邻帧的两张图像，如图像训练集是由图像1、图像2、…、图像10所组成的有序集合，那么图像1和图像2、图像2和图像3、…、图像9和图像10均为相邻第二图像样本。

对各相邻第二图像样本的图像特征进行注意力处理之后，所得的第一时间尺度的训练依赖特征可以包含丰富的上下文信息。此外，该注意力处理也可以是自注意力处理。

S706，通过识别模型中的门控循环单元对第一时间尺度的各训练依赖特征和各第二图像样本的训练图像特征进行门控处理，得到第二时间尺度的训练依赖特征。

其中，第二时间尺度的训练依赖特征可以是长时依赖特征，具体是有选择性地保留或遗忘历史信息的特征，可用于反映长时帧间图像之间的依赖关系，因此人物对象即使未完全按照要求呈现或保持相应的姿态进行图像采集，也可以对不符合要求的特征进行遗忘，对符合要求的特征进行保留，从而可以有利于提高识别的准确性。

在一个实施例中，第一时间尺度的训练依赖特征包括第一时间尺度的各时间步的训练依赖特征；S706具体可以包括：终端根据图像序列中第一时间步对应的图像特征确定隐藏状态；将第一时间尺度的第二时间步的训练依赖特征与隐藏状态进行拼接，得到训练拼接特征；通过门控循环单元中的更新门对训练拼接特征进行处理，得到训练状态影响信息；通过门控循环单元中的重置门对训练拼接特征进行处理，得到训练状态组合信息；通过门控循环单元中的隐藏门对训练状态组合信息和训练拼接特征进行处理，得到第二中间隐藏状态；根据第二中间隐藏状态和训练状态影响信息，生成第二时间尺度的训练依赖特征。

S708，基于第二时间尺度的训练依赖特征对第二图像样本中的对象样本进行识别，得到样本识别结果。

上述S704~S708，可以参考图2实施例的S204~S208。

S710，根据样本识别结果与对象样本的标签之间的识别损失值，对识别模型进行参数优化。

其中，对象样本可以是人物对象样本的手指、手掌、人脸或虹膜，因此标签可以是用于表示手指、手掌、人脸或虹膜的标识。

在一个实施例中，终端可以采用arcface函数作为损失函数，计算样本识别结果与对象样本的标签之间的损失值，将该损失值作为模型的识别损失值；然后将识别损失值在识别模型进行反向传播，从而对识别模型进行参数优化，直至模型收敛，得到训练后的识别模型。此外，在参数优化的过程中，可以对识别模型中的特征提取网络、注意力网络和门控循环单元进行参数优化，也可以只对识别模型中的门控循环单元进行参数优化。

上述实施例中，在对图像训练集中的各第二图像样本进行特征提取得到各第二图像样本的训练图像特征之后，并不会直接利用该训练图像特征识别出第二图像样本中的对象样本，而是分别对各相邻第二图像样本的训练图像特征进行注意力处理，从而构建出短时帧间的特征关系，得到各相邻第二图像样本之间短时的训练依赖特征，然后根据第一时间尺度的各训练依赖特征和各第二图像样本的训练图像特征构建长时帧间的特征关系，得到长时的训练依赖特征，提升了单位时间内图像的特征有效性，因此基于长时的训练依赖特征对图像中的对象样本进行生物识别，然后利用识别结果与标签之间的损失值对识别模型进行参数优化，从而使识别模型可以提取出长时的依赖特征，有利于提高识别模型的识别准确性，即可以有效地避免因单帧图像质量不足而影响识别结果的准确性，即使对象样本在面对采集设备时所呈现的角度较大，或呈现的姿态异常（如未完全按照要求呈现或保持相应的姿态）时，也能准确地识别出图像中的对象样本，大大地提高了对象识别结果的准确性。

作为一个示例，本申请的方法可应用于手掌图像的识别，如图8和图9所示，图8为手掌图像的采集示意图，图9为手掌图像的识别流程图，具体识别过程如下：

S1，输入连续帧的手掌图像；

S2，提取单帧手掌图像的特征，得到手掌图像特征；

S3，短时帧间关系建模；

S4，长时帧间关系建模；

S5，通过构建的识别模型提取出连续帧的针对掌纹的长时依赖特征；

S6，计算长时依赖特征与底库特征之间的相似度；

其中，底库特征可以指特征库中的模板特征。

S7，取相似度最高的样本标识作为识别结果。

其中，对于短时帧间关系建模和长时帧间关系建模，可以参考以下步骤（一）至步骤（四），具体如下：

步骤（一）：

输入固定时间窗口内的手掌纹理图像（i∈1，N），N为帧数采样的窗口，使用卷积神经网络提取单帧的手掌图像的特征，得到掌纹特征/>：

其中，表示卷积神经网络中用于进行特征提取的网络，该网络可以使用inception resnet101结构，采用arcface函数作为损失函数在单帧手掌图像上进行身份分类预训练，在使用时去掉了最后映射到身份标识的全连接层，保留特征提取部分，该部分的参数在后续训练过程中也可以进行更新。

步骤（二）：构建连续帧之间的短时依赖关系。

使用交叉注意力网络提取连续两帧的手掌图像之间的融合特征，用于建模短时的帧间图像之间的关系。

例如，将第i帧手掌图像的和第i+1帧手掌图像的/>输入至交叉注意力网络，将/>作为key和value，/>特征作为query，进行交叉注意力计算，得到融合的短时依赖特征/>，具体计算公式如下：

步骤（三）：使用门控循环单元（Gate Recurrent Unit，GRU）来建模不同帧之间的长时依赖关系。

对于第i个短时依赖特征和前一个时间步i-1的隐藏状态(由/>决定)，GRU的计算公式如下：

a）更新门：其中是可学习的矩阵，用于构建前后隐藏状态之间的影响关系，/>为sigmoid函数，/>表示将隐藏状态/>和/>拼接：

b）重置门：

c）候选隐藏门：其中为可学习参数，tanh为双曲正切激活函数，/>表示点积运算。

d）更新隐藏状态：表示更新门的输出，表征了前一个隐藏状态/>对当前隐藏状态/>的影响程度；/>表示重置门的输出，表征了前一个隐藏状态/>如何与当前输入的/>进行组合；/>表示候选隐藏状态，是根据重置门和当前的输入计算得到的中间状态；最后，/>表示更新后的隐藏状态，通过更新门和候选隐藏状态进行加权组合得到。

GRU的门控机制可以使模型可以选择性地保留或遗忘过去的信息，从而更好地处理各帧手掌图像之间的长期依赖关系。

步骤（四）：GRU输出融合的长时依赖特征映射到不同的身份标识上，然后利用arcface函数计算识别损失，进行梯度反传和模型参数更新，从而完成模型的训练。

在完成训练之后，可以进行测试，测试过程如下所述：

步骤1，输入固定时间窗口内待测的手掌图像，使用卷积神经网络提取各帧手掌图像之间的掌纹特征。

步骤2，构建各帧掌纹特征之间的短时依赖关系，得到短时依赖特征。

步骤3，构建各短时依赖特征之间的长时依赖关系，得到长时依赖特征。

步骤4，计算长时依赖特征与底库特征之间的余弦相似度，余弦相似度计算公式如下：

其中和/>分别表示注册的底库特征和长时依赖特征。

步骤5，取相似度最高的底库特征对应的身份标识作为最终的识别结果，该识别结果返回支付设备作为进行支付时的依据。

本申请通过结合构建短时和长时帧间手掌图像之间的特征关系，丰富了单位时间窗口内掌纹特征的有效性，避免因单帧图像质量不足时影响识别效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像识别方法的图像识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像识别装置实施例中的具体限定可以参见上文中对于图像识别方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种图像识别装置，包括：提取模块1002、处理模块1004、生成模块1006和识别模块1008，其中：

提取模块1002，用于对图像序列中的各图像进行特征提取，得到各图像的图像特征；

处理模块1004，用于分别对各相邻图像的图像特征进行依赖关系处理，得到各相邻图像之间的第一时间尺度的依赖特征；

生成模块1006，用于根据第一时间尺度的各依赖特征和各图像的图像特征，生成第二时间尺度的依赖特征；第二时间尺度大于第一时间尺度；

识别模块1008，用于基于第二时间尺度的依赖特征对图像中的目标对象进行识别，得到对象识别结果。

在一个实施例中，如图11所示，该装置还包括：

获取模块1010，用于获取在目标时间窗口内对目标对象进行视频采集所得的视频，对视频进行解码得到视频帧序列；在视频帧序列中进行图像采样，得到图像序列；或者，获取在目标时间窗口内对目标对象进行图像采集所得的图像序列。

在一个实施例中，处理模块1004，还用于以各相邻图像中的第一图像的图像特征为键值，以各相邻图像中的第二图像的图像特征为查询特征，对键值和查询特征进行注意力处理，得到各相邻图像之间的第一时间尺度的依赖特征。

在一个实施例中，处理模块1004，还用于对键和查询特征进行交叉注意力处理，得到注意力特征；对注意力特征进行逻辑回归处理，得到注意力权重；基于注意力权重和值，生成各相邻图像之间的第一时间尺度的依赖特征。

在一个实施例中，处理模块1004，还用于确定键和查询特征之间的距离；确定键和查询特征之间的乘积；根据键和查询特征之间的乘积与距离确定注意力特征。

在一个实施例中，生成模块1006，还用于根据图像序列中第一时间步对应的图像特征确定隐藏状态；将第一时间尺度的第二时间步的依赖特征与隐藏状态进行拼接，得到拼接特征；第一时间步是在第二时间步之前的时间步；依据拼接特征和第一映射矩阵确定状态影响信息；根据拼接特征和第二映射矩阵确定状态组合信息，基于拼接特征、状态组合信息和第三映射矩阵确定第一中间隐藏状态；其中，状态影响信息是用于决定前一个时间步的隐藏状态对当前时间步的隐藏状态的影响程度，状态组合信息是用于决定前一个时间步的隐藏状态如何与当前时间步的依赖特征进行组合的信息；根据第一中间隐藏状态和状态影响信息，生成第二时间尺度的依赖特征。

在一个实施例中，识别模块1008，还用于确定第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度；在所得的相似度中选取满足相似条件的目标相似度；将目标相似度对应的模板特征的对象标识作为对象识别结果。

在一个实施例中，如图11所示，该装置还包括：第一业务模块1012，用于根据对象识别结果和交互的产品信息进行资源转移；

第二业务模块1014，用于基于对象识别结果对门禁系统的开闭状态进行控制。

上述实施例中，采用本申请的图像识别方案，可以确保支付过程中的识别准确性，因此在进行支付时，保证了资源转移的安全性。此外，对请求开启出入闸门的人物对象进行图像识别，以对人物对象的身份进行验证，在通过验证时开启闸门，保证了门禁系统的安全，并且相比于人工对人物对象进行验证，节省了成本，提高了通行效率。

在一个实施例中，图像特征是通过特征提取网络提取所得的；如图11所示，该装置还包括：

提取模块1002，还用于通过初始卷积神经网络对第一图像样本进行特征提取，并基于提取到的图像特征对第一图像样本中的对象样本进行分类处理，得到分类结果；

确定模块1016，用于基于分类结果和第一图像样本的标签确定分类损失值；

优化模块1018，用于根据分类损失值对初始卷积神经网络进行参数优化，得到卷积神经网络；

删除模块1020，用于将卷积神经网络中的用于分类的全连接层删除，并将删除全连接层的卷积神经网络作为特征提取网络；其中，特征提取网络用于与注意力网、门控循环单元构建识别模型。

在一个实施例中，提取模块1002，还用于通过识别模型中的特征提取网络对图像训练集内的各第二图像样本进行特征提取，得到各第二图像样本的训练图像特征；

处理模块1004，还用于通过识别模型中的注意力网络分别对各相邻第二图像样本的训练图像特征进行注意力处理，得到各相邻第二图像样本之间的第一时间尺度的训练依赖特征；

生成模块1006，还用于通过识别模型中的门控循环单元对第一时间尺度的各训练依赖特征和各第二图像样本的训练图像特征进行门控处理，得到第二时间尺度的训练依赖特征；

识别模块1008，还用于基于第二时间尺度的训练依赖特征对第二图像样本中的对象样本进行识别，得到样本识别结果；

优化模块1018，还用于根据样本识别结果与对象样本的标签之间的识别损失值，对识别模型进行参数优化。

在一个实施例中，第一时间尺度的训练依赖特征包括第一时间尺度的各时间步的训练依赖特征；

生成模块1006，还用于根据图像序列中第一时间步对应的图像特征确定隐藏状态；将第一时间尺度的第二时间步的训练依赖特征与隐藏状态进行拼接，得到训练拼接特征；通过门控循环单元中的更新门对训练拼接特征进行处理，得到训练状态影响信息；通过门控循环单元中的重置门对训练拼接特征进行处理，得到训练状态组合信息；通过门控循环单元中的隐藏门对训练状态组合信息和训练拼接特征进行处理，得到第二中间隐藏状态；根据第二中间隐藏状态和训练状态影响信息，生成第二时间尺度的训练依赖特征。

上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种图像识别方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述图像识别方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述图像识别方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述图像识别方法的步骤。

需要说明的是，本申请所涉及用户的图像，是经用户授权或者经过各方充分授权的图像，且相关图像的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

对图像序列中的各图像进行特征提取，得到各所述图像的图像特征；各所述图像为手指图像、手掌图像、人脸图像或虹膜图像中的一种，各所述图像的图像特征为指纹特征、掌纹特征、人脸特征或虹膜特征中的一种；

分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征；所述第一时间尺度的依赖特征用于反映短时帧间图像之间的依赖关系，所述依赖关系处理包括特征交叉处理；

根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征；所述第二时间尺度的依赖特征用于反映长时帧间图像之间的依赖关系，所述第二时间尺度大于所述第一时间尺度；

基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到表征身份的对象识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对图像序列中的各图像进行特征提取，得到各所述图像的图像特征之前，所述方法还包括：

获取在目标时间窗口内对所述目标对象进行视频采集所得的视频，对所述视频进行解码得到视频帧序列；在所述视频帧序列中进行图像采样，得到所述图像序列；或者，

获取在所述目标时间窗口内对所述目标对象进行图像采集所得的图像序列。

3.根据权利要求1所述的方法，其特征在于，所述分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征包括：

以各相邻所述图像中的第一图像的图像特征为键值，以各相邻所述图像中的第二图像的图像特征为查询特征，对所述键值和所述查询特征进行注意力处理，得到各相邻所述图像之间的第一时间尺度的依赖特征。

4.根据权利要求3所述的方法，其特征在于，所述键值包括键和值；所述对所述键值和所述查询特征进行注意力处理，得到各相邻所述图像之间的第一时间尺度的依赖特征包括：

对所述键和所述查询特征进行交叉注意力处理，得到注意力特征；

对所述注意力特征进行逻辑回归处理，得到注意力权重；

基于所述注意力权重和所述值，生成各相邻所述图像之间的第一时间尺度的依赖特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述键和所述查询特征进行交叉注意力处理，得到注意力特征包括：

确定所述键和所述查询特征之间的距离；

确定所述键和所述查询特征之间的乘积；

根据所述键和所述查询特征之间的乘积与所述距离确定注意力特征。

6.根据权利要求1所述的方法，其特征在于，所述第一时间尺度的各依赖特征包括所述第一时间尺度的各时间步的依赖特征；所述根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征包括：

根据所述图像序列中第一时间步对应的图像特征确定隐藏状态；

将所述第一时间尺度的第二时间步的依赖特征与所述隐藏状态进行拼接，得到拼接特征；所述第一时间步是在所述第二时间步之前的时间步；

依据所述拼接特征和第一映射矩阵确定状态影响信息；根据所述拼接特征和第二映射矩阵确定状态组合信息，基于所述隐藏状态、所述状态组合信息和第三映射矩阵确定第一中间隐藏状态；其中，所述状态影响信息是用于表征前一个时间步的所述隐藏状态对当前时间步的所述隐藏状态的影响程度，所述状态组合信息是用于表征前一个时间步的所述隐藏状态与当前时间步的所述依赖特征组合的信息；

根据所述第一中间隐藏状态和所述状态影响信息，生成第二时间尺度的依赖特征。

7.根据权利要求1至6中的任一项所述的方法，其特征在于，所述基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到表征身份的对象识别结果包括：

确定所述第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度；

在所得的相似度中选取满足相似条件的目标相似度；

将所述目标相似度对应的模板特征的对象标识作为对象识别结果。

8.根据权利要求1至6中的任一项所述的方法，其特征在于，所述基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到表征身份的对象识别结果之后，所述方法还包括：

根据所述对象识别结果和交互的产品信息进行资源转移；或者，

基于所述对象识别结果对门禁系统的开闭状态进行控制。

9.根据权利要求1至6中的任一项所述的方法，其特征在于，所述图像特征是通过特征提取网络提取所得的；所述对图像序列中的各图像进行特征提取之前，所述方法还包括：

通过初始卷积神经网络对第一图像样本进行特征提取，并基于提取到的图像特征对所述第一图像样本中的对象样本进行分类处理，得到分类结果；

基于所述分类结果和所述第一图像样本的标签确定分类损失值；

根据所述分类损失值对所述初始卷积神经网络进行参数优化，得到卷积神经网络；

将所述卷积神经网络中的用于分类的全连接层删除，并将删除所述全连接层的卷积神经网络作为所述特征提取网络；其中，所述特征提取网络用于与注意力网、门控循环单元构建识别模型。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过所述识别模型中的特征提取网络对图像训练集内的各第二图像样本进行特征提取，得到各所述第二图像样本的训练图像特征；

通过所述识别模型中的注意力网络分别对各相邻所述第二图像样本的训练图像特征进行注意力处理，得到各相邻所述第二图像样本之间的第一时间尺度的训练依赖特征；

通过所述识别模型中的门控循环单元对所述第一时间尺度的各训练依赖特征和各所述第二图像样本的训练图像特征进行门控处理，得到所述第二时间尺度的训练依赖特征；

基于所述第二时间尺度的训练依赖特征对所述第二图像样本中的对象样本进行识别，得到样本识别结果；

根据所述样本识别结果与所述对象样本的标签之间的识别损失值，对所述识别模型进行参数优化。

11.根据权利要求10所述的方法，其特征在于，所述第一时间尺度的训练依赖特征包括所述第一时间尺度的各时间步的训练依赖特征；

通过所述识别模型中的门控循环单元对所述第一时间尺度的各训练依赖特征和各所述第二图像样本的训练图像特征进行门控处理，得到所述第二时间尺度的训练依赖特征包括：

将所述第一时间尺度的第二时间步的训练依赖特征与所述隐藏状态进行拼接，得到训练拼接特征；

通过所述门控循环单元中的更新门对所述训练拼接特征进行处理，得到训练状态影响信息；通过所述门控循环单元中的重置门对所述训练拼接特征进行处理，得到训练状态组合信息；通过所述门控循环单元中的隐藏门对所述训练状态组合信息和所述训练拼接特征进行处理，得到第二中间隐藏状态；

根据所述第二中间隐藏状态和所述训练状态影响信息，生成第二时间尺度的训练依赖特征。

12.一种图像识别装置，其特征在于，所述装置包括：

提取模块，用于对图像序列中的各图像进行特征提取，得到各所述图像的图像特征；各所述图像为手指图像、手掌图像、人脸图像或虹膜图像中的一种，各所述图像的图像特征为指纹特征、掌纹特征、人脸特征或虹膜特征中的一种；

处理模块，用于分别对各相邻所述图像的图像特征进行依赖关系处理，得到各相邻所述图像之间的第一时间尺度的依赖特征；所述第一时间尺度的依赖特征是短时依赖特征；

生成模块，用于根据所述第一时间尺度的各依赖特征和各所述图像的图像特征，生成第二时间尺度的依赖特征；所述第二时间尺度的依赖特征是长时依赖特征，所述第二时间尺度大于所述第一时间尺度；

识别模块，用于基于所述第二时间尺度的依赖特征对所述图像中的目标对象进行识别，得到表征身份的对象识别结果。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求12所述的装置，其特征在于，所述处理模块，还用于以各相邻所述图像中的第一图像的图像特征为键值，以各相邻所述图像中的第二图像的图像特征为查询特征，对所述键值和所述查询特征进行注意力处理，得到各相邻所述图像之间的第一时间尺度的依赖特征。

15.根据权利要求14所述的装置，其特征在于，所述键值包括键和值；

所述处理模块，还用于对所述键和所述查询特征进行交叉注意力处理，得到注意力特征；对所述注意力特征进行逻辑回归处理，得到注意力权重；基于所述注意力权重和所述值，生成各相邻所述图像之间的第一时间尺度的依赖特征。

16.根据权利要求15所述的装置，其特征在于，所述处理模块，还用于确定所述键和所述查询特征之间的距离；确定所述键和所述查询特征之间的乘积；根据所述键和所述查询特征之间的乘积与所述距离确定注意力特征。

17.根据权利要求12所述的装置，其特征在于，所述第一时间尺度的各依赖特征包括所述第一时间尺度的各时间步的依赖特征；

所述生成模块，还用于根据所述图像序列中第一时间步对应的图像特征确定隐藏状态；将所述第一时间尺度的第二时间步的依赖特征与所述隐藏状态进行拼接，得到拼接特征；所述第一时间步是在所述第二时间步之前的时间步；依据所述拼接特征和第一映射矩阵确定状态影响信息；根据所述拼接特征和第二映射矩阵确定状态组合信息，基于所述隐藏状态、所述状态组合信息和第三映射矩阵确定第一中间隐藏状态；其中，所述状态影响信息是用于表征前一个时间步的所述隐藏状态对当前时间步的所述隐藏状态的影响程度，所述状态组合信息是用于表征前一个时间步的所述隐藏状态与当前时间步的所述依赖特征组合的信息；根据所述第一中间隐藏状态和所述状态影响信息，生成第二时间尺度的依赖特征。

18.根据权利要求12至17中的任一项所述的装置，其特征在于，所述识别模块，还用于确定所述第二时间尺度的依赖特征识与特征库中各模板特征之间的相似度；在所得的相似度中选取满足相似条件的目标相似度；将所述目标相似度对应的模板特征的对象标识作为对象识别结果。

19.根据权利要求12至17中的任一项所述的装置，其特征在于，所述装置还包括：

20.根据权利要求12至17中的任一项所述的装置，其特征在于，所述图像特征是通过特征提取网络提取所得的；所述装置还包括：

删除模块，用于将所述卷积神经网络中的用于分类的全连接层删除，并将删除所述全连接层的卷积神经网络作为所述特征提取网络；其中，所述特征提取网络用于与注意力网、门控循环单元构建识别模型。

21.根据权利要求20所述的装置，其特征在于，所述装置还包括：

所述提取模块，还用于通过所述识别模型中的特征提取网络对图像训练集内的各第二图像样本进行特征提取，得到各所述第二图像样本的训练图像特征；

所述优化模块，还用于根据所述样本识别结果与所述对象样本的标签之间的识别损失值，对所述识别模型进行参数优化。

22.根据权利要求21所述的装置，其特征在于，所述第一时间尺度的训练依赖特征包括所述第一时间尺度的各时间步的训练依赖特征；

23.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。