CN105678250B

CN105678250B - 视频中的人脸识别方法和装置

Info

Publication number: CN105678250B
Application number: CN201511032506.1A
Authority: CN
Inventors: 周而进; 印奇
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2019-10-11
Anticipated expiration: 2035-12-31
Also published as: US10102421B2; US20170193286A1; CN105678250A

Abstract

提供了视频中的人脸识别方法和装置。所述视频中的人脸识别方法包括：对视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量；对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量；利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。所述视频中的人脸识别方法和装置采用动态识别方式，利用视频中各帧图像在时间维度上具有关联性的特性对各帧图像的信息进行互补，从而提高了人脸识别的准确性。

Description

视频中的人脸识别方法和装置

技术领域

本公开总体涉及图像处理及模式识别，具体涉及视频中的人脸识别方法和装置。

背景技术

近年来，视频中的人脸识别已成为人脸识别领域非常活跃的一个研究方向。视频中的人脸识别技术在安全监控、智能身份认证、家庭娱乐等很多方面都有广泛的应用前景。一般来说，视频中的人脸识别是指对视频中的各帧图像中检测出的人脸区域进行特征提取，随后将各帧中提取出的特征与已有的人脸数据库进行比对，最终根据比对结果识别出人脸的身份。

现有的视频中人脸识别方法通常是将视频中的图像逐帧取出，将各帧图像中的人脸分别与人脸数据库进行比对识别，并且当各帧的比对识别结果满足某一预设条件时(例如连续5帧识比对别为同一个人)认为识别出了人脸。该识别方法是一种静态的识别方法，其依赖于各帧图像独立的比对结果，因而当视频中某些帧图像的质量不高、人脸检测结果不准确、或其中的人脸的角度在人脸数据库中没有对应的样本时，会影响识别的准确率，从而导致识别准确率低。

发明内容

考虑到上述问题而提出了本公开。

根据本公开的一个方面，提供了一种视频中的人脸识别方法，包括：对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量；对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量；利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。

根据本公开的另一个方面，提供了一种视频中的人脸识别装置，包括：提取单元，配置为对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量；转换单元，配置为对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量；识别单元，配置为利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。

根据本公开的又一个方面，提供了一种视频中的人脸识别装置，包括：处理器；存储器；和存储在所述存储器中的计算机程序指令。所述计算机程序指令在被所述处理器运行时执行以下步骤：对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量；对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量；利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。

根据本公开的再一个方面，提供了一种用于视频中的人脸识别的计算机程序产品，包括计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器：对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量；对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量；利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。

根据本公开的视频中的人脸识别方法、装置和计算机程序产品利用视频中各帧图像在时间维度上具有关联性的特性，提取视频中多帧图像的时序特征来表示该多帧图像，由此对多帧图像的信息进行了互补，从而提高了人脸识别的准确性。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示意性地示出了根据本公开实施例的视频中的人脸识别方法的流程图。

图2示出了根据本公开实施例的视频中的人脸识别方法、在人脸图像区域的不同子图像区域中分别进行特征提取的一个示例应用。

图3示出了根据本公开实施例的视频中的人脸识别装置的示例性结构框图。

图4示出了可用于实现本公开的实施例的、视频中的人脸识别装置的计算设备的示意性框图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。

首先对根据本公开实施例的视频中的人脸识别技术的基本思想进行简单介绍。本发明人认识到，视频中的各帧图像在时间维度上具有关联性，因此针对视频中的各帧图像，除了提取其静态特征之外，可以进一步提取并利用其时序特征来对各帧图像的静态信息进行互补，从而提高人脸识别的准确性。

下面将参考图1对根据本公开实施例的视频中的人脸识别方法进行详细的描述。图1示意性地示出了根据本公开实施例的视频中的人脸识别方法的流程图。

如图1所示，在步骤S110，对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量。

所述多帧图像是通过对视频中的各帧图像进行人脸检测和人脸跟踪处理所确定的包含有目标人脸的图像帧。具体的，可以通过诸如模板匹配、SVM(支持向量机)、神经网络等各种本领域中常用的人脸检测方法在包含目标人脸的起始图像帧中确定该目标人脸的大小和位置，随后基于目标人脸的颜色信息、局部特征、或运动信息等对该目标人脸进行跟踪，从而确定视频中包含有目标人脸的各帧图像。上述通过人脸检测和人脸跟踪确定包含有目标人脸的图像帧的处理是图像处理领域中的常见处理，此处不再对其进行详细描述。

需要说明的是，所述多帧图像并非必须是视频中所有包含有目标人脸的图像，而可以仅是其中的部分图像帧；另一方面，所述多帧图像可以是连续的多帧图像，也可以是不连续的、任意选定的多帧图像。

在该步骤中，可以采用诸如LBP(局部二值模式)、HoG(方向梯度直方图)、PCA(主成分分析法)或者神经网络等各种适当的人脸特征提取方法来进行特征提取并生成所述多个特征向量。可选的，对于所述多帧图像中的每一帧图像中的目标人脸均采用相同的特征提取方法生成特征向量。下面仅仅是为了说明的完整性，对本实施例中所采用的人脸特征提取方法进行简单的说明。

作为一个示例，在本实施例中，采用基于卷积神经网络的特征提取方法对视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个特征向量。根据该示例，首先对于所述多帧图像中的每一帧图像，确定其中与目标人脸对应的人脸图像区域；随后，对该人脸图像区域基于卷积神经网络进行特征提取，以生成与该帧图像中的目标人脸对应的一个特征向量。此处，可以将该人脸图像区域作为一个整体进行特征提取，也可以在该人脸图像区域的不同子图像区域中分别进行特征提取。下面将结合图2对后者进行说明。

具体的，可以通过以下处理在人脸图像区域的不同子图像区域中分别进行特征提取：(a)利用滑动窗口在该人脸图像区域中进行滑动；(b)对于滑动到的每个位置所包含的子图像区域，进行特征提取以生成与该子图像区域对应的特征向量；(c)将生成的多个特征向量合并为一个特征向量。在所述处理(a)中，可以根据具体情形任意选择适当大小的滑动窗口在人脸图像区域中进行滑动，该滑动窗口的大小在滑动过程中可以保持固定也可以适当地变化。滑动的步长以及滑动的路径可以根据需要任意设置，并且可以滑动遍历整个人脸图像区域也可以仅仅滑动遍历部分人脸图像区域。在处理(c)中可以通过诸如简单叠加等方式将生成的多个特征向量合并为一个特征向量。图2示出了上述在人脸图像区域的不同子图像区域中分别进行特征提取的处理的一个示例应用。如图2所示，左侧所示的大图为某一帧图像中与目标人脸对应的人脸图像区域；中部的多幅小图是经过上述处理(a)滑动到的各个位置中所包含的各个子图像区域；右侧所示的多个卷积神经网络处理框表示对于滑动得到的每个子图像区域基于卷积神经网络进行特征提取以生成与该子图像区域对应的特征向量；最后通过对所生成的多个特征向量进行合并得到与左侧所示的大图对应的特征向量。

在步骤S120，对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量。

如前所述，视频中的各帧图像在时间维度上具有关联性，在该步骤中通过对在步骤S110中生成的具有时序性的多个特征向量进行时序特征提取将它们转换为一个预定维度的特征向量。所述预定维度是预先建立的人脸的特征向量库中的各特征向量的维度，在该步骤中将多个特征向量转换为该预定维度的特征向量后，该转换后的特征向量与预先建立的人脸的特征向量库中的各特征向量具有相同的维度，因而可以在后续的处理中进行比对识别。

在该步骤中可以采用本领域中各种适当的方式进行所述转换。以采用循环神经网络为例，可以如下式(1)所示，对所述多个特征向量进行时序特征提取以将它们转换为一个预定维度的特征向量：

h(t)＝f₁(W1×h(t-1)+W2×s(t)+b1)

p(t)＝f₂(W3×h(t)+b2)…(1)

其中，s(t)是循环神经网络的输入，其表示与视频中t时刻的图像帧中的目标人脸对应的特征向量；h(t)是循环神经网络的隐藏层在t时刻的状态，h(-1)在实现中一般置为零向量；p(t)为循环神经网络的输出，其表示对与截止至t时刻的多帧图像中的目标人脸对应的多个特征向量进行转换得到的特征向量，能够理解，p(t)可以看做是时刻t目标人脸的特征向量表示；f₁和f₂均为非线性函数，如tanh(x),sigmoid(x),max(x,0)等；W1,W2,W3是线性变换矩阵；b1,b2是常向量。这些参数可通过训练样本预先训练得到。

如上所述，上述循环神经网络仅仅是将多个特征向量转化为一个预定维度的特征向量的一种示例转换方式，而并非是对本公开的限制，本领域技术人员也可以采用其他的转换方式，只要能够提取出多个特征向量的时序特征并将它们转换为一个预定维度的特征向量即可。比如，作为一个可能的示例，可以采用1阶马尔科夫模型进行该转换。再比如，作为一种基本的方法，可以对所述多个特征向量在时间维度上直接进行叠加得到一个特征向量，并对叠加得到的该特征向量进行维度归约从而得到预定维度的特征向量。相对于采用循环神经网络而言，这种直接叠加的方法的特征提取能力较弱。

在步骤S130，利用分类器对所述预定维度的特征向量进行判决，以识别所述目标人脸。

分类器是预先学习得到的，其可以采用诸如SVM、Adaboost、神经网络等本领域中各种常用的分类器。以采用神经网络为例，可以如下式(2)所示，对在步骤S120得到的预定维度的特征向量进行判决，以识别目标人脸：

u1＝f3(W4×p(t)+b3)

u2＝softmax(W5×u1+b4)…(2)

其中，p(t)如前所述是在时刻t目标人脸的特征向量表示；u2是概率分布；softmax(x_i)是归一化后的概率；f₃为非线性函数，如tanh(x),sigmoid(x),max(x,0)等；n是分类器的分类数目；W4,W5是线性变换矩阵,b3,b4是常向量。这些参数可通过训练样本预先训练得到。

利用如表达式(2)所示的分类器，可以对步骤S120得到的预定维度的特征向量进行判决，确定目标人脸为分数最高的归一化后的概率所对应的分类，由此识别出目标人脸。

以上，已经对根据本公开实施例的视频中的人脸识别方法进行了描述。在该方法中，利用视频中各帧图像在时间维度上具有关联性的特性，提取视频中多帧图像的时序特征来表示该多帧图像，由此对多帧图像的信息进行了互补，从而提高了人脸识别的准确性。

下面，将参考图3来描述根据本公开实施例的视频中的人脸识别装置。图3示出了根据本公开实施例的视频中的人脸识别装置300的示例性结构框图。如图3所示，该行人再识别设备可以包括提取单元310、转换单元320和识别单元330，所述各个单元可分别执行上文中结合图1和图2描述的视频中的人脸识别方法的各个步骤/功能。以下仅对该视频中的人脸识别装置300的各单元的主要功能进行描述，而省略以上已经描述过的细节内容。

提取单元310对视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个特征向量。

所述多帧图像是通过对视频中的各帧图像进行人脸检测和人脸跟踪处理所确定的包含有目标人脸的图像帧。需要说明的是，所述多帧图像并非必须是视频中所有包含有目标人脸的图像，而可以仅是其中的部分图像帧；另一方面，所述多帧图像可以是连续的多帧图像，也可以是不连续的、任意选定的多帧图像。

提取单元310可以采用诸如LBP(局部二值模式)、HoG(方向梯度直方图)、PCA(主成分分析法)或者神经网络等各种适当的人脸特征提取方法来进行特征提取并生成所述多个特征向量。可选的，对于所述多帧图像中的每一帧图像中的目标人脸均采用相同的特征提取方法生成特征向量。

作为一个示例，提取单元310可以采用基于卷积神经网络的特征提取方法对视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个特征向量。根据该示例，提取单元310首先对于所述多帧图像中的每一帧图像，确定其中与目标人脸对应的人脸图像区域；随后，对该人脸图像区域基于卷积神经网络进行特征提取，以生成与该帧图像中的目标人脸对应的一个特征向量。此处，可以将该人脸图像区域作为一个整体进行特征提取，也可以在该人脸图像区域的不同子图像区域中分别进行特征提取。具体的，对于后者，提取单元310可以通过以下处理在人脸图像区域的不同子图像区域中分别进行特征提取：(a)利用滑动窗口在该人脸图像区域中进行滑动；(b)对于滑动到的每个位置所包含的子图像区域，进行特征提取以生成与该子图像区域对应的特征向量；(c)将生成的多个特征向量合并为一个特征向量。

转换单元320对所述多个特征向量进行时序特征提取，以将所述多个特征向量转换为一个预定维度的特征向量。如前所述，视频中的各帧图像在时间维度上具有关联性，因此转换单元320通过对由提取单元310生成的具有时序性的多个特征向量进行时序特征提取将它们转换为一个预定维度的特征向量，其中所述预定维度是预先建立的人脸的特征向量库中的各特征向量的维度。

转换单元320可以采用本领域中各种适当的方式进行所述转换。例如，转换单元320可以采用循环神经网络，如上文中的表达式(1)所示，对多个特征向量进行时序特征提取以将它们转换为一个预定维度的特征向量。当然，循环神经网络仅仅是将多个特征向量转化为一个预定维度的特征向量的一种示例转换方式，而并非是对本公开的限制，本领域技术人员也可以采用其他的转换方式，只要能够提取出多个特征向量的时序特征并将它们转换为预定维度的特征向量即可。比如，作为一个可能的示例，转换单元320可以采用1阶马尔科夫模型进行该转换。再比如，作为一种基本的方法，转换单元320可以对所述多个特征向量在时间维度上直接进行叠加得到一个特征向量，并对叠加得到的该特征向量进行维度归约从而得到预定维度的特征向量。

识别单元330利用分类器对由转换单元320得到的预定维度的特征向量进行判决，以识别所述目标人脸。所述分类器是预先学习得到的，其可以采用诸如SVM、Adaboost、神经网络等本领域中各种常用的分类器。以采用神经网络为例，识别单元330可以如上文中的表达式(2)所示，对由转换单元320得到的预定维度的特征向量进行判决，以识别目标人脸

以上结合附图描述了根据本公开实施例的视频中的人脸识别装置300，该装置利用视频中各帧图像在时间维度上具有关联性的特性，提取视频中多帧图像的时序特征来表示该多帧图像，由此对多帧图像的信息进行了互补，从而提高了人脸识别的准确性。

下面，参照图4来描述可用于实现本公开的实施例的、视频中的人脸识别装置的计算设备的示意性框图。该计算设备可以是配备有摄像头的计算机或服务器。

如图4所示，计算设备400包括一个或多个处理器402、存储装置404、摄像头406和输出装置408，这些组件通过总线系统410和/或其它形式的连接机构(未示出)互连。应当注意，图4所示的计算设备400的组件和结构只是示例性的，而非限制性的，根据需要，计算设备400也可以具有其他组件和结构。

处理器402可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制计算设备400中的其它组件以执行期望的功能。

存储装置404可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器402可以运行所述程序指令，以实现上文所述的本公开的实施例的人脸识别装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本发明实施例的视频中的人脸识别方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如与多帧图像中的目标人脸对应的多个特征向量、转换后的预定维度的特征向量、滑动窗口的大小及滑动路径、预定维度等等。

摄像头406用于拍摄待分析的视频，并且将所拍摄的视频存储在存储装置404中以供其它组件使用。当然，也可以利用其他拍摄设备拍摄所述视频，并且将拍摄的视频发送给计算设备400。在这种情况下，可以省略摄像头406。

输出装置408可以向外部(例如用户)输出各种信息，例如图像信息、声音信息、人脸识别结果，并且可以包括显示器、扬声器等中的一个或多个。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频中的人脸识别方法，包括：

对所述视频中的多帧图像中的目标人脸进行特征提取，以生成分别与所述多帧图像中的目标人脸对应的多个静态特征向量；

对所述多个静态特征向量进行时序特征提取，以将所述多个静态特征向量转换为一个预定维度的时序特征向量；

利用分类器对所述预定维度的时序特征向量进行判决，以识别所述视频中的多帧图像中的所述目标人脸。

2.如权利要求1所述的人脸识别方法，其中所述多帧图像是所述视频中连续的多帧图像。

3.如权利要求1所述的人脸识别方法，其中对所述视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个静态特征向量进一步包括：

对于所述多帧图像中的每一帧图像中的目标人脸采用相同的特征提取方法。

4.如权利要求3所述的人脸识别方法，其中对所述视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个静态特征向量进一步包括：

对于所述多帧图像中的每一帧图像，确定与目标人脸对应的人脸图像区域；

对该人脸图像区域进行所述特征提取，以生成与该帧图像中的目标人脸对应的一个静态特征向量。

5.如权利要求4所述的人脸识别方法，其中对该人脸图像区域进行所述特征提取以生成与该帧图像中的目标人脸对应的一个静态特征向量进一步包括：

利用滑动窗口在该人脸图像区域中进行滑动；

对于滑动到的每个位置中所包含的子图像区域，进行特征提取以生成与该子图像区域对应的静态特征向量；

将生成的多个特征向量合并为一个静态特征向量。

6.如权利要求1所述的人脸识别方法，其中对所述多个静态特征向量进行时序特征提取以将所述多个静态特征向量转换为一个预定维度的时序特征向量进一步包括：

对所述多个静态特征向量在时间维度上直接进行叠加；

对叠加得到特征向量进行维度归约以生成所述预定维度的时序特征向量。

7.如权利要求1所述的人脸识别方法，其中对所述多个静态特征向量进行时序特征提取以将所述多个静态特征向量转换为一个预定维度的时序特征向量进一步包括：

利用循环神经网络对所述多个静态特征向量进行时序特征提取，以将所述多个静态特征向量转换为所述预定维度的时序特征向量。

8.如权利要求1所述的人脸识别方法，其中所述预定维度是预先建立的人脸的特征向量库中的各特征向量的维度。

9.一种视频中的人脸识别装置，包括：

处理器；

存储器；和

存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：

10.如权利要求9所述的人脸识别装置，其中所述多帧图像是所述视频中连续的多帧图像。

11.如权利要求9所述的人脸识别装置，其中对所述视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个静态特征向量进一步包括：

12.如权利要求11所述的人脸识别装置，其中对所述视频中的多帧图像中的目标人脸进行特征提取以生成分别与所述多帧图像中的目标人脸对应的多个静态特征向量进一步包括：

13.如权利要求12所述的人脸识别装置，其中对该人脸图像区域进行所述特征提取以生成与该帧图像中的目标人脸对应的一个静态特征向量进一步包括：

利用滑动窗口在该人脸图像区域中进行滑动；

对于滑动到的每个位置中所包含的图像区域，进行特征提取以生成与该图像区域对应的静态特征向量；

将生成的多个静态特征向量合并为一个静态特征向量。

14.如权利要求9所述的人脸识别装置，其中对所述多个静态特征向量进行时序特征提取以将所述多个静态特征向量转换为一个预定维度的时序特征向量进一步包括：

对所述多个静态特征向量在时间维度上直接进行叠加；

对叠加得到特征向量进行维度规约以生成所述预定维度的时序特征向量。

15.如权利要求9所述的人脸识别装置，其中对所述多个静态特征向量进行时序特征提取以将所述多个静态特征向量转换为一个预定维度的时序特征向量进一步包括：

16.如权利要求9所述的人脸识别装置，其中所述预定维度是预先建立的人脸的特征向量库中的各特征向量的维度。