CN111079791A

CN111079791A - 人脸识别方法、设备及计算机可读存储介质

Info

Publication number: CN111079791A
Application number: CN201911129896.2A
Authority: CN
Inventors: 俞颖超
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-28

Abstract

本发明实施例公开了一种人脸识别方法、设备及计算机可读存储介质，该方法包括：获取与用户的待处理执行业务对应的随机信息，在进行待处理业务时，获取待检测视频数据，待检测视频数据中包含合法用户的人脸，待检测视频数据是在提示随机信息后获取的，从待检测视频数据中，提取音频特征和目标部分的视频帧序列，根据音频特征、目标部分的视频帧序列和随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果，根据语音识别结果、目标语言识别结果和音视频匹配结果的至少一种进行分析，得到人脸识别结果，当人脸识别结果表征通过时，执行待处理业务。

Description

人脸识别方法、设备及计算机可读存储介质

技术领域

本发明涉及数据加密技术领域，尤其涉及一种人脸识别方法、设备及计算机可读存储介质。

背景技术

近年来，人脸识别技术被广泛的用于各个领域，特别是身份认证环节，如支付、门禁、打卡等，但当非法用户对人脸识别系统进行蓄意攻击，如使用合法用户的人脸照片或人脸视频，将使人脸识别系统将非法使用人识别为合法用户时，将造成巨大损失。目前，为了抵御攻击，常利用人机交互的方式，使合法用户配合完成如眨眼、张嘴、摇头等动作以检测用户生物活性，这种方法能够抵御非法用户使用合法用户的人脸照片的攻击方式，但当攻击者使用提前制作好的合法用户的眨眼、张嘴、摇头等动作的视频进行播放时，将导致人脸识别系统得到错误的识别结果。

发明内容

本发明实施例提供一种人脸识别方法、设备及计算机可读存储介质，旨在提高人脸识别的准确度。

本发明的技术方案是这样实现的：

本发明实施例提供了一种人脸识别方法，所述方法包括：获取与用户的待处理执行业务对应的随机信息；在进行所述待处理业务时，获取待检测视频数据，所述待检测视频数据中包含合法用户的人脸；所述待检测视频数据是在提示所述随机信息后获取的；从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列；根据所述音频特征、所述目标部分的视频帧序列和所述随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果；根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果；当所述人脸识别结果表征通过时，执行所述待处理业务。

上述方法中，所述根据所述音频特征、所述目标部分的视频帧序列和所述随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果，包括：根据所述音频特征和所述随机信息进行语音识别，得到所述语音识别结果；根据所述目标部分的视频帧序列和所述随机信息进行图像识别，得到所述目标语言识别结果；对所述音频特征和所述目标部分的视频帧序列进行匹配识别，得到所述音视频匹配结果。

上述方法中，所述从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列，包括：对所述待检测视频数据进行音视频分离，得到音频序列和视频帧序列；对所述音频序列进行音频特征提取，得到所述音频特征；对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列。

上述方法中，所述目标部分包括唇部；所述对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列，包括：从视频帧序列的第一个视频帧中进行人脸识别，得到第一个视频帧的人脸方向；根据预设的旋转角度和所述第一个视频帧的人脸方向，对所述每个视频帧进行旋转，得到旋转后的每个正向视频帧；对所述每个正向视频帧进行人脸关键点检测，得到每个视频帧对应的人脸关键点；基于所述每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

上述方法中，所述基于所述每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列，包括：对所述每个视频帧对应的人脸关键点进行校准，得到校准后的每个视频帧对应的人脸关键点，从而得到校准后的视频帧序列；所述校准后的视频帧序列中每个视频帧的人脸关键点的坐标是一致的；基于所述校准后的视频帧序列，识别出所述每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

上述方法中，所述对所述每个视频帧对应的人脸关键点进行校准，得到校准后的人脸关键点，从而得到校准后的视频帧序列，包括：获取所述每个正向视频帧对应的人脸关键点的第一坐标和所述校准后的每个视频帧对应的人脸关键点的第二坐标；根据所述第一坐标，得到与所述每个正向视频帧对应的人脸关键点对应的原始矩阵；根据所述第二坐标，得到与所述校准后的每个视频帧对应的人脸关键点对应的目标矩阵；根据所述原始矩阵和所述目标矩阵，得到变换矩阵；所述变换矩阵表征根据所述第一坐标和所述第二坐标之间的位置关系；根据所述变换矩阵，将第一坐标上的人脸关键点调整到对应的第二坐标上，得到所述校准后的人脸关键点，从而得到校准后的视频帧序列。

上述方法中，所述目标部分包括手部；所述对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列，包括：从所述视频帧序列的每个视频帧中进行肢体图像识别，得到每个视频帧的手部区域图像；将所述每个视频帧的手部区域图像，作为所述目标部分的视频帧序列。

上述方法中，所述根据所述音频特征和所述随机信息进行语音识别，得到所述语音识别结果，包括：对所述音频特征进行识别，得到所述音频特征对应的第一文本信息；获取所述随机信息对应的目标文本信息；判断所述第一文本信息与所述目标文本信息是否一致；当所述第一文本信息与所述目标文本信息一致时，得到语音识别正确的所述语音识别结果；当所述第一文本信息与所述目标文本信息不一致时，得到语音识别错误的所述语音识别结果。

上述方法中，所述根据所述目标部分的视频帧序列和所述随机信息进行图像识别，得到所述目标语言识别结果，包括：对所述目标部分的视频帧序列进行识别，得到所述目标部分的视频帧序列对应的第二文本信息；获取所述随机信息对应的目标文本信息；判断所述第二文本信息与所述目标文本信息是否一致；当所述第二文本信息与所述目标文本信息一致时，得到目标语言识别正确的所述目标语言识别结果；当所述第二文本信息与所述目标文本信息不一致时，得到目标语言识别错误的所述目标语言识别结果。

上述方法中，所述对所述音频特征和所述目标部分的视频帧序列进行匹配识别，得到所述音视频匹配结果，包括：从所述目标部分的视频帧序列中提取视频特征；获取所述音频特征和所述视频特征的相似度；当所述相似度高于相似度阈值时，得到音视频匹配的所述音视频匹配结果；当所述相似度低于相似度阈值时，得到音视频不匹配的所述音视频匹配结果。

上述方法中，所述获取所述音频特征和所述视频特征的相似度，包括：根据所述音频特征，得到音频特征向量；根据所述视频特征，得到视频特征向量；所述视频特征向量与所述音频特征向量具有相同的维度；计算所述音频特征向量与所述视频特征向量之间的距离，得到所述相似度。

上述方法中，当目标部分包括唇部时，所述根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果，包括：当所述目标语言识别正确时，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，如果语音识别正确且音视频匹配，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，如果语音识别错误或音视频不匹配，得到表征不通过的所述人脸识别结果。

上述方法中，当目标部分包括手部时，所述根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果，包括：当所述目标语言识别正确时，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，得到表征不通过的所述人脸识别结果。

本发明实施例提供一种人脸识别设备，包括：

第一获取模块，用于获取与合法用户的待处理业务对应的随机信息；

第二获取模块，用于在进行所述待处理业务时，获取待检测视频数据，所述待检测视频数据中包含合法用户的人脸；所述待检测视频数据是在提示所述随机信息后获取的；

提取模块，用于从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列；

识别模块，用于根据所述音频特征、所述目标部分的视频帧序列和所述随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果；

分析模块，用于根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果；

执行模块，用于当所述人脸识别结果表征通过时，执行所述待处理业务。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行上述一个或多个实施例中任一项所述的人脸识别方法。

本发明实施例提供一种人脸识别方法，获取与用户的待处理执行业务对应的随机信息，在进行待处理业务时，获取待检测视频数据，待检测视频数据中包含合法用户的人脸，待检测视频数据是在提示随机信息后获取的，从待检测视频数据中，提取音频特征和目标部分的视频帧序列，根据音频特征、目标部分的视频帧序列和随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果，根据语音识别结果、目标语言识别结果和音视频匹配结果的至少一种进行分析，得到人脸识别结果，当人脸识别结果表征通过时，执行待处理业务，由于本发明是通过随机信息来提示用户进行人机交互的，非法用户在不知道随机信息是什么信息的情况下，无法准备冒充的待检测数据，并且，人脸识别结果是由语音识别结果、目标语言识别结果和音视频匹配结果所共同决定的，当其中一个识别方式失效时，可以通过其他识别方式确认最终的人脸识别结果，从而提高了人脸识别的抗风险能力，增加了人脸识别结果的准确度。

附图说明

图1为本发明实施例提供的一种可选的人脸识别方法的流程示意图；

图2为本发明实施例提供的一种可选的人脸识别方法的流程示意图；

图3为本发明实施例提供的一种可选的人脸识别方法的流程示意图；

图4为本发明实施例提供的一种可选的人脸识别方法的流程示意图；

图5为本发明实施例提供的一种可选的人脸识别方法的流程示意图；

图6为本发明实施例提供的一种可选的人脸识别设备的结构示意图一；

图7为本发明实施例提供的一种可选的人脸识别设备的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种可选的人脸识别方法，如图1所示，该方法包括：

S101、获取用户的待处理业务对应的随机信息；

可以理解，用户申请处理一些待处理业务时，需要进行身份认证，当身份认证结果表征用户为合法用户时，才能执行待处理业务，例如，用户申请银行支付时，银行将对用户的身份进行核实，在确认该用户为合法用户时，才能执行银行支付。目前，常常是通过人脸识别来进行身份认证的，即获取申请办理业务的用户的人脸照片或人脸视频，通过人脸照片或人脸视频确认该用户是否为合法用户，为了防止非法用户使用合法用户的人脸进行冒充时，致使人脸识别设备将非法用户确认为合法用户，从而造成巨大损失，在确认获取到的人脸照片或人脸视频中的人脸为合法用户的人脸后，还需要进行生物活性检测，以确认申请办理业务的用户为合法用户本人。

在本发明实施例中，当用户申请办理业务时，人脸识别设备将生成与该业务对应的随机信息，使用户按照随机信息的提示与人脸识别设备进行人机交互，那么，当申请办理业务的用户是合法用户本人时，人脸识别设备获取到的人机交互的视频中所呈现人脸是合法用户的人脸，呈现的视频数据，是与随机信息相对应的，可以理解，由于非法用户无法提前获知该随机信息的具体内容，也就不能提前制作对应的视频数据进行冒充，因此，在获取人机交互的视频数据后，通过与随机信息的对比，能够确认用户是否按照随机信息的提示进行人机交互，从而确认该用户是否为合法用户。

在本发明实施例中，随机信息可以是随机验证码，也可以是随机文字，其中，随机验证码和随机文字的长度都可以根据需要设定，对此，本实施例不做具体限定。

S102、在进行待处理业务时，获取待检测视频数据，待检测视频数据中包含合法用户的人脸；待检测视频数据是在提示随机信息后获取的；

在本发明实施例中，人脸识别设备是根据获取到的用户进行人机交互的视频数据进行人脸识别，在人脸识别结果表征通过时，执行待处理业务。

举例来说，用户在银行自助取款机申请取款时，自助取款机生成一个随机验证码后会提示用户读出该随机验证码，当用户为合法用户时，通过摄像头对用户进行视频录制，得到的是合法用户读出随机验证码的待检测视频数据，从待检测视频数据提取需要识别的信息进行识别，在确认待检测视频数据中确实为合法用户本人读出了上述随机验证码时，执行待处理业务。

S103、从待检测视频数据中，提取音频特征和目标部分的视频帧序列；

在本发明实施例中，人脸识别设备在获取待检测视频数据后，需要从待检测视频数据中提取音频特征和目标部分的视频序列，进而根据音频特征和目标部分的视频序列进行识别，这里，音频特征所属时间段和目标部分的视频序列所属时间段是同一个时间段。

这里，需要说明的是，当目标部分包括唇部时，从待检测视频数据中可以提取出音频特征和目标部分的视频序列；当目标部分包括手部时，从待检测视频数据中可以提取出目标部分的视频序列，举例来说，自助取款机生成一个随机验证码，提示用户读出该随机验证码后，获取到的的视频数据是用户读出验证码的视频数据，此时，视频数据中包括用户读出验证码的声音和唇部动作，当用户使用手语表达该随机验证码时，视频数据中包括用户的手部动作图像，不包括音频。

S104、根据音频特征、目标部分的视频帧序列和随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果；

在本发明实施例中，人脸识别设备从待检测视频数据中提取了音频特征和目标部分的视频帧序列后，根据根据音频特征、目标部分的视频帧序列和随机信息，得到语音识别结果、目标语言识别结果和音视频匹配结果。

在本发明的一个实施例中，S104的具体实现如图2所示，该方法可以包括：

S201、根据音频特征和随机信息进行语音识别，得到语音识别结果；

其中，语音识别结果是将音频特征和随机信息进行语音识别得到的，用于表征用户是否按照随机信息的提示进行操作。

在本发明的一个实施例中，S201可以包括：

S2011、对音频特征进行识别，得到音频特征对应的第一文本信息；

S2012、获取随机信息对应的目标文本信息；

S2013、判断第一文本信息与目标文本信息是否一致；

S2014、当第一文本信息与目标文本信息一致时，得到语音识别正确的语音识别结果；

S2015、当第一文本信息与目标文本信息不一致时，得到语音识别错误的语音识别结果。

在本发明实施例中，根据语音识别算法对音频特征进行识别，将识别的结果作为文本信息输出，得到音频特征对应的第一文本信息，再将随机信息转换为文本信息输出，得到目标文本信息，这样，就可以对第一文本信息和目标文本信息是否一致进行判断，当第一文本信息和目标文本信息一致时，语音识别结果为语音识别正确，否则，语音识别结果为语音识别错误。

其中，语音识别算法包括：模板匹配法、随机模型法和概率语法分析法等，具体语音识别算法可以根据需要设定，对此，本实施例不做具体限定。

举例来说，当随机信息为随机验证码“123456”时，表明目标文本信息为为“123456”，通过语音识别算法对提取的音频特征进行识别后，如果得到的第一文本信息为“123451”，则语音识别结果为语音识别错误，如果得到的第一文本信息为“123456”，则语音识别结果为语音识别正确。

S202、根据目标部分的视频帧序列和随机信息进行图像识别，得到目标语言识别结果；

其中，目标语言识别结果是根据目标部分视频帧序列和随机信息进行图像识别得到的，用于表征用户的目标部分的动作是否为按照随机信息的提示来执行的。

在本发明的一个实施例中，S202可以包括：

S2021、对目标部分的视频帧序列进行识别，得到目标部分的视频帧序列对应的第二文本信息；

S2022、获取随机信息对应的目标文本信息；

S2023、判断第二文本信息与目标文本信息是否一致；

S2024、当第二文本信息与目标文本信息一致时，得到目标语言识别正确的目标语言识别结果。

S2025、对目标部分的视频帧序列进行识别，得到目标部分的视频帧序列对应的文本信息；

在本发明实施例中，是根据与目标部分对应的语言识别算法来对目标部分的视频帧序列进行识别的，将识别的结果作为文本信息输出，得到目标部分的视频帧序列对应的第二文本信息，再将随机信息转换为文本信息输出，得到目标文本信息，这样，就可以对第二文本信息和目标文本信息是否一致进行判断，当第二文本信息和目标文本信息一致时，目标语言识别结果为目标语言识别正确，否则，目标语言识别结果为目标语言识别错误。

可以理解，当目标部分包括唇部时，目标语言识别算法为唇语识别算法，其中，唇语识别算法可以为深度学习的方法，当目标部分包括手部时，目标语言识别算法为手语识别算法，手语识别算法可以为深度学习的方法，深度学习的方法可以包括：卷积神经网络、循环神经网络和长短时记忆网络等，具体深度学习的方法可以根据需要设定，对此，本实施例不做具体限定。

举例来说，当随机信息为随机验证码“123456”时，表明目标文本信息为为“123456”，通过唇语识别算法对提取的唇部视频序列进行识别后，如果得到的第二文本信息为“133457”，则目标语言识别结果为唇语识别错误，如果得到的第二文本信息为“123456”，则目标语言识别结果为唇语识别正确。

S203、对音频特征和目标部分的视频帧序列进行匹配识别，得到音视频匹配结果。

其中，音视频匹配结果是将音频特征和目标部分的视频帧序列进行匹配识别得到的，用于表征音视频是否同步。

在本发明的一个实施例中，S203可以包括：

S2031、从目标部分的视频帧序列中提取视频特征；

S2032、获取音频特征和视频特征的相似度；

S2033、当相似度高于相似度阈值时，得到音视频匹配结果为音视频匹配；

S2034、当相似度低于相似度阈值时，得到音视频匹配结果为音视频不匹配。

在本发明实施例中，通过目标部分的视频帧序列得到视频特征，基于音频特征和视频特征获取两者的相似度，当相似度高于相似度阈值时，得到音视频匹配的音视频匹配结果，表征音频和视频同步，当相似度低于相似度阈值时，到音视频不匹配的音视频匹配结果，表征音频和视频不同步，即，待检测视频数据中的音频和视频为后期合成的冒充视频数据，例如，通过非法用户读出随机验证码的音频与合法用户的人脸制作的图像合成待检测视频数据。

在本发明的一个实施例中，根据音频特征得到音频特征向量，再根据视频特征得到视频特征向量，使音频特征向量和视频特征向量的维度相同，就可以计算音频特征向量和视频特征向量的距离，通过音频特征向量和视频特征向量的距离来表征音频特征和视频特征的相似度，当音频特征向量和视频特征向量的距离高于相似度阈值时，表示音视频匹配，当音频特征向量和视频特征向量的距离低于预设阈值时，表示音视频不匹配。

在本发明的一个实施例中，在获取音频特征向量和视频特征向量之前，可以先将音频特征做滑动窗口化处理，即，从音频特征的开始时间为起始，以预设时间为步长，沿时间轴获取相等时长的音频特征，得到多个子音频特征，例如，完整的音频特征的时长为5s，以1s为步长，从0s开始获取时长为2s的音频特征，可以得到4个子音频特征，这4个子音频特征对应的时间段分别为：0s到2s，1s到3s，2s到4s，3s到5s；再根据子音频特征对应的时间段获取该时间段对应的子视频帧序列，进而得到子视频序列对应的子视频特征，然后，对子音频特征和对应的子视频特征进行向量化处理，得到所有子音频特征向量和对应的子视频特征向量的距离，最后，对所有距离求平均值来表示音频特征和视频特征的相似度。

其中，将音频特征和视频特征向量化的算法包括：SyncNet算法、L³-Net算法及AVE-Net算法等，对此，本发明实施例不做具体限定。

S105、根据语音识别结果、目标语言识别结果和音视频匹配结果的至少一种进行分析，得到人脸识别结果；

在本发明实施例中，是根据语音识别结果、目标语言识别结果和音视频匹配结果的多种协同的方式来进行人脸识别的，可以理解，语音识别、图像识别和匹配识别都有可能出现识别错误，例如，在一些声音嘈杂的环境中，获取的视频数据中的声音存在杂音干扰，可能导致语音识别失效，使人脸识别设备将正确的语音识别为语音识别错误，这时，可以根据目标语言识别结果和音视频匹配结果进一步分析，从而确认人脸识别结果，提高了人脸识别的准确度。

本发明实施例提供一种人脸识别方法，获取与用户的待处理执行业务对应的随机信息，在进行待处理业务时，获取待检测视频数据，待检测视频数据中包含合法用户的人脸，待检测视频数据是在提示随机信息后获取的，从待检测视频数据中，提取音频特征和目标部分的视频帧序列，根据音频特征、目标部分的视频帧序列和随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果，根据语音识别结果、目标语言识别结果和音视频匹配结果进行分析，得到人脸识别结果，当人脸识别结果表征通过时，执行待处理业务，由于本发明是通过随机信息来提示用户进行人机交互的，非法用户在不知道随机信息是什么信息的情况下，无法准备冒充的待检测数据，并且，人脸识别结果是由语音识别结果、目标语言识别结果和音视频匹配结果所共同决定的，当其中一个识别方式失效时，可以通过其他识别方式确认最终的人脸识别结果，从而提高了人脸识别的抗风险能力，增加了人脸识别结果的准确度。

在本发明的一个实施例中，S103中从待检测视频数据中，提取音频特征和目标部分的视频帧序列的具体实现如图3所示，该方法包括：

S301、对待检测视频数据进行音视频分离，得到音频序列和视频帧序列；

S302、对音频序列进行音频特征提取，得到音频特征；

S303、对视频帧序列中的每个视频帧进行图像识别，提取目标部分的视频帧序列。

可以理解，为了进行语音识别、图像识别和匹配识别，人脸识别设备在获取待检测视频数据后，需要将待检测视频数据中的音频和视频进行分别提取，得到音频序列和视频帧序列，再对音频序列进行音频特征的提取，得到音频特征，这里，提取的音频特征可以为梅尔倒谱频谱系数(MFCCs)，也可以是梅尔频谱能量系数(MFECs)音频特征，还可以是恒定Q变换(CQT)等音频特征，具体音频特征的类别可以根据需要设定，对此，本发明实施例不做具体限定。

需要说明的是，在获取视频帧序列后，为了使针对目标部分的图像识别更加准确，还需要从视频帧序列中提取目标部分的视频帧序列，例如，待检测视频数据包括整个人体的动作数据，那么，得到的视频帧序列中也包括整个人体各个部位的动作，当我们只需要提取手语动作进行图像识别时，需要进一步提取手部的视频帧序列。

在本发明的一个实施例中，当目标部分包括唇部时，S303中对视频帧序列中的每个视频帧进行图像识别，提取目标部分的视频帧序列的具体实现如图4所示，该方法可以包括：

S401、从视频帧序列的第一个视频帧中进行人脸识别，得到第一个视频帧的人脸方向；

S402、根据预设的旋转角度和第一个视频帧的人脸方向，对每个视频帧进行旋转，得到旋转后的每个正向视频帧；

可以理解，在用户使用摄像头拍摄读出随机文字的视频时，由于用户使用摄像头的习惯可能不同，将导致获取的待检测视频中的人脸的方向不同，例如，使用手机拍摄时，可以是手机横向拍摄也可以是手机竖向拍摄，因此，在获取待视频帧序列后，需要确认视频帧序列中的人脸方向，然后，将视频帧序列中的人脸方向旋转为正方向。

这里，需要说明的是，同一个视频的视频帧序列中，人脸的方向都是一致的，因此，只需要从视频帧序列的第一个视频帧中进行人脸识别，得到第一个视频帧的人脸方向，就可以代表每个视频帧的人脸方向，根据识别出的第一个视频帧的人脸方向，对每个视频帧进行预设角度的旋转，就可以得到旋转后的每个正向视频帧。

在本发明实施例中，可以采用人脸方向分类器从视频帧序列中的的第一个视频帧中识别出人脸方向，可以理解，人脸方向分类器采用的是深度学习的方法，其中，深度学习的方法可以为深度残差网络(ResNet)、甚深卷积网络(VGG)及密集卷积网络(DenseNet)等方法的任意一种，对此，本实施例不做具体限定。

在本发明的一个实施例中，将人脸方向划分为4类：向上、向左、向下和向右，用i表示人脸方向，i∈{0,1,2,3}，其中，0、1、2和3分别表示向上、向左、向下和向右，将向上的方向设置为正方向，那么，在识别出第一个视频帧的人脸方向为i后，只要将视频帧序列旋转i×90°就可以得到旋转后的每个正向视频帧。

S403、对每个正向视频帧进行人脸关键点检测，得到每个视频帧对应的人脸关键点；

S404、基于每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到唇部的视频帧序列。

可以理解，在旋转后的每个正向视频帧后，还需要对每个正向视频帧进行人脸关键点检测，得到每个视频帧对应的人脸关键点，根据每个视频帧对应的人脸关键点，得到每个视频帧对应的唇部区域，进而得到唇部的视频帧序列，使人脸识别设备基于唇部的视频帧序列进行唇语识别。

其中，获取人脸关键点的算法有多任务级联卷积网络(MTCNN)、深度对齐网络(DAN)、扭曲卷积神经网络(TCNN)等算法，具体算法可以根据需要设定，对此，本实施例不做具体限制。

在本发明的一个实施例中，S404的具体实现如图5所示，该方法包括：

S501、对每个视频帧对应的人脸关键点进行校准，得到校准后的每个视频帧对应的人脸关键点，从而得到校准后的视频帧序列；校准后的视频帧序列中每个视频帧的人脸关键点的坐标是一致的；

S502、基于校准后的视频帧序列，识别出每个视频帧对应的唇部区域，从而得到唇部的视频帧序列。

可以理解，用户在读出随机信息的过程中，头部和五官都可能存在动作，因此，每个视频帧中的人脸方向和五官位置可能不同，为了使提取的唇部的视频帧序列能够被准确的进行唇语识别，需要基于人脸关键点对每个正向视频帧中的人脸进行人脸对齐，使每个视频帧中的对应的人脸关键点的坐标是一致的，即将人脸的五官位置进行校准，使每个正向视频帧中的五官位置处于标准位置，得到校准后的视频帧序列，也就是说，校准后的视频帧序列中的每个视频帧的人脸方向和五官位置是一致的，再从校准后的视频帧序列中的每个视频帧中得到唇部区域，进而得到唇部帧序列。

在本发明的一个实施例中，S501的具体实现可以包括：

S5011、获取每个正向视频帧对应的人脸关键点的第一坐标和校准后的每个视频帧对应的人脸关键点的第二坐标；

S5012、根据第一坐标，得到与每个正向视频帧对应的人脸关键点对应的原始矩阵；

S5013、根据第二坐标，得到与校准后的每个视频帧对应的人脸关键点对应的目标矩阵；

S5014、根据原始矩阵和目标矩阵，得到变换矩阵；变换矩阵表征第一坐标和第二坐标之间的位置关系；

S5015、根据变换矩阵，将第一坐标上的人脸关键点调整到对应的第二坐标上，得到校准后的人脸关键点，从而得到校准后的视频帧序列。

在本发明实施例中，每个正向视频帧对应的人脸关键点的第一坐标为人脸关键点校准前的坐标位置，校准后的视频帧对应的人脸关键点的第二坐标为人脸关键点校准后的目标位置，其中，第一坐标和第二坐标均为二维坐标，因此，可以通过二维仿射变换的方式，将上的人脸关键点校准到第二坐标上。

在本发明实施例中，将二维仿射变换表达式用矩阵表示，可以得到矩阵方程，即第一坐标对应的矩阵和变换矩阵相乘得到第二坐标对应的矩阵，由此，得到第一坐标对应的矩阵为原始矩阵，第二坐标对应的矩阵为目标矩阵，根据第一坐标和第二坐标的坐标值求解矩阵方程可以得到变换矩阵，变换矩阵表征第一坐标校准到第二坐标的校准方式。

举例来说，每个正向视频帧对应的人脸关键点的坐标为(x_i，y_i)，(x_i，y_i)为第一坐标，当每个视频帧中获取到的人脸关键点有n个时，i为1至n中的任意一个，(x_i，y_i)表示n个人脸关键点中的任意一个，校准后的每个视频帧对应的人脸关键点的坐标用(x_i＇y_i＇)表示，(x_i＇y_i＇)为第二坐标，(x_i＇y_i＇)与(x_i，y_i)一一对应。

二维仿射变换表达式如公式(1)所示：

其中，a、b、c、d、e和f为仿射变换系数。

将公式(1)中用矩阵方程表示，得到的矩阵方程如公式(2)所示：

根据公式(2)得到原始矩阵A用公式(3)表示，目标矩阵B用公式(4)表示，转换矩阵Ω用公式(5)表示：

根据公式(3)-公式(5)，公式(2)可以表示为公式(6)：

B＝A·Ω (6)

根据公式(7)，计算变换矩阵Ω：

R＝argmin_Ω||Ω·A-B||_F (7)

其中，计算得到的Ω使R达到最小值，Ω满足Ω^TΩ＝I，‖·‖_F是弗罗贝尼乌斯范数，由此，得到变换矩阵为公式(8)：

Ω＝B·A^T (8)

因为目标矩阵B和原始矩阵A中的元素为已知的坐标值，因此，根据公式(8)可以得到变换矩阵Ω中的元素a、b、c、d、e和f的数值，进而得到公式(1)中呈现的第一坐标和第二坐标的坐标关系，这样，就确定了每个视频帧中人脸关键点从第一坐标校准至第二坐标的具体方式，基于此，对每一个正向视频帧对应的人脸关键点进行校准，得到校准后的视频帧序列。

这里，需要说明的是，每个正向视频帧中的人脸关键点对应一个原始矩阵，每个原始矩阵可能相同，可能不同，每个校准后的视频帧中的人脸关键点对应一个目标矩阵，每个目标矩阵相同，也就是说，每个校准后的视频帧序列中对应的关键点位于同一个坐标位置。

在本发明的一个实施例中，当目标部分包括唇部时，S105的具体实现可以包括:

S801、当目标语言识别正确时，人脸识别结果表征通过；

S802、当目标语言识别错误时，如果语音识别正确且音视频匹配，则人脸识别结果表征通过；

S803、当目标语言识别错误时，如果语音识别错误或音视频不匹配，则人脸识别结果表征不通过。

在本发明实施例中，目标语言为唇语，唇语识别的优先级最高，当唇语识别正确时，无论音视频结果和语音识别结果是什么，人脸识别结果均表征通过，可以执行待处理业务，当唇语识别错误时，采用投票机制，即语音识别或音视频不匹配时，将导致三个识别结果中有两个识别结果错误，人脸识别结果表征为不通过，当唇语识别错误时，如果语音识别正确且音视频匹配，即三个识别结果中有两个识别结果正确，人脸识别结果仍然表征为通过。

可以理解的是，当非法用户想要冒充合法用户时，待检测视频数据中可能包括合法用户的人脸及与冒充的音频，由于合法用户本身无法按照随机信息的提示进行操作，因此，待检测视频中的图像可能为合法用户没有读随机信息或读出的信息不是随机信息，根据唇部视频帧序列和音频特征将得到音视频不匹配、语音识别正确和唇语识别错误的识别结果，由此得到人脸识别结果表征为不通过，不能执行待处理业务，因此，通过本发明的人脸识别的方法，可以准确的进行人脸识别，同时，在唇语识别失效时，还可以通过语音识别结果和音视频匹配结果来获取人脸识别结果，提高了人脸识别方法的鲁棒性。

在本发明的一个实施例中，当目标部分包括手部时，S303中对视频帧序列中的每个视频帧进行图像识别，提取目标部分的视频帧序列的具体实现方法可以包括：

S901、从视频帧序列的每个视频帧中进行肢体图像识别，得到每个视频帧的手部区域图像；

S902、将每个视频帧的手部区域图像，作为目标部分的视频帧序列。

在本发明实施例中，当目标部分包括手部时，从视频帧序列的每个视频帧中进行肢体图像识别，得到每个视频帧的手部区域图像，将每个视频帧的手部区域图像作为目标部分的视频帧序列，即为手部视频帧序列，对手部视频帧序列进行手语识别得到手语识别结果。

在本发明实施例中，当合法用户无法读出随机信息时，待检测视频数据中不包含音频特征，此时，S105的具体实现可以包括:

S1001、当所述目标语言识别正确时，所述人脸识别结果表征通过；

S1002、当所述目标语言识别错误时，所述人脸识别结果表征不通过。

可以理解的是，当用户无法读出声音时，根据目标部分的视频帧序列和随机信息得到目标语言识别结果后，可以直接根据目标语言识别结果得到人脸识别结果，当目标语言识别正确时，人脸识别结果表征通过，目标语言识别错误时，人脸识别结果表征不通过。

本发明实施例提供一种人脸识别设备，对应于一种人脸识别方法；图6为本发明实施例提供的一种可选的人脸识别设备的结构示意图一，如图6所示，该人脸识别设备6包括：

第一获取模块61，用于获取与用户的待处理业务对应的随机信息；

第二获取模块62，用于在进行待处理业务时，获取待检测视频数据，待检测视频数据中包含合法用户的人脸；待检测视频数据是在提示随机信息后获取的；

提取模块63，用于从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列；

识别模块64，用于根据音频特征、目标部分的视频帧序列和随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果；

分析模块65，用于根据语音识别结果、目标语言识别结果和音视频匹配结果的至少一种进行分析，得到人脸识别结果；

在一些实施例中，识别模块64，具体用于根据所述音频特征和所述随机信息进行语音识别，得到所述语音识别结果；根据所述目标部分的视频帧序列和所述随机信息进行图像识别，得到所述目标语言识别结果；对所述音频特征和所述目标部分的视频帧序列进行匹配识别，得到所述音视频匹配结果。

在一些实施例中，识别模块64，具体用于对所述音频特征进行识别，得到所述音频特征对应的第一文本信息；获取所述随机信息对应的目标文本信息；判断所述第一文本信息与所述目标文本信息是否一致；当所述第一文本信息与所述目标文本信息一致时，得到语音识别正确的所述语音识别结果；当所述第一文本信息与所述目标文本信息不一致时，得到语音识别错误的所述语音识别结果。

在一些实施例中，识别模块64，具体用于对所述目标部分的视频帧序列进行识别，得到所述目标部分的视频帧序列对应的第二文本信息；获取所述随机信息对应的目标文本信息；判断所述第二文本信息与所述目标文本信息是否一致；当所述第二文本信息与所述目标文本信息一致时，得到目标语言识别正确的所述目标语言识别结果；当所述第二文本信息与所述目标文本信息不一致时，得到目标语言识别错误的所述目标语言识别结果。

在一些实施例中，识别模块64，具体用于从所述目标部分的视频帧序列中提取视频特征；获取所述音频特征和所述视频特征的相似度；当所述相似度高于相似度阈值时，得到音视频匹配的所述音视频匹配结果；当所述相似度低于相似度阈值时，得到音视频不匹配的所述音视频匹配结果。

在一些实施例中，提取模块63，具体用于对所述待检测视频数据进行音视频分离，得到音频序列和视频帧序列；对所述音频序列进行音频特征提取，得到所述音频特征；对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列。

在一些实施例中，提取模块63，具体用于从视频帧序列的第一个视频帧中进行人脸识别，得到第一个视频帧的人脸方向；根据预设的旋转角度和所述第一个视频帧的人脸方向，对所述每个视频帧进行旋转，得到旋转后的每个正向视频帧；对所述每个正向视频帧进行人脸关键点检测，得到每个视频帧对应的人脸关键点；基于所述每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

在一些实施例中，提取模块63，具体用于对所述每个视频帧对应的人脸关键点进行校准，得到校准后的每个视频帧对应的人脸关键点，从而得到校准后的视频帧序列；所述校准后的视频帧序列中每个视频帧的人脸关键点的坐标是一致的；基于所述校准后的视频帧序列，识别出所述每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

在一些实施例中，提取模块63，具体用于获取所述每个正向视频帧对应的人脸关键点的第一坐标，以及所述校准后的每个视频帧对应的人脸关键点的第二坐标；根据所述第一坐标，得到与所述每个正向视频帧对应的人脸关键点对应的原始矩阵；根据所述第二坐标，得到与所述校准后的每个视频帧对应的人脸关键点对应的目标矩阵；根据所述原始矩阵和所述目标矩阵，得到变换矩阵；所述变换矩阵表征所述第一坐标和所述第二坐标之间的位置关系；根据所述变换矩阵，将所述每个正向视频帧对应的人脸关键点从第一坐标调整至对应的第二坐标，得到所述校准后的人脸关键点，从而得到校准后的视频帧序列。

在一些实施例中，提取模块63，具体用于从所述视频帧序列的每个视频帧中进行肢体图像识别，得到每个视频帧的手部区域图像；将所述每个视频帧的手部区域图像，作为所述目标部分的视频帧序列。

在一些实施例中，分析模块65，具体用于根据所述音频特征，得到音频特征向量；根据所述视频特征，得到视频特征向量；所述视频特征向量与所述音频特征向量具有相同的维度；计算所述音频特征向量与所述视频特征向量之间的距离，得到所述相似度。

在一些实施例中，分析模块65，具体用于当所述目标语言识别正确时，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，如果语音识别正确且音视频匹配，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，如果语音识别错误或音视频不匹配，得到表征不通过的所述人脸识别结果。

在一些实施例中，分析模块65，具体用于当所述目标语言识别正确时，得到表征通过的所述人脸识别结果；当所述目标语言识别错误时，得到表征不通过的所述人脸识别结果。

需要说明的是，在实际应用中，上述第一获取模块61、第二获取模块62、提取模块63、识别模块64和分析模块65，还可由位于人脸识别设备上的处理器实现，具体为中央处理器(Central Processing Unit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital Signal Processing，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等实现。

本发明实施例提供一种人脸识别设备，对应于一种人脸识别方法；图7为本发明实施例提供的一种可选的人脸识别设备的结构示意图二，如图7所示，该人脸识别设备7包括：

处理器74、存储器75和通信总线76，存储器75通过通信总线76与处理器74进行通信，存储器74存储处理器74可执行的一个或者多个程序，当一个或者多个程序被执行时，通过处理器74执行如前述实施例的任意一种数据切换方法。

本发明实施例提供一种计算机可读存储介质，应用于人脸识别设备，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器74执行，程序被处理器74执行时实现如本发明实施例的人脸识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

获取与用户的待处理执行业务对应的随机信息；

在进行所述待处理业务时，获取待检测视频数据，所述待检测视频数据中包含合法用户的人脸；所述待检测视频数据是在提示所述随机信息后获取的；

从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列；

根据所述音频特征、所述目标部分的视频帧序列和所述随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果；

根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果；

当所述人脸识别结果表征通过时，执行所述待处理业务。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征、所述目标部分的视频帧序列和所述随机信息进行识别，得到语音识别结果、目标语言识别结果和音视频匹配结果，包括：

根据所述音频特征和所述随机信息进行语音识别，得到所述语音识别结果；

根据所述目标部分的视频帧序列和所述随机信息进行图像识别，得到所述目标语言识别结果；

对所述音频特征和所述目标部分的视频帧序列进行匹配识别，得到所述音视频匹配结果。

3.根据权利要求1所述的方法，其特征在于，所述从所述待检测视频数据中，提取音频特征和目标部分的视频帧序列，包括：

对所述待检测视频数据进行音视频分离，得到音频序列和视频帧序列；

对所述音频序列进行音频特征提取，得到所述音频特征；

对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列。

4.根据权利要求3所述的方法，其特征在于，所述目标部分包括唇部；所述对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列，包括：

从视频帧序列的第一个视频帧中进行人脸识别，得到第一个视频帧的人脸方向；

根据预设的旋转角度和所述第一个视频帧的人脸方向，对所述每个视频帧进行旋转，得到旋转后的每个正向视频帧；

对所述每个正向视频帧进行人脸关键点检测，得到每个视频帧对应的人脸关键点；

基于所述每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

5.根据权利要求4所述的方法，其特征在于，所述基于所述每个视频帧对应的人脸关键点，识别出每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列，包括：

对所述每个视频帧对应的人脸关键点进行校准，得到校准后的每个视频帧对应的人脸关键点，从而得到校准后的视频帧序列；所述校准后的视频帧序列中每个视频帧的人脸关键点的坐标是一致的；

基于所述校准后的视频帧序列，识别出所述每个视频帧对应的唇部区域，从而得到所述唇部的视频帧序列。

6.根据权利要求5所述的方法，其特征在于，所述对所述每个视频帧对应的人脸关键点进行校准，得到校准后的每个视频帧对应的人脸关键点，从而得到校准后的视频帧序列，包括：

获取所述每个正向视频帧对应的人脸关键点的第一坐标，以及所述校准后的每个视频帧对应的人脸关键点的第二坐标；

根据所述第一坐标，得到与所述每个正向视频帧对应的人脸关键点对应的原始矩阵；

根据所述第二坐标，得到与所述校准后的每个视频帧对应的人脸关键点对应的目标矩阵；

根据所述原始矩阵和所述目标矩阵，得到变换矩阵；所述变换矩阵表征所述第一坐标和所述第二坐标之间的位置关系；

根据所述变换矩阵，将所述每个正向视频帧对应的人脸关键点从第一坐标调整至对应的第二坐标，得到所述校准后的人脸关键点，从而得到校准后的视频帧序列。

7.根据权利要求3所述的方法，其特征在于，所述目标部分包括手部；所述对所述视频帧序列中的每个视频帧进行图像识别，提取所述目标部分的视频帧序列，包括：

从所述视频帧序列的每个视频帧中进行肢体图像识别，得到每个视频帧的手部区域图像；

将所述每个视频帧的手部区域图像，作为所述目标部分的视频帧序列。

8.根据权利要求2所述的方法，其特征在于，所述根据所述音频特征和所述随机信息进行语音识别，得到所述语音识别结果，包括：

对所述音频特征进行识别，得到所述音频特征对应的第一文本信息；

获取所述随机信息对应的目标文本信息；

判断所述第一文本信息与所述目标文本信息是否一致；

当所述第一文本信息与所述目标文本信息一致时，得到语音识别正确的所述语音识别结果；

当所述第一文本信息与所述目标文本信息不一致时，得到语音识别错误的所述语音识别结果。

9.根据权利要求2所述的方法，其特征在于，所述根据所述目标部分的视频帧序列和所述随机信息进行图像识别，得到所述目标语言识别结果，包括：

对所述目标部分的视频帧序列进行识别，得到所述目标部分的视频帧序列对应的第二文本信息；

获取所述随机信息对应的目标文本信息；

判断所述第二文本信息与所述目标文本信息是否一致；

当所述第二文本信息与所述目标文本信息一致时，得到目标语言识别正确的所述目标语言识别结果；

当所述第二文本信息与所述目标文本信息不一致时，得到目标语言识别错误的所述目标语言识别结果。

10.根据权利要求2所述的方法，其特征在于，所述对所述音频特征和所述目标部分的视频帧序列进行匹配识别，得到所述音视频匹配结果，包括：

从所述目标部分的视频帧序列中提取视频特征；

获取所述音频特征和所述视频特征的相似度；

当所述相似度高于相似度阈值时，得到音视频匹配的所述音视频匹配结果；

当所述相似度低于相似度阈值时，得到音视频不匹配的所述音视频匹配结果。

11.根据权利要求10所述的方法，其特征在于，所述获取所述音频特征和所述视频特征的相似度，包括：

根据所述音频特征，得到音频特征向量；

根据所述视频特征，得到视频特征向量；所述视频特征向量与所述音频特征向量具有相同的维度；

计算所述音频特征向量与所述视频特征向量之间的距离，得到所述相似度。

12.根据权利要求1所述的方法，其特征在于，当目标部分包括唇部时，所述根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果，包括：

当所述目标语言识别正确时，得到表征通过的所述人脸识别结果；

当所述目标语言识别错误时，如果语音识别正确且音视频匹配，得到表征通过的所述人脸识别结果；

当所述目标语言识别错误时，如果语音识别错误或音视频不匹配，得到表征不通过的所述人脸识别结果。

13.根据权利要求1所述的方法，其特征在于，当目标部分包括手部时，所述根据所述语音识别结果、所述目标语言识别结果和所述音视频匹配结果的至少一种进行分析，得到人脸识别结果，包括：

当所述目标语言识别错误时，得到表征不通过的所述人脸识别结果。

14.一种人脸识别设备，其特征在于，所述设备包括：

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行所述的权利要求1至13任一项所述的人脸识别方法。