CN104966053B

CN104966053B - 人脸识别方法及识别系统

Info

Publication number: CN104966053B
Application number: CN201510319470.9A
Authority: CN
Inventors: 汪铖杰; 李季檩; 倪辉; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2015-06-11
Filing date: 2015-06-11
Publication date: 2018-12-28
Anticipated expiration: 2035-06-11
Also published as: US20170308739A1; CN104966053A; WO2016197765A1; US10650259B2

Abstract

本发明提供一种人脸识别方法及识别系统，包括：获取人脸识别请求，并根据所述人脸识别请求随机生成一语句；获取用户对所述语句进行响应的音频数据和视频数据；根据所述音频数据获取对应的语音信息；根据所述视频数据获取对应的唇部动作信息；当所述唇部动作信息与所述语音信息满足预定规则时，通过所述人脸识别请求。本发明通过对视频中唇部动作信息和语音信息进行吻合度匹配，进行动态的人脸识别，可以有效的避免采用真人照片来进行人脸识别进行攻击，安全性更高。

Description

人脸识别方法及识别系统

技术领域

本发明属于网络安全领域，尤其涉及一种人脸识别方法及识别系统。

背景技术

人脸识别系统，通常是指利用分析对比人脸视觉特征信息进行身份鉴别的计算机技术，它属于生物特征识别技术范畴。人脸识别系统，相对于通过钥匙、射频信号识别、蓝牙识别等传统的识别方式，具有便携、不易改变、且不易丢失的优势。

然而，随着人脸识别系统的推广和应用，越来越多的伪造人像的攻击手段也相继出现。比如，通过仿造用户的真人照片来进行攻击。这些攻击手段，导致了人脸识别系统易受攻击、且安全性低。

发明内容

有鉴于此，本发明的目的在于提供一种人脸识别方法及识别系统，可以解决现有技术中不易区分真人与照片、及易受到攻击所导致的安全性能低的技术问题。

为解决上述技术问题，本发明的实施例提供了一种人脸识别方法，其中所述方法包括：

获取人脸识别请求，并根据所述人脸识别请求随机生成一语句；

获取用户对所述语句进行响应的音频数据和视频数据；

根据所述音频数据获取对应的语音信息；

根据所述视频数据获取对应的唇部动作信息；以及

当所述唇部动作信息与所述语音信息满足预定规则时，通过所述人脸识别请求。

为解决上述技术问题，本发明实施例提供了一种人脸识别系统，其中所述系统包括：

语句生成模块，用于获取人脸识别请求，并根据所述人脸识别请求随机生成一语句；

响应获取模块，用于获取用户对所述语句进行响应的音频数据和视频数据；

语音获取模块，用于根据所述音频数据获取对应的语音信息；

唇动获取模块，用于根据所述视频数据获取对应的唇部动作信息；

吻合度判断模块，用于判断所述唇部动作信息与所述语音信息是否满足预定规则；以及

请求响应模块，用于当所述唇部动作信息与所述语音信息满足预定规则时，通过所述人脸识别请求。

相对于现有技术，本发明的人脸识别方法及识别系统，通过对视频中唇部动作信息和语音信息进行分别提取及吻合度匹配，来实现动态的人脸识别，可以有效的避免采用真人照片来进行人脸识别进行攻击的行为，具有更高的安全性能更高。

附图说明

图1是本发明实施例提供的人脸识别方法及识别系统的应用环境示意图；

图2是本发明实施例一提供的人脸识别方法的工作流程示意图；

图3是本发明实施例二提供的人脸识别方法的工作流程示意图；

图4是本发明实施例三提供的人脸识别系统的模块示意图。

具体实施方式

请参照附图中的图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所示例的本发明的具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。

请参阅图1，为本发明中提供的人脸识别方法及识别系统的应用环境示意图。所述应用环境，包括人脸识别服务器10、人脸识别系统20、以及通信网络30。

人脸识别服务器10，用于随机生成一语句作为鉴权规则，并发送所述语句至所述人脸识别系统进行鉴权。

其中，语句通常为文字、单词、和/或拼音的组合，并通过文字、图片、或语音的形式展示所述语句的内容。

可以理解的是，所述人脸识别服务器10每隔一预设时间间隔，对所述语句进行更新，以避免用户的鉴权视频被偷录而导致攻击。

所述人脸识别系统20，可以下载并安装于各种类型的识别终端中。比如，笔记本电脑01、台式电脑02、智能手机03、或门禁系统04等。

可以理解的是：所述人脸识别系统20根据人脸识别服务器10所发送的鉴权规则，进行人脸识别，并当完成人脸识别后开启对应的权限。

通信网络30，连接于所述人脸识别系统10与所述识别服务器20之间，包括无线网络及有线网络。其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。

本案可应用于基于人脸识别系统，用于独立、辅助或弥补对人脸进行识别。请参照以下多个实施例，实施例一侧重于人脸识别方法的基本步骤，实施例二侧重于人脸识别方法的优化步骤，而实施例三侧重于人脸识别系统的模块的优化示意图。可以理解的是：虽然各实施例的侧重不同，但其设计思想是一致的。且，在某个实施例中没有详述的部分，可以参见说明书全文的详细描述，不再赘述。

实施例一

请参阅图2，所示为本发明实施例提供的一种人脸识别方法的流程示意图，所述人脸识别方法，应用于各类识别终端设备中。

在步骤S201中，获取人脸识别请求，并根据所述人脸识别请求随机生成一语句。

具体而言，所述生成的步骤，包括：(1)获取人脸识别请求；(2)基于预设的语句生成规则响应所述人脸识别请求，以随机生成所述语句；(3)以文字、图片、或语音的形式展示所述语句的内容。

其中，步骤(2)的步骤还可以替代为：根据所述人脸识别请求，向服务器获取由服务器随机生成的最新语句，其中服务器中的语句，每隔一预设时间间隔后自动更新，并通过减小时间间隔，可以降低因被偷录视频数据而导致攻击的可能性。

采用文字、图片、语言等多种形式展现，亦可防御采用机器识别方式进行的攻击。

在步骤S202中，获取用户对所述语句进行响应的音频数据和视频数据。

其中，在所述获取的步骤之前，还包括：对用户的脸部、尤其是唇部进行定位的步骤，以确保视频数据的准确性。

在步骤S203中，根据所述音频数据获取对应的语音信息。

在步骤S204中，根据所述视频数据获取对应的唇部动作信息。

在步骤S205中，判断所述唇部动作信息与所述语音信息是否满足预定规则。

其中，判断的步骤具体为：

(1)设置所述预定规则，包括吻合度阈值；

(2)判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值；以及

(3)当所述唇部动作信息与所述语音信息的吻合度大于所述吻合度阈值时，通过所述人脸识别请求。

所述吻合度阈值，可以基于语言区间和唇动区间的重合长度占整个视频长度的百分比。

在步骤S206中，当所述唇部动作信息与所述语音信息满足预定规则时，通过所述人脸识别请求。

在步骤S207中，当所述唇部动作信息与所述语音信息不满足预定规则时，拒绝所述人脸识别请求，即人脸识别失败。

其中，所述吻合度阈值，通常在60％～90％之间，优选为75％左右即可。因为若所述吻合度阈值设定过高，会导致在识别分析的步骤中，消耗过多的内存，而设置过低，则导致分析结果不准确。因此，选择一个适宜的区间，对于识别的效果而言事半功倍。

本发明的人脸识别方法，通过对视频中唇部动作信息和语音信息进行吻合度匹配，进行动态的人脸识别，可以有效的避免采用真人照片来进行人脸识别进行攻击，安全性更高。

实施例二

请参阅图3，所示为本发明实施例提供的一种人脸识别方法的流程示意图，所述人脸识别方法，应用于各类识别终端设备中。

其中，图3所示的人脸识别方法，是对图2所示的人脸识别方法的基础步骤所进行的优化。其中为了更好的区分基础步骤与优化步骤，图3中与图2相同的步骤，作为基础步骤采用S20进行标号；图3中与图2不同的步骤，作为优化步骤采用S30进行标号。

具体而言，所述生成的步骤，包括：

(1)获取人脸识别请求；(2)基于预设的语句生成规则响应所述人脸识别请求，以随机生成所述语句；(3)以文字、图片、或语音的形式展示所述语句的内容，其中所述语句为文字、单词、和/或拼音的组合。

其中，步骤(2)的步骤还可以替代为：根据所述人脸识别请求，向服务器获取由服务器随机生成的最新语句，其中服务器中的语句，每隔一预设时间间隔后自动更新，并通过减小时间间隔，可以降低因被偷录视频数据而导致攻击的可能性。采用文字、图片、语言等多种形式展现，亦可防御采用机器识别方式进行的攻击。

在步骤S301中，对用户的脸部进行定位，以确保视频数据的准确性。

具体而言，包括：使用人脸检测和人脸匹配方法，定位用户的脸部区域，尤其是嘴部区域。

在步骤S203中，根据所述音频数据获取对应的语音信息。

在步骤S302中，判断语句的内容与所述语音信息是否一致。其中，若上述一致，则执行步骤S303，若上述不一致，则执行步骤S207。

具体而言，所述判断的步骤，也可以细化为：

(1)预设一语音阈值；(2)判断所述语句的内容与所述语音信息的一致性是否大于所述语音阈值；(3)当所述一致性大于所述语音阈值时，确定所述语句的内容与所述语音信息一致；(4)当所述一致性不大于所述语音阈值时，确定所述语句的内容与所述语音信息不一致。

在步骤S303中，进行唇动检测，以确定唇部变化幅度值是否大于预设的唇动值。

具体而言，所述唇动检测，可以细化为：

(1)提取用户的嘴部区域的特征；(2)根据所述嘴部区域的特征，对张嘴和闭嘴状态进行分类，以生成分类结果；(3)计算所述分类结果中张嘴状态与闭嘴状态的变化幅度差值；(4)判断所述变化幅度值是否大于预设的唇动阈值；(5)当所述变化幅度值大于预设的唇动阈值时，通过唇动检测，并执行步骤S204进行后续判断；(6)当所述变化幅度值不大于预设的唇动阈值时，不通过唇动检测，并执行步骤S207，即，提示人脸识别失败。

在步骤S204中，根据所述视频数据获取对应的唇部动作信息。

其中，判断的步骤具体为：

(1)设置所述预定规则，包括吻合度阈值；(2)判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值；(3)当所述唇部动作信息与所述语音信息的吻合度大于所述吻合度阈值时，通过所述人脸识别请求。

其中，所述预设吻合度阈值，通常在60％～90％之间，优选为75％左右即可。因为若所述预设吻合度阈值设定过高，会导致在识别分析的步骤中，消耗过多的内存，而设置过低，则导致分析结果不准确。因此，选择一个适宜的区间，对于识别的效果而言事半功倍。

实施例三

请参阅图4，所示为本发明实施例提供的一种人脸识别系统的模块示意图，所述人脸识别系统，应用于各类识别终端设备中。

所述人脸识别系统20，包括：语句生成模块21、响应获取模块22、语音获取模块23、唇动获取模块24、存储模块25、一致性判断模块26、唇动检测模块27、吻合度判断模块28、以及请求响应模块29。

其中，所述语句生成模块21，用于获取人脸识别请求，并根据所述人脸识别请求随机生成一语句。

可以理解的是，所述语句生成模块21，可以是通过内置的语法规则进行随机生成、也可以是接收服务器所发送的语句。

在一实施例中，语句生成模块21，包括获取子模块211、生成子模块212、和展示子模块213。

其中，所述获取子模块211，用于获取人脸识别请求。所述生成子模块212，用于基于预设的语句生成规则响应所述人脸识别请求，以随机生成所述语句。所述展示子模块213，用于以文字、图片、或语音的形式展示所述语句的内容，其中所述语句为文字、单词、和/或拼音的组合。

响应获取模块22，用于获取用户对所述语句进行响应的视频数据。

其中，所述响应获取模块22通常为摄像头，包括独立或内置型的。所述响应获取模块22的触发，可以在生成所述语句之后的预设时间内进行触发，也可以由用户进行主动触发，如通过手机按键、门禁按钮等。并通过使用音视频处理工具来实现音频数据和视频数据的分离，如FFMPEG(Fast Forward MPEG)。

语音获取模块23，用于根据所述音频数据获取对应的语音信息。

唇动获取模块24，用于根据所述视频数据获取对应的唇部动作信息。

存储模块25，连接于所述语音获取模块23和所述唇动获取模块24，用于存储所述音频数据和视频数据。

具体而言，所述存储模块25包括：语音存储子模块251、以唇动存储子模块252。其中，语音存储子模块251，用于存储所述语音信息。唇动存储子模块252，用于存储所述唇部动作信息。

一致性判断模块26，用于判断所获取的用户语音是否与用于识别的语句的内容一致。

具体而言，所述一致性判断模块26，连接于所述存储模块25、所述语句生成模块21、以及所述请求响应模块29。

所述一致性判断模块26，用于利用语言识别技术判断来自于所述语句生成模块21的语句的内容与来自于所述存储模块25的语音信息是否一致，并当所述语句的内容与所述语音信息不一致时，将所述不一致的结果发送至所述请求响应模块29。

所述一致性判断模块26，具体包括：语音阈值子模块261、一致判断子模块262、结果子模块263、以及发送子模块264。

其中，语音阈值子模块261，用于预设一语音阈值。一致判断子模块262，用于判断所述语句的内容与所述语音信息的一致性是否大于所述语音阈值。结果子模块263，用于当所述一致性大于所述语音阈值时，确定所述语句的内容与所述语音信息一致；以及当所述一致性不大于所述语音阈值时，确定所述语句的内容与所述语音信息不一致。发送子模块264，用于当所述语句的内容与所述语音信息不一致时，将所述不一致的结果发送至所述请求响应模块29。

唇动检测模块27，连接于所述存储模块25与所述请求响应模块29，用于接收所述唇部动作信息，并判断唇动的变化幅度是否大于预设的唇动阈值，并当所述变化幅度不大于所述唇动阈值时，通知所述请求响应模块29。

可以理解的是，所述唇动检测模块27的细化，亦可包括：唇动阈值设置子模块、唇动判断子模块、唇动结果子模块、唇动发送子模块，其细化如一致性判断模块26，故，未在图中进行标示。

其中，唇动检测模块27，可以使用人脸检测和人脸匹配方法定位嘴部区域，提取嘴部区域的特征HOG(Histogram of Oriented Gradient)，使用SVM(Support VectorMachine)进行置信度的张嘴、闭嘴的分类。当SVM输出的张嘴闭嘴的变化幅度的最大差值大于预设的唇动阈值时，认为唇动测试通过。

吻合度判断模块28，用于判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值。

所述吻合判断模块28，具体包括：规则子模块281、第一区间子模块282、第二区间子模块283、吻合度生成子模块284、以及吻合判断子模块285。

其中，规则子模块281，用于设置所述预设规则，所述预设规则包括吻合阈值。第一区间子模块282，用于通过所述唇部动作信息，生成唇动区间。第二区间子模块283，用于通过所述语音识别技术识别对所述语音进行识别，生成语音区间。吻合度生成子模块284，用于对比所述唇动区间与所述语音区间，生成所述唇部动作信息与所述语音信息的吻合度。吻合判断子模块285，用于判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值。

请求响应模块29，连接于所述一致性判断模块26、唇动检测模块27、吻合度判断模块28，并当接收到所述三个判断模块之一的判断结果为：未通过时，拒绝所述人脸识别请求；当三个模块的判断结果为：通过时，通过所述人脸识别请求。

其中，所述请求响应模块29至少连接于所述吻合度判断模块28，还可以选择性的连接所述一致性判断模块26、和/或唇动检测模块27，并可以调节三个判断模块之间的连接关系，以达到最节省时间和内存。

本发明的人脸识别系统，通过对视频中唇部动作信息和语音信息进行吻合度匹配，进行动态的人脸识别，可以有效的避免采用真人照片来进行人脸识别进行攻击，安全性更高。

本发明实施例提供的人脸识别方法及识别系统属于同一构思，其具体实现过程详见说明书全文，此处不再赘述。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通测试人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种人脸识别方法，其特征在于，包括：

使用人脸检测和人脸匹配方法，定位用户的嘴部区域；

获取用户对所述语句进行响应的音频数据和视频数据；

根据所述音频数据获取对应的语音信息；

根据所述视频数据获取对应的唇部动作信息；

提取嘴部区域的特征；

根据所述嘴部区域的特征，对张嘴和闭嘴状态进行分类；

判断所述张嘴状态与闭嘴状态的变化幅度差值，是否大于预设的唇动阈值；

当所述变化幅度值大于预设的唇动阈值时，通过唇动检测，并判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值；以及

当所述唇部动作信息与所述语音信息的吻合度大于所述吻合度阈值时，通过所述人脸识别请求。

2.如权利要求1所述的人脸识别方法，其特征在于，获取用户对所述语句进行响应的音频数据和视频数据，之后还包括：

判断语句的内容与所述语音信息是否一致；其中，

若所述语句的内容与所述语音信息一致，则进行唇动检测，以确定变化幅度差值，是否大于预设的唇动阈值；或

若所述语句的内容与所述语音信息不一致，则提示未通过所述人脸识别请求。

3.如权利要求2所述的人脸识别方法，其特征在于，判断所述语句的内容与所述语音信息是否一致，具体包括：

预设一语音阈值；

判断所述语句的内容与所述语音信息的一致性是否大于所述语音阈值；以及

当所述一致性大于所述语音阈值时，确定所述语句的内容与所述语音信息一致；或

当所述一致性不大于所述语音阈值时，确定所述语句的内容与所述语音信息不一致。

4.如权利要求1所述的人脸识别方法，其特征在于，获取人脸识别请求，并根据所述人脸识别请求随机生成一语句，具体包括：

获取人脸识别请求；

基于预设的语句生成规则响应所述人脸识别请求，以随机生成所述语句；以及

以文字、图片、或语音的形式展示所述语句的内容，其中所述语句为文字、单词、和/或拼音的组合。

5.如权利要求1或4所述的人脸识别方法，其特征在于，判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值，之前还包括：

通过所述唇部动作信息，生成唇动区间；

通过所述语音识别技术识别对所述语音信息进行识别，生成语音区间；

对比所述唇动区间与所述语音区间，生成所述唇部动作信息与所述语音信息的吻合度。

6.如权利要求5所述的人脸识别方法，其特征在于，判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值，之后还包括：

当所述变化幅度值不大于预设的唇动阈值时，不通过唇动检测，并生成未通过所述人脸识别的提示。

7.一种人脸识别系统，其特征在于，包括：

唇动检测模块，用于使用人脸检测和人脸匹配方法，定位用户的嘴部区域，提取嘴部区域的特征；根据所述嘴部区域的特征，对张嘴和闭嘴状态进行分类；判断所述张嘴状态与闭嘴状态的变化幅度差值，是否大于预设的唇动阈值；当所述变化幅度值大于预设的唇动阈值时，通过唇动检测；

吻合度判断模块，用于判断所述唇部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值；以及

请求响应模块，用于当所述唇部动作信息与所述语音信息的吻合度大于所述吻合度阈值时，通过所述人脸识别请求。

8.如权利要求7所述的人脸识别系统，其特征在于，还包括：

一致性判断模块，连接于所述语音获取模块、所述语句生成模块、以及所述请求响应模块，用于判断语句的内容与所述语音信息是否一致，并当所述语句的内容与所述语音信息不一致时，发送识别失败的通知至所述请求响应模块；以及

所述请求响应模块，用于接收所述识别失败的通知，并拒绝所述人脸识别请求。

9.如权利要求8所述的人脸识别系统，其特征在于，所述一致性判断模块，具体包括：

语音阈值子模块，用于预设一语音阈值；

一致判断子模块，用于判断所述语句的内容与所述语音信息的一致性是否大于所述语音阈值；以及

结果子模块，用于当所述一致性不大于所述语音阈值时，确定所述语句的内容与所述语音信息不一致；以及

发送子模块，用于当所述语句的内容与所述语音信息不一致时，将所述不一致的结果发送至所述请求响应模块。

10.如权利要求7所述的人脸识别系统，其特征在于，语句生成模块，具体包括：

获取子模块，用于获取人脸识别请求；

生成子模块，用于基于预设的语句生成规则响应所述人脸识别请求，以随机生成所述语句；以及

展示子模块，用于以文字、图片、或语音的形式展示所述语句的内容，其中所述语句为文字、单词、和/或拼音的组合。

11.如权利要求8或10所述的人脸识别系统，其特征在于，所述吻合度判断模块，具体包括：

第一区间子模块，用于通过所述唇部动作，生成唇动区间；

第二区间子模块，用于通过所述语音识别技术识别对所述语音信息进行识别，生成语音区间；

吻合度生成子模块，用于对比所述唇动区间与所述语音区间，生成所述唇部动作信息与所述语音信息的吻合度。

12.如权利要求11所述的人脸识别系统，其特征在于，

所述唇动检测模块，还用于接收所述唇部动作信息，并当所述变化幅度值不大于所述唇动阈值时，发送识别失败的通知至所述请求响应模块；以及

所述请求响应模块，还用于接收所述识别失败的通知，并拒绝所述人脸识别请求。