CN104834900A

CN104834900A - 一种联合声像信号进行活体检测的方法和系统

Info

Publication number: CN104834900A
Application number: CN201510178898.6A
Authority: CN
Inventors: 李继伟
Original assignee: CHANGZHOU FEIXUN VIDEO INFORMATION TECHNOLOGY Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2015-04-15
Filing date: 2015-04-15
Publication date: 2015-08-12
Anticipated expiration: 2035-04-15
Also published as: CN104834900B

Abstract

本发明提供一种联合声像信号进行活体检测的方法，包括步骤：S1、为在互联网交易中的用户，随机显示一幅验证码图像，提示用户阅读验证码；S2、收集用户阅读验证码时的音频信号和唇形影像；S3、通过上下文模型从唇形影像中检出唇语，比较该唇语与验证码是否一致，如果一致则通过语音识别从音频信号中获得用户阅读验证码时的时序信息；S4、基于用户阅读验证码时的时序信息，对唇形影像进行分割，获得用户阅读验证码时的唇形影像片段，比较该唇形影像片段与验证码标准唇形片段的相似度，如果该相似度大于指定的阈值，则通过活体检测。本发明还提供一种活体检测系统。本发明基本上避免因用户视频被窃取所带来的认证风险，提供更为自然友好的交互方式。

Description

一种联合声像信号进行活体检测的方法和系统

技术领域

本发明属于身份认证技术领域，具体涉及一种联合声像信号进行活体检测的方法和系统。

背景技术

随着电子商务的发展，互联网交易的安全性成为了被日益关注的问题。特别是虚拟银行，虚拟证券等一系列金融平台的陆续推出，对互联网用户的身份认证，提出了更高的要求。

传统的身份认证技术包括“指纹识别”，“声纹识别”，“人脸识别”等等，这些技术能够精确地辨别出用户的静态生物特征；但是一旦用户的指纹，声纹，脸部图像等信息被窃取，在虚拟的交易平台上，这些技术将无法甄别出是被窃取的用户信息。

而活体检测，为传统的身份认证技术，提供了有利的补充。现有的活体检测技术包括“验证码输入”和“表情识别”。具体地：

在基于“验证码输入”的活体检测系统中，系统随机分发一幅验证码(如字符串)图像，用户在辨认图像中的验证码之后，从键盘输入一串和该验证码一致的字符文本，然后提交给系统，进行活体验证。这项技术在其面世初期，因其简单有效，被广泛使用，但是随着“光学字符识别(OCR)”的日益成熟，该技术已被逐渐破解。

在基于“表情识别”的活体检测系统中，系统随机分发一个表情，用户需要完成一个相同的表情，通过网络摄像头，然后提交给系统，系统自动辨别用户的脸部表情，进行活体验证。这项技术和人脸识别相结合，通过交互性的视屏认证，提供了更为安全的身份甄别。但是，本发明的发明人经过研究发现，具有显著区分性的表情(即能被系统自动区分的表情)，并且用户容易完成的表情数目是有限的，通常这些表情也是经常出现在用户的日常生活之中的，因此一旦用户的一段视屏被窃取，这项技术被破解的风险将大为提高；此外，如果使用“表情串识别”，减少因视频被窃取所带来的风险，对用户而言，连续输入多个表情也是不自然的，因而这种方式明显降低了用户界面的友好性。

发明内容

针对现有技术中“表情识别”技术存在的因用户视频被窃取所带来的认证风险和连续输入多个表情会降低用户界面友好性的技术问题，本发明提供一种联合声像信号进行活体检测的方法，为当前的互联网交易提供了一个安全性能高且用户界面友好的身份认证技术。

为了实现上述目的，本发明采用如下技术方案：

一种联合声像信号进行活体检测的方法，该方法包括以下步骤：

S1、为在互联网交易中的用户，随机显示一幅验证码图像，提示用户阅读验证码；

S2、收集用户阅读验证码时的音频信号和唇形影像；

S3、通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致，如果一致，则通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息；

S4、基于所述用户阅读验证码时的时序信息，对所述唇形影像进行分割，获得用户阅读验证码时的唇形影像片段，比较该唇形影像片段与验证码标准唇形片段的相似度，如果该相似度大于指定的阈值，则通过活体检测。

本发明提供的联合声像信号进行活体检测的方法，只需用户读出由活体检测系统随机分发的验证码(如字符串)，然后借助于语音识别得到的用户阅读验证码时的阅读时序信息，准确识别出用户阅读验证码时的唇语，通过比较唇语与验证码的一致性，进行活体验证。和现有技术“表情识别”相比，在本发明提供的活体检测方法中，用户阅读的字符串，具有“表情”无法达到的多样性，基本上避免了因用户视频被窃取所带来的认证风险；此外，和“表情识别”相比，阅读字符串，对用户而言，提供了更为自然和友好的交互方式。

进一步，所述步骤S2中收集用户阅读验证码时的唇形影像包括如下步骤：

S21、获取用户在阅读验证码时的视频信号；

S22、从每一帧视频信号中检测出用户的脸部区域，从检测出的脸部区域中使用SDM算法进行人脸对齐及关键点提取，检测出用户的唇部区域，从而获得用户在阅读验证码时的唇形影像。

进一步，所述步骤S3中通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致包括如下步骤：

S311、从每帧唇形影像中，使用SDM算法检测出唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；

S312、计算每帧唇形影像中，唇部关键点的位置坐标，作为描述当前帧唇形的静态特征；并计算每帧唇形影像中，唇部关键点在当前帧与前一帧的位移变化，作为描述当前帧唇形变化的动态特征；

S313、运用连续隐马尔科夫时间序列模型，逐帧解析每帧唇形影像，根据每帧唇形影像的静态特征及动态特征，判断出当前帧所对应的标准字符唇形以及在标准字符唇形中所处的时间状态，串联每帧的解析结果，即获得唇形影像所代表的唇语；

S314、判断从连续隐马尔科夫时间序列模型获得的置信度最高的前三条候补字符串是否与验证码一致，如果前三条候补字符串中任意一条与验证码一致，则所述唇形影像中检出的唇语与验证码一致。

进一步，所述步骤S3中通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息包括如下步骤：

S321、从所述音频信号中提取每帧语音信号的MFCC特征以及MFCC特征在当前帧与前一帧的差分，分别作为描述每帧语音信号的静态特征及动态特征；

S322、运用连续隐马尔科夫时间序列模型，逐帧解析语音信号的静态特征及动态特征，判断出当前帧所对应的字符以及在该字符的标准语音信号中所处的时间状态，串联每帧的解析结果，即获得用户音频信号的语音识别；

S323、判断从连续隐马尔科夫时间序列模型获得的语音识别结果是否与验证码一致，如果一致，将用户音频信号的语音识别作为步骤S4中唇语验证的辅助信息并执行步骤S324；

S324、将步骤S322中运用连续隐马尔科夫时间序列模型逐帧解析过程中获取的时间状态序列进行检测，获得用户在阅读每个字符时的起止时间信息，将以此作为用户阅读验证码时的时序信息。

进一步，所述步骤S4具体包括如下步骤：

S41、基于语音识别获得的时序信息，根据每个验证码阅读时的起止时间信息，对唇形影像进行分割，获得用户阅读验证码时各字符对应的唇形影像片段；

S42、就各个分割的唇形影像片段，使用SDM算法检测出分割片段中每帧唇形影像的唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；

S43、计算分割片段中每帧唇部关键点的位置坐标，作为描述该分割片段中每帧唇形的静态特征；并计算分割片段中每帧唇部关键点相对于前一帧的位移变化，作为描述该分割片段中每帧唇形变化的动态特征；

S44、运用单字级别的独立词隐马尔科夫时间序列模型，计算各个分割的唇形影像片段中，各帧唇形的静态特征和动态特征与该片段期望字符标准唇形间的相似度，如果该相似度大于指定的第一阈值，则执行步骤S45；

S45、联合所有两个相邻的分割唇形影像片段，作为双字符的唇形影像片段，运用双字级别的独立词隐马尔科夫时间序列模型，计算各个双字符唇形影像片段中，各帧唇形的静态特征和动态特征与该片段所期望双字符标准唇形间的相似度，如果该相似度大于指定的第二阈值，则通过活体检测。

本发明还提供一种联合声像信号进行活体检测的系统，该系统包括:

验证码显示模块，用于为在互联网交易中的用户，随机显示一幅验证码图像，提示用户阅读验证码；

音频收集模块，用于收集用户阅读验证码时的音频信号；

唇形收集模块，用于收集用户阅读验证码时的唇形影像；

一级唇语验证模块，用于通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致；如果一致，则执行语音识别模块；

语音识别模块，用于通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息；

二级唇语验证模块，用于基于所述用户阅读验证码时的时序信息，对所述唇形影像进行分割，获得用户阅读验证码时的唇形影像片段，比较该唇形影像片段与验证码标准唇形片段的相似度，如果该相似度大于指定的阈值，则通过活体检测。

本发明提供的联合声像信号进行活体检测的系统，只需用户读出由活体检测系统随机分发的验证码(如字符串)，然后借助于语音识别得到的用户阅读验证码时的阅读时序信息，准确识别出用户阅读验证码时的唇语，通过比较唇语与验证码的一致性，进行活体验证。和现有技术“表情识别”相比，在本发明提供的活体检测系统中，用户阅读的字符串，具有“表情”无法达到的多样性，基本上避免了因用户视频被窃取所带来的认证风险；此外，和“表情识别”相比，阅读字符串，对用户而言，提供了更为自然和友好的交互方式。

进一步，所述唇形收集模块包括：

视频信号获取单元，用于获取用户在阅读验证码时的视频信号；

唇形影像获得单元，用于从每一帧视频信号中检测出用户的脸部区域，从检测出的脸部区域中使用SDM算法进行人脸对齐及关键点提取，检测出用户的唇部区域，从而获得用户在阅读验证码时的唇形影像。

进一步，所述一级唇语验证模块包括：

第一唇部关键点处理单元，用于从每帧唇形影像中，使用SDM算法检测出唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；

第一唇部关键点计算单元，用于计算每帧唇形影像中，唇部关键点的位置坐标，作为描述当前帧唇形的静态特征；并计算每帧唇形影像中，唇部关键点在当前帧与前一帧的位移变化，作为描述当前帧唇形变化的动态特征；

唇形影像唇语获得单元，用于运用连续隐马尔科夫时间序列模型，逐帧解析每帧唇形影像，根据每帧唇形影像的静态特征及动态特征，判断出当前帧所对应的标准字符唇形以及在标准字符唇形中所处的时间状态，串联每帧的解析结果，即获得唇形影像所代表的唇语；

唇语判断单元，用于判断从连续隐马尔科夫时间序列模型获得的置信度最高的前三条候补字符串是否与验证码一致，如果前三条候补字符串中任意一条与验证码一致，则所述唇形影像中检出的唇语与验证码一致。

进一步，所述语音识别模块包括：

语音特征提取单元，用于从所述音频信号中提取每帧语音信号的MFCC特征以及MFCC特征在当前帧与前一帧的差分，分别作为描述每帧语音信号的静态特征及动态特征；

语音识别获得单元，用于运用连续隐马尔科夫时间序列模型，逐帧解析语音信号的静态特征及动态特征，判断出当前帧所对应的字符以及在该字符的标准语音信号中所处的时间状态，串联每帧的解析结果，即获得用户音频信号的语音识别；

语音识别判断单元，用于判断从连续隐马尔科夫时间序列模型获得的语音识别结果是否与验证码一致，如果一致，将用户音频信号的语音识别作为所述二级唇语验证模块中唇语验证的辅助信息并执行时序信息获得单元；

时序信息获得单元，用于将所述语音识别获得单元中运用连续隐马尔科夫时间序列模型逐帧解析过程中获取的时间状态序列进行检测，获得用户在阅读每个字符时的起止时间信息，将以此作为用户阅读验证码时的时序信息。

进一步，所述二级唇语验证模块包括：

唇形影像片段获得单元，用于基于语音识别获得的时序信息，根据每个验证码阅读时的起止时间信息，对唇形影像进行分割，获得用户阅读验证码时各字符对应的唇形影像片段；

第二唇部关键点处理单元，用于就各个分割的唇形影像片段，使用SDM算法检测出分割片段中每帧唇形影像的唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；

第二唇部关键点计算单元，用于计算分割片段中每帧唇部关键点的位置坐标，作为描述该分割片段中每帧唇形的静态特征；并计算分割片段中每帧唇部关键点相对于前一帧的位移变化，作为描述该分割片段中每帧唇形变化的动态特征；

第一相似度计算单元，用于运用单字级别的独立词隐马尔科夫时间序列模型，计算各个分割的唇形影像片段中，各帧唇形的静态特征和动态特征与该片段期望字符标准唇形间的相似度，如果该相似度大于指定的第一阈值，则执行第二相似度计算单元；

第二相似度计算单元，用于联合所有两个相邻的分割唇形影像片段，作为双字符的唇形影像片段，运用双字级别的独立词隐马尔科夫时间序列模型，计算各个双字符唇形影像片段中，各帧唇形的静态特征和动态特征与该片段所期望双字符标准唇形间的相似度，如果该相似度大于指定的第二阈值，则通过活体检测。

附图说明

图1是本发明提供的联合声像信号进行活体检测的方法流程示意图。

图2是本发明提供的运用SDM算法检测出的唇部关键点示意图。

图3是本发明提供的单字(语音)“隐马尔科夫”模型的拓扑结构示意图。

图4是本发明提供的字符串(语音)“隐马尔科夫”模型的拓扑结构示意图。

图5是本发明提供的用户在t1～t24时间段阅读验证码“4203”的语音信号及各帧语音解析结果示意图。

图6是本发明提供的单字(唇语)级别的“独立词隐马尔科夫”模型的拓扑结构示意图。

图7是本发明提供的背景(唇语)“隐马尔科夫”模型的拓扑结构示意图。

图8是本发明提供的双字(唇语)级别的“独立词隐马尔科夫”模型的拓扑结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

请参考图1所示，一种联合声像信号进行活体检测的方法，该方法包括以下步骤：

S2、收集用户阅读验证码时的音频信号和唇形影像；

作为具体实施例，所述步骤S1中具体包括：为在互联网交易中(如网上支付)的用户，随机显示一幅验证码图像，所述验证码图像具体可以是由任意4个数字随机组合而成，如为“4203”，并提示用户阅读该验证码。

作为具体实施例，所述步骤S2中收集用户阅读验证码时的音频信号，具体可以通过麦克风进行获取后收集。

作为具体实施例，所述步骤S2中收集用户阅读验证码时的唇形影像包括如下步骤：

S21、获取用户在阅读验证码时的视频信号，具体可以通过网络摄像头来进行获取；

S22、从每一帧视频信号中，使用基于维奥拉-琼斯人脸检测框架，检测出用户的脸部区域，从每一帧视频信号检测出的脸部区域中，使用SDM(Supervised Descent Method)算法进行人脸对齐及关键点提取，检测出用户的唇部区域，从而获得用户在阅读验证码时的唇形影像。其中，所述SDM算法为本领域技术人员公知的技术手段，在此不再赘述。

作为具体实施例，所述步骤S3中通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致包括如下步骤：

S311、从每帧唇形影像中，使用SDM算法检测出唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；具体地，请参考图2所示，图中的圆点即为使用SDM算法检测出的唇部关键点，其所述SDM算法为本领域技术人员的公知技术手段，在此不再赘述。其中，对唇部关键点进行旋转校正具体包括：以水平方向的两个唇角关键点为基准做旋转变换，以图2为例，取最左边及最右边两个关键点之间的连线，进行旋转，直到该连线的方向为水平方向，而唇部中的其他关键点，随之也进行相同角度的旋转；对唇部关键点进行尺度归一化具体包括：以用户的眼间距做尺度归一化，取两个唇角关键点间的中心点为唇部坐标的中心，以用户的眼间距和标准眼间距间的比值为缩放基准，将唇部关键点与唇部坐标中心之间的相对位移，进行尺度缩放。

S312、计算每帧唇形影像中，唇部关键点的位置坐标，作为描述当前帧唇形的静态特征；并计算每帧唇形影像中，唇部关键点在当前帧与前一帧的位移变化，作为描述当前帧唇形变化的动态特征。

S313、运用连续隐马尔科夫时间序列模型，逐帧解析每帧唇形影像，根据每帧唇形影像的静态特征及动态特征，判断出当前帧所对应的标准字符唇形以及在标准字符唇形中所处的时间状态，串联每帧的解析结果，即获得唇形影像所代表的唇语；具体地，如前所述，“连续隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述该步骤所采用的模型拓扑结构，不再赘述该模型内在的数学表达；该步骤所采用的“连续隐马尔科夫”时间序列模型，为两级结构：第一级是字符级别的“隐马尔科夫”时间序列模型，每个字符的标准唇形由一个包含五个唇形状态的一阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化只和前一个唇形状态相关，如图3所示，其中S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；第二级是字符串级别的“隐马尔科夫”时间序列模型，字符串的标准唇形由任意串联字符级别的模型所构成，如图4所示，其中①～⑨表示0～9的单字模型。

S314、判断从连续隐马尔科夫时间序列模型获得的置信度最高的前三条候补字符串是否与验证码一致，如果前三条候补字符串中任意一条与验证码一致，则所述唇形影像中检出的唇语与验证码一致，那么用户提供的视频影像将通过“第一级的唇语活体验证”；反之，该用户提供的视频影像中存在与预期不符的虚假唇形，无法通过活体验证。

作为具体实施例，所述步骤S3中通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息包括如下步骤：

S321、从所述音频信号中提取每帧语音信号的MFCC特征以及MFCC特征在当前帧与前一帧的差分，分别作为描述每帧语音信号的静态特征及动态特征；其中，所述语音信号的MFCC特征为本领域技术人员公知的技术手段，在此不再赘述。

S322、运用“连续隐马尔科夫”时间序列模型，逐帧解析语音，根据每帧语音的静态特征以及相对于前一帧的动态变化即动态特征，判断出当前帧所对应的字符以及在该字符的标准语音信号中所处的时间状态，串联每帧的解析结果，即获得用户音频信号的语音识别。请参考图5所示，显示了用户在t1～t24这个时间段阅读验证码“4203”的语音信号，以及各帧语音的解析结果；例如，t1～t7这个时间段被解析为字符4，对应的时间状态序列为“4₁4₁4₂4₃4₄4₄4₅”。

其中，所述“连续隐马尔科夫”时间序列模型为本领域技术人员公知的技术手段，在此只描述步骤S322所采用的模型拓扑结构，不再赘述该模型内在的数学表达。

和步骤S313所采用的“连续隐马尔科夫”时间序列模型类似，步骤S322所采用的“连续隐马尔科夫”时间序列模型，为两级结构：第一级是字符级别的“隐马尔科夫”时间序列模型，每个字符的标准语音由一个包含五个语音状态的一阶时间序列模型表示，每一个语音状态的变化只和前一个语音状态相关，如图3所示，其中S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；第二级是字符串级别的“隐马尔科夫”时间序列模型，字符串的标准语音由任意串联字符“隐马尔科夫”级别的模型所构成，如图4所示，其中①～⑨表示0～9的单字模型。

S323、判断从连续隐马尔科夫时间序列模型获得的语音识别结果是否与验证码一致，如果一致，将用户音频信号的语音识别作为步骤S4中唇语验证的辅助信息并执行步骤S324。具体地，判断从“隐马尔科夫”模型获得的置信度最高的字符串，如果该字符串和验证码一致，那么用户音频信号的语音识别将作为步骤S4中唇语验证的辅助信息，用作提供用户阅读验证码时的时序信息，并继续执行步骤S324；反之，该用户提供的音频信号存在与预期不符的虚假语音，则无法通过活体验证。

S324、将步骤S322中运用连续隐马尔科夫时间序列模型逐帧解析过程中获取的时间状态序列进行检测，获得用户在阅读每个字符时的起止时间信息，将以此作为用户阅读验证码时的时序信息。具体地，在步骤S322中，当运用连续隐马尔科夫时间序列模型对语音信号进行逐帧解析时，获得了每帧语音所对应的标准字符和在标准字符中所处的时间状态，并串联了每帧的解析结果；针对在串联每帧组成的时间状态序列中，检测每个字符起始状态的起始语音帧，以及终止状态的终止语音帧，即可获得用户在阅读该字符时的起止时间信息，如图5所示，用户在阅读验证码“4203”时，字符4的起止时间为t1/t7，字符2的起止时间为t9/t13，字符0的起止时间为t14/t18，字符4的起止时间为t19/t24。

作为具体实施例，所述步骤S4具体包括如下步骤：

S41、基于语音识别获得的时序信息，根据从语音识别获得的每个验证码阅读时的起止时间信息，对唇形影像进行分割，获得用户阅读验证码时各字符对应的唇形影像片段。

S42、就各个分割的唇形影像片段，使用SDM算法检测出分割片段中每帧唇形影像的唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；具体地，采用和步骤S311相同的方法，在每帧唇形影像中，检测出唇部轮廓以及唇部上的关键点，并对唇部关键点进行旋转校正和尺度归一化；其中，对唇部关键点进行旋转校正具体包括：以水平方向的两个唇角关键点为基准做旋转变换，以图2为例，取最左边及最右边两个关键点之间的连线，进行旋转，直到该连线的方向为水平方向，而唇部中的其他关键点，随之也进行相同角度的旋转；对唇部关键点进行尺度归一化具体包括：以用户的眼间距做尺度归一化，取两个唇角关键点间的中心点为唇部坐标的中心，以用户的眼间距和标准眼间距间的比值为缩放基准，将唇部关键点与唇部坐标中心之间的相对位移，进行尺度缩放。

S43、计算分割片段中每帧唇部关键点的位置坐标，作为描述该分割片段中每帧唇形的静态特征；并计算分割片段中每帧唇部关键点相对于前一帧的位移变化，作为描述该分割片段中每帧唇形变化的动态特征。

S44、运用单字级别的独立词隐马尔科夫时间序列模型，计算各个分割的唇形影像片段中，各帧唇形的静态特征和动态特征与该片段期望字符标准唇形间的相似度，如果该相似度大于指定的第一阈值，则执行步骤S45；具体地，所述“独立词隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述本步骤所采用的模型拓扑结构，不再赘述该模型内在的数学表达。本步骤所采用的“独立词隐马尔科夫”时间序列模型，包含前景模型和背景模型：前景模型是单个字符的“隐马尔科夫”时间序列模型，每个字符的标准唇形由一个包含五个唇形状态的一阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化和前两个唇形状态相关，如图6所示，S1～S5为单字模型的五个状态，S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；背景模型是“非字符”的“隐马尔科夫”时间序列模型，代表了所有非字符的唇形影像，如图7所示，该模型是综合所有单字符的阅读数据作为训练数据，所获得的背景模型，所述背景“隐马尔科夫”模型只包含一个自循环的状态，其高斯混合度为32。

对于每个分割字符的唇形影像片段，通过比较其单字“隐马尔科夫”和背景“隐马尔科夫”的模型匹配度，获得各帧唇形影像片段与该片段期望字符标准唇形间的相似度，记为“唇形片段相似度一”，如公式(1)：

进一步，通过公式(2)，综合各个唇形影像片段的相似度，得到在单字级别的“唇形分离相似度”，记为“唇形分离相似度一”：

如果“唇形分离相似度一”大于指定的第一阈值例如60,该用户提供的视频影像，则通过单字级别的唇形片段验证；如果“唇形分离相似度一”小于指定的第一阈值例如60,则该用户提供的视频影像中存在与预期不符的虚假唇形，无法通过活体验证。

S45、联合所有两个相邻的分割唇形影像片段，作为双字符的唇形影像片段，运用双字级别的独立词隐马尔科夫时间序列模型，计算各个双字符唇形影像片段中，各帧唇形的静态特征和动态特征与该片段所期望双字符标准唇形间的相似度，如果该相似度大于指定的第二阈值，则通过活体检测；具体地，所述“独立词隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述本步骤所采用的模型拓扑结构，不再赘述该模型内在的数学表达。本步骤所采用的“独立词隐马尔科夫”时间序列模型，包含前景模型和背景模型：前景模型是双字符的“隐马尔科夫”时间序列模型，每个双字符的标准唇形由一个包含八个语音状态的二阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化只和前一个唇形状态相关，如图8所示，S1～S8为双字模型的8个状态，S1为起始状态，S8为终止状态；背景模型是“非双字符”的“隐马尔科夫”时间序列模型，代表了所有“非双字符”的唇形影像，它和“非字符”的背景“隐马尔科夫”具有相同的拓扑结构，如图7所示，该模型是综合所有双字符的阅读数据作为训练数据，所获得的背景模型，所述背景“隐马尔科夫”模型只包含一个自循环的状态，其高斯混合度为32。

和计算单字级别的“分离唇形相似度”类似，对于每个相邻双字符的唇形影像片段，通过比较其双字“隐马尔科夫”和背景“隐马尔科夫”的模型匹配度，通过公式(3),获得各帧唇形影像片段与该片段所期望双字符标准唇形间的相似度，记为“唇形片段相似度二”：

进一步，通过公式(4)，综合各个唇形影像片段的相似度，得到在双字级别的“分离唇形相似度”，记为“唇形分离相似度二”：

如果“唇形分离相似度二”大于指定的第二阈值例如60,该用户提供的视频影像，则通过双字级别的唇形片段验证；如果该“唇形分离相似度二”小于指定的第二阈值例如60,该用户提供的视频影像中则存在与预期不符的虚假唇形，无法通过活体验证。

音频收集模块，用于收集用户阅读验证码时的音频信号；

唇形收集模块，用于收集用户阅读验证码时的唇形影像；

作为具体实施例，所述验证码显示模块具体用于：为在互联网交易中(如网上支付)的用户，随机显示一幅验证码图像，所述验证码图像具体可以是由任意4个数字随机组合而成，如为“4203”，并提示用户阅读该验证码。

作为具体实施例，所述音频收集模块用于收集用户阅读验证码时的音频信号，具体可以通过麦克风进行获取后收集。

作为具体实施例，所述唇形收集模块包括：

视频信号获取单元，用于获取用户在阅读验证码时的视频信号，具体可以通过网络摄像头来进行获取；

唇形影像获得单元，用于从每一帧视频信号中，使用基于维奥拉-琼斯人脸检测框架，检测出用户的脸部区域，从每一帧视频信号检测出的脸部区域中，使用SDM(Supervised Descent Method)算法进行人脸对齐及关键点提取，检测出用户的唇部区域，从而获得用户在阅读验证码时的唇形影像。其中，所述SDM算法为本领域技术人员公知的技术手段，在此不再赘述。

作为具体实施例，所述一级唇语验证模块包括：

第一唇部关键点处理单元，用于从每帧唇形影像中，使用SDM算法检测出唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；具体地，请参考图2所示，图中的圆点即为使用SDM算法检测出的唇部关键点，其所述SDM算法为本领域技术人员的公知技术手段，在此不再赘述。其中，对唇部关键点进行旋转校正具体包括：以水平方向的两个唇角关键点为基准做旋转变换，以图2为例，取最左边及最右边两个关键点之间的连线，进行旋转，直到该连线的方向为水平方向，而唇部中的其他关键点，随之也进行相同角度的旋转；对唇部关键点进行尺度归一化具体包括：以用户的眼间距做尺度归一化，取两个唇角关键点间的中心点为唇部坐标的中心，以用户的眼间距和标准眼间距间的比值为缩放基准，将唇部关键点与唇部坐标中心之间的相对位移，进行尺度缩放。

第一唇部关键点计算单元，用于计算每帧唇形影像中，唇部关键点的位置坐标，作为描述当前帧唇形的静态特征；并计算每帧唇形影像中，唇部关键点在当前帧与前一帧的位移变化，作为描述当前帧唇形变化的动态特征。

唇形影像唇语获得单元，用于运用连续隐马尔科夫时间序列模型，逐帧解析每帧唇形影像，根据每帧唇形影像的静态特征及动态特征，判断出当前帧所对应的标准字符唇形以及在标准字符唇形中所处的时间状态，串联每帧的解析结果，即获得唇形影像所代表的唇语；具体地，如前所述，“连续隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述该单元所采用的模型拓扑结构，不再赘述该模型内在的数学表达；该单元所采用的“连续隐马尔科夫”时间序列模型，为两级结构：第一级是字符级别的“隐马尔科夫”时间序列模型，每个字符的标准唇形由一个包含五个唇形状态的一阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化只和前一个唇形状态相关，如图3所示，其中S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；第二级是字符串级别的“隐马尔科夫”时间序列模型，字符串的标准唇形由任意串联字符级别的模型所构成，如图4所示，其中①～⑨表示0～9的单字模型。

唇语判断单元，用于判断从连续隐马尔科夫时间序列模型获得的置信度最高的前三条候补字符串是否与验证码一致，如果前三条候补字符串中任意一条与验证码一致，则所述唇形影像中检出的唇语与验证码一致，那么用户提供的视频影像将通过“第一级的唇语活体验证”；反之，该用户提供的视频影像中存在与预期不符的虚假唇形，无法通过活体验证。

作为具体实施例，所述语音识别模块包括：

语音特征提取单元，用于从所述音频信号中提取每帧语音信号的MFCC特征以及MFCC特征在当前帧与前一帧的差分，分别作为描述每帧语音信号的静态特征及动态特征；其中，所述语音信号的MFCC特征为本领域技术人员公知的技术手段，在此不再赘述。

语音识别获得单元，用于运用“连续隐马尔科夫”时间序列模型，逐帧解析语音，根据每帧语音的静态特征以及相对于前一帧的动态变化即动态特征，判断出当前帧所对应的字符以及在该字符的标准语音信号中所处的时间状态，串联每帧的解析结果，即获得用户音频信号的语音识别。请参考图5所示，显示了用户在t1～t24这个时间段阅读验证码“4203”的语音信号，以及各帧语音的解析结果；例如，t1～t7这个时间段被解析为字符4，对应的时间状态序列为“4₁4₁4₂4₃4₄4₄4₅”。

其中，所述“连续隐马尔科夫”时间序列模型为本领域技术人员公知的技术手段，在此只描述语音识别获得单元所采用的模型拓扑结构，不再赘述该模型内在的数学表达。

和所述唇形影像唇语获得单元所采用的“连续隐马尔科夫”时间序列模型类似，语音识别获得单元所采用的“连续隐马尔科夫”时间序列模型，为两级结构：第一级是字符级别的“隐马尔科夫”时间序列模型，每个字符的标准语音由一个包含五个语音状态的一阶时间序列模型表示，每一个语音状态的变化只和前一个语音状态相关，如图3所示，其中S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；第二级是字符串级别的“隐马尔科夫”时间序列模型，字符串的标准语音由任意串联字符“隐马尔科夫”级别的模型所构成，如图4所示，其中①～⑨表示0～9的单字模型。

语音识别判断单元，用于判断从连续隐马尔科夫时间序列模型获得的语音识别结果是否与验证码一致，如果一致，将用户音频信号的语音识别作为所述二级唇语验证模块中唇语验证的辅助信息并执行时序信息获得单元。具体地，判断从“隐马尔科夫”模型获得的置信度最高的字符串，如果该字符串和验证码一致，那么用户音频信号的语音识别将作为所述二级唇语验证模块中唇语验证的辅助信息，用作提供用户阅读验证码时的时序信息，并继续执行后续的时序信息获得单元；反之，该用户提供的音频信号存在与预期不符的虚假语音，则无法通过活体验证。

时序信息获得单元，用于将所述语音识别获得单元中运用连续隐马尔科夫时间序列模型逐帧解析过程中获取的时间状态序列进行检测，获得用户在阅读每个字符时的起止时间信息，将以此作为用户阅读验证码时的时序信息。具体地，在所述语音识别获得单元中，当运用连续隐马尔科夫时间序列模型对语音信号进行逐帧解析时，获得了每帧语音所对应的标准字符和在标准字符中所处的时间状态，并串联了每帧的解析结果；针对在串联每帧组成的时间状态序列中，检测每个字符起始状态的起始语音帧，以及终止状态的终止语音帧，即可获得用户在阅读该字符时的起止时间信息，如图5所示，用户在阅读验证码“4203”时，字符4的起止时间为t1/t7，字符2的起止时间为t9/t13，字符0的起止时间为t14/t18，字符4的起止时间为t19/t24。

作为具体实施例，所述二级唇语验证模块包括：

唇形影像片段获得单元，用于基于语音识别获得的时序信息，根据每个验证码阅读时的起止时间信息，对唇形影像进行分割，获得用户阅读验证码时各字符对应的唇形影像片段。

第二唇部关键点处理单元，用于就各个分割的唇形影像片段，使用SDM算法检测出分割片段中每帧唇形影像的唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；具体地，采用和所述第一唇部关键点处理单元相同的方法，在每帧唇形影像片段中，检测出唇部轮廓以及唇部上的关键点，并对唇部关键点进行旋转校正和尺度归一化；其中，对唇部关键点进行旋转校正具体包括：以水平方向的两个唇角关键点为基准做旋转变换，以图2为例，取最左边及最右边两个关键点之间的连线，进行旋转，直到该连线的方向为水平方向，而唇部中的其他关键点，随之也进行相同角度的旋转；对唇部关键点进行尺度归一化具体包括：以用户的眼间距做尺度归一化，取两个唇角关键点间的中心点为唇部坐标的中心，以用户的眼间距和标准眼间距间的比值为缩放基准，将唇部关键点与唇部坐标中心之间的相对位移，进行尺度缩放。

第二唇部关键点计算单元，用于计算分割片段中每帧唇部关键点的位置坐标，作为描述该分割片段中每帧唇形的静态特征；并计算分割片段中每帧唇部关键点相对于前一帧的位移变化，作为描述该分割片段中每帧唇形变化的动态特征。

第一相似度计算单元，用于运用单字级别的独立词隐马尔科夫时间序列模型，计算各个分割的唇形影像片段中，各帧唇形的静态特征和动态特征与该片段期望字符标准唇形间的相似度，如果该相似度大于指定的第一阈值，则执行第二相似度计算单元；具体地，所述“独立词隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述本单元所采用的模型拓扑结构，不再赘述该模型内在的数学表达。本单元所采用的“独立词隐马尔科夫”时间序列模型，包含前景模型和背景模型：前景模型是单个字符的“隐马尔科夫”时间序列模型，每个字符的标准唇形由一个包含五个唇形状态的一阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化和前两个唇形状态相关，如图6所示，S1～S5为单字模型的五个状态，S1为起始状态，S5为终止状态，每个状态的高斯混合度为4；背景模型是“非字符”的“隐马尔科夫”时间序列模型，代表了所有非字符的唇形影像，如图7所示，该模型是综合所有单字符的阅读数据作为训练数据，所获得的背景模型，所述背景“隐马尔科夫”模型只包含一个自循环的状态，其高斯混合度为32。

对于每个分割字符的唇形影像片段，通过比较其单字“隐马尔科夫”和背景“隐马尔科夫”的模型匹配度，获得唇形影像片段与该片段期望字符标准唇形间的相似度，记为“唇形片段相似度一”，如公式(1)：

第二相似度计算单元，用于联合所有两个相邻的分割唇形影像片段，作为双字符的唇形影像片段，运用双字级别的独立词隐马尔科夫时间序列模型，计算各个双字符唇形影像片段中，各帧唇形的静态特征和动态特征与该片段所期望双字符标准唇形间的相似度，如果该相似度大于指定的第二阈值，则通过活体检测；具体地，所述“独立词隐马尔科夫”时间序列模型为本领域技术人员的公知技术手段，在此只描述本单元所采用的模型拓扑结构，不再赘述该模型内在的数学表达。本单元所采用的“独立词隐马尔科夫”时间序列模型，包含前景模型和背景模型：前景模型是双字符的“隐马尔科夫”时间序列模型，每个双字符的标准唇形由一个包含八个语音状态的二阶“隐马尔科夫”时间序列模型表示，每一个唇形状态的变化只和前一个唇形状态相关，如图8所示，S1～S8为双字模型的8个状态，S1为起始状态，S8为终止状态；背景模型是“非双字符”的“隐马尔科夫”时间序列模型，代表了所有“非双字符”的唇形影像，它和“非字符”的背景“隐马尔科夫”具有相同的拓扑结构，如图7所示，该模型是综合所有双字符的阅读数据作为训练数据，所获得的背景模型，所述背景“隐马尔科夫”模型只包含一个自循环的状态，其高斯混合度为32。

和计算单字级别的“分离唇形相似度”类似，对于每个相邻双字符的唇形影像片段，通过比较其双字“隐马尔科夫”和背景“隐马尔科夫”的模型匹配度，通过公式(3),获得唇形影像片段与该片段所期望双字符标准唇形间的相似度，记为“唇形片段相似度二”：

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明的专利保护范围之内。

Claims

1.一种联合声像信号进行活体检测的方法，其特征在于，该方法包括以下步骤：

S2、收集用户阅读验证码时的音频信号和唇形影像；

2.根据权利要求1所述的联合声像信号进行活体检测的方法，其特征在于，所述步骤S2中收集用户阅读验证码时的唇形影像包括如下步骤：

S21、获取用户在阅读验证码时的视频信号；

3.根据权利要求1所述的联合声像信号进行活体检测的方法，其特征在于，所述步骤S3中通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致包括如下步骤：

4.根据权利要求1所述的联合声像信号进行活体检测的方法，其特征在于，所述步骤S3中通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息包括如下步骤：

5.根据权利要求1所述的联合声像信号进行活体检测的方法，其特征在于，所述步骤S4具体包括如下步骤：

6.一种联合声像信号进行活体检测的系统，其特征在于，该系统包括:

音频收集模块，用于收集用户阅读验证码时的音频信号；

唇形收集模块，用于收集用户阅读验证码时的唇形影像；

7.根据权利要求6所述的联合声像信号进行活体检测的系统，其特征在于，所述唇形收集模块包括：

8.根据权利要求6所述的联合声像信号进行活体检测的系统，其特征在于，所述一级唇语验证模块包括：

9.根据权利要求6所述的联合声像信号进行活体检测的系统，其特征在于，所述语音识别模块包括：

10.根据权利要求6所述的联合声像信号进行活体检测的系统，其特征在于，所述二级唇语验证模块包括：