CN109409204A

CN109409204A - 防伪检测方法和装置、电子设备、存储介质

Info

Publication number: CN109409204A
Application number: CN201811044838.5A
Authority: CN
Inventors: 吴立威; 张瑞; 闫俊杰; 彭义刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-03-01
Anticipated expiration: 2038-09-07
Also published as: SG11202002741VA; KR20200047650A; JP6934564B2; CN109409204B; KR102370694B1; JP2020535538A; WO2020048168A1; US20200218916A1

Abstract

本公开实施例公开了一种防伪检测方法和装置、电子设备、存储介质，其中，防伪检测方法包括：从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。本公开实施例基于唇语识别实现了防伪检测。

Description

防伪检测方法和装置、电子设备、存储介质

技术领域

本公开涉及人计算机视觉技术，尤其是一种防伪检测方法和装置、电子设备、存储介质。

背景技术

近年来，人脸识别已成为移动支付、身份验证领域的一项重要应用。在人脸识别支付、视频身份验证开户等应用场合中，有必要对人脸进行活体检测，判定在摄像头前的人脸图像是否来自真实的人，还是照片或录制的视频中的人脸图像。

发明内容

本公开实施例提供一种防伪检测的技术方案。

根据本公开实施例的一个方面，提供了一种防伪检测方法，包括：从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

在一些可能的实现方式中，指定内容包括至少一个字符。

可选地，在本公开各防伪检测方法实施例中，所述从用户阅读指定内容的图像序列中获取至少一个图像子序列，包括：根据用户阅读所述指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取所述至少一个图像子序列。

可选地，在本公开各防伪检测方法实施例中，所述音频的分割结果包括：所述用户阅读所述指定内容中每个字符的音频片段；

根据用户阅读所述指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取所述至少一个图像子序列，包括：根据所述用户阅读所述指定内容中字符的音频片段的时间信息，从所述图像序列中获取所述音频片段对应的图像子序列。

可选地，在本公开各防伪检测方法实施例中，所述音频片段的时间信息包括以下一项或任意多项：所述音频片段的时长、所述音频片段的起始时刻、所述音频片段的终止时刻。

可选地，在本公开各防伪检测方法实施例中，还包括：获取所述用户阅读所述指定内容的音频；对所述音频进行分割，得到至少一个音频片段；其中，所述至少一个音频片段中的每个音频片段对应所述指定内容中的一个字符。

可选地，在本公开各防伪检测方法实施例中，对所述图像子序列进行唇语识别，得到所述图像子序列的唇语识别结果，包括：从所述图像子序列中包括的目标图像中获取唇部区域图像；基于所述唇部区域图像，得到图像子序列的唇语识别结果。

在一些可能的实现方式中，目标图像可以包括人脸图像。

可选地，将多个唇语区域图像输入到第一神经网络进行处理，输出所述图像子序列的唇语识别结果。

可选地，在本公开各防伪检测方法实施例中，对所述图像子序列进行唇语识别，得到所述图像子序列的唇语识别结果，包括：基于所述图像子序列中包括的至少两个目标图像的唇部形态信息，得到所述图像子序列的唇语识别结果。

具体地，图像子序列包括多个图像，可以获取该多个图像中至少两个目标图像的唇部形态信息，并基于该至少两个目标图像的唇部形态信息，得到图像子序列的唇语识别结果。

具体地，从目标图像中获取唇语区域图像，并对唇部区域图像进行处理，得到目标图像的唇部形态信息。

可选地，在本公开各防伪检测方法实施例中，还包括：从所述至少两个目标图像中的每个目标图像中获取唇部区域图像；基于从所述目标图像中获取的唇部区域图像，确定所述至少两个目标图像的唇部形态信息。

可选地，在本公开各防伪检测方法实施例中，所述基于从所述目标图像中获取的唇部区域图像，确定所述至少两个目标图像的唇部形态信息，包括：对所述唇部区域图像进行特征提取处理，得到所述唇部区域图像的唇部形态特征，其中，所述目标图像的唇部形态信息包括所述唇部区域图像的唇部形态特征。

可选地，在本公开各防伪检测方法实施例中，从所述目标图像中获取唇部区域图像，包括：对所述目标图像进行关键点检测，得到面部关键点的信息，其中，所述面部关键点的信息包括唇部关键点的位置信息；基于所述唇部关键点的位置信息，从所述目标图像中获取唇部区域图像。

可选地，在本公开各防伪检测方法实施例中，在所述基于所述唇部关键点的位置信息，从所述目标图像中获取唇部区域图像之前，还包括：对所述目标图像进行转正处理，得到转正处理后的目标图像；基于所述转正处理，确定所述唇部关键点在所述转正处理后的目标图像中的位置信息；

所述基于所述唇部关键点的位置信息，从所述目标图像中获取唇部区域图像，包括：

基于所述唇部关键点在所述转正处理后的目标图像中的位置信息，从所述转正处理后的目标图像中获取唇部区域图像。

可选地，在本公开各防伪检测方法实施例中，还包括：从所述图像子序列中选取所述至少两个目标图像。

可选地，在本公开各防伪检测方法实施例中，所述从所述图像子序列中选取所述至少两个目标图像，包括：从所述图像子序列中选取满足预设质量指标的第一图像；将所述第一图像以及与所述第一图像邻近的至少一个第二图像确定为所述目标图像。

可选地，在本公开各防伪检测方法实施例中，所述预设质量指标包括以下任意一项或任意多项：图像包括完整的唇部边缘、唇部清晰度达到第一条件、图像的光线亮度达到第二条件。

可选地，在本公开各防伪检测方法实施例中，所述至少一个第二图像包括位于所述第一图像之前且与所述第一图像邻近的至少一个图像以及位于所述第一图像之后且与所述第一图像邻近的至少一个图像。

可选地，在本公开各防伪检测方法实施例中，所述基于所述图像子序列中包括的至少两个目标图像的唇部形态信息，得到所述图像子序列的唇语识别结果，包括：利用第一神经网络对所述图像子序列中包括的至少两个目标图像的唇部形态信息进行处理，输出所述图像序列的唇语识别结果。

可选地，在本公开各防伪检测方法实施例中，所述至少一个图像子序列中的每个图像子序列对应于所述指定内容中的一个字符。

可选地，在本公开各防伪检测方法实施例中，所述指定内容中的字符包括以下任意一种或多种：数字、英文字母、英文单词、汉字、符号。

可选地，在本公开各防伪检测方法实施例中，所述基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果，包括：

对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果；确定所述融合识别结果与所述用户阅读所述指定内容的音频的语音识别结果是否匹配；基于所述融合识别结果与所述音频的语音识别结果之间的匹配结果，确定防伪检测结果。

可选地，在本公开各防伪检测方法实施例中，所述对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果，包括：基于所述用户阅读所述指定内容的音频的语音识别结果，对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。

可选地，在本公开各防伪检测方法实施例中，所述图像子序列的唇语识别结果包括：所述图像子序列被分类为与所述指定内容对应的多个预设字符中每个预设字符的概率。

可选地，在本公开各防伪检测方法实施例中，所述确定所述融合识别结果与所述语音识别结果是否匹配，包括：

将所述融合识别结果和所述语音识别结果输入到第二神经网络进行处理，得到所述唇语识别结果与所述语音识别结果的匹配概率；基于所述唇语识别结果与所述语音识别结果的匹配概率，确定所述唇语识别结果与所述语音识别结果是否匹配。

可选地，在本公开各防伪检测方法实施例中，所述基于所述用户阅读所述指定内容的音频的语音识别结果，对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果，包括：对所述图像子序列被分类为与所述指定内容对应的多个预设字符中每个预设字符的概率进行顺序排列，得到所述图像子序列对应的特征向量；基于所述用户阅读所述指定内容的音频的语音识别结果，将所述至少一个图像子序列的特征向量进行拼接，得到拼接结果；其中，所述融合识别结果包括所述拼接结果。

可选地，在本公开各防伪检测方法实施例中，还包括：对所述用户阅读所述指定内容的音频进行语音识别处理，得到语音识别结果；确定所述语音识别结果与所述指定内容是否一致；

所述基于所述融合识别结果与所述音频的语音识别结果之间的匹配结果，确定防伪检测结果，包括：

若所述用户阅读所述指定内容的音频的语音识别结果与所述指定内容一致，且所述图像序列的唇语识别结果与所述音频的语音识别结果匹配，确定防伪检测结果为通过防伪检测。

可选地，在本公开各防伪检测方法实施例中，还包括：随机生成所述指定内容。

可选地，在本公开各防伪检测方法实施例中，还包括：响应于接收到用户发送的认证请求，获取用户阅读指定内容的图像序列；响应于所述防伪检测结果为防伪检测通过，基于预设的人脸图像模板对所述图像序列进行身份认证。

可选地，在本公开各防伪检测方法实施例中，所述获取用户阅读指定内容的图像序列之前，还包括：响应于接收到用户发送的认证请求，基于预设的人脸图像模板对所述图像序列进行身份认证；响应于所述图像序列通过身份认证，获取用户阅读指定内容的图像序列。

可选地，在本公开各防伪检测方法实施例中，还包括：

响应于所述防伪检测结果为防伪检测通过且所述图像序列通过所述身份认证，执行下列操作中的一项或任意组合：门禁放行操作，设备解锁操作，支付操作，应用或设备的登录操作，对应用或设备进行相关操作的放行操作。

根据本公开实施例的另一个方面，提供了一种防伪检测装置，包括：第一获取模块，用于从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；唇语识别模块，用于对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；第一确定模块，用于基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

可选地，在本公开各防伪检测装置实施例中，所述第一获取模块，用于根据用户阅读所述指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取所述至少一个图像子序列。

可选地，在本公开各防伪检测装置实施例中，所述音频的分割结果包括：所述用户阅读所述指定内容中每个字符的音频片段；所述第一获取模块，用于根据所述用户阅读所述指定内容中字符的音频片段的时间信息，从所述图像序列中获取所述音频片段对应的图像子序列。

可选地，在本公开各防伪检测装置实施例中，所述音频片段的时间信息包括以下一项或任意多项：所述音频片段的时长、所述音频片段的起始时刻、所述音频片段的终止时刻。

可选地，在本公开各防伪检测装置实施例中，还包括：第二获取模块，用于获取所述用户阅读所述指定内容的音频；

音频分割模块，用于对所述音频进行分割，得到至少一个音频片段；其中，所述至少一个音频片段中的每个音频片段对应所述指定内容中的一个字符。

可选地，在本公开各防伪检测装置实施例中，还包括：第三获取模块，用于从所述图像子序列中包括的目标图像中获取唇部区域图像；所述唇语识别模块，用于基于所述唇部区域图像，得到图像子序列的唇语识别结果。

可选地，在本公开各防伪检测装置实施例中，所述唇语识别模块，用于基于所述图像子序列中包括的至少两个目标图像的唇部形态信息，得到所述图像子序列的唇语识别结果。

可选地，在本公开各防伪检测装置实施例中，还包括：第三获取模块，用于从所述至少两个目标图像中的每个目标图像中获取唇部区域图像；第二确定模块，用于基于从所述目标图像中获取的唇部区域图像，确定所述至少两个目标图像的唇部形态信息。

可选地，在本公开各防伪检测装置实施例中，所述第二确定模块，用于对所述唇部区域图像进行特征提取处理，得到所述唇部区域图像的唇部形态特征，其中，所述目标图像的唇部形态信息包括所述唇部区域图像的唇部形态特征。

可选地，在本公开各防伪检测装置实施例中，所述第三获取模块包括：关键点检测单元，用于对所述目标图像进行关键点检测，得到面部关键点的信息，其中，所述面部关键点的信息包括唇部关键点的位置信息；获取单元，用于基于所述唇部关键点的位置信息，从所述目标图像中获取唇部区域图像。

可选地，在本公开各防伪检测装置实施例中，还包括：预处理模块，用于对所述目标图像进行转正处理，得到转正处理后的目标图像；第三确定模块，用于基于所述转正处理，确定所述唇部关键点在所述转正处理后的目标图像中的位置信息；所述获取单元，用于基于所述唇部关键点在所述转正处理后的目标图像中的位置信息，从所述转正处理后的目标图像中获取唇部区域图像。

可选地，在本公开各防伪检测装置实施例中，还包括：第四获取模块，用于从所述图像子序列中选取所述至少两个目标图像。

可选地，在本公开各防伪检测装置实施例中，所述第四获取模块包括：选取单元，用于从所述图像子序列中选取满足预设质量指标的第一图像；第一确定单元，用于将所述第一图像以及与所述第一图像邻近的至少一个第二图像确定为所述目标图像。

可选地，在本公开各防伪检测装置实施例中，所述预设质量指标包括以下任意一项或任意多项：图像包括完整的唇部边缘、唇部清晰度达到第一条件、图像的光线亮度达到第二条件。

可选地，在本公开各防伪检测装置实施例中，所述至少一个第二图像包括位于所述第一图像之前且与所述第一图像邻近的至少一个图像以及位于所述第一图像之后且与所述第一图像邻近的至少一个图像。

可选地，在本公开各防伪检测装置实施例中，所述唇语识别模块，用于利用第一神经网络对所述图像子序列中包括的至少两个目标图像的唇部形态信息进行处理，输出所述图像序列的唇语识别结果。

可选地，在本公开各防伪检测装置实施例中，所述至少一个图像子序列中的每个图像子序列对应于所述指定内容中的一个字符。

可选地，在本公开各防伪检测装置实施例中，所述指定内容中的字符包括以下任意一种或多种：数字、英文字母、英文单词、汉字、符号。

可选地，在本公开各防伪检测装置实施例中，所述第一确定模块包括：融合单元，用于对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果；第二确定单元，用于确定所述融合识别结果与所述用户阅读所述指定内容的音频的语音识别结果是否匹配；第三确定单元，用于基于所述融合识别结果与所述音频的语音识别结果之间的匹配结果，确定防伪检测结果。

可选地，在本公开各防伪检测装置实施例中，所述融合单元，用于基于所述用户阅读所述指定内容的音频的语音识别结果，对所述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。

可选地，在本公开各防伪检测装置实施例中，所述图像子序列的唇语识别结果包括：所述图像子序列被分类为与所述指定内容对应的多个预设字符中每个预设字符的概率。

可选地，在本公开各防伪检测装置实施例中，所述第二确定单元，用于：将所述融合识别结果和所述语音识别结果输入到第二神经网络进行处理，得到所述唇语识别结果与所述语音识别结果的匹配概率；基于所述唇语识别结果与所述语音识别结果的匹配概率，确定所述唇语识别结果与所述语音识别结果是否匹配。

可选地，在本公开各防伪检测装置实施例中，所述融合单元，用于对所述图像子序列被分类为与所述指定内容对应的多个预设字符中每个预设字符的概率进行顺序排列，得到所述图像子序列对应的特征向量；基于所述用户阅读所述指定内容的音频的语音识别结果，将所述至少一个图像子序列的特征向量进行拼接，得到拼接结果；其中，所述融合识别结果包括所述拼接结果。

可选地，在本公开各防伪检测装置实施例中，还包括：语音识别模块，用于对所述用户阅读所述指定内容的音频进行语音识别处理，得到语音识别结果；第四确定模块，用于确定所述语音识别结果与所述指定内容是否一致；所述第三确定单元，用于在在所述用户阅读所述指定内容的音频的语音识别结果与所述指定内容一致、且所述图像序列的唇语识别结果与所述音频的语音识别结果匹配的情况下，确定防伪检测结果为通过防伪检测。

可选地，在本公开各防伪检测装置实施例中，还包括：生成模块，用于随机生成所述指定内容。

可选地，在本公开各防伪检测装置实施例中，还包括：第五获取模块，用于响应于接收到用户发送的认证请求，获取用户阅读指定内容的图像序列；认证模块，用于响应于所述防伪检测结果为防伪检测通过，基于预设的人脸图像模板对所述图像序列进行身份认证。

可选地，在本公开各防伪检测装置实施例中，还包括：认证模块，用于响应于接收到用户发送的认证请求，基于预设的人脸图像模板对所述图像序列进行身份认证；第五获取模块，用于响应于所述图像序列通过身份认证，获取用户阅读指定内容的图像序列。

可选地，在本公开各防伪检测装置实施例中，还包括：控制模块，用于响应于所述防伪检测结果为防伪检测通过且所述图像序列通过所述身份认证，执行下列操作中的一项或任意组合：门禁放行操作，设备解锁操作，支付操作，应用或设备的登录操作，对应用或设备进行相关操作的放行操作。

根据本公开实施例的又一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一实施例所述的防伪检测方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例所述的防伪检测方法。

基于本公开上述实施例提供了防伪检测方法和装置、电子设备、存储介质，从用户阅读指定内容的图像序列中获取至少一个图像子序列，对该至少一个图像子序列进行唇语识别，得到该至少一个图像子序列的唇语识别结果，以及基于至少一个图像子序列的唇语识别结果，确定防伪检测结果。本公开实施例从用户阅读指定内容的图像序列中获取至少一个图像子序列，通过分析至少一个图像子序列来进行唇语识别，基于至少一个图像子序列的唇语识别结果实现了防伪检测，交互简单，且不易在无防备情况下取得用户阅读指定内容的图像序列，提高了防伪检测的可靠性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开一个实施例的防伪检测方法的流程图。

图2为本公开另一个实施例的防伪检测方法的流程图。

图3为本公开实施例中一个混淆矩阵及其应用示例。

图4为本公开又一个实施例的防伪检测方法的流程图。

图5为本公开一个实施例的防伪检测装置的结构示意图。

图6为本公开另一个实施例的防伪检测装置的结构示意图。

图7为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开一个实施例的防伪检测方法的流程图。如图1所示，该实施例的防伪检测方法包括：

102，从用户阅读指定内容的图像序列中获取至少一个图像子序列。

其中，每个图像子序列包括图像序列中的至少一个图像。

图像序列可以来自于现场拍摄的视频。在本公开实施例中，可以通过多种方式获取用户阅读指定内容的图像序列，在一个例子中，可以通过一个或多个摄像头采集用户阅读指定内容的图像序列，在另一个例子中，可以从其他设备处获取图像序列，例如服务器接收终端设备或摄像头发送的用户阅读指定内容的图像序列，等等，本公开实施例对获取用户阅读指定内容的图像序列的方式不作限定。

在一些可选示例中，上述指定内容为基于防伪检测的目的要求用户朗读的内容，指定内容可以包括至少一个字符，其中，该字符可以为字母、汉字、数字或单词。例如，指定内容可以包括0-9中的任意一个或者多个数字，或者包括A-Z中的任意一个或者多个字母，或者包括预设的多个汉字中的任意一个或多个汉字，或者包括预设的多个单词中的任意一个或多个单词，或者也可以是数字、字母、单词和汉字的至少两项的任意组合，本公开实施例对此不作限定。另外，上述指定内容可以为实时生成的指定内容，例如是随机生成的，或者，也可以是预先设置的固定内容，本公开实施例对此不作限定。

可选地，可以将图像序列划分成至少一个图像子序列，例如，可以将图像序列包括的多个图像按照时序关系划分成至少一个图像子序列，每个图像子序列包括连续的至少一个图像，但本公开实施例对划分图像子序列的方式不作限定。或者，该至少一个图像子序列仅为图像序列的一部分，而其余部分并未用作防伪检测，本公开实施例对此不做限定。

可选地，上述至少一个图像子序列中的每个图像子序列对应用户阅读/读出的一个字符，相应地，至少一个图像子序列的个数可以等于用户阅读/读出的字符个数。

可选地，上述指定内容中的字符例如可以包括但不限于以下任意一种或多种：数字、英文字母、英文单词、汉字、符号，等等。其中，可选地，如果指定内容中的字符为英文单词或汉字，则可以预先定义包括这些英文单词或汉字字符的字典，在字典中包含英文单词或汉字字符、以及每个英文单词或汉字字符对应的编号信息。

可选地，在其中一些实施方式中，可以在该操作102之前，随机生成上述指定内容，或者按照其他预定的方式生成上述指定内容。这样，通过实时生成上述指定内容，可以避免用户提前获知指定内容而进行有目的地伪造，进一步提高防伪检测的可靠性。

104，对上述至少一个图像子序列进行唇语识别，得到该至少一个图像子序列的唇语识别结果。

106，基于上述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

具体地，可以基于唇语识别结果，确定用户阅读内容是否与指定内容一致，并基于该确定的结果确定用户阅读指定内容这一行为是否为伪造。

人脸属于一种每人特有的生物特征，相比于传统的密码等验证方式，基于人脸的身份验证具有较高的安全性。然而，由于静态的人脸仍然存在被伪造的可能性，因此，基于静态人脸的静默活体检测仍存在一定的安全漏洞。因此，需要一种更安全有效的防伪检测机制对人脸进行防伪检测。

基于本公开上述实施例提供了防伪检测方法，从用户阅读指定内容的图像序列中获取至少一个图像子序列，对该至少一个图像子序列进行唇语识别，得到该至少一个图像子序列的唇语识别结果，以及基于至少一个图像子序列的唇语识别结果，确定防伪检测结果。本公开实施例从用户阅读指定内容的图像序列中获取至少一个图像子序列，通过分析至少一个图像子序列来进行唇语识别，基于至少一个图像子序列的唇语识别结果实现了防伪检测，交互简单，并且提高了防伪检测的可靠性。

另外，在本公开另一实施例的防伪检测方法中，还可以包括：

获取用户阅读指定内容的音频；

对上述音频进行分割，得到音频分割结果，该音频的分割结果包括：用户阅读指定内容中至少一个字符的至少一个音频片段。其中，该至少一个音频片段中的每个音频片段对应指定内容中的一个字符，例如，一个数字、字母、汉字、其他符号等等。

相应地，在图1所示实施例的一些实施方式中，操作102中从用户阅读指定内容的图像序列中获取至少一个图像子序列，可以包括：根据用户阅读指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取至少一个图像子序列。

在其中一些可选示例中，可以根据用户阅读指定内容中字符的音频片段的时间信息，从用户阅读指定内容的图像序列中获取上述至少一个音频片段对应的至少一个图像子序列。

其中，音频片段的时间信息例如可以包括但不限于以下一项或任意多项：音频片段的时长、音频片段的起始时刻、音频片段的终止时刻，等等。本公开实施例按照音频的分割结果，从图像序列中获取至少一个图像子序列，该至少一个图像子序列的数量等于指定内容中包含的字符数，并且，上述至少一个图像子序列与指定内容中包含的至少一个字符一一对应，每个图像子序列对应于指定内容中的一个字符。

可选地，上述指定内容中的字符例如可以包括但不限于以下任意一种或多种：数字、英文字母、英文单词、汉字、符号，等等。其中，指定内容中的字符为英文单词或汉字时，可以预先定义包括这些英文单词或汉字字符的字典，在字典中包含英文单词或汉字字符、以及每个英文单词或汉字字符对应的编号信息。

在其中一些实施方式中，操作104中对图像子序列进行唇语识别，得到图像子序列的唇语识别结果，可以包括：从图像子序列中包括的目标图像中获取唇部区域图像；基于唇部区域图像，得到图像子序列的唇语识别结果。

在另外一些实施方式中，操作104中对图像子序列进行唇语识别，得到图像子序列的唇语识别结果，可以包括：基于图像子序列中包括的至少两个目标图像的唇部形态信息，得到图像子序列的唇语识别结果。

具体地，该至少两个目标图像可以是图像子序列包括的多个图像中的部分或全部图像，可以获取该至少两个目标图像中每个目标图像的唇部形态信息，并基于该至少两个目标图像中每个目标图像的唇部形态信息，得到图像子序列的唇语识别结果。

在本公开实施例中，可以通过多种方式获取目标图像的唇部形态信息，在一个例子中，可以通过机器学习算法对目标图像进行处理，得到目标图像的唇部形态特征，例如，通过支持向量机的方法对目标图像进行处理，得到目标图像的唇部形态特征，或者，通过神经网络(例如卷积神经网络)对目标图像进行特征提取处理，得到目标图像的唇部形态特征，等等，本公开实施例对获取目标图像的唇部形态特征的方式不作限定。

在本公开实施例中，可以基于至少两个目标图像中每个目标图像的唇部形态信息，确定图像子序列的唇语识别结果。例如，在其中一些实施方式中，可以利用第一神经网络对该图像子序列至少两个目标图像的唇部形态信息进行处理，输出图像子序列的唇语识别结果。此时，可选地，可以将至少两个目标图像的至少一部分输入到第一神经网络中进行处理，第一神经网络输出图像子序列的唇语识别结果。或者，也可以通过其他方式对至少两个目标图像的唇部形态信息进行处理，本公开实施例对此不做限定。

在本公开实施例中，可以通过对目标图像的至少一部分进行处理，得到目标图像的唇部形态信息。在一些可能的实现方式中，还可以包括：

从至少两个目标图像中的每个目标图像中获取唇部区域图像；

基于从目标图像中获取的唇部区域图像，确定上述至少两个目标图像的唇部形态信息。

具体地，可以从目标图像中获取唇部区域图像，并通过对唇部区域图像进行处理，得到目标图像的唇部形态信息，其中，可选地，该唇部形态信息可以包括唇部形态特征。

例如，一些可能的实施方式中，基于从目标图像中获取的唇部区域图像，确定目标图像的唇部形态信息，可以包括：对唇部区域图像进行特征提取处理，得到唇部区域图像的唇部形态特征。

例如，可以通过第一神经网络，对唇部区域图像进行特征提取处理，得到唇部区域图像的唇部形态特征，并根据该唇部形态特征确定唇语识别结果。此时，可选地，可以将至少两个目标图像中每个目标图像的唇部区域图像输入到第一神经网络进行处理，得到图像序列的唇语识别结果，该第一神经网络输出图像序列的唇语识别结果。在一个例子中，可以通过第一神经网络，基于唇部形态特征确定至少一个分类结果，并基于至少一个分类结果确定唇语识别结果。其中的分类结果例如可以包括：分类到预设的多个字符中每个字符的概率，或者最终分类到的字符，其中的字符例如可以是数字、字母、汉字、英文单词或者其他形式，等等，本公开实施例对基于唇部形态特征得到唇语识别结果的具体实现不作限定。

在一些可能的实施方式中，从至少两个目标图像的每个目标图像中获取唇部区域图像，包括：对目标图像进行关键点检测，得到面部关键点的信息，并基于面部关键点的信息，从目标图像中获取唇部区域图像。

其中，可选地，上述目标图像具体可以为面部区域图像，此时，可以直接对目标图像进行关键点检测。或者，可以对目标图像进行人脸检测得到面部区域图像，相应地，对目标图像进行关键点检测具体为对检测得到的该面部区域图像进行关键点检测，本公开实施例对其具体实现不做限定。

在本公开实施例中，面部关键点可以包括多个关键点，例如唇部关键点、眼睛关键点、眉毛关键点、面部边缘关键点等一种或多种。面部关键点的信息可以包括多个关键点中至少一个关键点的位置信息，例如，该面部关键点的信息包括唇部关键点的位置信息，或者进一步包括其他信息，本公开实施例对面部关键点的具体实现以及面部关键点的信息的具体实现不作限定。

在一种可能的实现方式中，可以基于面部关键点中包括的唇部关键点的位置信息，从目标图像中获取唇部区域图像。或者，在面部关键点不包括唇部关键点的情况下，可以基于面部关键点中包括的至少一个关键点的位置信息，确定唇部区域的预测位置，并基于唇部区域的预测位置，从目标图像中获取唇部区域图像，本公开实施例对获取唇部区域图像的具体实现不作限定。

在另一种可能的实施方式中，考虑到面部图像的角度问题，在基于唇部关键点的位置信息，从目标图像中获取唇部区域图像之前，还包括：

对目标图像进行转正处理，得到转正处理后的目标图像。

相应地，可以基于面部关键点在转正处理后的目标图像中的位置信息，从转正处理后的目标图像中获取唇部区域图像。这样，从转正处理后的目标图像中获取唇部区域图像，能够获得正向的唇部区域图像，与存在角度的唇部区域图像相比，能够提高唇语识别的准确性。

在一个例子中，可以基于转正处理，确定唇部关键点在转正处理后的目标图像中的位置信息，并基于唇部关键点在转正处理后的目标图像中的位置信息，从转正处理后的目标图像中获取唇部区域图像。

在另一些可能的实施方式中，从至少两个目标图像的每个目标图像中获取唇部区域图像，包括：

对目标图像进行人脸检测，得到脸部区域；从目标图像中提取脸部区域图像，并对提取的脸部区域图像进行尺寸归一化处理；根据尺寸归一化的脸部区域图像中脸部区域与唇部特征点的相对位置，从尺寸归一化的脸部区域图像中提取唇部区域图像。

另外，在又一些实施方式中，还可以包括：从图像子序列中选取至少两个目标图像。

例如，在一些可选示例中，可以通过如下方式从图像子序列中选取至少两个目标图像：从图像子序列中选取满足预设质量指标的第一图像；将第一图像以及与第一图像邻近的至少一个第二图像确定为目标图像。

其中的预设质量指标例如可以包括但不限于以下任意一项或任意多项：图像包括完整的唇部边缘、唇部清晰度达到第一条件、图像的光线亮度达到第二条件，等等。

在一些可能的实现方式中，该至少两个目标图像是图像子序列包括的多个图像的一部分，此时，该方法还包括：从图像子序列包括的多个图像中选取至少两个目标图像。

在本公开实施例中，可以通过多种方式进行选帧。例如，在其中一些实施方式中，可以基于图像质量进行选帧。在一个例子中，可以从图像子序列包括的多个图像中选取满足预设质量指标的第一图像，并将该第一图像以及与该第一图像邻近的至少一个第二图像确定为目标图像。

其中的预设质量指标例如可以包括但不限于以下一项或任意多项：图像包括完整的唇部边缘、唇部清晰度达到第一条件、图像的光线亮度达到第二条件，等等，或者预设质量指标也可以包括其他类型的质量指标，本公开实施例对预设质量指标的具体实现不作限定。

在本公开实施例中，也可以基于其他因素进行选帧，或者结合图像质量和其他因素进行选帧，得到多个图像中的第一图像，并将第一图像和与第一图像邻近的至少一个第二图像确定为目标图像。

其中，该第一图像的个数可以为一个或多个，这样，可以基于第一图像及其邻近的至少一个第二图像的唇部形态信息来确定其唇语识别结果，其中，可以将第一图像及其邻近的至少一个第二图像作为一个图像集合，也就是说，可以从图像子序列中选择至少一个图像集合，并基于图像集合中包括的至少两个图像的唇部形态信息来确定该图像集合的唇语识别结果，例如图像集合对应的字符，或者图像集合对应多个字符中每个字符的概率，等等。可选地，图像子序列的唇语识别结果可以包括该至少一个图像集合中每个图像集合的唇语识别结果，或者，还可以进一步基于至少一个图像集合中每个图像集合的唇语识别结果，来确定图像子序列的唇语识别结果，但本公开实施例对此不做限定。

在本公开实施例中，第二图像可以位于第一图像之前，或者位于第一图像之后。在其中一些可选示例中，上述至少一个第二图像可以包括：位于第一图像之前且与该第一图像邻近的至少一个图像以及位于该第一图像之后且与第一图像邻近的至少一个图像。其中，位于第一图像之前或之后是指第二图像和第一图像在图像子序列中的时序关系，邻近表示第二图像和第一图像在图像子序列中的位置间隔不大于预设数值，例如，第二图像和第一图像在图像子序列中的位置相邻，此时，可选地，从图像子序列中选择与第一图像相邻的预设个数的第二图像，或者，第二图像和第一图像在图像子序列中间隔的图像个数不大于10，但本公开实施例不限于此。

可选地，从图像子序列包括的多个图像中选取至少两个目标图像时，除了考虑上述预设质量指标外，还可以进一步结合如下指标选取：选取中的图像之间的唇部形态变化连续。例如，在其中一些可选示例中，可以从图像子序列中选取满足预设质量指标、且体现唇部形态有效变化的图像、以及位于体该现唇部形态有效变化的图像之前和/或之后的至少一帧图像。其中，唇部形态有效变化可以以上下唇距宽度等可作为预设判断标准。

例如，在一个应用示例中，从图像子序列包括的多个图像中选取至少两个目标图像时，可以以满足预设质量指标、且上下唇距最宽等可作为选取标准，选择满足预设质量指标、且唇部形态变化最大的一帧图像、以及位于该一帧图像之前和之后的至少一帧图像。在实际应用中，如果指定内容为0-9中的至少一个数字，每个数字的朗读时间平均为0.8s左右，平均帧率为25fps，为此，可以针对每个数字选取5-8帧图像作为体现唇部形态有效变化的图像子序列，但本公开实施例不限于此。

在得到至少一个图像子序列的唇语识别结果之后，一些可能的实现方式中，在操作106中，可以确定至少一个图像子序列的唇语识别结果与指定内容是否一致，并基于该确定的结果，确定防伪检测结果。例如，响应于至少一个图像子序列的唇语识别结果与指定内容一致，确定防伪检测结果为通过防伪检测或不存在伪造。再例如，响应于至少一个图像子序列的唇语识别结果与指定内容不一致，确定防伪检测结果为未通过防伪检测或存在伪造。

或者，也可以进一步获取用户阅读上述指定内容的音频，对音频进行语音识别处理，得到音频的语音识别结果，并确定音频的语音识别结果与指定内容是否一致。此时，可选地，如果音频的语音识别结果和至少一个图像子序列的唇语识别结果中的至少一项与指定内容不一致，则确定未通过防伪检测。可选地，如果音频的语音识别结果和至少一个图像子序列的唇语识别结果与指定内容均一致，则确定通过防伪检测，但本公开实施例不限于此。

在一种可能的实施方式中，可以根据音频的分割结果中各音频片段的语音识别结果，对对应的图像子序列的唇语识别结果进行标注，其中，每个图像子序列的唇语识别结果标注该图像子序列对应的音频片段的语音识别结果，即每个图像子序列的唇语识别结果标注该图像子序列对应的字符，然后将标注有字符的至少一个图像子序列的唇语识别结果输入第二神经网络，得到图像序列的唇语识别结果与音频的语音识别结果之间的匹配结果。

本公开实施例按照音频的分割结果将图像序列对应分割为至少一个图像子序列，将各图像子序列的唇语识别结果与各音频片段的语音识别结果进行比对，根据二者是否匹配实现了基于唇语识别的防伪检测。

在另一些实施方式中，操作106，基于至少一个图像子序列的唇语识别结果，确定防伪检测结果，包括：

对上述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。例如，基于用户阅读指定内容的音频的语音识别结果，对至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果；

确定该融合识别结果与用户阅读指定内容的音频的语音识别结果是否匹配。例如，可以将该融合识别结果和语音识别结果输入到第二神经网络进行处理，得到唇语识别结果与语音识别结果的匹配概率；基于唇语识别结果与语音识别结果的匹配概率，确定唇语识别结果与语音识别结果是否匹配；

基于融合识别结果与音频的语音识别结果之间的匹配结果，确定防伪检测结果。

根据融合识别结果与音频的语音识别结果是否匹配的匹配结果，若融合识别结果与语音识别结果匹配，确定通过防伪检测，可以进一步选择性地执行用于表示防伪检测通过的相关操作。否则，若融合识别结果与语音识别结果不匹配，确定未通过防伪检测，可以进一步选择性地输出未通过防伪检测的提示消息。

具体地，可以获取用户阅读指定内容的音频的语音识别结果，确定融合识别结果与音频的语音识别结果是否匹配，并根据融合识别结果与音频的语音识别结果是否匹配的匹配结果，确定防伪检测结果。例如，响应于融合识别结果与语音识别结果匹配，确定用户通过防伪检测。再例如，响应于融合识别结果与语音识别结果不匹配，确定用户未通过防伪检测。

其中，可选地，图像子序列的唇语识别结果例如可以包括图像子序列对应的一个或多个字符：或者，图像子序列的唇语识别结果包括：该图像子序列被分类为与指定内容对应的多个预设字符中每个预设字符的概率。例如，如果预先设定的指定内容中可能的字符集包括数字0～9，则每个图像子序列的唇语识别结果包括：该图像子序列被分类为0～9中每个预设字符的概率，但本公开实施例不限于此。

在一个可选例子中，基于用户阅读指定内容的音频的语音识别结果，对至少一个图像子序列的唇语识别结果进行融合。例如，确定至少一个图像子序列中每个图像子序列的唇语识别结果对应的特征向量，并基于音频的语音识别结果，对至少一个图像子序列对应的至少一个特征向量进行拼接，得到拼接结果。

相应地，在进一步可选示例中，图像子序列的唇语识别结果包括图像子序列被分类为多个预设字符中每个预设字符的概率，此时，可选地，基于用户阅读指定内容的音频的语音识别结果，对至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果，可以包括：

对图像子序列被分类为与指定内容对应的多个预设字符中每个预设字符的概率进行顺序排列，得到图像子序列对应的特征向量；

基于用户阅读指定内容的音频的语音识别结果，将至少一个图像子序列的特征向量进行拼接，得到拼接结果。其中，上述融合识别结果包括拼接结果。

可选地，该拼接结果可以为拼接向量或拼接矩阵或其他维度的数据类型，本公开实施例对拼接的具体实现不作限定。

其中，可以通过多种方式确定融合识别结果与语音识别结果是否匹配。在一些可选例子中，可以通过机器学习算法确定融合识别结果和语音识别结果是否匹配。在另一些可选示例中，可以通过第二神经网络，确定融合识别结果与用户阅读指定内容的音频的语音识别结果是否匹配，例如，可以直接将融合识别结果和音频的语音识别结果输入到第二神经网络进行处理，第二神经网络输出融合识别结果和语音识别结果的匹配结果。再例如，可以对融合识别结果和/或音频的语音识别结果进行一项或多项处理，然后将其输入到第二神经网络进行处理，输出融合识别结果和语音识别结果的匹配结果，本公开实施例对此不做限定。这样，通过第二神经网络，确定融合识别结果与语音识别结果是否匹配，从而确定是否通过防伪检测，利用深度神经网络强大的学习能力，可以有效确定融合识别结果与语音识别结果的匹配程度，从而根据融合识别结果与语音识别结果的匹配结果实现了唇语防伪检测，提高了防伪检测的准确性。

本公开实施例利用第一神经网络对图像子序列进行唇语识别，利用第二神经网络确定融合识别结果与语音识别结果是否匹配，从而实现防伪检测，由于神经网络的学习能力强，并且可以实时进行补充训练来提高性能，可扩展性强，能够迅速根据实际需求的变化进行更新，迅速应对新出现的伪造情况进行防伪检测，可有效提升识别结果的准确率，从而提高防伪检测结果的准确性。

在本公开实施例中，可选地，在确定防伪检测结果之后，可以基于防伪检测结果执行相应的操作。例如，如果通过防伪检测，则可以进一步选择性地执行用于表示防伪检测通过的相关操作，例如解锁、登陆用户账号、允许交易、打开门禁设备等等，或者，可以在基于图像序列进行人脸识别并通过身份认证之后，执行上述操作。再例如，如果未通过防伪检测，则可以选择性地输出未通过防伪检测的提示消息，或者在通过防伪检测但未通过身份认证的情况下，选择性地输出身份验证失败的提示消息，本公开实施例对此不做限定。

本公开实施例中，可要求面部、图像序列或图像子序列、对应的音频处于同一时空维度，同时进行语音识别和唇语防伪检测，提高了防伪检测效果。

图2为本公开实施例的防伪检测方法的一个示例的流程图。如图2所示，该防伪检测方法包括：

202，获取用户阅读指定内容的图像序列和音频。

其中，该图像序列包括多个图像。

本公开实施例中的图像序列可以来自于用户阅读指定内容的视频；音频可以为现场同步录制的音频，也可以是从现场拍摄的视频中提取的音频类型文件。

之后，针对该音频执行操作204和206；针对该图像序列执行操作208。

204，对上述音频进行分割，得到音频分割结果，该音频的分割结果包括：用户阅读指定内容中至少一个字符的至少一个音频片段。

206，对上述音频进行语音识别处理，得到该音频的语音识别结果，对应于上述至少一个音频片段的语音识别结果。

208，根据操作204得到的音频的分割结果，从用户阅读指定内容的图像序列中获取至少一个图像子序列。

其中，每个图像子序列包括图像序列中的至少一个图像。该至少一个图像子序列的数量等于指定内容中包含的字符数，并且，上述至少一个图像子序列与指定内容中包含的至少一个字符一一对应，每个图像子序列对应于指定内容中的一个字符。

210，例如通过第一神经网络，对上述至少一个图像子序列进行唇语识别，得到至少一个图像子序列的唇语识别结果。

其中，每个图像子序列的唇语识别结果可以包括：该图像子序列被分类为与指定内容对应的多个预设字符中每个预设字符的概率。

212，基于操作206得到的音频的语音识别结果，对操作206得到的至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。

214，例如通过第二神经网络，确定该融合识别结果与上述音频的语音识别结果是否匹配。

216，基于上述融合识别结果与上述音频的语音识别结果之间的匹配结果，确定防伪检测结果。

具体来说，若融合识别结果与语音识别结果匹配，确定防伪检测结果为通过防伪检测。否则，若融合识别结果与语音识别结果不匹配，确定防伪检测结果为未通过防伪检测。

其中，融合识别结果与语音识别结果不匹配，例如可以是，真人视频翻拍与伪造身份按照系统要求朗读指定内容，此时从真人视频翻拍截取的视频中获取的图像序列对应的融合识别结果与对应时间段的语音识别结果不一致，从而判断二者不匹配，进而判断该视频为伪造。

本公开实施例中，获取用户阅读指定内容的图像序列和音频，对该音频进行语音识别，得到语音识别结果；对从图像序列获取的至少一个图像子序列进行唇语识别，得到唇语识别结果、并进行融合，得到融合识别结果；基于融合识别结果与语音识别结果是否匹配，确定是否通过防伪检测。本公开实施例通过分析被采集对象朗读指定内容时的图像序列和对应音频来进行唇语识别，从而实现防伪检测，交互简单，且不易在无防备情况下同时取得图像序列和对应音频，提高了防伪检测的可靠性和检测精度。

在本公开的其中一些实施方式中，可以基于唇语识别结果与语音识别结果建立混淆矩阵(Confusion Matrix)，并将混淆矩阵转换成对应于语音识别结果排列的特征向量并输入第二神经网络，得到唇语识别结果与语音识别结果是否匹配的匹配结果。

以下以指定内容中的字符为数字为例对混淆矩阵进行详细阐述。

通过对至少一个图像子序列中每个图像子序列的唇语识别处理，得到上述至少一个图像子序列中每个图像子序列被分类为0-9中每个数字的概率。然后，可以将每个图像子序列被分类为0-9中每个数字的概率进行排序，得到该图像子序列的1×10的特征向量。

然后，基于上述至少一个图像子序列中每个图像子序列的特征向量，或者从其中抽取的若干个图像子序列的特征向量(例如，根据指定内容的数字长度随机抽取以上特征向量)，建立混淆矩阵。

在一个例子中，可以基于至少一个图像子序列中每个图像子序列的特征向量，建立10×10的混淆矩阵，其中，可以基于图像子序列对应的音频识别结果中的数值，确定该图像子序列对应的特征向量所在的行号或列号，可选地，若两个或以上图像子序列对应的音频识别中的数值相同，则将该两个或以上图像子序列的特征向量的值逐元素相加，得到该数值所对应行或列的元素。类似地，如果指定内容中的字符为字母，则可以建立26×26的混淆矩阵，如果指定内容中的字符为汉字或英文单词或其他形式，则可以基于预设字典建立相应的混淆矩阵，本公开实施例对此不做限定。

如图3所示，为本公开实施例中一个混淆矩阵及其应用示例，其中，每行的元素数值是基于语音识别结果与该行行号相等的音频片段对应的图像子序列的唇语识别结果得到的。右侧颜色由浅变深的数字条标识了将各图像子序列预测为某类别时的概率值高低所代表的颜色，并同时将这个对应关系体现在了混淆矩阵中，颜色越深代表将横轴对应的图像子序列预测为对应纵轴的实际标签类别的可能性越大；

在获得混淆矩阵后，可以将混淆矩阵拉长为向量，例如，在上述例子中，将10×10的混淆矩阵拉长为1×100的拼接向量(即拼接结果)，作为第二神经网络的输入，由第二神经网络判断唇语识别结果与语音识别结果之间的匹配程度。

在一些可能的实现方式中，第二神经网络可以基于拼接向量和语音识别结果，得到唇语识别结果与语音识别结果匹配的概率。此时，可以基于第二神经网络得到的匹配概率是否大于预设阈值得到存在伪造或者不存在伪造的防伪检测结果。例如，在第二神经网络输出的匹配概率大于或等于预设阈值的情况下，确定图像序列为非伪造，即，通过防伪检测；再例如，在第二神经网络输出的匹配概率小于预设阈值的情况下，确定图像序列为伪造，即，未通过防伪检测。该基于匹配概率得到防伪检测结果的操作可以由第二神经网络执行，也可以由其他单元或者装置执行，本公开实施例对此不做限定。

在一个具体应用例子中，以指定内容为数字序列2358为例，可以得到四个图像子序列和四个音频片段，其中，每个图像子序列对应一个音频片段，第一个图像子序列对应1×10的特征向量，例如，[0,0.0293,0.6623,0.0348,0.1162,0,0.0984,0.0228,0.0362,0]，该特征向量对应混淆矩阵中的一行，行号即为对与第一个数字进行语音识别得到的语音识别结果，例如等于2。这样，第一个图像子序列对应的特征向量被放到矩阵的第2行，类此类推，第二个图像子序列对应的特征向量被放入矩阵的第3行，第三个图像子序列对应的特征向量被放入矩阵的第5行，第四个图像子序列对应的特征向量被放入矩阵的第8行，矩阵未填入的部分补0，构成一个10×10的矩阵。将该矩阵进行拉长，得到1×100的拼接向量(即融合识别结果)，将拼接向量和音频的语音识别结果输入第二神经网络进行处理，即可得到图像序列的唇语识别结果与语音识别结果是否匹配的匹配结果。

本公开实施例中，利用第一神经网络对上述至少一个图像子序列进行唇语识别，引入了可能分类到相似唇部形态的字符的可能性，针对每个图像子序列都获取其对应于各字符的概率，例如数字“0”和“2”的唇形(嘴型)表现相近，很容易在唇语识别部分被误识别，本公开实施例考虑了第一深度神经网络的学习误差，引入了可能分类到相似唇部形态的概率，可以在唇语识别结果出现误差时在一定程度上进行弥补，降低了唇语识别结果的分类精度对防伪检测的影响。

基于本公开实施例，利用深度学习框架进行唇部形态建模，得到第一神经网络，使得对唇部形态的分辨更为准确；并且，可以利用音频模块对音频的分割结果进行图像序列分割，从而使得第一神经网络可以更好的识别用户所读的内容；另外，基于上述至少一个音频片段的语音识别结果和上述至少一个图像子序列中各图像子序列分别对应各字符的概率，确定唇语识别结果与语音识别结果是否匹配，对唇语识别结果有一定的容错能力，使得匹配结果更加准确。

图4为本公开又一个实施例的防伪检测方法的流程图。如图4所示，该实施例的防伪检测方法包括：

302，获取用户阅读指定内容的图像序列和音频。

其中，该图像序列包括多个图像。

之后，针对该音频执行操作304；针对该图像序列执行操作308。

304，对上述音频进行分割，得到音频分割结果，该音频的分割结果包括：用户阅读指定内容中至少一个字符的至少一个音频片段。

其中，该至少一个音频片段中的每个音频片段对应指定内容中的一个字符或者用户阅读/读出的一个字符，例如，一个数字、字母、汉字、英文单词或其他符号等等。

306，对上述至少一个音频片段进行语音识别处理，得到该音频的语音识别结果，包括上述至少一个音频片段的语音识别结果。

之后，执行操作312和314。

308，根据操作304得到的音频的分割结果，从用户阅读指定内容的图像序列中获取至少一个图像子序列。

具体地，可以将用户阅读指定内容的音频分割成至少一个音频片段，并基于该至少一个音频片段，从图像序列中获取至少一个图像子序列。

310，例如通过第一神经网络，对上述至少一个图像子序列进行唇语识别，得到该至少一个图像子序列的唇语识别结果。

312，基于操作306得到的至少一个音频片段的语音识别结果，对上述至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。

314，确定音频的语音识别结果与指定内容是否一致、以及上述融合识别结果与用户阅读指定内容的音频的语音识别结果是否匹配。

具体地，可以先确定语音识别结果与指定内容是否一致，并且在确定语音识别结果与指定内容一致的情况下，确定融合识别结果与语音识别结果是否匹配。此时，可选地，若确定语音识别结果与指定内容不一致，便无需再确定融合识别结果与语音识别结果是否匹配，而直接确定防伪检测结果为未通过防伪检测。

或者，也可以同时执行确定语音识别结果与指定内容是否一致以及确定融合识别结果与语音识别结果是否匹配，本公开实施例对此不做限定。

316，基于音频的语音识别结果与指定内容是否一致的确定结果、和融合识别结果与音频的语音识别结果是否匹配的匹配结果，确定防伪检测结果。

具体来说，若用户阅读指定内容的音频的语音识别结果与指定内容一致，且上述融合识别结果与音频的语音识别结果匹配，确定防伪检测结果为通过防伪检测。若用户阅读指定内容的音频的语音识别结果与指定内容不一致，和/或，上述融合识别结果与音频的语音识别结果不匹配，确定防伪检测结果为未通过防伪检测。

本公开实施例中，获取用户阅读指定内容的图像序列和音频，对该音频进行语音识别，得到语音识别结果；对从图像序列获取的至少一个图像子序列进行唇语识别，得到唇语识别结果、并进行融合，得到融合识别结果；基于语音识别结果与指定内容是否一致、以及上述融合识别结果与语音识别结果是否匹配，确定是否通过防伪检测。本公开实施例通过分析被采集对象朗读指定内容时的图像序列和对应音频来进行唇语识别，从而实现防伪检测，交互简单，且不易在无防备情况下同时取得图像序列和对应音频，提高了防伪检测的可靠性和检测精度。

另外，在本公开又一实施例的防伪检测方法中，可以响应于接收到用户发送的认证请求，开始执行各实施例中获取用户阅读指定内容的图像序列的操作。或者，可以在接收到其他设备的指示或者满足其他触发条件的情况下，执行上述防伪检测流程，本公开实施例对防伪检测的触发条件不作限定。

在一些可能的实现方式中，该方法还包括：响应于防伪检测结果为防伪检测通过，基于预设的人脸图像模板对图像序列进行身份认证。

在上述各实施例的另一些实施方式中，该方法还包括：在获取用户阅读指定内容的图像序列之前，基于预设的人脸图像模板对图像序列进行身份认证；所述获取用户阅读指定内容的图像序列，包括：响应于图像序列通过身份认证，执行各实施例中获取用户阅读指定内容的图像序列的操作。

在上述各实施例的另一些实施方式中，也可以同时对图像序列执行防伪检测和身份认证，本公开实施例对此不做限定。

在基于上述实施方式的进一步实施例中，还可以包括：响应于防伪检测结果为防伪检测通过且图像序列通过身份认证，执行下列操作中的一项或任意组合：门禁放行操作，设备解锁操作，支付操作，应用或设备的登录操作，对应用或设备进行特定操作的放行操作，等等，本公开实施例对此不做限定。

可以在各种应用中，基于本公开实施例进行防伪检测，在防伪检测通过后，才执行用于表示防伪检测通过的相关操作，从而提高了应用的安全性。

另外，在本公开上述各防伪检测方法实施例之前，还可以包括：对第一神经网络进行训练的操作。

对第一神经网络进行训练时，上述图像序列具体为样本图像序列。相应地，相对于上述各实施例，该实施例的防伪检测方法还包括：分别以至少一个音频片段的语音识别结果作为对应的至少一个图像子序列的标签内容；获取第一神经网络得到的至少一个图像子序列中各图像子序列对应的字符与对应的标签内容之间的差异；基于该差异对第一神经网络进行训练，即，对第一神经网络的网络参数进行调整，直至满足预设的训练完成条件，例如，训练次数达到预设训练次数，和/或上述至少一个图像子序列的预测内容与对应的标签内容之间的差异小于预设差值，等等。训练好的第一神经网络可以基于本公开上述各实施例的防伪检测方法，实现对输入视频或者从该视频中选取的图像序列进行准确的唇语识别。

基于本公开上述实施例，通过深度神经网络强大的描述能力进行建模，通过大规模样本图像序列数据进行训练，可以有效学习并提取对象朗读指定内容时的特征，进而实现对视频或图像的唇语识别。

另外，在本公开上述各防伪检测方法实施例之前，还可以包括：对第二神经网络进行训练的操作。

对第二神经网络进行训练时，以对象阅读指定内容时的样本图像序列中至少一个图像子序列的唇语识别结果、和对应的和样本音频中至少一个音频片段的语音识别结果作为第二神经网络的输入，比较第二神经网络输出的至少一个图像子序列的唇语识别结果和至少一个音频片段的语音识别结果之间的匹配程度和针对该样本图像序列和样本音频标注的匹配程度之间的差异，基于该差异对第二神经网络进行训练，即，对第二神经网络的网络参数进行调整，直至满足预设训练完成条件。

本公开实施例提供了任一种防伪检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供了任一种防伪检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种防伪检测方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

图5为本公开一个实施例的防伪检测装置的结构示意图。该实施例的防伪检测装置可用于实现本公开上述图1-图4所示各防伪检测方法实施例。如图5所示，该实施例的防伪检测装置包括：第一获取模块，唇语识别模块和第一确定模块。其中：

第一获取模块，用于从用户阅读指定内容的图像序列中获取至少一个图像子序列，图像子序列包括图像序列中的至少一个图像。

在其中一些实施方式中，上述至少一个图像子序列中的每个图像子序列对应于指定内容中的一个字符。其中，指定内容中的字符例如可以包括但不限于以下任意一种或多种：数字、英文字母、英文单词、汉字、符号，等等。

唇语识别模块，用于对至少一个图像子序列进行唇语识别，得到至少一个图像子序列的唇语识别结果。

第一确定模块，用于基于至少一个图像子序列的唇语识别结果，确定防伪检测结果。

基于本公开上述实施例提供了防伪检测装置，从用户阅读指定内容的图像序列中获取至少一个图像子序列，对该至少一个图像子序列进行唇语识别，得到该至少一个图像子序列的唇语识别结果，以及基于至少一个图像子序列的唇语识别结果，确定防伪检测结果。本公开实施例从用户阅读指定内容的图像序列中获取至少一个图像子序列，通过分析至少一个图像子序列来进行唇语识别，基于至少一个图像子序列的唇语识别结果实现了防伪检测，交互简单，且不易在无防备情况下取得用户阅读指定内容的图像序列，提高了防伪检测的可靠性。

在其中一些实施方式中，第一获取模块，用于根据用户阅读指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取至少一个图像子序列。

在其中一些可选示例中，上述音频的分割结果可以包括：用户阅读指定内容中每个字符的音频片段。则该实施例中，第一获取模块，可用于根据用户阅读指定内容中字符的音频片段的时间信息，从图像序列中获取音频片段对应的图像子序列。

其中的音频片段的时间信息例如可以包括但不限于以下一项或任意多项：音频片段的时长、音频片段的起始时刻、音频片段的终止时刻。

图6为本公开另一个实施例的防伪检测装置的结构示意图。如图6所示，与图5所示的实施例相比，该实施例的防伪检测装置还包括：第二获取模块，用于获取用户阅读指定内容的音频；音频分割模块，用于对音频进行分割，得到至少一个音频片段。其中，至少一个音频片段中的每个音频片段对应指定内容中的一个字符。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：第三获取模块，用于从图像子序列中包括的目标图像中获取唇部区域图像。相应地，该实施例中，唇语识别模块，用于基于唇部区域图像，得到图像子序列的唇语识别结果。

在其中一些实施方式中，唇语识别模块，用于基于图像子序列中包括的至少两个目标图像的唇部形态信息，得到图像子序列的唇语识别结果。例如，唇语识别模块，可用于利用第一神经网络对图像子序列中包括的至少两个目标图像的唇部形态信息进行处理，输出图像序列的唇语识别结果。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：

第三获取模块，用于从至少两个目标图像中的每个目标图像中获取唇部区域图像。

第二确定模块，用于基于从目标图像中获取的唇部区域图像，确定至少两个目标图像的唇部形态信息。

在其中一些可选示例中，第二确定模块可用于对唇部区域图像进行特征提取处理，得到唇部区域图像的唇部形态特征，其中，目标图像的唇部形态信息包括唇部区域图像的唇部形态特征。

在其中一些可选示例中，第三获取模块可以包括：关键点检测单元，用于对目标图像进行关键点检测，得到面部关键点的信息，其中，面部关键点的信息包括唇部关键点的位置信息；获取单元，用于基于唇部关键点的位置信息，从目标图像中获取唇部区域图像。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：预处理模块，用于对目标图像进行转正处理，得到转正处理后的目标图像；第三确定模块，用于基于转正处理，确定唇部关键点在转正处理后的目标图像中的位置信息。相应地，获取单元，用于基于唇部关键点在转正处理后的目标图像中的位置信息，从转正处理后的目标图像中获取唇部区域图像。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：第四获取模块，用于从图像子序列中选取至少两个目标图像。

在其中一些可选示例中，第四获取模块包括：选取单元，用于从图像子序列中选取满足预设质量指标的第一图像；第一确定单元，用于将第一图像以及与第一图像邻近的至少一个第二图像确定为目标图像。

其中的预设质量指标例如可以包括但不限于以下任意一项或任意多项：图像包括完整的唇部边缘、唇部清晰度达到第一条件、图像的光线亮度达到第二条件，等等。上述至少一个第二图像可以包括位于第一图像之前且与第一图像邻近的至少一个图像以及位于第一图像之后且与第一图像邻近的至少一个图像。

在其中一些实施方式中，第一确定模块可以包括：

融合单元，用于对至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。

在其中一些可选示例中，融合单元，用于基于用户阅读指定内容的音频的语音识别结果，对至少一个图像子序列的唇语识别结果进行融合，得到融合识别结果。其中，图像子序列的唇语识别结果可以包括：图像子序列被分类为与指定内容对应的多个预设字符中每个预设字符的概率。

在另一些可选示例中，融合单元，用于对图像子序列被分类为与指定内容对应的多个预设字符中每个预设字符的概率进行顺序排列，得到图像子序列对应的特征向量；基于用户阅读指定内容的音频的语音识别结果，将至少一个图像子序列的特征向量进行拼接，得到拼接结果；其中，融合识别结果包括拼接结果。

第二确定单元，用于确定融合识别结果与用户阅读指定内容的音频的语音识别结果是否匹配。

在其中一些可选示例中，第二确定单元，用于将融合识别结果和语音识别结果输入到第二神经网络进行处理，得到唇语识别结果与语音识别结果的匹配概率；基于唇语识别结果与语音识别结果的匹配概率，确定唇语识别结果与语音识别结果是否匹配。

第三确定单元，用于基于融合识别结果与音频的语音识别结果之间的匹配结果，确定防伪检测结果。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：语音识别模块，用于对用户阅读指定内容的音频进行语音识别处理，得到语音识别结果。第四确定模块，用于确定语音识别结果与指定内容是否一致。相应地，该实施例中，三确定单元，用于在在用户阅读指定内容的音频的语音识别结果与指定内容一致、且图像序列的唇语识别结果与音频的语音识别结果匹配的情况下，确定防伪检测结果为通过防伪检测。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：生成模块，用于随机生成指定内容。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：第五获取模块和认证模块。其中：

第五获取模块，用于响应于接收到用户发送的认证请求，获取用户阅读指定内容的图像序列；认证模块，用于响应于防伪检测结果为防伪检测通过，基于预设的人脸图像模板对图像序列进行身份认证。

或者，认证模块，用于响应于接收到用户发送的认证请求，基于预设的人脸图像模板对图像序列进行身份认证；第五获取模块，用于响应于图像序列通过身份认证，获取用户阅读指定内容的图像序列。

另外，再参见图6，上述实施例的防伪检测装置还可以包括：控制模块，用于响应于防伪检测结果为防伪检测通过且图像序列通过身份认证，执行用于表示防伪检测通过的相关操作。其中，该相关操作例如可以包括但不限于以下任意一项或多项：门禁放行操作，设备解锁操作，支付操作，应用或设备的登录操作，对应用或设备进行相关操作的放行操作，等等。

另外，本公开实施例提供了另一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本公开上述任一实施例的防伪检测方法。

图7为本公开电子设备一个应用实施例的结构示意图。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图7所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供了任一方法对应的操作，例如，从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本公开上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请任一实施例提供了防伪检测方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU执行时，执行本申请的方法中限定的上述功能。

另外，本公开实施例还提供了一种计算机程序，包括计算机指令，当计算机指令在设备的处理器中运行时，实现本公开上述任一实施例的防伪检测方法。

另外，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开上述任一实施例的防伪检测方法。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种防伪检测方法，其特征在于，包括：

从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；

对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；

基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

2.根据权利要求1所述的方法，其特征在于，所述从用户阅读指定内容的图像序列中获取至少一个图像子序列，包括：

根据用户阅读所述指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取所述至少一个图像子序列。

3.根据权利要求2所述的方法，其特征在于，所述音频的分割结果包括：所述用户阅读所述指定内容中每个字符的音频片段；

根据用户阅读所述指定内容的音频的分割结果，从用户阅读指定内容的图像序列中获取所述至少一个图像子序列，包括：

根据所述用户阅读所述指定内容中字符的音频片段的时间信息，从所述图像序列中获取所述音频片段对应的图像子序列。

4.根据权利要求3所述的方法，其特征在于，所述音频片段的时间信息包括以下一项或任意多项：所述音频片段的时长、所述音频片段的起始时刻、所述音频片段的终止时刻。

5.根据权利要求2-4任一所述的方法，其特征在于，还包括：

获取所述用户阅读所述指定内容的音频；

对所述音频进行分割，得到至少一个音频片段；其中，所述至少一个音频片段中的每个音频片段对应所述指定内容中的一个字符。

6.根据权利要求1-5任一所述的方法，其特征在于，对所述图像子序列进行唇语识别，得到所述图像子序列的唇语识别结果，包括：

从所述图像子序列中包括的目标图像中获取唇部区域图像；

基于所述唇部区域图像，得到图像子序列的唇语识别结果。

7.根据权利要求1-5任一所述的方法，其特征在于，对所述图像子序列进行唇语识别，得到所述图像子序列的唇语识别结果，包括：

基于所述图像子序列中包括的至少两个目标图像的唇部形态信息，得到所述图像子序列的唇语识别结果。

8.一种防伪检测装置，其特征在于，包括：

第一获取模块，用于从用户阅读指定内容的图像序列中获取至少一个图像子序列，所述图像子序列包括所述图像序列中的至少一个图像；

唇语识别模块，用于对所述至少一个图像子序列进行唇语识别，得到所述至少一个图像子序列的唇语识别结果；

第一确定模块，用于基于所述至少一个图像子序列的唇语识别结果，确定防伪检测结果。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-7任一所述的方法。