CN114647829A

CN114647829A - 一种身份验证的方法、装置、存储介质和电子设备

Info

Publication number: CN114647829A
Application number: CN202011394671.2A
Authority: CN
Inventors: 郑德金
Original assignee: 360vision Beijing Technology Co ltd
Current assignee: 360vision Beijing Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-06-21

Abstract

本申请实施例公开了一种身份验证的方法、装置、存储介质及电子设备，其中，方法包括：过光线感应器测量环境光强度值；基于所述环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据；基于所述语音数据提取声纹特征信息；基于所述声纹特征信息对所述用户进行身份验证。采用本申请实施例，提高身份验证方式的多样性，以及提高应对复杂的身份验证环境的适应性和准确性。

Description

一种身份验证的方法、装置、存储介质和电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种身份验证的方法、装置、存储介质和电子设备。

背景技术

随着电子设备技术的不断发展，各种智能设备被广泛应用于人们的日常生活中，上述智能设备结合互联网技术，可以为用户提供更人性化和便捷的服务。例如智能门锁可以对来访者进行身份验证，现有技术中最常见和可靠的方法是通过采集来访者的人脸图像，进行身份验证，但如果当前环境是暗光环境时，智能门锁的图像采集单元无法采集到清晰的人脸图像，对身份验证造成麻烦。

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的身份验证的方法、装置、存储介质和电子设备。

发明内容

本申请实施例提供了一种身份验证的方法、装置、存储介质及电子设备，可以在暗光环境下对用户进行身份验证，提高身份验证方式的多样性，以及提高应对复杂的身份验证环境的适应性和准确性。所述技术方案如下：

第一方面，本申请提出一种身份验证的方法，所述方法包括：

通过光线感应器测量环境光强度值；

基于所述环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据；

基于所述语音数据提取声纹特征信息；

基于所述声纹特征信息对所述用户进行身份验证。

在一个或多个可能的实施例中，所述通过光线感应器测量环境光强度值之前，还包括：

对所述用户进行活体检测；

确定所述用户通过所述活体检测。

在一个或多个可能的实施例中，所述对所述用户进行活体检测，包括：

通过图像采集单元采集所述用户的彩色人脸图像；

通过红外图像采集单元采集所述用户的红外人脸图像；

提取所述彩色人脸图像的色彩分布信息和所述红外人脸图像的红外分布信息；

基于所述色彩分布信息和所述红外分布信息对所述用户进行活体检测。

在一个或多个可能的实施例中,所述通过图像采集单元采集所述用户的彩色人脸图像，包括：

输出动作引导提示；其中，所述第一动作引导提示用于指示所述用户作出相应动作；

通过所述图像采集单元采集所述用户的视频图像；

基于所述视频图像提取至少一个视频帧，检测所述视频帧中包括的关键动作和所述动作引导提示是否匹配；

若为是，基于所述至少一个视频帧提取至少一个待处理彩色人脸图像；

将所述至少一个待处理彩色人脸图像合并处理成彩色人脸立体图像；其中，所述彩色人脸图像包括所述彩色人脸立体图像。

在一个或多个可能的实施例中，所述通过声音采集单元采集来自用户的语音数据，包括：

通过扬声单元播放提示语音数据；

通过所述声音采集单元采集所述用户根据所述提示语音数据的引导发出的语音数据；

确定所述语音数据的内容与所述提示语音数据的内容匹配。

通过显示单元随机显示提示文字数据；

通过所述声音采集单元采集所述用户根据所述提示文字数据的引导发出的语音数据；

确定所述语音数据的内容与所述提示文字数据的内容匹配。

在一个或多个可能的实施例中，所述基于所述语音数据提取声纹特征信息，包括：

将所述语音数据进行滤波降噪处理，得到处理后的语音数据；

基于所述处理后的语音数据获取至少一个语音帧；

在所述语音帧中提出声纹特征片段，将至少一个所述声纹特征片段组成所述声纹特征信息。

在一个或多个可能的实施例中，所述基于所述声纹特征信息对所述用户进行身份验证，包括：

将所述声纹特征信息与注册声纹特征信息进行声纹相似度对比；

当所述声纹相似度大于相似阈值时，确定所述用户通过身份验证。

在一个或多个可能的实施例中，还包括：

基于所述环境光强度值确定当前处于亮光环境时，通过图像采集单元采集来自用户的人脸图像；

基于所述人脸图像提取人脸特征信息；

基于所述人脸特征信息对所述用户进行身份验证。

在一个或多个可能的实施例中，所述基于所述人脸图像提取人脸特征信息，包括：

将所述人脸图像进行预处理，得到预处理后的人脸图像；

基于所述预处理后的人脸图像提取至少一个关键点信息；

基于所述至少一个关键点信息生成至少一个人脸特征模型；其中，所述人脸特征信息包括所述至少一个人脸特征模型。

在一个或多个可能的实施例中，还包括：

将所述人脸特征信息与危险目标数据库中至少一个危险特征信息进行搜索匹配；

当所述人脸特征信息与所述危险特征信息匹配成功时，确定所述用户为危险目标；

通过扬声单元播放报警语音信息，以及将所述人脸图像发送给预先绑定的移动终端。

在一个或多个可能的实施例中，还包括：

在预设时间内验证所述用户身份失败的次数超过预设次数时，将所述用户的人脸图像发送给预先绑定的移动终端；

接收来自所述移动终端的针对所述用户的身份验证结果；

通过显示单元显示所述身份验证结果

第二方面，本申请提出一种身份验证的装置，，所述装置包括：

传感模块，用于通过光线感应器测量环境光强度值；

采集模块，用于基于所述环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据；

提取模块，用于基于所述语音数据提取声纹特征信息；

验证模块，用于基于所述声纹特征信息对所述用户进行身份验证。

第二方面，本申请提出一种计算机存储介质，计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

第二方面，本申请提出一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～12任意一项的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

利用光线感应器检测到当前处于暗光环境时，通过声音采集单元采集用户的语音数据，利用声纹特征进行身份验证，避免暗光环境下通过采集用户的人脸图像不清晰甚至失败从而导致身份验证不成功的问题，提高身份验证方式的多样性，以及提高应对复杂的身份验证环境的适应性和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种身份验证方法的流程示意图；

图2是本申请实施例提供的一种采集来自用户的语音数据的流程示意图；

图3A是本申请实施例提供的另一种采集来自用户的语音数据的流程示意图；

图3B为本申请实施例提供的一种显示单元随机显示提示文字数据的示意图；

图4是本申请实施例提供的一种提取声纹特征信息的流程示意图；

图5是本申请实施例提供的另一种身份验证方法的流程示意图；

图6是本申请实施例提供的一种活体验证的流程示意图；

图7是本申请实施例提供的一种身份验证装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行详细说明。

如图1所示，为本申请实施例提供的一种身份验证方法的流程示意图，包括：

S101、通过光线感应器测量环境光强度值。

光线感应器，可以理解为可以接收设备当前所处环境的环境光后，输出对应的电信号以表达环境光强度值的感应器，主要利用半导体的光电效应原理工作的，例如：光线感应器包括但不限于CM32181A3OP型号、AGM2401B型号等。

暗光环境，可以理解为环境光强度值低于光线阈值的环境，也可以理解为人眼觉得光线不足导致昏暗的环境，在本申请实施例中，主要指由于光线不足会导致无法采集人脸图像的环境。

在本申请实施例中，光线传感器用来测量环境光强度值。举例来说，本申请的方法被应用在一款智能门锁上，该智能门锁上配备有光线传感器；该光线传感器接收利用投光器的透镜将环境光聚集，传输给受光器的透镜，再发送给感光半导体；该感光半导体基于环境光的强度值改变自身的电阻值，从而使感光电路的电流值发送改变；光线感应器的芯片通过引脚与感光电路相连，接收该电流，并将该电流值输入至光电强度值计算模型中，获取此时的环境光强度值为1.79(lx)；获取预设的暗光环境条件，该预设的暗光环境条件为环境光强度值为0.01(lx)～1.99(lx)，基于该预设的暗光环境条件判断此时环境为暗光环境。

S102、基于环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据。

声音采集单元，可以理解为接收声波并转换为电信号的传感器，主要元件为对声波敏感的电容式驻极体话筒。声音采集单元的原理为：声波使话筒内的驻极体薄膜产生振动，导致电容发生变化，在收声电路上产生具有周期性或非周期性的微小电流，该电流被转换为电压后再经过A/D转换被声音采集单元的声音采集芯片接收，并处理成频谱图等形式。例如，声音采集单元包括但不限于H23222声音传感器、HBR-ZS1声音传感器等。

如图2所示，在一个实施例中，声音采集单元采集来自用户的语音数据，包括以下步骤：

S201、通过扬声单元播放提示语音数据；

扬声单元，可以理解为一种能把电信号转换为声信号的换能器件，主要元器件有磁铁、膜片等。扬声单元的工作原理为：音频电能通过电磁、压电或静电效应，使纸片或膜片振动并与周围的空气产生共振从而发出声音。

提示语音数据，可以理解为具有提示效果和提示内容，并且提示形式是语音或音频的语音数据，用来提示用户根据提示内容作出相应的动作。在本申请实施例中，提示语音数据由扬声单元进行播放。

举例来说，扬声单元接收来自处理器的电流信号，将电流信号通过压电效应进行转换，带动膜片振动，发出提示语音数据，该提示语音数据内容为：请口齿清醒地缓慢读出诗句“床前明月光，疑是地上霜”；用户听到该提示语音数据，基于该提示语音数据开始说话。

S202、通过声音采集单元采集用户根据提示语音数据的引导发出的语音数据。

在本申请实施例中，扬声单元播放提示语音数据，然后声音采集单元采集用户根据提示语音数据的引导发出的语音数据。

举例来说，扬声单元接收来自处理器的电流信号，将电流信号通过压电效应进行转换，带动膜片振动，发出提示语音数据，该提示语音数据内容为：请口齿清醒地缓慢读出诗句“床前明月光，疑是地上霜”；用户听到该提示语音数据，用户听到该提示语音数据，基于该提示语音数据开始说话；声音采集单元的膜片接收到用户的声音信号，开始振动，并改变收声电路的电流值，该电流被转换为电压后再经过A/D转换被声音采集单元的声音采集芯片接收，以声波图的形式进行展示。

S203、确定语音数据的内容与提示语音数据的内容匹配。

在本申请实施例中，扬声单元播放提示语音数据，然后声音采集单元采集用户根据提示语音数据的引导发出的语音数据，确定语音数据的内容与提示语音数据的内容匹配，若匹配，则执行步骤S103，若不匹配，再次通过扬声单元输出提示语音数据。

举例来说，通过声音采集单元采集到用户的语音数据，将语音数据发送给处理器；处理器将该语音数据以声波图的形式进行展示，首先将声波图中代表静音的直线频段切除，以及通过预设的噪声去除模板将语音数据中的噪声去除；然后对声波图进行加窗分帧处理，获得至少一个语音帧，例如，该语音数据由1000个语音帧，每个语音帧的长度为25毫秒，每两帧之间有15毫秒的交叠；基于转换算法和每一个语音帧的波形将每一个语音帧转换为一个多维向量，该多维向量包括对应的语音帧的MFCC特征，以及若干个音素等声音信息；每一个单词对应若干个音素，处理器将每一个语音帧中的若干个音素与预设音素进行匹配，确定每一个语音帧中可能包含的单词，若干个单词组合成关键词；定义提示语音数据中含有的提示内容的关键词为“明月光”和“地上霜”，基于上述步骤对来自用户根据所述提示语音数据的引导发出的语音数据进行解析，判断是否含有关键词“明月光”和“地上霜”；若确定语音数据含有关键词，则判断为语音数据的内容与提示语音数据的内容匹配，若确定语音数据不含有关键词，则再次通过扬声单元发出提示语音数据：请口齿清醒地缓慢读出诗句“床前明月光，疑是地上霜”。

本申请一些实施例提供的技术方案带来的有益效果至少包括：通过扬声单元播放提示语音数据，避免通过显示屏显示提示文字数据时，暗光环境下用户看不清提示文字数据的内容的情况，以及不需要增设其他设备，成本较低，适用于不方便安装显示屏的环境。

如图3A所示，在一个实施例中，声音采集单元采集来自用户的语音数据，包括以下步骤：

301、通过显示单元随机显示提示文字数据。

显示单元，可以理解为一种能基于电信号控制若干个灯管基于特定频率闪烁，从而显示文字或图像的设备，例如：液晶显示屏，工作原理是利用两片极化材料中的液体水晶溶液，使电流通过该溶液时会使水晶重新排列达到成像。

提示文字数据，可以理解为具有提示效果的提示内容，并且提示形式是文字的文字数据，用来提示用户根据提示内容作出相应的动作。在本申请实施例中，提示文字数据由显示单元进行播放。

举例来说，显示单元为一个液晶显示屏，主要元器件为垂直方向和水平方向的偏光板、具有细纹沟槽的配向膜、液晶材料以及导电的玻璃基板；显示单元接收来自处理器的电流信号，在两片导电玻璃之间形成电场，该电场会改变贴附在导电玻璃之间的液晶材料的液晶分子的排列，使其分子棒进行扭转，光线从偏光板射入，但经过扭转了的液晶分子折射后无法射出，从而在显示屏幕上出现光暗对比；通过形成固定的亮区和暗区，从而形成文字。

302、通过声音采集单元采集用户根据提示文字数据的引导发出的语音数据。

在本申请实施例中，显示单元随机显示提示文字数据，然后声音采集单元采集用户根据提示文字数据的引导发出的语音数据。

举例来说，如图3B所示，本申请实施例提供的一种显示单元随机显示提示文字数据的示意图，显示单元接收来自处理器的电流信号，将电流信号转变为提示文字数据在显示屏幕上展示，该提示文字数据内容为：请口齿清醒地缓慢读出诗句“床前明月光，疑是地上霜”；用户听到该提示文字数据，用户听到该提示文字数据，基于该提示文字数据开始说话；声音采集单元的膜片接收到用户的声音信号，开始振动，并改变收声电路的电流值，该电流被转换为电压后再经过A/D转换被声音采集单元的声音采集芯片接收，以声波图的形式进行展示。

303、确定语音数据的内容与提示文字数据的内容匹配。

在本申请实施例中，显示单元随机显示提示文字数据，然后声音采集单元采集用户根据提示文字数据的引导发出的语音数据，确定语音数据的内容与提示文字数据的内容匹配，若匹配，则执行步骤S103，若不匹配，再次通过显示单元随机显示提示文字数据。

本申请一些实施例提供的技术方案带来的有益效果至少包括：通过显示单元显示提示文字数据，有效避免了使用扬声单元播放提示语音数据时，用户没有听清提示语音数据的情况，提高了验证通过率。

在一个实施例中，可以通过扬声单元播放提示语音数据和显示单元随机显示提示文字数据，同时进行，以提高采集用户发出的语音数据与提示内容匹配的成功率。

S103、基于语音数据提取声纹特征信息。

声纹特征信息，可以理解为包括声音的音高、音强、音长、音色为主要特征的四要素，以及将这四要素划分为的多种特征信息，这些特征信息表现了不同声音的不同波长、频率、强度和节奏。在本申请实施例中，处理器主要提取语音数据中的MFCC特征(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)类型声纹特征。

经过步骤S102基于环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据，处理器获取语音数据，基于该语音数据提取声纹特征。

如图4所示，为本申请实施例提供的一种提取声纹特征信息的流程示意图。

S401、将语音数据进行滤波降噪处理，得到处理后的语音数据。

在本申请实施例中，需要先对语音数据进行滤波降噪处理。举例来说，将语音数据输入到VAD模型中，VAD模型又称为语音端点检测器，用于在噪声环境中检测是否存在人声的语音数据；VAD模型通过对输入的每一帧语音信号进行打分，即该帧语音信号是语音帧或噪音帧的概率，当语音帧的概率值大于预先设定的判决门限，则判定为语音帧，否则为噪音帧。VAD模型根据上述判决结果对语音帧和噪音帧进行区分，以便去除语音信号中的噪音帧。

S402、基于处理后的语音数据获取至少一个语音帧。

举例来说，该语音数据由1000个语音帧组成，每个语音帧的长度为25毫秒，每两帧之间有15毫秒的交叠；本实施例根据步骤S402的区分结果，将标记为噪音帧的数据剪切掉，将剩余的各语音帧按照原排布时间顺序依次连续排布，形成各所述语音帧组成的处理后的语音数据。

在一个实施例中，处理器也可通过上述区分结果，筛选标记为语音帧的数据进行提取保存，将提取保存的各所述语音帧按照原排布时间顺序依次连续排布，形成各所述语音帧组成的处理后的语音数据。

S403、在语音帧中提取声纹特征片段，将至少一个声纹特征片段组成声纹特征信息。

本实施例提取MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)类型声纹特征的过程如下：先采样和量化，将处理后的语音数据的连续模拟语音信号以一定的采样周期采样，转化为离散信号，并根据一定的编码规则将离散信号量化为数字信号；然后预加重，由于人体的生理特性，语音信号的高频成分往往被压抑，预加重的作用是补偿高频成分；接着分帧处理，由于语音信号的“瞬时平稳性”，在进行频谱分析时对一段话音信号进行分帧处理(一般为10至30毫秒一帧)，然后以帧为单位进行特征提取；接着加窗处理，作用是减少帧起始和帧结束对应信号的不连续性问题，采用汉明窗进行加窗处理；接着对帧信号进行DFT，将信号从时域转换到频域，然后再利用公式将信号从线性频谱域映射到梅尔频谱域；将转化后的帧信号输入到一组梅尔三角滤波器组，计算每个频段的滤波器输出的信号对数能量，得到一个对数能量序列；对上一步得到的对数能量序列做离散余弦变换(DCTDiscrete Cosine Transform)即可得到该语音帧的MFCC类型声纹特征；将每一帧的MFCC类型声纹特征基于一定规则组合，最后得到该语音数据的声纹特征信息。

本申请一些实施例提供的技术方案带来的有益效果至少包括：本申请通过识别语音信号中的噪音数据，并去除噪音数据得到处理后的语音数据，然后依据处理后的语音数据进行声纹识别，提高声纹验证的准确性。

步骤104、基于声纹特征信息对用户进行身份验证。

在本申请实施例中，基于声纹特征信息对用户进行身份验证的步骤包括：将声纹特征信息与注册声纹特征信息进行声纹相似度对比；当声纹相似度大于相似阈值时，确定用户通过身份验证。本实施例的声纹相似度的获取方法包括通过比较注册声纹特征与声纹特征信息之间的特征距离值得到，该特征距离值包括余弦距离值、欧式距离值等。

注册声纹特征信息，可以理解为用户预先录入在处理器的存储单元中的声纹特征信息，例如，用户在智能门锁里录入一段自己朗读唐诗的语音数据，智能门锁的处理器将该语音数据中的声纹特征信息提取后存储，作为身份验证的匹配对象。

如图5所示，为本申请实施例提供的另一种身份验证方法的流程示意图，包括：

S501、对用户进行活体检测。

随着生物识别技术的发展，人脸识别技术已经趋于成熟，目前，在良好的光照条件和姿态下，人脸识别系统己经可以进行较为准确的人脸检测与识别，但是，对于一些诸如门禁、登录等系统的人脸识别系统而言，用户可以凭借照片等非法手段欺骗系统，冒充合法用户，在进行身份认证时，可能会将某合法用户的照片、录制视频或是蜡像，置于认证服务器采集人脸图像的摄像头前，在这种情况下，认证服务器采集到的人脸图像可能会与该合法用户注册的人脸图像匹配成功，从而，认证服务器确定该攻击者即是该合法用户，显然，该身份认证结果与事实相悖，是不可靠的。因此，实现活体检测成为这类系统安全性的保障手段，在本申请实施例中，需要在进行身份验证之前，首先进行活体检测。

如图6所示，为本申请实施例提供一种活体验证的流程示意图。

S601、通过图像采集单元采集用户的彩色人脸图像。

图像采集单元，可以理解为通过摄像头实现对图像的告诉采集与存储，以及传输给处理器进行处理的装置。图像采集指图像经过采样、量化以后转换为数字图像并输入、存储到帧存储器中，最后发送到处理器进行存储的过程。例如，图像采集单元可以是摄像头。

彩色人脸图像可以理解为具有RGB值的人脸图像，非灰度图或红外图。

举例来说，图像采集单元采集用户的彩色人脸图像的过程为：采用图像采集卡或视霸卡将CCD(Charge Coupled Device，电荷耦合器件)摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理。

S602、通过红外图像采集单元采集用户的红外人脸图像。

红外图像采集单元，又被称为红外热像仪，可以理解为一个光电转换系统，可用于接收波长在0.75～100μm之间的电磁辐射，以及将接收到的红外辐射转换为电信号，再将电信号的大小用灰度等级的形式表示，最后发送给处理器进行处理。例如，SC3000型红外热像仪。

在本申请实施例中，红外图像采集单元的扫描器以电视光栅形式扫过景物时，扫描器逐点接受景物的辐射并转化成相应的电信号，经过处理单元进行处理，在同步扫描的显示器上显示出人脸的红外人脸图像。

S603、提取彩色人脸图像的色彩分布信息和红外人脸图像的红外分布信息。

在本申请实施例中，提取彩色人脸图像的色彩分布信息的过程可以是：处理器对彩色人脸图像和红外人脸画面进行校准对齐，使得彩色人脸图像和红外人脸画面所显示的内容为同一个画面；在校准对其之后，通过RGB图像检测识别目标画面中人脸部分，提取出人脸关键点位置，根据人脸关键点位置计算得到人脸部分的范围；基于该人脸部分的范围，将彩色人脸图像的RGB三色分量基于特定的协方差矩阵计算式联合成一个分量，消除三个分量之间的相关性和冗余信息。

提取红外人脸图像的红外分布信息的过程参考上述提取彩色人脸图像的色彩分布信息的过程。

S604、基于色彩分布信息和红外分布信息对用户进行活体检测。

在本申请实施例中，基于色彩分布信息对用户进行活体检测的过程可以是：将色彩分布信息输入到预设的色彩活体判断模型中；其中，色彩活体判断模型为已训练至收敛的，用于判断输入的色彩分布信息是否属于色彩活体图像的卷积神经网络模型，获取色彩活体判断模型输出的置信值，判断色彩图像置信值是否大于预设的第一阈值；当色彩图像置信值大于预设的第一阈值时，确定色彩分布信息的色彩人脸图像符合识别图像的标准，即该色彩人脸图像属于色彩活体图像，确定彩色人脸图像中存在活体，符合活体检测的判断条件。第一阈值的设定可以根据实际的应用场景进行调整，例如图像判断需要更加准确时，可以提高阈值的取值。例如，色彩活体判断模型判断色彩图像置信度为0.95，则表示色彩活体判断模型判断彩色人脸图像中存在活体的概率为95％。

在确定了通过色彩活体检测后，根据红外分布信息对用户进行活体检测，将获取到红外分布信息输入到预设的红外活体判断模型中，其中，红外活体判断模型为已训练至收敛的，用于判断输入的红外分布信息是否属于红外活体图像的卷积神经网络模型，获取红外活体判断模型输出的置信值，判断红外图像置信值是否大于预设的第二阈值，当红外图像置信值大于预设的第二阈值时，确定红外分布信息对应的红外人脸图像符合识别图像的标准，即红外图像属于红外活体图像，红外活体验证通过。第二阈值的设定可以根据实际的应用场景进行调整，例如图像判断需要更加准确时，可以提高阈值的取值。

S502、确定用户通过活体检测。

由上述步骤S502可知，当通过色彩活体验证和红外活体验证之后，确定用户通过活体检测。

本申请一些实施例提供的技术方案带来的有益效果至少包括：通过色彩人脸图像和红外人脸图像两个方面对用户进行活体判断，有效提高活体判断的准确性，验证时不需要用户配合动作，减少验证的操作难度，提高验证效率。

在另一个实施例中，通过图像采集单元采集用户的彩色人脸图像包括步骤：输出动作引导提示；其中，第一动作引导提示用于指示所述用户作出相应动作；通过图像采集单元采集用户的视频图像；基于视频图像提取至少一个视频帧，检测视频帧中包括的关键动作和动作引导提示是否匹配；若为是，基于至少一个视频帧提取至少一个待处理彩色人脸图像；将至少一个待处理彩色人脸图像合并处理成彩色人脸立体图像；其中，彩色人脸图像包括彩色人脸立体图像。

上述步骤中，通过视频处理软件(例如OpenCV，但不限于此)对视频画面进行处理，将视频画面拆分为若干张帧画面，以及通过定时抽取的方式(例如每0.5s抽取一张图片的方式)，在若干张帧画面中依次抽取多张帧画面，然后将帧画面输入到预设的动作识别模型中，判断帧画面中关键动作和动作引导提示是否匹配。例如，动作引导提示内容为引导用户向左偏头；处理器通过标定帧视频中的左耳关键点，基于一定的运算规则检测左耳关键点的运动轨迹和运动速度，来判断用户是否遵循动作引导提示内容。

本申请一些实施例提供的技术方案带来的有益效果至少包括：通过采集用户的视频图像进行提取彩色人体立体图像，利用彩色人体立体图像提供更多而色彩信息，提高了活体检测的精准度和正确率，避免因为表情、光照、姿态等的不同造成的对活体检测的干扰。

S503、基于环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据。

在通过了活体检测后，处理器通过光线感应器可以接收设备当前所处环境的环境光后，基于环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据。具体内容参见步骤S102。

S504、基于语音数据提取声纹特征信息。

通过声音采集单元采集用户的语音数据，处理器获取声音采集单元发送的语音数据，基于该语音数据提取声纹特征。具体内容参见步骤S103。

S505、基于声纹特征信息对用户进行身份验证。

在本申请实施例中，基于声纹特征信息对用户进行身份验证的步骤包括：将声纹特征信息与注册声纹特征信息进行声纹相似度对比；当声纹相似度大于相似阈值时，确定用户通过身份验证。本实施例的声纹相似度的获取方法包括通过比较注册声纹特征与声纹特征信息之间的特征距离值得到，该特征距离值包括余弦距离值、欧式距离值等。具体内容参见步骤S104。

S506、基于环境光强度值确定当前处于亮光环境时，通过图像采集单元采集用户的人脸图像。

在通过了活体检测后，处理器通过光线感应器可以接收设备当前所处环境的环境光后，基于环境光强度值确定当前处于亮光环境时，通过图像采集单元采集用户的人脸图像。例如，该预设的亮光环境条件为环境光强度值为大于1.99(lx)，基于该预设的亮光环境条件判断此时环境为亮光环境。

亮光环境，可以理解为环境光强度值高于光线阈值的环境，也可以理解为人眼觉得光线充足导致明亮的环境，在本申请实施例中，主要指由于光线充足可以采集人脸图像的环境。

S507、基于人脸图像提取人脸特征信息。

人脸特征信息，可以理解为通过一些数字信息来表征人脸信息，一般分为两类人脸特征信息：几何特征和表征特征。几个特征指眼睛、鼻子和嘴等面部特征之类的几何关系，如距离、面积和角度等。表征特征利用人脸图像的灰度信息，通过一些算法提取全局或局部特征，其中比较常用的特征提取算法是LBP算法。

在本申请实施例中，基于人脸图像提取人脸特征信息的过程可以是：将所述人脸图像进行预处理，得到预处理后的人脸图像；基于预处理后的人脸图像提取至少一个关键点信息；基于至少一个关键点信息生成至少一个人脸特征模型；其中，人脸特征信息包括至少一个人脸特征模型。

举例来说，处理器对采集的人脸图像进行预处理，预处理包括：主要包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等，目的是减少采集的人脸图像中的随机干扰；提取眼睛、鼻子、下巴、嘴巴等至少一个关键点，分析该关键点的形状，以及对至少一个关键点进行排列组合，根据它们之间的距离特征生成至少一个人脸特征模型，该距离特性包括关键点之间的欧式距离、曲率和角度等；将多个人脸特征模型组合成人脸特征信息。

S508、基于人脸特征信息对用户进行身份验证。

基于从人脸图像提取的人脸特征信息对用户进行身份验证，在本申请实施例中，在预设的信息数据库中进行检索，该预设的信息数据库中存储有用户的身份信息，该身份信息包括了声纹特征信息和人脸特征信息，在录入用户的身份信息时需要对用户身份信息做索引标签，以便于对用户身份信息进行快速检索，其中一个索引标签为：用户的人脸图像的特征向量；以人脸特征信息中包括的特征向量作为检索条件，搜索引擎在信息数据库中计算不同索引标签与人脸特征信息的特征向量之间的汉明距离，将汉明距离小于第三阈值的身份信息进行召回，例如，第三阈值为20，则获取与人脸特征信息的特征向量之间的汉明距离小于20的身份信息；最后，对获取的身份信息中包括的人脸特征信息与人脸特征信息进行对比，相似度值大于人脸相似度阈值就确定用户通过身份验证。

本申请一些实施例提供的技术方案带来的有益效果至少包括：在当前环境为亮光环境时，利用人脸识别对用户进行身份验证，由于人脸识别的成熟性提高了用户身份验证的准确性；基于多个人脸特征模型组成人脸特征信息，避免了仅仅利用单一特征的验证，对验证结果造成较大的不稳定性。

在一个申请实施例中，处理器将人脸特征信息与危险目标数据库中至少一个危险特征信息进行搜索匹配；当人脸特征信息与危险特征信息匹配成功时，确定用户为危险目标；通过扬声单元播放报警语音信息，以及将人脸图像发送给预先绑定的移动终端。危险目标数据库来自安全服务器，例如服务器定期收集网上公布的危险份子的照片，发送给处理器。

在一个申请实施例中，危险目标数据库中还将危险目标进行分级，如此，在使用危险目标数据库对用户的人脸图像进行人脸识别而得到的识别结果时，识别结果可能会识别出用户属于不同级别的危险目标。例如，若识别结果表征用户为第一级别的危险目标，则生成第一报警信息作为所述报警信息；若识别表征用户为第二级别的危险目标，则生成第二报警信息作为报警信息。其中，第一报警信息和第二报警信息不同。具体地，第一报警信息可以在生成第一音量的报警声音时还需向安全部门进行报警，即可以电话和文字向公安进行报警；以及第二报警信息可以生成第二音量的报警声音，其中，所述第一音量大于所述第二音量的报警，第一报警信息和第二报警信息均还可以向预设用户的终端设备推送报警信息。

本申请一些实施例提供的技术方案带来的有益效果至少包括：在识别出所述来访者为不同级别的危险目标时，发送不同的报警信息，以使得用户能够根据不同的报警信息采取不同的措施进行防卫，进一步提高室内人员的安全。

在一个申请实施例中，处理器在预设时间内验证所述用户身份失败的次数超过预设次数时，将用户的人脸图像发送给预先绑定的移动终端；接收来自移动终端的针对用户的身份验证结果；通过显示单元显示身份验证结果。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图7，其示出了本申请一个示例性实施例提供的身份验证装置的结构示意图。该身份验证装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括传感模块701、采集模块702、提取模块703、验证模块704。

传感模块701，用于通过光线感应器测量环境光强度值；

采集模块702，用于基于所述环境光强度值确定当前处于暗光环境时，通过声音采集单元采集用户的语音数据；

提取模块703，用于基于所述语音数据提取声纹特征信息；

验证模块704，用于基于所述声纹特征信息对所述用户进行身份验证。

所述控制装置可以为实现相关功能的现场可编程门阵列(field-programmablegate array，FPGA)，专用集成芯片，系统芯片(system on chip，SoC)，中央处理器(centralprocessor unit，CPU)，网络处理器(network processor，NP)，数字信号处理电路，微控制器(micro controller unit，MCU)，还可以采用可编程控制器(programmable logicdevice，PLD)或其他集成芯片。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例利用光线感应器检测到当前处于暗光环境时，通过声音采集单元采集用户的语音数据，利用声纹特征进行身份验证，避免暗光环境下通过采集用户的人脸图像不清晰甚至失败从而导致身份验证不成功的问题，提高身份验证方式的多样性，以及提高应对复杂的身份验证环境的适应性和准确性。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图6所示实施例的所述图像来源追踪方法，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1-图6所示实施例的所述图像来源追踪方法，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。

请参见图8，为本申请实施例提供了一种电子设备的结构示意图。如图8所示，所述电子设备800可以包括：至少一个处理器801，至少一个网络接口804，用户接口803，存储器805，至少一个通信总线802。

其中，通信总线802用于实现这些组件之间的连接通信。

其中，用户接口803可以包括显示屏(Display)、摄像头(Camera)，可选用户接口803还可以包括标准的有线接口、无线接口。

其中，网络接口804可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器801可以包括一个或者多个处理核心。处理器801利用各种借口和线路连接整个服务器800内的各个部分，通过运行或执行存储在存储器805内的指令、程序、代码集或指令集，以及调用存储在存储器805内的数据，执行服务器800的各种功能和处理数据。可选的，处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器801可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器801中，单独通过一块芯片进行实现。

其中，存储器805可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器805包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器805可用于存储指令、程序、代码、代码集或指令集。存储器805可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。如图8所示，作为一种计算机存储介质的存储器805中可以包括操作系统、网络通信模块、用户接口模块以及图像来源追踪应用程序。

在图8所示的电子设备800中，用户接口803主要用于为用户提供输入的接口，获取用户输入的数据；而处理器801可以用于调用存储器805中存储的图像来源追踪应用程序，并具体执行以下操作：

通过光线感应器测量环境光强度值；

基于所述语音数据提取声纹特征信息；

基于所述声纹特征信息对所述用户进行身份验证。

在一个实施例中，处理器801执行通过光线感应器测量环境光强度值之前，还包括：

对所述用户进行活体检测；

确定所述用户通过所述活体检测。

在一个实施例中，处理器801执行对所述用户进行活体检测，包括：

通过图像采集单元采集所述用户的彩色人脸图像；

通过红外图像采集单元采集所述用户的红外人脸图像；

在一个实施例中，处理器801执行通过图像采集单元采集所述用户的彩色人脸图像，包括：

通过所述图像采集单元采集所述用户的视频图像；

在一个实施例中，处理器801执行通过声音采集单元采集来自用户的语音数据，包括：

通过扬声单元播放提示语音数据；

确定所述语音数据的内容与所述提示语音数据的内容匹配。

在一个实施例中，处理器801执行过声音采集单元采集来自用户的语音数据，包括：

通过显示单元随机显示提示文字数据；

确定所述语音数据的内容与所述提示文字数据的内容匹配。

在一个实施例中，处理器801执行基于所述语音数据提取声纹特征信息，包括：

基于所述处理后的语音数据获取至少一个语音帧；

在所述语音帧中提取声纹特征片段，将至少一个所述声纹特征片段组成所述声纹特征信息。

在一个实施例中，处理器801执行基于所述声纹特征信息对所述用户进行身份验证，包括：

在一个实施例中，处理器801还执行：

基于所述环境光强度值确定当前处于亮光环境时，通过图像采集单元采集用户的人脸图像；

基于所述人脸图像提取人脸特征信息；

基于所述人脸特征信息对所述用户进行身份验证。

在一个实施例中，处理器801执行基于所述人脸图像提取人脸特征信息，包括：

将所述人脸图像进行预处理，得到预处理后的人脸图像；

基于所述预处理后的人脸图像提取至少一个关键点信息；

在一个实施例中，处理器801还执行：

接收来自所述移动终端的针对所述用户的身份验证结果；

通过显示单元显示所述身份验证结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种身份验证的方法，其特征在于，所述方法包括：

通过光线感应器测量环境光强度值；

基于所述语音数据提取声纹特征信息；

基于所述声纹特征信息对所述用户进行身份验证。

2.根据权利要求1所述的方法，其特征在于，所述通过光线感应器测量环境光强度值之前，还包括：

对所述用户进行活体检测；

确定所述用户通过所述活体检测。

3.根据权利要求2所述的方法，其特征在于，所述对所述用户进行活体检测，包括：

通过图像采集单元采集所述用户的彩色人脸图像；

通过红外图像采集单元采集所述用户的红外人脸图像；

4.根据权利要求3所述的方法，其特征在于,所述通过图像采集单元采集所述用户的彩色人脸图像，包括：

通过所述图像采集单元采集所述用户的视频图像；

5.根据权利要求1所述的方法，其特征在于，所述通过声音采集单元采集来自用户的语音数据，包括：

通过扬声单元播放提示语音数据；

确定所述语音数据的内容与所述提示语音数据的内容匹配。

6.根据权利要1所述的方法，其特征在于，所述通过声音采集单元采集来自用户的语音数据，包括：

通过显示单元随机显示提示文字数据；

确定所述语音数据的内容与所述提示文字数据的内容匹配。

7.根据权利要求1所述方法，其特征在于，所述基于所述语音数据提取声纹特征信息，包括：

基于所述处理后的语音数据获取至少一个语音帧；

8.根据权利要求1所述方法，其特征在于，所述基于所述声纹特征信息对所述用户进行身份验证，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

基于所述人脸图像提取人脸特征信息；

基于所述人脸特征信息对所述用户进行身份验证。

10.根据权利要求9所述的方法，其特征在于，所述基于所述人脸图像提取人脸特征信息，包括：

将所述人脸图像进行预处理，得到预处理后的人脸图像；

基于所述预处理后的人脸图像提取至少一个关键点信息；