CN113032758A

CN113032758A - 视讯问答流程的身份识别方法、装置、设备及存储介质

Info

Publication number: CN113032758A
Application number: CN202110322918.8A
Authority: CN
Inventors: 王小红; 罗蓉; 周军; 郑松辉; 施国灏
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25
Anticipated expiration: 2041-03-26
Also published as: CN113032758B

Abstract

本发明涉及人工智能领域，公开了视讯问答流程的身份识别方法、装置、设备及存储介质，用于避免误判，提高识别结果的准确性。本发明方法包括：在开始视讯问答流程前，得到初始人脸特征和初始声纹特征；当目标用户通过人脸识别验证时，根据初始人脸特征进行静默人脸比对，得到静默人脸识别结果，并通过初始声纹特征进行静默声纹比对，得到静默声纹识别结果；根据静默人脸识别结果和静默声纹识别结果判断在视讯问答流程中是否有换人；若没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。此外，本发明还涉及区块链技术，初始人脸特征和初始声纹特征可存储于区块链中。

Description

视讯问答流程的身份识别方法、装置、设备及存储介质

技术领域

本发明涉及人脸比对领域，尤其涉及一种视讯问答流程的身份识别方法、装置、设备及存储介质。

背景技术

银行的业务很多需要客户进行远程音视频，这个过程也称为视讯。视讯过程通常需要对用户是否换人进行操作合规性进行检测。以前的音视频都是客户与坐席人员进行人工视讯，人工视讯的时候就可以通过坐席人员来根据音视频的画面和声音来对用户是否换人进行操作合规性检查。

现在随着技术的发展，目前银行的视讯大部分都是使用智能视讯替代了传统的人工视讯。按照银行业监管的要求，客户在办理许多银行业务的时候需要客户本人在手机银行APP进行远程视讯，回答一些机器人播报的问题，并且对这个全过程进行录音录像保存。

现有方案采用抽取视频帧的方式进行人脸识别，只能对单帧视频进行人脸比对，是以相似度的大小作为判断的，如果抽取的这一帧刚好用户不再视频内就会导致误判。

发明内容

本发明提供了一种视讯问答流程的身份识别方法、装置、设备及存储介质，用于将人脸识别结果与声纹识别结果结合作为身份判断依据，避免对答题人身份的误判，提高识别结果的准确性。

本发明实施例的第一方面提供一种视讯问答流程的身份识别方法，包括：在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集所述目标用户朗读预置文本的语音信息并从所述语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人；若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

可选的，在本发明实施例第一方面的第一种实现方式中，所述当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果，包括：当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像；录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音。

可选的，在本发明实施例第一方面的第二种实现方式中，所述当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像，包括：当目标用户通过人脸识别验证时，录制视讯问答流程产生的视频，得到录制的视频，所述录制的视频包括答题人的人脸图像；按照预设间距从所述录制的视频中抽取视频帧，得到多个候选视频帧；过滤掉所述多个候选视频帧中不含人脸的视频帧，得到多个过滤后的视频帧；调用预置的静默人脸比对模型将所述多个过滤后的视频帧分别与所述初始人脸特征进行比对，得到静默人脸识别结果，所述静默人脸识别结果包括多次人脸比对结果。

可选的，在本发明实施例第一方面的第三种实现方式中，所述录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音，包括：录制视讯问答流程产生的音频，得到录制的音频，所述录制的音频包括答题人的回答语音；按照预设间距从所述录制的音频中抽取音频帧，得到多个音频帧；调用预置的静默声纹比对模型将所述多个音频帧分别与所述初始声纹特征进行比对，得到静默声纹识别结果，所述静默声纹识别结果包括多次声纹比对结果。

可选的，在本发明实施例第一方面的第四种实现方式中，所述根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人，包括：根据所述静默人脸识别结果确定人脸比对不通过次数；根据所述静默声纹识别结果确定声纹比对不通过次数；判断所述人脸比对不通过次数与所述声纹比对不通过次数之和是否小于第一阈值；若所述人脸比对不通过次数与所述声纹比对不通过次数之和小于第一阈值，则确定所述在问答流程中没有换人；若所述人脸比对不通过次数与所述声纹比对不通过次数之和大于或等于第一阈值，则确定所述在问答流程中有换人。

可选的，在本发明实施例第一方面的第五种实现方式中，所述若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人，包括：若在问答流程中没有换人，则根据静默人脸比对结果确定人脸相似度数组，并根据所述人脸相似度数组确定人脸相似度方差，所述人脸相似度数组包括多个人脸相似度，每个人脸相似度用于指示一次人脸比对过程中视频帧与初始人脸特征的相似度；根据静默声纹比对结果确定声纹相似度数组，并根据所述声纹相似度数组确定声纹相似度方差，所述声纹相似度数组包括多个声纹相似度，每个声纹相似度用于指示一次声纹比对过程中音频帧与初始声纹特征的相似度；根据所述人脸相似度方差和所述声纹相似度方差是否满足预置条件，所述预置条件为所述人脸相似度方差小于第二阈值且所述声纹相似度方差小于第三阈值；若所述人脸相似度方差和所述声纹相似度方差满足所述预置条件，则确定视讯问答流程中没有换人；若所述人脸相似度方差和所述声纹相似度方差是否不满足预置条件，则确定视讯问答流程中有换人。

可选的，在本发明实施例第一方面的第六种实现方式中，在所述在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证之前，所述视讯问答流程的身份识别方法还包括：获取预置的Densenet169模型，并将所述预置的Densenet169模型的全连接层删除，得到初始网络，所述初始网络包括依次连接的第一稠密块、第二稠密块、第三稠密块和第四稠密块；在所述第四稠密块所在层增加挤压激励SE模块，得到主干网络；在所述主干网络的末端增加一个全局最大池化层，并将softmax替换为sigmoid，得到预置的静默人脸比对模型。

本发明实施例的第二方面提供了一种视讯问答流程的身份识别装置，包括：验证采集模块，用于在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集所述目标用户朗读预置文本的语音信息并从所述语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；比对模块，用于当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；第一判断模块，用于根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人；第二判断模块，用于若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

可选的，在本发明实施例第二方面的第一种实现方式中，比对模块包括：人脸比对单元，用于当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像；声纹比对单元，用于录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音。

可选的，在本发明实施例第二方面的第二种实现方式中，人脸比对单元具体用于：当目标用户通过人脸识别验证时，录制视讯问答流程产生的视频，得到录制的视频，所述录制的视频包括答题人的人脸图像；按照预设间距从所述录制的视频中抽取视频帧，得到多个候选视频帧；过滤掉所述多个候选视频帧中不含人脸的视频帧，得到多个过滤后的视频帧；调用预置的静默人脸比对模型将所述多个过滤后的视频帧分别与所述初始人脸特征进行比对，得到静默人脸识别结果，所述静默人脸识别结果包括多次人脸比对结果。

可选的，在本发明实施例第二方面的第三种实现方式中，声纹比对单元具体用于：录制视讯问答流程产生的音频，得到录制的音频，所述录制的音频包括答题人的回答语音；按照预设间距从所述录制的音频中抽取音频帧，得到多个音频帧；调用预置的静默声纹比对模型将所述多个音频帧分别与所述初始声纹特征进行比对，得到静默声纹识别结果，所述静默声纹识别结果包括多次声纹比对结果。

可选的，在本发明实施例第二方面的第四种实现方式中，第一判断模块具体用于：根据所述静默人脸识别结果确定人脸比对不通过次数；根据所述静默声纹识别结果确定声纹比对不通过次数；判断所述人脸比对不通过次数与所述声纹比对不通过次数之和是否小于第一阈值；若所述人脸比对不通过次数与所述声纹比对不通过次数之和小于第一阈值，则确定所述在问答流程中没有换人；若所述人脸比对不通过次数与所述声纹比对不通过次数之和大于或等于第一阈值，则确定所述在问答流程中有换人。

可选的，在本发明实施例第二方面的第五种实现方式中，第二判断模块具体用于：若在问答流程中没有换人，则根据静默人脸比对结果确定人脸相似度数组，并根据所述人脸相似度数组确定人脸相似度方差，所述人脸相似度数组包括多个人脸相似度，每个人脸相似度用于指示一次人脸比对过程中视频帧与初始人脸特征的相似度；根据静默声纹比对结果确定声纹相似度数组，并根据所述声纹相似度数组确定声纹相似度方差，所述声纹相似度数组包括多个声纹相似度，每个声纹相似度用于指示一次声纹比对过程中音频帧与初始声纹特征的相似度；根据所述人脸相似度方差和所述声纹相似度方差是否满足预置条件，所述预置条件为所述人脸相似度方差小于第二阈值且所述声纹相似度方差小于第三阈值；若所述人脸相似度方差和所述声纹相似度方差满足所述预置条件，则确定视讯问答流程中没有换人；若所述人脸相似度方差和所述声纹相似度方差是否不满足预置条件，则确定视讯问答流程中有换人。

可选的，在本发明实施例第二方面的第六种实现方式中，视讯问答流程的身份识别装置还包括：删除模块，用于获取预置的Densenet169模型，并将所述预置的Densenet169模型的全连接层删除，得到初始网络，所述初始网络包括依次连接的第一稠密块、第二稠密块、第三稠密块和第四稠密块；增加模块，用于在所述第四稠密块所在层增加挤压激励SE模块，得到主干网络；替换模块，用于在所述主干网络的末端增加一个全局最大池化层，并将softmax替换为sigmoid，得到预置的静默人脸比对模型。

本发明实施例的第三方面提供了一种视讯问答流程的身份识别设备，存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视讯问答流程的身份识别设备执行上述的视讯问答流程的身份识别方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有指令，当所述指令被处理器执行时实现上述任一实施方式所述的视讯问答流程的身份识别方法的步骤。

本发明实施例提供的技术方案中，在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集目标用户朗读预置文本的语音信息并从语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；当目标用户通过人脸识别验证时，开始视讯问答流程，根据初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；根据静默人脸识别结果和静默声纹识别结果判断在视讯问答流程中是否有换人；若在视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。本发明实施例，将人脸识别和声纹识别两个维度的识别结果作为判断依据,并计算多帧视频画面的人脸比对相似度方差和声纹比对相似度方差，依据方差结果判断答题人是否更换，避免了对答题人身份的误判，提高了视讯问答流程中身份识别结果的准确性。

附图说明

图1为本发明实施例中视讯问答流程的身份识别方法的一个实施例示意图；

图2为本发明实施例中视讯问答流程的身份识别方法的另一个实施例示意图；

图3为本发明实施例中视讯问答流程的身份识别装置的一个实施例示意图；

图4为本发明实施例中视讯问答流程的身份识别装置的另一个实施例示意图；

图5为本发明实施例中视讯问答流程的身份识别设备的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的视讯问答流程的身份识别方法的流程图，具体包括：

101、在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集目标用户朗读预置文本的语音信息并从语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征。

具体的，在开始视讯问答流程前，终端采用炫光活体人脸检测模型对目标用户进行人脸识别验证，终端通过屏幕把编码好的特定序列光线打在被检测的目标用户脸上，产生变换的反射光，对变换的反射光图像进行局部帧间处理，得到含有一定时序信息的特征，经过这种的特征提取改进，增加了提取到的特征数量，得到初始人脸特征。同时，终端在显示屏山显示预设字段，并提示目标用户按照要求大声朗读预设字段，以便于终端采集目标用户的语音信息并得到初始声纹特征，将该初始声纹特征作为判断视讯问答流程中回答问题的用户是否为目标用户的依据。

可以理解的是，本发明的执行主体可以为视讯问答流程的身份识别装置，还可以是终端，具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。

102、当目标用户通过人脸识别验证时，开始视讯问答流程，根据初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果。

具体的，终端当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据录制的视频调用预置的静默人脸比对模型对初始人脸特征进行静默人脸比对，得到静默人脸识别结果，录制的视频包括答题人的人脸图像；终端录制视讯问答流程的音频，得到录制的音频，根据录制的音频调用预置的静默声纹比对模型对初始声纹特征进行静默声纹比对，得到静默声纹识别结果，录制的音频包括答题人的回答语音。

103、根据静默人脸识别结果和静默声纹识别结果判断在视讯问答流程中是否有换人。

具体的，终端根据静默人脸识别结果确定人脸比对不通过次数；终端根据静默声纹识别结果确定声纹比对不通过次数；终端判断人脸比对不通过次数与声纹比对不通过次数之和是否小于第一阈值；若人脸比对不通过次数与声纹比对不通过次数之和小于第一阈值，则终端确定在问答流程中没有换人；若人脸比对不通过次数与声纹比对不通过次数之和大于或等于第一阈值，则终端确定在问答流程中有换人。

例如，通过表达式

进行判断，其中，y为判断是否是同一个人的结果，1表示换人，0表示没有换人，a为人脸比对不通过的次数，b为声纹比对不通过的次数。

104、若在视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

具体的，若在问答流程中没有换人，则终端根据静默人脸比对结果确定人脸相似度数组，并根据人脸相似度数组确定人脸相似度方差，人脸相似度数组包括多个人脸相似度，每个人脸相似度用于指示一次人脸比对过程中视频帧与初始人脸特征的相似度；终端根据静默声纹比对结果确定声纹相似度数组，并根据声纹相似度数组确定声纹相似度方差，声纹相似度数组包括多个声纹相似度，每个声纹相似度用于指示一次声纹比对过程中音频帧与初始声纹特征的相似度；终端根据人脸相似度方差和声纹相似度方差是否满足预置条件，预置条件为人脸相似度方差小于第二阈值且声纹相似度方差小于第三阈值；若人脸相似度方差和声纹相似度方差满足预置条件，则终端确定视讯问答流程中没有换人；若人脸相似度方差和声纹相似度方差是否不满足预置条件，则终端确定视讯问答流程中有换人。

本发明实施例，将人脸识别和声纹识别两个维度的识别结果作为判断依据,并计算多帧视频画面的人脸比对相似度方差和声纹比对相似度方差，依据方差结果判断答题人是否更换，避免了对答题人身份的误判，提高了视讯问答流程中身份识别结果的准确性。

请参阅图2，本发明实施例提供的视讯问答流程的身份识别方法的另一个流程图，具体包括：

201、在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集目标用户朗读预置文本的语音信息并从语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征。

202、当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据录制的视频调用预置的静默人脸比对模型对初始人脸特征进行静默人脸比对，得到静默人脸识别结果，录制的视频包括答题人的人脸图像。

具体的，当目标用户通过人脸识别验证时，终端录制视讯问答流程产生的视频，得到录制的视频，录制的视频包括答题人的人脸图像；终端按照预设间距从录制的视频中抽取视频帧，得到多个候选视频帧；终端过滤掉多个候选视频帧中不含人脸的视频帧，得到多个过滤后的视频帧；终端调用预置的静默人脸比对模型将多个过滤后的视频帧分别与初始人脸特征进行比对，得到静默人脸识别结果，静默人脸识别结果包括多次人脸比对结果。

其中，静默人脸比对用户无感知，因为没有一个对准框，可能采集的时候用户并不是正对着手机摄像头，因此对抽取的视频帧进行人脸检测，这里选择人脸关键点检测算法Face Landmark Detection过滤掉不含有人脸的帧。

例如，预设间距为单位时间内等间距获取的多个候选视频帧，例如，如果1秒内等间距获取5视频帧。假设总1秒内帧数为S，那么这个抽视频帧的间距ΔT为：ΔT＝S/5。例如，每次人脸比对结果确定为f_i，那么得到的静默人脸识别结果为FaceResult＝{f₁,f₂,…,f_n}。

203、录制视讯问答流程的音频，得到录制的音频，根据录制的音频调用预置的静默声纹比对模型对初始声纹特征进行静默声纹比对，得到静默声纹识别结果，录制的音频包括答题人的回答语音。

具体的，终端录制视讯问答流程产生的音频，得到录制的音频，录制的音频包括答题人的回答语音；终端按照预设间距从录制的音频中抽取音频帧，得到多个音频帧；终端调用预置的静默声纹比对模型将多个音频帧分别与初始声纹特征进行比对，得到静默声纹识别结果，静默声纹识别结果包括多次声纹比对结果。

例如，每次声纹比对结果确定为v_i，那么得到的静默人脸识别结果为VoiceResult＝{v₁,v₂,…,v_m}。

204、根据静默人脸识别结果和静默声纹识别结果判断在视讯问答流程中是否有换人。

例如，通过表达式

205、若在视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

例如，若视讯问答流程中对答题人进行了m次人脸比对，得到一个大小为m的人脸相似度数组FsimList＝{}，计算得到人脸相似度方差S_f；若视讯问答流程中一共有n个问题节点，则会录制有n段用户回答问题的语音，就会进行n次的声纹比对，最终得到一个大小为n的声纹相似度数组VsimList＝{}，计算得到声纹相似度方差S_v。再根据预置公式判断是否有换人，预置公式为：

其中，y为视讯过程是否有换人结果，1表示有换人，0表示没有换人，S_f表示人脸比对相似度的方差，S_v表示声纹比对相似度的方差，S_tf表示人脸比对相似度的阈值，S_tv表示声纹比对相似度的阈值。

可选的，在步骤201之前还可以包括生成预置的静默人脸比对模型，具体过程如下：

(1)获取预置的Densenet169模型，并将预置的Densenet169模型的全连接层删除，得到初始网络，初始网络包括依次连接的第一稠密块、第二稠密块、第三稠密块和第四稠密块；

需要说明的是，Densenet169中的普通卷积核，使用深度可分离卷积进行替代，即初始网络中的卷积核为深度可分离卷积，其中，深度可分离卷积由一种由逐通道卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)组成卷积模式。相对于普通卷积，深度可分离卷积可以保持模型准确率的同时降低模型的参数量以及运算量，提升计算速度。

(2)在第四稠密块所在层增加挤压激励SE模块，得到主干网络；

需要说明的是，每个稠密块包括多个密集层，每个密集层包括多个卷积核。在第四稠密块的最后一个密集层增加一个挤压激励SE模块，相比较于在全局添加SE模型而言，可以保持模型的学习、泛化能力不变的情况下，提升模型的训练速度。

一般情况下，由深度卷积神经网络得到的特征图(h*w*c)中，每一个通道c(channel)是等权重的，而挤压激励(Sequeze and Excitation，SE)模块，就是为每一个通道设定不同的权重参数，计算公式如下：

式中，n表示总共有多上个通道，c_i表示第i个通道，w_i表示为对应通道c_i的权重，T_total表示对所有的通道取加权之后的总和。

(3)在主干网络的末端增加一个全局最大池化层，并将softmax替换为sigmoid，得到预置的静默人脸比对模型。

模型训练的损失函数由两部分构成，一部分为人脸类别的分类损失，即希望不同人脸分类尽可能准确；另一部分为同一个人的人脸相似度损失，即希望同一人的不同人脸的特征进尽可能的近。其中，整个模型定义的损失函数为：将模型最后一层的softmax替换为sigmoid，并添加分类权重，损失函数使用，模型定义的损失函数为：Loss＝α·BCE(y_pred,y_true)+β·TripletLoss(x_i,y_j)，式中：BCE(binary cross entropy)为二元交叉熵计算公式，y_pred为人脸预测分类，y_true为真实的人脸分类，x_i，y_j分别表示同一个人的不同人脸，TripletLoss表示x_i，y_j的差异。α，β分别为对应分类损失和TripletLoss权重。

例如，输入的图像先经过静默人脸比对模型的主干网络(将Densenet169模型中最后的全连接层进行删除，并在最后一个稠密块dense_block的最后一层，也就是第4层中引入挤压激励(Sequeze and Excitation，SE)模块)，然后经过全局最大池化(Gobal MaxPooling)层将特征图展开成为长度为2048的特征向量。

上面对本发明实施例中视讯问答流程的身份识别方法进行了描述，下面对本发明实施例中视讯问答流程的身份识别装置进行描述，请参阅图3，本发明实施例中视讯问答流程的身份识别装置的一个实施例包括：

验证采集模块301，用于在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集所述目标用户朗读预置文本的语音信息并从所述语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；

比对模块302，用于当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；

第一判断模块303，用于根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人；

第二判断模块304，用于若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

请参阅图4，本发明实施例中视讯问答流程的身份识别装置的另一个实施例包括：

可选的，比对模块302包括：

人脸比对单元3021，用于当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像；

声纹比对单元3022，用于录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音。

可选的，人脸比对单元3021具体用于：

当目标用户通过人脸识别验证时，录制视讯问答流程产生的视频，得到录制的视频，所述录制的视频包括答题人的人脸图像；

按照预设间距从所述录制的视频中抽取视频帧，得到多个候选视频帧；

过滤掉所述多个候选视频帧中不含人脸的视频帧，得到多个过滤后的视频帧；

调用预置的静默人脸比对模型将所述多个过滤后的视频帧分别与所述初始人脸特征进行比对，得到静默人脸识别结果，所述静默人脸识别结果包括多次人脸比对结果。

可选的，声纹比对单元3022具体用于：

录制视讯问答流程产生的音频，得到录制的音频，所述录制的音频包括答题人的回答语音；

按照预设间距从所述录制的音频中抽取音频帧，得到多个音频帧；

调用预置的静默声纹比对模型将所述多个音频帧分别与所述初始声纹特征进行比对，得到静默声纹识别结果，所述静默声纹识别结果包括多次声纹比对结果。

可选的，第一判断模块303包括：

根据所述静默人脸识别结果确定人脸比对不通过次数；

根据所述静默声纹识别结果确定声纹比对不通过次数；

判断所述人脸比对不通过次数与所述声纹比对不通过次数之和是否小于第一阈值；

若所述人脸比对不通过次数与所述声纹比对不通过次数之和小于第一阈值，则确定所述在问答流程中没有换人；

若所述人脸比对不通过次数与所述声纹比对不通过次数之和大于或等于第一阈值，则确定所述在问答流程中有换人。

可选的，第二判断模块304具体用于：

若在问答流程中没有换人，则根据静默人脸比对结果确定人脸相似度数组，并根据所述人脸相似度数组确定人脸相似度方差，所述人脸相似度数组包括多个人脸相似度，每个人脸相似度用于指示一次人脸比对过程中视频帧与初始人脸特征的相似度；

根据静默声纹比对结果确定声纹相似度数组，并根据所述声纹相似度数组确定声纹相似度方差，所述声纹相似度数组包括多个声纹相似度，每个声纹相似度用于指示一次声纹比对过程中音频帧与初始声纹特征的相似度；

根据所述人脸相似度方差和所述声纹相似度方差是否满足预置条件，所述预置条件为所述人脸相似度方差小于第二阈值且所述声纹相似度方差小于第三阈值；

若所述人脸相似度方差和所述声纹相似度方差满足所述预置条件，则确定视讯问答流程中没有换人；

若所述人脸相似度方差和所述声纹相似度方差是否不满足预置条件，则确定视讯问答流程中有换人。

可选的，视讯问答流程的身份识别装置还包括：

删除模块305，用于获取预置的Densenet169模型，并将所述预置的Densenet169模型的全连接层删除，得到初始网络，所述初始网络包括依次连接的第一稠密块、第二稠密块、第三稠密块和第四稠密块；

增加模块306，用于在所述第四稠密块所在层增加挤压激励SE模块，得到主干网络；

替换模块307，用于在所述主干网络的末端增加一个全局最大池化层，并将softmax替换为sigmoid，得到预置的静默人脸比对模型。

上面图3至图4从模块化功能实体的角度对本发明实施例中的视讯问答流程的身份识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中视讯问答流程的身份识别设备进行详细描述。

图5是本发明实施例提供的一种视讯问答流程的身份识别设备的结构示意图，该视讯问答流程的身份识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视讯问答流程的身份识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在视讯问答流程的身份识别设备500上执行存储介质530中的一系列指令操作。

视讯问答流程的身份识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的视讯问答流程的身份识别设备结构并不构成对视讯问答流程的身份识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述视讯问答流程的身份识别方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视讯问答流程的身份识别方法，其特征在于，包括：

在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集所述目标用户朗读预置文本的语音信息并从所述语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；

当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；

根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人；

若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

2.根据权利要求1所述的视讯问答流程的身份识别方法，其特征在于，所述当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果，包括：

当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像；

录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音。

3.根据权利要求2所述的视讯问答流程的身份识别方法，其特征在于，所述当目标用户通过人脸识别验证时，录制视讯问答流程的视频，得到录制的视频，根据所述录制的视频调用预置的静默人脸比对模型对所述初始人脸特征进行静默人脸比对，得到静默人脸识别结果，所述录制的视频包括答题人的人脸图像，包括：

4.根据权利要求2所述的视讯问答流程的身份识别方法，其特征在于，所述录制视讯问答流程的音频，得到录制的音频，根据所述录制的音频调用预置的静默声纹比对模型对所述初始声纹特征进行静默声纹比对，得到静默声纹识别结果，所述录制的音频包括答题人的回答语音，包括：

5.根据权利要求1所述的视讯问答流程的身份识别方法，其特征在于，所述根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人，包括：

根据所述静默人脸识别结果确定人脸比对不通过次数；

根据所述静默声纹识别结果确定声纹比对不通过次数；

6.根据权利要求1所述的视讯问答流程的身份识别方法，其特征在于，所述若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人，包括：

7.根据权利要求1-6中任一项所述的视讯问答流程的身份识别方法，其特征在于，在所述在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证之前，所述视讯问答流程的身份识别方法还包括：

获取预置的Densenet169模型，并将所述预置的Densenet169模型的全连接层删除，得到初始网络，所述初始网络包括依次连接的第一稠密块、第二稠密块、第三稠密块和第四稠密块；

在所述第四稠密块所在层增加挤压激励SE模块，得到主干网络；

在所述主干网络的末端增加一个全局最大池化层，并将softmax替换为sigmoid，得到预置的静默人脸比对模型。

8.一种视讯问答流程的身份识别装置，其特征在于，包括：

验证采集模块，用于在开始视讯问答流程前，采用炫光活体人脸检测模型对目标用户进行人脸识别验证，并采集所述目标用户朗读预置文本的语音信息并从所述语音信息中提取声纹特征，得到初始人脸特征和初始声纹特征；

比对模块，用于当目标用户通过人脸识别验证时，开始视讯问答流程，根据所述初始人脸特征和预置的静默人脸比对模型对答题人的人脸图像进行静默人脸比对，得到静默人脸识别结果，并通过所述初始声纹特征和预置的静默声纹比对模型对答题人的回答语音进行静默声纹比对，得到静默声纹识别结果；

第一判断模块，用于根据所述静默人脸识别结果和静默声纹识别结果判断在所述视讯问答流程中是否有换人；

第二判断模块，用于若在所述视讯问答流程中没有换人，则结合视讯问答流程中的静默人脸比对相似度方差和声纹比对相似度方差，再次判断视讯问答流程中是否有换人。

9.一种视讯问答流程的身份识别设备，其特征在于，所述视讯问答流程的身份识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述视讯问答流程的身份识别设备执行如权利要求1-7中任意一项所述的视讯问答流程的身份识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被处理器执行时实现如权利要求1-7中任意一项所述的视讯问答流程的身份识别方法。