CN114677634B

CN114677634B - 面签识别方法、装置、电子设备及存储介质

Info

Publication number: CN114677634B
Application number: CN202210595750.2A
Authority: CN
Inventors: 王小东; 朱羽; 廖浩; 吕文勇; 周智杰
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-27
Anticipated expiration: 2042-05-30
Also published as: CN114677634A

Abstract

本申请提供一种面签识别方法、装置、电子设备及存储介质，涉及人机交互技术领域，该方法包括：接收用户的面签视频数据，并从所述面签视频数据中提取目标音频数据；对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据；以及基于所述目标音频数据、或基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证。采用本申请实施例中提供的方法可以提高面签的安全性以及提升用户面签体验。

Description

面签识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人机交互领域，具体而言，涉及一种面签识别方法、装置、电子设备及存储介质。

背景技术

目前智能化的视频面签应用愈发广泛，利用AI技术代替人工客服的同时，也产生了一定风险。现在主流的面签产品是判断摄像设备前是否有人、人脸是否和活体照分析一致以及回答问题的语音转文本是否与已知答案匹配，以此来确定面签用户是否是真人以及是否是本人面签。

但以目前的方式进行视频面签存在很大的安全问题，如，摄像头前面的人脸可能是个假人，面签者可能用他人的一张照片、一段视频或者一张打印的人脸在摄像头前进行面签欺诈；可能存在真人在摄像头前，但是说话人却不是本人、回答问题的用户声音与真实的年龄或者性别不符、用户脸部存在遮挡、面签产品采集的语音不是面签用户等多种情况。因此存在面签安全性低以及用户体验较差的问题。

发明内容

本申请实施例的目的在于提供一种面签识别方法、装置、电子设备及存储介质，用以提高面签的安全性。

第一方面，本申请实施例提供一种面签识别方法，包括：

接收用户的面签视频数据，并从所述面签视频数据中提取目标音频数据；

对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据；

基于所述目标音频数据、或基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证。

在上述实现过程中，可以对用户的面签视频数据进行解析，在对用户面签时的声音以及图像进行识别的基础上，进一步分析用户的音频数据以及面签图像，判断用户在面签过程中是否存在欺诈行为，从而能够提高视频面签的安全性。其中，具体分析的方式包括：①仅基于音频数据、或②同时基于目标音频数据和视频数据的分析结果，来判断用户在面签过程中是否存在欺诈行为。通过以上两种分析方式能够有效提高视频面签的安全性。

可选地，所述从所述面签视频数据中提取目标音频数据可以包括：

按照用户回答问题的顺序，对所述面签视频数据的时间域进行分段，得到多个分段视频；

对每个所述分段视频进行音频视频分离，得到每个所述分段视频对应的分段音频数据，并以所述分段音频数据作为所述目标音频数据。

可选地，在所述对每个所述分段视频进行音频视频分离，得到每个所述分段视频对应的分段音频数据之后，所述方法还可以包括：

对每个所述分段音频数据进行文本提取，得到用户回答问题的答案文本；

对所述答案文本进行识别，判断所述答案文本中是否存在预设警示词集合中的词；

所述基于所述目标音频数据，对用户进行面签认证包括：在所述答案文本中存在所述预设警示词集合中的词时，确定所述用户未通过面签认证。

在上述实现过程中，在分析用户的目标音频数据和视频数据时，先基于预设的警示词对用户进行预认证，在用户不通过预认证时则取消之后的面签步骤，可以节省面签资源，提高面签效率。

可选地，所述基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证包括：

依次将所述视频数据中的图像作为嘴部状态识别模型的输入；

对于一个所述图像，检测所述图像中是否存在人脸，在所述图像中存在人脸时，将所述图像作为目标检测图像；

将所述目标检测图像作为人脸姿态识别模型的输入，得到表征用户人脸姿态的特征角度；其中，所述特征角度包括：人脸俯角、偏角和滚角的值；

从所述特征角度之和的值中最小的所述目标检测图像中提取目标用户人脸；

根据所述目标用户人脸和用户回答问题的答案文本生成用户回答问题的分析视频；

判断所述面签视频数据与所述分析视频中人脸的嘴型是否一致，在所述面签视频数据与所述分析视频中人脸的嘴型一致时，确定用户通过面签认证。

在上述实现过程中，可以基于用户的面签视频生成表征用户回答问题时的模拟人脸，通过使用从面签视频数据中提取的用户回答问题的文本，驱动该模拟人脸，生成模拟用户回答问题的视频，将生成的模拟视频与用户的面签视频进行分析，从而能够对用户进行面签认证，采用本申请实施例中提供的面签认证方法可以有效提高面签认证的准确性。在另一方面，通过计算表征用户头部的姿态的三个自由度的角度确定用户相对于摄像设备角度最正的人脸图像，以该人脸图像生成模拟人脸，能够减少模拟用户面签视频的偏差，从而进一步提高面签认证的准确性。

可选地，所述目标音频数据包括用户的声纹特征，所述从所述面签视频数据中提取目标音频数据包括：在确定对用户进行一次面签认证时，从所述面签视频数据中提取用户回答每个问题的声纹特征；

所述基于所述目标音频数据，对用户进行面签认证包括：将用户回答第一问题的声纹特征作为基准声纹特征，将用户回答其他问题的声纹特征作为分析声纹特征，依次将所述基准声纹特征与所述分析声纹特征进行分析，以确定用户是否通过面签认证。

可选地，在所述将用户回答第一问题的声纹特征作为基准声纹特征，将用户回答其他问题的声纹特征作为分析声纹特征，依次将所述基准声纹特征与所述分析声纹特征进行分析，确定用户是否通过面签认证之后，所述方法还包括：

将所述基准声纹特征存入预设数据库中；

在进行新的一次面签认证时，确认当前用户是否为新面签用户，其中，所述新面签用户表征所述当前用户之前未参与过面签认证；

在所述当前用户为新面签用户时，从所述当前用户的面签视频数据中提取多段所述当前用户回答问题的音频数据，并基于多段所述音频数据得到所述当前用户的声纹特征；

将所述当前用户的声纹特征与所述预设数据库中的所述基准声纹特征进行分析，确定所述声纹特征与所述基准声纹特征的相似度；

所述基于所述目标音频数据，对用户进行面签认证包括：在所述相似度高于预设阈值时，确定所述当前用户不通过面签认证。

在上述实现过程中，可以针对不同的面签识别应用场景对用户进行面签认证，根据面签的问题以及用户面签的次数适应性地设置认证的步骤，从而能够提高面签效率以及面签认证准确性。

可选地，所述基于所述目标音频数据，对用户进行面签认证可以包括：

将所述目标音频数据作为已训练的音频识别模型的输入，以基于所述音频识别模型同时得到用户的年龄特征和性别特征；

获取用户的年龄信息和性别信息，将所述年龄特征与所述年龄信息进行分析以及将所述性别信息与所述性别特征进行分析，得到所述分析结果，并基于所述分析结果确定用户是否通过面签认证。

在上述实现过程中，可以通过构建同时识别用户年龄和性别的音频识别模型，基于该音频识别模型对用户回答问题的语音进行识别，可以提升模型识别的速度，降低模型部署使用的资源。在另一方面，语音的数据比较难获取，使用多任务的方式可以利用每个任务的小量样本联合起来，从而提升模型整体的样本量和模型的识别精度。

第二方面，本申请实施例提供一种面签识别装置，包括：

数据获取模块，用于接收用户的面签视频数据，并从所述面签视频数据中提取目标音频数据；

解析模块，用于对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据；

认证模块，用于基于所述目标音频数据、或基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证。

在上述实现过程中，可以对用户的面签视频数据进行解析，在对用户面签时的声音以及图像进行识别的基础上，进一步分析用户的音频数据以及面签图像，判断用户在面签过程中是否存在欺诈行为，从而能够提高视频面签的安全性。其中，具体分析的方式包括：①仅基于音频数据、或②同时基于目标音频数据和视频数据的分析结果，来判断用户在面签过程中是否存在欺诈行为。通过以上两种分析方式能够有效提高面签的安全性。

可选地，数据获取模块可用于：

按照用户回答问题的顺序，对所述面签视频数据的时间域进行分段，得到多个分段视频；以及对每个所述分段视频进行音频视频分离，得到每个所述分段视频对应的分段音频数据，并以所述分段音频数据作为所述目标音频数据。

可选地，面签识别装置还可以包括文本识别模块，用于对每个所述分段音频数据进行文本提取，得到用户回答问题的答案文本；以及对所述答案文本进行识别，判断所述答案文本中是否存在预设警示词集合中的词。

认证模块可具体用于在所述答案文本中存在所述预设警示词集合中的词时，确定所述用户未通过面签认证。

可选地，认证模块可具体用于：

依次将所述视频数据中的图像作为嘴部状态识别模型的输入；对于一个所述图像，检测所述图像中是否存在人脸，在所述图像中存在人脸时，将所述图像作为目标检测图像；将所述目标检测图像作为人脸姿态识别模型的输入，得到表征用户人脸姿态的特征角度；其中，所述特征角度包括：人脸俯角、偏角和滚角的值；从所述特征角度之和的值中最小的所述目标检测图像中提取目标用户人脸；根据所述目标用户人脸和用户回答问题的答案文本生成用户回答问题的分析视频；以及判断所述面签视频数据与所述分析视频中人脸的嘴型是否一致，在所述面签视频数据与所述分析视频中人脸的嘴型一致时，确定用户通过面签认证。

可选地，目标音频数据包括用户的声纹特征，数据获取模块可具体用于：

在确定对用户进行一次面签认证时，从所述面签视频数据中提取用户回答每个问题的声纹特征。

认证模块可具体用于：

将用户回答第一问题的声纹特征作为基准声纹特征，将用户回答其他问题的声纹特征作为分析声纹特征，依次将所述基准声纹特征与所述分析声纹特征进行分析，以确定用户是否通过面签认证。

可选地，数据获取模块还可具体用于：

将所述基准声纹特征存入预设数据库中；在进行新的一次面签认证时，确认当前用户是否为新面签用户，其中，所述新面签用户表征所述当前用户之前未参与过面签认证；在所述当前用户为新面签用户时，从所述当前用户的面签视频数据中提取多段所述当前用户回答问题的音频数据，并基于多段所述音频数据得到所述当前用户的声纹特征；将所述当前用户的声纹特征与所述预设数据库中的所述基准声纹特征进行分析，确定所述声纹特征与所述基准声纹特征的相似度。

认证模块可具体用于：

在所述相似度高于预设阈值时，确定所述当前用户不通过面签认证。

可选地，认证模块还可用于：

将所述目标音频数据作为已训练的音频识别模型的输入，以基于所述音频识别模型同时得到用户的年龄特征和性别特征；获取用户的年龄信息和性别信息，将所述年龄特征与所述年龄信息进行分析以及将所述性别信息与所述性别特征进行分析，得到所述分析结果，并基于所述分析结果确定用户是否通过面签认证。

在上述实现过程中，可以通过构建同时识别用户年龄和性别的音频识别模型，基于该音频识别模型对用户回答问题的语音进行识别，可以提升模型识别的速度，降低模型部署使用的资源。在另一方面，语音的数据比较难获取，使用多任务的方式可以利用每个任务的小量样本联合起来还提升模型整体的样本量和模型的识别精度。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器读取并运行所述程序指令时，执行上述任一实现方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述可读取存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述任一实现方式中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的面签识别方法的步骤示意图；

图2为本申请实施例提供的从用户面签视频数据中提取目标音频数据的步骤示意图；

图3为本申请实施例提供的基于配置关键字词对用户进行面签认证的步骤示意图；

图4为本申请实施例提供的分析目标音频数据和视频数据的步骤示意图；

图5为本申请实施例提供的基于声纹特征对用户进行面签认证的步骤示意图；

图6为本申请实施例提供的在需要对用户进行多次面签时的认证步骤示意图；

图7为本申请实施例提供的针对性别以及年龄对用户进行面签认证的步骤示意图；

图8为本申请实施例提供的面签识别装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

申请人在研究的过程中发现，在无人化的视频面签中用户在回答问题时很可能存在欺诈，比如：用户回答问题时嘴没有动、回答问题时用户嘴动了但没声音、回答问题时有多个说话人，回答问题时用户的声音和性别不符合、回答问题时声纹前后不一致以及回答问题时用户的声音年龄和真实年龄不符合等情况。存在上述的情况时一般都可以认为用户存在欺诈行为。

目前市面上的面签产品中没有根据用户回答问题时的音视频进行欺诈识别的解决方案，也不能判断用户是否为本人回答问题，因此目前在面签过程中存在安全性低，并且影响用户体验的问题。

有基于此，本申请实施例通过对用户回答问题的音视频进行分析，从而确定用户回答问题时是否存在欺诈，以及是否是本人回答。请参看图1，图1为本申请实施例提供的面签识别方法的步骤示意图，面签识别方法的步骤可以包括：

在步骤S11中，接收用户的面签视频数据，并从所述面签视频数据中提取目标音频数据。

其中，面签视频数据可以为与用户面对面进行问题确认时录制的视频、AI虚拟人与用户视频通话的面签视频，或者用户自助式自拍进行面签得到的视频数据；面签可以是用户到贷款银行缴纳贷款所需费用并进行面谈及签字的手续，可以应用于如受托支付、共借人签约等各类型需业务通上传标准化文件视频录制场景，也可运用于普通消费贷和经营贷产品大额、高风险类客群风险提示以及其他需要用户确认信息并音视频留底保存的场景。

目标音频数据是包括表征用户回答面签问题的语音内容或是用户的语音特征，可以基于音频视频分离从面签视频数据中提取得到，由于在面签视频数据中用户并不是时刻都在回答问题，因此会将其中用户没有在回答问题的片段进行剔除，如用户正在听问题的时间段以及用户正在思考问题的时间段对应的音频数据，因此将用户回答问题的音频数据称作目标音频数据以作区分。

示例性地，用户可以通过移动终端进行面签认证，也可以通过银行或是其他机构设置的固定终端进行面签认证，移动终端可以是具有联网功能的电子设备，该电子设备可以是工程设备的配置器、手机、平板电脑、个人数字助理或是专用的面签终端。固定终端可以是计算机、服务器等。移动终端和固定终端上可设置有摄像设备或能够外接摄像设备，摄像设备可以是摄像头，通过摄像头采集用户的面签视频数据。

在步骤S12中，对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据。

示例性地，可以通过嘴部状态识别模型对视频数据进行判断，从而确定用户是否在回答问题，嘴部状态识别模型的训练过程以及应用过程在后面的内容中展开说明。

在步骤S13中，基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证。

其中，分析目标音频数据和视频数据的方式可以包括，但不限于，基于视频数据生成用户的模拟人像，驱动模拟人像读取目标音频数据对应的文本内容，并将模拟人像的嘴型与用户的嘴型进行分析；对视频数据进行唇语识别，以及对目标音频数据进行文本识别，并将唇语识别得到的文本与对目标音频数据进行文本识别得到文本进行分析。

在将模拟人像的嘴型与用户的嘴型进行分析的实施例中，分析的方式可以是对模拟人像以及用户的嘴部进行关键点提取，计算对应关键点之间的嘴型面积差，判断面积差是否小于预设阈值从而确定用户是否通过面签认证。在将唇语识别得到的文本与文本识别得到文本进行分析的实施例中，分析的方式可以是对文本进行关键词分析，也可以是计算两个文本的相关度，基于相关度确定用户是否通过面签认证。

由此可见，本申请实施例可以对用户的面签视频数据进行解析，在对用户面签时的声音以及图像进行识别的基础上，进一步分析用户的音频数据以及面签图像，判断用户在面签过程中是否存在欺诈行为，从而能够提高视频面签的安全性。

在一可选的实施例中，针对步骤S11，本申请实施例提供一种从用户面签视频数据中提取目标音频数据的实现方式，请参看图2，图2为本申请实施例提供的从用户面签视频数据中提取目标音频数据的步骤示意图，从用户面签视频数据中提取目标音频数据的步骤可以包括：

在步骤S21中，按照用户回答问题的顺序，对所述面签视频数据的时间域进行分段，得到多个分段视频。

示例性地，可以以面签系统每次向用户发送问题作为标识，对面签视频数据进行分段，面签系统可以是运行在固定终端或是移动终端中进行面签认证的系统。用户回答问题的顺序可以是问题的先后顺序，也可以是问题类型的顺序，如面签系统可以向用户发送回答问题的指示，也可以发送一段文字或是一段语音提示用户进行跟读。

在步骤S22中，对每个所述分段视频进行音频视频分离，得到每个所述分段视频对应的分段音频数据，并以所述分段音频数据作为所述目标音频数据。

其中，音频视频分离的方式可以是基于视频编辑软件将每个分段视频中的音频轨道提取出来，得到每个分段视频对应的分段音频数据，也可以是直接将面签数据的总音频轨道提取出来，得到总音频数据，并基于面签系统每次向用户发送问题作为标识的时间点对总音频数据进行分段，得到每个分段视频对应的分段音频数据。

在一可选的实施例中，在步骤S22得到每个所述分段视频对应的分段音频数据之后，本申请实施例还提供一种基于配置关键字词对用户进行面签认证的实现方式，请参看图3，图3为本申请实施例提供的基于配置关键字词对用户进行面签认证的步骤示意图，基于配置关键字对用户进行面签认证的步骤可以包括：

在步骤S31中，对每个所述分段音频数据进行文本提取，得到用户回答问题的答案文本。

在步骤S32中，对所述答案文本进行识别，判断所述答案文本中是否存在预设警示词集合中的词。

其中，预设警示词集合可以根据面签应用的场景具体设置，如应用场景为银行在处理用户的房屋贷款业务时，预设警示词集合中可以设置如“中介”、“黑产”、“转手”等警示词。

在步骤S33中，在所述答案文本中存在所述预设警示词集合中的词时，确定所述用户未通过面签认证。

具体地，可以首先对答案文本进行分词处理，分词的工具可以是python的jieba分词工具；将经过分词处理得到的所有分词进行停用词过滤，并将基于停用词词典进行过滤后的分词与预设警示词集合中的词语进行分析，确定是否存在一致的词语，在为是时，则可直接确定用户不通过面签认证，无需进行以下的面签步骤。

由此可见，本申请实施例在分析用户的目标音频数据和视频数据时，先基于预设的警示词对用户进行预认证，在用户不通过预认证时则取消之后的面签步骤，可以节省面签资源，提高面签效率。

在一可选的实施例中，针对步骤S13，本申请实施例提供一种分析目标音频数据和视频数据的实现方式，请参看图4，图4为本申请实施例提供的分析目标音频数据和视频数据的步骤示意图。分析目标音频数据和视频数据的步骤可以包括：

在步骤S41中，依次将所述视频数据中的图像作为嘴部状态识别模型的输入，对于一个所述图像，检测所述图像中是否存在人脸，在所述图像中存在人脸时，将所述图像作为目标检测图像。

具体地，可以对用户回答问题的视频进行解析，形成视频数据，基于人脸检测模型对图像数列进行识别，将有人脸的图像存储到新的视频数据中。以将新的视频数据作为人脸姿态识别模型的输入。

其中，嘴部状态识别模型可以是一个8层的Alex网络，为了提升网络的识别速度，可以在进行张嘴识别时，先进行人脸检测，并将检测到的人脸下半部分作为用户嘴型识别区域，并将该下半部分输入至嘴部识别模型进行识别。

如果用户的嘴部有运动，也可能是用户随便张嘴说话并不发出声音，而是别人在回答问题，因此还需要判断用户的嘴型和回答问题的文本（该文本可通过语音识别获得）口型是否对齐，如果对齐，则可以确认是用户在回答问题，如果未对齐，则确认用户存在欺诈。

在步骤S42中，将所述目标检测图像作为人脸姿态识别模型的输入，得到表征用户人脸姿态的特征角度；其中，所述特征角度包括：人脸俯角、偏角和滚角的值。

其中，可以假设将人头部建模为无实体的刚性物体。在这种假设下，人体头部的姿势受限于三个自由度（DOF），包括Pitch（俯角）、Yaw（滚角）和Roll（偏角）。因此可以基于这三个自由度对用户进行人体头部姿势估计。

在步骤S43中，从所述特征角度之和的值中最小的所述目标检测图像中提取目标用户人脸。

基于俯角、偏角和滚角的和值可以确定人脸相对于摄像设备的相对角度，认为和值最小的目标检测图像中的人脸是最正的人脸，并将该人脸作为目标用户人脸，其中，目标用户人脸的含义是，每一个目标检测图像中都可以提取出一个人脸，但人脸相对于摄像设备的角度可能不是正对的角度，因此将选取出来的人脸作为目标用户人脸以对其他提取出的人脸进行区分。

在步骤S44中，根据所述目标用户人脸和用户回答问题的答案文本生成用户回答问题的分析视频。

其中，可以对文本和人脸进行编码，编码人脸特征和文本特征，并使用Lstm的解码结构进行图像的生成，把生成的图像合成视频，即可完成使用文本驱动目标用户人脸进行说话，生成分析视频。

在步骤S45中，判断所述面签视频数据与所述分析视频中人脸的嘴型是否一致，在所述面签视频数据与所述分析视频中人脸的嘴型一致时，确定用户通过面签认证。

示例性地，可以对原始视频和生成的说话人视频分别进行嘴部关键点提取，并计算对应关键点之间的嘴型面积差，并将嘴型面积差与预先设置的嘴型面积差阈值进行比较，如果大于该嘴型面积差阈值，则表示用户在说话，否则便可以认为用户存在面签欺诈的嫌疑。

由此可见，本申请实施例可以基于用户的面签视频生成表征用户回答问题时的模拟人脸，通过使用从面签视频数据中提取的用户回答问题的文本，驱动该模拟人脸，生成模拟用户回答问题的视频，将生成的模拟视频与用户的面签视频进行分析，从而能够对用户进行面签认证，采用本申请实施例中提供的面签认证方法可以有效提高面签认证的准确性。在另一方面，通过计算表征用户头部的姿态的三个自由度的角度确定用户相对于摄像设备角度最正的人脸图像，以该人脸图像生成模拟人脸，能够减少模拟用户面签视频的偏差，从而进一步提高面签认证的准确性。

申请人在研究的过程中还发现，声音和人脸类似，每个人的声纹是不同的，不同的人，其声纹方面的特征也是存在差异的，在视频面签场景中，通常使用AI技术代替人工进行面签，所以存在一个面签下的多个问题可能由多个人进行回答的情况，每个回答的人的声音可能是不同的。即使是人工面签，由于客服不同，面签的人不同，很可能一个人冒充多个用户与多个客服进行面签，但是由于客服之间的信息不同步，以及没有进行声纹的分析，会导致这种欺诈的发生。

针对这类欺诈就需要使用声纹分析进行识别，如果同一个用户在一次面签过程中，回答问题的前后声纹不一致，则一定存在欺诈，如果在多次面签过程中，用户的声音都是相同的，则很可能是欺诈用户在仿冒多个用户进行视频面签。因此，为了防止声纹欺诈的行为，本申请实施例还提供一种基于声纹特征对用户进行面签认证的实现方式。

请参看图5，图5为本申请实施例提供的基于声纹特征对用户进行面签认证的步骤示意图。其中，目标音频数据中还可以包括用户的声纹特征，基于声纹特征对用户进行面签认证的实现方式可以包括如下步骤：

在步骤S51中，在确定对用户进行一次面签认证时，从所述面签视频数据中提取用户回答每个问题的声纹特征。

在步骤S52中，将用户回答第一问题的声纹特征作为基准声纹特征，将用户回答其他问题的声纹特征作为分析声纹特征，依次将所述基准声纹特征与所述分析声纹特征进行分析，确定用户是否通过面签认证。

其中，声纹识别的准确性易受到语音长短和文本内容不同的影响，语音越长识别精度越高，语音如果都是同样的文本生成的语音，则识别精度也很高。在面签场景下大多都是回答固定的答案，如回答型问题让用户回答“是的”，或者朗读型问题让用户朗读一段话，如“我已知晓本笔贷款只能用于消费贷”，为了提升声纹识别的精度，因此可以对不同种类的问题进行不同的处理。

在某些应用场景中，只需要对用户进行一次面签认证，若都是回答型问题，且用户需要回答多个问题，则对多个问题提取声纹特征，进行两两分析。在本申请实施例中，第一问题可以是用户回答的第一个问题，也可以是通过其他的方式从多个问题中选取的一个问题，如用户回答时间最长的问题，用户回答的最后一个问题等。

在做音频数据分析时，可以把一个回答问题的用户声音作为基准声音提取基准声纹特征与后续声音提取的基准声纹特征进行相似度计算，从而确定是否存在欺诈，同样地，对于朗读型问题，也可以参照上述回答型问题的实现方式，此处不再赘述。

若在一次面签场景中，同时出现回答型问题和朗读型问题，如果是用户朗读了一段文本后再回答问题，则可以把朗读这段话的语音作为基准声音，从中提取基准声纹特征，如果后续还是存在朗读文本，则可以把从后续朗读文本的声音中提取的声纹特征与基础声纹特征进行分析，判断是否存在欺诈，如果后续存在回答问题，而一般回答问题说的语音都很短，朗读文本说的话都很长，这种跨文本的分析会误差较大，此时回答问题的声音不能直接分析，因此可以把所有的回答型问题的语音进行拼接后，形成一段长语音，从长语音中提取声纹特征，再与基准声纹特征进行相似度计算，确定是否是同一个人的语音。

如果是先回答问题再朗读文本，则可以把一个第一个回答问题的声音作为基准声音提取基准声纹特征，与后续回答问题的声音中提取的声纹特征做相似度计算，确保回答问题一致，如果存在朗读型文本，则可以在用户问答完问题后，将所有回答型问题的语音进行拼接，再与从朗读型问题中提取的声纹特征进行分析，从而确定用户是否有欺诈的嫌疑。

在一些可能的应用场景中，需要对用户进行多次的面签认证，因此在步骤S52之后，本申请实施例提供一种在需要对用户进行多次面签时的认证实现方式，请参看图6，图6为本申请实施例提供的在需要对用户进行多次面签时的认证步骤示意图，在需要对用户进行多次面签时的认证步骤可以包括：

在步骤S61中，将所述基准声纹特征存入预设数据库中。

其中，数据库可以是在数据存储终端中运行，数据存储终端可以是一台存储设备，或者是由多个存储设备组成的存储阵列，例如独立硬盘冗余阵列（Redundant Arrays ofIndependent Disks，RAID），或者数据存储终端可以是一台服务器，或者由若干台服务器组成的服务器集群。

在步骤S62中，在进行新的一次面签认证时，确认当前用户是否为新面签用户，其中，所述新面签用户表征所述当前用户之前未参与过面签认证。

在步骤S63中，在所述当前用户为新面签用户时，从所述当前用户的面签视频数据中提取多段所述当前用户回答问题的音频数据，并基于多段所述音频数据得到所述当前用户的声纹特征。

在步骤S64中，将所述当前用户的声纹特征与所述预设数据库中的所述基准声纹特征进行分析，确定所述声纹特征与所述基准声纹特征的相似度，在所述相似度高于预设阈值时，确定所述当前用户不通过面签认证。

其中，在每一次面签结束时，如果是确认当前用户是新的面签用户，则需要将用户这次面签过程中所有的语音进行拼接，并从拼接后的语音中提取声纹特征，与数据库中的声纹数据做相似度计算，如果相似度高于预设的警示值，如80%、90%时，则可以确认该用户存在欺诈的行为，否则便不存在欺诈，可以将声纹特征存入数据库。

示例性地，声纹特征提取算法可以包括：准备样本，样本为用户的声音波形和用户ID，每个用户至少有两段语音；对用户的语音数据做预处理，消除静音以及消除噪音的影响，同时对语音做对齐处理；对预处理后的数据做特征提取，可以提取Mel Spectrogram/Fbank特征并转成频谱图；基于频谱图数据设计神经网络做模型训练；取模型最后一层特征作为用户的声纹特征，并选取合适的相似度计算函数做声纹分析。

由此可见，本申请实施例可以针对不同的面签识别应用场景对用户进行面签认证，根据面签的问题以及用户面签的次数适应性地设置认证的步骤，从而能够提高面签效率以及面签认证准确性。

进一步地，申请人在研究的过程中还发现，声音在男女方面本身就存在差异，女声和男声存在较大的辨识度，声音也可以区分出年龄，老年人、中年人以及年轻人的声音也存在不同，因此，本申请实施例还提供一种针对性别以及年龄对用户进行面签认证的实现方式，请参看图7，图7为本申请实施例提供的针对性别以及年龄对用户进行面签认证的步骤示意图。针对性别以及年龄对用户进行面签认证的步骤可以包括：

在步骤S71中，将所述目标音频数据作为已训练的音频识别模型的输入，以基于所述音频识别模型同时得到用户的年龄特征和性别特征。

在步骤S72中，获取用户的年龄信息和性别信息，将所述年龄特征与所述年龄信息进行分析以及将所述性别信息与所述性别特征进行分析，得到所述分析结果，并基于所述分析结果确定用户是否通过面签认证。

其中，为了提高面签识别的效率，本发明实施例并不针对性别和年龄单独训练模型进行识别，而是提出一种使用多任务学习的方式，通过一个模型对性别和年龄进行同时识别。

将用户回答问题的语音转成频谱图，具体的步骤可以包括把时域的语音波形经过傅里叶变换得到频域的频谱图；基于该频谱图搭建一个多任务学习网络，网络的主干网络可以采用resnet34实现，标记为main_resnet34；

针对性别识别，在主干网络main_resnet34之后，建立性别识别分类网络，记作sex_net，该网络可以是一个2层的全连接，损失函数可以记作loss_sex，使用交叉熵做损失函数；针对年龄识别，在主干网络main_resnet34之后，建立年龄识别回归网络，记作age_net，该网络可以是一个2层的全连接网络，损失函数记作loss_age，使用交叉熵做损失函数；

对模型进行训练，模型的loss则为性别loss和年龄loss的加权，加权权重可以为1，表示两个模型一样重要，即loss = loss_sex +loss_age；在模型训练完成之后，输入一段用户回答面签问题的语音即可进行声音年龄和性别的预测，如果与真实的性别和年龄不符合则存在欺诈。另外，由于年龄的误差可能比较大，因此可以设置年龄误差阈值，在预测出的年龄和真实年龄相差小于该年龄误差阈值，都可以认为用户通过面签认证。

由此可见，本申请实施例可以通过构建同时识别用户年龄和性别的音频识别模型，基于该音频识别模型对用户回答问题的语音进行识别，可以提升模型识别的速度，降低模型部署使用的资源。在另一方面，语音的数据比较难获取，使用多任务的方式可以利用每个任务的小量样本联合起来，从而提升模型整体的样本量和模型的识别精度。

基于同一发明构思，本申请实施例还提供一种面签识别装置80，请参看图8，图8为本申请实施例提供的面签识别装置的示意图。面签识别装置80可以包括：

数据获取模块81，用于接收用户的面签视频数据，并从所述面签视频数据中提取目标音频数据。

解析模块82，用于对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据。

认证模块83，用于基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证。

可选地，数据获取模块81可用于：

可选地，面签识别装置80还可以包括文本识别模块，用于对每个所述分段音频数据进行文本提取，得到用户回答问题的答案文本；以及对所述答案文本进行识别，判断所述答案文本中是否存在预设警示词集合中的词。

认证模块83可具体用于在所述答案文本中存在所述预设警示词集合中的词时，确定所述用户未通过面签认证。

可选地，认证模块83可具体用于：

可选地，目标音频数据包括用户的声纹特征，数据获取模块81可具体用于：

认证模块83可具体用于：

可选地，数据获取模块81还可具体用于：

认证模块83可具体用于：

可选地，认证模块83还可用于：

基于同一发明构思，本申请实施例还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器读取并运行所述程序指令时，执行上述任一实现方式中的步骤。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述任一实现方式中的步骤。

所述计算机可读存储介质可以是随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等各种可以存储程序代码的介质。其中，存储介质用于存储程序，所述处理器在接收到执行指令后，执行所述程序，本发明实施例任一实施例揭示的过程定义的电子终端所执行的方法可以应用于处理器中，或者由处理器实现。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面签识别方法，其特征在于，包括：

对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据；以及

基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证；

所述基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证包括：

根据所述目标用户人脸和用户回答问题的答案文本生成用户回答问题的分析视频；以及

判断所述面签视频数据与所述分析视频中人脸的嘴型是否一致；在所述面签视频数据与所述分析视频中人脸的嘴型一致时，确定用户通过面签认证。

2.根据权利要求1所述的方法，其特征在于，其中，所述从所述面签视频数据中提取目标音频数据包括：

按照用户回答问题的顺序，对所述面签视频数据的时间域进行分段，得到多个分段视频；以及

3.根据权利要求2所述的方法，其特征在于，在所述对每个所述分段视频进行音频视频分离，得到每个所述分段视频对应的分段音频数据之后，所述方法还包括：

对每个所述分段音频数据进行文本提取，得到用户回答问题的答案文本；以及

所述基于所述目标音频数据，对用户进行面签认证包括：

在所述答案文本中存在所述预设警示词集合中的词时，确定所述用户未通过面签认证。

4.根据权利要求1所述的方法，其特征在于，其中，所述目标音频数据包括用户的声纹特征；

所述从所述面签视频数据中提取目标音频数据包括：

在确定对用户进行一次面签认证时，从所述面签视频数据中提取用户回答每个问题的声纹特征；

所述基于所述目标音频数据，对用户进行面签认证包括：

5.根据权利要求4所述的方法，其特征在于，

在所述将用户回答第一问题的声纹特征作为基准声纹特征，将用户回答其他问题的声纹特征作为分析声纹特征，依次将所述基准声纹特征与所述分析声纹特征进行分析，确定用户是否通过面签认证之后，所述方法还包括：

将所述基准声纹特征存入预设数据库中；

在进行新的一次面签认证时，确认当前用户是否为新面签用户；其中，所述新面签用户表征所述当前用户之前未参与过面签认证；

在所述当前用户为新面签用户时，从所述当前用户的面签视频数据中提取多段所述当前用户回答问题的音频数据，并基于多段所述音频数据得到所述当前用户的声纹特征；以及

所述基于所述目标音频数据，对用户进行面签认证包括：

6.根据权利要求1所述的方法，其特征在于，其中，所述基于所述目标音频数据，对用户进行面签认证包括：

将所述目标音频数据作为已训练的音频识别模型的输入，以基于所述音频识别模型同时得到用户的年龄特征和性别特征；以及

7.一种面签识别装置，其特征在于，包括：

解析模块，用于对所述面签视频数据进行解析，生成表征用户回答问题过程的视频数据；以及

认证模块，用于基于所述目标音频数据和所述视频数据得到分析结果，对用户进行面签认证；

所述认证模块，具体用于依次将所述视频数据中的图像作为嘴部状态识别模型的输入；对于一个所述图像，检测所述图像中是否存在人脸，在所述图像中存在人脸时，将所述图像作为目标检测图像；将所述目标检测图像作为人脸姿态识别模型的输入，得到表征用户人脸姿态的特征角度；其中，所述特征角度包括：人脸俯角、偏角和滚角的值；从所述特征角度之和的值中最小的所述目标检测图像中提取目标用户人脸；根据所述目标用户人脸和用户回答问题的答案文本生成用户回答问题的分析视频；以及判断所述面签视频数据与所述分析视频中人脸的嘴型是否一致；在所述面签视频数据与所述分析视频中人脸的嘴型一致时，确定用户通过面签认证。

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器运行所述程序指令时，执行权利要求1-6中任一项所述方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行权利要求1-6任一项所述方法中的步骤。