CN114245204A

CN114245204A - 基于人工智能的视频面签方法、装置、电子设备及介质

Info

Publication number: CN114245204A
Application number: CN202111537923.7A
Authority: CN
Inventors: 李志�
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25
Anticipated expiration: 2041-12-15
Also published as: CN114245204B

Abstract

本发明涉及人工智能技术领域，提供一种基于人工智能的视频面签方法、装置、电子设备及介质，所述方法包括：获取用户的多张图像、第一音频及第二音频；从多张图像中提取用户的第一微表情特征输入至预先训练好的微表情识别模型中，及从第一音频中提取第一声纹特征值输入至预先训练好的声纹识别模型中，及计算第二音频中的第二声纹特征值与用户的注册声纹的相似度验证用户身份；当用户身份验证通过时，获取虚拟面审员模拟的真实面审员的真实动作，控制虚拟面审员模拟真实动作与用户进行面签。本发明通过在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与用户进行面签，提高了面签的效率及用户的体验度。

Description

基于人工智能的视频面签方法、装置、电子设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的视频面签方法、装置、电子设备及介质。

背景技术

随着消费观念的改变，信贷业务量剧增，需要对信贷的各个环节进行审批，需要核实用户身份，传统的金融机构采用面审员与借款人通过全线上视频进行面签。

然而，通过全线上视频进行面签，需要大量的面审员，在业务量巨大的情况下，可能出现人工坐席资源紧张引起的用户等待时间长的问题，导致面签效率低。

因此，有必要提出一种可以快速准确的进行面签的方法。

发明内容

鉴于以上内容，有必要提出一种基于人工智能的视频面签方法、装置、电子设备及介质，通过在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与用户进行面签，提高了面签的效率及用户的体验度。

本发明的第一方面提供一种基于人工智能的视频面签方法，所述方法包括：

接收客户端发送的业务办理指令，响应于所述业务办理指令启动对应的视频设备；

从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频；

从所述多张图像中提取所述用户的第一微表情特征，及从所述第一音频中提取第一声纹特征值，及从所述第二音频中提取第二声纹特征；

将所述第一微表情特征输入至预先训练好的微表情识别模型中，及将所述第一声纹特征值输入至预先训练好的声纹识别模型中，及计算所述第二声纹特征值与所述用户的注册声纹的相似度；

根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份；

当所述用户身份验证通过时，触发面签指令并生成虚拟面审员，响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签。

可选地，所述解析所述视频流获取所述用户的多张图像、第一音频及第二音频包括：

根据所述视频流中的每帧图像对应的时间戳，根据每帧图像对应的时间戳从所述视频流中确定每帧图像对应的原始图像，及从多帧原始图像中提取包含有人脸图像的原始图像确定为所述用户的多张图像；

根据所述多张图像的时间戳确定第一音频的初始时间和结束时间，根据所述初始时间和结束时间从所述用户的视频流中提取出对应的音频确定为所述用户的第一音频；

从所述视频流中提取所有音频确定为所述用户的第二音频。

可选地，所述根据所述多张图像的时间戳确定第一音频的初始时间和结束时间包括：

根据所述多张图像的时间戳判断所述多张图像是否存在连续帧图像；

当所述多张图像存在一个连续帧图像时，将所述连续帧图像中的第一张图像的初始时间确定为所述第一音频的初始时间，及将所述连续帧图像中的最后一张图像的结束时间确定为所述第一音频的结束时间；或者

当所述多张图像存在多个连续帧图像时，计算每个连续帧图像的总时间，并将最长时间对应的连续帧图像确定为目标连续帧图像，将所述目标连续帧图像中的第一张图像的初始时间确定为所述第一音频的初始时间，及将所述目标连续帧图像中的最后一张图像的结束时间确定为所述第一音频的结束时间。

可选地，所述计算所述第二声纹特征值与所述用户的注册声纹的相似度包括：

提取所述用户的注册声纹中的第三声纹特征值；

采用预设相似度算法计算所述第二声纹特征值和所述第三声纹特征值之间的相似度。

可选地，所述根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份包括：

将所述第一识别结果与预设的微表情阈值进行比较，及将所述第二识别结果与预设的声纹阈值进行比较，及将所述相似度与预设的相似度阈值进行比较；

当所述第一识别结果大于或者等于所述预设的微表情阈值，所述第二识别结果大于或者等于所述预设的声纹阈值及所述相似度大于或者等于所述预设的相似度阈值时，确定所述用户身份验证通过；或者

当所述第一识别结果小于所述预设的微表情阈值，或者，所述第二识别结果小于所述预设的声纹阈值，或者，所述相似度小于所述预设的相似度阈值时，确定所述用户身份验证未通过。

可选地，所述触发面签指令并生成虚拟面审员包括：

响应于所述面签指令获取所述用户进行贷款申请的目标网点及贷款类型；

根据所述目标网点及贷款类型确定真实面审员，并从预设的数据库中获取所述真实面审员对应的预先存储的第二微表情特征及第四声纹特征值；

基于所述第二微表情特征及第四声纹特征值，采用预设的算法生成所述真实面审员对应的虚拟面审员。

可选地，所述响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签包括：

响应于所述业务办理指令获取面签流程；

遍历所述面签流程中的每个面签节点，并获取每个面签节点对应的真实面审员的真实动作；

执行所述面签流程，控制所述虚拟面审员模拟所述面签流程中的每个面签节点的真实动作与所述用户进行面签。

本发明的第二方面提供一种基于人工智能的视频面签装置，所述装置包括：

接收模块，用于接收客户端发送的业务办理指令，响应于所述业务办理指令启动对应的视频设备；

解析模块，用于从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频；

提取模块，用于从所述多张图像中提取所述用户的第一微表情特征，及从所述第一音频中提取第一声纹特征值，及从所述第二音频中提取第二声纹特征；

输入模块，用于将所述第一微表情特征输入至预先训练好的微表情识别模型中，及将所述第一声纹特征值输入至预先训练好的声纹识别模型中，及计算所述第二声纹特征值与所述用户的注册声纹的相似度；

验证模块，用于根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份；

控制模块，用于当所述用户身份验证通过时，触发面签指令并生成虚拟面审员，响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的视频面签方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于人工智能的视频面签方法。

综上所述，本发明所述的基于人工智能的视频面签方法、装置、电子设备及介质，一方面，通过从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频，由于图像中包含有人脸图像，通过获取包含有人脸图像的连续帧图像的起始时间和接收时间对应的第一音频，减少了没有人脸图像中的音频数据的打扰，减少了第一音频的时间，同时确保了第一音频的准确性；另一方面，在无感知的情况下获取视频流，对用户的身份从微表情、声纹特征等多个方面进行了验证，提高了验证的效率及用户的体验度；最后，在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与所述用户进行面签，避免了真实面审员的人为情绪影响面签效率及用户体验度的问题，同时虚拟面审员可以不用休息，没有上下班时间，可以实施24小时全面在线服务，提高了面签的效率及用户的体验度。

附图说明

图1是本发明实施例一提供的基于人工智能的视频面签方法的流程图。

图2是本发明实施例二提供的基于人工智能的视频面签装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述基于人工智能的视频面签方法可以应用于电子设备中，对于需要进行基于人工智能的视频面签的电子设备，可以直接在电子设备上集成本发明的方法所提供的基于人工智能的视频面签的功能，或者以软件开发工具包(SoftwareDevelopment Kit，SDK)的形式运行在电子设备中。

如图1所示，所述基于人工智能的视频面签方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，接收客户端发送的业务办理指令，响应于所述业务办理指令启动对应的视频设备。

本实施例中，客户在进行业务办理时，通过客户端发起业务办理指令至服务端，具体地，所述客户端可以是智能手机、IPAD或者其他现有的具有视频功能的设备，所述服务端可以为业务办理子系统，在业务办理过程中，如所述客户端可以向面签子系统发送业务办理指令，所述面签子系统用于接收所述客户端发送的业务办理指令，响应于所述业务办理指令启动对应的视频设备。

在其他可选的实施例中，所述面签子系统还可以响应于所述业务办理指令建立与所述客户端的socket长链接通信，并启动视频设备，其中，所述业务办理包括贷款过程中的面签业务。

本实施例中，所述Socket长链接通信可以用于所述客户端和所述服务器之间进行双向通信，用以提高所述客户端和所述服务器之间的消息传输效率和准确率。

本实施例中，所述视频设备可以是所述服务端对应的摄像头等视频设备，具体地，所述摄像头可以用于采集所述客户端的视频流数据或者音频流数据。

S12，从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频。

在其他可选的实施例中，可以每隔预设周期从所述视频设备中采集用户的视频流。

本实施例中，可以预先设置视频流采集周期，例如，可以预先设置2分钟采集一次，所述视频流是从视频设备中采集的。

在一个可选的实施例中，所述解析所述视频流获取所述用户的多张图像、第一音频及第二音频包括：

从所述视频流中提取所有音频确定为所述用户的第二音频。

进一步地，所述根据所述多张图像的时间戳确定第一音频的初始时间和结束时间包括：

本实施例中，所述连续帧图像指的是多张图像的时间戳中的时间是连续的，根据连续帧图像中的起始时间和结束时间确定所述第一音频的起始时间和结束时间。

本实施例中，由于图像中包含有人脸图像，通过获取包含有人脸图像的连续帧图像的起始时间和接收时间对应的第一音频，减少了没有人脸图像中的音频数据的打扰，减少了第一音频的时间，同时确保了第一音频的准确性。

S13，从所述多张图像中提取所述用户的第一微表情特征，及从所述第一音频中提取第一声纹特征值，及从所述第二音频中提取第二声纹特征。

本实施例中，第一微表情特征包括：唇形微表情、装酷微表情、眼睛微表情、肤色变化等其他微表情。

本实施例中，可以预先获取训练好的微表情提取模型，将所述多张图像输入至所述预先训练好的微表情提取模型中提取所述用户的第一微表情特征，其中，所述微表情提取模型的训练过程为现有技术，本实施例在此不做详述。

本实施例中，可以预先获取训练好的声纹提取模型，将所述第一音频输入至预先训练好的声纹提取模型中，提取出所述用户的第一声纹特征值，其中，所述声纹提起模型的训练过程为现有技术，所述第二声纹特征提取方式与所述第一声纹特征提取方式相同，本实施例在此不做详述。

S14，将所述第一微表情特征输入至预先训练好的微表情识别模型中，及将所述第一声纹特征值输入至预先训练好的声纹识别模型中，及计算所述第二声纹特征值与所述用户的注册声纹的相似度。

本实施例中，可以预先训练微表情识别模型及声纹识别模型，具体地，所述微表情识别模型的训练过程包括：

获取多个历史用户的多个微表情；

将所述多个历史用户的多个微表情作为样本数据集；

将所述样本数据集划分为训练集和测试集；

输入所述训练集至预设神经网络中进行训练，得到微表情识别模型；

输入所述测试集至所述微表情识别模型中进行测试；

获取测试通过率；

当所述测试通过率大于或者等于预设通过率阈值，结束所述微表情识别模型的训练；当所述测试通过率小于所述预设通过率阈值，则增加训练集的数量，重新进行微表情识别模型的训练。

本实施例中，所述声纹识别模型的训练过程与上述微表情识别模型的训练过程一致，采用的样本数据集不同，声纹识别模型中采用的样本数据集中由多个历史用户的多个声纹特征值组成。

在一个可选的实施例中，所述计算所述第二声纹特征值与所述用户的注册声纹的相似度包括：

提取所述用户的注册声纹中的第三声纹特征值；

本实施例中，由于第二声纹特征值是从视频流中的所有音频中提取的，通过计算所述第二声纹特征值与所述第三声纹特征值之间的相似度，避免了用户中途被替换了仍进行面签的问题，提高了面签安全性。

本实施例中，预设相似度算法可以为余弦相似度算法、切比雪夫相似度算法、欧式距离相似度算法等，本发明实施例在此不做限定。

S15，根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份。

本实施例中，在进行用户的身份验证时，从用户的微表情特征、声音特征多个方面进行了考虑，确保了验证的准确率。

在一个可选的实施例中，所述根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份包括：

本实施例中，在无感知的情况下获取视频流，对用户的身份从微表情、声纹特征等多个方面进行了验证，提高了验证的效率及用户的体验度。

S16，当所述用户身份验证通过时，触发面签指令并生成虚拟面审员，响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签。

本实施例中，在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与所述用户进行面签，一方面，解决了传统的金融机构采用面审员与借款人面对面方式及真实面审员与借款人通过视频进行面签时，需要大量真实面审员，带来了高昂的人力成本，可能引起面签效率低及用户体验差的问题，同时避免了真实面审员的人为情绪影响面签效率及用户体验度的问题，提高用户的体验度及面签效率，另一方面，虚拟面审员可以不用休息，没有上下班时间，可以实施24小时全面在线服务，提高了面签的效率。

在一个可选的实施例中，所述触发面签指令并生成虚拟面审员包括：

在一个可选的实施例中，所述响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签包括：

响应于所述业务办理指令获取面签流程；

本实施例中，所述面签流程包括整个面签过程中的每个面签节点，及每个面签节点需要面审员执行的真实动作。

S17，当所述用户身份验证未通过时，基于所述业务办理指令对所述用户进行第二次身份验证。

具体地，所述基于所述业务办理指令对所述用户进行第二次身份验证包括：

基于所述业务办理指令从预设的多个数据源获取所述用户信息；

基于所述用户信息按照预设的生成规则生成面签的目标问答卷，并将所述目标问答卷发送至所述客户端；

接收所述客户端上报的目标问答卷的答案，基于所述目标问答卷的答案计算所述目标问答卷的正确率；

当所述目标问答卷的正确率大于或者等于预设的正确率阈值时，确定所述用户第二次身份验证通过；或者

当所述目标问答卷的正确率小于所述预设的正确率阈值时，确定所述用户第二次身份验证未通过。

本实施例中，可以预先设置多个数据源，具体地，所述数据源用以获取用户的信息，其中，所述数据源可以为公安系统，也可以为银行系统等其他可以获取用户信息的第三方平台，所述用户信息可以包括用户的基本信息、银行账号信息、人际关系信息及家属信息等其他信息。

本实施例中，可以预先设置面签的目标问答卷的生成规则，根据获取到的用户信息按照所述预设的生成规则为所述用户生成目标问答卷，其中，所述目标问答卷中包含有填空题、单项选择题、多项选择题、简答题等。

本实施例中，在得到用户上报的目标问答卷的答案时，通过将计算得到的所述目标问答卷的正确率与预设的正确率阈值进行比对，根据比对结果确定所述用户的身份是否能够通过。

本实施例中，由于在生成目标问答卷的时候考虑到了用户的人际关系信息及家属信息，根据所述目标问答卷的正确率可以准确的验证用户的身份，提高了用户身份验证的准确率，进而提高了面审的安全性。

本实施例中，当所述用户身份验证未通过时，可能是用户感冒了，或者用户做整容手术导致用户的微表情特征值发生了变化，故为了避免上述问题，对所述用户进行第二次身份验证，根据第二次身份验证结果确定是否启动面签，当用户的第二次身份验证通过时，启动面签，避免了第一次身份验证出现误差导致的用户无法进行面签的问题，提高了面签的效率及准确率。

进一步地，所述方法还包括：

当所述用户的第二次身份验证通过时，执行步骤S16。

进一步地，所述方法还包括：

当所述用户的第二次身份验证未通过时，拒绝触发面签。

在其他可选的实施例中，当在验证用户身份过程中，为了进一步的考虑到用户的身份验证的风险性，可以采集多个周期的视频流进行身份验证。

具体地，将当前周期的微表情的识别结果与下个周期的微表情的识别结果进行比对，或者将当前周期的声纹识别结果与下个周期的声纹识别结果进行比对，根据比对结果进一步验证所述用户的身份。

在其他可选的实施例中，在验证用户身份的过程中，为了确保输入的多张图像的准确率，可以对所述多张图像进行预处理，去除所述图像中的背景。

在其可选的实施例中，在获取到视频流之后，在进行用户身份验证时，可以通过所述视频流确定所述用户所处的环境及准确识别所述用户的位置信息，根据所述用户所处的环境及所述用户的位置信息确定所述用户的风险等级。

综上所述，本实施例所述的基于人工智能的视频面签方法，一方面，通过从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频，由于图像中包含有人脸图像，通过获取包含有人脸图像的连续帧图像的起始时间和接收时间对应的第一音频，减少了没有人脸图像中的音频数据的打扰，减少了第一音频的时间，同时确保了第一音频的准确性；另一方面，在无感知的情况下获取视频流，对用户的身份从微表情、声纹特征等多个方面进行了验证，提高了验证的效率及用户的体验度；最后，在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与所述用户进行面签，避免了真实面审员的人为情绪影响面签效率及用户体验度的问题，同时虚拟面审员可以不用休息，没有上下班时间，可以实施24小时全面在线服务，提高了面签的效率及用户的体验度。

实施例二

在一些实施例中，所述基于人工智能的视频面签装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的视频面签装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1描述)基于人工智能的视频面签的功能。

本实施例中，所述基于人工智能的视频面签装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：接收模块201、解析模块202、提取模块203、输入模块204、验证模块205、控制模块206及触发模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

接收模块201，用于接收客户端发送的业务办理指令，响应于所述业务办理指令启动对应的视频设备。

解析模块202，用于从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频。

在一个可选的实施例中，所述解析模块202解析所述视频流获取所述用户的多张图像、第一音频及第二音频包括：

从所述视频流中提取所有音频确定为所述用户的第二音频。

提取模块203，用于从所述多张图像中提取所述用户的第一微表情特征，及从所述第一音频中提取第一声纹特征值。

本实施例中，可以预先获取训练好的声纹提取模型，将所述第一音频输入至预先训练好的声纹提取模型中，提取出所述用户的第一声纹特征值，其中，所述声纹提起模型的训练过程为现有技术，本实施例在此不做详述。

输入模块204，用于将所述第一微表情特征输入至预先训练好的微表情识别模型中，及将所述第一声纹特征值输入至预先训练好的声纹识别模型中，及计算所述第二声纹特征值与所述用户的注册声纹的相似度。

获取多个历史用户的多个微表情；

将所述多个历史用户的多个微表情作为样本数据集；

将所述样本数据集划分为训练集和测试集；

输入所述测试集至所述微表情识别模型中进行测试；

获取测试通过率；

提取所述用户的注册声纹中的第三声纹特征值；

验证模块205，用于根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份。

在一个可选的实施例中，所述验证模块205根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份包括：

控制模块206，用于当所述用户身份验证通过时，触发面签指令并生成虚拟面审员，响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签。

在一个可选的实施例中，所述控制模块206触发面签指令并生成虚拟面审员包括：

在一个可选的实施例中，所述控制模块206响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签包括：

响应于所述业务办理指令获取面签流程；

所述验证模块205，还用于当所述用户身份验证未通过时，基于所述业务办理指令对所述用户进行第二次身份验证。

进一步地，当所述用户的第二次身份验证通过时，触发面签指令并生成虚拟面审员，响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签。

进一步地，触发模块207，用于当所述用户的第二次身份验证未通过时，拒绝触发面签。

综上所述，本实施例所述的基于人工智能的视频面签装置，一方面，通过从所述视频设备中采集用户的视频流，解析所述视频流获取所述用户的多张图像、第一音频及第二音频，由于图像中包含有人脸图像，通过获取包含有人脸图像的连续帧图像的起始时间和接收时间对应的第一音频，减少了没有人脸图像中的音频数据的打扰，减少了第一音频的时间，同时确保了第一音频的准确性；另一方面，在无感知的情况下获取视频流，对用户的身份从微表情、声纹特征等多个方面进行了验证，提高了验证的效率及用户的体验度；最后，在进行面签时，通过控制虚拟面审员模拟真实面审员的真实动作与所述用户进行面签，避免了真实面审员的人为情绪影响面签效率及用户体验度的问题，同时虚拟面审员可以不用休息，没有上下班时间，可以实施24小时全面在线服务，提高了面签的效率及用户的体验度。

实施例三

参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的基于人工智能的视频面签装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图像处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的视频面签装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于人工智能的视频面签的目的。

示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器32执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如，所述程序代码可以被分割成接收模块201、解析模块202、提取模块203、输入模块204、验证模块205、控制模块206及触发模块207。

在本发明的一个实施例中，所述存储器31存储多个计算机可读指令，所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的视频面签的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于人工智能的视频面签方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于人工智能的视频面签方法，其特征在于，所述解析所述视频流获取所述用户的多张图像、第一音频及第二音频包括：

从所述视频流中提取所有音频确定为所述用户的第二音频。

3.如权利要求2所述的基于人工智能的视频面签方法，其特征在于，所述根据所述多张图像的时间戳确定第一音频的初始时间和结束时间包括：

4.如权利要求1所述的基于人工智能的视频面签方法，其特征在于，所述计算所述第二声纹特征值与所述用户的注册声纹的相似度包括：

提取所述用户的注册声纹中的第三声纹特征值；

5.如权利要求1所述的基于人工智能的视频面签方法，其特征在于，所述根据所述微表情识别模型输出的第一识别结果、所述声纹识别模型输出的第二识别结果及计算得到的相似度，验证所述用户的身份包括：

6.如权利要求1所述的基于人工智能的视频面签方法，其特征在于，所述触发面签指令并生成虚拟面审员包括：

7.如权利要求1所述的基于人工智能的视频面签方法，其特征在于，所述响应于所述面签指令获取所述虚拟面审员模拟的真实面审员的真实动作，控制所述虚拟面审员模拟所述真实动作与所述用户进行面签包括：

响应于所述业务办理指令获取面签流程；

8.一种基于人工智能的视频面签装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的视频面签方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的视频面签方法。