CN111222854B

CN111222854B - 基于面试机器人的面试方法、装置、设备及存储介质

Info

Publication number: CN111222854B
Application number: CN202010042503.0A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2024-04-09
Anticipated expiration: 2040-01-15
Also published as: CN111222854A

Abstract

本发明涉及人工智能技术领域，公开了一种基于面试机器人的面试方法，通过根据被面试者来选择对应的面试试题以及面试试题要求的表情姿态来生成面试唇形视频帧和面试人脸表情视频帧，根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频。本发明还提供了一种基于面试机器人的面试装置、设备及计算机可读存储介质，通过该面试机器人进行面试，可以完全虚拟出面试官的面试表情，使得备面试得到更好的面试体验，从而提高面试的效果。

Description

基于面试机器人的面试方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于面试机器人的面试方法、装置、设备及计算机可读存储介质。

背景技术

随着智能家居技术的不断发展，尤其是人脸检测机器人方向上的发展，在各种应用场景都涉及，目前百度、阿里、腾讯等各大厂商以及高校在人脸检测领域都有较大的突破，人脸检测也均做到很高的精度；而视频生成目前是一项非常前沿的技术，在很多公司为了减少人供资源的使用，开始逐步使用智能面试系统对被面试者进行面试做初步的筛选，但是在现有技术中，主要是通过设置一个机器人，在机器人的显示屏上推送一些面试资料，或者同时显示机器人的头像的方式来实现面试和对面试者的录像，而并没有实现对对机器人本身的虚拟真人化。

发明内容

本发明的主要目的在于提供一种基于面试机器人的面试方法、装置、设备及计算机可读存储介质，旨在解决现有的面试机器人对于面试官的映射不够真实化，导致面试效果不佳的技术问题。

为实现上述目的，本发明提供一种基于面试机器人的面试方法，应用于机器人面试系统，所述基于面试机器人的面试方法包括以下步骤：

在接收到被面试者的面试指令后，获取所述被面试者的身份认证信息进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

若身份认证通过，则获取所述被面试者所要面试的岗位信息；

根据所述岗位信息，从所述机器人面试系统中预设的面试数据库中，调取对应的面试试题，其中，所述面试试题包括文本面试问题和陈述所述文本面试问题时面试官的表情姿态信息，以及还包括文本面试问题和表情姿态信息之间的对应关系；

将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧，其中所述面试唇形视频帧中每个视频帧的排序与音频同步的时间序列一致；

将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧，其中所述面试人脸表情视频帧中每个视频帧的排序与音频同步的时间序列一致；

根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频。

可选地，所述将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧的步骤包括：

采用文字分割技术对所述文本面试问题进行分割，形成一个关键词集合；

根据预先训练好的关键词的发音与唇形特征的对应关系，从预设的唇形特征库中查询出所述关键词集合中每个关键词的发音的唇形特征，得到唇形特征视频帧；

根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧。

可选地，所述将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧的步骤，还包括：

对所述关键词集合中的每个关键词进行近音的拓展分析，并对拓展分析得到的拓展关键词进行语义分析，确定所述拓展关键词的属性信息；

根据所述属性信息和词语发音原理，确定所述拓展关键词的唇形特征；

根据所述拓展关键词的唇形特征对所述面试唇形视频帧中的唇形特征视频帧进行调整；

将调整后的唇形特征视频帧和调整前的唇形特征视频帧合成新的唇形特征视频帧。

可选地，在所述根据预先训练好的关键词的发音与唇形特征的对应关系，从预设的唇形特征库中查询出所述关键词集合中每个关键词的发音的唇形特征，得到唇形特征视频帧的步骤之后，还包括：

基于深度学习的端对端语音合成模型中的文本转换语音网络，将所述关键词集合转换为语音，以及记录转换语音时的唇形特征/表情姿态点播放的时间延迟记忆网络。

可选地，所述根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧包括：

根据所述时间延迟记忆网络，对所述唇形特征视频帧进行排序，得到唇形播放视频；

采用视频合成技术，将所述语音添加至所述唇形播放视频中，得到所述面试唇形视频帧。

可选地，所述将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧包括：

根据所述基本表情元素确定陈述所述文本面试问题的脸部情绪的情绪类型；

从所述机器人面试系统中预设的表情模型库中，选择与所述情绪类型对应的表情生成模型；

将所述表情姿态信息输入至所述表情生成模型中，通过所述表情生成模型计算出完整人脸表情纹理图，并采用预设的径向基函数将所述人脸表情纹理图转换为动态人脸表情图，输出所述面试人脸表情视频帧。

可选地，所述表情姿态信息包括表示生气、悲伤、厌恶、惊讶、恐惧和高兴六个基本表情元素中的至少一种。

为了解决上述的问题，本发明还提供了一种基于面试机器人的面试装置，所述基于面试机器人的面试装置包括：

认证模块，用于接收到被面试者的面试指令后，获取所述被面试者的身份认证信息进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

匹配模块，用于若身份认证通过，则获取所述被面试者所要面试的岗位信息；以及根据所述岗位信息，从所述机器人面试系统中预设的面试数据库中，调取对应的面试试题，其中，所述面试试题包括文本面试问题和陈述所述文本面试问题时面试官的表情姿态信息，以及还包括文本面试问题和表情姿态信息之间的对应关系；

视频帧提取模块，用于将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧，其中所述面试唇形视频帧中每个视频帧的排序与音频同步的时间序列一致；以及将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧，其中所述面试人脸表情视频帧中每个视频帧的排序与音频同步的时间序列一致；

视频合成模块，用于根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频。

可选地，所述视频帧提取模块包括唇形提取单元，用于采用文字分割技术对所述文本面试问题进行分割，形成一个关键词集合；根据预先训练好的关键词的发音与唇形特征的对应关系，从预设的唇形特征库中查询出所述关键词集合中每个关键词的发音的唇形特征，得到唇形特征视频帧；根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧。

可选地，所述唇形提取单元还用于：对所述关键词集合中的每个关键词进行近音的拓展分析，并对拓展分析得到的拓展关键词进行语义分析，确定所述拓展关键词的属性信息；根据所述属性信息和词语发音原理，确定所述拓展关键词的唇形特征；

根据所述拓展关键词的唇形特征对所述面试唇形视频帧中的唇形特征视频帧进行调整；将调整后的唇形特征视频帧和调整前的唇形特征视频帧合成新的唇形特征视频帧。

可选地，所述视频帧提取模块还包括转换单元，用于基于深度学习的端对端语音合成模型中的文本转换语音网络，将所述关键词集合转换为语音，以及记录转换语音时的唇形特征/表情姿态点播放的时间延迟记忆网络。

可选地，所述唇形提取单元根据所述时间延迟记忆网络，对所述唇形特征视频帧进行排序，得到唇形播放视频；根据视频合成技术，将所述语音添加至所述唇形播放视频中，得到所述面试唇形视频帧。

可选地，所述视频帧提取模块还包括表情提取单元，用于根据所述基本表情元素确定陈述所述文本面试问题的脸部情绪的情绪类型；从所述机器人面试系统中预设的表情模型库中，选择与所述情绪类型对应的表情生成模型；将所述表情姿态信息输入至所述表情生成模型中，通过所述表情生成模型计算出完整人脸表情纹理图，并采用预设的径向基函数将所述人脸表情纹理图转换为动态人脸表情图，输出所述面试人脸表情视频帧。

此外，为实现上述目的，本发明还提供了一种基于面试机器人的面试设备，基于面试机器人的面试设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于面试机器人的面试程序，所述基于面试机器人的面试程序被所述处理器执行时实现如上任一项所述的基于面试机器人的面试方法的步骤。

此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有基于面试机器人的面试程序，所述基于面试机器人的面试程序被所述处理器执行时实现如上任一项所述的基于面试机器人的面试方法的步骤。

本发明通过提供一种可以实现情绪化的面试机器人，该面试机器人具体的通过根据被面试者来选择对应的面试试题以及面试试题要求的表情姿态来生成面试机器人的面试画面视频，通过该面试机器人进行面试，可以完全虚拟出面试官的面试表情，使得备面试得到更好的面试体验，从而提高面试的效果。

附图说明

图1为本发明实施例方案涉及的面试系统的运行环境的结构示意图；

图2为本发明提供的基于面试机器人的面试方法第一实施例的流程示意图；

图3为本发明提供的基于韵母划分的唇形特征的示意图；

图4为本发明提供的基于面试机器人的面试方法的特征提取示意图；

图5为本发明提供的基于面试机器人的面试方法第二实施例的流程示意图；

图6为本发明提供的基于面试机器人的面试方法第三实施例的流程示意图；

图7为本发明提供的基于面试机器人的面试装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种面试系统，参照图1，图1为本发明实施例方案涉及的面试系统的运行环境的结构示意图。

如图1所示，该面试系统包括：处理器101，例如CPU，通信总线102、用户接口103，网络接口104，存储器105。其中，通信总线102用于实现这些组件之间的连接通信。用户接口103可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口104可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器105可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器105可选地还可以是独立于前述处理器101的存储装置。

本领域技术人员可以理解，图1中示出的面试系统的硬件结构并不构成对本发明中的基于面试机器人的面试装置和基于面试机器人的面试设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器105中可以包括操作系统、网络通信程序模块、用户接口程序模块以及用于实现AI面试机器人的生成的程序。其中，操作系统是调度面试系统中各模块之间的通信以及执行存储器中存储的基于面试机器人的面试程序，以实现对被面试者的面试操作。

在图1所示的面试系统的硬件结构中，网络接口104主要用于接入网络；用户接口103主要用于监控是否需要进行面试操作，若需要则控制处理器101调用存储器105中存储的基于面试机器人的面试程序，实现以下基于面试机器人的面试方法的各实施例的操作。

基于上述面试系统的硬件结构，提出本发明基于面试机器人的面试方法的各个实施例，当然面试系统只是用于执行本发明实施例提供的基于面试机器人的面试方法的一种实现设备，在实际应用中，其实现设备也可以是一种面试机器人，该面试机器人可以是AP或者VR设备，通过执行该方法来实现对机器人的虚拟现实，从而增强被面试者的面试体验感。

参照图2，图2为本发明实施例提供的基于面试机器人的面试方法的流程图。在本实施例中，该方法通过该在获取面试过程中，获取被面试者在面试过程中的视频，所属视频包括被面试者的人脸样本集，并根据所述人脸样本集结合大数据分析构建人脸检测模型；在检测到被面试者之后，触发面试问题，未检测到面试者则提示面试者调整坐姿面向机器人。在面试过程中，面试机器人提供面试剧本中的文本面试问题，并根据所述文本面试问题结合大数据分析构建汉字到唇形生成模型以及高清虚拟人脸生成模型；

在面试过程中，所述文本面试问题包括面试问题中文汉字；将所述中文汉字上传至所述汉字到唇形生成模型中生成对应的唇形，获得AI视频画面；根据所述AI视频画面基于面试问题的中文文本顺序组合生成AI面试机器人，该基于面试机器人的面试方法具体包括以下步骤：

步骤S210，获取所述被面试者的身份认证信息进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

在该步骤中，在对被面试者的身份认证之前，还需要在面试系统中设置被面试者的相关信息，具体是通过招聘的负责人在通知被面试者时，在所述机器人面试系统中录入被面试者的身份信息，例如身份证信息、人脸图像，甚至还可以是指纹信息等等，然后当系统接收到被面试者的操作指令后，系统启动面试的程序。

在实际应用中，该机器人面试系统可以是一个网站，也可以是一个显示装置，甚至还可以是一种虚拟实现设备，被面试者可以通过面试邮件携带的网址访问招聘网页，或者是到了面试公司后，选择对应的面试设备来实现面试。

在本实施例中，系统通过信息采集设备来采集被面试者的身份信息，如果是网页访问的，可以是通过身份或者人脸图像来验证，如果是显示设备或者是虚拟实现设备时，可以通过人脸图像或者指纹。

在实际应用中，对于身份认证，可以通过人脸检测模型来实现，具体通过获取被面试者在面试过程中的视频，所属视频包括被面试者的人脸样本集，并根据所述人脸样本集结合大数据分析构建人脸检测模型；在检测到被面试者之后，触发面试问题，未检测到面试者则提示面试者调整坐姿面向机器人。

步骤S220，若身份认证通过，则获取所述被面试者所要面试的岗位信息；

在实际应用中，不同的岗位会有不同的面试官进行面试，即是会采用不同的面试试题，通过把不同的岗位信息来控制系统自动选择对应的面试试题，同时该面试的岗位信息也是有招聘的负责人进行设置输入。

当被面试者的身份认证成功后，系统自动进入面试流程，获取对应的岗位信息，获得面试的试题进行面试，若身份认证不成功，则提醒被面试者调整身份认证的姿态，具体的，其提醒可以是通过语音播放的方式，也可以是显示的方式。

步骤S230，根据所述岗位信息，从预设的面试数据库中调取对应的面试试题，所述面试试题包括文本面试问题、陈述所述文本面试问题时面试官的表情姿态信息、以及文本面试问题和表情姿态信息之间的对应关系；

在本实施例中，在面试数据库中设置有该公司的所有岗位和岗位的要求，基于不同的要求设置不同的面试试题，而面试试题是对应于岗位的，通过该收集或者自定义出面试试题后，建立面试试题与岗位之间的对应关系，在使用过程中，通过该对应关系和岗位信息，可以从面试数据库中选择合适的面试试题。

在本实施例中，由于在后续需要对面试试题进行转化，虚拟到面试机器人上，以实现面试官的真实面试，因此，在定义面试试题时，除了需要定义文本面试问题之外，还需要定义面试官陈述面试题时所采用的表情姿态。

在实际应用中，面试问题于表情姿态之间的对应关系，可以是一个问题对应一种表情姿态，可以是对应多种表情姿态。进一步的，该表情姿态可以是针对面试问题的开始表情，而对于后续的表情姿态可以设置为根据被面试者的回复来确定下一面试问题的表情姿态，这样打打增加了面试机器人的趣味性，可以实现给被面试者适当的压力，从而达到更好的面试效果。

步骤S240，将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧，其中所述面试唇形视频帧中每个视频帧的排序与音频同步的时间序列一致；

在该步骤中，对于唇形转换模型具体可以通过以下方式训练得到：

通过获取有声视频图像，具体通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音；

对获取到的有声视频图像进行音频与视频分析，具体可以通过计算机根据图像分析技术对所述唇部视频图像进行分析，首先记录视频中每帧的图像唇形特征，由计算机根据语音识别技术对所述说话声音进行分析，获得文字信息，建立该文字和唇形特征之间的对应关系，最后进行反复的验证训练，从而得到唇形转换模型。

步骤S250，将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧，其中所述面试人脸表情视频帧中每个视频帧的排序与音频同步的时间序列一致；

在该步骤中，面试机器人根据剧本提供面试剧本中的文本面试问题，然后根据文本和唇形、表情的映射关系获取对应的唇形特征以及表情特征；根据表情特征和唇形特征生成面试人脸视频帧。

步骤S260，根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频。

在实际应用中，所述虚拟面试机器人雏形通过记录面试官的人脸图像进行勾画出来的高清虚拟人脸生成模型，根据高清虚拟人脸生成模型的动态帧变化情况，将所述人脸视频帧转换成符合动态帧变化情况的视频帧后，将视频帧依次融合到高清虚拟人脸生成模型，以生成与面试官基本相同的视频机器人的画面视频，被面试者基于该生成的画面视频来进行现场的面试。

通过本实施例提供的基于面试机器人的面试方法，通过结合文本的语音、发音唇形和表情变化来生成AI视频面试机器人，突破了以往语音图像合成领域中的虚拟形象，提高了被面试者信息获取的真实度。提供虚拟视频面试官进行面试，提升面试的感受。

在本实施例中，对于步骤S240中的唇形转换模型可以理解为是学习了中文文字与其发音唇形对应关系的模型，通过该模型来实现文字到视频的转换，其具体步骤包括：

利用文字分割技术对所述文本面试问题进行分割，形成一个关键词集合；

即是将文本面试问题分割切成一个个的中文汉字，得到文字的集合，然后对每个文字进行发音唇形的查询，转换为唇形的视频帧集合，基于该视频帧集合进行合成处理，得到文本面试问题的存储特征视频帧。

在实际应用中，该唇形转换模型还可以是直接输出动态图像的模型，即是通过深度学习的算法来学习中文汉字的发音唇语，基于该发音唇语的学习形成一个模型，在使用时，通过输入中文汉字，模型将中文汉字转换为发音的唇形动态图像，然后将所有的动态图像连接起来得到该文本面试问题的唇形特征视频帧。

在本实施例中，将动态图像连接在一起时，具体是按照所述文本面试问题中的中文汉字的排序进行连接。

在实际应用中，在对文本面试问题进行分割的过程中，为了更准确的识别出问题中所包含的面试意图信息，需要依赖于所使用的意图识别模型来对文本面试问题进行识别分割，较佳地，这里的意图识别模型可基于以下方法进行构建，从而保证识别结果的准确性和适用性，其实现原理如下：

首先，将所述文本面试问题中的内容进行问、答语句的分类。

在本步骤中，可先对文本面试问题中的问语句、答语句进行分类，确定出文本面试问题中的每个语句中所归属的类型。

然后，分别对分类后的所述问语句和所述答语句进行合并，得到问语句集合、答语句集合。

在该步骤中，通过意图识别模型将文本面试问题中的问语句进行提取，合并并归为一类，答语句也进行相同处理，从而得到问语句集合、答语句集合。

进一步的，通过权重比的计算方式对识别出来的语句按照面试职位来进行筛选，以便于在面试完成后，对面试者的情况进行综合评估。

在本实施例中，对于意图识别模型具体可以通过历史的面试数据来进行训练得到，同时也可以提高意图识别模型的识别精准度。

在提取出训练样本后，分别对所述问语句集合、所述答语句集合进行聚类，获得相应的分类。

具体而言，可基于K-means聚类算法，分别将问语句集合和答语句集合进行聚类，以将这两个语句集合再分别划分为多个小类别。

从各所述分类语句中分别抽取预设数量的训练语句。

在本实施例中，对于所述将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧的步骤，还包括：

在实际应用中，对于上述的分词扩展唇形特征具体可以由三种实现方式：

第一种实现方式：基于每个分词中的韵母划分类别方式。

在分析大量唇形数据后发现，唇形主要取决于分词的韵母(例如，a、ang、ao等)。因此，可以基于韵母多个唇形类别，以及，与唇形类别对应的唇形图像。参见图3为基于韵母划分的一些唇形的示意。

因此在获得分词后，可以基于分词的韵母，查找得到与韵母对应的唇形图像。例如，以“大”为例，其韵母为“a”，则查找与韵母“a”对应的唇形图像。

第二实现方式：基于声母和韵母划分类别的方式。

唇形主要取决于分词的韵母，但是分词的声母也会对唇形产生一些差别，所以，可以基于分词的声母和韵母共同确定唇形图像。

因此在获得分词后，可以基于分词的声母和韵母，查找得到与声母和和韵母共同对应的唇形图像。例如，以“大”为例，其声母为“d”、韵母为“a”，则查找与声母和韵母“da”共同对应的唇形图像。

第三实现方式：基于唇形图像模型来确定唇形图像。

预先基于声母和韵母来训练唇形图像模型，关于唇形图像模型可以基于目前训练模型来训练大量词语的声母、韵母及其唇形数据，并得到训练完成后的唇形图像模型。

因此，在获得分析后可以获得分词的声母和韵母，并将其输入至唇形图像模型，经唇形图像模型计算后，获得与分词对应的唇形图像。

在本实施例中，通过上述的唇形转换模型进行转换后，得到的是静音的视频帧，而在面试时，被面试者需要听取语音进行获取面试的试题信息，因此，在步骤S240中还需要进行文字的语音转换，具体流程为：

所述将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧的步骤，还包括：

在实际应用中，主要用到三个网络结构，分别是基于Char2Wav的文本转语音网络、用于生成与音频同步的唇形/表情特征点的时间延迟LSTM网络，和基于唇形和表情特征用于生成基于特征点的视频帧的网络。

在本实施例中，在语音转换时，应当按照关键词在文本面试问题中的顺序进行转换，得到的是文本面试问题的语音面试音频，同时还要记录音频的时间网络，当然该时间网络的记忆点还需要根据关键词的分割规律来进行断点，以实现时间网络与视频帧的同步。

此时，在生成面试唇形视频帧时，还需要进行语音的合成，具体的过程如下：

所述根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧包括：

根据视频合成技术，将所述语音添加至所述唇形播放视频中，得到所述面试唇形视频帧。

即是在面试过程中，所述文本面试问题包括面试问题中文汉字；将所述中文汉字上传至所述汉字到唇形生成模型中生成对应的唇形，获得AI视频画面；根据所述AI视频画面基于面试问题的中文文本顺序组合生成AI面试机器人。

在本实施例中，根据面试剧本文本面试问题生成唇形、表情，然后根据唇形、表情数据生成视频的过程如图4所示。

根据图4可以知道，视频面试机器人生成的实现过程还可以如图5所示，具体步骤包括：

步骤S510、在面试过程中，面试机器人根据剧本提供面试剧本中的文本面试问题；

步骤S520、根据文本和唇形、表情的映射关系获取对应的唇形特征以及表情特征；

步骤S520、根据表情特征和唇形特征生成面试人脸视频帧，视频帧通过音频同步按照序列关系生成视频面试机器人；

步骤S520、主要用到三个网络结构，分别是基于Char2Wav的文本转语音网络、用于生成与音频同步的唇形/表情特征点的时间延迟LSTM网络，和基于唇形和表情特征用于生成基于特征点的视频帧的网络。

进一步的，对于步骤S250，若所述表情姿态信息包括表示生气、悲伤、厌恶、惊讶、恐惧和高兴六个基本表情元素中的至少一种；

所述将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧包括：

将所述表情姿态信息输入至所述表情生成模型中，通过所述表情生成模型计算出完整人脸表情纹理图，并利用预设的径向基函数将所述人脸表情纹理图转换为动态人脸表情图，输出所述面试人脸表情视频帧。

在实际应用中，对于通过该径向基函数技术(RBF)进行动态形变得到完整人脸表情视频帧具体实现过程为：将表情特征导入→计算特征点位移→计算变形系数矩阵→计算每个顶点位移矩阵→计算个性化人脸模型位置矩阵→个性化人脸模型生成，也即是通过径向基函数对人脸表情纹理图中的表情纹理按照人脸上的肌能表动原理进行动态的设置，以实现对不同人脸表情的形成，从而实现视频帧的转换，具体的在动态设置的过程中还需要结合虚拟出来的面试机器人的人脸雏形来实现。

对该RBF变形算法流程的具体说明如图6所示：

步骤S610，将该情绪的表情特征和高清虚拟人脸生成模型的数据导入，其中高清虚拟人脸生成模型采用Poser5.0导出的模型；

步骤S620，导入表情特征后，选择一个基准点，并通过选定的基准点来重新计算高清虚拟人脸生成模型和表情特征的坐标，然后对高清虚拟人脸生成模型和表情特征进行归一化，让它们处于同一数量级，并且使高清虚拟人脸生成模型的尺寸和照片模型的尺寸相匹配；

步骤S630，通过计算得到表情特征，即控制点的位移矩阵，由RBF计算出RBF函数值构成方阵的每一个元素，计算控制点从高清虚拟人脸生成模型到情绪表情图像的变形系数；

步骤S640，将人体高清虚拟人脸生成模型数据进行导入，并由选定的点作为基准点重新计算得到初始矩阵，进而整体匹配高清虚拟人脸生成模型的数据和个性化人脸的尺寸，由RBF函数计算得到情绪表情图像的所有点的位移矩阵；

步骤S650，计算得到情绪表情图像的所有点的位置矩阵，生成AI人脸表情视频帧。

综上，本发明的基于人脸检测和视频生成的AI面试机器人相比现有的文本类面试机器人主要提供一个面试官的真人形象，且能够观察面试者的姿态，如果面试者不在画面则提示面试者矫正坐姿，基于高清虚拟人脸生成模型生成的真人面试官形象不会涉及真人肖像权，给面试官一种完全真实的面试体验，而且能够极大地提高面试效果。

为了解决上述的问题，本发明实施例还提供了一种基于面试机器人的面试装置，如图7所示，所述基于面试机器人的面试装置包括：

认证模块71，用于接收到被面试者的面试指令后，获取所述被面试者的身份认证信息并进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

匹配模块72，用于在身份认证通过后，获取所述被面试者所要面试的岗位信息；以及根据所述岗位信息，从所述机器人面试系统中预设的面试数据库中，调取对应的面试试题，所述面试试题包括文本面试问题和陈述所述文本面试问题时，面试官的表情姿态信息，以及文本面试问题和表情姿态信息之间的对应关系；

视频帧提取模块73，用于将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧，其中所述面试唇形视频帧中每个视频帧的排序与音频同步的时间序列一致；以及将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧，其中所述面试人脸表情视频帧中每个视频帧的排序与音频同步的时间序列一致；在实际应用中，该模块具体可以设置为唇形提取单元和表情提取单元来实现。

视频合成模块74，用于根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频。

基于本装置的执行功能和功能对应的执行流程与上述本发明实施例的基于面试机器人的面试方法实施例说明内容相同的，因此本实施例对基于面试机器人的面试装置的实施例内容不做过多赘述。

此外，本发明实施例还提供了一种基于面试机器人的面试设备，所述基于面试机器人的面试设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于面试机器人的面试程序，所述基于面试机器人的面试程序被所述处理器执行时所实现的方法可参照本发明基于面试机器人的面试方法的各个实施例，因此不再过多赘述。在实际应用中，该面试设备可以是通过服务器来搭建实现。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有基于面试机器人的面试程序，所述基于面试机器人的面试程序被一个或多个处理器执行时所实现的方法可参照本发明基于面试机器人的面试方法的各个实施例，因此不再过多赘述。具体的，这里的面试程序即是计算机可读指令，该指令是能实现上述实施例中提供的基于面试机器人的面试方法的计算机指令。

在本发明实施例提供的方法和装置，主要是通过结合文本的语音、发音唇形和表情变化来生成AI视频面试机器人，突破了以往语音图像合成领域中的虚拟形象，提高了被面试者信息获取的真实度。提供虚拟视频面试官进行面试，提升面试的感受。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是采用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于面试机器人的面试方法，应用于机器人面试系统，其特征在于，所述基于面试机器人的面试方法包括以下步骤：

在接收到被面试者的面试指令后，获取所述被面试者的身份认证信息并进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

若所述被面试者的身份认证通过，则获取所述被面试者所要面试的岗位信息；

根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频；

所述将所述文本面试问题输入至所述机器人面试系统中预设的唇形转换模型中，生成面试唇形视频帧的步骤包括：

根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧；

2.如权利要求1所述的基于面试机器人的面试方法，其特征在于，在所述根据预先训练好的关键词的发音与唇形特征的对应关系，从预设的唇形特征库中查询出所述关键词集合中每个关键词的发音的唇形特征，得到唇形特征视频帧的步骤之后，还包括：

3.如权利要求2所述的基于面试机器人的面试方法，其特征在于，所述根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧包括：

4.如权利要求1-3任一项所述的基于面试机器人的面试方法，其特征在于，所述将所述表情姿态信息输入至所述机器人面试系统中预设的表情生成模型中，生成面试人脸表情视频帧包括：

根据所述表情姿态信息确定陈述所述文本面试问题的脸部情绪的情绪类型；

5.如权利要求4所述的基于面试机器人的面试方法，其特征在于，所述表情姿态信息包括表示生气、悲伤、厌恶、惊讶、恐惧和高兴六个基本表情元素中的至少一种。

6.一种基于面试机器人的面试装置，其特征在于，所述基于面试机器人的面试装置包括：

认证模块，用于接收到被面试者的面试指令后，获取所述被面试者的身份认证信息并进行身份的认证，其中，所述身份认证信息包括人脸识别特征和指纹信息中的至少一种；

匹配模块，用于若身份认证通过，则获取所述被面试者所要面试的岗位信息；以及根据所述岗位信息，从机器人面试系统中预设的面试数据库中，调取对应的面试试题，其中，所述面试试题包括文本面试问题和陈述所述文本面试问题时面试官的表情姿态信息，以及还包括文本面试问题和表情姿态信息之间的对应关系；

视频合成模块，用于根据所述面试唇形视频帧和面试人脸表情视频帧生成人脸视频帧，结合预设的虚拟面试机器人雏形，生成用于面试所述被面试者的画面视频；

所述视频帧提取模块包括：

唇形提取单元，用于采用文字分割技术对所述文本面试问题进行分割，形成一个关键词集合；根据预先训练好的关键词的发音与唇形特征的对应关系，从预设的唇形特征库中查询出所述关键词集合中每个关键词的发音的唇形特征，得到唇形特征视频帧；根据所述文本面试问题的关键词排序，将所述唇形特征视频帧进行排列组合，得到所述面试唇形视频帧；

所述唇形提取单元用于：对所述关键词集合中的每个关键词进行近音的拓展分析，并对拓展分析得到的拓展关键词进行语义分析，确定所述拓展关键词的属性信息；根据所述属性信息和词语发音原理，确定所述拓展关键词的唇形特征；

7.如权利要求6所述的基于面试机器人的面试装置，其特征在于，所述视频帧提取模块还包括：

转换单元，用于基于深度学习的端对端语音合成模型中的文本转换语音网络，将所述关键词集合转换为语音，以及记录转换语音时的唇形特征/表情姿态点播放的时间延迟记忆网络。

8.如权利要求7所述的基于面试机器人的面试装置，其特征在于，所述唇形提取单元用于：

9.一种基于面试机器人的面试设备，其特征在于，所述基于面试机器人的面试设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于面试机器人的面试程序，所述基于面试机器人的面试程序被所述处理器执行时实现如权利要求1-5中任一项所述的基于面试机器人的面试方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于面试机器人的面试程序，所述基于面试机器人的面试程序被一个或多个处理器执行时实现如权利要求1-5中任一项所述的基于面试机器人的面试方法的步骤。