CN112884326A

CN112884326A - 一种多模态分析的视频面试评估方法、装置和存储介质

Info

Publication number: CN112884326A
Application number: CN202110199099.2A
Authority: CN
Inventors: 巨琰
Original assignee: Wuxi Aishi Intelligent Technology Co ltd
Current assignee: Wuxi Aishi Intelligent Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-01

Abstract

本发明提供一种多模态分析的视频面试评估方法，包括以下步骤：接收应聘具体岗位的面试者在面试时的短视频；提取短视频中的音频数据和视频数据；通过提取音频数据的梅尔频率倒谱系数做为基于语音分析的表达能力评估模型的输入，得到基于语音分析的表达能力评估得分；通过对视频数据进行分析，作为个人基础属性的职业匹配模型、形象职业度评估模型、动作分析的人格评估模型的输入，分别得到基于个人基础属性的职业匹配度得分，形象职业度得分和基于动作分析的人格评估得分；通过、和，求和得到综合的岗位匹配度得分。本发明可实现海量视频简历中进行快速筛选，提高招聘效率。

Description

一种多模态分析的视频面试评估方法、装置和存储介质

技术领域

本发明涉及视频面试技术领域，尤其是一种多模态分析的视频面试评估方法。

背景技术

面试作为企业人才招聘过程中必经的一个环节，通过组织者的精心设计，包含一轮面试甚至多轮面试，在不同的阶段设定不同的场景，通过面对面的交谈与观察为主要手段，对面试者做由表及里的知识、能力、经验等有关素质的评测。对于求职者而言，传统的当面面试方法缺乏灵活性，尤其是对异地求职者的求职难度则更甚。对于企业而言，不同的面试阶段需要安排特定的面试官，在经济成本和时间成本上都存在着较大的弊端。

随着互联网技术和5G等技术的飞速发展，视频面试逐渐成为当下的一种应聘趋势。同时，将人工智能技术对视频面试者进行初步分析(包括基本属性、衣着职业度、动作分析和语音分析等)，用以判断对当前求职岗位的职业符合程度的量化结果，作为一种人力资源的评估维度。并实现从海量的面试者中快速找到适合岗位的人才，提高人力资源的效率。

发明内容

本发明的目的在于解决当前在招聘时效率低、缺乏灵活性、对招聘者和面试者互动形式依赖度高等问题，提供一种多模态分析的视频面试评估方法和装置，可实现海量视频简历中进行快速筛选，作为一种面试初审的参考，有效提高人力资源在人才招聘时的效率。

作为本发明的第一方面，本发明实施例提出一种多模态分析的视频面试评估方法，包括以下步骤：

接收应聘具体岗位的面试者在面试时的短视频；

提取短视频中的音频数据和视频数据；

通过提取音频数据的梅尔频率倒谱系数做为基于语音分析的表达能力评估模型的输入，得到基于语音分析的表达能力评估得分S₁；

通过对视频数据进行分析，作为个人基础属性的职业匹配模型、形象职业度评估模型、动作分析的人格评估模型的输入，分别得到基于个人基础属性的职业匹配度得分S₂，形象职业度得分S₃和基于动作分析的人格评估得分S₄；

通过基于语音分析的表达能力评估得分S₁、基于个人基础属性的职业匹配度得分S₂、形象职业度得分S₃和基于动作分析的人格评估得分S₄，求和得到综合的岗位匹配度得分S。

进一步地，所述基于语音分析的表达能力评估模型，通过以下步骤训练得到：

先对音频数据进行均值平滑滤波的预处理；

依据设定的采样频率fs，计算窗口win，计算步长step，提取音频数据的梅尔频率倒谱系数特征；

通过人工评定的标签和对应的梅尔频率倒谱系数特征训练基于语音分析的LSSVM表达能力评估模型。

进一步地，个人基础属性的职业匹配模型建立在性别和年龄的基础上；所述基于个人基础属性的职业匹配度得分S₂，通过以下步骤获得：

通过多任务卷积神经网络对视频流关键帧进行人脸检测，得到人脸框和人脸关键点，基于人脸关键点做人脸对齐并标准化裁剪；将标准化的人脸图片输入基于SSR-Net的性别和年龄预测模型，得到多个关键帧的平均预测年龄

和预测性别

分别代入到对应的个人基础属性的职业匹配模型中得到职业匹配度得分得分

和

分别为年龄和性别的分值权重。

进一步地，形象职业度评估模型建立在穿着和头部仪容的基础上；所述形象职业度得分S₃，通过以下步骤获得：

b1)首先训练基于CenterMask的穿着和头部实例分割模型；

b2)通过基于CenterMask的穿着和头部实例分割模型对视频流关键帧进行头部和衣着区域分割；并对背景图像做像素值[255，255，255]填充；

b3)以各自最大边界框对头部和衣着图像分别进行裁剪并归一化；

b4)依据人工评定的标签值将归一化后的头部和衣着图像分别训练基于SSR-Net的形象职业度评估模型；

b5)将归一化后的头部和衣着图像分别输入基于各自属性训练的SSR-Net形象职业度评估模型，得到多关键帧的平均头部形象职业度得分

和衣着形象职业度得分

依据两者的权重分值综合得到形象职业度分值

和

分别为头部和衣着的分值权重。

进一步地，动作分析的人格评估模型建立在微表情变化和姿态变化的基础上；所述基于动作分析的人格评估得分S₄，通过以下步骤获得：

微表情变化以预设单位时间内出现点头、摇头、闭眼、嘴巴开合变化的次数作为动作依据；通过3DDFA_V2算法识别每间隔预设时长内，短视频中面试者的多个人脸关键点；依据眼睛、嘴巴对应的人脸关键点中最大外部轮廓的长宽比变化作为指标，相邻两帧图像中所述长宽比的变化大于设定阈值则认为出现闭眼、嘴巴开合动作；依据人脸关键点计算头部的姿态估计，相邻两帧图像中头部的角度变化大于设定阈值则认为出现点头、摇头动作；

姿态变化以预设单位时间内出现手触碰嘴巴、鼻子、耳朵、头的次数作为动作依据；当手部坐标与人脸关键点中对应嘴巴、鼻子、耳朵或头部位的坐标的欧式距离满足小于设定阈值时，则认为出现相应动作；

依据心理学释义分配对应岗位在微表情变化和姿态变化上的权重分值，得到基于动作分析的人格评估分值S₄。

作为本发明的第二方面，本发明实施例还提出一种多模态分析的视频面试评估装置，包括：

存储器，存储有计算机程序；

处理器，用于运行所述计算机程序，所述计算机程序运行时执行如前文所述的方法的步骤。

作为本发明的第三方面，本发明实施例还提出一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被配置为运行时执行如前文所述的方法的步骤。

本发明的优点在于：本发明以多个模型的评估综合得分作为岗位匹配度的量化结果。本发明从面试人语言表达能力、基础属性、形象职业度和人格四种维度来实现面试者对当前岗位匹配度的评估。该方法可实现海量视频简历中进行快速的筛选，作为一种面试初审的参考，有效提高人力资源在人才招聘时的效率。

附图说明

图1为本发明实施例中一种多模态分析的视频面试评估方法的流程图。

图2为本发明实施例中通过各模型进行评估的详细过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

作为本发明的第一方面，本发明的实施例提出一种多模态分析的视频面试评估方法(以下简称评估方法)，包括以下步骤：

步骤S1，接收应聘具体岗位的面试者在面试时的短视频；

面试者可以通过安装在手机或电脑上的招聘软件客户端选择应聘的具体岗位，招聘软件客户端启动手机或电脑上的摄像头，并打开麦克风，记录面试者在面试时的短视频并上传至服务器端进行分析；本发明实施例中提出的评估方法，以计算机程序的形式在服务器端实现；

步骤S2，提取短视频中的音频数据和视频数据；

步骤S3，通过提取音频数据的梅尔频率倒谱系数(MFCC)做为基于语音分析的表达能力评估模型的输入，得到基于语音分析的表达能力评估得分S₁；

所述基于语音分析的表达能力评估模型可通过以下训练过程获得：

a1)先对音频数据进行3×3的均值平滑滤波的预处理；

a2)依据采样频率fs＝16000Hz，计算窗口win＝0.05，计算步长step＝0.05，提取音频数据的梅尔频率倒谱系数特征；

a3)通过人工评定的标签和对应的梅尔频率倒谱系数特征训练基于语音分析的LSSVM(最小二乘支持向量机)表达能力评估模型；

基于语音分析的LSSVM表达能力评估模型训练完成后，将提取的音频数据的梅尔频率倒谱系数输入该模型，就可以得到基于语音分析的表达能力评估得分S₁；

步骤S4，通过对视频数据进行分析，作为个人基础属性的职业匹配模型、形象职业度评估模型、动作分析的人格评估模型的输入，分别得到基于个人基础属性的职业匹配度得分S₂，形象职业度得分S₃和基于动作分析的人格评估得分S₄；

个人基础属性的职业匹配模型建立在性别和年龄的基础上，针对不同岗位，性别和年龄的权重将有不同的权重划分；

所述基于个人基础属性的职业匹配度得分S₂，通过以下步骤获得：

通过多任务卷积神经网络(MTCNN)对视频流关键帧进行人脸检测，得到人脸框和人脸关键点，基于人脸关键点做人脸对齐并标准化裁剪到112×112；将标准化的人脸图片输入基于SSR-Net的性别和年龄预测模型，得到多个关键帧的平均预测年龄

和预测性别

分别代入到对应的个人基础属性的职业匹配模型中得到职业匹配度得分

和

分别为年龄和性别的分值权重；

形象职业度评估模型建立在穿着和头部仪容的基础上；

所述形象职业度得分S₃，通过以下步骤获得：

b1)首先训练基于CenterMask的穿着和头部实例分割模型；

b3)以各自最大边界框对头部和衣着图像分别进行裁剪并归一化到112×112；

和衣着形象职业度得分

依据两者的权重分值综合得到形象职业度分值

和

分别为头部和衣着的分值权重；

动作分析的人格评估模型建立在微表情变化和姿态变化的基础上，微表情和姿态变化在心理学中是一种自发式的现象，它在人试图掩盖内在情绪时产生，既无法伪造也无法抑制持续时间在0.5～4s左右。将动作分析应用人格评估，特别是涉及到一些专业问题的回答上，具有一定的正相关意义；

所述基于动作分析的人格评估得分S₄，通过以下步骤获得：

微表情变化以预设单位时间内出现点头、摇头、闭眼、嘴巴开合变化的次数作为动作依据；通过3DDFA_V2算法识别每间隔预设时长内，短视频中面试者的68个人脸关键点；依据眼睛、嘴巴对应的人脸关键点中最大外部轮廓的长宽比变化作为指标，相邻两帧图像中所述长宽比的变化大于设定阈值则认为出现闭眼、嘴巴开合动作；依据人脸关键点计算头部的姿态估计，相邻两帧图像中头部的角度变化大于设定阈值则认为出现点头、摇头动作；

依据心理学释义分配对应岗位在微表情变化和姿态变化上的权重分值，得到基于动作分析的人格评估分值S₄；

步骤S5，综合的岗位匹配度得分S通过基于语音分析的表达能力评估得分S₁、基于个人基础属性的职业匹配度得分S₂、形象职业度得分S₃和基于动作分析的人格评估得分S₄，求和得到：

作为本发明的第二方面，本发明实施例还提出一种多模态分析的视频面试评估装置，包括：处理器与存储器；所述处理器与存储器之间相互通信，例如通过一种通信总线连接并相互通信；所述存储器中存储有计算机程序；所述处理器用于运行所述计算机程序，所述计算机程序运行时执行如上文所述的方法的步骤；处理器可采用CPU，或者其它通用处理器，数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片或电路的组合；存储器可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如快闪存储器，硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

作为本发明的第三方面，本发明实施例还提出一种存储介质，所述存储介质中存储有计算机程度，所述计算机程序被配置为运行时执行如前文所述的方法的步骤。存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。