CN114186983B

CN114186983B - 视频面试多维评分方法、系统、计算机设备及存储介质

Info

Publication number: CN114186983B
Application number: CN202210139874.XA
Authority: CN
Inventors: 程瑶; 刘保龙; 闫雯; 王丹君
Original assignee: Beisen Cloud Computing Co ltd
Current assignee: Beisen Cloud Computing Co ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-07-15
Anticipated expiration: 2042-02-16
Also published as: CN114186983A

Abstract

本发明公开了一种视频面试多维评分方法、系统、计算机设备及存储介质，其中评分方法包括以下步骤：对应聘者的视频面试数据进行数据预处理；基于预处理数据，通过多维度计分模块对应聘者进行多维度计分，生成视频面试多维分析报告；当应聘者面试结果数据积累到预设数量时，启动综合推荐指数算法模块，并联合多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到视频面试多维分析报告中。本发明可基于视频面试输出陈述质量、胜任力等多维度评分，并能基于面试官的评价结果自动将多个维度联合自动学习出拟合算法，生成综合推荐指数模型，帮助企业完成高质量筛选的目标。

Description

视频面试多维评分方法、系统、计算机设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种视频面试多维评分方法、系统、计算机设备及存储介质。

背景技术

随着人才竞争的不断加剧，有调研显示企业在近年招聘中最紧迫的核心挑战在于有价值的简历比例太低，筛选工作量大。进一步分析负责招聘的HR（企业的人力资源工作者，后统一简称为HR）的工时分配，发现对雇主品牌建设较好的大中型企业而言，HR和面试官投入大量时间（高达40%左右的时间）在人才筛选与初步沟通环节，人才筛选的效率和成本压力依然巨大。如何高效地从大量简历中挑选出有价值的简历，更早一步录用优秀人才成为了很多企业在招聘过程中面临的最紧迫挑战。因此如何提升人才筛选的效率、降低招聘的成本，已成为企业愈发关注的议题。

随着AI技术应用的发展，越来越多的企业会在传统的招聘模式（简历筛选、人才测评工具使用、电话面试）之余，会使用智能视频面试系统进行人才筛选，提升招聘效率。常见的智能视频面试系统无需固定的时间段去进行面试，也无需面试官的参与。企业可以在设置某些题目后使用虚拟人物代替面试官，只需应聘者在最后期限之前登录系统完成视频回答即可，提升了面试安排的效率。在应聘者完成面试后，系统会生成一份面试分析报告，供面试官查看以进行筛选。

然而，市场上的智能视频面试系统提供的面试报告或者说对于应聘者的评价方法普遍存在两个问题：一是对于应聘者的评价维度相对较少，面试官能从报告中获取到的信息有限，普遍还是要自己去浏览原始录制视频来形成自己的判断；二是为了服务于筛选，面试报告中一般会对应聘者提供一项总体评价指标，可以服务于筛选，如录用等级，AI推荐指数等。对于这个指标，多是提前预制权重，将有限的多个评价维度进行加权合成总分，这种根据经验去预设的方法往往很难定制出高筛选精度的总体指标，对于人才筛选的效度可能会打折，如将合适的候选人判断为不合适，推荐不合适的候选人进入下一轮流程。

公开号为CN109961052A的中国专利申请“一种基于表情分析技术的视频面试方法及系统”只使用表情数据进行视频评分，过于片面，表情是否能成为评价应聘者是否胜任岗位的核心标准仍有待进一步验证。此外，该方案为每个岗位设置固定权重的方法来对所述求职者表情数据进行计算，得到所述求职者分数信息，是否能形成一个高筛选效度的指标也有待考证。

公开号为CN111833010A的中国专利申请“一种智能面试方法、系统、设备和存储介质”基于招聘领域中常用的胜任力概念，对收集的资料进行语音和文本识别，利用胜任力计分词汇模型形成对应聘者的各项岗位胜任力的评分，这个的确在一定程度上帮助面试官形成对应聘者的评价。然而，这种从胜任力计分词汇模型出发，以计算相关词汇频率高低来评价应聘者的胜任力可能精度并不够，而且该方案也依然采用预制权重的方法对各项胜任力维度得分加权形成总体计分，给出应聘者的录用等级建议，缺乏其他对于应聘者相关的评价维度，如外貌气质、陈述质量、个人意向等综合来评价应聘者的整体情况。这种方法达到的筛选精度仍然有待进一步提升。

有鉴于此，亟待推出一种能针对视频面试建立成熟稳定的胜任力评分模型，并能结合多维评价维度，比如外貌气质、陈述质量等维度智能性生成一个综合性指标，帮助企业在人员招聘中达成保证效率和精度的人员筛选目标。

发明内容

为了解决上述问题，本发明提出一种视频面试多维评分方法、系统、计算机设备及存储介质，可以基于视频面试输出陈述质量、胜任力等多维度评分，并能基于面试官的评价结果自动将应聘者的陈述质量、胜任力、外部形象等多个维度联合自动学习出拟合算法，生成目标职位的综合推荐指数模型，从而帮助企业完成高质量筛选的目标。

本发明采用的技术方案如下：

一种视频面试多维评分方法，包括以下步骤：

S1. 对应聘者的视频面试数据进行数据预处理，包括根据视频面试数据进行视频截图、提取语音文件和语音转译文本；

S2. 基于预处理数据，通过多维度计分模块对应聘者进行多维度计分，生成视频面试多维分析报告，所述多维度计分的内容包括陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询；

S3. 当应聘者面试结果数据积累到预设数量时，启动综合推荐指数算法模块，并联合所述多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到所述视频面试多维分析报告中；

步骤S2中，通过陈述质量评价模型来计算应聘者的陈述质量分数，所述陈述质量评价模型的构建方法包括以下子步骤：

S201. 前期准备：搜集若干视频面试数据，并对视频面试数据的陈述质量进行标记；

S202. 数据处理：根据视频面试数据提取语音文件并转译为文本；过滤掉文本中的停用词；对文本进行分词，获取分词的词性及其在文本中的占比；抽取文本中对陈述质量有影响的语气词及其在文本中的占比，以及在面试总时长中的占比；抽取语音结构化数据，包括语音文本长度、时长和每分钟语速；

S203. 模型训练：采用XGBoost即极端梯度提升算法，基于步骤S202中获取的词性、语气词和语音结构化数据与步骤S201中的陈述质量标记结果进行拟合形成陈述质量评价模型。

进一步地，步骤S2中，通过胜任力评价模型来计算应聘者的胜任力分数，所述胜任力评价模型的构建方法包括以下子步骤：

S211. 前期准备：搜集若干视频面试数据，并对视频面试数据的胜任力进行标记；

S212. 数据处理：根据视频面试数据提取语音文件并转译为文本，使用TF-IDF即词频-逆文件频率算法抽取文本构建语料特征；

S213. 模型训练：采用XGBoost即极端梯度提升算法，基于步骤S212中构建的语料特征与步骤S211中的胜任力标记结果进行拟合形成胜任力评价模型。

进一步地，步骤S3包括以下子步骤：

S301. 记录应聘者的视频面试数据和多维度计分数据；

S302. 通过数据仓库ETL工具将步骤S301记录的数据同步到HBase数据库进行存储与大数据智能分析计算；

S303. 使用Azkaban任务调度器定时启动Spark任务来进行海量数据的计算，从而构建所述综合推荐指数模型。

进一步地，步骤S303包括以下子步骤：

S3031. 从HBase数据库中拉取应聘者多维度计分数据，并按照职位进行汇总；

S3032.当应聘者数据量达到设定值时启动自动建模，以面试是否通过作为预测结果，以多维度计分数据作为特征进行拟合分析，使用XGBoost算法形成目标职位的综合推荐指数模型；

S3033. 定时监控目标职位上获取的应聘者数据量，判定新增的数据量与上一次建模使用的数据量之差是否大于n，若大于则开始自动训练模型，形成目标职位的综合推荐指数模型；若总数据量超过M条，则进行等比例下采样到M条，防止过大的数据集导致训练过慢；其中，M>>n>0；

S3034.对比步骤S3033得到的综合推荐指数模型与步骤S3032得到的综合推荐指数模型的效果是否有提升，有则更新所述综合推荐指数模型。

进一步地，步骤S3034中，判断所述综合推荐指数模型是否有提升的评估指标包括准确率和综合评价指标F值。

进一步地，步骤S3034中，更新所述综合推荐指数模型的同时更新模型的其他信息，所述其他信息包括训练时间、使用维度信息、效果信息和数据量。

进一步地，所述综合推荐指数算法模块通过后续收集的应聘者面试结果数据，自动校准所述综合推荐指数模型，调优推荐指数的准确度。

一种视频面试多维评分系统，包括：

数据预处理模块，用于对应聘者的视频面试数据进行数据预处理，包括根据视频面试数据进行视频截图、提取语音文件和语音转译文本；

多维度计分模块，用于基于预处理数据对应聘者进行多维度计分，生成视频面试多维分析报告，所述多维度计分的内容包括陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询；

综合推荐指数算法模块，用于在应聘者面试结果数据积累到预设数量时，联合所述多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到所述视频面试多维分析报告中。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述视频面试多维评分方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述视频面试多维评分方法的步骤。

本发明的有益效果在于：

1、应聘者评估的全面性。本发明力求还原真实面试中的全面评估维度，会从应聘者的陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询等多个维度的数据进行评分。

2、胜任力预测算法的精准性。以往评估应聘者的胜任力水平，多使用传统的量表式测评或者简单统计人工评价的胜任力相关词频来进行计分，可能会使得应聘者感觉作答过程枯燥或者预测算法精度有限的问题，而本发明的胜任力预测算法精度较高。

3、引入了陈述质量评价模型。陈述质量作为体现表达能力的一般指标，是还原应聘者表现的重要指标。本发明利用机器学习算法构建陈述质量评价模型，为企业评价应聘者新增一个评价维度。

4、自主学习面试官的筛选行为偏好，形成更贴近企业偏好的综合推荐指数。本发明利用自主学习模型，为应聘者的多维评估分数进行拟合，并不是简单预制权重，可为企业在职位内的高效筛选提供便利指导。

附图说明

图1是本发明实施例1的整体面试流程图。

图2是本发明实施例1的综合推荐指数算法模型自主学习训练时序图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种视频面试多维评分方法，包括以下步骤：

S2. 基于预处理数据，通过多维度计分模块对应聘者进行多维度计分，生成视频面试多维分析报告，多维度计分的内容包括陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询；

S3. 当应聘者面试结果数据（即是否通过面试）积累到预设数量时，启动综合推荐指数算法模块，并联合多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到视频面试多维分析报告中。优选地，可通过后续收集的应聘者面试结果数据，自动校准综合推荐指数模型，调优推荐指数的准确度。

优选地，如图1所示，在步骤S1之前还包括以下步骤：

a)企业HR在创建面试职位，获取应聘者信息和简历；

b)企业HR在目标职位内为应聘者创建面试模板，选择相应的视频面试问题和意向征询问题（比如选择题和主观题等）；

c)以邮件或短信的方式邀请应聘者进行面试；

d)应聘者登录面试小程序并完成面试。

优选地，步骤S2中生成视频面试多维分析报告后，企业HR可进行查看，并根据视频面试多维分析报告，可结合自己的线下沟通经验，判断该应聘者是否通过面试并记录。

在步骤S2中，通过陈述质量评价模型来计算应聘者的陈述质量分数，其中陈述质量是指应聘者在面试过程中是否表达充分，表达是否具备逻辑性，是一个评价应聘者表达能力的一般性指标。具体地，陈述质量评价模型的构建方法包括以下子步骤：

S201. 前期准备：搜集若干视频面试数据，并对视频面试数据的陈述质量进行标记；具体地，可搜集数千人的视频面试数据，并让面试专家团对其面试数据的陈述质量进行0-10分范围内的打分；

S202. 数据处理：根据视频面试数据提取语音文件并转译为文本；过滤掉文本中的停用词，例如常见的标签符号、特殊字符；对文本进行分词，获取分词的词性及其在文本中的占比，具体地，可抽取以下词性：v:动词\n:名词\r:代词\d:副词\uj:的\c:连词\m:数词\p:介词\a:形容词\vn:名动词；抽取文本中对陈述质量有影响的语气词，如“嗯\啊\呃”等，并抽取该语气词在文本中的占比以及在面试总时长中的占比；抽取语音结构化数据，包括语音文本长度、时长和每分钟语速；

S203. 模型训练：采用XGBoost（eXtreme Gradient Boosting）即极端梯度提升算法，基于步骤S202中获取的词性、语气词和语音结构化数据与步骤S201中的陈述质量标记结果进行拟合形成陈述质量评价模型。

在本实施例中，该陈述质量评价模型在测试集的MAE值在0.099水平左右，拟合效果较好。其中，MAE值指平均绝对误差，用来描述机器学习模型预测值与真实值的误差情况，它是处于0-1之间的值，这个值越小说明真实值与预测值之间的关系越紧密。

在步骤S2中，通过胜任力评价模型来计算应聘者的胜任力分数，不同的职位会选择不同的胜任力进行考察，比如校招时重点对学生的学习能力、追求卓越等胜任力维度进行重点考核，而销售则会侧重在销售动力、销售韧性等胜任力维度上。故而，每一个胜任力维度除了配套考察的面试问题，还拥有其独立的算法模型。具体地，胜任力评价模型的构建方法包括以下子步骤：

S211. 前期准备：搜集若干视频面试数据，并对视频面试数据的胜任力进行标记；具体地，可搜集数千人的相应胜任力的视频面试数据，并由面试专家团基于其视频面试数据，对其相应的胜任力进行0-10分范围内打分；

S212. 数据处理：根据视频面试数据提取语音文件并转译为文本，使用TF-IDF（Term Frequency–Inverse Document Frequency，词频-逆文件频率）算法抽取文本构建语料特征；

在本实施例中，该胜任力评价模型在测试集的MAE值平均水平在0.12水平左右，拟合效果较好。

在步骤S3中，综合推荐指数算法模块可实现自主学习训练提升模型效果，其时序图如2所示。这里引入HBase（大数据领域常用的存储数据库，用来存储海量数据，并提供快速的查询）、Spark（大规模数据计算引擎，用来做海量数据的快速迭代计算）等技术，主要是为了解决海量职位数据同时训练的效率问题。具体地，步骤S3包括以下子步骤：

S301. 记录应聘者的视频面试数据和多维度计分数据；

S303. 使用Azkaban任务调度器定时（例如每天凌晨）启动Spark任务来进行海量数据的计算，从而构建综合推荐指数模型。

优选地，步骤S303包括以下子步骤：

S3032.当应聘者数据量达到设定值（例如50条）时启动自动建模，以面试是否通过作为预测结果，以多维度计分数据作为特征进行拟合分析，使用XGBoost算法形成目标职位的综合推荐指数模型；

S3033. 定时监控目标职位上获取的应聘者数据量，判定新增的数据量与上一次建模使用的数据量之差是否大于n（例如30），若大于则开始自动训练模型，形成目标职位的综合推荐指数模型；若总数据量超过M条（例如1万条），则进行等比例下采样到M条，防止过大的数据集导致训练过慢；其中，M>>n>0；

S3034.对比步骤S3033得到的综合推荐指数模型与步骤S3032得到的综合推荐指数模型的效果是否有提升，有则更新所述综合推荐指数模型。优选地，判断综合推荐指数模型是否有提升的评估指标包括准确率（面试通过、不通过两个分类）和综合评价指标F值。优选地，更新综合推荐指数模型的同时更新模型的其他信息，其他信息包括训练时间、使用维度信息、效果信息和数据量。

需要说明的是，对于本实施例，为了简便描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

实施例2

本实施例在实施例1的基础上：

本实施例提供了一种视频面试多维评分系统，包括：

多维度计分模块，用于基于预处理数据对应聘者进行多维度计分，生成视频面试多维分析报告，多维度计分的内容包括陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询；

综合推荐指数算法模块，用于在应聘者面试结果数据积累到预设数量时，联合多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到视频面试多维分析报告中；

多维度计分模块通过陈述质量评价模型来计算应聘者的陈述质量分数，陈述质量评价模型的构建方法包括以下子步骤：

实施例3

本实施例在实施例1的基础上：

本实施例提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现实施例1的视频面试多维评分方法的步骤。其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。

实施例4

本实施例在实施例1的基础上：

本实施例提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现实施例1的视频面试多维评分方法的步骤。其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。存储介质包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，存储介质不包括电载波信号和电信信号。

Claims

1.一种视频面试多维评分方法，其特征在于，包括以下步骤：

S1.对应聘者的视频面试数据进行数据预处理，包括根据视频面试数据进行视频截图、提取语音文件和语音转译文本；

S2.基于预处理数据，通过多维度计分模块对应聘者进行多维度计分，生成视频面试多维分析报告，所述多维度计分的内容包括陈述质量、各项胜任力水平、普通话水平、英语口语水平、外部形象和意向征询；

S3.当应聘者面试结果数据积累到预设数量时，启动综合推荐指数算法模块，并联合所述多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到所述视频面试多维分析报告中；

S201.前期准备：搜集若干视频面试数据，并对视频面试数据的陈述质量进行标记；

S202.数据处理：根据视频面试数据提取语音文件并转译为文本；过滤掉文本中的停用词；对文本进行分词，获取分词的词性及其在文本中的占比；抽取文本中对陈述质量有影响的语气词及其在文本中的占比，以及在面试总时长中的占比；抽取语音结构化数据，包括语音文本长度、时长和每分钟语速；

S203.模型训练：采用XGBoost极端梯度提升算法，基于步骤S202中获取的词性、语气词和语音结构化数据与步骤S201中的陈述质量标记结果进行拟合形成陈述质量评价模型；

步骤S2中，通过胜任力评价模型来计算应聘者的胜任力分数，所述胜任力评价模型的构建方法包括以下子步骤：

S211.前期准备：搜集若干视频面试数据，并对视频面试数据的胜任力进行标记；

S212.数据处理：根据视频面试数据提取语音文件并转译为文本，使用TF-IDF即词频-逆文件频率算法抽取文本构建语料特征；

S213.模型训练：采用XGBoost极端梯度提升算法，基于步骤S212中构建的语料特征与步骤S211中的胜任力标记结果进行拟合形成胜任力评价模型；

步骤S3包括以下子步骤：

S301.记录应聘者的视频面试数据和多维度计分数据；

S302.通过数据仓库ETL工具将步骤S301记录的数据同步到HBase数据库进行存储与大数据智能分析计算；

S303.使用Azkaban任务调度器定时启动Spark任务来进行海量数据的计算，从而构建所述综合推荐指数模型；

步骤S303包括以下子步骤：

S3031.从HBase数据库中拉取应聘者多维度计分数据，并按照职位进行汇总；

S3032.当应聘者数据量达到设定值时启动自动建模，以面试是否通过作为预测结果，以多维度计分数据作为特征进行拟合分析，使用XGBoost极端梯度提升算法形成目标职位的综合推荐指数模型；

S3033.定时监控目标职位上获取的应聘者数据量，判定新增的数据量与上一次建模使用的数据量之差是否大于n，若大于则开始自动训练模型，形成目标职位的综合推荐指数模型；若总数据量超过M条，则进行等比例下采样到M条，防止过大的数据集导致训练过慢；其中，M>>n>0；

2.根据权利要求1所述的视频面试多维评分方法，其特征在于，步骤S3034中，判断所述综合推荐指数模型是否有提升的评估指标包括准确率和综合评价指标F值。

3.根据权利要求1所述的视频面试多维评分方法，其特征在于，步骤S3034中，更新所述综合推荐指数模型的同时更新模型的其他信息，所述其他信息包括训练时间、使用维度信息、效果信息和数据量。

4.根据权利要求1所述的视频面试多维评分方法，其特征在于，所述综合推荐指数算法模块通过后续收集的应聘者面试结果数据，自动校准所述综合推荐指数模型，调优推荐指数的准确度。

5.一种视频面试多维评分系统，其特征在于，包括：

通过胜任力评价模型来计算应聘者的胜任力分数，所述胜任力评价模型的构建方法包括以下子步骤：

综合推荐指数算法模块，用于在应聘者面试结果数据积累到预设数量时，联合所述多维度计分模块拟合出目标职位的综合推荐指数模型；新的应聘者数据通过目标职位的综合推荐指数模型输出相应的推荐指数，并被推送到所述视频面试多维分析报告中；具体包括以下子步骤：

S301.记录应聘者的视频面试数据和多维度计分数据；

步骤S303包括以下子步骤：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的视频面试多维评分方法的步骤。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的视频面试多维评分方法的步骤。