CN112001628A

CN112001628A - 智能面试视频的推荐方法

Info

Publication number: CN112001628A
Application number: CN202010854727.1A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-27

Abstract

一种智能面试视频的推荐方法，包括：根据面试视频中的提示线索，将面试视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重，指标权重是根据招聘职位可调整的；从多个视频片段中的每个视频片段的图像流和音频流中提取求职者的表情特征、语音情绪特征和语音文本特征；基于表情特征、语音情绪特征和语音文本特征，产生视频片段的评价向量，评价向量的每个维度对应于一个面试考核指标；根据视频片段的指标权重和评价向量，产生视频片段的加权评价向量；根据多个视频片段的加权评价向量，产生面试视频的总体评价分数；以及按照总体评价分数的排序，推荐面试视频。

Description

智能面试视频的推荐方法

技术领域

本发明涉及一种人力资源和人工智能技术领域，具体涉及一种智能面试视频的推荐方法。

背景技术

如今招聘工作的成本越来越高，招聘方需要花大量时间来招募符合要求的员工。通常，招聘流程包括简历评估和筛选、电话面试、当面面试、技能测试、背景调查、合同协商、员工培训等等，尤其是在决定聘用前，需要招聘方的面试官需要花相当多的时间来面试通过初选的求职者。为了节省面试官的时间，不少公司尝试使用机器人视频面试的方式，求职者在视频面试平台上与智能机器人交互，回答题库中的问题，并将整个面试视频上传，以便由面试官时候在任何方便的时间观看和决策是否要录用。

尽管给面试官带来了方便，但由于面试视频通常较长(至少二十分钟)且时长不确定，加之如果参与面试的求职者人数众多，面试官仍然面临相当大的工作负担。一些现有技术通过分析求职者在面试视频中的动作、表情、语音信息来给视频评分，推荐高质量的面试视频进行人工审核。然而，典型的结构化面试通常需要考核求职者的多方面素质，结构化面试的每个问题都具有不同的考核重点。因此，现有技术的将面试视频视为一个整体进行评分不够精确，给人工审核的面试官推荐的视频质量参差不齐。

发明内容

有鉴于此，本发明提供了一种智能面试视频的推荐方法、装置、计算机系统和计算机可读存储介质，其能够精细化地评价面试视频的质量，优先向面试官呈现更符合招聘职位要求、具有更大录用可能的求职者，从而减轻面试官的工作负担。

根据本发明的第一方面，提供了一种智能面试视频的推荐方法，包括：

根据面试视频中的提示线索，将所述面试视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重，所述指标权重是根据招聘职位可调整的；

从所述多个视频片段中的每个视频片段的图像流和音频流中提取求职者的表情特征、语音情绪特征和语音文本特征，

基于表情特征、语音情绪特征和语音文本特征，产生所述视频片段的评价向量，所述评价向量的每个维度对应于一个面试考核指标；

根据所述视频片段的指标权重和所述评价向量，产生所述视频片段的加权评价向量；

根据所述多个视频片段的加权评价向量，产生所述面试视频的总体评价分数；以及

按照所述总体评价分数的排序，推荐面试视频。

在一个实施例中，所述方法还可以包括从所述求职者简历中提取简历文本信息，以及使用所述简历文本产生所述评价向量。

在一个实施例中，所述提示线索包括智能机器人给出了初始问题和根据所述初始问题的回答内容产生的附加问题，其中关于附加问题的视频片段相比于初始问题的视频片段具有更高的指标权重。

在一个实施例中，所述提取求职者的表情特征可以包括：每隔预定时长从视频片段的图像流中产生面试图像；对所述面试图像进行人脸检测，从检测到的人脸中提取特征点；将所述特征点输入到表情识别模型，以识别出求职者的表情特征，所述表情特征包括求职者当前情绪的概率分布，其中所述表情特征包括中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶。

在一个实施例中，所述提取求职者的语音情绪特征可以包括：从语音流提取语音帧，并对语音帧进行预加重、分帧和加窗，得到短时分析窗；对得到的每个短时分析窗，通过快速傅里叶变换得到对应的频谱；将所述频谱通过梅尔滤波器组得到梅尔频谱；在梅尔频谱上进行倒谱分析，获得梅尔频率倒谱系数，作为所述语音帧的发音特征；以及将所述发音特征输入到语音情绪识别模型，以识别出求职者的语音情绪，其中所述语音情绪特征包括求职者当前情绪的概率分布，所述语音情绪包括中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶。

在一个实施例中，所述提取所述语音文本特征可以包括提取求职者的语音文本的连续性、重复性、语法错误、词汇量、禁用词中的一项或多项。

在一个实施例中，产生所述视频片段的评价向量可以包括：将所述表情特征、所述语音情绪特征、所述语音文本特征和所述简历文本信息组合后输入到能力评价模型，以产生所述视频片段的所述评价向量。

在一个实施例中，产生总体评价分数可以包括：对所述多个视频片段的加权评价向量进行池化，计算所述池化后的向量的二阶范数，作为总体评价分数。

根据本发明的第二方面，提供了一种智能面试的视频推荐装置，包括：

视频分割单元，被配置用于根据面试视频中的提示线索，将所述视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重；

特征提取单元，被配置用于从所述多个视频片段中的每个视频片段的图像流和音频流中分别提取求职者的表情特征、语音情绪特征、语音文本特征；

评价向量产生单元，被配置用于基于表情特征、语音情绪特征和语音文本特征，产生所述视频片段的评价向量，所述评价向量的每个维度对应于一个面试考核指标；

评价向量加权单元，被配置用于根据所述视频片段的指标权重和所述评价向量，产生所述视频片段的加权评价向量；

按照所述总体评价分数的排序，推荐面试视频。

根据本发明的第三方面，提供了一种计算机系统，包括：处理器；和存储器，存储能够被所述处理器执行的计算机指令，所述计算机指令在被执行时使得所述计算机系统实施如下如本发明第一方面所述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，存储有计算机指令，所述计算机指令在被处理器执行时使得所述处理器实施如本发明第一方面所述的方法。

根据本发明，智能面试视频被分割为多个视频片段，使用可调整的指标权重来评估求职者在每个视频片段中表现出的能力，由此实现了更精细化和定制化的面试视频推荐，显著提高了面试视频推荐的效率，减少了人工审核面试视频的时间和精力。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本发明实施例的智能机器人面试视频推荐系统的示意框图。

图2示出了根据本发明另一实施例的智能面试视频推荐系统的示意框图。

图3示出了根据本发明实施例的视频及其提示线索的时间轴示意图。

图4示出了根据本发明实施例的一种提取求职者的表情特征的方法的示意流程图。

图5示出了根据本发明实施例的一种提取求职者的语音情绪特征的方法的示意流程图。

图6示出了根据本发明实施例的一种提取求职者的语音文本特征的方法的示意流程图。

图7示出了根据本发明实施例的一种智能面试视频的推荐方法的示意流程图。

图8示出了根据本发明实施例的一种智能面试视频的推荐装置的示意框图。

图9示出了用于实现本发明实施例的计算机系统的结构示意图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示出了根据本发明实施例智能机器人面试的视频质量评价系统100的示意框图。本申请提供的面试视频数据处理方法，可以应用于如图1所示的应用环境中。

视频采集终端102通过网络与服务器104进行通信，视频审核终端106与智能面试服务器104通过网络进行通信。智能面试服务器104中部署有智能面试机器人，其能够按照预设程序向求职者发送面试的提示线索，提示线索可以是诸如问题、追问、陈述观点等的引导性语言，以便接收求职者对提示线索的响应。视频采集终端120采集的求职者视频，实时或非实时地传送到智能面试服务器104中存储。所存储的视频除了具有图像流和音频流，存储有面试视频的提示线索。在一个实施例中，根据提示线索，面试视频可以被分割为多个视频片段。应理解，面试过程中向求职者提供的问题或追问等通常蕴含着需要考核的面试指标，例如，专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表等。并且，这些面试指标可能因人力资源的考核目标不同而具有不同的考核体系，因而不限于上述面试指标。因此，每个视频片段可以与一个或多个面试考核指标相关联，并具有相应的权重。例如，用于考核工作技能的提示线索(及其视频片段)具有更高的工作技能的考核权重。

在一个实施例中，考核指标可以包括例如专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表。应当理解，不同职位需要考核的能力素质也不同。例如，工程师职位应当具有更高的专业能力、逻辑思维能力的要求，相应的，对于考核这两个指标的提示线索或问题(及相应的视频片段)，其配置的指标权重可以更高；再例如，销售职位应当具有更高的语言表达能力、应变能力、举止仪表，相应的，对于考核这几个指标的提示线索或问题(及相应的视频片段)，其配置的指标权重可以更高，等等。

应理解，面试考核指标通常不是根据单个提示线索及其单个视频片段确定的，而是贯穿于整个面试过程。因此，需要综合每个视频片段的考核情况来确定最终的面试总体评价分数。根据本发明实施例，为每个视频片段赋予各自的指标权重，来调整最终对面试视频的总体评价分数段的影响力。

智能面试服务器104可以针对每个视频片段给出求职者在该视频片段中的面试考核指标分数，具体地，可以根据面试的表情特征、语音情绪特征和语音文本特征来确定评价向量，然后基于该视频片段的指标权重，调整评价向量的各个维度的值得到加权评价向量。加权评价向量的每个维度对应于作为一个面试考核指标。面试视频被分为多个视频片段，根据多个视频片段的加权评价向量，产生面试视频的总体评价分数。智能面试服务器104可以对面试视频的总体评价分数进行排序，向面试视频审核终端106推荐面试视频。因此，面试视频审核终端106处的面试官可以优先审核推荐的面试视频，给出审核结果，这大大减轻了审核工作量。下文将结合图2至图6详细描述。

在图1所示的视频质量评价系统100中，视频采集终端102和面试视频审核终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。智能面试服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2示出了根据本发明另一实施例的智能面试视频推荐系统200的示意框图。

如图2所示，面试视频202包括提示线索，并且根据提示线索被分割为多个视频片段202-1、202-2、……、202-n等。从每个视频片段中提取到求职者在该视频片段中的表情特征204、语音情绪特征206和语音文本特征208。表情特征204、语音情绪特征206和语音文本特征208可以被输入到能力评价模型210，产生视频片段的评价向量212。评价向量212可以指示诸如专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表等结构化面试的考核指标。本领域技术人员应理解，面试考核指标可以是任何能够用于评价求职者能力的指标，不限于上述指标。换句话说，视频片段202-1至202-n中任一个视频片段都可以产生一个用于描述求职者能力的评价向量。例如，如果需要通过面试来考核求职者的专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表，则评价向量可以实现为七维向量，向量的每个维度的值对应于本发明的面试视频质量评价系统200给出的求职者能力的参照值。

在一个实施例中，除了表情特征204、语音情绪特征206和语音文本特征208，还可以从求职者简历中提取简历特征212，例如，学历、毕业学校、工作经验、以前的雇主等信息，将简历特征212一起输入到能力评价模型210。可以理解，上述简历特征212有助于准确评价求职者的能力。例如，博士学历、重点大学毕业、工作时间在五年以上等因素被认为是与求职者的较强工作能力相关。

如上所述，每个视频片段对应于面试视频中的提示线索，提示线索可以是诸如问题、追问、陈述观点等的引导性语言，用于考察求职者的回答或响应。因此，视频片段侧重考察的求职者的能力是不同的。根据本发明实施例，每个视频片段与一个或多个面试考核指标相关联，并且具有响应的指标权重。如图2所示，在从视频片段202-1至202-n产生各自的评价向量后，可以根据每个视频片段的指标权重，对评价向量进行加权，得到加权的评价向量214-1、214-2、……、214-n。换句话说，可以基于提示线索要考察的能力的不同，针对性地获得求职者表现出相应能力的分数。

图3示出了根据本发明实施例的视频及其提示线索的时间轴示意图。如图3所示，沿着视频的时间轴分布了多个提示线索，将视频分割为从片段1至片段7的多个视频片段。根据本发明实施例，提供了两种类型的提示线索，第一类提示线索和第二类提示线索。第一类提示线索可以是智能面试机器人的结构化面试题库中的根问题的语音，例如，“请介绍自己收获最大的项目和自己充当角色”，第二类问题可以是智能面试机器人根据求职者回答根问题时的关键词，进一步从题库中匹配到的附加问题，例如，如果求职者在回答中提到诸如“困难”、“很难”、“帮助”等管关键词，则智能面试机器人可以发出提示线索或附加问题的语音，“请描述具体是什么困难，如何解决的？”。在例如，第一类提示线索可以是“有哪些方法可以解决神经网络训练时的梯度弥散问题”的语音，如果未能从求职者的语音中检测到预设的关键词，则智能面试机器人可以发出第二类提示线索的语音，比如，更为简单的问题，比如“请列举说明常用的卷积神经网络的网络结构”。由此，第一类提示线索对应于初始问题的视频片段，第二类提示线索对应于附加问题的视频片段。

参照图3，例如，视频片段2是视频片段1的附加问题，视频片段4和5是视频片段3的附加问题，视频片段7是视频片段6的附加问题。可以理解，附加问题的考核不容易被虚假的简历和项目经历欺骗，能够反映求职者的真实能力。在一个实施例中，相比于初始问题的视频片段，附加问题的视频片段可以具有更高的指标权重。

返回图2，在得到加权的评价向量214-1、214-2、……、214-n后，可以综合多个视频片段的加权的评价向量，产生求职者面试视频的总体评价分数。在一个实施例中，对多个视频片段的加权评价向量进行池化，池化包括计算这些加权的评价向量的每个面试考核指标的最大值、最小值、平均值或者去除最大值和最小值后的平均值。然后，可以计算池化后的向量的范数。在一个实施例中，计算池化后的向量的二阶范数，作为总体评价分数。计算二阶范数的优点在于，可以更明显地突出求职者的优势考核素质，即，选拔出具有特长的求职者。

然后，可以根据计算出的总体评价分数对面试视频进行排序，例如，按照分数从高到低的顺序推荐给面试审核终端218。由此，面试审核终端218处的面试官可以优先审核高质量的面试视频，，大大节省了观看面试视频需要的时间和精力。

图4示出了根据本发明实施例的一种提取求职者的表情特征的方法400的示意流程图。

方法400包括：在步骤410，每隔预定时长从视频片段的图像流中产生面试图像。在一个实施例中，可以每隔20毫秒、50毫秒、100毫秒或200毫秒(通常来说，面部表情或微表情的持续时长在约1/5到1/25秒，且常出现在说谎情境)从视频片段的图像帧中产生面试图像。

在步骤420，对面试图像进行人脸检测，从检测到的人脸中提取特征点。在一个实施例中，使用人脸检测算法从面试图像中获取人脸区域，并且定位到人脸上的多个指定特征点，例如，可以使用面部行为编码系统FACS提供的编码方式，将人脸划分为38个基本原组合作为指定的特征点，其中包括32个运动单元和6个运动描述符。

在步骤430，将特征点输入到表情识别模型，以识别出求职者的表情特征，表情特征包括求职者当前情绪的概率分布。在一个实施例中，使用基于深度学习的表情识别模型，表情识别模型可以循环卷积神经网络(RCN)，具有中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶一共十个表情分类。将提取到的特征点输入该训练后的表情识别模型，可以产生求职者的表情特征。例如，该表情特征是一个分类向量，包括该求职者当前情绪的概率分布。

图5示出了根据本发明实施例的一种提取求职者的语音情绪特征的方法500的示意流程图。根据本发明实施例，使用梅尔倒谱系数(MFCC)来提取语音情绪特征。

方法500包括在步骤510，提取语音帧、进行预加重、分帧和分窗。在一个实施例中，每隔1秒或1.5秒提取从面试视频的音频流中提取语音信号。这里，预加重可以将将语音信号通过一个高通滤波器，其目的在于提升高频部分，使得信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。另外还可以消除声带和嘴唇的效应，突出高频共振峰。

分帧包括将例如256或512个采样点(约20或30毫秒)集合形成一个观测单位。在一个实施例中，相邻两帧可以具有重叠区域，重叠区域长度约为一个观测单位的1/3或1/2。

加窗包括将每一帧乘以汉明窗，以增加左端和右端的连续性。加窗的作用是，为了抵消后续快速傅里叶变换的无线信号假设，并减少频谱泄露。

在步骤520，进行快速傅里叶变换FFT，以得到语音信号的频域上的能量分布。在一个实施例中，还可以进一步对语音信号的频谱取模平方得到功率谱。

在步骤530，进行梅尔滤波。在一个实施例中，可以将上述功率谱通过一组梅尔尺度的三角形滤波器。例如，可以定一个有M个滤波器的滤波器组，其中每个滤波器为三角滤波器，三角滤波器的作用是对频谱进行平滑并消除谐波的作用，更突显原先语音的共振峰。

在步骤540，倒谱分析，包括对数运算和离散余弦变换DCT。具体地，计算上述滤波器组输出的对数能量，将频率转换为梅尔频率，以及经过离散余弦变换DCT得到MFCC系数，作为语音帧的发音特征。在一个实施例中，可以保留倒谱系数2-13项，丢弃其余系数。

在步骤550，将步骤540中得到的发音特征输入到语音情绪识别模型，以识别出求职者的语音情绪，其中语音情绪特征可以是分类向量，包括求职者当前情绪的概率分布，语音情绪包括中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶。在一个实施例中，语音情绪模型可以是基于深度学习的语音情绪识别模型，例如，可以是基于注意力机制的端对端模型(比如循环神经网络RNN)。需要注意的是，上述表情识别模型和语音情绪识别模型可以是任何现有的或将来的神经网络墨模型，只要它们能够接受特征并产生分量向量。

图6示出了根据本发明实施例的一种提取求职者的语音文本特征的方法600的示意流程图。根据本发明实施例，可以从面试视频的音频流中提取到语音文本，提取语音文本的方法可以是任何现有的或将来的语音识别算法，例如，基于隐马尔可夫HMM的方法、人工神经网络方法、基于知识的语音识别算法等，本发明不限于此。

方法600包括在步骤610，输入识别的语音文本。在步骤620，使用关键词提取算法提取语音文本中的关键词，关键词提取算法可以是借助分词器、命名实体识别等的算法。根据本发明实施例，关键词可以用于智能机器人产生第二类提示线索，如附加问题等。在步骤630，执行连续性检测，即检测求职者在面试过程中的表达的连续程度，例如，语音文本是否符合流畅，符合表达习惯等。在步骤640，执行重复性检测，这里重复性检测指的是语音文本是否存在表达结巴、重复说出同一字词的情况。在步骤650，执行词汇量检测，对于中文或英文面试，尤其是英文面试，词汇量可以反应求职者的学术能力或工作能力。在步骤660，执行禁用词检测，即，检测输入的语音文本中是否存在不当用语，例如粗话、辱骂词等。需要注意的是，上述步骤630至660不一定是按照图6的顺序执行的，可以以任意顺序执行或同时执行。

以上参考图4至图6描述了从面试视频中提取表情特征、语音发音特征和语音文本特征的具体实施方式。根据本发明实施例，表情特征、语音发音特征和语音文本特征可以组合，或者添加从简历中提取到简历特征，输入到能力评价模型(图2的212)，以产生每个视频片段的评价向量。

根据本发明实施例，能力评价模型可以是能够处理序列标注的深度学习模型，例如，能力评价模型可以是长短记忆模型(LSTM)和条件随机场(CRF)的组合。能力评价模型的输入可以是上述特征的组合，输出是关于面试考核指标的分数的评价向量。在一个实施例中，提供了一种结构化面试的考核指标，包括专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表。相应地，能力评价模型输出的评价向量的各个维度值对应于上述考核指标的分数。

根据本发明实施例，面试过程的各个问题要考核的能力有所不同。因此，每个视频片段具有相应的指标权重，用于对能力评价模型产生的评价向量进行加权，得到加权的评价向量。根据本发明实施例，可以综合多个视频片段的加权的评价向量，产生求职者面试视频的总体评价分数。在一个实施例中，对多个视频片段的加权评价向量进行池化，池化包括计算这些加权的评价向量的每个面试考核指标的最大值、最小值、平均值或者去除最大值和最小值后的平均值

然后，可以计算池化后的向量的范数。在一个实施例中，计算池化后的向量的二阶范数，作为总体评价分数。计算二阶范数的优点在于，可以更明显地突出求职者的优势考核素质，即，选拔出具有特长的求职者。接下来，可以根据计算出的总体评价分数对面试视频进行排序，例如，按照分数从高到低的顺序推荐给面试审核终端。由此，面试官可以优先审核高质量的面试视频，大大节省了观看面试视频需要的时间和精力。

图7示出了根据本发明实施例的一种智能面试视频的推荐方法700的示意流程图。

方法700包括：在步骤710，根据面试视频中的提示线索，将所述视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重，所述指标权重是根据招聘职位可调整的。在一个实施例中，考核指标可以包括例如专业能力、语言表达能力、逻辑思维能力、责任感与进取心、组织协调能力、应变能力、举止仪表。应当理解，不同职位需要考核的能力素质也不同。例如，工程师职位应当具有更高的专业能力、逻辑思维能力的要求，相应的，对于考核这两个指标的提示线索或问题(及相应的视频片段)，其配置的指标权重可以更高；再例如，销售职位应当具有更高的语言表达能力、应变能力、举止仪表，相应的，对于考核这几个指标的提示线索或问题(及相应的视频片段)，其配置的指标权重可以更高，等等。

在一个实施例中，提示线索可以包括智能机器人给出的初始问题和根据所述初始问题的回答内容产生的附加问题，其中关于附加问题的视频片段相比于初始问题的视频片段具有更高的指标权重。

另外，还可以从所述求职者简历中提取简历文本信息，以及使用所述简历文本产生所述评价向量。例如，当求职者具有更好的学历、工作经验背景时，可以给专业能力的指标产生积极影响。

在步骤720，从所述多个视频片段中的每个视频片段的图像流和音频流中提取求职者的表情特征、语音情绪特征和语音文本特征。

在一个实施例中，可以参照如图4所示的方法400来提取求职者的表情特征；可以参照如图5所示的方法500来提取求职者的语音情绪特征；可以参照如图6所示的方法600来提取求职者的语音文本特征，这里不再重复。

在步骤730，基于表情特征、语音情绪特征和语音文本特征，产生所述视频片段的评价向量，所述评价向量的每个维度对应于一个面试考核指标。在一个实施例中，表情特征、语音情绪特征和语音文本特征可以被输入到基于深度学习的神经网络模型，例如如图2所示的能力评价模型，产生视频片段的评价向量。能力评价模型可以是长短记忆模型(LSTM)和条件随机场(CRF)的组合,能力评价模型的输入可以是上述特征的组合，输出是包括面试考核指标的分数作为分量的评价向量。

在步骤740，根据所述视频片段的指标权重和所述评价向量，产生所述视频片段的加权评价向量。如上所述，在一个实施例中，指标权重可以根据招聘职位可调整的，即，可以根据招聘职位为各个提示线索及相应的视频片段提供可调整的指标权重。由此，对于不同的招聘职位，每个视频片段对面试视频的总体评价分数的影响力不同。

在步骤750，根据所述多个视频片段的加权评价向量，产生所述面试视频的总体评价分数。在一个实施例中，产生总体评价分数包括对所述多个视频片段的加权评价向量进行池化，计算所述池化后的向量的二阶范数，作为总体评价分数。进一步的，池化包括计算这些加权的评价向量的每个面试考核指标的最大值、最小值、平均值或者去除最大值和最小值后的平均值。然后，可以计算池化后的向量的范数。计算二阶范数的优点在于，可以更明显地突出求职者的优势考核素质，即，选拔出具有特长的求职者。

在步骤760，按照所述总体评价分数的排序，推荐面试视频。

根据本发明实施例，面试视频被分割为多个视频片段，使用可调整的指标权重来评估求职者在每个视频片段中表现出的能力，由此实现了更精细化和定制化的面试视频推荐，显著提高了面试视频推荐的效率，减少人工审核面试视频的时间和精力。

图8示出了根据本发明实施例的一种智能面试视频的推荐装置800的示意框图。

智能面试视频的推荐装置800包括：

视频分割单元810，被配置用于根据视频中的提示线索，将所述视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重，所述指标权重是根据招聘职位可调整的；

特征提取单元820，被配置用于从所述多个视频片段中的每个视频片段的图像流和音频流中分别提取求职者的表情特征、语音情绪特征、语音文本特征；

评价向量产生单元830，被配置用于基于表情特征、语音情绪特征和语音文本特征，产生所述视频片段的评价向量，所述评价向量的每个维度对应于一个面试考核指标；

评价向量加权单元840，被配置用于根据所述视频片段的指标权重和所述评价向量，产生所述视频片段的加权评价向量；

总体评价分数产生单元850，被配置用于根据所述多个视频片段的加权评价向量，产生所述面试视频的总体评价分数；以及

推荐单元860，被配置用于按照所述总体评价分数的排序，推荐面试视频。

装置800对应于参照图7的方法700，更多具体实施细节与方法700相同或相似。这里不再重复。

图9示出了用于实现本发明实施例的计算机系统的结构示意图。如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有计算机系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该指令被中央处理单元(CPU)901执行时，执行本发明中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种智能面试视频的推荐方法，包括：

从所述多个视频片段中的每个视频片段的图像流和音频流中提取求职者的表情特征、语音情绪特征和语音文本特征；

按照所述总体评价分数的排序，推荐面试视频。

2.如权利要求1所述的方法，其中，还包括从求职者简历中提取简历文本信息，以及使用所述简历文本产生所述评价向量。

3.如权利要求1或2所述的方法，其中，所述提示线索包括智能机器人给出的初始问题和根据所述初始问题的回答内容产生的附加问题，其中关于附加问题的视频片段相比于初始问题的视频片段具有更高的指标权重。

4.如权利要求1或2所述的方法，其中，所述提取求职者的表情特征包括：

每隔预定时长从视频片段的图像流中产生面试图像；

对所述面试图像进行人脸检测，从检测到的人脸中提取特征点；

将所述特征点输入到表情识别模型，以识别出求职者的表情特征，所述表情特征包括求职者当前情绪的概率分布，其中所述表情特征包括中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶。

5.如权利要求1或2所述的方法，其中，所述提取求职者的语音情绪特征包括：

从语音流提取语音帧，并对语音帧进行预加重、分帧和加窗，得到短时分析窗；

对得到的每个短时分析窗，通过快速傅里叶变换得到对应的频谱；

将所述频谱通过梅尔滤波器组得到梅尔频谱；

在梅尔频谱上进行倒谱分析，获得梅尔频率倒谱系数，作为所述语音帧的发音特征；以及

将所述发音特征输入到语音情绪识别模型，以识别出求职者的语音情绪，其中所述语音情绪特征包括求职者当前情绪的概率分布，所述语音情绪包括中性、生气、轻视、无聊、厌恶、紧张、害怕、高兴、悲伤、惊讶。

6.如权利要求1或2所述的方法，其中，所述提取所述语音文本特征包括提取求职者的语音文本的连续性、重复性、语法错误、词汇量、禁用词中的一项或多项。

7.如权利要求1或2所述的方法，其中，产生所述视频片段的评价向量包括：将所述表情特征、所述语音情绪特征、所述语音文本特征和所述简历文本信息组合后输入到能力评价模型，以产生所述视频片段的所述评价向量。

8.如权利要求1或2所述的方法，其中，产生总体评价分数包括:对所述多个视频片段的加权评价向量进行池化，计算所述池化后的向量的二阶范数，作为总体评价分数。

9.一种智能面试视频的推荐装置，包括：

视频分割单元，被配置用于根据面试视频中的提示线索，将所述面试视频分割为多个视频片段，其中每个视频片段与一个或多个面试考核指标相关联，具有相应的指标权重，所述指标权重是根据招聘职位可调整的；

总体评价分数产生单元，被配置用于根据所述多个视频片段的加权评价向量，产生所述面试视频的总体评价分数；以及

推荐单元，被配置用于按照所述总体评价分数的排序，推荐面试视频。

10.一种计算机可读存储介质，存储有计算机指令，所述计算机指令在被处理器执行时使得所述处理器实施如权利要求1至8中任一项所述的方法。