CN112651714A

CN112651714A - 一种基于多模态信息的面试测评方法和系统

Info

Publication number: CN112651714A
Application number: CN202011557727.1A
Authority: CN
Inventors: 谢湘; 梁爽; 程皓
Original assignee: Shenzhen Institute Of Beijing Institute Of Technology
Current assignee: Shenzhen Institute Of Beijing Institute Of Technology
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-13

Abstract

本发明提供了一种基于多模态信息的面试测评方法、系统、装置及面试测评模型训练方法，属于机器学习中的多模态信息处理技术领域。所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息。该方法包括采集面试数据，获取面试的多模态信息，提取所述多模态信息的面试特征，将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分，根据所述得分，输出面试测评结果和聘用结果。面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征。本发明能够提高面试效率和面试测评准确度，通过不同职位的统一的面试测评标准，能全面、客观地对应聘者进行测评。

Description

一种基于多模态信息的面试测评方法和系统

技术领域

本发明涉及一种基于多模态信息的面试测评方法和系统，属于机器学习中的多模态信息处理技术领域。

背景技术

人才是企业发展的重要因素，随着企业对人才质量和人岗匹配的要求越来越高，招聘在企业中的地位愈加重要。在传统的面试中，面试官只能凭借少量文字或记忆对应聘者进行测评，这对面试官的工作能力和强度都提出了相当高的要求。尤其是当招聘人数庞大时，面试官容易出现遗忘或偏差，降低面试评价的准确度，且对应聘者的评价通常依赖于面试官的经验，若面试官不具备很强的洞察力，则不能选出符合公司招聘要求的人才。另外面试官很难做到从多个维度，全方面地对应聘者进行打分，且当需要多个面试官进行评价时，无法保证每位面试官的评分标准一致，导致评分有偏差。

现有技术在进行面试测评时，存在如下两方面技术缺陷：

(1)对面试的多模态信息采集和分析不全面：现有面试测评时，大多对应聘者的回答内容进行测评，部分技术利用应聘者的微表情特征进行测评，然而现实中，利用单一维度进行面试测评不能全面地考察应聘者，因为面试时应聘者的姿态、声音以及表情都会影响面试官的判断，进而影响面试的测评。本发明在现有技术上，采集多模态数据，生成包括文本信息、语音信息、3D视频信息、彩色视频信息和/或生理信息在内的多模态信息，并对这些数据提取多模态面试特征。

(2)面试测评方法单一：现有面试测评系统及方法中，大多数仅对作答内容进行测评，且对作答内容分析的方法较为单一，即将回答文本中的关键词，与目标关键词进行匹配度计算。本发明采用监督学习方法，利用提取的多模态面试特征，学习每个职业能力维度的测评标准，生成面试测评模型，用于给出面试测评结果和聘用结果。

发明内容

本发明的目的是解决现有面试测评方法中的多模态信息采集和分析不全面、面试测评方法单一的问题，提出了一种基于多模态信息的面试测评方法和系统，该方法和系统对应聘者在面试中的多模态信息进行多模态面试特征提取，通过面试测评模型输出应聘者十个职业能力维度的得分，并按照岗位的不同分配十个职业能力维度的得分权重，给出面试的最后得分情况，决定聘用与否。

为了实现上述目的，本发明的第一方面提供了一种基于多模态信息的面试测评方法，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评方法包括：采集面试数据，获取面试的多模态信息；提取所述多模态信息的面试特征；将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，输出面试测评结果和聘用结果。

其中，所述面试数据包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，所述文本信息由所述语音数据识别转化而成，所述语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从所述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取；所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征；所述十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

进一步地，所述预先训练好的面试测评模型的训练过程包括：收集面试的多模态信息作为训练集；对训练集中每个样本提取多模态信息的面试特征；根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注；通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型。

进一步地，所述文本特征是依据所述文本信息，先进行分词及过滤预处理，再进行词频分析，输出各类词汇的百分比得到；所述语音特征依据所述语音信息，提取得到应聘者回答的流利度及韵律特征，所述流利度包括平均语速、总回答时长、平均回答时长、简短的讲话次数、回答停顿次数、停顿时长百分比、最长停顿时间、平均停顿时间、话轮转换总个数、平均话轮转换时长以及最长话轮转换时长；所述韵律特征包括基频及基频统计数据、强度及强度统计数据以及能量及能量统计数据；所述基频统计数据包括基频的平均值、最小值、最大值、中位值以及标准偏差；所述强度统计数据包括强度的平均值、最小值、最大值、中位值以及标准偏差；所述能量统计数据包括能量的平均值、最小值、最大值、中位值以及标准偏差；所述微表情特征依据所述彩色视频信息，包括眼神微表情特征、嘴巴微表情特征和眉毛微表情特征；所述眼神微表情特征包括直视、躲避以及快速移动；所述嘴巴微表情特征包括微笑和紧闭；所述眉毛微表情特征包括皱眉；所述姿态特征依据所述3D视频信息，包括手势姿态特征、肩膀特征和头部动作特征；所述手势特征包括摆手和双手紧握，所述肩膀特征包括内收、外扩和侧转；所述头部动作特征包括点头和摇头；以及/或者所述生理特征依据所述生理信息，包括心率及心电信号。

进一步地，所述得分按照不同岗位需求下不同的面试问题、以及所述不同问题下的十个职业能力维度权重计分得到。

另外，本发明的第二方面提供了一种基于多模态信息的面试测评模型训练方法，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评模型训练方法以收集的面试多模态信息作为训练集，对训练集中每个样本提取多模态信息的面试特征，根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注；通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型；其中，所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征；所述十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

另外，本发明的第三方面提供了一种基于多模态信息的面试测评系统，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评系统包括：数据采集模块，用于采集面试数据，获取面试的多模态信息；数据存储和处理模块，用于存储所述多模态信息，并提取所述多模态信息的面试特征；面试测评模块，用于将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，输出面试测评结果和聘用结果。

本发明的第四方面提供了一种基于多模态信息的面试测评装置，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评装置包括：采集面试数据、获取面试的多模态信息的传感器设备，以及与所述传感器设备连接的存储器和处理器；所述存储器和处理器存储所述多模态信息，并提取所述多模态信息的面试特征，将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，输出面试测评结果和聘用结果，其中，所述面试数据包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，所述文本信息由所述语音数据识别转化而成，所述语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从所述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取；所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征；所述十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

进一步地，所述的基于多模态信息的面试测评装置中，所述存储器和处理器中存储有指令或程序，以执行上述任一实施例中基于多模态信息的面试测评方法、或基于多模态信息的面试测评模型训练方法、或基于多模态信息的面试测评系统中的任务。

本发明所述的一种智能的辅助面试测评方法和系统，与现有技术相比，具有如下有益效果：

1.能够提高面试效率：据统计面试官花在招聘工作的时间占据了总工作时间的20％左右，利用人工智能辅助面试测评，可以减轻HR的工作量，面试官不必仅通过少量文字或记忆对应聘者进行测评，推动HR工作的数字化转型，提高工作效率；

2.能够提高面试测评准确度，帮助企业找到合适的人才：利用人工智能辅助面试测评，可以对人才多方面进行精准的测评，还可以与岗位进行人岗匹配，进一步筛选适合本岗位的高质量人才，从而提高企业竞争力；

3.能够全面地对应聘者进行测评：从应聘者面试的回答内容、语音、表情、姿态、交互中，可以洞察包括理解与表达能力、应变能力、组织协调能力等多个职业能力维度；

4.能够使面试测评不再单纯依赖于面试官的经验，若面试官经验不足，可参考面试测评报告，进而挑选出适合公司招聘要求的人才；

5.能够统一面试测评的标准：利用机器对应聘者进行评价，可以避免多个面试官的评价标准无法统一的问题。

附图说明

图1是本发明实施例中一种基于多模态信息的面试测评方法的流程图；

图2是本发明实施例中一种基于多模态信息的面试测评模型训练方法流程图；

图3是本发明实施例中一种基于多模态信息的面试测评系统的结构示意图；

图4是本发明实施例中一种基于多模态信息的面试测评装置的结构示意图。

具体实施方式

为了提高面试效率和面试测评准确度，帮助企业找到合适的人才，本发明实施例提供了一种基于多模态信息的面试测评方法和系统，下面结合附图及具体实施例对本发明一种基于多模态信息的面试测评方法和系统进行详细阐述。

图1为本发明实施例提供的一种基于多模态信息的面试测评方法，包括步骤：

S11.采集面试数据，获取面试的多模态信息。面试数据包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；文本信息由所述语音数据识别转化而成，语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从所述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取。

S12.提取所述多模态信息的面试特征。面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征。

S13.将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分。十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

S14.根据所述得分，输出面试测评结果和聘用结果。

譬如面试给出一道题目供应聘者进行回答。步骤S11中，在应聘者回答问题过程中，采集包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，并将语音数据通过语音识别方法转化为文本信息，分别从上述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取文本信息、语音信息、3D视频信息、彩色视频信息和生理信息，共同构成面试的多模态信息。

步骤S12中，针对多模态信息中的文本信息，进行分词及过滤预处理,再进行词频分析，输出各类词汇的百分比，作为文本特征；其中，作为优选，所述各类词汇选择SC-LIWC中针对简体中文的文本分析词典，它有71个词汇类别，共计有7444个词汇。

针对多模态信息中的语音信息，提取得到应聘者回答的流利度及韵律特征，作为语音特征。其中，流利度包括平均语速、总回答时长、平均回答时长、简短的讲话次数、回答停顿次数、停顿时长百分比、最长停顿时间、平均停顿时间、话轮转换总个数、平均话轮转换时长以及最长话轮转换时长；韵律特征包括基频及其统计数据、强度及其统计数据以及能量及能量统计数据；基频统计数据包括基频的平均值、最小值、最大值、中位值以及标准偏差；强度及其统计数据包括强度的平均值、最小值、最大值、中位值以及标准偏差；能量统计数据包括能量的平均值、最小值、最大值、中位值以及标准偏差。

针对多模态信息中的彩色视频信息，截取多个视频帧，结合OpenCV与Dlib库,利用Dlib库的人脸检测模型,实现人脸检测与提取；对提取到的人脸通过OpenFace检测眼神、嘴巴和眉毛部位的微表情，作为眼神微表情特征、嘴巴微表情特征和眉毛微表情特征；其中，眼神微表情特征包括直视、躲避以及快速移动；嘴巴微表情特征包括微笑和紧闭；眉毛微表情特征包括皱眉。

针对多模态信息中的3D视频信息，通过OpenNI+NITE获取人体骨架，并从中得到关节点数据，进行姿态识别，包括手势、肩膀以及头部动作的识别，计算姿态出现的次数，作为手势特征、肩膀特征以及头部动作特征；其中，手势特征包括摆手和双手紧握，肩膀特征包括内收、外扩和侧转；头部动作特征包括点头和摇头。

针对多模态信息中的生理信息，提取得到心率及心电信号特征，作为生理特征。用均值滤波和小波变换进行去干扰，消除外界的电磁辐射、测量设备或其他信号的影响，提取去干扰后的心电信号，再基于此信号提取心电信号特征。

步骤S13中，在本题目结束后，将步骤S12提取的多模态面试特征输入预先训练好的面试测评模型，得到该题目下应聘者的十个职业能力维度的得分。

步骤S14中，输出面试测评结果和聘用结果。先对面试的每道问题重复步骤S11～S13，对每道题目进行打分，得到应聘者每道问题的十个职业能力维度的得分，直至面试结束；或者对本轮面试的所有问题重复步骤S11～S12后，再将每一道问题的多模态信息的面试特征作为输入进行步骤S13，得到应聘者每道问题的十个职业能力维度的得分。然后对所有题目面试测评结果进行平均融合，得到最后的测评结果，按照岗位需求的不同，将不同职业能力维度按照不同权重计分，给出面试的最后得分，决定聘用与否。

本发明提供了一种基于多模态信息的面试测评模型训练方法，如图2所示，包括步骤：

S21，以收集的面试多模态信息作为训练集。多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息。语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从预先面试采集的语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取，文本信息由语音数据识别转化而成。

S22，对S21的训练集中每个样本提取多模态信息的面试特征。面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征。

文本特征是依据文本信息，先进行分词及过滤预处理，再进行词频分析，输出各类词汇的百分比得到。

语音特征依据语音信息，提取得到应聘者回答的流利度及韵律特征，其中，流利度包括平均语速、总回答时长、平均回答时长、简短的讲话次数、回答停顿次数、停顿时长百分比、最长停顿时间、平均停顿时间、话轮转换总个数、平均话轮转换时长以及最长话轮转换时长；韵律特征包括基频及基频统计数据、强度及强度统计数据以及能量及能量统计数据。这里的基频统计数据包括基频的平均值、最小值、最大值、中位值以及标准偏差；强度统计数据包括强度的平均值、最小值、最大值、中位值以及标准偏差；能量统计数据包括能量的平均值、最小值、最大值、中位值以及标准偏差。

微表情特征依据彩色视频信息，提取得到眼神微表情特征、嘴巴微表情特征和眉毛微表情特征。眼神微表情特征包括直视、躲避以及快速移动；嘴巴微表情特征包括微笑和紧闭；眉毛微表情特征包括皱眉。

姿态特征依据3D视频信息，提取得到手势姿态特征、肩膀特征和头部动作特征；手势特征包括摆手和双手紧握，肩膀特征包括内收、外扩和侧转；头部动作特征包括点头和摇头。

生理特征依据所述生理信息得到，包括心率及心电信号特征。

S23，根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注。

S24，通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型。

本发明提供了一种基于多模态信息的面试测评系统，如图3所示，包括：用于采集面试数据，获取面试的多模态信息的数据采集模块31；用于存储所述多模态信息，并提取所述多模态信息的面试特征的数据存储和处理模块32；用于将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分的面试测评模块33；以及根据所述得分，输出面试测评结果和聘用结果的显示端34。

数据采集模块31与数据存储和处理模块32相连，数据存储和处理模块32与面试测评模块33相连，面试测评模块33与显示端34相连。

其中，数据采集模块31进行多模态数据的采集和多模态信息的获取。譬如：使用Kinect相机、麦克风和智能手环采集多模态数据，即使用Kinect相机获取3D视频数据和彩色视频数据，使用麦克风获取的语音数据，使用智能手环获取的生理数据；将语音数据通过语音识别技术转化为文本信息，使文本信息、语音信息、3D视频信息、彩色视频信息和生理信息共同构成多模态信息；获取到面试中的多模态信息后，将其输入数据存储和处理模块32，用于进行后续的相关处理。

数据存储和处理模块32接收数据采集模块31获取的多模态信息，用于进行存储和传输，并提取所述多模态信息的面试特征。将多模态信息进行存储，以备应聘者和企业面试官可以对面试过程进行回放；数据存储和处理模块32还进行多模态面试特征的提取，将提取的多模态面试特征作为输入传到面试测评模块33，进行后续的面试测评。

面试测评模块33利用多模态面试特征进行面试测评，通过预先训练好的面试测评模型对多模态面试特征进行分析，对每个职业能力维度进行测评，得到应聘者的十个职业能力维度的得分，这十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。再按照岗位需求的不同，将不同维度按照不同权重计分，给出面试的最后得分。

显示端34根据最后的得分，输出面试测评结果和聘用结果。

其中，面试数据包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，文本信息由所述语音数据识别转化而成，语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从所述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取；所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征。

本发明还提供了一种基于多模态信息的面试测评装置，如图4所示，包括传感器设备41、存储器和处理器42、以及显示器43。传感器设备41用于采集面试数据、获取面试的多模态信息；与所述传感器设备41连接的存储器和处理器42存储所述多模态信息，并提取所述多模态信息的面试特征，将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，在显示器43输出面试测评结果和聘用结果。

下面提供一种基于多模态信息的面试测评方法的实施例。面试过程中，给出一道题目供应聘者进行回答，在应聘者回答问题过程中，利用数据采集模块中的麦克风、Kinect相机和智能手环采集包括语音数据、3D视频数据、彩色视频数据和生理数据在内的多模态数据，并将语音数据通过语音识别方法转化为文本信息，面试中的文本信息、语音信息、3D视频信息、彩色视频信息和生理信息共同构成多模态信息。

例如在爱某信公司利用本发明的基于多模态信息的面试测评方法和系统进行实习生招聘时，在布置好的面试室中进行面试，1号应聘者进行面试的过程如下：面试开始前，让应聘者佩戴好麦克风和智能手环，Kinect相机架在应聘者对面，使其能够捕捉到应聘者的动作和人脸；面试过程采用结构化面试的模式，即采用同样的面试题目进行面试；第一道题目是“首先请你做个自我介绍”，给应聘者短暂的思考时间，控制应聘者回答问题的时间在2到5分钟之间；在应聘者回答问题过程中，利用麦克风、Kinect相机和智能手环采集包括语音数据、3D视频数据、彩色视频数据和生理数据在内的多模态数据，并将语音数据通过语音识别方法转化为文本信息，得到第一道题目的多模态信息，包括文本信息、语音信息、3D视频信息、彩色视频信息和生理信息。

针对多模态信息中的文本信息，进行分词及过滤预处理,再进行词频分析，输出SC-LIWC各类词汇的百分比，作为文本特征。分词利用中文分词工具jieba分词，利用它的精确分词模式，将句子精确地切开。通过过滤步骤将停用词过滤掉，得到预处理后的文本信息。将预处理后的文本信息进行词频分析，即将每个词与SC-LIWC词典中词语匹配，对应的类别计数加一；统计并输出各类词汇的百分比，作为文本特征。

针对多模态信息中的语音信息，提取得到应聘者回答的流利度及韵律特征，作为语音特征。其中，流利度包括平均语速、总回答时长、平均回答时长、简短的讲话次数、回答停顿次数、停顿时长百分比、最长停顿时间、平均停顿时间、话轮转换总个数、平均话轮转换时长以及最长话轮转换时长；韵律特征包括基频及其统计数据、强度及其统计数据以及能量及能量统计数据。

基频统计数据包括基频的平均值、最小值、最大值、中位值以及标准偏差；强度统计数据包括强度的平均值、最小值、最大值、中位值以及标准偏差；能量统计数据包括能量的平均值、最小值、最大值、中位值以及标准偏差。

利用静音检测和语音分割方法计算流利度，即统计应聘者语速、回答、停顿和话轮转换的情况；利用openSMILE工具提取各韵律特征。

针对多模态信息中的3D视频信息，通过OpenNI+NITE获取人体骨架，并从中得到关节点数据，进行姿态识别，包括手势、肩膀以及头部动作的识别，计算姿态出现的次数，作为手势姿态特征、肩膀特征、以及头部动作特征。其中，手势特征包括摆手和双手紧握，肩膀特征包括内收、外扩和侧转；头部动作特征包括点头和摇头。

针对多模态信息中的彩色视频信息，截取多个视频帧，结合OpenCV与Dlib库,利用Dlib库中的人脸检测模型,实现人脸检测与提取；对提取到的人脸通过OpenFace检测眼神、嘴巴和眉毛部位的微表情，作为眼神微表情特征、嘴巴微表情特征和眉毛微表情特征。其中，眼神微表情特征包括直视、躲避以及快速移动；嘴巴微表情特征包括微笑和紧闭；眉毛微表情特征包括皱眉。

针对多模态信息中的生理信息，提取得到心率及心电信号特征，作为生理特征。用均值滤波和小波变换来进行去干扰，消除外界的电磁辐射、测量设备或其他信号的影响，提取去干扰后的心电信号，再基于此信号提取心电信号特征。

至此，得到了1号应聘者第一道题目的多模态面试特征，包括文本特征、语音特征、姿态特征、微表情特征和生理特征。

根据预先训练好面试测评模型及提取的多模态面试特征，在面试测评模块中进行面试测评：在本题目结束后，利用训练好的面试测评模型进行测评，得到十个职业能力维度的测评分数。其中，十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

至此，1号应聘者在回答完第一道题目后，得到了他初步的十个职业能力维度的测评分数。

1号应聘者回答完第一道题目后，紧接着面试官继续询问其他的问题，包括“请你具体介绍一下你近期的研究项目”，“项目进展到现在，你认为你在项目进展过程中遇到的最大的困难是什么呢？你是怎么解决的呢？”，“你认为在这期间你最大的收获是什么呢？”以及“你未来的职业规划是什么，你为什么会选择从事这样的工作？”四个问题；在每道题目回答结束后，对应聘者每道题目的回答进行测评；五道题目回答结束后，得到5组对于十个职业能力维度的测评分数，对这5组分数中的每个维度分别进行平均融合，得到最后的十个职业能力维度的测评结果。

由于1号应聘者应聘的是技术岗位的实习工作，技术岗位是指专门从事专业技术研究和实践的岗位，它对员工的思维逻辑能力、分析问题的能力和概括总结的能力要求较高，即对综合分析能力维度要求较高；在从事技术研究时难免会遇到问题和弯路，因此需要员工面对困难心态积极乐观，沉着冷静，能够采取有效措施化解困难，即对情绪控制能力维度要求较高；技术岗作为推动公司技术发展的核心，需要员工具有责任心、进取心和职业化意识，能够主动学习不断充实自己，即对成就动机维度要求较高；对技术岗员工的培训相对时间较长，因此要求员工能够长时间从事该职业，即对求职动机维度要求较高；且要求员工具有相应的专业技术水平和专业知识的储备。

综上，技术类岗位对综合分析能力、情绪控制能力、求职动机、成就动机和专业知识要求较高，则相对应地提高将这几个职业能力维度所占权重。

设举止仪表维度所占面试测评权重为W1，综合分析能力维度所占面试测评权重为W2，理解与表达能力维度所占面试测评权重为W3，应变能力维度所占面试测评权重为W4，组织协调能力维度所占面试测评权重为W5，交往意识与技巧维度所占面试测评权重为W6，情绪控制能力维度所占面试测评权重为W7，求职动机维度所占面试测评权重为W8，成就动机维度所占面试测评权重为W9，专业知识维度所占面试测评权重为W10；其中W1+W2+W3+W4+W5+W6+W7+W8+W9+W10＝1。

则技术岗位面试测评权重：W1＝5％，W2＝15％，W3＝5％，W4＝5％，W5＝5％，W6＝5％，W7＝15％，W8＝15％，W9＝15％，W10＝15％。

面试测评满分10分，十个职业能力维度满分10分；利用本发明基于多模态信息的面试测评方法和系统得到1号应聘者十个职业能力维度得分：举止仪表维度得分8.20分，综合分析能力维度得分6.49分，理解与表达能力维度得分6.52分，应变能力维度得分6.67分，组织协调能力维度得分7.56分，交往意识与技巧维度得分7.89分，情绪控制能力维度得分7.20分，求职动机维度得分8.23分，成就动机维度得分6.43分，专业知识维度得分7.11分，则面试测评综合得分为：

8.20*5％+6.49*15％+6.52*5％+6.67*5％+7.56*5％+7.89*5％+7.20*15％+8.23*15％+6.43*15％+7.11*15％＝7.16分。

1号应聘者的面试测评综合得分在标准得分7.5分之下，所以认为不符合该技术岗岗位的要求，给出不予以聘用的决定，反馈给面试官。

根据岗位的不同，其他岗位面试测评计分标准如下：

例如服务类岗位对举止仪表、理解与表达能力、应变能力、交往意识与技巧、情绪控制能力要求较高，则相对应地提高将这几个职业能力维度所占权重，W1＝15％，W2＝5％，W3＝15％，W4＝15％，W5＝5％，W6＝15％，W7＝15％，W8＝5％，W9＝5％，W10＝5％。

例如销售类岗位对综合分析能力、理解与表达能力、应变能力、交往意识与技巧、情绪控制能力要求较高，则相对应地提高将这几个职业能力维度所占权重，W1＝5％，W2＝15％，W3＝15％，W4＝15％，W5＝5％，W6＝15％，W7＝15％，W8＝5％，W9＝5％，W10＝5％。

例如管理类岗位对综合分析能力、理解与表达能力、应变能力、组织协调能力、成就动机要求较高，则相对应地提高将这几个职业能力维度所占权重，W1＝5％，W2＝15％，W3＝15％，W4＝15％，W5＝15％，W6＝5％，W7＝5％，W8＝5％，W9＝15％，W10＝5％。

输出面试测评结果和聘用结果：判断面试是否结束，若未结束，则重复步骤S11～S13，对每道题目进行打分；若面试结束，则对所有题目面试测评结果进行平均融合，得到最后的测评结果，按照岗位需求的不同，将不同职业能力维度按照不同权重计分，给出面试的最后得分，决定聘用与否。

Claims

1.一种基于多模态信息的面试测评方法，其特征在于，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评方法包括：

采集面试数据，获取面试的多模态信息；

提取所述多模态信息的面试特征；

将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；

根据所述得分，输出面试测评结果和聘用结果；

2.根据权利要求1所述的基于多模态信息的面试测评方法，其特征在于，所述预先训练好的面试测评模型的训练过程包括：收集面试的多模态信息作为训练集；对训练集中每个样本提取多模态信息的面试特征；根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注；通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型。

3.根据权利要求1所述的基于多模态信息的面试测评方法，其特征在于，所述文本特征是依据所述文本信息得到，先进行分词及过滤预处理，再进行词频分析，输出各类词汇的百分比得到；

所述语音特征依据所述语音信息，提取得到应聘者回答的流利度及韵律特征，所述流利度包括平均语速、总回答时长、平均回答时长、简短的讲话次数、回答停顿次数、停顿时长百分比、最长停顿时间、平均停顿时间、话轮转换总个数、平均话轮转换时长以及最长话轮转换时长；所述韵律特征包括基频及基频统计数据、强度及强度统计数据以及能量及能量统计数据；所述基频统计数据包括基频的平均值、最小值、最大值、中位值以及标准偏差；所述强度统计数据包括强度的平均值、最小值、最大值、中位值以及标准偏差；所述能量统计数据包括能量的平均值、最小值、最大值、中位值以及标准偏差；所述微表情特征依据所述彩色视频信息，提取得到应聘者的眼神微表情特征、嘴巴微表情特征和眉毛微表情特征；所述眼神微表情特征包括直视、躲避以及快速移动；所述嘴巴微表情特征包括微笑和紧闭；所述眉毛微表情特征包括皱眉；

所述姿态特征依据所述3D视频信息，提取得到应聘者的手势姿态特征、肩膀特征和头部动作特征；所述手势特征包括摆手和双手紧握，所述肩膀特征包括内收、外扩和侧转；

所述头部动作特征包括点头和摇头；

以及/或者所述生理特征依据所述生理信息得到，包括心率及心电信号。

4.根据权利要求1所述的基于多模态信息的面试测评方法，其特征在于，所述得分按照不同岗位需求下不同的面试问题、以及所述不同问题下的十个职业能力维度权重计分得到。

5.一种基于多模态信息的面试测评模型训练方法，其特征在于，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评模型训练方法以收集的面试多模态信息作为训练集，对训练集中每个样本提取多模态信息的面试特征，根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注；通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型；其中，所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征；所述十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

6.一种基于多模态信息的面试测评系统，其特征在于，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评系统包括：

数据采集模块，用于采集面试数据，获取面试的多模态信息；

数据存储和处理模块，用于存储所述多模态信息，并提取所述多模态信息的面试特征；

面试测评模块，用于将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，输出面试测评结果和聘用结果；

7.根据权利要求6所述的基于多模态信息的面试测评系统，其特征在于，所述预先训练好的面试测评模型的训练过程包括：收集面试的多模态信息作为训练集；对训练集中每个样本提取多模态信息的面试特征；根据每个样本中应聘者的表现，对应聘者的十个职业能力维度进行标注；通过监督学习的机器学习方法，将多模态信息的面试特征作为输入，应聘者的十个职业能力维度得分作为输出，学习十个职业能力维度的测评标准，生成训练好的面试测评模型。

8.根据权利要求6所述的基于多模态信息的面试测评系统，其特征在于，所述得分按照不同岗位需求下不同的面试问题、以及所述不同问题下的十个职业能力维度权重计分得到。

9.一种基于多模态信息的面试测评装置，其特征在于，所述多模态信息包括文本信息、语音信息、彩色视频信息，以及3D视频信息和/或生理信息；所述面试测评装置包括：

采集面试数据、获取面试的多模态信息的传感器设备，以及与所述传感器设备连接的存储器和处理器；所述存储器和处理器存储所述多模态信息，并提取所述多模态信息的面试特征，将所述面试特征输入预先训练好的面试测评模型，得到应聘者的十个职业能力维度的得分；根据所述得分，输出面试测评结果和聘用结果，其中，所述面试数据包括语音数据、彩色视频数据、以及3D视频数据和/或生理数据，所述文本信息由所述语音数据识别转化而成，所述语音信息、彩色视频信息，以及3D视频信息和/或生理信息分别从所述语音数据、彩色视频数据、以及3D视频数据和/或生理数据中提取；所述面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征；所述十个职业能力维度包括举止仪表、综合分析能力、理解与表达能力、应变能力、组织协调能力、交往意识与技巧、情绪控制能力、求职动机、成就动机以及专业知识。

10.根据权利要求9所述的基于多模态信息的面试测评装置，其特征在于，所述存储器和处理器中存储有指令或程序，以执行如权利要求2-4中任一权利要求所述的基于多模态信息的面试测评方法；

或者，

所述存储器和处理器中存储有指令或程序，以执行如权利要求5中所述的基于多模态信息的面试测评模型训练方法；

或者，

所述存储器和处理器中存储有指令或程序，以执行如权利要求6-8中任一权利要求所述的基于多模态信息的面试测评系统中的任务。