CN115495418A

CN115495418A - 一种视频面试信息的数据处理方法、装置和电子设备

Info

Publication number: CN115495418A
Application number: CN202211237849.1A
Authority: CN
Inventors: 戴科彬; 肖婷
Original assignee: Tongdao Jingying Tianjin Information Technology Co ltd; Yingshi Internet Beijing Information Technology Co ltd
Current assignee: Tongdao Jingying Tianjin Information Technology Co ltd; Yingshi Internet Beijing Information Technology Co ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2022-12-20

Abstract

本发明涉及商业面试信息处理技术领域，提供了一种视频面试信息的数据处理方法、装置和电子设备，包括将视频分解为音频文件和视频文件，将音频文件转换为文本文件；提取视频中多个预定时刻的视频帧图像，识别每个视频帧图像对应的年龄数据和容貌数据，将多个视频帧图像对应的平均年龄数据和平均容貌数据作为图像特征；计算音频特征；计算得到文本特征；将文本文件输入至语言表征模型中，获得语义特征；将所述图像特征、音频特征、文本特征和语义特征输入至预先训练的胜任力模型中，获得面试者的评估结果，胜任力模型包括多个职场因素，评估结果根据多个职场因素的预测分值获得。本发明区分度高，灵活性强，鲁棒性好，评估结果准确。

Description

一种视频面试信息的数据处理方法、装置和电子设备

技术领域

本发明一般涉及商业面试信息处理技术领域，具体涉及一种视频面试信息的数据处理方法、装置和电子设备。

背景技术

作为招聘的重要环节，面试需要消耗大量人力和物力，是这个过程中最为冗长的阶段。同时由于面试极具主观性，不同面试官具有不同的经验和判断标准，因此最终的面试结果也会千差万别。目前，相关技术通过人工智能(Artificial Intelligence，AI)的方式进行视频面试，但所提取的特征单一、区分度低，并且选拔具有企业特异性，极大地限制了适用范围，灵活性弱。

发明内容

鉴于相关技术中的上述缺陷或不足，期望提供一种视频面试信息的数据处理方法、装置和电子设备，其区分度高，适用范围广泛，灵活性强，鲁棒性好。

第一方面，本发明提供了一种视频面试信息的数据处理方法，其特征在于，所述方法包括：

将面试视频分解为音频文件和视频文件，并将所述音频文件转换为文本文件；

提取所述视频文件中多个预定时刻的视频帧图像，识别每个视频帧图像对应的年龄特征数据和容貌特征数据，将多个视频帧图像对应的平均年龄特征数据和平均容貌特征数据作为图像特征；计算所述音频文件中的音频参数，得到所述音频参数组合形成的音频特征；对所述文本文件进行分词，并统计各种不同类别字符的数量以及每句话的词数和字符数，计算得到文本特征；将所述文本文件输入至预先训练的语言表征模型中，获得语义特征；

将所述图像特征、音频特征、文本特征和语义特征输入至预先训练的胜任力模型中，获得所述面试者的评估结果，其中所述胜任力模型包括多个职场因素，所述评估结果根据所述多个职场因素的预测分值获得。

进一步的，所述职场因素通过如下方式得到：

根据历史面试数据筛选出多个面试维度；

将所述面试维度分解为多个含义单一的特定描述的词汇；

去除所述特定描述的词汇中的无效部分，得到施测词汇表；

对所述施测词汇表中的词汇进行评定；

对评定后的施测词汇表中的词汇进行主成分分析，确定所述职场因素。

进一步的，所述音频参数包括占空比、音频中断次数、共振峰、声音能量、标准差、最大值、最小值和/或分布曲线对应峰值。

进一步的，所述职场因素包括好奇、服从、决断、担当、耐挫、赋能、成就、淡定、轻松、同理心、利他、秩序、行动、踏实、变通、激情、精准、合作、创新和/或逻辑。

进一步的，所述胜任力模型为XGBoost模型。

本发明的第二方面，还提供了一种视频面试信息的数据处理装置，包括：

视频处理模块，被配置为将面试视频分解为音频文件和视频文件，并将所述音频文件转换为文本文件；

特征提取模块，被配置为提取所述视频文件中多个预定时刻的视频帧图像，识别每个视频帧图像对应的年龄特征数据和容貌特征数据，将多个视频帧图像对应的平均年龄特征数据和平均容貌特征数据作为图像特征；计算所述音频文件中的音频参数，得到所述音频参数组合形成的音频特征；对所述文本文件进行分词，并统计各种不同类别字符的数量以及每句话的词数和字符数，计算得到文本特征；将所述文本文件输入至预先训练的语言表征模型中，获得语义特征；

评估模块，被配置为将所述图像特征、音频特征、文本特征和语义特征输入至预先训练的胜任力模型中，获得所述面试者的评估结果，其中所述胜任力模型包括多个职场因素，所述评估结果根据所述多个职场因素的预测分值获得。

进一步的，还包括职场因素获得模块，被配置为：

将所述面试维度分解为多个含义单一的特定描述的词汇；

去除所述特定描述的词汇中的无效部分，得到施测词汇表；

对所述施测词汇表中的词汇进行评定；

本发明的第三方面，还提供了一种电子设备，包括：

处理器和存储器，

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述视频面试信息的数据处理方法。

本发明的第四方面，还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任意一项所述的视频面试信息的数据处理方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种视频面试信息的数据处理方法、装置、电子设备及存储介质，通过提取面试视频的语音类特征和图像类特征等多模态特征，能够充分利用和发挥视频资源，具有全面性，区分度高，进而将语音类特征和图像类特征输入预先训练的包括多个职场因素的胜任力模型中，获得面试者的评估结果，该评估结果根据多个职场因素的预测分值加权组合得到，也就是说职场因素颗粒度更小，更为细腻，使得用户可以根据不同应用需求来动态设置职场因素的重要程度，适用范围广泛，灵活性强，鲁棒性好。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的一种视频面试信息的数据处理方法的流程示意图；

图2为本发明实施例提供的一种视频面试信息的数据处理装置的结构示意图；

图3为本发明实施例提供的一种视频面试信息的数据处理装置的另一结构示意图；

图4位本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为便于更好地理解本发明，下面通过图1至图3详细地阐述本发明实施例提供的视频面试信息的数据处理方法、装置、电子设备及存储介质。

请参考图1，其为本发明实施例提供的一种视频面试信息的数据处理方法的流程示意图，该方法可以包括以下步骤：

步骤S101，将面试视频分解为音频文件和视频文件，并将所述音频文件转换为文本文件。

示例性地，本发明实施例中面试视频可以为已录制的视频，或者也可以为在线实时录制的视频，这样设置的好处是能够满足多样化的应用场景，方便高效。首先，分离面试视频，得到语音文件(如input.wav)和视频文件(如input.mp4)，例如可以调用ffmpeg工具将音频分离等。

步骤S102，提取所述视频文件中多个预定时刻的视频帧图像，识别每个视频帧图像对应的年龄特征数据和容貌特征数据，将多个视频帧图像对应的平均年龄特征数据和平均容貌特征数据作为图像特征；计算所述音频文件中的音频参数，得到所述音频参数组合形成的音频特征；对所述文本文件进行分词，并统计各种不同类别字符的数量以及每句话的词数和字符数，计算得到文本特征；将所述文本文件输入至预先训练的语言表征模型中，获得语义特征。

示例性地，在分离面试视频，得到语音文件(如input.wav)和视频文件(如input.mp4)之后，根据语音文件提取面试视频对应的语音类特征，并根据视频文件提取面试视频对应的图像类特征。

可选地，在提取语音类特征的过程中，本发明实施例可以计算语音文件的音频参数，得到音频参数组合形成的音频特征，例如音频参数包括但不限于占空比、音频中断次数、共振峰、声音能量和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征一阶、二阶微分的平均值、标准差、最大值、最小值、分布曲线对应峰值等，而音频特征表示为A1,A2,A3,……；

以及，将语音文件转换为文本文件，并根据文本文件得到文本特征和语义特征，例如通过自动语音识别(Automatic Speech Recognition，ASR)引擎将语音文件(如input.wav)转换为文本文件(如input.txt)，然后通过分词工具对文本文件进行分词，并统计各种不同类别字符(如名词、形容词、动词和标点等)的数量及每句话的词数和字符数，计算这些数值的最大值、最小值、平均值、标准差、25％分位数、50％分位数和75％分位数，得到文本特征T1,T2,T3,……；而将文本文件输入预先训练的语言表征模型(如Bidirectional Encoder Representation from Transformers，BERT)中，获得语义特征N1，其中该语义特征N1是经过BERT之后得到的n个参数，n值根据预测结果设定。

需要说明的是，BERT采用新的掩码语言模型(Masked Language Model，MLM)对双向Transformers进行预训练，以生成深层的双向语言表征，同时在预训练之后只需添加一个额外的输出层进行微调(fine-tune)，即可在各种下游任务中取得优异表现(state-of-the-art)，这个过程无需对BERT进行特定任务的结构修改。另外，BERT可以提取一段文本的语义特征，而具体需要提取的语义特征则可以通过fine-tune步骤由具体任务的标注数据决定。因此，本发明实施例在中文BERT模型上额外添加一个输出层，并根据已人工标注能力得分的面试者对问题回答的文本进行训练，即可得到预先训练的BERT模型，其输入为面试者对问题回答的文本，而输出为面试者能力得分。

可选地，在提取图像类特征的过程中，本发明实施例可以首先从视频文件中抽取多个视频帧，例如调用ffmpeg工具获取input.mp4的总时长l，取0-l之间3个随机数t1,t2和t3，并调用ffmpeg工具获取input.mp4在t1,t2和t3这三个时刻的视频帧p1,p2和p3；然后，分别对多个视频帧进行识别，获得多个视频帧各自的年龄数据和容貌数据，并计算得到图像类特征，例如调用Face++图像处理引擎，分别对视频帧p1,p2和p3进行识别，获得这三个图像中识别出的人脸的年龄数据p1a,p2a和p3a及容貌数据p1b,p2b和p3b，并通过Pa＝(p1a+p2a+p3a)/3、Pb＝(p1b+p2b+p3b)/3，计算得到图像特征Pa和Pb。

步骤S103，将所述图像特征、音频特征、文本特征和语义特征输入至预先训练的胜任力模型中，获得所述面试者的评估结果，其中所述胜任力模型包括多个职场因素，所述评估结果根据所述多个职场因素的预测分值获得。

可选地，在获得多个职场因素的过程中，本发明实施例可以根据历史面试数据筛选面试维度，例如首先收集整理历史面试数据，并从中抽取具有代表性的面试数据，然后对数据进行清理，抽取数据结构完整的面试数据作为分析对象，并筛选出75个面试维度。

进一步地，对经过拆分面试维度得到的施测词汇表(即实施测评的一方的词汇表)进行分析，确定职场因素，例如首先由经验丰富的5个面试官将75个面试维度进行拆分，拆分标准为使用含义单一的特质描述145个词汇，如沟通能力分解为理解能力和表达能力；其次，由经验不丰富的10个面试官对拆分后的特质描述进行过滤，如标出生僻、不明其意、不常见和不会读等不熟悉词，以及标出意义相近的词，并根据评定结果，去掉3人以上认为生僻的词、去掉3人以上认为意义接近的词和去掉描述过长的词，形成包含85个词的施测词汇表；再次，将85个词统一印制，在指示语中强调答案无对错之分，请尽量准确判断每个词描述的适用程度，并要求1000名在职人员在5点量表上(从“符合本人情况到不符合本人情况”)，按顺序对85个词逐一进行自我评定；进而，通过主成分分析(Principal ComponentAnalysis，PCA)从85个词中抽取因素，特征值大于1的因素有28个，解释了68％的变异，且因素数目为4；最后，形成了包含好奇、服从、决断、担当、耐挫、赋能、成就、淡定、轻松、同理心、利他、秩序、行动、踏实、变通、激情、精准、合作、创新和逻辑等28个特征，归为4类的职场因素模型。

示例性地，本发明实施例可以将Pa,Pb,A1,A2,A3,……T1,T2,T3,……N1等特征(图像特征、音频特征、文本特征和语义特征)输入预先训练的极致梯度提升(eXtremeGradient Boosting，XGBoost)模型，得到多个职场因素的预测分值，进而根据多个职场因素的预测分值加权组合得到面试者的评估结果。需要说明的是，XGBoost是梯度提升决策树(Gradient Boosting Decision Tree，GBDT)的算法或者工程实现，其具有高效、灵活和轻便的特点。另外，XGBoost可以根据多个不同机器学习模型给出一个更加准确的预测值。因此，本发明实施例根据已人工标注能力得分的面试者回答视频的音频特征、语义特征、文本特征和图像特征进行训练，即可得到预先训练的XGBoost模型，其输入为面试者回答视频的音频特征、语义特征、文本特征和图像特征，而输出为面试者的能力得分预测值。

本发明实施例提供的视频面试信息的数据处理方法，通过提取面试视频的语音类特征和图像类特征等多模态特征，能够充分利用和发挥视频资源，具有全面性，区分度高，进而将语音类特征和图像类特征输入预先训练的包括多个职场因素的胜任力模型中，获得面试者的评估结果，该评估结果根据多个职场因素的预测分值加权组合得到，也就是说职场因素颗粒度更小，更为细腻，使得用户可以根据不同应用需求来动态设置职场因素的重要程度，适用范围广泛，灵活性强。

基于前述实施例，本发明实施例提供一种视频面试信息的数据处理装置。该视频面试信息的数据处理装置100可以应用于图1对应实施例的视频面试信息的数据处理方法中。请参考图2，该视频面试信息的数据处理装置100包括：

视频处理模块101，被配置为将面试视频分解为音频文件和视频文件，并将所述音频文件转换为文本文件；

特征提取模块102，被配置为提取所述视频文件中多个预定时刻的视频帧图像，识别每个视频帧图像对应的年龄特征数据和容貌特征数据，将多个视频帧图像对应的平均年龄特征数据和平均容貌特征数据作为图像特征；计算所述音频文件中的音频参数，得到所述音频参数组合形成的音频特征；对所述文本文件进行分词，并统计各种不同类别字符的数量以及每句话的词数和字符数，计算得到文本特征；将所述文本文件输入至预先训练的语言表征模型中，获得语义特征；

评估模块103，被配置为将所述图像特征、音频特征、文本特征和语义特征输入至预先训练的胜任力模型中，获得所述面试者的评估结果，其中所述胜任力模型包括多个职场因素，所述评估结果根据所述多个职场因素的预测分值获得。

进一步的，参见图3，还包括职场因素获得模块104，被配置为：

将所述面试维度分解为多个含义单一的特定描述的词汇；

去除所述特定描述的词汇中的无效部分，得到施测词汇表；

对所述施测词汇表中的词汇进行评定；

需要说明的是，本发明实施例所提供的视频面试信息的数据处理装置100对应的可用于执行上述各方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例提供的视频面试信息的数据处理装置，该视频面试信息的数据处理装置中获取模块能够获取面试者的面试视频，提取模块能够对面试视频进行多模态特征提取，多模态特征包括语音类特征和图像类特征，由此可以充分利用和发挥视频资源，具有全面性，区分度高。进而，评估模块能够将语音类特征和图像类特征输入预先训练的胜任力模型中，获得面试者的评估结果，其中胜任力模型包括多个职场因素，评估结果根据多个职场因素的预测分值加权组合得到，也就是说职场因素颗粒度更小，更为细腻，使得用户可以根据不同应用需求来动态设置职场因素的重要程度，适用范围广泛，灵活性强。

基于前述实施例，本发明实施例提供一种电子设备，该电子设备包括处理器和存储器。存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现图1对应实施例的视频面试信息的数据处理方法的步骤。

图4为电子设备的结构示意图。下面具体参考图4，其示出了适于用来实现本发明实施例中的电子设备500的结构示意图。本发明实施例中的电子设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

作为另一方面，本发明实施例提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述图1对应实施例的视频面试信息的数据处理方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。而集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例视频面试信息的数据处理方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频面试信息的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种视频面试信息的数据处理方法，其特征在于，所述职场因素通过如下方式得到：

根据历史面试数据筛选出多个面试维度；

将所述面试维度分解为多个含义单一的特定描述的词汇；

去除所述特定描述的词汇中的无效部分，得到施测词汇表；

对所述施测词汇表中的词汇进行评定；

3.根据权利要求1所述的一种视频面试信息的数据处理方法，其特征在于，所述音频参数包括占空比、音频中断次数、共振峰、声音能量、标准差、最大值、最小值和/或分布曲线对应峰值。

4.根据权利要求1所述的一种视频面试信息的数据处理方法，其特征在于，所述职场因素包括好奇、服从、决断、担当、耐挫、赋能、成就、淡定、轻松、同理心、利他、秩序、行动、踏实、变通、激情、精准、合作、创新和/或逻辑。

5.根据权利要求1所述的一种视频面试信息的数据处理方法，其特征在于，所述胜任力模型为XGBoost模型。

6.一种视频面试信息的数据处理装置，其特征在于，包括：

7.根据权利要求6所述的一种视频面试信息的数据处理装置，其特征在于，还包括职场因素获得模块，被配置为：

将所述面试维度分解为多个含义单一的特定描述的词汇；

去除所述特定描述的词汇中的无效部分，得到施测词汇表；

对所述施测词汇表中的词汇进行评定；

8.根据权利要求6所述的一种视频面试信息的数据处理装置，其特征在于，所述音频参数包括占空比、音频中断次数、共振峰、声音能量、标准差、最大值、最小值和/或分布曲线对应峰值。

9.根据权利要求6所述的一种视频面试信息的数据处理装置，其特征在于，所述职场因素包括好奇、服从、决断、担当、耐挫、赋能、成就、淡定、轻松、同理心、利他、秩序、行动、踏实、变通、激情、精准、合作、创新和/或逻辑。

10.一种电子设备，其特征在于包括：

处理器和存储器，

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现权利要求1至5中任意一项所述的视频面试信息的数据处理方法。