CN113313096B - 基于微表情和面相的多维度数据生成方法及其相关设备 - Google Patents

基于微表情和面相的多维度数据生成方法及其相关设备 Download PDF

Info

Publication number
CN113313096B
CN113313096B CN202110868947.4A CN202110868947A CN113313096B CN 113313096 B CN113313096 B CN 113313096B CN 202110868947 A CN202110868947 A CN 202110868947A CN 113313096 B CN113313096 B CN 113313096B
Authority
CN
China
Prior art keywords
recognition result
emotion recognition
face
expression
micro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110868947.4A
Other languages
English (en)
Other versions
CN113313096A (zh
Inventor
曾平安
梁峰华
胡艺飞
徐亮
周超勇
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110868947.4A priority Critical patent/CN113313096B/zh
Publication of CN113313096A publication Critical patent/CN113313096A/zh
Application granted granted Critical
Publication of CN113313096B publication Critical patent/CN113313096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于微表情和面相的多维度数据生成方法、装置、设备及介质,涉及人工智能技术,是面试前根据人脸特征提供性格和入司表现预测,面试中记录和判断人脸和语音的异常输出异常提示,面试后输出基于人脸特征和行为的综合表现报告,能够通过采集应聘人员的微表情和面相,分析应聘人员是否乐观积极,实现对其性格预测,而且面试过程中,微表情技术可以做到每隔一小段时间的实时提醒,在面试后结合面相结果共同输出,实现了多维度的结果输出。

Description

基于微表情和面相的多维度数据生成方法及其相关设备
技术领域
本发明涉及人工智能的生物识别技术领域,尤其涉及一种基于微表情和面相的多维度数据生成方法、装置、设备及介质。
背景技术
人脸特征识别主要包含微表情和面相识别。微表情是心理学名词,是人们在做不同表情之间或某个表情里脸部不经意间泄露出的其他信息。面相来源于中国古典哲学,透过观看面部特征可以推算人的性格。
目前,在面试场景下微表情识别技术(其中,微表情对于识别人的真实情绪具有重要意义)得到了越来越广泛的应用。但是在时间较长的面试过程中,仅仅是不断的检测面试者的微表情来判断用户的真实情绪,也只是能记录下整个面试过程中面试者的情绪变化过程数据,以便于最终输出包括情绪变化过程数据的面试报告,并不能更深层次的基于用户面试过程中的声音、面相等信息挖掘出更多维度的用户数据,这就导致基于微表情识别输出的包括情绪变化过程数据的面试报告信息维度少,降低了数据的可参考性和准确性。
发明内容
本发明实施例提供了一种基于微表情和面相的多维度数据生成方法、装置、设备及介质,旨在解决现有技术中在面试场景下进通过微表情识别技术,只是能记录下整个面试过程中面试者的情绪变化过程数据,基于微表情识别输出的包括情绪变化过程数据的面试报告信息维度少,降低了数据的可参考性和准确性的问题。
第一方面,本发明实施例提供了一种基于微表情和面相的多维度数据生成方法,其包括:
若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像;
调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果;
若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果;
不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列;
判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤;以及
若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
第二方面,本发明实施例提供了一种基于微表情和面相的多维度数据生成装置,其包括:
人脸图像采集单元,用于若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像;
面相识别单元,用于调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果;
第一识别单元,用于若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果;
第二识别单元,用于不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列;
异常情绪检测单元,用于判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤;以及
异常情绪识别结果集获取单元,用于若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于微表情和面相的多维度数据生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于微表情和面相的多维度数据生成方法。
本发明实施例提供了一种基于微表情和面相的多维度数据生成方法、装置、设备及介质,是面试前根据人脸特征提供性格和入司表现预测,面试中记录和判断人脸和语音的异常输出异常提示,面试后输出基于人脸特征和行为的综合表现报告,能够通过采集应聘人员的微表情和面相,分析应聘人员是否乐观积极,实现对其性格预测,而且面试过程中,微表情技术可以做到每隔一小段时间的实时提醒,在面试后结合面相结果共同输出,实现了多维度的结果输出。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于微表情和面相的多维度数据生成方法的应用场景示意图;
图2为本发明实施例提供的基于微表情和面相的多维度数据生成方法的流程示意图;
图3为本发明实施例提供的基于微表情和面相的多维度数据生成装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于微表情和面相的多维度数据生成方法的应用场景示意图;图2为本发明实施例提供的基于微表情和面相的多维度数据生成方法的流程示意图,该基于微表情和面相的多维度数据生成方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S106。
S101、若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的执行主体进行详细介绍。本申请是以服务器为执行主体来介绍技术方案。
第一用户端,其使用者是待面试人员,其可以接收第二用户端的在线视频连接请求,连接成功之后即可开始进行在线视频面试。其中,第一用户端可以是智能手机、平板电脑、笔记本电脑等。
第二用户端,其使用者是面试官,其可以发起与待面试人员的在线视频连接,以进行在线视频面试。其中,第二用户端可以是智能手机、平板电脑、笔记本电脑等。
服务器,其用于采集和存储第一用户端和第二用户端进行在线视频面试过程中的所有视频数据,并可以基于服务器中存储的面相预测模型对面试过程中开始阶段的视频数据中包括的人物面相图片进行面相预测而得到人物面相识别结果,同时还能基于服务器中存储的微表情识别模型和语音情感识别模型对面试过程中正式面试阶段的视频数据进行多维度的情绪识别,监测得到面试过程中的异常情绪识别结果,最后还可由人物面相识别结果和异常情绪识别结果生成输出结果,以作为面试过程的总结报告。
其中,当第一用户端和第二用户端建立了在线视频连接后,第一用户端和第二用户端均与服务器通讯连接,第一用户端向第二用户端发送的实时视频数据是经过服务器中转发送,同样的第二用户端向第一用户端发送的实时视频数据是经过服务器中转发送。在第一用户端和第二用户端已经建立了在线视频连接的情况下,服务器还需要对第一用户端上传的当前实时视频数据进行人脸检测,也即判断待面试人员是否已入镜并准备开始面试。在对当前实时视频数据的当前场景中存在面相进行检测时,可以通过人脸识别模型判断当前实时视频数据的各帧图片中是否存在人脸,一旦检测到人脸(即面相)存在,即可判定待面试人员已准备开始接受面试。此时在检测到面相后,可以从之后从服务器中接收的实时视频数据的1-10s的视频数据中任意截取一帧图片,即可作为当前人脸图像。
S102、调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果。
在本实施例中,当获取到了当前人脸图像后,可以调用服务器中已存储并且为预先训练过的面相预测模型,通过将当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果。
步骤S102可以理解为面试准备阶段进行的面相识别,即在面试准备阶段需首先获取待面试人员的当前人脸图像,然后是先通过人脸识别网络(例如ResNet50模型,其为一种残差网络)获取256维度的人脸深度特征,然后将256维度的人脸深度特征输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果。其中,所述人物面相识别结果中的性格预测结果为16个人格要素对应的综合性格分数,所述人物专业能力值预测结果包括年度业绩总额(一般是指该员工在上一年度完成业绩的总额)和入职留存率(也即是表示这一员工入职后短时间不会离职的概率)。
通过这一预测方式,可以在面试准备阶段即可快速的基于人脸图像判断待面试人员的性格特征,并同时预测其可能完成的全年业绩额和入职留存率,通过人脸图像预测更多维度的信息以供面试官参考查看。
在一实施例中,步骤S102之前还包括:
获取包括多张人脸图像所相应人脸特征数据的训练集;其中,每一人脸图像均对应标注有性格预测结果和人物专业能力预测结果;
通过所述训练集对待训练的神经网络模型进行模型训练,得到面相预测模型。
其中,在基于人脸图像获取人脸特征数据时,可以通过人脸识别网络(例如ResNet50模型,其为一种残差网络)获取256维度的人脸深度特征(可以理解为一个1*256的列向量),而且由于已经标注了训练集中各人脸图像对应的性格预测结果和人物专业能力预测结果,如该性格预测结果为16PF的16个人格要素对应的性格分数,分别是乐群性(其高分特征是乐群、低分特征是冷漠)、聪慧性(其高分特征是智慧、低分特征是愚钝)、稳定性(其高分特征是情绪稳定、低分特征是易激动)、影响性(其高分特征是好斗、低分特征是顺从)、活跃性(其高分特征是活跃、低分特征是严肃)、规范性(其高分特征是规范负责、低分特征是权宜敷衍)、敢为性(其高分特征是冒险敢为、低分特征是畏缩退却)、情感性(其高分特征是感情用事、低分特征是着重实际)、怀疑性(其高分特征是多疑、低分特征是信赖)、想象性(其高分特征是爱幻想、低分特征是合乎成规)、世故性(其高分特征是世故、低分特征是坦白直率)、忧虑性(其高分特征是烦恼忧虑、低分特征是自信)、变革性(其高分特征是思维开放、低分特征是思维保守)、独立性(其高分特征是自立、低分特征是依赖)、自律性(其高分特征是自律严谨、低分特征是散漫)、紧张性(其高分特征是紧张、低分特征是心平气和)这16个要素的综合评分,人物专业能力预测结果又包括年度业绩总额(一般是指该员工在上一年度完成业绩的总额)和入职留存率(也即是表示这一员工入职后短时间不会离职的概率)。
当获取了训练集中每一人脸图像所对应256维度的人脸深度特征,还获取了每一人脸图像对应的标注的性格预测结果、年度业绩总额和入职留存率后,每一个人脸图像的人脸深度特征及对应的性格预测结果、年度业绩总额和入职留存率组成一条训练数据,由多条训练数据对待训练的神经网络模型进行模型训练,即可得到面相预测模型。
例如,服务器实现了基于当前人脸图像对待面试人员的16PF性格进行预测打分,提示面试官较关心的候选人(也即待面试人员)潜在的性格风险,比如候选人是否性格是否为冷漠型,则候选人有较大可能不善于与人沟通,并不适合所应聘岗位的日常工作方式,从而对面试官的判断和后续追问起到指导意义。同时,利用人脸特征对于候选人入职之后的业绩和留存率进行预测,提示面试官候选人入职之后可能存在的风险,辅助面试官避免招聘入司后表现较差的人员。
S103、若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果。
在本实施例中,当面试官操作第二用户端并在在线视频会议对应的界面上点击了面试开始虚拟按钮即可向服务器发送面试启动指令,在线视频会议形式的面试阶段渡过了面试准备阶段而进入到正式面试的初始阶段(一般是面试正式开始的100s内,也即将第一时长设置为100s,当然具体实施时并不局限于将第一时长设置为100s,根据服务器的数据处理性能实际设置为10-200s内任意数值均可),此时可以通过将第一用户端所采集并上传的视频时长等于所述第一时长的第一视频数据作为服务器中预先训练的微表情识别模型的输入,即可运算得到与所述第一视频数据对应的第一情绪识别结果。
利用微表情识别模型输出的是待面试人员的第一情绪识别结果,可以表示待面试人员的基础情绪状态,此阶段通常是一些非应激性的基础面试环节(例如面试官向待面试人员提问一些个人基本信息等)。此步骤可以有效缓解因为个体差异噪声对模型带来的损害,尤其是对于表情等敏感度高的识别领域。
在一实施例中,步骤S103包括:
根据预设的经验帧数值,在所述第一视频数据对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成所述第一视频数据对应的微表情序列;
调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量,以得到所述微表情序列中每一帧图像的结合权重值的图像特征向量;
将所述微表情序列每一帧图像的结合权重值的图像特征向量进行求和,得到所述微表情序列对应的综合图像特征向量;
将所述综合图像特征向量输入至预先训练的卷积神经网络,得到所述第一视频数据的微表情识别结果;
将所述第一视频数据的微表情识别结果通过与情绪的对应关系转换为与所述第一视频数据对应的第一情绪识别结果。
在本实施例中,可通过光流法或时空局部纹理算子获取第一视频数据的视频图像序列中包含微表情的图像帧。
在本实施例中,具体可以选择使用的任何合适的特征提取方式,从视频图像序列中提取其中包含的微表情的图像帧。例如,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取:
其中,光流法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。定义光流以点为基础,具体来说,设(u, v) 为图像点 (x, y)的光流,则把 (x, y, u, v) 称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到第一视频数据的视频图像序列中包含微表情的图像帧。
而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。简单而言,其是在LBP算子的基础上,新增加了一个时间上的维度,从而可以提取视频图像序列中各个像素点跟随时间的变化特征,从而识别出客户面部的细微表情变化。
其中,经验帧数值记为N,N是一个经验性数值,可以由技术人员根据实际情况的需要而设置,只要保证在N帧图像中记录有一个微表情从起始、峰值到终结的完整过程即可。
通过权重值的不同的可以表示微表情序列中图像帧之间的联系(即微表情图像序列的时域信息)。例如,在一个微笑的微表情序列中,某几张图像帧总是联合出现,通过提高这些联合出现的图像帧的权重可以获得序列的时域信息。
为了对各微表情序列中每一帧图像赋予权重值,需要调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量。由于所述微表情序列中的各帧图像初始是不带权重值的,此时为了获取每一帧图像的权重值,可以通过下述过程进行:
1)获取所述微表情序列中每一帧图像对应的图片特征向量,具体可将每一帧图像输入至已完成训练的卷积神经网络中,得到与各帧图像对应图片特征向量;此时再获取每一帧图像对应的图片特征向量集合,其中所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
2)将微表情序列的N帧图像中第i帧图像记为Ni,先将将其中一帧图像对应的图片特征向量输入至权重计算层,以计算该帧图像与微表情序列中其余的N-1帧图像的图片特征向量之间的相似性,从而得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合。该相似性具体可以采用任何合适的方式进行评价,如通过两帧图像的图像特征向量之间的向量点积,余弦相似度或者是引入新的神经网络来计算;
3)将计算获得的与所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
4)由于每一帧图像均对应一个归一化相似度值集合,此时将归一化相似度值集合中每一个归一化相似度值与对应帧的图片特征向量相乘后求和,得到每一帧图像均对应的结合权重值的图像特征向量。
通过上述权重计算层,可以挖掘获得微表情图像序列中,不同图像帧之间的内在联系,一些密切相关的图像帧会有显著高于其他图像帧的权重值,从而在微表情的识别过程能够得到更多的关注。当得到了微表情识别结果之后,即可将所述第一视频数据的微表情识别结果通过与情绪的对应关系转换为与所述第一视频数据对应的第一情绪识别结果。
S104、不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列。
在本实施例中,在渡过了在线视频会议形式的正式面试的初始阶段后,此时进入到了正式面试的可能存在一些应激性的非基础面试环节,此时面试官会向待面试人员提出一些比较专业性的问题。在该非基础面试环节,最主要的是按一定的监控周期检测待面试人员的实时情绪,例如设置监控周期为5s(可以理解为将第二时长设置为等于该监控周期),这样服务器在接收到第一用户端在非基础面试环节中上传的视频数据是每5秒进行一次切割,这样将非基础面试环节中上传的视频数据切割为了多个5s时长的子视频数据。
在服务器中并不需要等到整个非基础面试环节结束后才对各子视频数据进行基于音频的情绪识别以及基于视频的微表情情绪识别,而是服务器每接收到一个5s时长的子视频数据(可以理解为步骤S104中的第二视频数据),即可通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果。当面试官操作第二用户端并在在线视频会议对应的界面上点击了面试停止虚拟按钮即可向服务器发送面试停止指令,表示面试官停止了这一面试过程,此时服务器在对最后一次接收到的5s时长的第二视频数据进行情绪识别后即可停止进行情绪识别,这样即可得到由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列。
在一实施例中,步骤S104中通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,包括:
获取所述第二视频数据对应的第二音频数据,通过所述语音情感识别模型对所述第二音频数据进行情感识别,得到第二情绪识别结果。
在本实施例中,通过对第二音频数据进行语音情感识别得到对应的第二情绪识别结果时,模式识别领域的诸多算法都适用于语音情感识别的,比如GMM(高斯混合模型),SVM(支持向量机),KNN(K最近邻模型),HMM(隐马尔可夫模型)等算法均可用于对第二情绪识别结果进行语音情感识别,得到对应的第二情绪识别结果。
步骤S104中通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果时,其过程可以完全参考步骤S103中的微表情识别过程。
可见,在非基础面试环节,通过微表情模型,捕捉面试过程中候选人表情中微小的变化,对于面试中不自然的情绪或值得引起注意的表现,服务器检测出后可以及时对第二用户端发信息进行提示。而且在非基础面试环节同时通过语音情感识别模型可以识别出面试过程中的实时情绪,之后还可对实时情绪中的异常情绪相应的异常语音进行检测,同样也能及时对第二用户端发信息进行提示。
在一实施例中,步骤S104中在不断采集时长等于预设的第二时长的第二视频数据之后,在直至检测到面试停止指令则停止进行情绪识别之前,还包括:
通过调用预先训练的表情识别模型获取所采集的第二视频数据对应的表情识别结果子序列;
在直至检测到面试停止指令则停止进行情绪识别之后,还包括:
由多个表情识别结果子序列按时间升序顺序组成得到表情识别结果主序列。
在本实施例中,所调用的表情识别模型与微表情识别模型不同,不用提取出微表情,而是针对用户实际宏观上的表情进行识别,更具体是可以将第二视频数据拆分为视频图片帧之后得到多个视频图片帧,例如5s的第二视频数据一般包括120张视频图片帧,然后基于预设的图片获取帧数(例如设置图片获取帧数为了6)从上述120张视频图片帧中抽取到第1帧视频图片帧、第7帧视频图片帧、第13帧视频图片帧、……、第109帧视频图片帧、第115帧视频图片帧后,即可由上述抽取的20帧视频图片帧组成待识别视频图片帧集。最后通过预先训练的表情识别模型(也可以是卷积神经网络)按先后顺序依序识别出待识别视频图片帧集中各待识别视频图片帧对应的表情识别结果(如张嘴、眨眼、皱眉等)组成表情识别结果子序列,这样当非基础环节的面试结束之后,即可由多个表情识别结果子序列按时间升序顺序组成得到表情识别结果主序列。
之后的步骤中,可以对表情识别结果主序列是否存在异常表情进行检测,以及时对第二用户端发送信息进行提示。
S105、判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤。
在本实施例中,通过语音情感识别模型识别出来的与第二视频数据对应的第二情绪识别结果一般是开心、难过、生气、恶心、害怕或惊讶中的其中一种;通过微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果一般是高兴、悲伤、惊讶、恐惧、愤怒或厌恶中的其中一种。当所述第二情绪识别结果序列和所述第三情绪识别结果序列中对应的各情绪识别结果中包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤中的一种或者多种时,则可判定所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果。这些异常情绪识别结果可以作为面试过程中的重要识别信息,之后基于异常情绪识别结果可以快速的生成输出数据。
S106、若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
在本实施例中,若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,表示待面试人员在面试过程中存在负向因子,可以在最后的输出数据中作为参考数据输出以供第二用户端查收并查看。
在一实施例中,步骤S106中由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据,包括:
获取所述报告生成策略中的面相性格报告子策略,根据所述面相性格报告子策略对应的第一模板及所述人物面相识别结果生成面相性格报告数据;
获取所述报告生成策略中的面试情绪报告子策略,根据所述面试情绪报告子策略对应的第二模板及所述异常情绪识别结果集生成面试情绪报告数据。
在本实施例中,也即面试结束之后,可以基于所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据,其中报告生成策略中包括面相性格报告子策略和面试情绪报告子策略,面相性格报告子策略对应第一模板及相应的第一模板填充策略(根据第一模板填充策略可以提取人物面相识别结果中的具体面相识别结果并填充到第一模板中的指定区域),面试情绪报告子策略对应第二模板及相应的第二模板填充策略(根据第二模板填充策略可以提取异常情绪识别结果集中的具体异常情绪识别结果并填充到第二模板中的指定区域)。也可以理解为基于人物面相识别结果和所述异常情绪识别结果集对待面试人员的整场面试表现进行总结评价,生成包括两份报告的输出数据:
一、面试情绪报告,提示面试官该候选人是否负面情绪较多。
二、面相性格报告,对于候选人的性格特质和低业绩/低留存风险再次评分,为面试官综合判断提供输入。
该方法通过采集应聘人员的微表情和面相,实现对其性格预测,而且面试过程中,微表情技术可以做到每隔一小段时间的实时提醒,在面试后结合面相结果共同输出,实现了多维度的结果输出。
本发明实施例还提供一种基于微表情和面相的多维度数据生成装置,该基于微表情和面相的多维度数据生成装置用于执行前述基于微表情和面相的多维度数据生成方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于微表情和面相的多维度数据生成装置的示意性框图。该基于微表情和面相的多维度数据生成装置100可以配置于服务器中。
如图3所示,基于微表情和面相的多维度数据生成装置100包括:人脸图像采集单元101、面相识别单元102、第一识别单元103、第二识别单元104、异常情绪检测单元105、异常情绪识别结果集获取单元106。
人脸图像采集单元101,用于若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像。
在本实施例中,当第一用户端和第二用户端建立了在线视频连接后,第一用户端和第二用户端均与服务器通讯连接,第一用户端向第二用户端发送的实时视频数据是经过服务器中转发送,同样的第二用户端向第一用户端发送的实时视频数据是经过服务器中转发送。在第一用户端和第二用户端已经建立了在线视频连接的情况下,服务器还需要对第一用户端上传的当前实时视频数据进行人脸检测,也即判断待面试人员是否已入镜并准备开始面试。在对当前实时视频数据的当前场景中存在面相进行检测时,可以通过人脸识别模型判断当前实时视频数据的各帧图片中是否存在人脸,一旦检测到人脸(即面相)存在,即可判定待面试人员已准备开始接受面试。此时在检测到面相后,可以从之后从服务器中接收的实时视频数据的1-10s的视频数据中任意截取一帧图片,即可作为当前人脸图像。
面相识别单元102,用于调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果。
在本实施例中,当获取到了当前人脸图像后,可以调用服务器中已存储并且为预先训练过的面相预测模型,通过将当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果。
面相识别单元102对应的处理过程可以理解为面试准备阶段进行的面相识别,即在面试准备阶段需首先获取待面试人员的当前人脸图像,然后是先通过人脸识别网络(例如ResNet50模型,其为一种残差网络)获取256维度的人脸深度特征,然后将256维度的人脸深度特征输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果。其中,所述人物面相识别结果中的性格预测结果为16个人格要素对应的综合性格分数,所述人物专业能力值预测结果包括年度业绩总额(一般是指该员工在上一年度完成业绩的总额)和入职留存率(也即是表示这一员工入职后短时间不会离职的概率)。
通过这一预测方式,可以在面试准备阶段即可快速的基于人脸图像判断待面试人员的性格特征,并同时预测其可能完成的全年业绩额和入职留存率,通过人脸图像预测更多维度的信息以供面试官参考查看。
在一实施例中,基于微表情和面相的多维度数据生成装置100还包括:
训练集获取单元,用于获取包括多张人脸图像所相应人脸特征数据的训练集;其中,每一人脸图像均对应标注有性格预测结果和人物专业能力预测结果;
模型训练单元,用于通过所述训练集对待训练的神经网络模型进行模型训练,得到面相预测模型。
其中,在基于人脸图像获取人脸特征数据时,可以通过人脸识别网络(例如ResNet50模型,其为一种残差网络)获取256维度的人脸深度特征(可以理解为一个1*256的列向量),而且由于已经标注了训练集中各人脸图像对应的性格预测结果和人物专业能力预测结果,如该性格预测结果为16PF的16个人格要素对应的性格分数,分别是乐群性(其高分特征是乐群、低分特征是冷漠)、聪慧性(其高分特征是智慧、低分特征是愚钝)、稳定性(其高分特征是情绪稳定、低分特征是易激动)、影响性(其高分特征是好斗、低分特征是顺从)、活跃性(其高分特征是活跃、低分特征是严肃)、规范性(其高分特征是规范负责、低分特征是权宜敷衍)、敢为性(其高分特征是冒险敢为、低分特征是畏缩退却)、情感性(其高分特征是感情用事、低分特征是着重实际)、怀疑性(其高分特征是多疑、低分特征是信赖)、想象性(其高分特征是爱幻想、低分特征是合乎成规)、世故性(其高分特征是世故、低分特征是坦白直率)、忧虑性(其高分特征是烦恼忧虑、低分特征是自信)、变革性(其高分特征是思维开放、低分特征是思维保守)、独立性(其高分特征是自立、低分特征是依赖)、自律性(其高分特征是自律严谨、低分特征是散漫)、紧张性(其高分特征是紧张、低分特征是心平气和)这16个要素的综合评分,人物专业能力预测结果又包括年度业绩总额(一般是指该员工在上一年度完成业绩的总额)和入职留存率(也即是表示这一员工入职后短时间不会离职的概率)。
当获取了训练集中每一人脸图像所对应256维度的人脸深度特征,还获取了每一人脸图像对应的标注的性格预测结果、年度业绩总额和入职留存率后,每一个人脸图像的人脸深度特征及对应的性格预测结果、年度业绩总额和入职留存率组成一条训练数据,由多条训练数据对待训练的神经网络模型进行模型训练,即可得到面相预测模型。
例如,服务器实现了基于当前人脸图像对待面试人员的16PF性格进行预测打分,提示面试官较关心的候选人(也即待面试人员)潜在的性格风险,比如候选人是否性格是否为冷漠型,则候选人有较大可能不善于与人沟通,并不适合所应聘岗位的日常工作方式,从而对面试官的判断和后续追问起到指导意义。同时,利用人脸特征对于候选人入职之后的业绩和留存率进行预测,提示面试官候选人入职之后可能存在的风险,辅助面试官避免招聘入司后表现较差的人员。
第一识别单元103,用于若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果。
在本实施例中,当面试官操作第二用户端并在在线视频会议对应的界面上点击了面试开始虚拟按钮即可向服务器发送面试启动指令,在线视频会议形式的面试阶段渡过了面试准备阶段而进入到正式面试的初始阶段(一般是面试正式开始的100s内,也即将第一时长设置为100s,当然具体实施时并不局限于将第一时长设置为100s,根据服务器的数据处理性能实际设置为10-200s内任意数值均可),此时可以通过将第一用户端所采集并上传的视频时长等于所述第一时长的第一视频数据作为服务器中预先训练的微表情识别模型的输入,即可运算得到与所述第一视频数据对应的第一情绪识别结果。
利用微表情识别模型输出的是待面试人员的第一情绪识别结果,可以表示待面试人员的基础情绪状态,此阶段通常是一些非应激性的基础面试环节(例如面试官向待面试人员提问一些个人基本信息等)。此步骤可以有效缓解因为个体差异噪声对模型带来的损害,尤其是对于表情等敏感度高的识别领域。
在一实施例中,第一识别单元103包括:
微表情序列获取单元,用于根据预设的经验帧数值,在所述第一视频数据对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成所述第一视频数据对应的微表情序列;
图像特征向量获取单元,用于调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量,以得到所述微表情序列中每一帧图像的结合权重值的图像特征向量;
综合图像特征向量获取单元,用于将所述微表情序列每一帧图像的结合权重值的图像特征向量进行求和,得到所述微表情序列对应的综合图像特征向量;
微表情识别结果获取单元,用于将所述综合图像特征向量输入至预先训练的卷积神经网络,得到所述第一视频数据的微表情识别结果;
第一情绪识别结果获取单元,用于将所述第一视频数据的微表情识别结果通过与情绪的对应关系转换为与所述第一视频数据对应的第一情绪识别结果。
在本实施例中,可通过光流法或时空局部纹理算子获取第一视频数据的视频图像序列中包含微表情的图像帧。
在本实施例中,具体可以选择使用的任何合适的特征提取方式,从视频图像序列中提取其中包含的微表情的图像帧。例如,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取:
其中,光流法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。定义光流以点为基础,具体来说,设(u, v) 为图像点 (x, y)的光流,则把 (x, y, u, v) 称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到第一视频数据的视频图像序列中包含微表情的图像帧。
而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。简单而言,其是在LBP算子的基础上,新增加了一个时间上的维度,从而可以提取视频图像序列中各个像素点跟随时间的变化特征,从而识别出客户面部的细微表情变化。
其中,经验帧数值记为N,N是一个经验性数值,可以由技术人员根据实际情况的需要而设置,只要保证在N帧图像中记录有一个微表情从起始、峰值到终结的完整过程即可。
通过权重值的不同的可以表示微表情序列中图像帧之间的联系(即微表情图像序列的时域信息)。例如,在一个微笑的微表情序列中,某几张图像帧总是联合出现,通过提高这些联合出现的图像帧的权重可以获得序列的时域信息。
为了对各微表情序列中每一帧图像赋予权重值,需要调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量。由于所述微表情序列中的各帧图像初始是不带权重值的,此时为了获取每一帧图像的权重值,可以通过下述过程进行:
1)获取所述微表情序列中每一帧图像对应的图片特征向量,具体可将每一帧图像输入至已完成训练的卷积神经网络中,得到与各帧图像对应图片特征向量;此时再获取每一帧图像对应的图片特征向量集合,其中所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
2)将微表情序列的N帧图像中第i帧图像记为Ni,先将将其中一帧图像对应的图片特征向量输入至权重计算层,以计算该帧图像与微表情序列中其余的N-1帧图像的图片特征向量之间的相似性,从而得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合。该相似性具体可以采用任何合适的方式进行评价,如通过两帧图像的图像特征向量之间的向量点积,余弦相似度或者是引入新的神经网络来计算;
3)将计算获得的与所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
4)由于每一帧图像均对应一个归一化相似度值集合,此时将归一化相似度值集合中每一个归一化相似度值与对应帧的图片特征向量相乘后求和,得到每一帧图像均对应的结合权重值的图像特征向量。
通过上述权重计算层,可以挖掘获得微表情图像序列中,不同图像帧之间的内在联系,一些密切相关的图像帧会有显著高于其他图像帧的权重值,从而在微表情的识别过程能够得到更多的关注。当得到了微表情识别结果之后,即可将所述第一视频数据的微表情识别结果通过与情绪的对应关系转换为与所述第一视频数据对应的第一情绪识别结果。
第二识别单元104,用于不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列。
在本实施例中,在渡过了在线视频会议形式的正式面试的初始阶段后,此时进入到了正式面试的可能存在一些应激性的非基础面试环节,此时面试官会向待面试人员提出一些比较专业性的问题。在该非基础面试环节,最主要的是按一定的监控周期检测待面试人员的实时情绪,例如设置监控周期为5s(可以理解为将第二时长设置为等于该监控周期),这样服务器在接收到第一用户端在非基础面试环节中上传的视频数据是每5秒进行一次切割,这样将非基础面试环节中上传的视频数据切割为了多个5s时长的子视频数据。
在服务器中并不需要等到整个非基础面试环节结束后才对各子视频数据进行基于音频的情绪识别以及基于视频的微表情情绪识别,而是服务器每接收到一个5s时长的子视频数据(可以理解为步骤S104中的第二视频数据),即可通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果。当面试官操作第二用户端并在在线视频会议对应的界面上点击了面试停止虚拟按钮即可向服务器发送面试停止指令,表示面试官停止了这一面试过程,此时服务器在对最后一次接收到的5s时长的第二视频数据进行情绪识别后即可停止进行情绪识别,这样即可得到由多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,由多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列。
在一实施例中,第二识别单元104还用于:
获取所述第二视频数据对应的第二音频数据,通过所述语音情感识别模型对所述第二音频数据进行情感识别,得到第二情绪识别结果。
在本实施例中,通过对第二音频数据进行语音情感识别得到对应的第二情绪识别结果时,模式识别领域的诸多算法都适用于语音情感识别的,比如GMM(高斯混合模型),SVM(支持向量机),KNN(K最近邻模型),HMM(隐马尔可夫模型)等算法均可用于对第二情绪识别结果进行语音情感识别,得到对应的第二情绪识别结果。
第二识别单元104中通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果时,其过程可以完全参考步骤S103中的微表情识别过程。
可见,在非基础面试环节,通过微表情模型,捕捉面试过程中候选人表情中微小的变化,对于面试中不自然的情绪或值得引起注意的表现,服务器检测出后可以及时对第二用户端发信息进行提示。而且在非基础面试环节同时通过语音情感识别模型可以识别出面试过程中的实时情绪,之后还可对实时情绪中的异常情绪相应的异常语音进行检测,同样也能及时对第二用户端发信息进行提示。
在一实施例中,基于微表情和面相的多维度数据生成装置100还包括:
子序列获取单元,用于通过调用预先训练的表情识别模型获取所采集的第二视频数据对应的表情识别结果子序列;
基于微表情和面相的多维度数据生成装置100还包括:
子序列组合单元,用于由多个表情识别结果子序列按时间升序顺序组成得到表情识别结果主序列。
在本实施例中,所调用的表情识别模型与微表情识别模型不同,不用提取出微表情,而是针对用户实际宏观上的表情进行识别,更具体是可以将第二视频数据拆分为视频图片帧之后得到多个视频图片帧,例如5s的第二视频数据一般包括120张视频图片帧,然后基于预设的图片获取帧数(例如设置图片获取帧数为了6)从上述120张视频图片帧中抽取到第1帧视频图片帧、第7帧视频图片帧、第13帧视频图片帧、……、第109帧视频图片帧、第115帧视频图片帧后,即可由上述抽取的20帧视频图片帧组成待识别视频图片帧集。最后通过预先训练的表情识别模型(也可以是卷积神经网络)按先后顺序依序识别出待识别视频图片帧集中各待识别视频图片帧对应的表情识别结果(如张嘴、眨眼、皱眉等)组成表情识别结果子序列,这样当非基础环节的面试结束之后,即可由多个表情识别结果子序列按时间升序顺序组成得到表情识别结果主序列。
之后的步骤中,可以对表情识别结果主序列是否存在异常表情进行检测,以及时对第二用户端发送信息进行提示。
异常情绪检测单元105,用于判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤。
在本实施例中,通过语音情感识别模型识别出来的与第二视频数据对应的第二情绪识别结果一般是开心、难过、生气、恶心、害怕或惊讶中的其中一种;通过微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果一般是高兴、悲伤、惊讶、恐惧、愤怒或厌恶中的其中一种。当所述第二情绪识别结果序列和所述第三情绪识别结果序列中对应的各情绪识别结果中包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤中的一种或者多种时,则可判定所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果。这些异常情绪识别结果可以作为面试过程中的重要识别信息,之后基于异常情绪识别结果可以快速的生成输出数据。
异常情绪识别结果集获取单元106,用于若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
在本实施例中,若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,表示待面试人员在面试过程中存在负向因子,可以在最后的输出数据中作为参考数据输出以供第二用户端查收并查看。
在一实施例中,异常情绪识别结果集获取单元106包括:
第一报告生成单元,用于获取所述报告生成策略中的面相性格报告子策略,根据所述面相性格报告子策略对应的第一模板及所述人物面相识别结果生成面相性格报告数据;
第二报告生成单元,用于获取所述报告生成策略中的面试情绪报告子策略,根据所述面试情绪报告子策略对应的第二模板及所述异常情绪识别结果集生成面试情绪报告数据。
在本实施例中,也即面试结束之后,可以基于所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据,其中报告生成策略中包括面相性格报告子策略和面试情绪报告子策略,面相性格报告子策略对应第一模板及相应的第一模板填充策略(根据第一模板填充策略可以提取人物面相识别结果中的具体面相识别结果并填充到第一模板中的指定区域),面试情绪报告子策略对应第二模板及相应的第二模板填充策略(根据第二模板填充策略可以提取异常情绪识别结果集中的具体异常情绪识别结果并填充到第二模板中的指定区域)。也可以理解为基于人物面相识别结果和所述异常情绪识别结果集对待面试人员的整场面试表现进行总结评价,生成包括两份报告的输出数据:
一、面试情绪报告,提示面试官该候选人是否负面情绪较多。
二、面相性格报告,对于候选人的性格特质和低业绩/低留存风险再次评分,为面试官综合判断提供输入。
该装置通过采集应聘人员的微表情和面相,实现对其性格预测,而且面试过程中,微表情技术可以做到每隔一小段时间的实时提醒,在面试后结合面相结果共同输出,实现了多维度的结果输出。
上述基于微表情和面相的多维度数据生成装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于微表情和面相的多维度数据生成方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于微表情和面相的多维度数据生成方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于微表情和面相的多维度数据生成方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于微表情和面相的多维度数据生成方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于微表情和面相的多维度数据生成方法,其特征在于,包括:
若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像;
调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果;
若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果;
不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列;
判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤;以及
若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
2.根据权利要求1所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果之前,还包括:
获取包括多张人脸图像对应的人脸特征数据的训练集;其中,每一人脸图像均对应标注有性格预测结果和人物专业能力预测结果;
通过所述训练集对待训练的神经网络模型进行模型训练,得到面相预测模型。
3.根据权利要求1所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果,包括:
根据预设的经验帧数值,在所述第一视频数据对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成所述第一视频数据对应的微表情序列;
调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量,以得到所述微表情序列中每一帧图像的结合权重值的图像特征向量;
将所述微表情序列每一帧图像的结合权重值的图像特征向量进行求和,得到所述微表情序列对应的综合图像特征向量;
将所述综合图像特征向量输入至预先训练的卷积神经网络,得到所述第一视频数据的微表情识别结果;
将所述第一视频数据的微表情识别结果通过微表情识别结果与情绪的对应关系转换为与所述第一视频数据对应的第一情绪识别结果。
4.根据权利要求1所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,包括:
获取所述第二视频数据对应的第二音频数据,通过所述语音情感识别模型对所述第二音频数据进行情感识别,得到第二情绪识别结果。
5.根据权利要求1所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述不断采集时长等于预设的第二时长的第二视频数据之后,在直至检测到面试停止指令则停止进行情绪识别之前,还包括:
通过调用预先训练的表情识别模型获取所采集的第二视频数据对应的表情识别结果子序列。
6.根据权利要求5所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述直至检测到面试停止指令则停止进行情绪识别之后,还包括:
多个表情识别结果子序列按时间升序顺序组成得到表情识别结果主序列。
7.根据权利要求1所述的基于微表情和面相的多维度数据生成方法,其特征在于,所述由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据,包括:
获取所述报告生成策略中的面相性格报告子策略,根据所述面相性格报告子策略对应的第一模板及所述人物面相识别结果生成面相性格报告数据;
获取所述报告生成策略中的面试情绪报告子策略,根据所述面试情绪报告子策略对应的第二模板及所述异常情绪识别结果集生成面试情绪报告数据。
8.一种基于微表情和面相的多维度数据生成装置,其特征在于,包括:
人脸图像采集单元,用于若检测到第一用户端所上传当前实时视频数据的当前场景中存在面相,采集获取对应的当前人脸图像;
面相识别单元,用于调用预先训练的面相预测模型,将所述当前人脸图像输入至所述面相预测模型进行运算,得到与所述当前人脸图像对应的面相识别结果;其中,所述面相预测模型用于根据输入的人脸图像预测得到人物面相识别结果,所述人物面相识别结果中至少包括性格预测结果、人物专业能力值预测结果;
第一识别单元,用于若检测到面试启动指令,获取视频时长等于预设的第一时长的第一视频数据,通过调用预先训练的微表情识别模型获取所述第一视频数据对应的第一情绪识别结果;
第二识别单元,用于不断采集时长等于预设的第二时长的第二视频数据,通过调用预先训练的语音情感识别模型获取所采集的第二视频数据对应的第二情绪识别结果,并通过调用所述微表情识别模型获取所采集的第二视频数据对应的第三情绪识别结果,直至检测到面试停止指令则停止进行情绪识别,多个第二情绪识别结果按时间升序顺序组成得到第二情绪识别结果序列,多个第三情绪识别结果按时间升序顺序组成得到第三情绪识别结果序列;
异常情绪检测单元,用于判断所述第二情绪识别结果序列和所述第三情绪识别结果序列中是否存在异常情绪识别结果;其中,所述异常情绪识别结果包括难过、生气、恶心、害怕、愤怒、恐惧、厌恶和悲伤;以及
异常情绪识别结果集获取单元,用于若所述第二情绪识别结果序列和所述第三情绪识别结果序列中存在异常情绪识别结果,获取对应的异常情绪识别结果组成异常情绪识别结果集,由所述人物面相识别结果和所述异常情绪识别结果集及预设的报告生成策略生成输出数据。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于微表情和面相的多维度数据生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于微表情和面相的多维度数据生成方法。
CN202110868947.4A 2021-07-30 2021-07-30 基于微表情和面相的多维度数据生成方法及其相关设备 Active CN113313096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110868947.4A CN113313096B (zh) 2021-07-30 2021-07-30 基于微表情和面相的多维度数据生成方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110868947.4A CN113313096B (zh) 2021-07-30 2021-07-30 基于微表情和面相的多维度数据生成方法及其相关设备

Publications (2)

Publication Number Publication Date
CN113313096A CN113313096A (zh) 2021-08-27
CN113313096B true CN113313096B (zh) 2021-11-05

Family

ID=77382194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110868947.4A Active CN113313096B (zh) 2021-07-30 2021-07-30 基于微表情和面相的多维度数据生成方法及其相关设备

Country Status (1)

Country Link
CN (1) CN113313096B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8848068B2 (en) * 2012-05-08 2014-09-30 Oulun Yliopisto Automated recognition algorithm for detecting facial expressions
US20170116470A1 (en) * 2015-10-21 2017-04-27 Vadu Inc. System and method for automated sensing of emotion based on facial expression analysis
CN109508638A (zh) * 2018-10-11 2019-03-22 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质
CN109635753A (zh) * 2018-12-14 2019-04-16 深圳壹账通智能科技有限公司 基于神经网络模型的应聘者评估方法及装置
CN109766773A (zh) * 2018-12-18 2019-05-17 深圳壹账通智能科技有限公司 比赛监控方法、装置、计算机设备和存储介质
US10423773B1 (en) * 2019-04-12 2019-09-24 Coupang, Corp. Computerized systems and methods for determining authenticity using micro expressions
CN110648104A (zh) * 2019-08-01 2020-01-03 北京天麦有一网络科技有限公司 一种智能人力资源筛选系统及方法
CN112561457A (zh) * 2019-09-26 2021-03-26 鸿富锦精密电子(天津)有限公司 基于人脸识别的人才招募方法、终端服务器及存储介质

Also Published As

Publication number Publication date
CN113313096A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
US20210012777A1 (en) Context acquiring method and device based on voice interaction
JP6467965B2 (ja) 感情推定装置及び感情推定方法
Varghese et al. Overview on emotion recognition system
Caridakis et al. Multimodal emotion recognition from expressive faces, body gestures and speech
CN108920640B (zh) 基于语音交互的上下文获取方法及设备
US20150036934A1 (en) Filter and shutter based on image emotion content
US11151385B2 (en) System and method for detecting deception in an audio-video response of a user
Zhang et al. Emotion detection using Kinect 3D facial points
CN114268747A (zh) 基于虚拟数字人的访谈业务处理方法及相关装置
CN110909218A (zh) 问答场景中的信息提示方法和系统
Dahmane et al. A multimodal non-intrusive stress monitoring from the pleasure-arousal emotional dimensions
CN114429767A (zh) 视频生成方法、装置、电子设备以及存储介质
CN112884326A (zh) 一种多模态分析的视频面试评估方法、装置和存储介质
Ponce-López et al. Non-verbal communication analysis in victim–offender mediations
Bishay et al. Affdex 2.0: A real-time facial expression analysis toolkit
CN113313096B (zh) 基于微表情和面相的多维度数据生成方法及其相关设备
CN117021130A (zh) 一种基于人工智能的心理咨询聊天机器人
CN115905977A (zh) 家庭同胞互动过程中负面情绪的监督系统及方法
JP7096296B2 (ja) 情報処理装置、情報処理方法およびプログラム
Sidorov et al. Feature and decision level audio-visual data fusion in emotion recognition problem
Zhang et al. Real and apparent personality prediction in human-human interaction
JP5931021B2 (ja) 対人認知傾向モデル学習装置、対人認知状態推定装置、対人認知傾向モデル学習方法、対人認知状態推定方法及びプログラム
Rasipuram et al. Multi-modal expression recognition in the wild using sequence modeling
Singh et al. Continuous multimodal emotion recognition approach for AVEC 2017
US12039454B2 (en) Microexpression-based image recognition method and apparatus, and related device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant