CN112435689B

CN112435689B - 语音聊天机器人职位面试系统中的情感识别

Info

Publication number: CN112435689B
Application number: CN202011243691.XA
Authority: CN
Inventors: 黃宏灿; 李明桦
Original assignee: Lucas GC Ltd
Current assignee: Rocos Technology Beijing Co ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-08-17
Anticipated expiration: 2040-11-10
Also published as: US10937446B1; CN112435689A

Abstract

本发明提供了用于语音情感识别面试过程的方法和系统。在一个新颖方面，除了针对回答音频剪辑的内容评估之外，基于回答音频剪辑的情感分类器生成并发情绪分类器。在一个实施例中，计算机系统获得针对第一问题的第一回答的音频剪辑的情绪分类器，其中情绪分类器从由音频剪辑的卷积神经网络(CNN)模型分析产生的情绪分类器导出的；通过使用递归神经网络(RNN)模型分析针对第一问题的第一回答的音频剪辑来获得针对第一问题的评估结果；以及基于情绪分类器和评估结果生成针对第一问题的第一情感响应结果，其中第一情感响应结果呈现针对评估结果的采样经验因子。

Description

语音聊天机器人职位面试系统中的情感识别

技术领域

本发明一般涉及聊天机器人(Chatbot)面试系统，以及更特别地，涉及用于面试系统的语音聊天机器人中的语音情感识别。

背景技术

在线社区的迅速增长为人们提供了广泛的益处。在线社区的成员通过社交网络平台共享各种各样的信息。人们依靠社交网络(也称为社交媒体网络)来获得更多的连接并更快地获得信息。近年来，社交媒体网络已经扩展到朋友和家庭之间的非正式联网之外。社交媒体平台已经越来越多地应用于商业和专业用途。许多组织和商业单位具有其社交媒体存在。社交媒体营销已经获得了巨大的动力。企业和专业人员对社会媒体技术的快速和大量采用已经改变了企业如何找到伙伴、人们如何面试信息以及人们如何跟上他们的专业领域的最新发展。在一个值得注意的领域中，社交媒体已经越来越多地被看作帮助所连接的企业和求职者的专业平台。具有职位空缺的企业在社交媒体网络上发布其职位描述。求职者或专业人员在社交媒体网络上发布其简历和兴趣。社交媒体网络提供用户彼此连接和参与群组。在线社区在招聘过程中扮演了更重要的角色。从在线职位发布到简历提交，传统的招聘过程已经被改进以及使用社交媒体网络接触更多的人才。然而，针对招聘的面试的过程仍然严重依靠人际交互。在线笔试和语音聊天机器人应用可用于向面试过程提供帮助。然而，这样的技术不提供情感反应信息。针对问题的情感反应是提供候选人的更全面背景的一条有价值的信息。

需要一些改进和增强来更有效地使用社交媒体进行招聘。

发明内容

提供了用于语音情感识别面试过程的方法和系统。在一个新颖方面，除了针对回答音频剪辑的内容评估之外，基于回答音频剪辑的情感分类器生成并发情绪分类器。在一个实施例中，计算机系统基于一个或多个选择准则从题库中选择第一问题；获得针对第一问题的第一回答的音频剪辑的情绪分类器，其中情绪分类器从由音频剪辑的卷积神经网络(CNN)模型分析产生的情感分类器导出的；通过使用递归神经网络(RNN)模型分析针对所述第一问题的第一回答的音频剪辑来获得针对第一问题的评估结果；以及基于情绪分类器和评估结果生成针对第一问题的第一情感响应结果，其中第一情感响应结果呈现针对评估结果的采样经验因子。在一个实施例中，情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及情绪分类器选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。在另一实施例中，情绪分类器被映射到情感分类器。在一个实施例中，第一问题是个人特质问题，以及针对个人特质问题的第一回答标识一个或多个个人特质。在另一实施例中，个人特质问题的评估结果针对由第一问题标识的一个或多个个人特质在缩放基础上揭示积极或消极的倾向。在又一实施例中，当情绪分类器指示积极、极端积极、消极或极端消极的结果时，情绪分类器更改评估结果。在一个实施例中，第一问题是技术问题，以及针对技术问题的第一回答在缩放基础上标识一个或多个技术技能。在另一实施例中，情绪分类器用作针对评估结果的参考因子，其中当情绪分类器指示极端消极的、消极的或中性的结果时，针对第一问题的评估结果是正确的，针对第一问题的第一情感响应结果指示第一问题是技能水平以下的问题。在又一实施例中，计算机系统从题库中选择第二问题，其中选择准则基于第一情绪响应结果，以及使用语音Chatbot来呈现第一问题。语音Chatbot的声音的音调是基于一个或多个动态配置的调节因子可调整的。在一个实施例中，计算机系统从题库中选择第二问题，其中一个调整因子是第一情绪响应结果。

其它实施例和优点在以下详细描述中描述。此发明内容并不旨在限定本发明。本发明由权利要求书限定。

附图说明

附图示出本发明的实施例，其中相同的附图标记表示相同的组件。

图1示出根据本发明的实施例的语音情感识别面试系统的示例性示图。

图2示出根据本发明的实施例的具有用于控制子系统和人才子系统的处理模块的支持语音情感的计算机系统的示例性模块图。

图3示出根据本发明的实施例的基于回答音频剪辑的语音情绪分类器生成的示例性示图。

图4示出根据本发明的实施例的使用直接映射基于音频剪辑的情感分类器来获得用于音频剪辑的情绪分类器的示例性示图。

图5示出根据本发明的实施例的针对技术问题和个人特质问题的情绪分类器的示例性示图。

图6示出根据本发明的实施例的执行用于音频面试的语音情感识别的采取计算机系统形式的机器的示例性框图。

图7示出根据本发明的实施例的用于生成针对个人特质问题的语音情感响应的示例性示图。

图8示出根据本发明的实施例的用于生成针对技术问题的语音情感响应的示例性示图。

图9示出根据本发明的实施例的用于面试过程的语音情感识别的示例性流程图。

具体实施例

现在将详细参考本发明的一些实施例，其示例在附图中示出。

图1示出根据本发明的实施例的语音情感识别面试系统的示例性示图。示例性招聘系统包括支持语音情感的计算机系统110、人力资源(HR)客户端子系统120、以及人才子系统130。HR客户端子系统120生成职位描述，并从支持语音情感的计算机系统110获得面试报告。客户端130经由支持语音情感的计算机系统110进行面试。针对回答的评估连同并发情感响应由计算机系统110生成。结果被发送回HR客户端120。计算机系统110生成的语音情感识别结果避免了在面对面或在线视频面试期间发生的可能的偏见。另一方面，计算机系统110生成并发情感响应报告，可以用于评估申请者的情感智力。情感响应可以被实时地用作反馈以选择后续问题。它比在线笔试更具交互性。

支持语音情感的计算机系统110包括控制器111、用户接口112、题库113、以及情感响应结果处理器116。控制器111与递归神经网络(RNN)的人工智能(AI)程序115交互，用于自然语言处理(NPL)/自然语言理解(NLU)。卷积神经网络(CNN)长短期记忆(LSTM)单元114向控制器提供待使用的语音情感分析的输入，以生成语音情感结果。在一个实施例中，支持语音情感的计算机系统110是多进程设备。在其它实施例中，计算机系统110在多个设备上运行。

用户接口112与诸如HR客户端120和人才130之类的外部实体交换信息。用户接口112还通过网络连接与诸如网络实体之类的其它实体交互。用户接口112接收职位描述HR客户端120。职位描述标识期望的技能。在一个实施例中，职位描述采取来自HR客户端120的自由形式。在另一实施例中，HR客户端120格式化职位描述形式以生成职位描述。用户接口112将职位描述发送到控制器111以生成面试问题。用户接口112从控制器111接收面试结果，并将结果发送到HR客户端120。用户接口112还与人才130交互，以向人才130呈现面试问题，并且从人才130接收音频响应。用户接口112将接收到的音频响应发送到控制器111。支持语音情感的计算机系统控制器111从用户接口112接收用户输入。在接收到职位描述时，控制器111基于职位描述、预定义的规则和题库113准备面试问题的集合。

题库113存储多个面试问题。基于预定义的规则分类面试问题。例如，每个问题可以包括用于标识类别、子类别、技能水平、相关领域以及可选地后续问题索引的属性。题库113中面试问题的属性被用于与来自职位描述和规则/准则的需求相关联。在一个实施例中，题库113从用户接口112接收信息，并且基于接收到的信息更新面试问题。题库更新信息包括一个或多个更新，该一个或多个更新包括更新的问题、更新的问题的属性，诸如问题的类别、子类别、更新的问题选择的规则和其它与面试问题相关的信息。在一个实施例中，通过用户接口添加新问题。问题更新信息来自一个或多个源，包括客户端120、人才130和其他资源。控制器111基于职位描述和一个或多个选择规则从题库中获得面试问题。

控制器111与用户接口112、题库113、CNN LSTM 114、RNN(NLP/NLU)115交互，以生成情感响应结果116。在一个实施例中，控制器111是多处理器控制器。在其它实施例中，控制器111在一个或多个设备上运行。控制器111从用户接口112接收职位描述并生成面试问题。在一个实施例中，对接收到的职位描述进行分析，并生成一个或多个面试问题选择规则。在一个实施例中，通过从题库113中获得问题的子集来准备面试问题的集合。基于诸如行业匹配和技能水平匹配之类的一个或多个规则，从题库113选择问题的子集。在生成面试问题的集合时，控制器111布置用户接口112以与客户端130进行面试。在一个实施例中，基于接收到的回答动态地更新从题库113中选择的面试问题的子集。用户接口112响应于问题向控制器111发送回答音频。控制器111分析回答音频并生成情感响应结果116。在一个实施例中，控制器111使用RNN(NLP/NLU)模型115来分析来自人才130的语音音频并生成评估结果，该评估结果是针对问题的回答的正确性的评估。控制器111还基于情感分类器生成情绪分类器，该情绪分类器是基于针对问题的相同的回答音频而生成的。在一个实施例中，使用CNN LSTM模型生成语音情绪分类器。将所生成的情感分类器映射到情绪分类器以生成情感响应结果116。控制器111将情感响应结果116发送到用户接口112。

基于情绪分类器和回答音频剪辑的评估结果生成情感响应结果116。它提供了针对问题的回答的正确性的评估结果以及相同的音频的并发情绪分类器的组合，该并发情绪分类器提供了评估结果以外的信息。在一个实施例中，情感响应结果116被反馈到控制器111以动态地选择后续问题。情感响应结果116被发送到HR客户端120用于获得关于面试结果的综合报告。

图2示出根据本发明的实施例的具有用于控制子系统和人才子系统的处理模块的支持语音情感的计算机系统200的示例性模块图。支持语音情感的计算机系统200包括人才子系统210和计算机系统220。人才子系统210包括进行在线测试模块211和在线音频面试模块212。控制子系统220包括创建在线测试模块221、选择音频问题模块222、情感分类器231、评估结果模块232、题库201和情感响应模块202。人才可以进行由控制子系统220的评估232分析的在线笔试211。人才子系统210还通过人性化的语音聊天机器人进行在线音频面试212。在一个实施例中，基于被面试者的信息和来自先前回答的情绪响应结果的反馈，进一步定制语音聊天机器人。例如，基于包括轻松的、挑战的和其他的设置来调整声调。在线音频面试212的音频剪辑由评估结果模块232和情感分类器231两者分析。题库201存储并更新整个面试问题的集合。在一个实施例中，题库201中的每个面试问题包括一个或多个属性。模块221基于职位描述和一个或多个准则通过从题库201选择问题的子集来创建在线测试。所创建的面试问题被发送到人才子系统220。选择音频问题模块222从题库201中选择一个或多个面试问题，以用于音频面试。在一个实施例中，选择音频问题模块222从题库201中选择一个面试问题的子集。选择音频问题模块222基于针对面试的职位描述、一个或多个选择规则以及题库201中每个问题的属性选择面试问题。在一个实施例中，可以以音频、书面或其他格式将所选择的问题呈现给人才子系统220。由模块222选择的面试问题由人才以音频格式回答。在一个实施例中，控制子系统220接收针对问题的回答的音频剪辑并使用情感分类器231和评估结果模块232二者来分析接收到的音频剪辑。评估结果模块232生成对回答音频剪辑的内容评估。情感分类器231基于情感分类器231生成情绪分类器。情感响应202使评估结果与情感分类器相关并生成情感响应结果。在一个实施例中，将也包括评估和情绪分类器的情感响应结果反馈给选择音频问题模块222。在一个实施例中，还基于先前的情感响应结果，动态选择音频面试问题。

在一个新颖方面，由计算机系统生成语音情感响应。在传统的面对面或在线视频面试中，情感响应由面试者观察，并且可用于生成更全面的结果。然而，面试者的面对面或视频情感识别是高度主观的，并且随着面试者而变化。由计算机系统生成的语音情感响应将针对回答的内容的评估结果与由计算机系统生成的指示并发情感反应的情绪分类器进行组合。组合的结果提供了比当前在线测试结果更全面的结果以及对情感反应更客观的解释。情绪分类器基于使用语音识别技术的计算机生成的语音情感分类器。

图3示出根据本发明的实施例的基于回答音频剪辑的语音情绪分类器生成的示例性示图。在一个新颖方面，除了针对回答音频剪辑的内容评估之外，基于回答音频剪辑的情感分类器生成并发情绪分类器。一般而言，情绪分类器生成300包括音频捕获系统301、语音情感分类器处理311、结果情感分类器312和结果情绪分类器350。

音频捕获系统301接收回答音频流并将音频剪辑与面试问题匹配。音频捕获系统301将所识别的回答音频剪辑发送到语音情感分类器处理311。语音情感分类器处理311使用语音情感识别过程来识别回答音频剪辑的情绪分类器。语音情感识别基于采取两个步骤的机器学习模型。第一步骤是特征提取。第二步骤是建模。特征提取具有不同的方法。一种方法是直接从原始声音样本中检测显著特征。另一种方法仅使用声音文件的一个特定的特征作为学习模型的输入。后一种方法本质上是使用手工的特征声音文件的有监督的机器学习模型。有监督的学习模型产生更好的准确度。然而，它更昂贵，并且它需要专家或专业知识。一旦提取了特征，就可以开发、训练、评估和微调分类器模型。已经提出了许多数据挖掘模型，包括支持向量机(SVM)、逻辑回归、隐藏马尔可夫模型和诸如卷积神经网络(CNN)和深度神经网络(DNN)之类的神经网络。存在基于所使用的不同模型的不同的情感分类器。一旦针对对应的回答音频剪辑生成情感分类器312，则生成情绪分类器350。在一个实施例中，使用直接映射来基于预定义的规则将每个情感分类器映射到预定义的情绪分类器的集合。

在一个实施例中，使用1维(1D)CNN LSTM 320来生成情感分类器。针对对应的问题捕获音频剪辑文件302。1D CNN LSTM 321处理音频剪辑。1D CNN LSTM从音频剪辑的原始数据中识别语音情感。经处理的数据被发送到分类器322以生成情感分类器结果处理器323。结果处理323为音频剪辑生成预定义的情感分类器。所生成的情感分类器351被映射到情绪分类器352。

在另一实施例中，使用2维(2D)CNN LSTM 330来生成情感分类器。针对对应的问题产生音频剪辑303。2D CNN LSTM 331处理音频剪辑。2D CNN LSTM从手工的特征中学习全局上下文信息。经处理的数据被发送到分类器332以生成情感分类器结果处理器333。结果处理333为音频剪辑生成预定义的情感分类器。所生成的情感分类器351被映射到情绪分类器352。

可以使用不同的语音情感识别方法来从回答音频剪辑获得语音情感分类器。在一个实施例中，语音情感分类器用于生成与音频剪辑的评估结果相关的情绪分类器。

图4示出根据本发明的实施例的用于使用直接映射基于音频剪辑的情感分类器来获得用于音频剪辑的情绪分类器的示例性示图。情绪分类器生成器400包括映射规则403、情感分类器401和情绪分类器402。使用诸如1D CNN LSTM和2D CNN LSTM之类的语音识别方法来获得用于音频剪辑的情感分类器401。在一个实施例中，限定七个不同的情感分类器以识别音频剪辑的情感结果。表410的列1示出七个情感分类器的示例，包括激动、快乐、中性、悲伤、沮丧、愤怒和惊讶。在一个实施例中，使用每个情感分类器到情绪分类器的映射。映射规则403用于映射过程。表410示出七个情感分类器到对应的情绪分类器的示例性映射。情绪分类器与其对应的相同的音频剪辑的评估结果一起使用。映射规则403是预定义或预配置的。也可以动态地改变映射规则403。表410中示出映射的示例。例如，情感分类器“激动”被映射到情绪分类器“极端积极”。类似地，“快乐”被映射到“积极”，“中性”被映射到“中性”，“悲伤”被映射到“消极”，“愤怒”被映射到“极端消极”，以及“惊讶”被映射到“惊讶”。

在一个新颖方面，情绪分类器与评估结果被组合到回答音频剪辑。音频剪辑的情绪分类器用于两个领域。第一个是通过测量申请者在回答个性特质问题时所表现出的情感来评估个性特质。第二个是当申请者回答技术问题时，将情感与回答正确性相关联。

图5示出根据本发明的实施例的针对技术问题和个人特质问题的情绪分类器的示例性示图。计算机系统包括HR客户端子系统510、控制器子系统520、以及知识库子系统530。HR客户端子系统510包括职位描述模块511。职位描述模块511创建具有功能和非功能需求的职位描述。功能需求包括诸如对一种或多种编程语言的熟练程度、资产管理、人力资源、科学研究、数字营销等的技术需求。不同的行业和不同的职位具有不同的需求。非功能需求是诸如作为团队合作者、交流技能、领导技能、远见等的软技能和个性特质。不同的行业、不同的职位和不同的职务可以聚焦不同的非功能技能。在一个实施例中，HR客户端510使用格式化的表格生成职位描述，并且列出包含功能和非功能技能在内的职位需求。在另一实施例中，一般的职位描述与诸如企业的行业和职务之类的相关信息一起被用于生成格式化的职位描述。

控制器子系统520包括识别器521、技术问题选择器522、个人特质问题选择器523、技术知识引擎527和个人特质知识引擎528。识别器521从职位描述模块511接收职位描述。识别器521识别针对技术技能和个人技能的一个或多个需求。知识体(BOK)子系统530包括关于技术主题的知识体(BOK)537和关于个人特质主题的知识体(BOK)538。技术知识引擎527基于触发事件更新关于技术主题的BOK537，触发事件诸如来自HR客户端的新更新、基于新技术的新更新、基于市场的新更新和/或由AI分析系统进行的技术研究。类似地，个人特质知识引擎528基于触发事件更新关于个人特质主题的BOK538。技术问题选择器522基于来自识别器521的输入从关于技术主题的BOK537选择一个或多个技术问题。个人特质问题选择器523基于来自识别器521的输入从关于个人特质主题的BOK538选择一个或多个个人特质问题。所选择的技术问题和个人特质问题分别被发送到技术语音聊天机器人单元532和个人特质语音聊天机器人单元533。在其他实施例中，可以将所选择的问题呈现给与人才的其他界面，以收集音频回答。在一个实施例中，技术问题选择器522和个人特质问题选择器523分别接收基于从语音聊天机器人532和533接收的回答的反馈。在一个实施例中，回答反馈用于动态地选择后续问题。

图6示出根据本发明的实施例的执行用于音频面试的语音情感识别的采取计算机系统形式的机器的示例性框图。在一个实施例中，装置/设备600具有指令集，该指令集使得设备执行用于面试问题的语音情感识别的任何一种或多种方法。在另一实施例中，该设备作为独立设备操作或者可以通过网络连接到其他设备。采取计算机系统形式的装置600包括一个或多个处理器601、主存储器602、以及静态存储器单元603，通过总线611与其他组件通信。网络接口612将装置600连接到网络620。装置600还包括用户接口和I/O组件613、控制器531、驱动器单元632以及信号和/或传感器单元633。驱动器单元632包括机器可读介质，在其上存储一个或多个指令集和数据结构，例如由一种或多种方法实现或使用的用于语音情感识别功能的软件。软件还可以在执行期间完全或部分地驻留在主存储器602、一个或多个处理器601内。在一个实施例中，一个或多个处理器601被配置为基于一个或多个选择准则从问题储存库中选择第一问题；获得针对第一问题的第一回答的音频剪辑的情绪分类器，该情绪分类器是从由针对音频剪辑的卷积神经网络(CNN)模型分析产生的情感分类器导出的；通过使用递归神经网络(RNN)模型分析针对第一问题的第一回答的音频剪辑来获得针对第一问题的评估结果；以及基于情绪分类器和评估结果生成针对第一问题的第一情感响应结果，该第一情感响应结果呈现针对评估结果的采样经验因子。在一个实施例中，运行一个或多个处理器601的软件组件在不同的联网设备上运行，并且经由预定义的网络消息彼此通信。在另一实施例中，这些功能可以采取软件、固件、硬件或任意组合来实现。

在一个新颖方面，基于回答音频剪辑获得语音情感和情绪分类器。情感和情绪分类器与回答音频剪辑的评估结果相关，这提供了针对回答正确性的客观评估。情感和/或情绪分类器修改针对技术问题和个人特质问题的回答的评估结果。情感和/或情绪分类器还被用来建议随后的技术和个人特质问题。

图7示出根据本发明的实施例的用于生成针对个人特质问题的语音情感响应的示例性示图。关于个人特质主题的知识体711包括个人特质的整个集合。知识体问题712包括个人特质的完整列表，每个具有与对应的个人特质相关的一个或多个问题。在一个实施例中，个人特质问题是预先设计和制作的与所涉及的特质相关的基于场景的问题的集合。这些问题是个人特质的“操作定义”。概念或个人特质是使用示例来设计/质疑的。题库中的每个个人特质具有操作定义。这里列出由monster.ca发起的个人特质及其操作定义的列表的示例。在其它实施例中，使用其它个人特质和操作定义列表。

关于个人特质主题的BOK 711基于个人特质及其对应的操作定义生成和更新一个或多个面试问题。在一个实施例中，关于个人特质主题的BOK 711保持个人特质的多个整个集合。在另一实施例中，关于个人特质主题的BOK 711基于一个或多个预先配置的触发条件(例如接收用户输入更新)更新个人特质的整个集合。在一个实施例中，基于职位描述721和/或子集选择规则722选择个人特质的子集713。在另一实施例中，执行个人特质-职位需求映射用于基于职位需求721选择特征的子集713。在一个实施例中，基于DNN的模型训练和设计被用于选择职位描述的个人特质的相关/期望的子集。在一个实施例中，与所选择的个人特质相关的所有问题都被包括在子集713中。在另一实施例中，基于问题选择规则为每个特质选择问题子集。在选择个人特质和对应的问题时，语音聊天机器人语音-情感分类器701接收针对每个问题的回答音频剪辑。针对接收到的每个回答生成情感分类器和/或情绪分类器。在一个实施例中，1D CNN LSTM或2D CNN LSTM被用于建模和训练情感分类器，情感分类器被映射到情绪分类器。在一个实施例中，响应表702包括基于回答的内容的评估结果、情感分类器、情绪分类器，以及基于评估结果和情绪分类器两者的产生的情感响应结果。情绪分类器和/或情感分类器基于评估结果生成弯曲的结果。情感分类器和/或情绪分类器可以使评估结果向上或向下弯曲。例如，当情感分类器是激动并被映射到极端积极的情绪分类器时，评估结果被增强，反映在弯曲的结果中。在其他场景中，可以基于情绪分类器和/或情感分类器弱化评估结果。

在一个实施例中，情绪分类器和/或情感分类器被用于生成对后续问题的自适应选择。在另一实施例中，自适应选择基于情感响应结果，即评估结果和情绪分类器的组合。在一个新颖的方面，情感值可用于计算机面试系统。问题选择和/或语音聊天机器人设置是基于情绪分类器和/或情感分类器的机加工的自动化人性化选择。例如，如果候选者错误地回答容易的问题，而情感是悲伤的，则沮丧映射到消极情绪分类器，语音聊天机器人设置被调整为人性化的，以更令人鼓舞的方式询问问题。

图8示出根据本发明的实施例的用于生成针对技术问题的语音情感响应的示例性示图。关于技术主题的BOK 811包括技术问题的整个集合。在一个实施例中，每个问题与一个或多个属性相关联，例如相关技能和级别。基于职位描述821和/或子集选择规则822选择技术问题的子集。在步骤826，从所选择的子集823中选择问题。在步骤827，获得回答音频剪辑。在步骤831，执行语音到文本合成，将回答音频剪辑转换为文本。在步骤832，执行RNN(NLP/NLU)以评估针对问题的回答。在步骤833中，生成基于回答的内容的评估结果。回答音频剪辑也由语音聊天机器人语音情感分类器801分析。在一个实施例中，CNN LSTM模型被用于获得回答音频剪辑的情感分类器。基于预定义的映射规则将情感分类器映射到情绪分类器。示例性表格802示出针对技术问题的情感响应结果。评估结果评估回答的正确性。在一个实施例中，情感分类器和/或情绪分类器识别候选者对问题是积极、中性、消极还是惊讶的。在一个实施例中，情绪分类器指示问题是以处于技能水平、低于技能水平还是高于技能水平接收的。例如，评估针对于问题-1的回答音频剪辑，具有90％正确的评估结果。情感分类器被生成为激动的。情绪分类器指示“非常积极”。情感响应结果可指示问题是“处于技能”水平问题。情绪分类器和/或情感分类器为技术技能的回答提供额外的信息。例如，如果候选者错误地回答了较大比例的“处于技能水平”或“低于技能水平”问题，则可显示评估结果是低估的。回答的错误可能是由紧张或其它因素引起的。在另一示例中，如果候选者正确地回答了较大比例的“高于技能水平”，则可以指示本领域中的强大学习技能和坚实基础。在一个实施例中，由计算机系统分析评估结果与情绪/情感分类器的组合。

在一个实施例中，基于情绪分类器和/或情感分类器执行对技术问题的自适应选择。对问题的选择还基于来自情感响应结果的反馈。基于对学习模型的反馈选择具有较高或较低技能水平的问题。可以基于反馈选择与不同的技能集合相关的问题。

图9示出根据本发明的实施例的针对面试过程的语音情感识别的示例性流程图。在步骤901，计算机系统基于一个或多个选择准则从题库中选择第一问题。在步骤902，计算机系统获得针对第一问题的第一回答的音频剪辑的情绪分类器，其中情绪分类器是从由针对音频剪辑的卷积神经网络(CNN)模型分析产生的情感分类器导出的。在步骤903，计算机系统通过使用递归神经网络(RNN)模型分析针对第一问题的第一回答的音频剪辑来获得针对第一问题的评估结果。在步骤904，计算机系统基于情绪分类器和评估结果生成针对第一问题的第一情感响应结果，其中第一情感响应结果呈现针对评估结果的采样经验因子。

虽然出于指导的目的，已经结合特定特殊的实施例描述了本发明，但是本发明不限于此。因此，在不偏离如权利要求书中所述的本发明的范围的情况下，可实践所描述的实施例的各种特征的各种修改、调适和组合。

Claims

1.一种语音情感识别方法，包括：

由具有与至少一个存储器单元耦接的一个或多个处理器的计算机系统基于一个或多个选择准则从题库中选择第一问题；

由所述计算机系统获得针对所述第一问题的第一回答的音频剪辑的情绪分类器，其中所述情绪分类器是从由所述音频剪辑的卷积神经网络(CNN)模型分析产生的情感分类器导出的；

由所述计算机系统通过使用递归神经网络(RNN)模型分析针对所述第一问题的第一回答的音频剪辑来获得针对所述第一问题的评估结果；以及

基于所述情绪分类器和所述评估结果生成针对所述第一问题的第一情感响应结果，其中所述第一情感响应结果呈现针对所述评估结果的采样经验因子。

2.根据权利要求1所述的方法，其中所述情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及所述情绪分类器选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。

3.根据权利要求2所述的方法，其中所述情绪分类器被映射到所述情感分类器。

4.根据权利要求1所述的方法，其中所述第一问题是个人特质问题，以及针对个人特质问题的所述第一回答标识一个或多个个人特质。

5.根据权利要求4所述的方法，其中所述个人特质问题的评估结果针对由所述第一问题所标识的一个或多个个人特质在缩放基础上揭示积极或消极的倾向。

6.根据权利要求5所述的方法，其中当所述情绪分类器指示积极、极端积极、消极或极端消极的结果时，所述情绪分类器更改所述评估结果。

7.根据权利要求1所述的方法，其中所述第一问题是技术问题，以及针对技术问题的所述第一回答在缩放基础上标识一个或多个技术技能。

8.根据权利要求7所述的方法，其中所述情绪分类器用作针对所述评估结果的参考因子，其中当所述情绪分类器指示极端消极、消极或中性的结果时，针对所述第一问题的评估结果是正确的，针对所述第一问题的所述第一情感响应结果指示所述第一问题是技能水平以下的问题。

9.根据权利要求1所述的方法，还包括：从所述题库中选择第二问题，其中选择准则基于所述第一情感响应结果。

10.根据权利要求1所述的方法，还包括：使用语音聊天机器人呈现所述第一问题。

11.根据权利要求10所述的方法，其中所述语音聊天机器人的声音是基于一个或多个动态配置的调整因子可调整的。

12.根据权利要求11所述的方法，还包括从所述题库中选择第二问题，其中所述一个或多个动态配置的调整因子之一是所述第一情感响应结果。

13.一种语音情感识别装置，包括：

网络接口，所述网络接口将所述装置连接到通信网络；

存储器；以及

一个或多个处理器，所述一个或多个处理器耦接到一个或多个存储器单元，所述一个或多个处理器被配置为：

基于一个或多个选择准则从题库中选择第一问题；

获得针对所述第一问题的第一回答的音频剪辑的情绪分类器，其中，所述情绪分类器是从由所述音频剪辑的卷积神经网络(CNN)模型分析产生的情感分类器导出的；

通过使用递归神经网络(RNN)模型分析针对所述第一问题的第一回答的音频剪辑来获得针对所述第一问题的评估结果；以及

14.根据权利要求13所述的装置，其中所述情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及所述情绪分类器被映射到对应的情感分类器，并且选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。

15.根据权利要求13所述的装置，其中所述第一问题是个人特质问题，其中针对个人特质问题的所述第一回答标识一个或多个个人特质，以及针对由所述第一问题所标识的一个或多个个人特质在缩放基础上揭示积极或消极的倾向。

16.根据权利要求15所述的装置，其中当所述情绪分类器指示积极、极端积极、消极或极端消极的结果时，所述情绪分类器更改所述评估结果。

17.根据权利要求13所述的装置，其中所述第一问题是技术问题，以及针对技术问题的所述第一回答在缩放基础上标识一个或多个技术技能。

18.根据权利要求13所述的装置，其中所述一个或多个处理器还被配置为从所述题库中选择第二问题，其中选择准则基于所述第一情感响应结果。

19.根据权利要求13所述的装置，其中所述一个或多个处理器还被配置为使用语音聊天机器人来呈现所述第一问题，以及其中所述语音聊天机器人的声音是基于一个或多个动态配置的调整因子可调整的。

20.根据权利要求19所述的装置，其中所述一个或多个处理器还被配置为从所述题库中选择第二问题，其中一个或多个动态配置的调整因子之一是所述第一情感响应结果。