CN110909218A

CN110909218A - 问答场景中的信息提示方法和系统

Info

Publication number: CN110909218A
Application number: CN201910974049.XA
Authority: CN
Inventors: 饶琪; 金戈; 黄超; 郁冰; 金子文; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-03-24

Abstract

本申请涉及数据处理技术领域，本申请涉及一种问答场景中的信息提示方法、系统、计算机设备和存储介质，所述方法包括：从视频数据中截取视频片段；利用微表情识别模型对视频片段中对象的人脸进行分析，获取对象在视频片段中表现的情绪特征信息；若情绪特征信息中包括预设特征信息，则读取与预设特征信息对应匹配的提示信息；向对象提示该提示信息。上述方法在情绪特征信息属于预设特征信息时，对象的情绪处于需要调控或应答的情绪，可以读取与调控或应答该情绪相匹配的提示信息，向对象发送提示信息，面试过程增添向面试的对象调控和应答情绪的对话内容，对话内容丰富且可以提升面试对话的灵活度，增强人机对话的交互中的使用效果。

Description

问答场景中的信息提示方法和系统

技术领域

本申请涉及数据处理技术领域，具体而言，本申请涉及一种问答场景中的信息提示方法、系统、计算机设备和存储介质。

背景技术

随着人工智能技术发展，人机对话所交流的内容可以是人习惯的自然交流语言。例如，在一些面试场景中，可以将人机对话应用于面试中，结合视频技术辅助以提高面试的效率。

目前，视频技术主要应用在面试用户的人机对话过程，机器向用户提供预设的面试问题，用户根据面试问题进行回答，并由机器记录和分析用户的回答，此时可以实现基于基础交互层面上的面试。

虽然视频技术中进行人机对话的面试可以加快面试速度，但是往往机器往往只针对与用户之间的对话内容进行分析和进行下一步处理，对话内容单调以及对话效果生硬，影响了面试中人机对话的使用效果。

发明内容

基于此，有必要针对上述的技术缺陷，特别是人机对话表现生硬的技术缺陷，提供一种问答场景中的信息提示方法、问答场景中的信息提示系统、计算机设备和存储介质。

一种问答场景中的信息提示方法，包括：

从视频数据中截取视频片段，其中，所述视频数据包括至少一个对象在视频面试中回应面试问题的图像数据；

利用微表情识别模型对所述视频片段中对象的人脸进行分析，获取所述对象在视频片段中表现的情绪特征信息；

若所述情绪特征信息中包括预设特征信息，则读取与所述预设特征信息对应匹配的提示信息；

向所述对象提示所述提示信息。

在一个实施例中，所述预设特征信息包括激动状态相关的激动特征信息，所述提示信息包括带有寒暄内容的应答信息；

所述读取与所述预设特征信息对应匹配的提示信息的步骤，包括：

在所述情绪特征信息包括所述激动特征信息时，判定所述对象处于激动状态；并根据所述面试问题获取与所述激动特征信息对应的应答信息。

在一个实施例中，所述利用微表情识别模型对所述视频片段中对象的人脸进行分析，获取所述对象在视频片段中表现的情绪特征信息的步骤，包括：

检测所述视频片段的各个图像中所述对象的人脸特征点；将各所述图像中人脸特征点依次输入微表情识别模型并获得所述对象的面部动作，根据所述面部动作识别所述对象的表情变化；根据所述表情变化确定所述情绪特征信息。

在一个实施例中，所述根据所述表情变化确定所述情绪特征信息的步骤，包括：

调取情绪映射关系，其中，所述情绪映射关系用于记录表情变化与情绪特征信息之间的映射；从所述情绪映射关系中查找所述表情变化对应的所述情绪特征信息。

在一个实施例中，在所述根据所述面试问题获取与所述激动特征信息对应的应答信息的步骤之前，还包括：

提取所述视频片段中的音频数据；根据所述音频数据计算所述对象回应所述面试问题的音调平均方差；在所述音调平均方差超出预定的方差范围时，根据所述音调平均方差获取所述对象的激动特征信息。

识别所述视频片段中所述对象的自然语言信息；将所述自然语言信息与预设语料库中的过激词语进行比对；若所述自然语言信息中存在过激词语，根据所述自然语言信息中的过激词语获取所述对象的激动特征信息。

在一个实施例中，在所述从视频数据中截取视频片段的步骤之后，还包括：

识别所述视频片段中所述对象的自然语言信息，提取所述自然语言信息中的关键语料；根据所述关键语料判断所述对象是否提出问题；若判定所述对象提出问题，则识别所述问题，并从问答库中获取所述问题对应的答案，并向所述对象返回所述答案；

若判定所述对象没有提出问题，则根据所述关键语料从所述问答库中查找用于追问的问题，并向所述对象发送所述问题。

一种问答场景中的信息提示系统，包括：

截取模块，用于从视频数据中截取视频片段，其中，所述视频数据包括至少一个对象在视频面试中回应面试问题的图像数据；

分析模块，用于利用微表情识别模型对所述视频片段中对象的人脸进行分析，获取所述对象在视频片段中表现的情绪特征信息；

读取模块，用于若所述情绪特征信息中包括预设特征信息，则读取与所述预设特征信息对应匹配的提示信息；

提示模块，用于向所述对象提示所述提示信息。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的问答场景中的信息提示方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的问答场景中的信息提示方法的步骤。

上述的问答场景中的信息提示方法、系统、终端、计算机设备和存储介质，可以对视频面试中的视频片段进行分析并获得用于表示视频面试对象情绪的情绪特征信息，预设特征信息对应于需要调控或应答的情绪，在情绪特征信息属于预设特征信息时，对象的情绪处于需要调控或应答的情绪，读取与调控或应答该情绪相匹配的提示信息，向对象发送提示信息，以调控或应答对象的情绪，面试过程增添向面试的对象调控和应答情绪的对话内容，对话内容丰富且可以提升面试对话的灵活度，增强人机对话的交互中的使用效果。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过实践了解到。

附图说明

上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例中提供的问答场景中的信息提示方法的实施环境图；

图2为一个实施例中问答场景中的信息提示方法的流程图；

图3为一个应用示例中问答场景中的信息提示方法的流程图；

图4为一个实施例中问答场景中的信息提示系统的结构示意图；

图5为一个实施例中计算机设备的内部结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，图1为一个实施例中提供的问答场景中的信息提示方法的实施环境图，在该实施环境中，包括服务端110以及客户端120。作为用户的面试对象可以通过客户端120进行视频面试，客户端120可以采集视频数据并上传至服务端110，在实时面试过程中，客户端120可以向服务端110上传实时视频流。服务端110可以在计算机设备或服务器设备上运行，客户端120可以安装在终端上，服务端110和客户端120之间可以通过网络进行通讯连接。终端可为智能手机、平板电脑、笔记本电脑、台式计算机等具有摄像装置和语音采集装置的计算机设备，但并不局限于此。

在一个实施例中，如图2所示，图2为一个实施例中问答场景中的信息提示方法的流程图，本实施例中提出了一种问答场景中的信息提示方法，该问答场景中的信息提示方法可以应用于上述的服务端110中，具体可以包括以下步骤：

步骤S210：从视频数据中截取视频片段，其中，视频数据包括至少一个对象在视频面试中回应面试问题的图像数据。

本步骤中，进行面试的对象通过客户端的图像采集设备拍摄视频面试中回应面试问题的视频数据，并向服务端上传该视频数据，服务端接收该视频数据后，服务端可以在视频数据中截取该对象在回应某一个或多个面试问题的视频片段。

视频数据可以包括视频流，对象在进行视频面试中，客户端可以拍摄对象在视频面试中回应面试问题的视频并生成实时视频流，客户端向服务端上传实时视频流，服务端可以在实时视频流中截取或提取视频片段。进一步地，客户端可以向服务端上传视频面试的实时的多媒体数据流，服务端可以接收多媒体数据流并在从其中提取实时视频流。

步骤S220：利用微表情识别模型对视频片段中对象的人脸进行分析，获取对象在视频片段中表现的情绪特征信息。

本步骤中，微表情识别模型用于根据视频片段分析人脸的微表情，将视频片段的图像输入微表情识别模型中可以对视频片段中的人脸进行分析，根据分析结果可以确定情绪特征信息。

微表情识别模型可以是深度学习的神经网络模型，可以输出用于表示情绪特征信息的分类标签，从而可以获取对象在视频片段中对应的情绪特征信息。

步骤S230：若情绪特征信息中包括预设特征信息，则读取与预设特征信息对应匹配的提示信息。

本步骤中，预设特征信息可以用于表示指定情绪，预设特征信息可以对应于需要调控或应答的情绪，当情绪特征信息属于预设特征信息时，情绪特征信息所表示的情绪属于该指定情绪；提示信息可以预先存储在服务端中，服务端读取与预设特征信息对应匹配的提示信息，即可以从服务端中匹配用于调控或应答该指定情绪的提示信息，并在服务端中进行读取，该提示信息可以与指定情绪相对应，提示信息可以用于根据该指定情绪提示对象，以调控或应答对象的情绪，从而顺应或缓和对象的情绪。

步骤S240：向对象提示该提示信息。

本步骤中，可以在视频面试中根据对象的情绪进行应答，从而顺应或缓和对象的情绪。提示信息被发送至客户端，提示信息可以通过客户端所在设备的屏幕显示或者语音播报向对象进行提示。

例如，情绪特征信息表示对象当前情绪为激动情绪，预设特征信息也是用于表示激动情绪，即对象当前的情绪符合和满足激动情绪时，可以读取用于缓和对象激动情绪的提示信息，提示信息可以是带有寒暄内容的应答形象，提示信息可以用于分散对象注意力或者幽默，服务端可以将该提示信息转换为语音信息并向对象播放。或者提示信息还可以包括用于缓和对象激动情绪的图像或视频，服务端可以向对象展示该图像，如在对象当前的情绪符合和满足激动情绪的范围时，向对象播放视频或音乐，如面试单位的宣传短片等，分散面试对象的注意力。另外，在情绪特征信息表示对象当前情绪为高兴情绪时，预设特征信息也是用于表示高兴情绪，即对象当前的情绪符合和满足高兴情绪，服务端可以读取用于附和对象高兴情绪的提示信息，提示信息可以是表示肯定对象能力或性格的赞扬句子，服务端可以将该提示信息转换为语音信息并向对象播放。

上述问答场景中的信息提示方法，可以对视频面试中的视频片段进行分析并获得用于表示视频面试对象情绪的情绪特征信息，预设特征信息对应于需要调控或应答的情绪，在情绪特征信息属于预设特征信息时，对象的情绪处于需要调控或应答的情绪，读取与调控或应答该情绪相匹配的提示信息，向对象发送提示信息，以调控或应答对象的情绪，面试过程增添向面试的对象调控和应答情绪的对话内容，对话内容丰富且可以提升面试对话的灵活度，增强人机对话的交互中的使用效果。

特别是在面试的对象表现出的情绪波动时，可以向对象进行适当的提示，缓和对象的情绪，以便于对象及时调整良好的面试状态和充分展示其个人能力，从而这种视频面试还能提升人文关怀，增强用户体验。

在一个实施例中，步骤S220中利用微表情识别模型对视频片段中对象的人脸进行分析，获取对象在视频片段中表现的情绪特征信息的步骤，可以包括：

S221：检测视频片段的各个图像中对象的人脸特征点。

本步骤中，可以通过人脸特征点识别模型对图像进行检测，获得图像中的人脸特征点。人脸特征点识别模型可以对人脸图像定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等，通过若干特征点标记关键区域的位置和形状。人脸特征点识别模型可以基于深度学习的神经网络模型，也可以是ASM(Active Shape Model，主动形状模型)或AAM(Active Appearance Model，主动外观模型)，还可以是CPR(Cascaded poseregression，级联形状回归)模型。

S222：将各图像中人脸特征点依次输入微表情识别模型并获得对象的面部动作，根据面部动作识别对象的表情变化。

本步骤中，微表情识别模型可以对动态序列的图像进行微表情的分析，并识别对象的面部动作。首先可以截取一定序列长度的动态序列，例如服务端可以截取视频数据中包括有连续12帧的图像的视频片段，然后识别这12帧的图像中的人脸并检测人脸特征点，将检测后人脸特征点输入微表情识别模型，微表情识别模型可以分析人脸特征点在按照动态序列的顺序的位置变化，从而识别面部在时间维度上的变化，获得对象的面部动作，最后服务端可以从面部动作识别对象的表情变化。

面部动作可以是由人脸特征点位置变化的位移矢量进行表示，人脸肌肉的收缩和舒展形成了人脸上的面部动作，因此人脸肌肉的收缩和舒展正正控制了人脸特征点的所在位置。表情变化可以包括人脸各个部位的动作，例如表情变化可以包括嘴角上扬、嘴角下沉、紧闭嘴巴、嘴巴张开、嘴巴颤抖、眉毛上扬、皱眉头、挑眉毛、缩鼻子、眯眼睛、瞪眼睛等。根据某部位的面部动作判断该部位是否有变化，若有变化，则确定该部位对应的表情变化。

本步骤中，微表情识别模型也可以用于对单张图像或静态图像进行微表情的分析。例如，预先设置标准静态微表情图像，分别检测输入图像和标准静态微表情图像的人脸特征点，微表情识别模型将输入图像与标准静态微表情图像的人脸特征点进行对比，分别识别单张图像或静态图像的中的面部动作，以便于后续根据面部动作识别表情变化和分析微表情。标准静态微表情图像可以记录有中性表情的图像，或者直接调用标准样式或归一化样式的人脸特征点作为标准静态微表情图像的人脸特征点。

S223：根据表情变化确定情绪特征信息。

本步骤中，单个表情变化可以用于反应一种情绪，或者多个表情变化的组合也可以用于反应一种情绪，表情变化的不同组合可以用于反应多种的情绪，根据表情变化的组合可以确定对应的情绪特征信息，情绪特征信息可以用于表示某种情绪。

上述问答场景中的信息提示方法，可以利用微表情识别模型识别对象的面部动作，根据面部动作可以准确分析和确定情绪特征信息，对象会在通过面部流露情绪，对象面部的肌肉会运动，产生动作以形成微表情，微表情暗示着相关的情绪，因此借助微表情识别模型识别细微的面部动作，可以提高所确定的情绪特征信息的准确性。

在一个实施例中，S223中根据表情变化确定情绪特征信息的步骤，可以包括：

调取情绪映射关系，其中，情绪映射关系用于记录表情变化与情绪特征信息之间的映射；从情绪映射关系中查找表情变化对应的情绪特征信息。

情绪映射关系可以存储在服务端的数据库中，服务端可以从情绪映射关系表中快速查找情绪特征信息。情绪特征信息可以用于表示情绪的种类，情绪特征信息可以用于表示高兴、悲伤、惊讶、厌恶、恐惧、痛苦、中性等情绪，其中，悲伤、惊讶、厌恶、恐惧、痛苦的情绪可以属于激动情绪。例如，在情绪映射关系中，嘴角上扬的表情变化可以对应于表示高兴的情绪特征信息，瞪眼睛与张开嘴巴的组合可以对应于表示惊讶的情绪特征信息，皱眉头可以表示对应于表示痛苦的情绪特征信息，摇头或低头可以对应于表示厌恶的情绪特征信息。

上述问答场景中的信息提示方法，可以通过情绪映射关系情绪映射关系确定表情变化对应的情绪特征信息，针对不同表情变化的组合查找出相应的情绪特征信息，获知情绪特征信息所表示的情绪。

在一个实施例中，预设特征信息包括激动状态相关的激动特征信息，提示信息包括带有寒暄内容的应答信息；步骤S230中读取与预设特征信息对应匹配的提示信息的步骤，可以包括：

S231：在情绪特征信息包括激动特征信息时，判定对象处于激动状态。

本步骤中，激动特征信息可以是用于表示对象处于激动状态的情绪特征信息。

S232：并根据面试问题获取与激动特征信息对应的应答信息，其中，应答信息可以用于缓和对象的激动状态。

本步骤中，应答信息用于缓和对象的激动状态，应答信息可以具有幽默功能、发散思维功能、转移注意力功能或赞扬功能等，应答信息可以结合了面试问题的相关内容后针对性地缓和对象的激动情绪。例如，面试问题是表示询问对象为什么从上一家单位离职，在对象回答该面试问题的过程中出现激动情绪，对应应答信息可以包括针对对象在上一家单位工作内容表示肯定的信息。

上述问答场景中的信息提示方法，确定面试过程中对象存在激动情绪时，获取缓和对象激动情绪的应答信息，可以增添向面试的对象缓和激动情绪的对话内容，可以针对性且有效地缓和对象的激动情绪，增强人机对话的交互中的使用效果。

在一个实施例中，在S232中根据面试问题获取与激动特征信息对应的应答信息的步骤之前，还可以包括：

A1：提取视频片段中的音频数据。A2：根据音频数据计算对象回应面试问题的音调平均方差。

视频片段可以是多媒体数据，视频片段中还可以包括音频数据。服务端可以计算音频数据中的平均音调和各个时刻的瞬时音调；根据平均音调和瞬时音调可以计算音调平均方差。

A3：在音调平均方差超出预定的方差范围时，根据所述音调平均方差获取所述对象的激动特征信息。

预定的方差范围可以是用于表示对象处于激动状态的音调平均方差的范围。根据音调平均方差的程度选择相应程度的激动特征信息，例如，对象若是稍微激动，可以获取表示激动状态较弱的激动特征信息，对象若非常激动，则可以获取表示激动状态较强的激动特征信息。

上述问答场景中的信息提示方法，对象的语气、语音对应音调的波动性大，此时容易处于激动情绪下，通过评估音调的平稳性来判断激动情绪可以判断对象是否存在激动情绪，在对象存在激动情绪时可以根据音调平均方差获取激动特征信息，以便于后续根据激动特征信息应答对象和缓和对象的激动情绪，面试过程中可以增添向面试的对象缓和激动情绪的对话内容，可以针对性且有效地缓和对象的激动情绪，增强人机对话的交互中的使用效果。

B1：识别视频片段中对象的自然语言信息。

B2：将自然语言信息与预设料库中的过激词语进行比对。

视频片段可以是多媒体数据，视频片段中还可以包括音频数据，通过语音识别的算法可以识别视频片段中音频数据中包含的自然语言信息，同时识别自然语言信息中的语义。服务端可以预先建立存储有反映面试过程中过激词语的预设语料库。

B3：若自然语言信息中存在过激词语，根据所述自然语言信息中的过激词语获取所述对象的激动特征信息。

根据自然语言信息中的语义可以分析用户的情感分布，例如，自然语言信息中有表示过激词语的语义，即自然语言信息中存在过激词语，可以确定对象处于激动状态。过激词语可以反映对象激动情绪的程度，由此选择相应程度的应答信息，例如，若过激词语表示对象稍微激动，可以获取表示激动状态较弱的激动特征信息，以便于后续发送赞扬对象的应答信息，若过激词语表示对象非常激动，则可以获取表示激动状态较强的激动特征信息，以便于后续发送转移对象注意力的应答信息，甚至可以获取用于控制停止对话的应答信息。

上述问答场景中的信息提示方法，对象回应面试问题的内容中存在反映其情绪的文字内容，对象回应面试问题的自然语言信息存在激动词语时，可以反映出对象处于激动情绪下，在对象存在激动情绪时可以根据自然语言信息中存在的过激词语获取激动特征信息，以便于后续根据激动特征信息应答对象和缓和对象的激动情绪，面试过程中可以增添向面试的对象缓和激动情绪的对话内容，可以针对性且有效地缓和对象的激动情绪，增强人机对话的交互中的使用效果。

在一个实施例中，在步骤S210中从视频数据中截取视频片段的步骤之后，还可以包括：

S251：识别视频片段中对象的自然语言信息，提取自然语言信息中的关键语料。

视频片段可以是多媒体数据，视频片段中还可以包括音频数据，通过语音识别的算法可以识别视频片段中音频数据中包含的自然语言信息，同时识别自然语言信息中的语义。根据语义中包含的信息确定对象提问内容或者关注点，即确定关键语料。从对象的自然语言信息中，清洗掉无效信息，可以在有效的信息中进行语义理解，获取关键语料。

S252：根据关键语料判断对象是否提出问题。

本步骤中，服务端可以从关键语料确定提问内容或者关注点。

S253：若判定对象提出问题，则识别问题，并从问答库中获取问题对应的答案，并向对象返回答案。

对象提出问题，服务端识别问题的内容，并对应从问答库中查找可以用于回答该问题的答案，并向对象返回答案。

S254：若判定对象没有提出问题，则根据关键语料从问答库中查找用于追问的问题，并向对象发送问题。

对象回答面试内容，并未提出问题，可以对应从问答库中查找于追问的问题，获取可以用于继续进行面试的问题，并向对象发送问题。

上述问答场景中的信息提示方法，可以根据对象对面试的回应，灵活地进行下一步面试的应答，提高人机对话之间的相关性以及可以延续面试的话题，增强面试和人机对话的交互中的使用效果。

在一个应用示例中，如图3所示，图3为一个应用示例中问答场景中的信息提示方法的流程图，本示例中描述一种问答场景中的信息提示方法，可以包括以下步骤：

S301，对象在客户端上进行视频面试，采集面试的视频和音频，并实时向服务端上传视频面试的多媒体数据流，该多媒体数据流中包含视频数据和音频数据。

S302，服务端接收多媒体数据流，提取其中的视频数据和音频数据。

S303，服务端从视频数据中可以识别对象的表情变化并根据表情变化确定对象的情绪状态。情绪状态可以通过情绪特征信息进行表征。检测视频片段的各个图像中对象的人脸特征点；将各图像中人脸特征点依次输入微表情识别模型并获得对象的面部动作，根据面部动作识别对象的表情变化；调取情绪映射关系，其中，情绪映射关系用于记录表情变化与情绪特征信息之间的映射；从情绪映射关系中查找表情变化对应的情绪特征信息；当情绪特征信息属于激动特征信息时，判定对象处于激动状态。

S304，服务端从音频数据中计算对象的音调平均方差，并根据音调平均方差确定对象的情绪状态。可以计算音频数据中的平均音调和各个时刻的瞬时音调；根据平均音调和瞬时音调可以计算音调平均方差；预定的方差范围可以是用于表示对象处于激动状态的音调平均方差的范围，根据音调平均方差属于何种预定的方差范围时，判定对象处于激动状态，并确定对象的激动特征信息。

S305，服务端从音频数据中识别对象的自然语言信息，从自然语言信息中分析对象的情绪状态。识别视频片段中对象的自然语言信息；将自然语言信息与过激词语语料库中的过激词语进行比对；若自然语言信息中存在过激词语，判定对象处于激动状态，根据所述自然语言信息中的过激词语获取所述对象的激动特征信息。

S306：在对象的情绪处于激动状态，获取对应的应答信息并向对象发送该应答信息，以缓和对象的激动情绪。可以根据面试问题获取与激动特征信息对应的应答信息；也可以根据面试问题获取与音调平均方差对应的应答信息；还可以根据面试问题获取与过激词语对应的应答信息。

S307：服务端从音频数据中识别对象的自然语言信息，提取自然语言信息中的关键语料，根据关键语料向对象追问问题或回答问题。根据关键语料判断对象是否提出问题；若判定对象提出问题，则识别问题，并从问答库中获取问题对应的答案，并向对象返回答案；若判定对象没有提出问题，则根据关键语料从问答库中查找用于追问的问题，并向对象发送问题。

上述问答场景中的信息提示方法，可以向对象发送应答信息以及向对象追问问题或回答问题，不仅可以调控或应答对象的情绪，面试过程增添向面试的对象调控和应答情绪的对话内容，对话内容丰富且可以提升面试对话的灵活度，而且还可以灵活应答面试对象的面试内容，增强人机对话的交互中的使用效果。

在一个实施例中，如图4所示，图4为一个实施例中问答场景中的信息提示系统的结构示意图，本申请提供一种问答场景中的信息提示系统，以问答场景中的信息提示系统应用在服务端为例进行说明，可以包括截取模块410、分析模块420、读取模块430和提示模块440，其中：

截取模块410，用于从视频数据中截取视频片段，其中，视频数据包括至少一个对象在视频面试中回应面试问题的图像数据。

进行面试的对象通过客户端的图像采集设备拍摄视频面试中回应面试问题的视频数据，并向截取模块410上传该视频数据，截取模块410接收该视频数据后，可以在视频数据中截取该对象在回应某一个或多个面试问题的视频片段。

视频数据可以包括视频流，对象在进行视频面试中，客户端可以拍摄对象在视频面试中回应面试问题的视频并生成实时视频流，客户端向服务端上传实时视频流，截取模块410可以在实时视频流中截取或提取视频片段。进一步地，客户端可以向截取模块410上传视频面试的实时的多媒体数据流，截取模块410可以接收多媒体数据流并在从其中提取实时视频流。

分析模块420，用于利用微表情识别模型对视频片段中对象的人脸进行分析，获取对象在视频片段中表现的情绪特征信息。

分析模块420中，微表情识别模型用于根据视频片段分析人脸的微表情，将视频片段的图像输入微表情识别模型中可以对视频片段中的人脸进行分析，根据分析结果可以确定情绪特征信息。

微表情识别模型可以是深度学习的神经网络模型，可以输出用于表示情绪特征信息的分类标签，从而可以获取对象在视频片段中对应的特征信息。

读取模块430，用于若情绪特征信息中包括预设特征信息，则读取与预设特征信息对应匹配的提示信息。

读取模块430中，预设特征信息可以用于表示指定情绪，预设特征信息可以对应于需要调控或应答的情绪，当情绪特征信息属于预设特征信息时，情绪特征信息所表示的情绪属于该指定情绪；提示信息可以预先存储在读取模块430中，读取模块430可以读取与预设特征信息对应匹配的提示信息，即可以从读取模块430中匹配用于调控或应答该指定情绪的提示信息，并进行读取，该提示信息可以与指定情绪相对应，提示信息可以用于根据该指定情绪提示对象，以调控或应答对象的情绪，从而顺应或缓和对象的情绪。

提示模块440，用于向对象提示该提示信息。

提示模块440可以在视频面试中根据对象的情绪进行应答，从而顺应或缓和对象的情绪。提示信息被发送至客户端，提示信息可以通过客户端所在设备的客户端所在设备的屏幕显示或者语音播报向对象进行提示。

例如，情绪特征信息表示对象当前情绪为激动情绪，预设特征信息也是用于表示激动情绪，即对象当前的情绪符合和满足激动情绪时，可以读取用于缓和对象激动情绪的提示信息，提示信息可以是带有寒暄内容的应答形象，提示信息可以用于分散对象注意力或者幽默，提示模块440可以将该提示信息转换为语音信息并向对象播放。或者提示信息还可以包括用于缓和对象激动情绪的图像或视频，提示模块440可以向对象展示该图像，如在对象当前的情绪符合和满足激动情绪的范围时，提示模块440向对象播放视频或音乐，如面试单位的宣传短片等，分散面试对象的注意力。另外，在情绪特征信息表示对象当前情绪为高兴情绪时，预设特征信息也是用于表示高兴情绪，即对象当前的情绪符合和满足高兴情绪，提示模块440可以读取用于附和对象高兴情绪的提示信息，提示信息可以是表示肯定对象能力或性格的赞扬句子，提示模块440可以将该提示信息转换为语音信息并向对象播放。

上述问答场景中的信息提示系统，可以对视频面试中的视频片段进行分析并获得用于表示视频面试对象情绪的情绪特征信息，预设特征信息对应于需要调控或应答的情绪，在情绪特征信息属于预设特征信息时，对象的情绪处于需要调控或应答的情绪，读取与调控或应答该情绪相匹配的提示信息，向对象发送提示信息，以调控或应答对象的情绪，面试过程增添向面试的对象调控和应答情绪的对话内容，对话内容丰富且可以提升面试对话的灵活度，增强人机对话的交互中的使用效果。

特别是在面试的对象表现出的情绪波动是，可以向对象进行适当的提示，缓和对象的情绪，以便于对象及时调整良好的面试状态和充分展示其个人能力，从而这种视频面试还能提升人文关怀，增强用户体验。

关于问答场景中的信息提示系统的具体限定可以参见上文中对于问答场景中的信息提示方法的限定，在此不再赘述。上述问答场景中的信息提示系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

如图5所示，图5为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时，可使得处理器实现一种问答场景中的信息提示方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种问答场景中的信息提示方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例中的问答场景中的信息提示方法的步骤。

在一个实施例中，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的问答场景中的信息提示方法的步骤。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种问答场景中的信息提示方法，其特征在于，包括：

向所述对象提示所述提示信息。

2.根据权利要求1所述的问答场景中的信息提示方法，其特征在于，所述预设特征信息包括激动状态相关的激动特征信息，所述提示信息包括带有寒暄内容的应答信息；

在所述情绪特征信息包括所述激动特征信息时，判定所述对象处于激动状态；

并根据所述面试问题获取与所述激动特征信息对应的应答信息。

3.根据权利要求1所述的问答场景中的信息提示方法，其特征在于，所述利用微表情识别模型对所述视频片段中对象的人脸进行分析，获取所述对象在视频片段中表现的情绪特征信息的步骤，包括：

检测所述视频片段的各个图像中所述对象的人脸特征点；

将各所述图像中人脸特征点依次输入微表情识别模型并获得所述对象的面部动作，根据所述面部动作识别所述对象的表情变化；

根据所述表情变化确定所述情绪特征信息。

4.根据权利要求3所述的问答场景中的信息提示方法，其特征在于，所述根据所述表情变化确定所述情绪特征信息的步骤，包括：

调取情绪映射关系，其中，所述情绪映射关系用于记录表情变化与情绪特征信息之间的映射；

从所述情绪映射关系中查找所述表情变化对应的所述情绪特征信息。

5.根据权利要求2所述的问答场景中的信息提示方法，其特征在于，在所述根据所述面试问题获取与所述激动特征信息对应的应答信息的步骤之前，还包括：

提取所述视频片段中的音频数据；

根据所述音频数据计算所述对象回应所述面试问题的音调平均方差；

在所述音调平均方差超出预定的方差范围时，根据所述音调平均方差获取所述对象的激动特征信息。

6.根据权利要求2所述的问答场景中的信息提示方法，其特征在于，在所述根据所述面试问题获取与所述激动特征信息对应的应答信息的步骤之前，还包括：

识别所述视频片段中所述对象的自然语言信息；

将所述自然语言信息与预设语料库中的过激词语进行比对；

若所述自然语言信息中存在过激词语，根据所述自然语言信息中的过激词语获取所述对象的激动特征信息。

7.根据权利要求1所述的问答场景中的信息提示方法，其特征在于，在所述从视频数据中截取视频片段的步骤之后，还包括：

识别所述视频片段中所述对象的自然语言信息，提取所述自然语言信息中的关键语料；

根据所述关键语料判断所述对象是否提出问题；

若判定所述对象提出问题，则识别所述问题，并从问答库中获取所述问题对应的答案，并向所述对象返回所述答案；

8.一种问答场景中的信息提示系统，其特征在于，包括：

提示模块，用于向所述对象提示所述提示信息。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的问答场景中的信息提示方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的问答场景中的信息提示方法的步骤。