CN113762107A

CN113762107A - 对象状态评估方法、装置、电子设备及可读存储介质

Info

Publication number: CN113762107A
Application number: CN202110968760.1A
Authority: CN
Inventors: 张飞雄; 蔡蒙; 韩平平; 罗元; 付粉香
Original assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-07

Abstract

本申请实施例提供了一种对象状态评估方法、装置、电子设备及可读存储介质。该方法包括：获取按照预设采集时间间隔采集的视频流；基于预配置的人脸信息数据库，确定出视频流中所包含的目标对象；对视频流中的各张图像进行人脸表情识别，得到各张图像对应的表情识别结果；基于各张图像对应的表情识别结果，确定目标对象的表情识别结果；确定视频流中相邻图像对之间的差分图像，根据各差分图像确定目标对象的动作变化信息；根据目标对象的表情识别结果和动作变化信息，确定视频流对应的目标对象的状态评估结果。本申请实施例实现了通过目标对象的表情和动作变化综合地获得目标对象的状态，以向教师实时反馈学生的综合状态，进而提高教学效果。

Description

对象状态评估方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本发明涉及一种对象状态评估方法、装置、电子设备及可读存储介质。

背景技术

随着互联网技术的飞速发展，教育的载体不仅仅局限于实体课堂、录像、录音等传统场景，在线直播教育因为可实现跨距离传播和高效传播，使得老师上课地点和学生上课地点变得更加自由，逐渐成为一种常见的教育教学方式。

然而，在线直播教育也存在其劣势，例如授课讲师难以像实体课堂上真实感受到学生的上课情绪，无法实现师生之间的互动性，因而不能获得教学质量的直观有效的反馈，教学质量无法保障。

发明内容

本申请提供了一种对象状态评估方法、装置、电子设备及可读存储介质，可以解决现有技术存在的至少一个问题。

本申请实施例的第一方面，提供了一种对象状态评估方法，该方法包括：

获取按照预设采集时间间隔采集的视频流，所述视频流包含对象的至少一张人脸图像；

基于预配置的人脸信息数据库，确定出所述视频流中所包含的目标对象；

对所述视频流中的各张图像进行人脸表情识别，得到所述各张图像对应的表情识别结果；

基于所述各张图像对应的表情识别结果，确定所述目标对象的表情识别结果；

确定所述视频流中相邻图像对之间的差分图像，根据各所述差分图像确定所述目标对象的动作变化信息；

根据所述目标对象的表情识别结果和所述动作变化信息，确定所述视频流对应的所述目标对象的状态评估结果。

本申请实施例的第二方面，提供了一种对象状态评估装置，该装置包括：

获取模块，用于获取按照预设时间间隔采集的视频流，所述视频流包含对象的至少一张人脸图像；

人脸识别模块，用于基于预配置的人脸信息数据库，确定出所述视频流中所包含的目标对象；

表情识别模块，用于确定所述视频流中的人脸图像，并对各张人脸图像进行人脸表情识别，得到各张人脸图像对应的表情识别结果，基于各张人脸图像的表情识别结果确定，确定所述目标对象的表情识别结果；

动作变化信息确定模块，用于确定所述视频流中相邻图像对之间的差分图像，根据各所述差分图像确定所述目标对象的动作变化信息；

状态评估结果确定模块，用于根据所述目标对象的表情识别结果和所述动作变化信息，确定所述目标对象的状态评估结果。

本申请实施例的第三方面，提供了一种电子设备，该电子设备包括：处理器和存储器，该存储器配置用于存储机器可读指令，该指令在由处理器执行时，使得处理器执行上述第一方面所述的对象状态评估方法。

本申请实施例的第四方面，提供了一种计算机可读存储介质，在该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面所述的对象状态评估方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例的实现方式，通过获取按照预设采集时间间隔采集的视频流，该视频流包含对象的至少一张人脸图像；基于预配置的人脸信息数据库，确定出视频流中所包含的目标对象；确定视频流中的人脸图像，并对各张人脸图像进行人脸表情识别，得到各张人脸图像对应的表情识别结果；基于各张人脸图像对应的表情识别结果，确定目标对象的表情识别结果；确定视频流中相邻图像对之间的差分图像，根据各差分图像确定目标对象的动作变化信息；根据目标对象的表情识别结果和动作变化信息，确定目标对象的状态评估结果，即，首先可以通过人脸识别来判断视频流所对应的对象是否为目标对象，例如在网络在线教育场景下可以防止例如学生逃课、代课等作弊打卡行为，还可以通过目标对象的表情和动作变化综合地获得目标对象的状态，例如在网络在线教育场景下可以向教师实时反馈学生的综合状态，进而授课教师可以更加直观地了解学生的上课状态，提高教学效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种对象状态评估方法的流程示意图；

图2为本申请实施例提供的一种可选的对象状态评估方法的流程示意图；

图3为本申请实施例提供的确定目标对象的动作变化信息的流程示意图；

图4为本申请实施例提供的确定目标对象的状态评估结果的方法的流程示意图；

图5为本申请实施例提供的反馈状态评估结果的方法的流程示意图；

图6为本申请实施例提供的一种在线教学评估系统的结构示意图；

图7为本申请实施例提供的一种在线教学评估系统的原理示意图；

图8为本申请实施例提供的一种在线教学评估系统的流程示意图；

图9为本申请实施例提供的一种对象状态评估装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种对象状态评估方法的流程示意图。本申请实施例的方法可以应用于各种电子设备，下面以该方法应用于服务器来进行详细描述。如图1所示，本申请实施例的方法可以包括步骤S101-S106。

步骤S101：获取按照预设采集时间间隔采集的视频流，视频流包含对象的至少一张人脸图像。

其中，对象可以是需要进行状态评估的任意对象。可以包括但不限于学生、参加会议/培训的人员。可选的，本申请实施例中的对象可以是网络在线教育的学生。为了描述方便，下文的一些实施例中将以对象是学生为例进行说明。

可选地，学生客户端(以下可以简称为学生端)可以采集包含对象的视频流，并将预设时间间隔内采集的视频流发送给服务器，如学生端将视频流压缩后发送给服务器。服务器获取按照预设时间间隔采集的视频流，并在获取到视频流后对该视频流进行解压缩，以获得多张图像。本申请实施例对视频流的传输、压缩及解压缩的形式不作限定。

可选地，可以设置采样时间间隔为T₁和单帧采样间隔T₂，即对时间间隔T₁内视频流进行采样，采样图像数目为N＝TT1₂(N为正整数)，同时记录获取当前视频流的时间，即当前批处理(batch)的时间。

例如，视频流可以包括N张图像，其中，N张图像包括包含对象的至少一张人脸图像。

步骤S102：基于预配置的人脸信息数据库，确定出视频流中所包含的目标对象。

在本申请实施例中，数据库中可以预先录入各对象(即需要进行状态评估的各个对象)的面部信息。其中，面部信息可以包括对象的人脸图像、还可以是对象的人脸特征，还可以包括对象的身份标识信息(名称或其他标识)。

可选的，可以是将N张图像中多张人脸图像与预配置的各对象的面部信息进行比对，确定上述视频流中包含的对象具体是多个对象中的哪个对象(即目标对象)。可选的，在将多张(设定数量)人脸图像比对时，可以根据预设条件确定该预设数量中的特定张人脸图像与数据库中人脸数据达成匹配，即可确定目标对象，比如，可以是只要一张人脸图像与数据库中人脸数据达成匹配，可确定目标对象。

例如，在网络在线教育情境下，可以预先录入多个学生的脸部信息。例如，将在步骤S101中获得的N张图像中的至少一张人脸图像与预先录入的对象的脸部信息进行比对，确定该N张图像对应多个学生中的哪一个学生。例如，通过对比，确认N张图像中的至少一张人脸图像对应学生A，可以确定学生A本人在听课，反之判定学生A不在。

可选地，确定学生A在听课后，可以利用其他考勤软件，确认学生A打卡成功。

步骤S103：对视频流中的各张图像进行人脸表情识别，得到各张图像对应的表情识别结果。

在本申请实施例，可以通过神经网络对视频流中的各张图像进行人脸表情识别，得到各张图像对应的表情识别结果。比如，可以将表情分为多个类别，对于每张图像，可以通过分类神经网络识别出该图像中的人脸的表情类别，该表情类别即表征了该张图像中目标对象的表情识别结果。

本申请实施例不对表情识别结果做具体限定。表情识别结果可以为表情类别，不同表情类别的表示方式本申请实施例不做限定，例如可以是高兴、伤心等，也可以为分值，例如90分、50分等，也可以为等级，例如，1级、2级等。不同的分值/等级代表不同的表情，比如，90分代表高兴、1级代表高兴。

步骤S104：基于各张图像对应的表情识别结果，确定目标对象的表情识别结果。

例如，在网络在线教育情境下，在确认多张图像对应的学生后，为了获取学生上课时的表情或情绪，服务器可以对获取到的视频流中的各张图像进行表情识别，以获得各张图像对应的表情识别结果，并基于各张图像对应的表情识别结果获得目标对象的表情，即学生的表情。

在得到视频流中各张人脸图像对应的表情识别结果之后，可以基于各张图像对应的表情识别结果，确定目标对象的表情识别结果。例如，可以将各张人脸图像对应到的表情识别结果中出现次数最多的表情识别结果确定为目标对象的表情识别结果。例如，对于各张人脸图像，不同分值代表不同的表情识别结果，可以将各张人脸图像对应的表情识别结果所对应的分值的平均值作为目标对象的表情识别结果。

步骤S105：确定视频流中相邻图像对之间的差分图像，根据各差分图像确定目标对象的动作变化信息。

在本申请实施例，相邻图像对是指视频流中相邻的两张图像，也就是获取时间最接近的两张图像。差分图像是指将两张相邻图像的对应像素点的像素值相减得到的图像。动作变化信息表征了相邻的两张图像之间的像素信息的差异，也即目标对象的动作变化情况。

服务器在获得N张图像后，通过将该N张图像中的各个相邻图像对的对应像素值相减得到N-1张差分图像。差分图像可以表征相邻图像对中的两张图像的像素点的像素信息的变化情况，由于视频流中包含的图像是采集的同一对象的多张图像，相邻的两张图像之间的像素信息的差异即上述变化情况则主要是由于图像中目标对象的运动引起的，因此，可以根据各差分图像确定图像中的目标对象的动作变化信息。

本申请实施例不对根据各差分图像确定目标对象的动作变化信息的方法做具体限定。例如，可以根据差分图像的各个像素点的像素值之和来确定目标对象的动作变化信息。

步骤S106：根据目标对象的表情识别结果和动作变化信息，确定视频流对应的目标对象的状态评估结果。

本申请实施例中，可以根据目标对象的表情识别结果和动作变化信息来综合全面的反应目标对象的状态。

为了更清楚的示出确定目标对象的表情识别结果的过程，图2提供了本申请实施例提供的一种可选的对象状态评估方法，如图2所示，该对象状态评估方法可以包括如下步骤S201-204。

步骤S201：对视频流中的各张图像进行人脸检测，确定出视频流中的各张人脸图像。

人脸检测是指检测出多张图像中包含人脸的图像，即人脸图像。为了减小运算量，服务器可以通过人脸检测，筛选出所采集的N张图像中包含人脸图像的M张人脸图像(M是正整数，且M≤N)。可选地，可以只对M张人脸图像进行处理，如表情识别、动作变化信息的确定。

可选地，可以采用神经网络模型进行人脸检测，如可以基于卷积神经网络的人脸检测算法来识别多张图像中包含人脸的各张人脸图像，例如，可以采用多任务卷积神经网络(Multi-task convolutional neural networks，MTCNN)。MTCCN可以通过检测输入图像中的人脸位置和大小，进而筛选出服务器获取到的N张图像中含人脸的有效图像，即M张人脸图像。

步骤S202：确定各张人脸图像中的脸部区域图像。

为了进一步减小后续数据处理过程中的计算量，可以排除人脸图像中与脸部特征无关的相关干扰因素，可以对视频流中的多张人脸图像进行预处理，该预处理可以包括但不限于确定出各张人脸图像中的脸部区域图像，并对人脸图像中的脸部区域进行剪裁，得到脸部区域图像，以便于后续处理流程。

下面以基于卷积神经网络的人脸检测算法-MTCNN来具体说明人脸检测过程。MTCNN包括候选网络(Proposal Network，P-Net)、提炼网络(Refine Network，R-Net)和输出神经网络(Output Network，O-Net)的三层网络结构。

通过MTCNN实现人脸检测的具体步骤可以包括：

步骤1-1、通过图像缩放将视频流中的图像调整为不同比例的图像金字塔，以适应不同大小的人脸的检测。然后利用P-Net，对图像金字塔，进行脸部初步特征提取并标定边框，获得候选窗口即人脸候选框(candidate facial windows)，然后可以通过边界框回归向量(bounding box regression vectors，BBRV)来校准候选窗口。之后，可以通过非极大值抑制(Non-Maximum Suppression，NMS)对候选窗口进行过滤，例如合并高度重叠的候选窗口，最终输出多张可能存在人脸的人脸区域(也就是处理后的各候选窗口)，并将这些人脸区域输入R-Net进行进一步处理。

步骤1-2、将步骤1-1中所有候选窗口输入卷积神经网络R-Net，进一步筛选并拒绝大量的错误候选窗口，再对选定的候选框利用BBRV和NMS进行校准和过滤，最后将输出较为可信的人脸区域，供O-Net使用。其中，R-Net与P-Net网络结构相比，多了一个全连接层，所以输入数据的筛选会更加严格。

步骤1-3、将步骤1-2的输出图像(也就是经过步骤1-2得到的各候选窗口对应的图像区域)输入到O-Net。可以将图像调整为预定尺寸(例如，48*48)之后输入至O-Net。O-Net可以更加精细的检测出人脸区域，通过确定出人脸的5个关键位置特征点(例如，两个嘴角、鼻、双眼)来获得包含人脸区域的P个(P≥1)候选框(即候选窗口)。其中，每个候选框的位置可以由4个位置信息表示(如候选框的左顶点坐标(x,y)、候选框的高度(h)和宽度(w))。此外，每个候选框还可以包括置信度(score)信息和其中包含的脸部特征点(例如，上述五个关键点)的信息。置信度信息可以表示候选框所选出来的区域是人脸区域的可信度。

步骤1-4、根据步骤1-3中确定的各个候选框的位置信息与置信度，对于置信度超过预设阈值(例如，60％)的候选框，根据该候选框的位置信息对图像进行裁剪，得到视频流中的每张人脸图像中包括的脸部区域图像，通过人脸检测与剪裁，可以排除与脸部特征无关的相关干扰因素，以实现后续对脸部区域图像的精确处理。

在本申请实施例中，对人脸图像的预处理还可以包括人脸对齐、人脸归一化。

可选地，在获得脸部区域图像后，可以采用基于监督下降方法(SupervisedDescent Method，SDM)的人脸对齐算法对脸部区域图像进行对齐。SDM可以利用最小二乘法，快速找到脸部矩阵数据中的多个(例如，49个)关键特征数据点，并根据所得特征数据点位置确定人脸所在位置，计算得到特征偏移量的映射，并根据特征偏移量的映射实现脸部的角度旋转矫正。

可选地，为了增强图像的整体清晰度，还可以采用人脸归一化方法对人脸区域图像进行处理。

人脸归一化主要可以包含图像的亮度调整与对比度调整，归一化中可以采用效果较稳定的直方图归一化，即将彩色图像R、G、B三通道分离，并分别将各通道的图像进行均衡化计算。均衡化计算是指将灰度像素的分布区间变为[0,255]的范围区间。例如，将灰度像素范围[10,200]调整为[0,255]。然后可以将均衡化后的R、G、B通道值分别替换原始R、G、B通道颜色值，以合成彩色图像。

可选地，上述步骤S102中的确定视频流中所包含的目标对象的过程也可以通过将获得的脸部区域图像与预配置的人脸信息数据库进行对比来确定目标对象。

步骤S203：通过表情识别模型对各脸部区域图像进行人脸表情识别，得到各脸部区域图像对应的表情识别结果。

步骤S204：将各脸部区域图像对应的表情识别结果中最多的表情识别结果，作为目标对象的表情识别结果。

在获得脸部区域图像后，可以采用基于神经网络的表情识别模型来对脸部区域图像进行人脸表情识别。

基于神经网络的表情识别模型可以是通过训练大量样本而获得的模型。训练表情识别模型的具体步骤可以如下所示。

步骤1、制作训练数据集，该步骤可以包括如下几个步骤：

步骤1-1、样本获取及处理。

可以通过网络获取大量表情图片样本，去除样本数据中的背景，剪裁出人脸区域图像，并将人脸区域图像归一化为64*64尺寸大小，得到样本图像，每个尺寸归一化后的人脸区域图像即为一个样本人脸图像；

步骤1-2、数据标注，也就是标注每个样本图像中人脸的真实表情。根据样本表情细节，将数据集(即各个样本人脸图像)标注为6类标签中的一个：愤怒、恐惧、悲伤、平静、惊讶、高兴；

步骤1-3、数据增广。为丰富数据集量，对已标注数据采取镜像左右反转、将尺寸64*64的原始人脸数据进行随机裁剪至60*60大小后再将其拉伸至原尺寸、随机添加少量噪声等方式进行数据集的增广，以提高模型的泛化能力。

根据本申请实施例，可以针对特定的待识别对象制作训练数据集，例如，可以针对小学生制作用于识别小学生的表情的训练数据集。

步骤2、预训练模型

针对人脸表情识别，可以采用深度学习与机器学习分类算法，对比不同算法对人脸表情图像的分类效果，选取并融合最优算法，设计最优模型网络，以快速实现人脸表情的精准识别。采用的算法包含并不限于卷积神经网络(Convolutional Neural Network,CNN)、支持向量机(Support Vector Machine，SVM)、时域差值模型(TemporalInterpolation Model，TIM)、欧拉视频放大(Eulerian video magnification，EVM)等；采用的网络拓扑结构包含并不限于微调(Fineturn)、长短期记忆(Long short-term memory,LSTM)、深度网络VGG(Visual Geometry Group)、Inception卷积等；采用数据训练验证方法包含但不限于权重正则化、dropout正则化、K折验证等。通过合理规划网络结构与大小，妥善解决过拟合与欠拟合现象，实现最优人脸表情识别效果。

在一个可选的实施例中，可以采用一种基于改进型XCEPTIO网络(mini-XCEPTION)的人脸表情识别模型进行表情识别。mini-XCEPTION通过删减全连接层，结合残差模块(residual modules)，利用深度方向可分离卷积(dep-thwise separable convolution)替代部分卷积操作，大量减少参数的数量，实现视频级别的实时快速计算。

进一步地，基于mini-XCEPTION的人脸表情识别模型，其深度方向可分离卷积由两个不同的层组成：深度方向卷积和点方向卷积。这些层的主要目的是将互相关通道分离。为此，其在每E(E为正整数)个输入通道上应用一个卷积核为D×D(例如，3×3)(D为正整数)的滤波器，然后应用F(F为正整数)个1×1×E的卷积滤波器，可以将E个输入通道组合为F个，可缩减计算量

实现快速运算。

进一步地，基于mini-XCEPTION的人脸表情识别模型，可以包含4个深度可分离的残差卷积，每个卷积后面都有一个批量处理归一化操作(即BN操作)和一个ReLU激活函数。最后一层应用全局平均池和soft-max激活函数以产生预测。

进一步地，基于mini-XCEPTION的人脸表情识别模型，引入了实时引导的反向传播可视化，可以确定对于某一类表情的识别率的大小，进而可以通过增大训练集或调整参数来提高识别准确率。

步骤3、训练

将步骤1中得到的脸部表情数据集按一定比例划分为训练集、验证集。其中训练集通过设定迭代次数，逐代(epoch)输入步骤2中预训练模型进行训练，验证集用于验证模型准确度。

进一步地，训练过程中通过关注训练过程中训练损失(train_loss)与验证损失(val_loss)变化，合理设定学习率、迭代次数、epoch的大小以实现高精度拟合训练，得到高识别率表情识别模型。

在得到训练后的表情识别模型后，可以对待处理的图像(即，步骤202中获得的各脸部区域图像)进行表情识别。

具体地，可以将步骤S202中获得的各脸部区域图像输入训练得到的表情识别模型中进行人脸表情识别，表情识别模型可以得到每张脸部区域图像所对应表情识别结果。

下面以表情识别结果为表情类型为例具体说明如何确定每张脸部区域图像所对应的表情识别结果。

表情识别模型可以得到每张脸部区域图像所对应的各个表情类型的百分比，并选取百分比最高的表情类型作为该脸部区域图像对应的表情识别结果。

例如，表情类型分别为愤怒、恐惧、悲伤、平静、惊讶、高兴。对于一张脸部区域图像，人脸表情模型可以得到对应的各个表情类型的百分比如下：愤怒＝10％；恐惧＝15％；悲伤＝55％；平静＝15％；惊讶＝5％；高兴＝0％，则悲伤的百分比(55％)最高，即，表情识别模型可以确定该脸部区域图像对应的表情识别结果为悲伤。

对于每个目标对象，在预定时间间隔内获得了多张人脸图像(例如，M张)。因此，为了获得在预定时间间隔内目标对象的表情，需要进一步确定该多张人脸图像对应的表情识别结果。

进一步地，在确定每张人脸区域图像对应的表情识别结果后，统计上述M张脸部区域图像中各个表情识别结果出现次数，出现次数最高的表情识别结果可以作为该M张脸部区域图像对应的表情识别结果，即在预定时间间隔内该目标对象对应的表情识别结果。

例如，假设视频流中包括10张脸部区域图像，即M＝10，则对10张脸部区域图像进行人脸表情识别，得到第1张至第10张脸部区域图像对应的表情识别结果分别为：平静；平静；惊讶；高兴；平静；平静；悲伤；悲伤；平静；平静。然后，可以计算出上述10张脸部区域图像对应的表情识别结果中各个表情识别结果的数量。例如，平静＝6，惊讶＝1，高兴＝1，悲伤＝2。可以确定上述10张脸部区域图像对应的表情识别结果中“平静”出现的次数最多，即可以将“平静”确定为目标对象的表情识别结果。

在本申请实施例中，通过识别人脸图像中的脸部区域图像，并对各个脸部区域图像进行表情识别，可以大量减少表情识别过程中的计算量，并且通过排除与脸部特征无关的相关干扰因素，可以使表情识别结果更加准确。

为了清楚的示出本申请实施例的对象状态评估方法中的确定目标对象的动作变化信息的过程，图3提供了确定目标对象的动作变化信息的流程示意图。如图3所示，确定目标对象的动作变化信息可以包括以下步骤S301-S304。

步骤S301：对于每一差分图像，确定差分图像中前景像素的占比。

为了确定目标对象的动作变化信息，可以首先对差分图像进行灰度处理得到差分图像的灰度图。灰度处理是指将彩色图像转化成为灰度图像的过程。灰度图是指用从黑色到白色的灰度表示的图像，其中，灰度图的像素的灰度值在[0,255]区间范围内。当然，也可以在获取差分图像时，先将视频流中包括的图像都转换为灰度图像，然后确定相邻两张灰度图像之间的差分图像。

可以理解的是，本申请实施例中的前景像素指的是图像中目标对象所对应的像素点。其中，可以通过设定阈值，将像素值低于阈值的像素归类为不作为后续计算的背景像素，将像素值大于或等于阈值的像素标记为用于后续计算的前景像素。

可以统计前景像素数量，标记为G_i，i∈(1,N-1)，其中，i表示第i张差分图像，例如G_i表示第i张差分图像的前景像素数量。通过统计前景像素数量(即像素点的数量)占原始图像像素数量的比例，得到差分图像的前景像素的占比

其中，P_x和P_y分别表示一张图像的宽度方向和高度方向的像素数量，P_i第i张差分图像的前景像素的占比。

步骤S302：根据各差分图像中前景像素的占比，确定各相邻图像对对应的前景像素变化参考值。

在得到各个差分图像的前景像素的占比后，可以根据所有差分图像的前景像素的占比确定前景像素变化参考值。例如，N-1张差分图像的前景像素的占比的平均值。

前景像素变化参考值表征了视频流中相邻图像之间的与目标对象对应的像素变化的基准。

可选的，前景像素变化参考值也可以根据经验值和/或实验值获得。

步骤S303：根据各差分图像中前景像素的占比和前景像素变化参考值，确定视频流对应的前景像素波动信息。

在确定各张差分图像对应的两张相邻图像对应的前景像素变化参考值之后，可以通过判断各差分图像中前景像素的占比与所确定的前景像素变化参考值之间的变化关系来确定视频流对应的前景像素波动信息，例如，可以判断各差分图像中前景像素的占比相对于前景像素变化参考值的离散情况来确定视频流对应的前景像素波动信息。

在本申请实施例中，前景像素波动信息表征了目标对象在视频流所对应的时间内的变化幅度情况。

步骤S304：基于前景像素波动信息，确定目标对象的动作变化信息。

在本申请实施例中，前景像素波动信息的值越大，目标对象的动作变化幅度越大。

作为具体示例，上述前景像素变化参考值可以为各个差分图像的前景像素的占比的均值

其中，

表示差分图像的前景像素的占比的均值。可选地，可以设置均值阈值(经验值或实验值)，例如，0.8，若均值大于该阈值，可以将该均值排除，以排除因目标对象离开采样镜头导致的超大幅度像素差异。

基于上述均值，前景像素波动信息可以为各差分图像中前景像素的占比的标准差

其中，S表示各差分图像中前景像素的占比的标准差。基于该标准差可以确定目标对象的动作变化信息，标准差越大，目标对象的动作变化幅度越大。可选地，可以设置标准差阈值，例如，0.02，以排除因目标对象离开采样镜头导致的超大幅度像素差异。对于一个视频流，如果计算得到的标准差大于阈值，则可以排除该标准差。也就是说，通常情况下，一个视频流对应的目标对象的动作变化幅度所对应的标准差小于阈值，例如，在范围[0，0.02]内。

作为本申请的可选实施方式，当判断前景像素的占比的均值或标准差超过对应阈值时，可以判断目标对象离开采样镜头。在这种情况下，可以不进行后续表情识别处理，直接结束流程；或者向教师端反馈学生离开的信息。

在本申请实施例中，通过将差分图像灰度化可以在保证准确计算像素变化的情况下减少计算量。通过根据各个差分图像中前景像素的占比与前景像素变化参考值计算出前景像素波动信息可以准确表征目标对象在视频流对应的时间段内的变化幅度。

在上述各可选实施例中，描述了如何确定目标对象的表情识别结果和动作变化信息的可选实施方式。下面结合可选实施例来描述根据目标对象的表情识别结果和动作变化信息确定目标对象的状态评估结果的方法。图4为本申请实施例提供的确定目标对象的状态评估结果的方法的流程示意图。

根据本申请的实施例，目标对象的表情识别结果可以为表情类别，例如包括但不限于，愤怒、恐惧、伤心、悲伤、平静、惊讶、高兴、开心等。

根据本申请的实施例，为了便于计算，可以设置多个候选表情类别。例如候选表情类别可以为：愤怒、恐惧、悲伤、平静、惊讶、高兴。每个候选表情类别可以预配置有对应的表情分值。

可选地，每个表情识别结果对应的分值可以由用户根据需要设置或系统预设。作为示例，表情识别结果对应的分值可以如下表1所示：

表1

表情类别	愤怒	恐惧	悲伤	平静	惊讶	高兴
							分值	30	40	50	60	70	90

动作变化信息可以包括动作幅度值。可以基于前景像素波动信息，例如标准差，来确定目标对象的动作变化信息。例如，可以将标准差范围[0，0.02]归一化为[0，100]的范围区间，则对于任一标准差，可以确定该标准差对应的归一化后的值为动作幅度值。例如，若标准差为0.005，则该标准差对应的动作幅度值为25。

如图4所示，确定目标对象的状态评估结果可以包括以下步骤S401-S403。

步骤S401：确定目标对象的表情识别结果对应的表情分值。

可选地，可以根据上述表情识别结果与分值对应表来获得表情识别结果对应的表情分值。

步骤S402：根据确定的表情分值和动作幅度值，确定目标对象的状态评估值。

在本申请实施例，根据确定的表情分值和动作幅度值来确定目标对象的状态评估值的计算方式不做限定，例如，可以为两者之和，两者之积。例如，目标对象对应的表情识别结果为平静，其对应的分值为60；根据标准差确定的动作幅度值为25，则目标对象的状态评估值可以为两者之和，即85。

步骤S403：根据状态评估值，确定目标对象的状态评估结果。

在本申请实施例，在确定目标对象的状态评估值之后，可以得到目标对象的状态评估结果，并可以将评估结果反馈给教师客户端(以下可以简称为教师端)。可选地，也可以直接将状态评估值反馈给教师端，可选地，也可以将状态评估值反馈给学生客户端和教师端。

状态评估结果的形式本申请实施例不做限定，例如可以为等级的形式。反馈方式本申请实施例不作限定，例如可以为可视化反馈。例如，可以预设状态评估值与状态评估结果之间的对应关系，根据状态评估值即可得到状态评估结果，例如，状态评估值的各个范围区间可以对应一个状态评估结果。

根据本申请实施例的一种可选实施方式，表情识别结果和动作变化信息可以具有各自对应的权重，该权重可以由用户设置或系统默认设置。例如，表情识别结果和动作变化信息的权重可以分别为80％和20％。

可选地，可以根据获取的权重对表情分值和动作幅度值进行加权求和，得到目标对象的状态评估值。例如，当表情分值为60，动作幅度值为25，表情识别结果和动作变化信息的权重分别为80％和20％时，状态评估值可以为60*80％+25*20％＝48+5＝53。

例如，状态评估值与状态评估结果之间的对应关系可以如下表2所示。

表2

状态评估值	0-35	35-50	50-70	70-90	90-100
						状态评估结果	较差	差	中	良	优

根据上表，可以得知，当状态评估值为53时，状态评估值可以对应于状态评估结果“中”。可选地，可以通过可视化方式向教师端反馈状态评估结果“中”。

通过本申请实施例，通过根据目标对象的表情和动作变化来综合评估目标对象的状态，可以更加综合的了解目标对象的状态。例如，在网络在线教学情境下，根据学生的表情和动作变化，教师端可以综合全面地了解各时间段学生的情绪变化情况，并基于此采集相应的教学策略，以达到良好的教学质量。

根据本申请的实施例，状态评估结果可以不以设置的采样间隔T₁进行反馈，而是通过服务器设置或学生端设置的反馈间隔来进行反馈。图5为本申请实施例提供的反馈状态评估结果的方法的流程示意图。如图5所示，包括步骤S501-S503。

步骤S501：根据至少两个视频流对应的目标对象的状态评估结果，确定至少两个视频流所对应的时段内目标对象的综合状态评估结果。

可选地，根据上述方法可知，按照预设采集时间间隔T₁采集的视频流可以获得一个对应的状态评估结果。当按照应用需求设置了反馈间隔T₂时，可以获得该反馈间隔T₂内采集的所有视频流对应的各个状态评估结果的综合状态评估结果。例如，综合状态评估结果可以为在该时段内获得的状态评估结果对应的状态评估值的平均值。

步骤S502：根据至少两个视频流各自对应的目标对象的表情识别结果，确定时段内目标对象的表情变化信息。

可选地，可以获得该反馈间隔T₂内采集的所有视频流对应的各个表情识别结果，并确定反馈间隔T₂内目标对象的表情变化信息。例如，反馈间隔T₂内的目标对象的表情变化信息可以为在该时段内的所有表情识别结果的占比。

步骤S503：将时段对应的综合状态评估结果和表情变化信息，提供给与视频流关联的终端设备，以通过终端设备展示。

可选地，可以将上述综合状态评估结果和表情变化信息中的任一者或者两者提供给与视频流关联的终端设备，以通过终端设备展示。

本申请实施例不对终端设备做任何限定。终端设备可以为例如电脑、手机等的各种设备。

可选地，当反馈间隔T₂不是采集时间间隔T₁的整数倍时，可以对T₂与T₁的比值向下取整，来获得反馈间隔T₂的综合状态评估结果，并标识该时段内的表情分类占比。

可选地，通过终端设备展示的方式本申请实施例不做限定，例如，可以可视化展示。例如，可设置推送相关消息至移动客户端，例如教师端，以弹窗的方式显示于移动客户端上。

根据本申请实施例，通过设置预设反馈间隔，可以减少反馈次数，减少计算量，并且通过可视化反馈状态评估结果，可以更加真实和直观地了解目标对象的状态变化。

本申请实施例的基于面部表情与动作的在线教学评估方法，融合图像处理技术、基于深度卷积神经网络的人脸识别技术、面部表情识别技术等，实现了学生线上上课场景中人脸识别、动作幅度计算、学生面部表情分析，智能分析统计学生表情变化，并可以及时反馈并通知教师，进而教师可以更加直观地了解学生的上课状态，以提高教学效果。

根据与本申请实施例描述的对象状态评估方法相同的原理，本申请实施例提供了一种在线教学评估系统，图6为本申请实施例提供的一种在线教学评估系统的结构示意图，图7为本申请实施例提供的一种在线教学评估系统的原理示意图，图8为本申请实施例提供的一种在线教学评估系统的流程示意图。

如图6所示，在线教学评估系统可以用于在网络在线教育情况下，评估学生情绪变化情况。该在线教学评估系统可以自动采集在线直播课堂中视频，并上传服务器进行分析，智能识别视频中人脸区域，并根据数据中录入人脸数据进行匹配以校验学生身份，通过动作幅度计算与面部表情分析，综合分析以获知学生上课状态，并通过移动端反馈并可视化展示，实现在线教学的智慧监督。

如图6所示，该在线教学评估系统包括客户端和服务器。在本示例中，客户端可以指代教师端。客户端可以包括：安全认证模块、视频获取模块、数据发送接收模块。服务器可以包括：动作计算模块、图像预处理模块、人脸识别模块、表情识别模块、计算模块、输出模块。

安全认证模块，用于验证例如教师是否为合法用户。例如，教师可以通过上传安全证书、校验公钥与私钥等方式来验证合法身份，以建立与服务器的连接。验证通过后的教师可以具有获取在线直播间的视频流的权限。

视频获取模块，用于获取网络视频流。通过上述安全认证模块的认证后，教师可以通过视频获取模块获得服务器的授权，获取各对象(例如，学生)端的视频流。

可选地，可以根据网络速度或服务器配置设置采样间隔，并按照采样间隔采集视频流中的多张图像。

可选地，可以设置采样时间间隔为T₁和单帧采样间隔T₂，即对时间间隔T₁内视频流进行采样，采样图像数目为

(N为正整数)，同时记录获取当前视频流的时间，即当前批处理(batch)的时间。

本申请实施例提出了一种间隔采样技术，通过对当前网络状况与服务器性能智能分析，推荐批处理采样间隔与帧采样间隔，解决了面向视频传输与智能分析场景中因无法维持高速稳定网络与强处理单元而造成的识别卡顿与崩溃，在保证在线直播授课稳定的情况下实现了准确且高效的视频数据采样传输。

数据发送接收模块，用于向服务器发送视频数据包。数据发送接收模块将采集得到的N张图像压缩打包，并发送至服务器。

动作计算模块，用于计算视频中学生活动动作的幅度，来判断学生上课认真听讲状态，以及是否中途离开采样镜头。

图像预处理模块，用于图像预处理，例如查找存在人脸的图像帧并裁剪面部区域图像。可选地，图像预处理模块还可以进行人脸角度矫正和图像归一化，以方便后续处理。

人脸识别模块，用于判断学生是否本人，通过将人脸图像与数据库已录入人脸信息进行匹配来判断。

表情识别模块，用于识别学生表情，智能分析其表情类别以分析其上课情绪状态。

计算模块，用于统计一定时间间隔内，学生的表情变化信息以及上课动作幅度状态，并计算综合状态评估结果。

输出模块，用于显示综合状态评估结果给教师端。教师端可以直观了解各时间段学生的综合状态评估结果，例如包括表情变化信息与动作幅度的数据汇总报表。可选的，也可以显示综合状态评估结果给学生端，以提示学生注意上课状态。

在线教学评估系统中的教师端和服务器可以经由上述各个模块来处理数据并彼此传输数据。具体地，如图7和图8所示，教师端在通过安全认证模块的安全认证后，可以通过视频获取模块确定当前网络状况，根据当前网络状况设置采样间隔，根据设置的采样间隔进行采样，并将采集的视频压缩后通过数据发送接收模块传输给服务器。

服务器可以对接收到的视频流进行解压缩，通过动作计算模块进行动作幅度计算，以获得动作变化信息。此外，服务器可以根据视频流进行人脸检测，确定视频流中包括的图像中是否包括人脸。如果没有人脸，说明没有采集到关于对象的视频，则结束流程。如果有人脸，服务器可以通过人脸识别模块对图像进行人脸识别，以确定目标对象。可选地，服务器也可以在进行人脸检测后进行动作幅度计算。可选地，服务器可以通过图像预处理模块对获取到的图像进行预处理，以得到人脸区域图像。服务器可以表情识别模块对人脸图像或预处理的人脸区域图像进行面部表情识别，以获得目标对象的表情识别结果。然后，服务器可以经由汇总分析模块(包括上述计算模块和输出模块)根据动作变化信息和表情识别结果的权重，对动作变化信息和表情识别结果进行加权计算，以获得综合状态结果并且可以存储综合状态结果。服务器还可以为综合状态结果设置阈值，当判断综合状态结果超过阈值时，可以将综合状态结果发送到教师端；当综合状态结果没有超过阈值时，可以结束流程。教师端可以将获得的综合状态结果以可视化方式展示给教师。

本申请实施例的基于在线直播教育的面部表情在线教学评估系统(也可以称为在线监督系统)，可以借助现有移动端或PC端设备，无需采用专业录音录像设备以及额外的终端设备，有效降低成本。

基于与上述本申请实施例的对象状态评估方法的相同的原理，本申请实施例提供了一种对象状态评估装置。图9为本申请实施例提供的一种对象状态评估装置的结构示意图，如图9所示，本实施例的装置可以包括：获取模块901、人脸识别模块902、表情识别模块903、动作变化信息确定模块904和状态评估结果确定模块905。

获取模块，用于获取按照预设时间间隔采集的视频流，视频流包含对象的至少一张人脸图像。

人脸识别模块，用于基于预配置的人脸信息数据库，确定出视频流中所包含的目标对象。

表情识别模块，用于确定视频流中的人脸图像，并对各张人脸图像进行人脸表情识别，得到各张人脸图像对应的表情识别结果，基于各张人脸图像的表情识别结果确定，确定目标对象的表情识别结果。

动作变化信息确定模块，用于确定视频流中相邻图像对之间的差分图像，根据各差分图像确定目标对象的动作变化信息。

状态评估结果确定模块，用于根据目标对象的表情识别结果和动作变化信息，确定目标对象的状态评估结果。

本实施例的对象状态评估装置可执行上述本申请实施例提供的一种对象状态评估方法，其实现原理相类似，此处不再赘述。

基于与上述本申请实施例的对象状态评估方法的相同的原理，本申请实施例提供了另一种对象状态评估装置。本实施例的对象状态评估装置可以包括：获取模块、人脸识别模块、表情识别模块、动作变化信息确定模块、状态评估结果确定模块和结果输出模块。

表情识别模块，还用于对视频流中的各张图像进行人脸检测，确定出视频流中的各张人脸图像；

确定各张人脸图像中的脸部区域图像；

通过表情识别模型对所述脸部区域图像进行人脸表情识别，得到脸部区域图像对应的表情识别结果；

将脸部区域图像对应的各种表情识别结果中最多的表情识别结果，作为目标对象的表情识别结果。

动作变化信息确定模块，还用于对于每一所述差分图像，确定所述差分图像中前景像素的占比；

根据各差分图像中前景像素的占比，确定各相邻图像对对应的前景像素变化参考值；

根据各差分图像中前景像素的占比和前景像素变化参考值，确定视频流对应的前景像素波动信息；

基于前景像素波动信息，确定目标对象的动作变化信息。

动作变化信息确定模块，还用于确定各差分图像中前景像素的占比的均值，将均值作为各所述相邻图像对对应的前景像素变化参考值；

根据各差分图像中前景像素的占比和均值，确定各差分图像中前景像素的占比的标准差，将标准差确定为视频流对应的前景像素波动信息。

目标对象的表情识别结果为表情类别，表情类别为多个候选表情类别中的一个，每个候选表情类别预配置有对应的表情分值；所述动作变化信息包括动作幅度值。

状态评估结果模块，还用于确定目标对象的表情识别结果对应的表情分值；

根据确定的表情分值和动作幅度值，确定目标对象的状态评估值；

根据状态评估值，确定目标对象的状态评估结果。

状态评估结果确定模块，还用于获取表情识别结果和动作变化信息各自对应的权重；

根据获取的权重对表情分值和动作幅度值进行加权求和，得到目标对象的状态评估值。

结果输出模块，用于根据至少两个视频流对应的目标对象的状态评估结果，确定至少两个视频流所对应的时段内目标对象的综合状态评估结果；

根据至少两个视频流各自对应的目标对象的表情识别结果，确定时段内目标对象的表情变化信息；

将时段对应的综合状态评估结果和表情变化信息，提供给与视频流关联的终端设备，以通过终端设备展示。

本实施例的对象状态评估装置可执行本申请实施例所示的对象状态评估方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种电子设备，如图10所示，图10所示的电子设备1000包括：处理器1001和存储器1003。其中，处理器1001和存储器1003相连，如通过总线1002相连。可选地，电子设备1000还可以包括收发器1004。需要说明的是，实际应用中收发器1004不限于一个，该电子设备1000的结构并不构成对本申请实施例的限定。

其中，处理器1001应用于本申请实施例中，用于实现图9所示的人脸识别模块、表情识别模块、动作变化信息确定模块、状态评估结果确定模块的功能。收发器1004包括接收机和发射机，收发器1004应用于本申请实施例中，用于实现图9所示的获取模块的功能。

处理器1001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1002可包括一通路，在上述组件之间传送信息。总线1002可以是PCI总线或EISA总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1003用于存储执行本申请方案的应用程序代码，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码，以实现图9所示实施例提供的对象状态评估装置的动作。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例所示的对象状态评估方法。本申请实施例提供了一种计算机可读存储介质适用于上述对象状态评估方法，其实现原理相类似，此处不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象状态评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述视频流中的各张图像进行人脸表情识别，得到所述各张图像对应的表情识别结果，包括：

对所述视频流中的各张图像进行人脸检测，确定出所述视频流中的各张人脸图像；

确定所述各张人脸图像中的脸部区域图像；

通过表情识别模型对各所述脸部区域图像进行人脸表情识别，得到各所述脸部区域图像对应的表情识别结果；

所述基于各张图像对应的表情识别结果，确定目标对象的表情识别结果，包括：

将各所述脸部区域图像对应的表情识别结果中最多的表情识别结果，作为所述目标对象的表情识别结果。

3.根据权利要求1所述的方法，其特征在于，所述根据各所述差分图像确定所述目标对象的动作变化信息，包括：

对于每一所述差分图像，确定所述差分图像中前景像素的占比；

根据各所述差分图像中前景像素的占比，确定各所述相邻图像对对应的前景像素变化参考值；

根据各所述差分图像中前景像素的占比和所述前景像素变化参考值，确定所述视频流对应的前景像素波动信息；

基于所述前景像素波动信息，确定所述目标对象的动作变化信息。

4.根据权利要求3所述的方法，其特征在于，所述根据各所述差分图像中前景像素的占比，确定各所述相邻图像对对应的前景像素变化参考值，包括：

确定各所述差分图像中前景像素的占比的均值，将所述均值作为各所述相邻图像对对应的前景像素变化参考值；

所述根据各所述差分图像中前景像素的占比和所述前景像素变化参考值，确定所述视频流对应的前景像素波动信息，包括：

根据各所述差分图像中前景像素的占比和所述均值，确定各所述差分图像中前景像素的占比的标准差，将所述标准差确定为所述视频流对应的前景像素波动信息。

5.根据权利要求1所述的方法，其特征在于，所述目标对象的表情识别结果为表情类别，所述表情类别为多个候选表情类别中的一个，每个所述候选表情类别预配置有对应的表情分值；所述动作变化信息包括动作幅度值；

根据所述目标对象的表情识别结果和所述动作变化信息，确定所述目标对象的状态评估结果，包括：

确定所述目标对象的表情识别结果对应的表情分值；

根据确定的所述表情分值和所述动作幅度值，确定所述目标对象的状态评估值；

根据所述状态评估值，确定所述目标对象的状态评估结果。

6.根据权利要求5所述的方法，其特征在于，所述根据确定的所述表情分值和所述动作幅度值，确定所述目标对象的状态评估值，包括：

获取所述表情识别结果和所述动作变化信息各自对应的权重；

根据获取的权重对所述表情分值和所述动作幅度值进行加权求和，得到所述目标对象的状态评估值。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据至少两个所述视频流对应的所述目标对象的状态评估结果，确定所述至少两个所述视频流所对应的时段内所述目标对象的综合状态评估结果；

根据所述至少两个所述视频流各自对应的所述目标对象的表情识别结果，确定所述时段内所述目标对象的表情变化信息；

将所述时段对应的所述综合状态评估结果和所述表情变化信息，提供给与所述视频流关联的终端设备，以通过所述终端设备展示。

8.一种对象状态评估装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，

所述存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行权利要求1-7任一项所述的对象状态评估方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的对象状态评估方法。