CN112668467B

CN112668467B - 行为分析方法、装置、电子设备及存储介质

Info

Publication number: CN112668467B
Application number: CN202011573481.7A
Authority: CN
Inventors: 陈增照; 易宝林; 孟秉恒; 鲁圆圆; 戴志诚; 张婧; 王旭阳; 吴潇楠; 曹子妍
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-11-07
Anticipated expiration: 2040-12-25
Also published as: CN112668467A

Abstract

本申请提供了一种行为分析方法、装置、电子设备及存储介质，涉及数据处理技术领域，该方法包括：基于第一评价数据构建特征矩阵，基于第二评价数据以及设定行为计量表计算得到标签向量。将特征矩阵与标签向量进行拼接后得到第一矩阵，并将第一矩阵输入线性回归模型以得到拟合数据曲线，拟合数据曲线用于表征宣讲者的行为与听讲者的行为的关联性。本申请通过拟合曲线得到宣讲者的行为与听讲者行为的关联性，以分析听讲者对宣讲者行为的反馈行为，避免人工针对听讲者的行为评价宣讲者的行为时的主观性，以提高行为分析的准确性。

Description

行为分析方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种行为分析方法、装置、电子设备及存储介质。

背景技术

目前，对宣讲者的行为评价通常是通过对宣讲者的受众即听讲者进行问卷调查或者根据听讲者的反馈行为进行人为评分。以课堂上老师和学生来说，宣讲者为老师，听讲者为学生，现阶段对老师进行评价的方法是通过对学生发放问卷调查或者教育专家观察学生在听老师额课程中学生的表现来对老师进行评价，这种人为评价的方式存在主观性，导致对老师的行为的评价存在不准确的问题，也就是说现有技术对宣讲者的行为评价存在准确率低的问题。

发明内容

本申请的实施例在于提供一种行为分析方法、装置、电子设备及存储介质，以解决目前方法人工针对听讲者的行为评价宣讲者的行为存在的准确率低的问题。

本申请的实施例提供了一种行为分析描述方法，所述方法包括：

根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据；

根据包含听讲者的行为的听讲者视频对所述听讲者的行为进行识别得到第二识别结果，并对所述第二识别结果进行量化得到第二评价数据；

基于所述第一评价数据构建特征矩阵；

基于所述第二评价数据以及设定行为计量表计算得到标签向量,所述设定行为计量表为对所述听讲者的行为的评价规则；

将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，所述拟合数据曲线用于表征所述宣讲者的行为与所述听讲者的行为的关联性。

在上述实现过程中，所述第一矩阵能够将所述宣讲者的行为量化结果与所述听讲者的行为量化结果融合到一起，并将反映所述宣讲者的行为和所述听讲者的行为的所述第一矩阵作为线性回归模型的输入去模拟所述宣讲者与所述听讲者的行为关联性而得到所述拟合曲线，通过所述拟合曲线得到宣讲者的行为与听讲者行为的关联性，能够分析听讲者对宣讲者行为的反馈行为，避免人工针对听讲者的行为评价宣讲者的行为时的主观性，从而提高行为分析的准确性。

可选地，所述根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，包括：

对包含所述宣讲者视频按照表达语句进行划分得到与各个所述表达语句对应的各个宣讲者视频帧；

基于每个所述宣讲者视频帧进行肢体动作特征提取得到第一特征矩阵，基于每个所述宣讲者视频帧进行人脸特征提取得到第二特征矩阵；

基于所述第一特征矩阵进行肢体动作识别得到所述第一肢体动作识别结果，对所述第一肢体动作识别结果进行量化得到所述第一肢体动作评价数据。

在上述实现过程中，按照能够表达完整意图的表达语句将所述宣讲者的行为的视频划分为各个所述宣讲者视频帧并对所述宣讲者视频帧进行特征提取，能够将所述表达语句所表达的意图，与该表达语句在表达时进行的肢体动作以及表现的人脸特征进行关联，为从该表达语句对应的宣讲者视频帧中识别出的所述宣讲者的肢体动作以及所述宣讲者的人脸特征赋予所述意图，避免所述第一肢体动作评价数据与所述第一表情评价数据的碎片化导致的所述宣讲者的肢体动作以及所述宣讲者的人脸特征的无实际意义，能够保证从任意一个宣讲者视频帧识别的肢体动作特征和人脸特征与所要表达的意图是关联的，从而能够提高行为分析的有效性。

将所述宣讲者视频按照所述表达语句进行划分后得到与各个所述表达语句对应的各个局部音频，并获取各个所述局部音频对应的各个局部特征矩阵；

将所述各个局部音频进行拼接得到整体音频，并获取所述整体音频的整体特征矩阵；

将所述整体特征矩阵和各个所述局部特征矩阵进行拼接得到语音特征矩阵；

将所述语音特征矩阵输入LSTM模型得到第一语音评价数据；

基于所述第二特征矩阵与所述第一语音评价数据进行多模态数据融合，得到所述第一情绪评价数据。

在上述实现过程中，按照能够表达完整意图的表达语句将所述宣讲者的行为的视频中的音频划分各个局部音频，并对所述各个局部音频进行特征提取，能够将所述表达语句所表达的意图，与该表达语句在表达时的音频与所述宣讲者的情绪进行关联，避免所述第一语音评价数据与第一情绪评价数据的碎片化导致的所述宣讲者的音频以及所述宣讲者的情绪无实际意义，能够保证从任意一个宣讲者视频帧对应音频中识别的语音评价数据和情绪评价数据与所要表达的意图是关联的，从而能够提高行为分析的有效性。

可选地，所述根据包含听讲者的行为的听讲者视频对所述听讲者的行为进行识别得到第二识别结果，并对所述第二识别结果进行量化得到第二评价数据，包括：

对所述听讲者视频按照所述表达语句进行划分得到与各个所述表达语句对应的各个听讲者视频帧；

将所述各个听讲者视频帧输入人脸识别模型得到所述听讲者人脸识别结果；

基于所述听讲者人脸识别结果以及预设阈值确定所述各个听讲者视频帧的分类结果；

当所述分类结果为人脸时，对分类结果为人脸的所有所述听讲者视频帧进行人脸识别和视点定位，以根据得到的人脸识别结果和视点定位结果统计所述听讲者的抬头率以及所述听讲者的视点定位数据；

基于所述抬头率以及所述视点定位数据得到所述注意力评价数据；

从所述听讲者的成绩数据库中获取所述听讲者的成绩数据，并将所述成绩数据进行量化得到所述成绩评价数据。

在上述实现过程中，对所述各个听讲者视频帧进行分类能够筛选出所述听讲者的行为的视频中包含人脸的听讲者视频帧，并基于所述包含人脸的听讲者视频帧进行抬头率以及视点定位数据的统计，能够避免对不包含人脸的所述听讲者视频帧进行统计，去除无用的所述听讲者视频帧，提高得到所述注意力评价数据的效率。

可选地，所述将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，包括：

采用线性回归模型将所述第一矩阵进行预设交叉验证处理得到验证集以及测试集；

基于所述验证集以及所述测试集对所述线性回归模型进行训练，得到所述线性回归模型输出的所述拟合数据曲线。

在上述实现过程中，预设折交叉验证的方法能够将所述第一矩阵中的数据既作为训练集又作为测试集，能够有效避免过学习现象或者欠学习现象的产生，提高得到所述数据曲线的正确性。

可选地，所述采用线性回归模型将所述第一矩阵进行预设交叉验证处理得到验证集以及测试集，包括：

对所述第一矩阵进行数据探索性分析得到第一矩阵探索数据，并对所述第一矩阵探索数据进行数据组织处理得到处理后的第一矩阵探索数据；

采用所述线性回归模型将所述的第一矩阵探索数据进行预设交叉验证处理得到所述验证集以及所述测试集。

在上述实现过程中，对所述第一评价数据进行数据探索性分析能够得到所述第一评价数据中不同种类数据中的所述第一肢体动作评价数据、所述第一表情评价数据、所述第一语音评价数据以及所述第一情绪评价数据之间的关系，对所述第二评价数据进行数据探索性分析能够得到注意力评价数据与成绩评价数据的关系，获得上述关系能够用于描述所述宣讲者的行为与所述听讲者的行为之间的相关性，对所述第二评价数据进行数据组织能够降低所述第二评价数据的处理复杂度，提高基于所述第二评价数据的效率。

本申请的实施例提供了一种行为分析装置，所述行为分析装置包括：

第一评价模块，用于根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据；

第二评价模块，用于根据包含听讲者的行为的听讲者视频对所述听讲者的行为进行识别得到第二识别结果，并对所述第二识别结果进行量化得到第二评价数据；

构建模块，用于基于所述第一评价数据构建特征矩阵；

计算模块，用于基于所述第二评价数据以及设定行为计量表计算得到标签向量,所述设定行为计量表为对所述听讲者的行为的评价规则；

拟合模块，用于将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，所述拟合数据曲线用于表征所述宣讲者的行为与所述听讲者的行为的关联性。

可选地，所述第一识别结果包括第一肢体动作识别结果，所述第一评价数据包括第一肢体动作评价数据，所述第一评价模块用于：

可选地，所述第一评价模块用于：

将所述语音特征矩阵输入LSTM模型得到第一语音评价数据；

在上述过程中，按照能够表达完整意图的表达语句将所述宣讲者的行为的视频中的音频划分各个局部音频，并对所述各个局部音频进行特征提取，能够将所述表达语句所表达的意图，与该表达语句在表达时的音频与所述宣讲者的情绪进行关联，避免所述第一语音评价数据与第一情绪评价数据的碎片化导致的所述宣讲者的音频以及所述宣讲者的情绪无实际意义，能够保证从任意一个宣讲者视频帧对应音频中识别的语音评价数据和情绪评价数据与所要表达的意图是关联的，从而能够提高行为分析的有效性。

可选地，所述第二评价模块用于：

可选地，所述拟合模块用于：

可选地，所述拟合模块用于对所述第一矩阵进行数据探索性分析得到第一矩阵探索数据，并对所述第一矩阵探索数据进行数据组织处理得到处理后的第一矩阵探索数据；

本实施例还提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器运行所述程序指令时，执行上述任意方法中的步骤。

本实施例还提供了一种存储介质，所述存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行上述任意方法中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本申请实施例提供的一种行为分析方法的流程图。

图2为本申请的实施例提供的一种得到第一肢体动作评价数据步骤的流程图。

图3为本申请实施例提供的一种得到第一情绪评价数据步骤的流程图。

图4为本申请实施例提供的一种得到第二评价数据步骤的流程图。

图5为本申请实施例提供的一种得到拟合数据曲线步骤的流程图。

图6为本申请实施例提供的一种得到验证集以及测试集步骤的流程图。

图7为本申请实施例提供的一种行为分析装置示意图。

图例：60-行为分析装置；601-第一评价模块；602-第二评价模块；603-构建模块；604-计算模块；605-拟合模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本申请的描述中，需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。

为了提高行为分析的准确性，本申请的实施例提供了一种图像描述的方法，请参看图1，图1为本申请实施例提供的一种行为分析方法的流程图，所述行为分析方法包括以下分步骤：

步骤S1：根据包含宣讲者的行为的宣讲者视频对宣讲者的行为进行识别得到第一识别结果，并对第一识别结果进行量化得到第一评价数据。

可以理解的是，宣讲者讲话给听讲者听，这种情形适用于课堂、讲座、演讲等所有包括宣讲者以及听讲者的场景。以课堂为例，宣讲者为老师，听讲者为学生。对宣讲者的非言语行为包括宣讲者的肢体行为、声音、脸部表情等方面，其中肢体行为包括头势、手势、身势、宣讲者与听讲者之间的距离等方面。

作为一种实施方式，以课堂为例，对老师的肢体行为中的手势采用表1进行量化。将手势分为言语辅助性手势、指示性手势以及无手势，言语辅助性手势用于辅助说明老师表达意思的手势，例如表示同意的“OK”手势，竖大拇指手势等。指示性手势是用于指示学生进行动作的手势，例如“请坐下”手势等。无手势表示老师没有手势。

表1

在表1中可见，当言语辅助性手势的检测次数占总检测次数的比例值在区间[0，0.3)之间时，言语辅助性手势的量化结果为60分。当在某堂课上老师的言语辅助性手势检测次数为20次，占总检测次数50次的比例为0.4，那么言语辅助性手势的量化结果为100分，在该堂课上指示性手势的次数20次占总检测次数50次的比例为0.4，则指示性手势的量化结果为100分，无手势的检测次数10次占总检测次数50次的比例为0.2，则无手势的量化结果为60分，根据言语辅助性手势的量化结果100分、指示性手势的量化结果为100分以及无手势的量化结果60分得到手势量化结果为(100+100+60)/3分，也就是该堂课手势量化结果为86.7分。

可以理解的是，表1只给出手势量化的一种方式，并不唯一，可以根据实际情况进行手势量化计算。

作为一种实施方式，以课堂为例，对老师的肢体行为中的头势采用表2进行量化。将头势分为面向或者侧向学生头势以及背对学生头势。

表2

由表2可知，当面向/侧向学生头势的检测次数为40次，占总检测次数的比例为0.8，则面向/侧向学生头势的量化结果为100分，则背对学生头势检测次数为10次(仍以该节课总检测次数为50次举例)，则背对学生头势的量化结果为100分，综合得头势量化结果为100分。

可以理解的是，表2只给出头势量化的一种方式，并不唯一，可以根据实际情况进行头势量化计算。

作为一种实施方式，以课堂为例，对老师的肢体行为中的身势采用表3进行量化。将身势分为站姿、走姿以及坐姿。

表3

由表3可知，当在该堂课上老师的站姿检测次数为20次时，占总检测次数50次的比例为0.4，则站姿量化结果为100分，当该堂课上老师的走姿检测次数为10次时，占总检测次数50次的比例为0.2，则走姿量化结果为60分。当该堂课上老师的坐姿检测次数为20次，占总检测次数的比例为0.4，则坐姿量化结果为80分，综合站姿量化结果、走姿量化结果以及坐姿量化结果得到身势量化结果为80分。

可以理解的是，表3只给出身势量化的一种方式，并不唯一，可以根据实际情况进行身势量化计算。

作为一种实施方式，以课堂为例，对宣讲者与听讲者之间的距离也就是老师与学生的距离，老师与学生的距离包括亲密距离以及非亲密距离，采用表4进行量化。其中亲密距离表示老师离开讲台时老师与学生之间的距离，非亲密距离表示老师位于讲台上时老师与学生之间的距离。

表4

由表4可知，当老师与学生之间的距离为亲密距离的检测次数为40次，占总检测次数50次的比例为0.8，则此时老师与学生距离的量化结果为100分，当当老师与学生之间的距离为非亲密距离的检测次数为10次，占总检测次数50次的比例为0.2，则此时老师与学生距离的量化结果为100分，综合亲密距离的量化结果以及非亲密距离的量化结果得到该课堂上老师与学生距离的量化结果为100分。

可以理解的是，表4只给出老师与学生距离量化的一种方式，并不唯一，可以根据实际情况进行身势量化计算。

可以理解的是，在上述课堂中，第一评价数据包括手势量化结果为86.7分、头势量化结果为100分、身势量化结果为80分以及老师与学生距离的量化结果100分。

请参看图2，图2为本申请的实施例提供的一种得到第一肢体动作评价数据步骤的流程图。可选地，第一评价数据包括第一肢体动作评价数据，步骤S1包括以下分步骤：

步骤S11:对包含宣讲者视频按照表达语句进行划分得到与各个表达语句对应的各个宣讲者视频帧。

可以理解的是，基于宣讲者视频中宣讲者的表达语句对该宣讲者视频进行切分，得到的宣讲者视频帧均对应一个完整的表达语句，而每个完整的表达语句对应一个宣讲者的意图，此时每个宣讲者视频帧均对应一个宣讲者的意图，这种视频的切分方法能够保证每个宣讲者视频是有明显意图的，能够避免切分后的各个宣讲者视频帧的碎片化导致的各个宣讲者视频帧无效性。

作为一种实施方式，还可以设定预定时间间隔对包含宣讲者的行为的宣讲者视频进行切分，预定时间间隔的设定根据宣讲者说话语速、说话习惯等具体设置。例如预定时间间隔可以为0.04s。

步骤S12:基于每个宣讲者视频帧进行肢体动作特征提取得到第一特征矩阵，基于每个宣讲者视频帧进行人脸特征提取得到第二特征矩阵。

可以理解的是，可以对每个宣讲者视频帧进行多维度的特征提取，包括：肢体动作特征提取、表情特征提取、体距特征提取等不同维度的特征提取，对宣讲者的每个宣讲者视频帧进行肢体动作特征提取就得到第一特征矩阵，肢体动作包括头势、手势、身势、宣讲者与听讲者之间的距离等方面，头势、手势、身势、宣讲者与听讲者之间的距离等方面中的每一方面进行特征提取之后得到特征列向量，每一方面的特征列向量进行拼接得到肢体特征矩阵。

作为一种实施方式，可以采用CNN模型(例如An-Net网络模型)宣讲者的体距对宣讲者手势进行识别，可以采用目标检测模型(例如YoloV3网络模型)对宣讲者与听讲者之间的距离进行识别，可以采用CNN模型(例如HRNet网络模型)对宣讲者头势以及身势进行识别。

作为一种实施方式，可以采用基于多级CNN级联的人脸检测模型(例如FaceNet模型)对宣讲者的人脸特征进行提取得到第二特征矩阵。

步骤S13:基于第一特征矩阵进行肢体动作识别得到第一肢体动作识别结果，对第一肢体动作识别结果进行量化得到第一肢体动作评价数据。

请参看图3，图3为本申请实施例提供的一种得到第一情绪评价数据步骤的流程图。可选地，第一评价数据包括第一情绪评价数据，步骤S1包括以下分步骤：

步骤S14:将宣讲者视频按照表达语句进行划分后得到与各个表达语句对应的各个局部音频，并获取各个局部音频对应的各个局部特征矩阵。

可以理解的是，基于宣讲者视频中宣讲者的表达语句对宣讲者的语音音频进行切分，得到的每个语音音频对应一个完整的表达语句，而每个完整的表达语句对应一个宣讲者的意图，此时每个局部音频均对应一个宣讲者的意图，这种音频的切分方法能够保证每个局部音频是有明显意图的，能够避免切分后的各个局部音频的碎片化导致的各个局部音频的无效性。

作为一种实施方式，可以通过多层卷积池化操作对各个局部音频进行特征提取，每个局部音频对应一个局部音频特征矩阵。

步骤S15:将各个局部音频进行拼接得到整体音频，并获取整体音频的整体特征矩阵。

作为一种实施方式，将所有局部音频拼接为整体音频，可以将整体音频进行多层卷积池化操作得到整体特征矩阵。

步骤S16:将整体特征矩阵和各个局部特征矩阵进行拼接得到语音特征矩阵。

作为一种实施方式，将步骤S14中的局部音频特征矩阵与步骤S15中的整体特征矩阵进行拼接得到语音特征矩阵。

步骤S17:将语音特征矩阵输入LSTM模型得到第一语音评价数据。

可以理解的是，通过LSTM(Long Short-Term Memory,长短期记忆网络)模型对宣讲者的语音音频进行时序分析与构建。LSTM模型为语音特征与人脸特征的融合进行时序构建，保证宣讲者语音的时刻以及宣讲者的人脸特征的时刻是一一对应的。

步骤S18:基于第二特征矩阵与第一语音评价数据进行多模态数据融合，得到第一情绪评价数据。

可以理解的是，模态是指事物发生或存在的方式，多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式，都可以称为一种模态。这里的多模态包括语音以及人脸特征两种模态。

作为一种实施方式，可以采用将第二特征矩阵与第一语音评价数据进行拼接、按位乘、按位加等方法实现多模态数据融合。其中，按位乘的方法计算维度高，能够提高模态融合结果准确性。拼接以及按位加的方法的计算过程简单，能够提高多模态融合结果效率。

作为一种实施方式，以步骤S1中的课堂为例，采用表5对老师情绪进行量化得到第一情绪评价数据。

表5

可以理解的是，基于第二特征矩阵与第一语音评价数据进行多模态数据融合后的到情绪数据，设定情绪阈值，情绪阈值可以根据实际情况确定，根据情绪阈值将情绪分为积极情绪、中性情绪以及消极情绪。当该堂课中的积极情绪的检测次数占总检测次数的比例为0.2时，积极情绪的量化值为60分，当中性情绪的检测次数占总检测次数的比例为0.5时，中性情绪的量化值为100分，当消极情绪的检测次数占总检测次数的比例为0.3时，则消极情绪的量化值为100分，综合积极情绪的量化值、中性情绪的量化值以及消极情绪的量化值，得到第一情绪评价数据为86.7分。

可以理解的是，表5只给出老师情绪量化的一种方式，并不唯一，可以根据实际情况进行老师情绪量化计算。

步骤S2：根据包含听讲者的行为的听讲者视频对听讲者的行为进行识别得到第二识别结果，并对第二识别结果进行量化得到第二评价数据。

请参看图4，图4为本申请实施例提供的一种得到第二评价数据步骤的流程图。可选地，步骤S2包括以下分步骤：

步骤S21：对听讲者视频按照表达语句进行划分得到与各个表达语句对应的各个听讲者视频帧。

可以理解的是，基于宣讲者视频中宣讲者的表达语句对听讲者视频进行切分，由于每个语音音频对应一个完整的表达语句，而每个完整的表达语句对应一个宣讲者的意图，此时每个听讲者视频帧均对应一个宣讲者的意图，这种听讲者视频的切分方法能够保证得到每个听讲者视频帧是针对有明显意图的宣讲者的行为的听讲者的反馈，能够避免切分后的各个听讲者视频帧的碎片化导致的各个听讲者视频帧的无效性。

步骤S22：将各个听讲者视频帧输入人脸识别模型得到听讲者人脸识别结果。

作为一种实施方式，步骤S22中的人脸识别模型中，各个听讲者视频帧经第一指定数目的第一指定尺寸的卷积核后得到第一卷积结果，采用由指定尺寸最大卷积池化提取网络对第一卷积结果进行多次提取得到人脸特征，然后人脸特征经由第二指定数目的第二指定尺寸的卷积核进行下采样得到采样人脸特征，其中第一指定数目大于第二指定数目，第一指定尺寸大于第二指定尺寸。最后采样人脸特征经全连接层以及softmax层将采样人脸特征映射到0-1的范围内得到人脸识别结果。

步骤S23：基于听讲者人脸识别结果以及预设阈值确定各个听讲者视频帧的分类结果。

可以理解的是，设定预设阈值对各个听讲者的视频帧进行分类，预设阈值的设定根据实际情况进行设定。当听讲者人脸识别结果大于或等于预设阈值时，表示该听讲者视频帧中包含听讲者的脸。当听讲者人脸识别结果小于预设阈值时，表示该听讲者视频帧中不包含听讲者的脸。

步骤S24：当分类结果为人脸时，对分类结果为人脸的所有听讲者视频帧进行人脸识别和视点定位，以根据得到的人脸识别结果和视点定位结果统计听讲者的抬头率以及听讲者的视点定位数据。

可以理解的是，可以对包含有听讲者的脸部的听讲者视频帧进行眼部截取从而得到听讲者的视点定位，基于视点定位可以进一步分析听讲者的视线是否集中在宣讲者所指的指定区域中。可以采用统计的方法来统计在所有听讲者视频帧中听讲者的抬头率。

步骤S25：基于抬头率以及视点定位数据得到注意力评价数据。

作为一种实施方式，在步骤S25中，当在该课堂中学生的人数为30人、抬头的学生人数为25时，则抬头率为约为83％，设定抬头率在80％-100％之间的量化值为100，则在该课堂中学生的抬头率量化值为100。可以理解的是，抬头率与抬头率量化值的对应关系可以根据实际情况设定。

作为一种实施方式，当在该课堂中学生的人数为30人、视点定位在老师确定的指定区域中的人数为20人时，则视点定位数据为约为67％，设定视点定位数据在50％-80％之间的量化值为80，则在该课堂中学生的抬头率量化值为100。可以理解的是，视点定位数据与抬头率量化值的对应关系可以根据实际情况设定。

步骤S26：从听讲者的成绩数据库中获取听讲者的成绩数据，并将成绩数据进行量化得到成绩评价数据。

可以理解的是，步骤S26中的成绩评价数据依赖与过往听讲者的成绩数据库，可以是听讲者在不同阶段的考试成绩。

作为一种实施方式，以步骤S25中的课堂为例，将学生在不同阶段的考试成绩进行量化，例如将学生近三个月的模拟成绩进行平均得到成绩评价数据。

步骤S3：基于第一评价数据构建特征矩阵。

可以理解的是，在步骤S3中，对宣讲者肢体动作特征提取就得到第一特征矩阵，对宣讲者进行表情识别得到第二特征矩阵，对宣讲者进行语音识别得到语音特征矩阵，肢体动作包括头势、手势、身势、宣讲者与听讲者之间的距离等方面，头势、手势、身势、宣讲者与听讲者之间的距离等方面中的每一方面进行特征提取并识别量化之后得到特征列向量，每一方面的特征列向量进行拼接得到肢体特征矩阵，将肢体特征矩阵、第二特征矩阵与语音特征矩阵进行拼接就得到特征矩阵，特征矩阵的列数等于头势、手势、身势、宣讲者与听讲者之间的距离、语音、表情这些方面的总方面数目，特征矩阵的行数等于宣讲者视频帧的数目。其中特征矩阵的列向量为上述某一方面进行特征提取的列向量，特征矩阵的行向量为某一宣讲者视频帧中宣讲者的各个方面的行为表现。

步骤S4：基于第二评价数据以及设定行为计量表计算得到标签向量,设定行为计量表为对听讲者的行为的评价规则。

可以理解的是，设定行为计量表是专家根据过往听讲者的行为制定的评价规则，在该规则中确定第二评价数据中注意力评价数据以及成绩评价数据的权重。因此标签向量为听讲者的注意力、成绩的综合评价向量。

作为一种实施方式，以步骤S1以及步骤S2中的课堂为例，采用表6作为设定第二评价数据中注意力评价数据以及成绩评价数据的权重以及第二评价数据中注意力评价数据中抬头率以及视点定位数据。

表6

由表6中可知，可以根据教育专家的设定，将抬头率的权重设定为0.2，将视点定位数据的权重设定为0.3，注意力评价数据的权重和就为0.5，成绩评价数据的权重就0.5。

步骤S5：将特征矩阵与标签向量进行拼接后得到第一矩阵，并将第一矩阵输入线性回归模型以得到拟合数据曲线，拟合数据曲线用于表征宣讲者的行为与听讲者的行为的关联性。

作为一种实施方式，以python语言为例，可以调用sklearn.Linear_model.Logistic Regression API来对第一矩阵进行拟合得到拟合数据曲线。拟合数据曲线。

请参看图5，图5为本申请实施例提供的一种得到拟合数据曲线步骤的流程图。可选地，步骤S5包括以下分步骤：

步骤S51：采用线性回归模型将第一矩阵进行预设交叉验证处理得到验证集以及测试集。

可以理解的是，预设折交叉验证的方法能够将所述第一矩阵中的数据既作为训练集又作为测试集，能够有效避免过学习现象或者欠学习现象的产生，提高得到数据曲线的正确性。预设折交叉验证可以是K折交叉验证，K的大小可以根据实际情况进行选择。

步骤S52：基于验证集以及测试集对线性回归模型进行训练，得到线性回归模型输出的拟合数据曲线。

可以理解的是，在经过线性回归模型后，以步骤S1中的课堂为例，老师的每个非语言行为包括手势、身势、头势、宣讲人与听讲人之间的距离这四种不同的类型，则会得到四个不同的拟合曲线，以老师的手势为例，得到的手势拟合曲线表现为老师手势量化值和学生的第二评价数据之间的关系，该手势拟合曲线的走势表示了老师手势和学生的课堂表现之间的关系的相关程度。当该手势拟合曲线的横轴为老师手势量化值，纵轴为第二评价数据，则该手势拟合曲线的走势越高，表示老师的手势和学生的课堂表现相关性越大。

请参看图6，图6为本申请实施例提供的一种得到验证集以及测试集步骤的流程图步骤的流程图。可选地，步骤S51包括以下分步骤：

步骤S511：对第一矩阵进行数据探索性分析得到第一矩阵探索数据，并对第一矩阵探索数据进行数据组织处理得到处理后的第一矩阵探索数据。

可以理解的是，对第一评价数据进行数据探索性分析能够得到第一评价数据中不同种类数据中的第一肢体动作评价数据、第一表情评价数据、第一语音评价数据以及第一情绪评价数据之间的关系，对第二评价数据进行数据探索性分析能够得到注意力评价数据与成绩评价数据的关系，获得上述关系能够用于探索宣讲者的行为与听讲者的行为之间的相关性，对第二评价数据进行数据组织能够降低第二评价数据的处理复杂度，提高基于第二评价数据的效率。

步骤S512：采用线性回归模型将的第一矩阵探索数据进行预设交叉验证处理得到验证集以及测试集。

作为一种实施方式，可以采用扇形图、柱状图、曲线图等不同的数据分析形式呈现第一评价数据、第二评价数据、拟合数据曲线等数据。

请参看图7，图7为本申请实施例提供的一种行为分析装置示意图。行为分析装置60包括：

第一评价模块601，用于根据包含宣讲者的行为的宣讲者视频对宣讲者的行为进行识别得到第一识别结果，并对第一识别结果进行量化得到第一评价数据。

第二评价模块602，用于根据包含听讲者的行为的听讲者视频对听讲者的行为进行识别得到第二识别结果，并对第二识别结果进行量化得到第二评价数据。

构建模块603，用于基于第一评价数据构建特征矩阵。

计算模块604，用于基于第二评价数据以及设定行为计量表计算得到标签向量,设定行为计量表为对听讲者的行为的评价规则。

拟合模块605，用于将特征矩阵与标签向量进行拼接后得到第一矩阵，并将第一矩阵输入线性回归模型以得到拟合数据曲线，拟合数据曲线用于表征宣讲者的行为与听讲者的行为的关联性。

可选地，第一识别结果包括第一肢体动作识别结果，第一评价数据包括第一肢体动作评价数据，第一评价模块601用于：

对包含宣讲者视频按照表达语句进行划分得到与各个表达语句对应的各个宣讲者视频帧。

基于每个宣讲者视频帧进行肢体动作特征提取得到第一特征矩阵，基于每个宣讲者视频帧进行人脸特征提取得到第二特征矩阵。

基于第一特征矩阵进行肢体动作识别得到第一肢体动作识别结果，对第一肢体动作识别结果进行量化得到第一肢体动作评价数据。

可选地，第一评价模块601用于：

将宣讲者视频按照表达语句进行划分后得到与各个表达语句对应的各个局部音频，并获取各个局部音频对应的各个局部特征矩阵。

将各个局部音频进行拼接得到整体音频，并获取整体音频的整体特征矩阵。

将整体特征矩阵和各个局部特征矩阵进行拼接得到语音特征矩阵。

将语音特征矩阵输入LSTM模型得到第一语音评价数据。

基于第二特征矩阵与第一语音评价数据进行多模态数据融合，得到第一情绪评价数据。

可选地，第二评价模块602用于：

对听讲者视频按照表达语句进行划分得到与各个表达语句对应的各个听讲者视频帧。

将各个听讲者视频帧输入人脸识别模型得到听讲者人脸识别结果。

基于听讲者人脸识别结果以及预设阈值确定各个听讲者视频帧的分类结果。

当分类结果为人脸时，对分类结果为人脸的所有听讲者视频帧进行人脸识别和视点定位，以根据得到的人脸识别结果和视点定位结果统计听讲者的抬头率以及听讲者的视点定位数据。

基于抬头率以及视点定位数据得到注意力评价数据。

从听讲者的成绩数据库中获取听讲者的成绩数据，并将成绩数据进行量化得到成绩评价数据。

可选地，拟合模块605用于：

采用线性回归模型将第一矩阵进行预设交叉验证处理得到验证集以及测试集。

基于验证集以及测试集对线性回归模型进行训练，得到线性回归模型输出的拟合数据曲线。

可选地，拟合模块605用于：

数据清洗模块，用于对第一矩阵进行数据探索性分析得到第一矩阵探索数据，并对第一矩阵探索数据进行数据组织处理得到处理后的第一矩阵探索数据。

采用线性回归模型将的第一矩阵探索数据进行预设交叉验证处理得到所述验证集以及所述测试集。

综上所述，本申请的实施例提供了一种行为分析方法、装置、电子设备及存储介质，数据处理技术领域，行为分析方法包括：根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据；根据包含听讲者的行为的听讲者视频对所述听讲者的行为进行识别得到第二识别结果，并对所述第二识别结果进行量化得到第二评价数据；基于所述第一评价数据构建特征矩阵；基于所述第二评价数据以及设定行为计量表计算得到标签向量,所述设定行为计量表为对所述听讲者的行为的评价规则；将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，所述拟合数据曲线用于表征所述宣讲者的行为与所述听讲者的行为的关联性。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图中的每个方框、以及框图的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种行为分析方法，其特征在于，所述方法包括：

基于所述第一评价数据构建特征矩阵；

将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，所述拟合数据曲线用于表征所述宣讲者的行为与所述听讲者的行为的关联性；

其中，所述第一识别结果包括第一肢体动作识别结果，所述第一评价数据包括第一肢体动作评价数据，所述根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据，包括：对包含所述宣讲者视频按照表达语句进行划分得到与各个所述表达语句对应的各个宣讲者视频帧；基于每个所述宣讲者视频帧进行肢体动作特征提取得到第一特征矩阵，基于每个所述宣讲者视频帧进行人脸特征提取得到第二特征矩阵；基于所述第一特征矩阵进行肢体动作识别得到所述第一肢体动作识别结果，对所述第一肢体动作识别结果进行量化得到所述第一肢体动作评价数据；

所述第一评价数据还包括所述宣讲者的第一情绪评价数据，所述根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据，还包括：将所述宣讲者视频按照所述表达语句进行划分后得到与各个所述表达语句对应的各个局部音频，并获取各个所述局部音频对应的各个局部特征矩阵；将所述各个局部音频进行拼接得到整体音频，并获取所述整体音频的整体特征矩阵；将所述整体特征矩阵和各个所述局部特征矩阵进行拼接得到语音特征矩阵；将所述语音特征矩阵输入LSTM模型得到第一语音评价数据；基于所述第二特征矩阵与所述第一语音评价数据进行多模态数据融合，得到所述第一情绪评价数据。

2.根据权利要求1所述的方法，所述第二评价数据包括注意力评价数据和成绩评价数据，其特征在于，所述根据包含听讲者的行为的听讲者视频对所述听讲者的行为进行识别得到第二识别结果，对所述第二识别结果进行量化得到第二评价数据，包括：

将所述各个听讲者视频帧输入人脸识别模型得到听讲者人脸识别结果；

3.根据权利要求1所述的方法，其特征在于，将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用线性回归模型将所述第一矩阵进行预设交叉验证处理得到验证集以及测试集，包括：

5.一种行为分析装置，其特征在于，所述装置包括：

第一评价模块，根据包含宣讲者的行为的宣讲者视频对所述宣讲者的行为进行识别得到第一识别结果，并对所述第一识别结果进行量化得到第一评价数据；

构建模块，用于基于所述第一评价数据构建特征矩阵；

拟合模块，用于将所述特征矩阵与所述标签向量进行拼接后得到第一矩阵，并将所述第一矩阵输入线性回归模型以得到拟合数据曲线，所述拟合数据曲线用于表征所述宣讲者的行为与所述听讲者的行为的关联性；

其中，所述第一识别结果包括第一肢体动作识别结果，所述第一评价数据包括第一肢体动作评价数据，所述第一评价模块用于：对包含所述宣讲者视频按照表达语句进行划分得到与各个所述表达语句对应的各个宣讲者视频帧；基于每个所述宣讲者视频帧进行肢体动作特征提取得到第一特征矩阵，基于每个所述宣讲者视频帧进行人脸特征提取得到第二特征矩阵；基于所述第一特征矩阵进行肢体动作识别得到所述第一肢体动作识别结果，对所述第一肢体动作识别结果进行量化得到所述第一肢体动作评价数据；

所述第一评价数据还包括所述宣讲者的第一情绪评价数据，所述第一评价模块还用于：将所述宣讲者视频按照所述表达语句进行划分后得到与各个所述表达语句对应的各个局部音频，并获取各个所述局部音频对应的各个局部特征矩阵；将所述各个局部音频进行拼接得到整体音频，并获取所述整体音频的整体特征矩阵；将所述整体特征矩阵和各个所述局部特征矩阵进行拼接得到语音特征矩阵；将所述语音特征矩阵输入LSTM模型得到第一语音评价数据；基于所述第二特征矩阵与所述第一语音评价数据进行多模态数据融合，得到所述第一情绪评价数据。

6.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有程序指令，所述处理器运行所述程序指令时，执行权利要求1-4中任一项所述方法中的步骤。

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行权利要求1-4中任一项所述方法中的步骤。