CN116631050B

CN116631050B - 一种面向智能视频会议的用户行为识别方法及系统

Info

Publication number: CN116631050B
Application number: CN202310425018.5A
Authority: CN
Inventors: 刘晨; 孟夏冰
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2024-02-13
Anticipated expiration: 2043-04-20
Also published as: CN116631050A

Abstract

本发明公开一种面向智能视频会议的用户行为识别方法及系统，涉及人工智能技术领域，该方法包括构建时空双支骨干网络；构建时空双支网络；时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；对时空双支网络进行训练；获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。本发明能够提高参会人员行为识别的准确性和高效性。

Description

一种面向智能视频会议的用户行为识别方法及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种面向智能视频会议的用户行为识别方法及系统。

背景技术

近年来，随着企业管理工作的深化与发展，企业各部门之间的交流沟通和分工协作日益频繁，视频会议成为多数企业实现跨部门、跨区域沟通的首要选择。在视频会议中实现准确实时参会人员行为的识别，有助于分析和监测员工的工作状态，维护会议秩序，从而有效提升远程沟通与协作的效率和企业的管理水平，为工作决策提供强有力的数据支持。因此，基于会议视频实现用户行为的自动化识别具有重要的研究价值。

然而，会议视频数据中包含多个动目标，具有更加复杂的时序和空间信息，且存在过多的冗余内容和噪声干扰，是计算机视觉领域所面临的一项极大的挑战。

因此，亟需针对会议视频数据的复杂特性，提出一种具有较强特征提取能力的神经网络结构，从而提高参会人员行为识别的准确性和高效性。

发明内容

本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统，以提高参会人员行为识别的准确性和高效性。

为实现上述目的，本发明提供了如下方案：

一种面向智能视频会议的用户行为识别方法，包括：

构建时空双支骨干网络；所述时空双支骨干网络用于提取时序特征和空间特征；

构建时空双支网络；所述时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入，以参会人员的面部候选区为输出；所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建；所述面部分支以参会人员的面部候选区为输入，以面部特征为输出；所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入，以动作特征为输出；所述全程时序分支以会议视频数据为输入，以时序特征为输出；所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作，得到复合特征信息，并将复合特征信息输入至依次连接的两个全连接层中，得到参会人员的当前动作类别；

对时空双支网络进行训练；

获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。

可选地，所述时空双支骨干网络包括：三维卷积块、三分支特征提取结构以及逐像素加和模块；

所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取；

所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征；

所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。

可选地，所述三维卷积块包括：卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为/>的三维池化层。

可选地，所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。

可选地，所述对时空双支网络进行训练，具体包括：

录入参会人员信息，并构建参会人员数据集；参会人员信息包括：参会人员图像以及对应的标注；

利用参会人员数据集训练目标检测网络YOLOv7，确定YOLOv7人员检测模型；

构建动作检测数据集；

根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络，确定训练好的时空双支网络。

一种面向智能视频会议的用户行为识别系统，包括：

时空双支骨干网络构建单元，用于构建时空双支骨干网络；所述时空双支骨干网络用于提取时序特征和空间特征；

时空双支网络构建单元，用于构建时空双支网络；所述时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入，以参会人员的面部候选区为输出；所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建；所述面部分支以参会人员的面部候选区为输入，以面部特征为输出；所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入，以动作特征为输出；所述全程时序分支以会议视频数据为输入，以时序特征为输出；所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作，得到复合特征信息，并将复合特征信息输入至依次连接的两个全连接层中，得到参会人员的当前动作类别；

时空双支网络训练单元，用于对时空双支网络进行训练；

用户行为识别单元，用于获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。

可选地，所述时空双支网络训练单元具体包括：

参会人员数据集构建子单元，用于录入参会人员信息，并构建参会人员数据集；参会人员信息包括：参会人员图像以及对应的标注；

YOLOv7人员检测模型确定子单元，用于利用参会人员数据集训练目标检测网络YOLOv7，确定YOLOv7人员检测模型；

动作检测数据集构建子单元，用于构建动作检测数据集；

时空双支网络训练子单元，用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络，确定训练好的时空双支网络。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种面向智能视频会议的用户行为识别方法及系统，利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别；相比二维神经网络仅能基于单一的空间信息进行静态动作识别，本发明所提供的时空双支网络包含了多尺度的时序和空间上下文信息，基于该时空双支网络进行参会人员动作识别，能够在精准识别各个参会人员的同时，实时识别参会人员的当前动作状态，从而实现视频会议系统中高效、实时、准确的用户行为识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种面向智能视频会议的用户行为识别方法流程示意图；

图2为时空双支网络的结构示意图；

图3为时空双支骨干网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统，能够提高参会人员行为识别的准确性和高效性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明所提供的一种面向智能视频会议的用户行为识别方法，包括：

S101，构建时空双支骨干网络。

所述时空双支骨干网络用于提取时序特征和空间特征。所述时空双支骨干网络包括：三维卷积块、三分支特征提取结构以及逐像素加和模块；所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取；所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征；所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。

图3为时空双支骨干网络的结构示意图，如图3所示，下面以本发明输入一条待识别的会议视频数据（该会议视频包含3200帧图像，单帧图像大小为）为例，展示时空双支骨干网络的设计过程。

首先，构建三维卷积块S，三维卷积块由一个卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化（Batch Normalization，BN）层以及池化核为的三维池化层构成。接下来，将一条大小为/>的待识别的会议视频数据，依次输入三个n=3（即卷积核为/>）的三维卷积块S1、三维卷积块S2、三维卷积块S3中，经逐层卷积特征提取后，三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为/>、/>、/>。至此已完成了视频时序特征和空间特征的初步抽取。随后，为了充分获取不同时序和空间跨度下的目标特征，在时空双支骨干网络中设计了基于不同三维卷积核的三分支特征提取结构。将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中，三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为/>、/>、，通过调整三维卷积块中的填充padding和步长参数，使其对应的输出数据维度一致，此处维度均为/>。输出的三个特征序列中包含了不同时空跨度下的特征信息。最后，利用逐像素加和模块M（+）将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和，获得维度为/>的输出特征序列，该输出特征序列包含了时空双支骨干网络所提取出的所有时空特征信息。

S102，构建时空双支网络。

所述时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入，以参会人员的面部候选区为输出；所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建；所述面部分支以参会人员的面部候选区为输入，以面部特征为输出；所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入，以动作特征为输出；所述全程时序分支以会议视频数据为输入，以时序特征为输出；所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作，得到复合特征信息，并将复合特征信息输入至依次连接的两个全连接层中，得到参会人员的当前动作类别。

图2为时空双支网络的结构示意图，如图2所示，下面以本发明输入一条待识别的会议视频（该会议视频数据包含帧图像，单帧图像大小为/>）为例，展示时空双支网络的设计过程。

如图2所示，整个网络由面部分支、动作分支和全程时序分支三大特征提取分支构成，面部分支用于提取参会人员的面部特征，实现参会人员识别和定位；动作分支用于提取参会人员的动作特征，获得参会人员的自身动作信息和与外界物体的交互信息；全程时序分支用于提取会议的时序特征，获取整个输入视频数据中参会人员的连续动作变化。

（1）面部分支的设计过程为：从待识别的会议视频数据中提取当前视频片段，将该视频片段逐帧输入目标检测网络YOLOv7中，获得一组参会人员的面部候选区，并将面部候选区调整为统一尺寸/>。假设该视频片段中出现的参会人员人数为i，则YOLOv7的输出为i组面部候选区。将i组面部候选区分别输入S101所构建的时空双支骨干网络（如图3所示）中，则输出i组维度为/>的面部特征。为便于后续特征组合，将该面部特征输入1维卷积层中进行尺寸变换，获得16维的面部特征。

（2）动作分支的设计过程为：面部分支仅用于提取人脸信息以识别不同的参会人员身份，为了获得参会人员的当前动作状态，将YOLOv7所输出的i组面部候选区在空间维度上扩张为原来的2倍，从而获得维度为的动作候选区。将i组动作候选区分别输入S101所构建的时空双支骨干网络（如图3所示）中，则输出i组维度为/>的动作特征。为便于后续特征组合，将该动作特征输入1维卷积层中进行尺寸变换，获得64维的动作特征。

（3）全程时序分支的设计过程为：将待识别的整条会议视频数据直接输入S101所构建的时空双支骨干网络（如图3所示）中，则输出1组维度为/>的时序特征。该时序特征维度过高，为去除冗余信息和降低计算成本，采用平均池化操作对其进行降维处理，获得200维的时序特征。

（4）至此，已分别通过面部分支、动作分支和全程时序分支获得16维面部特征、64维动作特征和200维时序特征。通过拼接层concat对三种特征信息进行拼接操作，获得280维的复合特征信息。将复合特征信息输入连续的两层全连接层中，进行最终的动作分类。

S103，对时空双支网络进行训练。

S103具体包括：录入参会人员信息，并构建参会人员数据集；参会人员信息包括：参会人员图像以及对应的标注；利用参会人员数据集训练目标检测网络YOLOv7，确定YOLOv7人员检测模型；构建动作检测数据集；动作检测数据集包含“出现”、“离开”、“互相交谈”、“发言”等多种动作类别；根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络，确定训练好的时空双支网络。

S104，获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。

本发明提出了一种面向智能视频会议的用户行为识别方法，该方法能够准确实时地实现视频会议中的用户行为识别，有助于分析和监测员工的工作状态，维护会议秩序，从而有效提升远程沟通与协作的效率和企业的管理水平，为工作决策提供强有力的数据支持。

发明针对会议视频数据包含多个动目标等复杂特性，设计了时空双支网络。时空双支网络由三大三维卷积分支构成，面部分支用于提取人脸信息以精准识别不同的参会人员身份，动作分支包含了目标的空间上下文信息，用于获取各参会人员的当前动作状态，全程时序分支包含了充分的时间上下文信息，用于获取整个会议视频中参会人员的连续动作变化。

相比二维神经网络仅能基于单一的空间信息进行静态动作识别，本发明中的三维卷积分支结构使时空双支网络能够充分提取多尺度的时序和空间上下文信息，从而显著提升对多个目标人员的动作识别准确率，实现视频会议系统中高效实时准确的用户行为识别。

作为另一个具体的实施例，本发明还提供了一种面向智能视频会议的用户行为识别系统，包括：

时空双支网络训练单元，用于对时空双支网络进行训练；

其中，所述时空双支网络训练单元具体包括：

动作检测数据集构建子单元，用于构建动作检测数据集；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向智能视频会议的用户行为识别方法，其特征在于，包括：

所述时空双支骨干网络包括：三维卷积块、三分支特征提取结构以及逐像素加和模块；所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取；所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征；所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和；

输入一条待识别的会议视频数据；所述会议视频数据包含3200帧图像，单帧图像大小为1024*1024；

构建三维卷积块S，三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成；将一条大小为1024*1024*3200的待识别的会议视频数据，依次输入三个n＝3的三维卷积块S1、三维卷积块S2、三维卷积块S3中，经逐层卷积特征提取后，三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400；基于不同三维卷积核构建三分支特征提取结构：将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中，三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7，通过调整三维卷积块中的填充padding和步长参数，使其对应的输出数据维度一致，当前维度均为64*64*200；利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和，获得维度为64*64*200的输出特征序列；所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息；

对时空双支网络进行训练；

2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述三维卷积块包括：卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层。

3.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。

4.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述对时空双支网络进行训练，具体包括：

构建动作检测数据集；

5.一种面向智能视频会议的用户行为识别系统，其特征在于，包括：

构建三维卷积块S，三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成；将一条大小为1024*1024*3200的待识别的会议视频数据，依次输入三个n＝3的三维卷积块S1、三维卷积块S2、三维卷积块S3中，经逐层卷积特征提取后，三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400；基于不同三维卷积核构建三分支特征提取结构；将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中，三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7，通过调整三维卷积块中的填充padding和步长参数，使其对应的输出数据维度一致，当前维度均为64*64*200；输出的三个特征序列中包含了不同时空跨度下的特征信息；利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和，获得维度为64*64*200的输出特征序列；所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息；

时空双支网络训练单元，用于对时空双支网络进行训练；

6.根据权利要求5所述的一种面向智能视频会议的用户行为识别系统，其特征在于，所述时空双支网络训练单元具体包括：

动作检测数据集构建子单元，用于构建动作检测数据集；