CN116631050B - 一种面向智能视频会议的用户行为识别方法及系统 - Google Patents
一种面向智能视频会议的用户行为识别方法及系统 Download PDFInfo
- Publication number
- CN116631050B CN116631050B CN202310425018.5A CN202310425018A CN116631050B CN 116631050 B CN116631050 B CN 116631050B CN 202310425018 A CN202310425018 A CN 202310425018A CN 116631050 B CN116631050 B CN 116631050B
- Authority
- CN
- China
- Prior art keywords
- space
- branch
- time
- network
- dimensional convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 87
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 230000001815 facial effect Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 27
- 210000000988 bone and bone Anatomy 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 21
- 239000002131 composite material Substances 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 19
- 238000012938 design process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种面向智能视频会议的用户行为识别方法及系统,涉及人工智能技术领域,该方法包括构建时空双支骨干网络;构建时空双支网络;时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;对时空双支网络进行训练;获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。本发明能够提高参会人员行为识别的准确性和高效性。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种面向智能视频会议的用户行为识别方法及系统。
背景技术
近年来,随着企业管理工作的深化与发展,企业各部门之间的交流沟通和分工协作日益频繁,视频会议成为多数企业实现跨部门、跨区域沟通的首要选择。在视频会议中实现准确实时参会人员行为的识别,有助于分析和监测员工的工作状态,维护会议秩序,从而有效提升远程沟通与协作的效率和企业的管理水平,为工作决策提供强有力的数据支持。因此,基于会议视频实现用户行为的自动化识别具有重要的研究价值。
然而,会议视频数据中包含多个动目标,具有更加复杂的时序和空间信息,且存在过多的冗余内容和噪声干扰,是计算机视觉领域所面临的一项极大的挑战。
因此,亟需针对会议视频数据的复杂特性,提出一种具有较强特征提取能力的神经网络结构,从而提高参会人员行为识别的准确性和高效性。
发明内容
本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统,以提高参会人员行为识别的准确性和高效性。
为实现上述目的,本发明提供了如下方案:
一种面向智能视频会议的用户行为识别方法,包括:
构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
对时空双支网络进行训练;
获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
可选地,所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;
所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;
所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;
所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
可选地,所述三维卷积块包括:卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为/>的三维池化层。
可选地,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
可选地,所述对时空双支网络进行训练,具体包括:
录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
构建动作检测数据集;
根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
一种面向智能视频会议的用户行为识别系统,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
可选地,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种面向智能视频会议的用户行为识别方法及系统,利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别;相比二维神经网络仅能基于单一的空间信息进行静态动作识别,本发明所提供的时空双支网络包含了多尺度的时序和空间上下文信息,基于该时空双支网络进行参会人员动作识别,能够在精准识别各个参会人员的同时,实时识别参会人员的当前动作状态,从而实现视频会议系统中高效、实时、准确的用户行为识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种面向智能视频会议的用户行为识别方法流程示意图;
图2为时空双支网络的结构示意图;
图3为时空双支骨干网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统,能够提高参会人员行为识别的准确性和高效性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明所提供的一种面向智能视频会议的用户行为识别方法,包括:
S101,构建时空双支骨干网络。
所述时空双支骨干网络用于提取时序特征和空间特征。所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
图3为时空双支骨干网络的结构示意图,如图3所示,下面以本发明输入一条待识别的会议视频数据(该会议视频包含3200帧图像,单帧图像大小为)为例,展示时空双支骨干网络的设计过程。
首先,构建三维卷积块S,三维卷积块由一个卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化(Batch Normalization,BN)层以及池化核为的三维池化层构成。接下来,将一条大小为/>的待识别的会议视频数据,依次输入三个n=3(即卷积核为/>)的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为/>、/>、/>。至此已完成了视频时序特征和空间特征的初步抽取。随后,为了充分获取不同时序和空间跨度下的目标特征,在时空双支骨干网络中设计了基于不同三维卷积核的三分支特征提取结构。将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为/>、/>、,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,此处维度均为/>。输出的三个特征序列中包含了不同时空跨度下的特征信息。最后,利用逐像素加和模块M(+)将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为/>的输出特征序列,该输出特征序列包含了时空双支骨干网络所提取出的所有时空特征信息。
S102,构建时空双支网络。
所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别。
图2为时空双支网络的结构示意图,如图2所示,下面以本发明输入一条待识别的会议视频(该会议视频数据包含帧图像,单帧图像大小为/>)为例,展示时空双支网络的设计过程。
如图2所示,整个网络由面部分支、动作分支和全程时序分支三大特征提取分支构成,面部分支用于提取参会人员的面部特征,实现参会人员识别和定位;动作分支用于提取参会人员的动作特征,获得参会人员的自身动作信息和与外界物体的交互信息;全程时序分支用于提取会议的时序特征,获取整个输入视频数据中参会人员的连续动作变化。
(1)面部分支的设计过程为:从待识别的会议视频数据中提取当前视频片段,将该视频片段逐帧输入目标检测网络YOLOv7中,获得一组参会人员的面部候选区,并将面部候选区调整为统一尺寸/>。假设该视频片段中出现的参会人员人数为i,则YOLOv7的输出为i组面部候选区。将i组面部候选区分别输入S101所构建的时空双支骨干网络(如图3所示)中,则输出i组维度为/>的面部特征。为便于后续特征组合,将该面部特征输入1维卷积层中进行尺寸变换,获得16维的面部特征。
(2)动作分支的设计过程为:面部分支仅用于提取人脸信息以识别不同的参会人员身份,为了获得参会人员的当前动作状态,将YOLOv7所输出的i组面部候选区在空间维度上扩张为原来的2倍,从而获得维度为的动作候选区。将i组动作候选区分别输入S101所构建的时空双支骨干网络(如图3所示)中,则输出i组维度为/>的动作特征。为便于后续特征组合,将该动作特征输入1维卷积层中进行尺寸变换,获得64维的动作特征。
(3)全程时序分支的设计过程为:将待识别的整条会议视频数据直接输入S101所构建的时空双支骨干网络(如图3所示)中,则输出1组维度为/>的时序特征。该时序特征维度过高,为去除冗余信息和降低计算成本,采用平均池化操作对其进行降维处理,获得200维的时序特征。
(4)至此,已分别通过面部分支、动作分支和全程时序分支获得16维面部特征、64维动作特征和200维时序特征。通过拼接层concat对三种特征信息进行拼接操作,获得280维的复合特征信息。将复合特征信息输入连续的两层全连接层中,进行最终的动作分类。
S103,对时空双支网络进行训练。
S103具体包括:录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;构建动作检测数据集;动作检测数据集包含“出现”、“离开”、“互相交谈”、“发言”等多种动作类别;根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
S104,获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
本发明提出了一种面向智能视频会议的用户行为识别方法,该方法能够准确实时地实现视频会议中的用户行为识别,有助于分析和监测员工的工作状态,维护会议秩序,从而有效提升远程沟通与协作的效率和企业的管理水平,为工作决策提供强有力的数据支持。
发明针对会议视频数据包含多个动目标等复杂特性,设计了时空双支网络。时空双支网络由三大三维卷积分支构成,面部分支用于提取人脸信息以精准识别不同的参会人员身份,动作分支包含了目标的空间上下文信息,用于获取各参会人员的当前动作状态,全程时序分支包含了充分的时间上下文信息,用于获取整个会议视频中参会人员的连续动作变化。
相比二维神经网络仅能基于单一的空间信息进行静态动作识别,本发明中的三维卷积分支结构使时空双支网络能够充分提取多尺度的时序和空间上下文信息,从而显著提升对多个目标人员的动作识别准确率,实现视频会议系统中高效实时准确的用户行为识别。
作为另一个具体的实施例,本发明还提供了一种面向智能视频会议的用户行为识别系统,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
其中,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种面向智能视频会议的用户行为识别方法,其特征在于,包括:
构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和;
输入一条待识别的会议视频数据;所述会议视频数据包含3200帧图像,单帧图像大小为1024*1024;
构建三维卷积块S,三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成;将一条大小为1024*1024*3200的待识别的会议视频数据,依次输入三个n=3的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400;基于不同三维卷积核构建三分支特征提取结构:将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,当前维度均为64*64*200;利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为64*64*200的输出特征序列;所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息;
构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
对时空双支网络进行训练;
获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三维卷积块包括:卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层。
3.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
4.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述对时空双支网络进行训练,具体包括:
录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
构建动作检测数据集;
根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
5.一种面向智能视频会议的用户行为识别系统,其特征在于,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和;
输入一条待识别的会议视频数据;所述会议视频数据包含3200帧图像,单帧图像大小为1024*1024;
构建三维卷积块S,三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成;将一条大小为1024*1024*3200的待识别的会议视频数据,依次输入三个n=3的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400;基于不同三维卷积核构建三分支特征提取结构;将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,当前维度均为64*64*200;输出的三个特征序列中包含了不同时空跨度下的特征信息;利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为64*64*200的输出特征序列;所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
6.根据权利要求5所述的一种面向智能视频会议的用户行为识别系统,其特征在于,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310425018.5A CN116631050B (zh) | 2023-04-20 | 2023-04-20 | 一种面向智能视频会议的用户行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310425018.5A CN116631050B (zh) | 2023-04-20 | 2023-04-20 | 一种面向智能视频会议的用户行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631050A CN116631050A (zh) | 2023-08-22 |
CN116631050B true CN116631050B (zh) | 2024-02-13 |
Family
ID=87640728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310425018.5A Active CN116631050B (zh) | 2023-04-20 | 2023-04-20 | 一种面向智能视频会议的用户行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631050B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109947986A (zh) * | 2019-03-18 | 2019-06-28 | 东华大学 | 基于结构化分段卷积神经网络的红外视频时序定位方法 |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111444389A (zh) * | 2020-03-27 | 2020-07-24 | 焦点科技股份有限公司 | 一种基于目标检测的会议视频分析方法及系统 |
CN111814574A (zh) * | 2020-06-12 | 2020-10-23 | 浙江大学 | 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质 |
CN111881794A (zh) * | 2020-07-20 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频行为识别方法及系统 |
CN112580523A (zh) * | 2020-12-22 | 2021-03-30 | 平安国际智慧城市科技股份有限公司 | 行为识别方法、装置、设备及存储介质 |
CN112668475A (zh) * | 2020-12-28 | 2021-04-16 | 苏州科达科技股份有限公司 | 一种人员身份识别方法、装置、设备及可读存储介质 |
CN113239822A (zh) * | 2020-12-28 | 2021-08-10 | 武汉纺织大学 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
CN113255616A (zh) * | 2021-07-07 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于深度学习的视频行为识别方法 |
CN113343760A (zh) * | 2021-04-29 | 2021-09-03 | 暖屋信息科技(苏州)有限公司 | 一种基于多尺度特征神经网络的人体行为识别方法 |
WO2022022368A1 (zh) * | 2020-07-28 | 2022-02-03 | 宁波环视信息科技有限公司 | 基于深度学习的监所行为规范检测装置及方法 |
CN114627397A (zh) * | 2020-12-10 | 2022-06-14 | 顺丰科技有限公司 | 行为识别模型构建方法以及行为识别方法 |
CN114648722A (zh) * | 2022-04-07 | 2022-06-21 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115546885A (zh) * | 2021-06-10 | 2022-12-30 | 天津大学 | 一种基于增强时空特征的动作识别方法及系统 |
CN115761881A (zh) * | 2022-11-08 | 2023-03-07 | 南京工业大学 | 一种基于改进yolov5-SFF的检测方法及系统 |
CN115984968A (zh) * | 2023-01-10 | 2023-04-18 | 中南大学 | 一种学生时空动作识别方法、装置、终端设备及介质 |
-
2023
- 2023-04-20 CN CN202310425018.5A patent/CN116631050B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109947986A (zh) * | 2019-03-18 | 2019-06-28 | 东华大学 | 基于结构化分段卷积神经网络的红外视频时序定位方法 |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111444389A (zh) * | 2020-03-27 | 2020-07-24 | 焦点科技股份有限公司 | 一种基于目标检测的会议视频分析方法及系统 |
WO2021248733A1 (zh) * | 2020-06-12 | 2021-12-16 | 浙江大学 | 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质 |
CN111814574A (zh) * | 2020-06-12 | 2020-10-23 | 浙江大学 | 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质 |
CN111881794A (zh) * | 2020-07-20 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频行为识别方法及系统 |
WO2022022368A1 (zh) * | 2020-07-28 | 2022-02-03 | 宁波环视信息科技有限公司 | 基于深度学习的监所行为规范检测装置及方法 |
CN114627397A (zh) * | 2020-12-10 | 2022-06-14 | 顺丰科技有限公司 | 行为识别模型构建方法以及行为识别方法 |
CN112580523A (zh) * | 2020-12-22 | 2021-03-30 | 平安国际智慧城市科技股份有限公司 | 行为识别方法、装置、设备及存储介质 |
CN113239822A (zh) * | 2020-12-28 | 2021-08-10 | 武汉纺织大学 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
CN112668475A (zh) * | 2020-12-28 | 2021-04-16 | 苏州科达科技股份有限公司 | 一种人员身份识别方法、装置、设备及可读存储介质 |
CN113343760A (zh) * | 2021-04-29 | 2021-09-03 | 暖屋信息科技(苏州)有限公司 | 一种基于多尺度特征神经网络的人体行为识别方法 |
CN115546885A (zh) * | 2021-06-10 | 2022-12-30 | 天津大学 | 一种基于增强时空特征的动作识别方法及系统 |
CN113255616A (zh) * | 2021-07-07 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于深度学习的视频行为识别方法 |
CN114648722A (zh) * | 2022-04-07 | 2022-06-21 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115761881A (zh) * | 2022-11-08 | 2023-03-07 | 南京工业大学 | 一种基于改进yolov5-SFF的检测方法及系统 |
CN115984968A (zh) * | 2023-01-10 | 2023-04-18 | 中南大学 | 一种学生时空动作识别方法、装置、终端设备及介质 |
Non-Patent Citations (3)
Title |
---|
基于时序分析的人体活动状态识别与定位;丁洪金;宫法明;;计算机技术与发展(第04期);全文 * |
基于时空双分支网络的人体动作识别研究;宫法明;马玉辉;;计算机技术与发展(第09期);全文 * |
多尺度输入3D卷积融合双流模型的行为识别方法;宋立飞;翁理国;汪凌峰;夏旻;;计算机辅助设计与图形学学报(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116631050A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220180132A1 (en) | Cross-modality person re-identification method based on local information learning | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN111127308A (zh) | 用于局部遮挡下单样本人脸识别的镜像特征重排修复方法 | |
CN110084156A (zh) | 一种步态特征提取方法及基于步态特征的行人身份识别方法 | |
CN104915643A (zh) | 一种基于深度学习的行人再标识方法 | |
CN108960126A (zh) | 手语翻译的方法、装置、设备及系统 | |
CN110232361B (zh) | 基于三维残差稠密网络的人体行为意图识别方法与系统 | |
CN109214263A (zh) | 一种基于特征复用的人脸识别方法 | |
CN111914742A (zh) | 基于多模态生物特征的考勤方法、系统、终端设备及介质 | |
CN103020590B (zh) | 一种基于三维模型与图像匹配的车辆识别系统及其方法 | |
CN111695457A (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN111353399A (zh) | 篡改视频检测方法 | |
CN112084913B (zh) | 一种端到端的人体检测与属性识别方法 | |
CN113705510A (zh) | 目标识别跟踪的方法、装置、设备及存储介质 | |
CN117392753A (zh) | 融合非均匀采样与特征强化的人体不文明行为检测方法 | |
CN117275074A (zh) | 基于宽广注意力和多尺度融合机制的人脸表情识别方法 | |
CN116246338A (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN116631050B (zh) | 一种面向智能视频会议的用户行为识别方法及系统 | |
CN112508121A (zh) | 一种工业机器人感知外界的方法和系统 | |
CN116453024B (zh) | 视频情绪识别系统、方法 | |
CN114582002B (zh) | 一种结合注意力模块与二阶池化机制的人脸表情识别方法 | |
CN115862128A (zh) | 一种基于人体骨架的顾客异常行为识别方法 | |
CN112906679B (zh) | 基于人形语义分割的行人重识别方法、系统及相关设备 | |
CN114241556A (zh) | 一种无感知人脸识别考勤方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A user behavior recognition method and system for intelligent video conferencing Granted publication date: 20240213 Pledgee: Haidian Beijing science and technology enterprise financing Company limited by guarantee Pledgor: BEIJING TELECOMMUNICATION YITONG INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2024110000320 |