CN116631050B - 一种面向智能视频会议的用户行为识别方法及系统 - Google Patents

一种面向智能视频会议的用户行为识别方法及系统 Download PDF

Info

Publication number
CN116631050B
CN116631050B CN202310425018.5A CN202310425018A CN116631050B CN 116631050 B CN116631050 B CN 116631050B CN 202310425018 A CN202310425018 A CN 202310425018A CN 116631050 B CN116631050 B CN 116631050B
Authority
CN
China
Prior art keywords
space
branch
time
network
dimensional convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310425018.5A
Other languages
English (en)
Other versions
CN116631050A (zh
Inventor
刘晨
孟夏冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202310425018.5A priority Critical patent/CN116631050B/zh
Publication of CN116631050A publication Critical patent/CN116631050A/zh
Application granted granted Critical
Publication of CN116631050B publication Critical patent/CN116631050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向智能视频会议的用户行为识别方法及系统,涉及人工智能技术领域,该方法包括构建时空双支骨干网络;构建时空双支网络;时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;对时空双支网络进行训练;获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。本发明能够提高参会人员行为识别的准确性和高效性。

Description

一种面向智能视频会议的用户行为识别方法及系统
技术领域
本发明涉及人工智能技术领域,特别是涉及一种面向智能视频会议的用户行为识别方法及系统。
背景技术
近年来,随着企业管理工作的深化与发展,企业各部门之间的交流沟通和分工协作日益频繁,视频会议成为多数企业实现跨部门、跨区域沟通的首要选择。在视频会议中实现准确实时参会人员行为的识别,有助于分析和监测员工的工作状态,维护会议秩序,从而有效提升远程沟通与协作的效率和企业的管理水平,为工作决策提供强有力的数据支持。因此,基于会议视频实现用户行为的自动化识别具有重要的研究价值。
然而,会议视频数据中包含多个动目标,具有更加复杂的时序和空间信息,且存在过多的冗余内容和噪声干扰,是计算机视觉领域所面临的一项极大的挑战。
因此,亟需针对会议视频数据的复杂特性,提出一种具有较强特征提取能力的神经网络结构,从而提高参会人员行为识别的准确性和高效性。
发明内容
本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统,以提高参会人员行为识别的准确性和高效性。
为实现上述目的,本发明提供了如下方案:
一种面向智能视频会议的用户行为识别方法,包括:
构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
对时空双支网络进行训练;
获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
可选地,所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;
所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;
所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;
所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
可选地,所述三维卷积块包括:卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为/>的三维池化层。
可选地,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
可选地,所述对时空双支网络进行训练,具体包括:
录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
构建动作检测数据集;
根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
一种面向智能视频会议的用户行为识别系统,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
可选地,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种面向智能视频会议的用户行为识别方法及系统,利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别;相比二维神经网络仅能基于单一的空间信息进行静态动作识别,本发明所提供的时空双支网络包含了多尺度的时序和空间上下文信息,基于该时空双支网络进行参会人员动作识别,能够在精准识别各个参会人员的同时,实时识别参会人员的当前动作状态,从而实现视频会议系统中高效、实时、准确的用户行为识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种面向智能视频会议的用户行为识别方法流程示意图;
图2为时空双支网络的结构示意图;
图3为时空双支骨干网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向智能视频会议的用户行为识别方法及系统,能够提高参会人员行为识别的准确性和高效性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明所提供的一种面向智能视频会议的用户行为识别方法,包括:
S101,构建时空双支骨干网络。
所述时空双支骨干网络用于提取时序特征和空间特征。所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
图3为时空双支骨干网络的结构示意图,如图3所示,下面以本发明输入一条待识别的会议视频数据(该会议视频包含3200帧图像,单帧图像大小为)为例,展示时空双支骨干网络的设计过程。
首先,构建三维卷积块S,三维卷积块由一个卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化(Batch Normalization,BN)层以及池化核为的三维池化层构成。接下来,将一条大小为/>的待识别的会议视频数据,依次输入三个n=3(即卷积核为/>)的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为/>、/>、/>。至此已完成了视频时序特征和空间特征的初步抽取。随后,为了充分获取不同时序和空间跨度下的目标特征,在时空双支骨干网络中设计了基于不同三维卷积核的三分支特征提取结构。将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为/>、/>,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,此处维度均为/>。输出的三个特征序列中包含了不同时空跨度下的特征信息。最后,利用逐像素加和模块M(+)将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为/>的输出特征序列,该输出特征序列包含了时空双支骨干网络所提取出的所有时空特征信息。
S102,构建时空双支网络。
所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别。
图2为时空双支网络的结构示意图,如图2所示,下面以本发明输入一条待识别的会议视频(该会议视频数据包含帧图像,单帧图像大小为/>)为例,展示时空双支网络的设计过程。
如图2所示,整个网络由面部分支、动作分支和全程时序分支三大特征提取分支构成,面部分支用于提取参会人员的面部特征,实现参会人员识别和定位;动作分支用于提取参会人员的动作特征,获得参会人员的自身动作信息和与外界物体的交互信息;全程时序分支用于提取会议的时序特征,获取整个输入视频数据中参会人员的连续动作变化。
(1)面部分支的设计过程为:从待识别的会议视频数据中提取当前视频片段,将该视频片段逐帧输入目标检测网络YOLOv7中,获得一组参会人员的面部候选区,并将面部候选区调整为统一尺寸/>。假设该视频片段中出现的参会人员人数为i,则YOLOv7的输出为i组面部候选区。将i组面部候选区分别输入S101所构建的时空双支骨干网络(如图3所示)中,则输出i组维度为/>的面部特征。为便于后续特征组合,将该面部特征输入1维卷积层中进行尺寸变换,获得16维的面部特征。
(2)动作分支的设计过程为:面部分支仅用于提取人脸信息以识别不同的参会人员身份,为了获得参会人员的当前动作状态,将YOLOv7所输出的i组面部候选区在空间维度上扩张为原来的2倍,从而获得维度为的动作候选区。将i组动作候选区分别输入S101所构建的时空双支骨干网络(如图3所示)中,则输出i组维度为/>的动作特征。为便于后续特征组合,将该动作特征输入1维卷积层中进行尺寸变换,获得64维的动作特征。
(3)全程时序分支的设计过程为:将待识别的整条会议视频数据直接输入S101所构建的时空双支骨干网络(如图3所示)中,则输出1组维度为/>的时序特征。该时序特征维度过高,为去除冗余信息和降低计算成本,采用平均池化操作对其进行降维处理,获得200维的时序特征。
(4)至此,已分别通过面部分支、动作分支和全程时序分支获得16维面部特征、64维动作特征和200维时序特征。通过拼接层concat对三种特征信息进行拼接操作,获得280维的复合特征信息。将复合特征信息输入连续的两层全连接层中,进行最终的动作分类。
S103,对时空双支网络进行训练。
S103具体包括:录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;构建动作检测数据集;动作检测数据集包含“出现”、“离开”、“互相交谈”、“发言”等多种动作类别;根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
S104,获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
本发明提出了一种面向智能视频会议的用户行为识别方法,该方法能够准确实时地实现视频会议中的用户行为识别,有助于分析和监测员工的工作状态,维护会议秩序,从而有效提升远程沟通与协作的效率和企业的管理水平,为工作决策提供强有力的数据支持。
发明针对会议视频数据包含多个动目标等复杂特性,设计了时空双支网络。时空双支网络由三大三维卷积分支构成,面部分支用于提取人脸信息以精准识别不同的参会人员身份,动作分支包含了目标的空间上下文信息,用于获取各参会人员的当前动作状态,全程时序分支包含了充分的时间上下文信息,用于获取整个会议视频中参会人员的连续动作变化。
相比二维神经网络仅能基于单一的空间信息进行静态动作识别,本发明中的三维卷积分支结构使时空双支网络能够充分提取多尺度的时序和空间上下文信息,从而显著提升对多个目标人员的动作识别准确率,实现视频会议系统中高效实时准确的用户行为识别。
作为另一个具体的实施例,本发明还提供了一种面向智能视频会议的用户行为识别系统,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
其中,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种面向智能视频会议的用户行为识别方法,其特征在于,包括:
构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和;
输入一条待识别的会议视频数据;所述会议视频数据包含3200帧图像,单帧图像大小为1024*1024;
构建三维卷积块S,三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成;将一条大小为1024*1024*3200的待识别的会议视频数据,依次输入三个n=3的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400;基于不同三维卷积核构建三分支特征提取结构:将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,当前维度均为64*64*200;利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为64*64*200的输出特征序列;所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息;
构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
对时空双支网络进行训练;
获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三维卷积块包括:卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层。
3.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
4.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述对时空双支网络进行训练,具体包括:
录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
构建动作检测数据集;
根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
5.一种面向智能视频会议的用户行为识别系统,其特征在于,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和;
输入一条待识别的会议视频数据;所述会议视频数据包含3200帧图像,单帧图像大小为1024*1024;
构建三维卷积块S,三维卷积块由一个卷积核为n*n*n且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为2*2*2的三维池化层构成;将一条大小为1024*1024*3200的待识别的会议视频数据,依次输入三个n=3的三维卷积块S1、三维卷积块S2、三维卷积块S3中,经逐层卷积特征提取后,三维卷积块S1、三维卷积块S2、三维卷积块S3的输出数据维度依次为512*512*1600、256*256*800、128*128*400;基于不同三维卷积核构建三分支特征提取结构;将S3的输出特征序列分别输入三维卷积块S41、三维卷积块S42、三维卷积块S43中,三维卷积块S41、三维卷积块S42、三维卷积块S43中的三维卷积核依次为3*3*3、5*5*5、7*7*7,通过调整三维卷积块中的填充padding和步长参数,使其对应的输出数据维度一致,当前维度均为64*64*200;输出的三个特征序列中包含了不同时空跨度下的特征信息;利用逐像素加和模块将三维卷积块S41、三维卷积块S42、三维卷积块S43的输出特征序列进行逐像素加和,获得维度为64*64*200的输出特征序列;所述输出特征序列包含时空双支骨干网络所提取出的所有时空特征信息;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
6.根据权利要求5所述的一种面向智能视频会议的用户行为识别系统,其特征在于,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
CN202310425018.5A 2023-04-20 2023-04-20 一种面向智能视频会议的用户行为识别方法及系统 Active CN116631050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310425018.5A CN116631050B (zh) 2023-04-20 2023-04-20 一种面向智能视频会议的用户行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310425018.5A CN116631050B (zh) 2023-04-20 2023-04-20 一种面向智能视频会议的用户行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN116631050A CN116631050A (zh) 2023-08-22
CN116631050B true CN116631050B (zh) 2024-02-13

Family

ID=87640728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310425018.5A Active CN116631050B (zh) 2023-04-20 2023-04-20 一种面向智能视频会议的用户行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN116631050B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN109800689A (zh) * 2019-01-04 2019-05-24 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111444389A (zh) * 2020-03-27 2020-07-24 焦点科技股份有限公司 一种基于目标检测的会议视频分析方法及系统
CN111814574A (zh) * 2020-06-12 2020-10-23 浙江大学 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质
CN111881794A (zh) * 2020-07-20 2020-11-03 元神科技(杭州)有限公司 一种视频行为识别方法及系统
CN112580523A (zh) * 2020-12-22 2021-03-30 平安国际智慧城市科技股份有限公司 行为识别方法、装置、设备及存储介质
CN112668475A (zh) * 2020-12-28 2021-04-16 苏州科达科技股份有限公司 一种人员身份识别方法、装置、设备及可读存储介质
CN113239822A (zh) * 2020-12-28 2021-08-10 武汉纺织大学 基于时空双流卷积神经网络的危险行为检测方法及系统
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113343760A (zh) * 2021-04-29 2021-09-03 暖屋信息科技(苏州)有限公司 一种基于多尺度特征神经网络的人体行为识别方法
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
CN114627397A (zh) * 2020-12-10 2022-06-14 顺丰科技有限公司 行为识别模型构建方法以及行为识别方法
CN114648722A (zh) * 2022-04-07 2022-06-21 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115546885A (zh) * 2021-06-10 2022-12-30 天津大学 一种基于增强时空特征的动作识别方法及系统
CN115761881A (zh) * 2022-11-08 2023-03-07 南京工业大学 一种基于改进yolov5-SFF的检测方法及系统
CN115984968A (zh) * 2023-01-10 2023-04-18 中南大学 一种学生时空动作识别方法、装置、终端设备及介质

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN109800689A (zh) * 2019-01-04 2019-05-24 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111444389A (zh) * 2020-03-27 2020-07-24 焦点科技股份有限公司 一种基于目标检测的会议视频分析方法及系统
WO2021248733A1 (zh) * 2020-06-12 2021-12-16 浙江大学 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质
CN111814574A (zh) * 2020-06-12 2020-10-23 浙江大学 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质
CN111881794A (zh) * 2020-07-20 2020-11-03 元神科技(杭州)有限公司 一种视频行为识别方法及系统
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
CN114627397A (zh) * 2020-12-10 2022-06-14 顺丰科技有限公司 行为识别模型构建方法以及行为识别方法
CN112580523A (zh) * 2020-12-22 2021-03-30 平安国际智慧城市科技股份有限公司 行为识别方法、装置、设备及存储介质
CN113239822A (zh) * 2020-12-28 2021-08-10 武汉纺织大学 基于时空双流卷积神经网络的危险行为检测方法及系统
CN112668475A (zh) * 2020-12-28 2021-04-16 苏州科达科技股份有限公司 一种人员身份识别方法、装置、设备及可读存储介质
CN113343760A (zh) * 2021-04-29 2021-09-03 暖屋信息科技(苏州)有限公司 一种基于多尺度特征神经网络的人体行为识别方法
CN115546885A (zh) * 2021-06-10 2022-12-30 天津大学 一种基于增强时空特征的动作识别方法及系统
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN114648722A (zh) * 2022-04-07 2022-06-21 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115761881A (zh) * 2022-11-08 2023-03-07 南京工业大学 一种基于改进yolov5-SFF的检测方法及系统
CN115984968A (zh) * 2023-01-10 2023-04-18 中南大学 一种学生时空动作识别方法、装置、终端设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于时序分析的人体活动状态识别与定位;丁洪金;宫法明;;计算机技术与发展(第04期);全文 *
基于时空双分支网络的人体动作识别研究;宫法明;马玉辉;;计算机技术与发展(第09期);全文 *
多尺度输入3D卷积融合双流模型的行为识别方法;宋立飞;翁理国;汪凌峰;夏旻;;计算机辅助设计与图形学学报(第11期);全文 *

Also Published As

Publication number Publication date
CN116631050A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US20220180132A1 (en) Cross-modality person re-identification method based on local information learning
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN111127308A (zh) 用于局部遮挡下单样本人脸识别的镜像特征重排修复方法
CN110084156A (zh) 一种步态特征提取方法及基于步态特征的行人身份识别方法
CN104915643A (zh) 一种基于深度学习的行人再标识方法
CN108960126A (zh) 手语翻译的方法、装置、设备及系统
CN110232361B (zh) 基于三维残差稠密网络的人体行为意图识别方法与系统
CN109214263A (zh) 一种基于特征复用的人脸识别方法
CN111914742A (zh) 基于多模态生物特征的考勤方法、系统、终端设备及介质
CN103020590B (zh) 一种基于三维模型与图像匹配的车辆识别系统及其方法
CN111695457A (zh) 一种基于弱监督机制的人体姿态估计方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN111353399A (zh) 篡改视频检测方法
CN112084913B (zh) 一种端到端的人体检测与属性识别方法
CN113705510A (zh) 目标识别跟踪的方法、装置、设备及存储介质
CN117392753A (zh) 融合非均匀采样与特征强化的人体不文明行为检测方法
CN117275074A (zh) 基于宽广注意力和多尺度融合机制的人脸表情识别方法
CN116246338A (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116631050B (zh) 一种面向智能视频会议的用户行为识别方法及系统
CN112508121A (zh) 一种工业机器人感知外界的方法和系统
CN116453024B (zh) 视频情绪识别系统、方法
CN114582002B (zh) 一种结合注意力模块与二阶池化机制的人脸表情识别方法
CN115862128A (zh) 一种基于人体骨架的顾客异常行为识别方法
CN112906679B (zh) 基于人形语义分割的行人重识别方法、系统及相关设备
CN114241556A (zh) 一种无感知人脸识别考勤方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A user behavior recognition method and system for intelligent video conferencing

Granted publication date: 20240213

Pledgee: Haidian Beijing science and technology enterprise financing Company limited by guarantee

Pledgor: BEIJING TELECOMMUNICATION YITONG INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2024110000320