CN110348364A - 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 - Google Patents

一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 Download PDF

Info

Publication number
CN110348364A
CN110348364A CN201910604999.3A CN201910604999A CN110348364A CN 110348364 A CN110348364 A CN 110348364A CN 201910604999 A CN201910604999 A CN 201910604999A CN 110348364 A CN110348364 A CN 110348364A
Authority
CN
China
Prior art keywords
feature
sports ground
motion
picture
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910604999.3A
Other languages
English (en)
Other versions
CN110348364B (zh
Inventor
毋立芳
李则昱
杨洲
简萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910604999.3A priority Critical patent/CN110348364B/zh
Publication of CN110348364A publication Critical patent/CN110348364A/zh
Application granted granted Critical
Publication of CN110348364B publication Critical patent/CN110348364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法属于篮球视频中的语义事件自动识别领域。该方案首先利用光流估计方法,从连续视频帧中获得运动场属性。然后提取运动特征直方图(MCH)作为运动场表征的描述符。随后,提出了一种基于聚类的运动场标签生成方法。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别。此发明对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。

Description

一种无监督聚类与时空域深度网络相结合的篮球视频群体行 为识别方法
技术领域
本发明属于视频语义事件识别领域,涉及运动模式提取,时间域特征建模,度量距离关系实现无监督数据标注,具体涉及基于层次聚类算法实现类别基准特征计算,基于CNN网络实现运动场图像特征提取和基于LSTM网络实现群体行为识别,提出了一种用于篮球视频群体活动识别的聚类时空域网络模型。
背景技术
计算机视觉作为当今人工智能热门的研究领域之一,通过对摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等,并通过识别和分析做进一步的图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视频语义识别是该中重要的研究方向,在现实生活中有着十分广泛的应用领域与研究价值,如视频监控、体育赛事转播等。近年来,伴随电子信息技术的飞速发展,计算机在计算能力和存储能力等方面取得了突飞猛进的进步,同时深度学习算法和高性能网络框架的提出,使得视频语义事件识别的广泛发展成为可能。
本发明中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中,一个完整的语义事件由群体活动(3分球,上篮,罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别,运动模式是一个有效的判别特征,球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。然而不同的群体活动之间,如图2所示,也存在相似的运动特征。因此用相同的监督信号标注每组中的全部视频帧是不合理的,这样忽视了不同群体活动之间的相关性。本发明提出了一种基于聚类的运动场标签生成方法。对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别,得到完整的篮球语义事件识别结果。
基于卷积神经网络的方法是目前视频语义事件识别的主流算法框架。Lan 等人在2012年发表的文章“Discriminative latent models for recognizing contextualgroup activities.”中提出利用一个潜在的变量框架联合提取了群体- 人交互模式和人-人交互模式,探索场景中的进行多层次交互。Amer等人在 2014发表的文章“Hierarchicalrandom field for collective activity recognition in videos.”中提出了一种用于高阶节奏依赖关系建模的分层随机场结构。随着近年来深度学习算法的发展,基于深度神经网络的结构化模型成为群体识别的主流解决方案。Wang等人在2018发表的文章“Recurrent modeling of interaction context for collective activityrecognition.”中提出了一种通过LSTM结构实现多级特征提取的方案,捕获了用于群体活动识别的层次交互信息。Ramanathan 等人在2016发表文章“Detecting events and keyactors in multi-person videos.”中提出了一种基于注意的循环框架,重点研究篮球场景中语义事件定位和识别。Qi等人在2018年发表的文章“stagnet:An attentive semanticrnn for group activity recognition.”中提出了一个专注的RNN框架,将时空注意力和语义图融合在一起,用于关键个体和框架推理。
发明内容
本发明的目的是提供一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法。本发明的网络框架如图1所示。首先利用PWC-Net深度学习模型实现帧间光流场估计,在光流场的基础上提取运动特征直方图, 随后基于运动特征直方图采用层次聚类算法实现类别基准特征计算。通过计算运动特征直方图与基准特征集合的距离关系,实现无监督数据标注。基于无监督聚类生成的监督信号,训练CNN网络实现运动场图像特征提取,随后将多个时间节点CNN的输出特征序列输入到LSTM网络,实现时间域特征建模与群体行为识别。
本发明的具体技术方案和步骤介绍如下:
1、运动场特征表达
运动场是运动信息表示和结构化数据建模的理想数据形式。本发明用光流来表示运动场。本发明中使用Sun,Deqing等人在2018年“PWC-Net:CNNs for optical flow usingpyramid,warping,and cost volume.”文章中提出的方法估计帧间光流。PWC-Net是一种用于光流估计的端到端卷积神经网络,在估计精度和计算成本上有着显著优越性。PWC-Net估计的光流场包含两个通道,分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移。本发明设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间。对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图。运动特征直方图表达了不同类别的分布。为更好地表达图片信息,对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图。
2、基于无监督聚类的标签生成
基于提取的运动特征直方图进行层次聚类,取训练集中的5场比赛视频做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签。
3、基于LSTM的群体活动识别方法
本发明采用ConvLSTM结构进行时空数据建模和群体活动识别。利用 VGG-11结构,在每一个卷积层之后都使用batch normalization层来表示运动场的特征。通过基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号。通过深度神经网络结构,提取运动场的语义级特征表示,进一步进行时间建模。提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示。然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。与标准的RNN结构不同的是, LSTM结构依赖于独特的记忆单元和门操作来判断每个时刻节点特征的重要程度,这些特征保留了区分的特征,而忽略了冗余和无关的信息。
附图说明
图1为基于无监督聚类与时空域深度网络相结合的语义事件识别整体框架;
图2为运动场中像素点的量化规则示意图;
图3为聚类结果的可视化结果示意图;
具体实施方式
本发明提出了一种无监督聚类与时空域深度网络相结合的方法,实现篮球视频语义事件识别。
本发明的具体技术方案和步骤介绍如下:
1、数据集选取
本发明中的数据采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集。数据集共包含250场NCAA篮球比赛视频,其中212场比赛作为训练集, 12场作为验证集以及33场作为测试集。NCAA数据集中定义了6种类型的群体活动,包括3分球、2分球、罚球、上篮、扣篮和抢断。每一项活动的起点和终止都是通过众源平台手工标注的,视频段的长度平均为32帧左右。
2、运动场特征表达
本发明主要使用光流对篮球视频帧间运动进行表达,通过端到端深度网络。输入数据为连续篮球视频帧,图片大小为490*360和720*1280两种规格,输出的光流图大小与输入数据尺寸相同。在输出的光流场数据基础上进行彩色编码,即将光流场幅度值转化为三通道[0-255]RGB图像。本发明设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间。对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图。运动特征直方图表达了不同类别的分布。为更好地表达图片信息,对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图。
3、基于无监督聚类的标签生成
基于提取的运动特征直方图进行层次聚类,取训练集中的5场比赛共95 个视频段做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签。
4、基于卷积神经网络和长短期记忆网络的篮球视频群体活动识别方法
本发明采用卷积神经网络(CNN)与长短期记忆网络(LSTM)相结合的模型架构进行时空域数据建模和篮球视频中的群体活动识别。在卷积神经网络部分,本发明采用VGG-11结构进行图像特征表达。首先,通过步骤3中基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号,并基于此标签信息进行模型训练。在网络训练过程中,训练集数据为150场比赛的共计30000张运动场图片数据,测试集数据为33场篮球比赛中共计8296张运动场图片,训练批次大小设置为64,采用Adam学习率更新策略,初始学习率设置为0.001,输入运动场图像尺寸为2*224*224。模型训练完成后,运动场图像输入到VGG-11深度神经网络,提取运动场的语义级特征表示,本发明中采用VGG-11网络中第二个全连接层的特征向量作为运动场的特征表达,向量维度为1*4096。
本发明中采用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。与标准的RNN结构不同的是,LSTM结构依赖于独特的记忆单元和门操作来判断每个时刻节点特征的重要程度,这些特征保留了区分的特征,而忽略了冗余和无关的信息。网络输入为VGG-11网络提取出的运动场特征表达向量,在网络训练过程中,训练集数据为212场比赛中共计9641个视频段,测试集数据为33场篮球比赛中共计2152个视频段,训练批次大小设置为32,采用Adam学习率更新策略,初始学习率设置为0.001。在测试阶段,模型的输入为连续16帧运动场场图像对应的特征向量,输入数据维度为16*4096。LSTM隐层神经元数量设置为 2048,分类层神经元数量设置为6。通过分类层神经元相应情况,实现篮球群体事件类别判别。
4、方法性能评价
本发明对基于卷积神经网络和长短期记忆网络的群体行为识别任务上的测试结果对整体方法进行评估。如表1所示,我们将本发明的方法与Wu等人提出的全局加局部运动方法(GCMP)进行了对比,整体性能提升了8.6%。
表1

Claims (4)

1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法,其特征在于,包括以下步骤:
1)运动场特征表达
运动场是运动信息表示和结构化数据建模的理想数据形式;用光流来表示运动场;PWC-Net估计的光流场包含两个通道,分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移;设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间;对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图;运动特征直方图表达了不同类别的分布;
对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图;
2)基于无监督聚类的标签生成
基于提取的运动特征直方图进行层次聚类,取训练集中的几场比赛视频做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别;对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签;
3)基于LSTM的群体活动识别方法
采用ConvLSTM结构进行时空数据建模和群体活动识别;利用VGG-11结构,在每一个卷积层之后都使用batch normalization层来表示运动场的特征;通过基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号;通过深度神经网络结构,提取运动场的语义级特征表示,进一步进行时间建模;提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示;然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。
2.根据权利要求1所述的方法,其特征在于运动场特征表达具体为:
通过端到端深度网络;输入数据为连续篮球视频帧,图片大小为490*360和720*1280两种规格,输出的光流图大小与输入数据尺寸相同;在输出的光流场数据基础上进行彩色编码,即将光流场幅度值转化为三通道[0-255]RGB图像;设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间;对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图;运动特征直方图表达了不同类别的分布。
3.根据权利要求1所述的方法,其特征在于:
基于提取的运动特征直方图进行层次聚类,取训练集中的5场比赛共95个视频段做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签。
4.根据权利要求1所述的方法,其特征在于:
采用卷积神经网络CNN与长短期记忆网络LSTM相结合的模型架构进行时空域数据建模和篮球视频中的群体活动识别;在卷积神经网络部分,采用VGG-11结构进行图像特征表达;首先,通过步骤3中基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号,并基于此标签信息进行模型训练;在网络训练过程中,训练集数据为150场比赛的共计30000张运动场图片数据,测试集数据为33场篮球比赛中共计8296张运动场图片,训练批次大小设置为64,采用Adam学习率更新策略,初始学习率设置为0.001,输入运动场图像尺寸为2*224*224;模型训练完成后,运动场图像输入到VGG-11深度神经网络,提取运动场的语义级特征表示,采用VGG-11网络中第二个全连接层的特征向量作为运动场的特征表达,向量维度为1*4096;
采用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理;网络输入为VGG-11网络提取出的运动场特征表达向量,在网络训练过程中,训练集数据为212场比赛中共计9641 个视频段,测试集数据为33场篮球比赛中共计2152个视频段,训练批次大小设置为32,采用Adam学习率更新策略,初始学习率设置为0.001;在测试阶段,模型的输入为连续16帧运动场场图像对应的特征向量,输入数据维度为16*4096;LSTM隐层神经元数量设置为2048,分类层神经元数量设置为6。
CN201910604999.3A 2019-07-05 2019-07-05 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 Active CN110348364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604999.3A CN110348364B (zh) 2019-07-05 2019-07-05 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604999.3A CN110348364B (zh) 2019-07-05 2019-07-05 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Publications (2)

Publication Number Publication Date
CN110348364A true CN110348364A (zh) 2019-10-18
CN110348364B CN110348364B (zh) 2021-07-02

Family

ID=68178221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604999.3A Active CN110348364B (zh) 2019-07-05 2019-07-05 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Country Status (1)

Country Link
CN (1) CN110348364B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242068A (zh) * 2020-01-17 2020-06-05 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
CN111274908A (zh) * 2020-01-16 2020-06-12 苏州大学 一种人体动作识别方法
CN111382679A (zh) * 2020-02-25 2020-07-07 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN112931295A (zh) * 2021-01-26 2021-06-11 成都小巨人畜牧设备有限公司 一种养殖用低成本激光鸡蛋计数系统
CN113920153A (zh) * 2021-09-15 2022-01-11 北京工业大学 基于编码-解码网络的深度运动分离方法
WO2022032652A1 (en) * 2020-08-14 2022-02-17 Intel Corporation Method and system of image processing for action classification
CN114581769A (zh) * 2022-01-19 2022-06-03 西南交通大学 一种基于无监督聚类的在建房屋识别方法
CN115880340A (zh) * 2023-02-03 2023-03-31 清华大学 小鼠行为分析方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067646A (zh) * 2011-10-21 2013-04-24 索尼公司 运动特征提取方法和装置,以及视频处理装置
CN106055653A (zh) * 2016-06-01 2016-10-26 深圳市唯特视科技有限公司 基于图像语义注释的视频浓缩对象检索方法
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
US10176388B1 (en) * 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
CN109635708A (zh) * 2018-12-06 2019-04-16 中山大学 一种基于三数据集交叉迁移学习的无监督行人再识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067646A (zh) * 2011-10-21 2013-04-24 索尼公司 运动特征提取方法和装置,以及视频处理装置
CN106055653A (zh) * 2016-06-01 2016-10-26 深圳市唯特视科技有限公司 基于图像语义注释的视频浓缩对象检索方法
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US10176388B1 (en) * 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
US20190138826A1 (en) * 2016-11-14 2019-05-09 Zoox, Inc. Spatial and Temporal Information for Semantic Segmentation
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
CN109635708A (zh) * 2018-12-06 2019-04-16 中山大学 一种基于三数据集交叉迁移学习的无监督行人再识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DEQING SUN ET AL.: "PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
LIFANG WU ET AL.: "Ontology Based Global and Collective Motion Patterns for Event Classification in Basketball Videos", 《ARXIV》 *
卿粼波 等: "基于多流CNN-LSTM网络的群体情绪识别", 《计算机应用研究》 *
裴晓敏 等: "时空特征融合深度学习网络人体行为识别方法", 《红外与激光工程》 *
贺姣瑜: "融合领域知识和深度特征的篮球比赛视频语义事件分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄友文 等: "基于卷积神经网络与长短期记忆神经网络的多特征融合人体行为识别算法", 《激光与光电子学进展》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274908A (zh) * 2020-01-16 2020-06-12 苏州大学 一种人体动作识别方法
CN111274908B (zh) * 2020-01-16 2023-04-14 苏州大学 一种人体动作识别方法
CN111242068A (zh) * 2020-01-17 2020-06-05 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
CN111242068B (zh) * 2020-01-17 2021-03-02 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
CN111382679B (zh) * 2020-02-25 2022-08-02 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111382679A (zh) * 2020-02-25 2020-07-07 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111401174B (zh) * 2020-03-07 2023-09-22 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
WO2022032652A1 (en) * 2020-08-14 2022-02-17 Intel Corporation Method and system of image processing for action classification
CN112931295B (zh) * 2021-01-26 2022-09-02 成都小巨人畜牧设备有限公司 一种养殖用低成本激光鸡蛋计数系统
CN112931295A (zh) * 2021-01-26 2021-06-11 成都小巨人畜牧设备有限公司 一种养殖用低成本激光鸡蛋计数系统
CN113920153A (zh) * 2021-09-15 2022-01-11 北京工业大学 基于编码-解码网络的深度运动分离方法
CN113920153B (zh) * 2021-09-15 2024-05-28 北京工业大学 基于编码-解码网络的深度运动分离方法
CN114581769A (zh) * 2022-01-19 2022-06-03 西南交通大学 一种基于无监督聚类的在建房屋识别方法
CN115880340A (zh) * 2023-02-03 2023-03-31 清华大学 小鼠行为分析方法、装置及电子设备

Also Published As

Publication number Publication date
CN110348364B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110348364A (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
Dai et al. Human action recognition using two-stream attention based LSTM networks
Lu et al. Multisource compensation network for remote sensing cross-domain scene classification
CN105787458B (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
Wang et al. Human action recognition by learning spatio-temporal features with deep neural networks
Sharma et al. Action recognition using visual attention
CN106778854B (zh) 基于轨迹和卷积神经网络特征提取的行为识别方法
Host et al. An overview of Human Action Recognition in sports based on Computer Vision
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN103268495B (zh) 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN110059581A (zh) 基于场景深度信息的人群计数方法
CN109697435A (zh) 人流量监测方法、装置、存储介质及设备
CN108765394A (zh) 基于质量评价的目标识别方法
CN110110649A (zh) 基于速度方向的可选择性人脸检测方法
CN110532862B (zh) 基于门控融合单元的特征融合组群识别方法
Xu et al. Scene image and human skeleton-based dual-stream human action recognition
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN110110686A (zh) 基于多损失双流卷积神经网络的人体动作识别方法
CN110135251A (zh) 一种基于注意力机制和混合网络的群体图像情绪识别方法
CN113642482A (zh) 一种基于视频时空上下文的视频人物关系分析方法
Ning et al. Deep Spatial/temporal-level feature engineering for Tennis-based action recognition
Ding et al. Machine learning model for feature recognition of sports competition based on improved TLD algorithm
CN107330918A (zh) 一种基于在线多示例学习的足球视频球员跟踪方法
Zhang Analysis of volleyball video intelligent description technology based on computer memory network and attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant