CN108681712A - 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 - Google Patents

一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 Download PDF

Info

Publication number
CN108681712A
CN108681712A CN201810475535.2A CN201810475535A CN108681712A CN 108681712 A CN108681712 A CN 108681712A CN 201810475535 A CN201810475535 A CN 201810475535A CN 108681712 A CN108681712 A CN 108681712A
Authority
CN
China
Prior art keywords
event
basketball
stage
light stream
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810475535.2A
Other languages
English (en)
Other versions
CN108681712B (zh
Inventor
毋立芳
杨洲
贺娇瑜
简萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810475535.2A priority Critical patent/CN108681712B/zh
Publication of CN108681712A publication Critical patent/CN108681712A/zh
Application granted granted Critical
Publication of CN108681712B publication Critical patent/CN108681712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Abstract

一种基于融合领域知识和深度多阶特征的篮球比赛语义事件识别方法,实现对篮球比赛中语义事件的自动识别。随着计算机视觉理论与深度神经网络的不断发展,基于内容的视频语义事件分析技术不断完善。该方案首先基于篮球领域先验知识对篮球语义事件划分为事件准备阶段,事件发生阶段和事件后续阶段。然后提取视频序列的全局和群体运动模式,随后通过分层网络对多阶段网络提取的特征进行融合,最后通过长短期记忆网络实现时域信息整合,实现篮球语义事件的识别。此发明对大规模篮球视频数据的智能化存储与检索以及篮球视频专业自动化战术分析奠定了基础。

Description

一种融合领域知识和多阶深度特征的篮球比赛语义事件识别 方法
技术领域
本发明属于计算机视觉的视频语义事件识别领域,涉及基于深度神经网络的时空域特征提取与融合,具体涉及基于篮球领域知识的视频阶段划分以及基于卷积神经网络CNN和长短期记忆网络LSTM的特征提取与融合,提出了一种基于领域知识的多阶段群体行为识别的深度学习方法。
背景技术
视频语义事件识别是视频分析与理解领域中的关键技术之一。随着深度神经网络的不断发展以及科学计算设备的更新换代,基于深度学习的视频内容分析的方法发展迅速,应用领域不断得以拓展。主要应用领域有:智能视频监控领域,例如基于智能化视频语义分析技术实现公共场所的实时监控,突发事件预警等;视频检索与存储领域,比如应用视频语义分析技术实现大规模视频数据的智能化存储,审查以及检索等;体育视频分析领域,基于对体育视频的语义分析,实现对于体育赛事的辅助训练以及战术分析等。
本发明中的视频语义事件分类方法主要针对篮球视频中的事件分类。篮球赛事属于一种有计划的高协同群体行为,视频中的事件由多级别语义信息组成,一个完整的事件可以表达为不同运动员个体行为的集合,同时也可以表达为运动员群体之间运动模式的变化规律。通过对视频帧之间的光流图进行提取,即可获得群体和全局的融合运动模式(global and collective motion pattern GCMP),如图1所示。接着对光流域图像进行空间域特征提取,并将空间域特征在时间域上进行整合,得到运动模式的时空域特征表达进行事件分类。在一个完整的篮球语义事件中,可以划分为三个不同的阶段。即事件准备阶段、事件发生阶段和事件后续阶段。本发明通过不同事件阶段之间的特征分层提取与融合建模,从而对篮球比赛中关键运动模式进行表达,主要目的是实现篮球语义事件的识别。
在视频人体动作语义理解的方法中,卷积神经网络同样凭借其强大的时空域整合能力,成为了主流方法之一。其中比较有代表性的是双流(双通道)卷积神经网络结构,例如Simonyan等人在2014年的文章“Two-stream convolutional networks for actionrecognition in videos”中通过训练两个独立的,分别针对色彩空间(RGB视频帧)和运动空间(光流图)的卷积神经网络,对空间域和时间域的信息进行整合,建立了时空域联合建模的计算模型。复旦大学Wu等人在2015年的“Fusing Multi-Stream Deep Networks forVideo Classification”文章中提出在动作识别深度模型中加入了循环神经网络结构(长短期记忆网络LSTM),并充分利用视频中的多模态信息(色彩空间,光流空间,声音谱空间)进行联合建模。2016年,清华大学Zhu等人在“A Key Volume Mining Deep Framework forAction Recognition”文章中提出了一种基于关键视频序列挖掘的深度框架,利用“无监督关键序列决策”的方法来从整体视频序列中采样得到高分辨能力的短序列。网络通过选择性优化选法,在前向传播时对关键序列进行判决,在反向传播过程中使用提取到的关键序列对模型参数进行更新。由于此方法深入挖掘了不同类别动作之间的类间差异,去除掉了类间相似的冗余信息,使模型能够充分的学习样本空间中的类间差异性,从而大大加快的模型的收敛速度与模型的识别效率。2017年,Wang等人在文章“Spatiotemporal PyramidNetwork for Video Action Recognition”文章中提出在双流卷积神经网络思想的基础上,提出了一种时空金字塔模型,在模型中引入了时空双线性插值运算,通过多层融合的结构使得空间域信息和时间域信息连接更加紧密,同时通过注意力机制对关键动作的空间位置赋予了更大的权值,提升了模型的运算效率以及鲁棒性。
本发明首先根据篮球比赛中的领域知识对事件进行阶段划分,随后结合深度学习模型提出了时空域联合建模CNN+LSTM框架,实现篮球视频中的语义事件识别。
发明内容
本发明的目的是提供一种基于篮球领域知识和深度学习分层模型的篮球视频语义事件识别方法。本发明的分层深度模型框架如图2所示。首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段。随后提取事件发生阶段视频序列的全局与群体运动模式,此部分特征通过光流图进行表达。将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征,随后应用长短期记忆网络LSTM整合空间域特征,实现基于事件发生阶段的五类事件分类(三分球,抢断,罚篮,扣篮,两分球+上篮),具体框架如图3所示。针对一些事件发生阶段类间运动模式相似度较高的事件(上篮和两分球),此部分事件在事件发生阶段不做判别,而是合并为一个事件(两分球+上篮)进行分类。随后,将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行两类事件(上篮和两分球)判别,最后将两阶段的特征进行融合得到六类事件的预测结果。对于事件成功或失败属性的判别,通过事件后续阶段的视频序列RGB空间深度特征提取与分类,实现对事件成功失败属性的预测,具体框架如图4所示。
本发明的具体技术方案和步骤介绍如下:
1、基于领域知识的篮球语义事件阶段划分
在本发明中,为了充分对篮球语义事件进行特征提取与表达,根据篮球比赛中的领域知识,即一个完整的语义事件是由事件准备阶段、事件发生阶段和事件后续阶段所组成,每个阶段中呈现出了不同的空间特征以及运动模式。在事件准备阶段,球员会进行投篮准备动作,例如在上篮事件的准备动作阶段,球员会持球并向篮筐方向运动;在事件发生阶段,球员完成投篮动作,篮球出手并接触篮筐;在事件后续阶段,球员们的状态会根据篮球是否投进而有所差异,如果投篮成功,防守球员会去发球。如果投篮失败,双方运动员会继续冲抢篮板球。因此,基于以上篮球比赛的专业领域知识,将划分的事件阶段应用到不同的事件识别任务中,提出了多层深度网络模型,提升了模型对篮球语义事件识别的正确率。
2、全局与群体运动模式提取
篮球语义事件可以由两组运动员间的交互运动模式表达。与此同时,在篮球比赛转播视频中,镜头的运动模式在相同事件间具有较高的相似性。如图1所示,图中展示了来自于不同比赛的罚篮事件画面。不同比赛间的场地颜色以及球员队服的颜色具有较大的差异性。如果用分类器对RGB空间的视频序列直接进行分类具有较大的难度。然而,将RGB图像转换为光流图后,这些视觉层面的干扰就会大大降低了,这是由于光流图表达出的是相邻两帧图像的运动区域,而不是RGB图像本身的颜色属性。在本发明中使用光流图计算方法是Thomas等人在2004年“High Accuracy Optical Flow Estimation Based on a Theoryfor Warping”文章中提出的。
3、基于卷积神经网络和长短期记忆网络(CNN+LSTM)的两阶段篮球语义事件分类方法
本发明采用卷积神经网络和长短期记忆网络(CNN+LSTM)来实现多阶段篮球事件的预测,事件包括(三分球、两分球、上篮、罚篮、扣篮和抢断)。五类事件分类方法如图3所示,两类事件分类方法与五类事件分类方法相似,区别在于两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像,输出是上篮和两分球的预测结果;五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像,输出是图3中所示的五类事件预测结果。在测试阶段,输入一个标签未知的篮球事件视频序列,首先会将事件发生阶段的视频序列光流图像作为输入,通过CNN+LSTM事件五分类网络提取特征并进行事件分类。如果预测结果是三分球、罚篮、扣篮或者抢断,输出结果将直接作为当前事件的标签。如果五分类网络的输出结果是上篮+两分球,此部分数据的事件准备阶段的视频序列光流图像将会被输入到两事件分类网络中进行进一步的事件判别,区分出两分球和上篮事件。最终,通过两阶段篮球语义事件分类方法,将会得到完整的六类事件预测结果。
本发明采用Krizhevsky等人2012年在“Imagenet classification with deepconvolutional neural networks”文章中提出的AlexNet作为基础网络模型,并在ImageNet大型数据集训练好的网络上使用篮球视频数据集进行微调。卷积神经网络具有强大的深层特征提取能力,可以挖掘出图像空间域中的关联信息。本发明中的LSTM网络是采用Hochreiter等人在1997年“Long short-term memory”文章中提出的方法。LSTM是循环神经网络的一种,与传统循环神经网络相比,LSTM网络能够处理序列信息的长期依赖关系,提取出最具有分辨能力的时间域特征。因此,LSTM网络可以在保证特征高效性的基础上,大幅降低网络的运算和存储负担,提升方法整体的实用性。我们将CNN与LSTM网络相结合,CNN首先提取出视频序列中每一帧图像的空间特征,随后,这些序列特征按时域顺序输入到LSTM网络单元中进行时域特征整合,最终得到视频序列时空域特征表达,并进行事件类型识别。
4、基于卷积神经网络(CNN)的事件成功/识别判别方法
在这一部分中,事件后续阶段的视频序列将会作为输入数据进行事件成功/失败属性预测,方法框架如图5所示。这部分的输入数据类型采用RGB空间的图像序列直接作为网络输入,而不是光流图像。虽然光流图相比空间域RGB图像包含了更多的运动模式信息,但是在事件后续阶段,空间域中的特征更加明显。例如篮框的空间域特征的变化会直接反应事件的成功与失败。因此,我们利用CNN提取得到的视频序列RGB空间域特征进行篮球事件成功/失败判别。对于事件后续阶段视频序列的每一帧图像都会通过CNN模型输出一个成功/失败预测结果,最后将当前序列中全部视频帧的预测结果进行投票得到最终序列成功/失败的判别结果。
与现有技术相比,本发明具有以下优势:
1.使用光流图对全局和群体运动模式进行表达并作为输入数据进行模型学习与事件分类,可以有效避免因比赛不同而带来的场地以及球员队服色彩差异性对模型学习造成的影响。
2.基于篮球领域知识设计多层深度网络模型,充分考虑篮球事件不同阶段间的内在联系,充分利用事件不同阶段的特征,提升模型的鲁棒性和泛化能力。
附图说明
图1为本发明中基于光流的全局与群体运动模式示例;
图2为本发明所设计的整体模型框架;
图3为CNN+LSTM五类事件分类网络框架;
图4为CNN成功/失败判别网络框架;
图5为基于篮球领域的事件阶段划分对模型性能的提升效果对比
图6为本发明和其他篮球语义事件分类方法性能对比图
图7为模型运算时间图
具体实施方式
本发明基于篮球专业领域并结合多阶段分层深度学习模型,实现了对篮球比赛语义事件的识别。
本发明的具体技术方案和步骤介绍如下:
1、数据集选取
本发明中模型训练采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集,数据集中的篮球视频是从YouTube采集得到。NCAA数据集共包含250场比赛,每场比赛平均1.5小时,标注了共11类事件(三分球成功/失败,两分球成功/失败,罚篮成功/失败,扣篮成功/失败,上篮成功/失败和抢断)。事件的起始点和终止点由AMK众包平台标注得到。
2、基于篮球领域知识的数据集扩展
在本发明中,为了充分对篮球语义事件进行特征提取与表达,根据篮球比赛中的领域知识,即一个完整的语义事件是由事件准备阶段、事件发生阶段和事件后续阶段所组成,每个阶段中呈现出了不同的空间特征以及运动模式。因此,在NCAA数据集的基础上,我们将视频段进行先前延长和向后延长,并将每一个语义事件序列划分为事件准备阶段、事件发生阶段和事件后续阶段三个阶段。扩展后的NCAA+数据集每个语义事件视频序列平均包含60帧,其中32帧为事件准备阶段,18帧为事件发生阶段,10帧为事件后续阶段。
3、全局与群体运动模式提取
本发明主要使用光流图对篮球视频语义事件中的全局与群体运动模式进行表达,采用的光流方法通过能量函数对两帧RGB图像进行光流估计。输入数据为事件准备阶段图片序列和事件发生阶段图片序列,序列中图片大小为490*360,输出的光流图大小为490*360,随后将光流图转化为三通道[0-255]图像。计算得到的光流图中,颜色种类和颜色深浅分别代表运动方向和运动强度。
4、基于卷积神经网络和长短期记忆网络(CNN+LSTM)的两阶段篮球语义事件分类方法
发明采用卷积神经网络和长短期记忆网络(CNN+LSTM)来实现多阶段篮球事件的预测,事件包括(三分球、两分球、上篮、罚篮、扣篮和抢断)。五类事件分类方法如图3所示,两类事件分类方法与五类事件分类方法相似,区别在于两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像,输出是上篮和两分球的预测结果;五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像,输出是图3中所示的五类事件预测结果。
在测试阶段,输入一个标签未知的篮球事件视频序列,首先会将事件发生阶段的视频序列光流图像作为输入,通过预训练好的AlexNet进行特征提取。在网络数据层,图像会被裁剪为227*227,随后经过多个卷积层和池化层运算后,会得到大小为13*13的多个特征图,随后通过全连接层以得到1*4096的图像特征向量。给定一个包含T+1帧的视频段(F1F2…FT+1),计算得到T帧的光流图像o1,o2…oT,每个光流图提取的得到的特征向量记为x1,x2…xT。LSTM网络的输入数据为CNN网络中计算得到4096维特征向量。对于每一个时刻t,对应的LSTM网络单元通过计算都会输出一个5类事件的概率预测结果(即LSTM网络输出层神经元个数设置为5),概率值输出最大神经元对应的类别即为网络的预测结果。LSTM网络的每个隐藏单元都融合与输入数据和上一时刻的记忆单元响应值,并计算得到256维的隐层特征向量ht(t∈[1,2,…,T]),xt是CNN网络提取得到的t时刻视频帧的4096维特征向量,该向量会输入到t时刻对应的LSTM单元中。
假设N是类别数,则对于第t帧视频,LSTM网络分类层(n∈{1,2,…N})的响应值stn可以表达为公式(1)所示,其中win表示LSTM输出向量ht的第i(i∈[1,256])个分量hti与之间的路径权重,bn表示分类层第n个神经元的偏置值。
对于网络的预测结果,我们采用Softmax函数来对计算类别最大概率值。假设ptn是LSTN网络在t时刻对应第n类事件的输出概率值,可以表示为公式(2)所示:
最后,计算当前视频序列每一张图片的预测结果的平均值,得到当前视频序列的事件预测类型向量G,如公式(3)所示:
如果5分类网络预测结果是三分球、罚篮、扣篮或者抢断,输出结果将直接作为当前事件的标签。如果5分类网络的输出结果是上篮+两分球,此部分数据的事件准备阶段的视频序列光流图像将会被输入到事件两分类网络中进行进一步的事件判别,区分出两分球和上篮事件,事件两分类网络中LSTM网络的分类层神经元个数设置为2。最终,通过两阶段篮球语义事件分类方法,将会得到完整的六类事件预测结果。
在两阶段篮球语义事件分类网络模型训练阶段,我们随机选取了4899个事件发生阶段的视频序列作为训练集,2279个视频序列作为测试集,并将上篮和两分球的标签进行合并进行。在两分类网络模型训练阶段,我们随机事件准备阶段上篮和两分球事件中的2000个视频序列作为训练集,1099个视频序列作为测试集。两个网络训练过程的初始学习率均设置为0.001。
5、基于卷积神经网络(CNN)的事件成功/识别判别方法
在这一部分中,事件后续阶段的视频序列将会作为输入数据进行事件成功/失败属性预测,方法框架如图5所示。这部分的输入数据类型采用RGB空间的图像序列直接作为网络输入,而不是光流图像。虽然光流图相比空间域RGB图像包含了更多的运动模式信息,但是在事件后续阶段,空间域中的特征更加明显。例如篮框的空间域特征的变化会直接反应事件的成功与失败。因此,我们利用ImageNet数据集上预训练得到的AlexNet提取视频序列RGB空间域特征进行篮球事件成功/失败判别。对于事件后续阶段视频序列的每一帧图像都会通过CNN模型输出一个成功/失败预测结果,最后将当前序列中全部视频帧的预测结果进行投票得到最终序列成功/失败的判别结果。网络模型选用AlexNet模型,并在ImageNet数据上进行预训练,网络分类层神经元个数设置为2,进行成功/失败两分类决策。
在模型训练阶段,我们随机选取了事件后续阶段中的7383个视频帧图像作为训练集,2279个视频帧图像作为测试集。模型的初始学习率设定为0.001。
6、方法性能评价
本发明采用模型对篮球事件的最终分类结果来对模型的性能进行评估。
首先,如图5所示,我们测试了篮球领域知识的引入,即篮球语义事件划分对于模型性能的提升效果。图5中展示了不同阶段事件引入对于模型分类性能带来的积极效果,实验结果表明,事件后续阶段视频序列的引入将模型的的分类性能提升了9.32%,将事件准备阶段和事件后续阶段全部引入使得模型得到了20.06%的大幅性能提升,因此证明了本发明中,领域知识的引入对于篮球语义事件识别带来的性能提升作用。
同时,我们将本发明中的方法与目前最佳的方法进行了对比。对比方法为斯坦福大学李飞飞教授团队提出的球员检测+双向LSTM框架。如图6所示,本发明的方法相较球员检测+双向LSTM在性能提升了7.62%。
在模型运算效率方面,我们对模型不同事件阶段的运算时间进行了统计,如图7所示。模型测试环境为Nividia TiTan GPU。

Claims (4)

1.一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法,其特征在于,首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段;随后提取事件发生阶段视频序列的全局与群体运动模式,此部分特征通过光流图进行表达;将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征,随后应用长短期记忆网络LSTM整合空间域特征,实现基于事件发生阶段的五类事件分类即三分球,抢断,罚篮,扣篮,两分球+上篮;针对上篮和两分球,此部分事件在事件发生阶段不做判别,而是合并为一个事件进行分类;随后,将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行上篮和两分球判别,最后将两阶段的特征进行融合得到六类事件的预测结果;对于事件成功或失败属性的判别,通过事件后续阶段的视频序列RGB空间特征提取与分类,实现对事件成功失败属性的预测。
2.根据权利要求1所述的识别方法,其特征在于,
采用卷积神经网络和长短期记忆网络即CNN+LSTM来实现多阶段篮球事件的预测,事件包括三分球、两分球、上篮、罚篮、扣篮和抢断,两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像,输出是上篮和两分球的预测结果;五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像,输出是五类事件预测结果;
在测试阶段,输入一个标签未知的篮球事件视频序列,首先会将事件发生阶段的视频序列光流图像作为输入,通过CNN+LSTM事件五分类网络提取特征并进行事件分类;如果预测结果是三分球、罚篮、扣篮或者抢断,输出结果将直接作为当前事件的标签;如果五分类网络的输出结果是上篮+两分球,此部分数据的事件准备阶段的视频序列光流图像将会被输入到两事件分类网络中进行进一步的事件判别,区分出两分球和上篮事件;最终,通过两阶段篮球语义事件分类方法,将会得到完整的六类事件预测结果;
将CNN与LSTM网络相结合,CNN首先提取出视频序列中每一帧图像的空间特征,随后,这些序列特征按时域顺序输入到LSTM网络单元中进行时域特征整合,最终得到视频序列时空域特征表达,并进行事件类型识别。
3.根据权利要求1所述的识别方法,其特征在于,全局与群体运动模式提取中使用光流图对篮球视频语义事件中的全局与群体运动模式进行表达,采用的光流方法通过能量函数对两帧RGB图像进行光流估计;输入数据为事件准备阶段图片序列和事件发生阶段图片序列,序列中图片大小为490*360,输出的光流图大小为490*360,随后将光流图转化为三通道[0-255]图像;计算得到的光流图中,颜色种类和颜色深浅分别代表运动方向和运动强度。
4.根据权利要求1所述的识别方法,其特征在于,在测试阶段,输入一个标签未知的篮球事件视频序列,首先会将事件发生阶段的视频序列光流图像作为输入,通过预训练好的AlexNet进行特征提取;在网络数据层,图像会被裁剪为227*227,随后经过多个卷积层和池化层运算后,会得到大小为13*13的多个特征图,随后通过全连接层以得到1*4096的图像特征向量;给定一个包含T+1帧的视频段(F1F2…FT+1),计算得到T帧的光流图像o1,o2…oT,每个光流图提取的得到的特征向量记为x1,x2…xT;LSTM网络的输入数据为CNN网络中计算得到4096维特征向量;对于每一个时刻t,对应的LSTM网络单元通过计算都会输出一个5类事件的概率预测结果,概率值输出最大神经元对应的类别即为网络的预测结果;LSTM网络的每个隐藏单元都融合与输入数据和上一时刻的记忆单元响应值,并计算得到256维的隐层特征向量ht,其中t∈[1,2,…,T],xt是CNN网络提取得到的t时刻视频帧的4096维特征向量,该向量会输入到t时刻对应的LSTM单元中;
假设N是类别数,则对于第t帧视频,LSTM网络分类层(n∈{1,2,…N})的响应值stn表达为公式(1)所示,其中win表示LSTM输出向量ht的第i(i∈[1,256])个分量hti与之间的路径权重,bn表示分类层第n个神经元的偏置值;
对于网络的预测结果,采用Softmax函数来对计算类别最大概率值;假设ptn是LSTN网络在t时刻对应第n类事件的输出概率值,可以表示为公式(2)所示:
最后,计算当前视频序列每一张图片的预测结果的平均值,得到当前视频序列的事件预测类型向量G,如公式(3)所示:
CN201810475535.2A 2018-05-17 2018-05-17 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 Active CN108681712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810475535.2A CN108681712B (zh) 2018-05-17 2018-05-17 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810475535.2A CN108681712B (zh) 2018-05-17 2018-05-17 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法

Publications (2)

Publication Number Publication Date
CN108681712A true CN108681712A (zh) 2018-10-19
CN108681712B CN108681712B (zh) 2022-01-28

Family

ID=63806605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810475535.2A Active CN108681712B (zh) 2018-05-17 2018-05-17 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法

Country Status (1)

Country Link
CN (1) CN108681712B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409294A (zh) * 2018-10-29 2019-03-01 南京邮电大学 基于对象运动轨迹的停球事件的分类方法和系统
CN109543237A (zh) * 2018-10-29 2019-03-29 苏州科技大学 基于ga-bp神经网络的基坑位移预测方法
CN109697458A (zh) * 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110110578A (zh) * 2019-02-21 2019-08-09 北京工业大学 一种室内场景语义标注方法
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110314361A (zh) * 2019-05-10 2019-10-11 新华智云科技有限公司 一种基于卷积神经网络的篮球进球得分判断方法及系统
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN110969133A (zh) * 2019-12-05 2020-04-07 浙江大学 一种乒乓球比赛视频的智能数据采集方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111639563A (zh) * 2020-05-18 2020-09-08 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
CN112163525A (zh) * 2020-09-29 2021-01-01 新华三信息安全技术有限公司 一种事件类型预测方法、装置、电子设备及存储介质
KR102211135B1 (ko) * 2020-07-15 2021-02-02 리디아 주식회사 다중 신경망 모델 기반의 농구 경기 분석 장치 및 방법
CN112597966A (zh) * 2021-01-05 2021-04-02 武汉球之道科技有限公司 一种基于比赛视频的动作自动识别方法
CN112784056A (zh) * 2020-12-31 2021-05-11 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
GB2555136A (en) * 2016-10-21 2018-04-25 Nokia Technologies Oy A method for analysing media content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
GB2555136A (en) * 2016-10-21 2018-04-25 Nokia Technologies Oy A method for analysing media content
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMANATHAN V等: "Detecting events and key actors in multi-person videos", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. 2016》 *
秦阳等: "3D CNNs与LSTMs在行为识别中的组合及其应用", 《测控技术》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409294A (zh) * 2018-10-29 2019-03-01 南京邮电大学 基于对象运动轨迹的停球事件的分类方法和系统
CN109543237A (zh) * 2018-10-29 2019-03-29 苏州科技大学 基于ga-bp神经网络的基坑位移预测方法
CN109543237B (zh) * 2018-10-29 2023-09-15 苏州科技大学 基于ga-bp神经网络的基坑位移预测方法
CN109409294B (zh) * 2018-10-29 2021-06-22 南京邮电大学 基于对象运动轨迹的停球事件的分类方法和系统
CN109697458A (zh) * 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109753897B (zh) * 2018-12-21 2022-05-27 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110110578A (zh) * 2019-02-21 2019-08-09 北京工业大学 一种室内场景语义标注方法
CN110110578B (zh) * 2019-02-21 2023-09-29 北京工业大学 一种室内场景语义标注方法
CN110314361B (zh) * 2019-05-10 2021-03-30 新华智云科技有限公司 一种基于卷积神经网络的篮球进球得分判断方法及系统
CN110314361A (zh) * 2019-05-10 2019-10-11 新华智云科技有限公司 一种基于卷积神经网络的篮球进球得分判断方法及系统
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110210383B (zh) * 2019-05-31 2021-08-17 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN110348364B (zh) * 2019-07-05 2021-07-02 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110969133B (zh) * 2019-12-05 2023-04-07 浙江大学 一种乒乓球比赛视频的智能数据采集方法
CN110969133A (zh) * 2019-12-05 2020-04-07 浙江大学 一种乒乓球比赛视频的智能数据采集方法
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质
CN111401174B (zh) * 2020-03-07 2023-09-22 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111476291B (zh) * 2020-04-03 2023-07-25 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111488815B (zh) * 2020-04-07 2023-05-09 中山大学 基于图卷积网络和长短时记忆网络的事件预测方法
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111639563A (zh) * 2020-05-18 2020-09-08 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
CN111639563B (zh) * 2020-05-18 2023-07-18 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
KR102211135B1 (ko) * 2020-07-15 2021-02-02 리디아 주식회사 다중 신경망 모델 기반의 농구 경기 분석 장치 및 방법
CN112163525B (zh) * 2020-09-29 2023-02-21 新华三信息安全技术有限公司 一种事件类型预测方法、装置、电子设备及存储介质
CN112163525A (zh) * 2020-09-29 2021-01-01 新华三信息安全技术有限公司 一种事件类型预测方法、装置、电子设备及存储介质
CN112784056B (zh) * 2020-12-31 2021-11-23 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法
CN112784056A (zh) * 2020-12-31 2021-05-11 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法
CN112597966A (zh) * 2021-01-05 2021-04-02 武汉球之道科技有限公司 一种基于比赛视频的动作自动识别方法

Also Published As

Publication number Publication date
CN108681712B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN108681712A (zh) 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
Dai et al. Human action recognition using two-stream attention based LSTM networks
CN111666843B (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN108765394B (zh) 基于质量评价的目标识别方法
CN112733656B (zh) 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN110348364B (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Kumaran et al. Recognition of human actions using CNN-GWO: a novel modeling of CNN for enhancement of classification performance
Wei et al. P3D-CTN: Pseudo-3D convolutional tube network for spatio-temporal action detection in videos
AU2020102036A4 (en) A Method of Clothing Attribute Recognition with Graph Relation Network
Khan et al. Learning deep C3D features for soccer video event detection
CN111339908A (zh) 基于多模态信息融合与决策优化的组群行为识别方法
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN110674483A (zh) 一种基于多模态信息的身份识别方法
Mihanpour et al. Human action recognition in video using DB-LSTM and ResNet
Ullah et al. Deep LSTM-based sequence learning approaches for action and activity recognition
Ouchra et al. Object detection approaches in images: A weighted scoring model based comparative study
CN110569761A (zh) 一种基于对抗学习的手绘草图检索遥感图像的方法
Deng et al. Behavior recognition based on category subspace in crowded videos
Sudhakaran et al. Top-down attention recurrent VLAD encoding for action recognition in videos
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
Victor et al. Federated learning for physical violence detection in videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant