CN111488815B - 基于图卷积网络和长短时记忆网络的事件预测方法 - Google Patents

基于图卷积网络和长短时记忆网络的事件预测方法 Download PDF

Info

Publication number
CN111488815B
CN111488815B CN202010265812.4A CN202010265812A CN111488815B CN 111488815 B CN111488815 B CN 111488815B CN 202010265812 A CN202010265812 A CN 202010265812A CN 111488815 B CN111488815 B CN 111488815B
Authority
CN
China
Prior art keywords
graph
network
node
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010265812.4A
Other languages
English (en)
Other versions
CN111488815A (zh
Inventor
郑伟诗
黄嘉胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010265812.4A priority Critical patent/CN111488815B/zh
Publication of CN111488815A publication Critical patent/CN111488815A/zh
Application granted granted Critical
Publication of CN111488815B publication Critical patent/CN111488815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图卷积网络和长短时记忆网络的事件预测方法,包括下述步骤:S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;S2、构建基于图卷积神经网络的篮球进分时间预测模型;S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测。本发明定义了新型的图卷积神经网络,能有效捕捉人与人的关系,有效地考虑到了边权重的重要信息,并将场景全局特征作为模型输入,使得模型能从局部到全局刻画视频特征,从而获得一个更加完整的篮球比赛行为描述,进而有效地预测未来进球事件。

Description

基于图卷积网络和长短时记忆网络的事件预测方法
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于图卷积网络和长短时记忆网络的事件预测方法。
背景技术
目前主要的事件预测方法主要是通过均匀抽取视频中的帧,对视频中的每一帧进行二维卷积网络提取特征,将得到的帧特征序列,输入到长短时记忆神经网络(LSTM),以对视频的未来事件进行预测。
现有技术中的事件预测方法用的是二维卷积网络对帧进行特征提取,每次输入二维卷积网络只有一帧图像,所得到特征缺少时间维度的信息。且由于输入为整张图片,因此是基于全局的特征,缺少对局部关键信息和各个局部信息之间互相影响的刻画,如缺少对篮球比赛中每个运动员自己和与他人互动的信息的刻画。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于图卷积网络和长短时记忆网络的事件预测方法,可以对篮球比赛进行良好的特征描述,从而实现篮球进分事件的准确预测。
为了达到上述目的,本发明采用以下技术方案:
基于图卷积网络和长短时记忆网络的事件预测方法,包括下述步骤:
S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;
S2、构建基于图卷积神经网络的篮球进分时间预测模型,所述图卷积神经网络用于对具有节点和边的图模型进行特征变换和表征,从而使得每个节点不仅包含该节点所具有特征,同时包含与该节点相邻节点的信息;
S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测,先将输入的T秒长的篮球视频,按单位时间长度1秒分为T段视频片段,对于每个视频片段,用图卷积网络进行特征提取,最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测。
作为优选的技术方案,步骤S1具体为:
S11、随机采样L帧RGB图像,并按时间顺序排列;
S12、将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个运动员位置进行检测,得到多个包含运动员的检测框,其中yolo-v3使用的是经过COCO数据库预训练的参数;
S13、对于每个运动员检测框,按照检测框的位置和大小,对L帧随机抽取的图片都进行截取,得到L张检测框大小的分割图;
S14、对每个截取的分割图,转换成标准大小,将L张同个检测框的分割图按时间顺序叠加,得到相应的图像块,将图像块送入三维残差卷积神经网络进行特征提取,其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络参数,特征取残差网络最后一个池化层的输出。
作为优选的技术方案,步骤S2中,所述图卷积层的公式如下:
Figure GDA0004051962170000021
w′ij=αij
Figure GDA0004051962170000031
其中Θ∈RF′xF,a∈R2F′为可学习参数;
Θ为一个所有节点共享的线性变换矩阵,Θ∈RF′xF,xi∈RF,yi∈RF′
其中LeakyReLU是LeakyReLU激活函数,a∈R2F′是由所有节点共享的可学习的参数。
作为优选的技术方案,基于图卷积层构建图卷积网络的具体方法为:
图卷积层将图的节点特征集合X和边权重集合W作为输入,将新的节点特征集合X′和边权重集合W′作为输出,将其抽象为如下:
X′,W′=f(X,W)
将n个图卷积层叠加,将当前层的输出作为下一层的输入。则可将图卷积网络第L层表示为:
XL,WL=fL(WL-1,WL-1)
其中1≤L≤n,XL-1为第L层输入的节点特征集合,WL-1为第L层输入的边权重集合,为了表征整个图的特征,我们将最后一层图卷积网络输出的所有节点特征进行平均,作为该图的全局特征hgraph,我们将这个步骤称为全局平均,可用如下公式表示:
Figure GDA0004051962170000032
其中N为图节点的个数。
作为优选的技术方案,所述步骤S3具体为:
将每个运动员视为图的一个节点,其节点特征为xi。将所有运动员节点两两相连,即可得到全连接的无向图,将节点i和节点j的边权重定义为:
Figure GDA0004051962170000041
其中j∈N(i)
将节点i连向自己的边权重定义为:
Figure GDA0004051962170000042
其中0<p<1,p为超参数
在对上面的边权重用Softmax函数进行归一化,得到:
Figure GDA0004051962170000043
经过上面的定义,得到了边权重集合使得边权重具有以下性质:
0<wij<1
Figure GDA0004051962170000044
wii=p
由单位时间长视频片段构建图后,得到了图的节点特征集合X和边权重集合W,我们将其输入所述图卷积神经网络,可得到图的全局特征,将其表示为:
hgraph=g(X,W)
其中函数g代表图卷积神经网络,hgraph为图卷积神经网络输出的全局特,最后我们将hgraph与场景特征xscene拼接在一起,作为单位时间长视频片段的特征h,表示为:
h=hgraph||xscene
场景特征的加入使得提取的特征既有局部信息又有整体信息。
作为优选的技术方案,在对T个视频片段都提取特征并按时间顺序排列,得到特征序列{h1,h2,…,hT},将其作为T步长的多输入单输出的长短时记忆神经网络的输入,得到LSTM输出,并将其线性变换归一化,得到预测的篮球进球事件是否发生的后验概率为:
p(y|h1,h2,…,hT)=φ(WoutLSTM(h1,h2,…,hT))
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为2,LSTM代表长短时记忆神经网络。
作为优选的技术方案,在得到预测的篮球进球事件发生后验概率后利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算:
Figure GDA0004051962170000051
其中θ模型需要学习的参数,y2为1,y1为0代表预测的投篮入球事件在现实中真实发生,y1为1,y2为0代表预测的投篮入球事件在现实中没有发生,因此当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出的基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法,首先在特征提取上采用的是三维残差卷积网络,比传统的二维卷积网络多了时间维度的语义,其次,为捕捉视频中所有运动员之间关系的交互,本发明基于定义了新型的图卷积神经网络,能有效捕捉人与人的关系,有效地考虑到了边权重的重要信息,并将场景全局特征作为模型输入,使得模型能从局部到全局刻画视频特征,从而获得一个更加完整的篮球比赛行为描述,进而有效地预测未来进球事件。本文提出的模型能很好地对篮球比赛下一单位时间的进球事件进行预测,并且在通用的篮球比赛数据集中获得了当前较优的识别结果。
本发明提出的基于图卷积网络和长短时记忆神经网络的篮球预测方法,该模型能对篮球比赛视频中的语义进行丰富的挖掘。本发明采用了三维残差卷积网络,且为捕捉视频中所有运动员之间关系的交互,本发明定义了新型的图卷积神经网络,使得模型获得一个更加完整的篮球比赛行为特征描述,进而有效地预测未来进球事件。因此,本发明提出的基于图卷积神经网络和长短时记忆神经网络的预测模型,能有效在篮球比赛视频监控系统下进行部署,从而实现对篮球进球得分的可靠预测。
附图说明
图1是本发明的图卷积网络示意图;
图2是本发明预测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图2所示,本发明基于图卷积网络和长短时记忆网络的事件预测方法,包括下述步骤:
(1)对单位时间内个体视觉特征表达:
为了对篮球比赛视频中,单位时间内个体视觉特征进行表达,先对单位时间视频段的个体进行检测,并依据检测到的个人的位置,在空间和时间上进行视频切片,再送进三维残差卷积网络(3D-ResNet)进行特征提取。
具体而言,对单位时间的视频,首先随机采样16帧RGB图像,并按时间顺序排列。接着,将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个运动员位置进行检测,得到多个包含运动员的检测框。其中yolo-v3使用的是经过COCO数据库预训练的参数。然后,对于每个运动员检测框,按照检测框的位置和大小,对16帧随机抽取的图片都进行截取,得到16张检测框大小的分割图。对每个截取的分割图,将其大小转变为112x112x3,将16张同个检测框的分割图按时间顺序叠加,得到112x112x3x16图像块,送入三维残差卷积神经网络进行特征提取。其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络(3D-RetNet-34)网络参数,特征取残差网络最后一个池化层的输出,特征维度为512维。
因此,通过对单位时间篮球视频段中个体特征进行三维残差卷积网络的特征提取,得到了单位时间篮球视频中每个篮球运动员的特征表达
Figure GDA0004051962170000071
其中vp代表视频场景中的每个篮球运动员。同时还得到了每个篮球远动员的在图片中的位置(wi,hi),wi,hi分别为归一化的相对于视频帧宽度和高度的坐标。此外,将随机抽取到的16帧RGB图像,输入三维残差卷积神经网络,可以得到单位时间篮球比赛的整体场景特征表达xscene
(2)构建基于注意力机制和边权重的图卷积神经网络模型:
本发明所用图卷积神经网络能够对具有节点和边的图模型进行特征变换和表征,从而使得每个节点不仅包含该节点所具有特征,同时包含与该节点相邻节点的信息。
对于基于注意力机制和边权重的图卷积神经网络的卷积层的定义:记图有N个节点,每个节点具有F维特征,由一个F维的向量表征,则节点特征集合可表示X={x1,x2,…,xN},xi∈RF。记图所有边的权重的集合为W={wij|0<wij<1,i=1,2,…N,j=1,2,…,N,节点i,j有边相连}。注意到当i=j时,代表节点i存在连向自己的边。基于注意力机制和边权重的图卷积层输入为图的节点特征集合和边权重集合,输出为新的节点特征集合x′={x′1,x′2,…,x′N},xi∈RF′和新的边权重集合:
W′={w′ij|0<w′ij<1,i=1,2,…,N,j=1,2,..,N,节点i,j之间有边相连}。为了让图卷积层具有充分的特征表达能力,首先对所有节点特征进行一个线性变换。每个节点特征xi线性变换后得到的特征yi可表示为:
yi=Θxi   (1)
其中Θ为一个所有节点共享的线性变换矩阵,Θ∈RF′xF,xi∈RF,yi∈RF′。Θ是一个可学习的参数,由所有节点特征共享。为了实现变换后的节点特征的信息传播,定义每个节点的特征由该节点特征和与其相邻节点的加权和。可表示为:
yi′=αiiyi+∑j∈N(i)αijyj   (2)
其中N(i)代表与节点i相邻的所有节点的集合。αij为归一化的权重参数,其满足∑j∈N(i)∪{i}αij=1,0<αij<1。y′i为节点i经过信息传播后整合相邻节点的信息和自身信息的特征。由于αij控制着节点i和节点j之间交流的信息的多少,因此αij对图卷积层的表达能力有至关重要的作用。为了正确挖掘网络的表达能力,引入注意力机制对节点i和节点j之间的αij参数进行信息嵌入。注意力机制是一种被验证过的,能够有效提升序列学习任务效果的一种方法。具体而言,将αij表示为特征yi和yj的函数,其表示如下:
αij=exp{LeakyReLU(aT[yi||yj])}      (3)
其中LeakyReLU是LeakyReLU激活函数,a∈R2F′是由所有节点共享的可学习的参数。||代表将两个向量拼接成一个向量。为了进一步提高图卷积层的表达能力,将节点之间边的权重引入计算。直观来说,当节点i和节点j之间的边的权重wij较大时,代表节点i和j之间是一种强连接,需要更多的信息交互,当wij较小时,代表节点i和j之间是一种弱连接,需要减少两个节点之间的信息交流。为此,在(3)式的基础上,引入节点权重这一变量,并进行归一化,将(3)式修改为如下:
Figure GDA0004051962170000091
综合(1)式,(2)式和(4)式,得到经过信息传播后节点i的特征y′i可表示为:
Figure GDA0004051962170000092
Figure GDA0004051962170000093
为了得到更高维度的空间,我们对y′i进行非线性变换,作为图卷积层新的节点特征x′i,也即:
x′i=ReLU(αiiΘxi+∑j∈N(i)αijΘxj)   (7)
其中ReLU激活函数。我们将节点i和j之间的参数αij作为新的节点权重w′ij,其可表示为:
w′ij=αij    (8)
综上,图卷积层可用如下公式表示:
Figure GDA0004051962170000094
w′ij=αij
Figure GDA0004051962170000101
其中Θ∈RF′xF,a∈R2F′为可学习参数。
接着介绍如何用图卷积层构建图卷积网络,图卷积层将图的节点特征集合X和边权重集合W作为输入,将新的节点特征集合X′和边权重集合W′作为输出。可将其抽象为如下:
X′,W′=f(X,W)   (9)
将n个图卷积层叠加,将当前层的输出作为下一层的输入。则可将图卷积网络第L层表示为:
XL,WL=fL(XL-1,WL-1)    (10)
其中1≤L≤n,XL-1为第L层输入的节点特征集合,WL-1为第L层输入的边权重集合。为了表征整个图的特征,将最后一层图卷积网络输出的所有节点特征进行平均,作为该图的全局特征hgraph,将这个步骤称为全局平均,可用如下公式表示:
Figure GDA0004051962170000102
其中N为图节点的个数。
本实施例中,在实现过程中,我们将图卷积网络的层数设为4。第一层输入的节点特征维度为512,输出的节点特征维度为512;第二层的输入的节点特征维度为512,输出节点特征为256;第三层输入的节点特征维度为256,输出节点特征为256;第四层输入的节点特征维度为256,输出节点特征维度为128。图卷积网络的示意图可如图1所示。
(3)基于图卷积网络模型的篮球视频进分事件预测:
将具体描述如何用图卷积神经网络和长短时记忆神经(LSTM)实现对一段篮球视频下一单位长度(1s)进球事件的预测。先将输入的T秒长的篮球视频,按单位时间长度1秒分为T段视频片段。对于每个视频片段,将用图卷积网络进行特征提取,最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测。
先具体描述如何用图卷积网络对单位时间长度的视频片段进行特征提取。对每一单位时间长度的视频片段,可以得到每个篮球运动员的特征表达
Figure GDA0004051962170000111
Figure GDA0004051962170000112
其中vp代表视频场景中的每个篮球运动员,和每个篮球运动员在最后一帧的相对位置(wi,hi),0wi<1,0<hi<1以及单位时间篮球比赛的整体场景特征xscene。可将每个运动员视为图的一个节点,其节点特征为xi。将所有运动员节点两两相连,即可得到全连接的无向图。将节点i和节点j的边权重定义为:
Figure GDA0004051962170000113
其中j∈N(i)
将节点i连向自己的边权重定义为:
Figure GDA0004051962170000114
其中0<p<1,p为超参数在对上面的边权重用Softmax函数进行归一化,得到:
Figure GDA0004051962170000115
经过上面的定义,得到了边权重集合使得边权重具有以下性质:
0<wij<1   (15)
Figure GDA0004051962170000121
wii=p   (17)
这意味着边权重具有良好的数值特性,在数值计算中不易发散。且节点i对自身的边权重为一个定的介于0到1的实数p,意味着可以通过控制p来控制节点自身边权重的大小,从而控制模型的性能。一般而言,将p设为0.5。由单位时间长视频片段构建图后,我们得到了图的节点特征集合X和边权重集合W,将其输入所述图卷积神经网络,可得到图的全局特征,将其表示为:
hgraph=g(X,W)   (17)
其中函数g代表图卷积神经网络,hgraph为图卷积神经网络输出的全局特征。最后我们将hgraph与场景特征xscene拼接在一起,作为单位时间长视频片段的特征h,表示为:
h=hgraph||xscene    (18)
场景特征的加入使得提取的特征既有局部信息又有整体信息。
在对T个视频片段都提取特征并按时间顺序排列,得到特征序列{h1,h2,…,hT},将其作为T步长的多输入单输出的长短时记忆神经网络(LSTM)的输入,得到LSTM输出,并将其线性变换归一化,得到预测的篮球进球事件是否发生的后验概率为:
p(y|h1,h2,…,hT)=φ(WoutLSTM(h1,h2,…,hT))   (19)
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为2,LSTM代表长短时记忆神经网络。最后,在得到预测的篮球进球事件发生后验概率后,利用我们利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算:
Figure GDA0004051962170000131
其中θ模型需要学习的参数,y2为1,y1为0代表预测的投篮入球事件在现实中真实发生,y1为1,y2为0代表预测的投篮入球事件在现实中没有发生。因此当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。本发明基于深度图卷积神经网络和长短时间记忆神经网络,因此模型的参数由反向传播算法((Back PropagationThrough Time,BPTT)算法更新与优化。
本发明使用图卷积网络和长短时记忆神经网络(LSTM)对篮球比赛中的进球事件进行预测。在对单位长度的篮球比赛视频提取特征时,使用了三维卷积网络,比传统二维卷积网络多了时间维度的刻画,同时充分考虑视频中每个人和周围其他人的关系。为了捕捉篮球比赛中人与人之间的关系,本文利用图卷积深度神经网络,对人和人之间特征的信息交互进行刻画,在信息交互的过程中充分考虑到了人和人距离远近的关键因素,使得人与人之间的交互关系得到充分的表达。同时,本文还将基于全局的视频特征和图卷积神经网络得到的高维特征一起输入到长短时记忆神经网络,以对为来事件进行预测,使得模型既能聚焦局部,又能兼顾整体。本发明提出的模型能对篮球比赛进行良好的特征描述,从而实现篮球进分事件的准确预测,并且在美国职业篮球比赛(NBA)数据集中获得了较优的识别结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,包括下述步骤:
S1、对篮球比赛视频单位时间视频频段的个体进行检测,依据检测到的个人位置,在空间和时间上进行视频切片,再将切片后的视频送进三维残差卷积网络进行特征提取;
S2、构建基于图卷积神经网络的篮球进分时间预测模型,所述图卷积神经网络用于对具有节点和边的图模型进行特征变换和表征,从而使得每个节点不仅包含该节点所具有特征,同时包含与该节点相邻节点的信息;
S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测,先将输入的T秒长的篮球视频,按单位时间长度1秒分为T段视频片段,对于每个视频片段,用图卷积网络进行特征提取,最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测;
所述步骤S3具体为:
将每个运动员视为图的一个节点,其节点特征为xi;将所有运动员节点两两相连,即可得到全连接的无向图,将节点i和节点j的边权重定义为:
其中j∈N(i)
将节点i连向自己的边权重定义为:
其中0<p<1,p为超参数
在对上面的边权重用Softmax函数进行归一化,得到:
经过上面的定义,得到了边权重集合使得边权重具有以下性质:
0<wij<1
wii=p
由单位时间长视频片段构建图后,得到了图的节点特征集合X和边权重集合W,我们将其输入所述图卷积神经网络,可得到图的全局特征,将其表示为:
hgraph=g(X,W)
其中函数g代表图卷积神经网络,hgraph为图卷积神经网络输出的全局特,最后我们将hgraph与场景特征xscene拼接在一起,作为单位时间长视频片段的特征h,表示为:
h=hgraph||xscene
场景特征的加入使得提取的特征既有局部信息又有整体信息;
在对T个视频片段都提取特征并按时间顺序排列,得到特征序列{h1,h2,...,hT},将其作为T步长的多输入单输出的长短时记忆神经网络的输入,得到LSTM输出,并将其线性变换归一化,得到预测的篮球进球事件是否发生的后验概率为:
p(y|h1,h2,...,hT)=φ(WoutLSTM(h1,h2,...,hT))
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为2,LSTM代表长短时记忆神经网络。
2.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,步骤S1具体为:
S11、随机采样L帧RGB图像,并按时间顺序排列;
S12、将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个运动员位置进行检测,得到多个包含运动员的检测框,其中yolo-v3使用的是经过COCO数据库预训练的参数;
S13、对于每个运动员检测框,按照检测框的位置和大小,对L帧随机抽取的图片都进行截取,得到L张检测框大小的分割图;
S14、对每个截取的分割图,转换成标准大小,将L张同个检测框的分割图按时间顺序叠加,得到相应的图像块,将图像块送入三维残差卷积神经网络进行特征提取,其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络参数,特征取残差网络最后一个池化层的输出。
3.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,步骤S2中,所述图卷积层的公式如下:
w′ij=αij
其中Θ∈RF′xF,a∈R2F′为可学习参数;
Θ为一个所有节点共享的线性变换矩阵,Θ∈RF′xF,xi∈RF,yi∈RF′
其中LeakyReLU是LeakyReLU激活函数,a∈R2F′是由所有节点共享的可学习的参数。
4.根据权利要求3所述基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,基于图卷积层构建图卷积网络的具体方法为:
图卷积层将图的节点特征集合X和边权重集合W作为输入,将新的节点特征集合X′和边权重集合W′作为输出,将其抽象为如下:
X′,W′=f(X,W)
将n个图卷积层叠加,将当前层的输出作为下一层的输入;则可将图卷积网络第L层表示为:
XL,WL=fL(XL-1,WL-1)
其中1≤L≤n,XL-1为第L层输入的节点特征集合,WL-1为第L层输入的边权重集合,为了表征整个图的特征,我们将最后一层图卷积网络输出的所有节点特征进行平均,作为该图的全局特征hgraph,我们将这个步骤称为全局平均,可用如下公式表示:
其中N为图节点的个数。
5.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法,其特征在于,在得到预测的篮球进球事件发生后验概率后利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算:
其中θ模型需要学习的参数,y2为1,y1为0代表预测的投篮入球事件在现实中真实发生,y1为1,y2为0代表预测的投篮入球事件在现实中没有发生,因此当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。
CN202010265812.4A 2020-04-07 2020-04-07 基于图卷积网络和长短时记忆网络的事件预测方法 Active CN111488815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010265812.4A CN111488815B (zh) 2020-04-07 2020-04-07 基于图卷积网络和长短时记忆网络的事件预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010265812.4A CN111488815B (zh) 2020-04-07 2020-04-07 基于图卷积网络和长短时记忆网络的事件预测方法

Publications (2)

Publication Number Publication Date
CN111488815A CN111488815A (zh) 2020-08-04
CN111488815B true CN111488815B (zh) 2023-05-09

Family

ID=71798657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010265812.4A Active CN111488815B (zh) 2020-04-07 2020-04-07 基于图卷积网络和长短时记忆网络的事件预测方法

Country Status (1)

Country Link
CN (1) CN111488815B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541449A (zh) * 2020-12-18 2021-03-23 天津大学 一种基于无人机航拍视角的行人轨迹预测方法
CN112749712B (zh) * 2021-01-22 2022-04-12 四川大学 一种基于3d卷积神经网络的rgbd显著性物体检测方法
CN113011322B (zh) * 2021-03-17 2023-09-05 贵州安防工程技术研究中心有限公司 监控视频特定异常行为的检测模型训练方法及检测方法
CN113297936B (zh) * 2021-05-17 2024-05-28 北京工业大学 一种基于局部图卷积网络的排球群体行为识别方法
CN113486754B (zh) * 2021-06-29 2024-01-09 中国科学院自动化研究所 基于视频的事件演化预测方法、系统
CN113705402A (zh) * 2021-08-18 2021-11-26 中国科学院自动化研究所 视频行为预测方法、系统、电子设备及存储介质
CN116996844A (zh) * 2023-07-07 2023-11-03 中国科学院脑科学与智能技术卓越创新中心 一种描述、预测事件的多点通讯方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN110147904A (zh) * 2019-04-23 2019-08-20 深圳先进技术研究院 一种城市聚集事件预测与定位方法及装置
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN110147904A (zh) * 2019-04-23 2019-08-20 深圳先进技术研究院 一种城市聚集事件预测与定位方法及装置
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法

Also Published As

Publication number Publication date
CN111488815A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111488815B (zh) 基于图卷积网络和长短时记忆网络的事件预测方法
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US11182621B2 (en) Systems and methods for behavior understanding from trajectories
CN110209859B (zh) 地点识别及其模型训练的方法和装置以及电子设备
WO2019228317A1 (zh) 人脸识别方法、装置及计算机可读介质
Laraba et al. 3D skeleton‐based action recognition by representing motion capture sequences as 2D‐RGB images
WO2020107847A1 (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
Thapar et al. VGR-net: A view invariant gait recognition network
CN110909630A (zh) 一种异常游戏视频检测方法和装置
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
KR20180038169A (ko) 딥 러닝 기반의 데이터특징을 이용한 도시영상의 안전도 분류방법
CN113159006A (zh) 基于人脸识别的考勤方法、系统、电子设备和存储介质
CN111401192A (zh) 基于人工智能的模型训练方法和相关装置
CN113963183B (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN114463805B (zh) 深度伪造检测方法、装置、存储介质及计算机设备
CN114882537A (zh) 一种基于神经辐射场的手指新视角图像生成方法
CN114663986A (zh) 一种基于双解耦生成和半监督学习的活体检测方法及系统
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
CN114299569A (zh) 一种基于眼球运动的安全人脸认证方法
CN115082873A (zh) 基于通路融合的图像识别方法、装置及存储介质
CN107066943A (zh) 一种人脸检测方法及装置
Kaur et al. Improved Facial Biometric Authentication Using MobileNetV2
CN110084110B (zh) 一种近红外人脸图像识别方法、装置、电子设备及存储介质
CN111275183A (zh) 视觉任务的处理方法、装置和电子系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant