CN111488815B

CN111488815B - 基于图卷积网络和长短时记忆网络的事件预测方法

Info

Publication number: CN111488815B
Application number: CN202010265812.4A
Authority: CN
Inventors: 郑伟诗; 黄嘉胜
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-05-09
Anticipated expiration: 2040-04-07
Also published as: CN111488815A

Abstract

本发明公开了一种基于图卷积网络和长短时记忆网络的事件预测方法，包括下述步骤：S1、对篮球比赛视频单位时间视频频段的个体进行检测，依据检测到的个人位置，在空间和时间上进行视频切片，再将切片后的视频送进三维残差卷积网络进行特征提取；S2、构建基于图卷积神经网络的篮球进分时间预测模型；S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测。本发明定义了新型的图卷积神经网络，能有效捕捉人与人的关系，有效地考虑到了边权重的重要信息，并将场景全局特征作为模型输入，使得模型能从局部到全局刻画视频特征，从而获得一个更加完整的篮球比赛行为描述，进而有效地预测未来进球事件。

Description

基于图卷积网络和长短时记忆网络的事件预测方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于图卷积网络和长短时记忆网络的事件预测方法。

背景技术

目前主要的事件预测方法主要是通过均匀抽取视频中的帧，对视频中的每一帧进行二维卷积网络提取特征，将得到的帧特征序列，输入到长短时记忆神经网络(LSTM)，以对视频的未来事件进行预测。

现有技术中的事件预测方法用的是二维卷积网络对帧进行特征提取，每次输入二维卷积网络只有一帧图像，所得到特征缺少时间维度的信息。且由于输入为整张图片，因此是基于全局的特征，缺少对局部关键信息和各个局部信息之间互相影响的刻画，如缺少对篮球比赛中每个运动员自己和与他人互动的信息的刻画。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于图卷积网络和长短时记忆网络的事件预测方法，可以对篮球比赛进行良好的特征描述，从而实现篮球进分事件的准确预测。

为了达到上述目的，本发明采用以下技术方案：

基于图卷积网络和长短时记忆网络的事件预测方法，包括下述步骤：

S1、对篮球比赛视频单位时间视频频段的个体进行检测，依据检测到的个人位置，在空间和时间上进行视频切片，再将切片后的视频送进三维残差卷积网络进行特征提取；

S2、构建基于图卷积神经网络的篮球进分时间预测模型，所述图卷积神经网络用于对具有节点和边的图模型进行特征变换和表征，从而使得每个节点不仅包含该节点所具有特征，同时包含与该节点相邻节点的信息；

S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测，先将输入的T秒长的篮球视频，按单位时间长度1秒分为T段视频片段，对于每个视频片段，用图卷积网络进行特征提取，最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测。

作为优选的技术方案，步骤S1具体为：

S11、随机采样L帧RGB图像，并按时间顺序排列；

S12、将随机采样到的最后一帧RGB图像送进yolo-v3检测网络，对每个运动员位置进行检测，得到多个包含运动员的检测框，其中yolo-v3使用的是经过COCO数据库预训练的参数；

S13、对于每个运动员检测框，按照检测框的位置和大小，对L帧随机抽取的图片都进行截取，得到L张检测框大小的分割图；

S14、对每个截取的分割图，转换成标准大小，将L张同个检测框的分割图按时间顺序叠加，得到相应的图像块，将图像块送入三维残差卷积神经网络进行特征提取，其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络参数，特征取残差网络最后一个池化层的输出。

作为优选的技术方案，步骤S2中，所述图卷积层的公式如下：

w′_ij＝α_ij

其中Θ∈R^F′xF，a∈R^2F′为可学习参数；

Θ为一个所有节点共享的线性变换矩阵，Θ∈R^F′xF，x_i∈R^F，y_i∈R^F′

其中LeakyReLU是LeakyReLU激活函数，a∈R^2F′是由所有节点共享的可学习的参数。

作为优选的技术方案，基于图卷积层构建图卷积网络的具体方法为：

图卷积层将图的节点特征集合X和边权重集合W作为输入，将新的节点特征集合X′和边权重集合W′作为输出，将其抽象为如下：

X′,W′＝f(X,W)

将n个图卷积层叠加，将当前层的输出作为下一层的输入。则可将图卷积网络第L层表示为：

X^L,W^L＝f^L(W^L-1,W^L-1)

其中1≤L≤n，X^L-1为第L层输入的节点特征集合,W^L-1为第L层输入的边权重集合，为了表征整个图的特征，我们将最后一层图卷积网络输出的所有节点特征进行平均，作为该图的全局特征h_graph，我们将这个步骤称为全局平均，可用如下公式表示：

其中N为图节点的个数。

作为优选的技术方案，所述步骤S3具体为：

将每个运动员视为图的一个节点，其节点特征为x_i。将所有运动员节点两两相连，即可得到全连接的无向图，将节点i和节点j的边权重定义为：

其中j∈N(i)

将节点i连向自己的边权重定义为：

其中0<p<1，p为超参数

在对上面的边权重用Softmax函数进行归一化，得到：

经过上面的定义，得到了边权重集合使得边权重具有以下性质：

0＜w_ij＜1

w_ii＝p

由单位时间长视频片段构建图后，得到了图的节点特征集合X和边权重集合W，我们将其输入所述图卷积神经网络,可得到图的全局特征，将其表示为：

h_graph＝g(X,W)

其中函数g代表图卷积神经网络，h_graph为图卷积神经网络输出的全局特，最后我们将h_graph与场景特征x_scene拼接在一起，作为单位时间长视频片段的特征h，表示为：

h＝h_graph||x_scene

场景特征的加入使得提取的特征既有局部信息又有整体信息。

作为优选的技术方案，在对T个视频片段都提取特征并按时间顺序排列，得到特征序列{h₁,h₂,…,h_T}，将其作为T步长的多输入单输出的长短时记忆神经网络的输入，得到LSTM输出，并将其线性变换归一化，得到预测的篮球进球事件是否发生的后验概率为：

p(y|h₁,h₂,…,h_T)＝φ(W_outLSTM(h₁,h₂,…,h_T))

其中，φ为softmax激活函数，W_out是可学习参数矩阵，其行数为2，LSTM代表长短时记忆神经网络。

作为优选的技术方案，在得到预测的篮球进球事件发生后验概率后利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算:

其中θ模型需要学习的参数，y₂为1，y₁为0代表预测的投篮入球事件在现实中真实发生，y₁为1，y₂为0代表预测的投篮入球事件在现实中没有发生，因此当预测的结果与现实真实结果不一致时，L(θ)取值较大，从而在训练对网络中的参数进行惩罚，最终使得预测的结果与真实事件类标更为接近。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出的基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法，首先在特征提取上采用的是三维残差卷积网络，比传统的二维卷积网络多了时间维度的语义，其次，为捕捉视频中所有运动员之间关系的交互，本发明基于定义了新型的图卷积神经网络，能有效捕捉人与人的关系，有效地考虑到了边权重的重要信息，并将场景全局特征作为模型输入，使得模型能从局部到全局刻画视频特征，从而获得一个更加完整的篮球比赛行为描述，进而有效地预测未来进球事件。本文提出的模型能很好地对篮球比赛下一单位时间的进球事件进行预测，并且在通用的篮球比赛数据集中获得了当前较优的识别结果。

本发明提出的基于图卷积网络和长短时记忆神经网络的篮球预测方法，该模型能对篮球比赛视频中的语义进行丰富的挖掘。本发明采用了三维残差卷积网络，且为捕捉视频中所有运动员之间关系的交互，本发明定义了新型的图卷积神经网络，使得模型获得一个更加完整的篮球比赛行为特征描述，进而有效地预测未来进球事件。因此，本发明提出的基于图卷积神经网络和长短时记忆神经网络的预测模型，能有效在篮球比赛视频监控系统下进行部署，从而实现对篮球进球得分的可靠预测。

附图说明

图1是本发明的图卷积网络示意图；

图2是本发明预测方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图2所示，本发明基于图卷积网络和长短时记忆网络的事件预测方法，包括下述步骤：

(1)对单位时间内个体视觉特征表达：

为了对篮球比赛视频中，单位时间内个体视觉特征进行表达，先对单位时间视频段的个体进行检测，并依据检测到的个人的位置，在空间和时间上进行视频切片，再送进三维残差卷积网络(3D-ResNet)进行特征提取。

具体而言，对单位时间的视频，首先随机采样16帧RGB图像，并按时间顺序排列。接着，将随机采样到的最后一帧RGB图像送进yolo-v3检测网络，对每个运动员位置进行检测，得到多个包含运动员的检测框。其中yolo-v3使用的是经过COCO数据库预训练的参数。然后，对于每个运动员检测框，按照检测框的位置和大小，对16帧随机抽取的图片都进行截取，得到16张检测框大小的分割图。对每个截取的分割图，将其大小转变为112x112x3，将16张同个检测框的分割图按时间顺序叠加，得到112x112x3x16图像块，送入三维残差卷积神经网络进行特征提取。其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络(3D-RetNet-34)网络参数，特征取残差网络最后一个池化层的输出，特征维度为512维。

因此，通过对单位时间篮球视频段中个体特征进行三维残差卷积网络的特征提取，得到了单位时间篮球视频中每个篮球运动员的特征表达

其中v_p代表视频场景中的每个篮球运动员。同时还得到了每个篮球远动员的在图片中的位置(w_i,h_i)，w_i,h_i分别为归一化的相对于视频帧宽度和高度的坐标。此外，将随机抽取到的16帧RGB图像，输入三维残差卷积神经网络，可以得到单位时间篮球比赛的整体场景特征表达x_scene。

(2)构建基于注意力机制和边权重的图卷积神经网络模型：

本发明所用图卷积神经网络能够对具有节点和边的图模型进行特征变换和表征，从而使得每个节点不仅包含该节点所具有特征，同时包含与该节点相邻节点的信息。

对于基于注意力机制和边权重的图卷积神经网络的卷积层的定义：记图有N个节点，每个节点具有F维特征，由一个F维的向量表征，则节点特征集合可表示X＝{x₁,x₂,…,x_N}，x_i∈R^F。记图所有边的权重的集合为W＝{w_ij|0＜w_ij＜1，i＝1,2,…N,j＝1,2,…,N，节点i,j有边相连}。注意到当i＝j时，代表节点i存在连向自己的边。基于注意力机制和边权重的图卷积层输入为图的节点特征集合和边权重集合，输出为新的节点特征集合x′＝{x′₁,x′₂,…,x′_N}，x_i∈R^F′和新的边权重集合：

W′＝{w′_ij|0＜w′_ij＜1,i＝1,2,…,N,j＝1,2,..,N,节点i,j之间有边相连}。为了让图卷积层具有充分的特征表达能力，首先对所有节点特征进行一个线性变换。每个节点特征x_i线性变换后得到的特征y_i可表示为:

y_i＝Θx_i (1)

其中Θ为一个所有节点共享的线性变换矩阵，Θ∈R^F′xF，x_i∈R^F，y_i∈R^F′。Θ是一个可学习的参数，由所有节点特征共享。为了实现变换后的节点特征的信息传播，定义每个节点的特征由该节点特征和与其相邻节点的加权和。可表示为:

y_i′＝α_iiy_i+∑_j∈N(i)α_ijy_j (2)

其中N(i)代表与节点i相邻的所有节点的集合。α_ij为归一化的权重参数，其满足∑_{j∈N(i)∪{i}}α_ij＝1，0＜α_ij＜1。y′_i为节点i经过信息传播后整合相邻节点的信息和自身信息的特征。由于α_ij控制着节点i和节点j之间交流的信息的多少，因此α_ij对图卷积层的表达能力有至关重要的作用。为了正确挖掘网络的表达能力，引入注意力机制对节点i和节点j之间的α_ij参数进行信息嵌入。注意力机制是一种被验证过的，能够有效提升序列学习任务效果的一种方法。具体而言，将α_ij表示为特征y_i和y_j的函数，其表示如下：

α_ij＝exp{LeakyReLU(a^T[y_i||y_j])} (3)

其中LeakyReLU是LeakyReLU激活函数，a∈R^2F′是由所有节点共享的可学习的参数。||代表将两个向量拼接成一个向量。为了进一步提高图卷积层的表达能力，将节点之间边的权重引入计算。直观来说，当节点i和节点j之间的边的权重w_ij较大时，代表节点i和j之间是一种强连接，需要更多的信息交互，当w_ij较小时，代表节点i和j之间是一种弱连接，需要减少两个节点之间的信息交流。为此，在(3)式的基础上，引入节点权重这一变量,并进行归一化，将(3)式修改为如下：

综合(1)式,(2)式和(4)式，得到经过信息传播后节点i的特征y′_i可表示为：

为了得到更高维度的空间，我们对y′_i进行非线性变换，作为图卷积层新的节点特征x′_i，也即：

x′_i＝ReLU(α_iiΘx_i+∑_j∈N(i)α_ijΘx_j) (7)

其中ReLU激活函数。我们将节点i和j之间的参数α_ij作为新的节点权重w′_ij，其可表示为:

w′_ij＝α_ij (8)

综上，图卷积层可用如下公式表示：

w′_ij＝α_ij

其中Θ∈R^F′xF，a∈R^2F′为可学习参数。

接着介绍如何用图卷积层构建图卷积网络，图卷积层将图的节点特征集合X和边权重集合W作为输入，将新的节点特征集合X′和边权重集合W′作为输出。可将其抽象为如下：

X′,W′＝f(X,W) (9)

X^L,W^L＝f^L(X^L-1,W^L-1) (10)

其中1≤L≤n，X^L-1为第L层输入的节点特征集合,W^L-1为第L层输入的边权重集合。为了表征整个图的特征，将最后一层图卷积网络输出的所有节点特征进行平均，作为该图的全局特征h_graph，将这个步骤称为全局平均，可用如下公式表示：

其中N为图节点的个数。

本实施例中，在实现过程中，我们将图卷积网络的层数设为4。第一层输入的节点特征维度为512，输出的节点特征维度为512；第二层的输入的节点特征维度为512，输出节点特征为256；第三层输入的节点特征维度为256，输出节点特征为256；第四层输入的节点特征维度为256，输出节点特征维度为128。图卷积网络的示意图可如图1所示。

(3)基于图卷积网络模型的篮球视频进分事件预测：

将具体描述如何用图卷积神经网络和长短时记忆神经(LSTM)实现对一段篮球视频下一单位长度(1s)进球事件的预测。先将输入的T秒长的篮球视频，按单位时间长度1秒分为T段视频片段。对于每个视频片段，将用图卷积网络进行特征提取，最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测。

先具体描述如何用图卷积网络对单位时间长度的视频片段进行特征提取。对每一单位时间长度的视频片段，可以得到每个篮球运动员的特征表达

其中v_p代表视频场景中的每个篮球运动员，和每个篮球运动员在最后一帧的相对位置(w_i,h_i)，0w_i＜1,0＜h_i＜1以及单位时间篮球比赛的整体场景特征x_scene。可将每个运动员视为图的一个节点，其节点特征为x_i。将所有运动员节点两两相连，即可得到全连接的无向图。将节点i和节点j的边权重定义为：

其中j∈N(i)

将节点i连向自己的边权重定义为：

其中0<p<1，p为超参数在对上面的边权重用Softmax函数进行归一化，得到：

0＜w_ij＜1 (15)

w_ii＝p (17)

这意味着边权重具有良好的数值特性，在数值计算中不易发散。且节点i对自身的边权重为一个定的介于0到1的实数p，意味着可以通过控制p来控制节点自身边权重的大小，从而控制模型的性能。一般而言，将p设为0.5。由单位时间长视频片段构建图后，我们得到了图的节点特征集合X和边权重集合W，将其输入所述图卷积神经网络,可得到图的全局特征，将其表示为：

h_graph＝g(X,W) (17)

其中函数g代表图卷积神经网络，h_graph为图卷积神经网络输出的全局特征。最后我们将h_graph与场景特征x_scene拼接在一起，作为单位时间长视频片段的特征h，表示为：

h＝h_graph||x_scene (18)

在对T个视频片段都提取特征并按时间顺序排列，得到特征序列{h₁,h₂,…,h_T}，将其作为T步长的多输入单输出的长短时记忆神经网络(LSTM)的输入，得到LSTM输出，并将其线性变换归一化，得到预测的篮球进球事件是否发生的后验概率为：

p(y|h₁,h₂,…,h_T)＝φ(W_outLSTM(h₁,h₂,…,h_T)) (19)

其中，φ为softmax激活函数，W_out是可学习参数矩阵，其行数为2，LSTM代表长短时记忆神经网络。最后，在得到预测的篮球进球事件发生后验概率后，利用我们利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算:

其中θ模型需要学习的参数，y₂为1，y₁为0代表预测的投篮入球事件在现实中真实发生，y₁为1，y₂为0代表预测的投篮入球事件在现实中没有发生。因此当预测的结果与现实真实结果不一致时，L(θ)取值较大，从而在训练对网络中的参数进行惩罚，最终使得预测的结果与真实事件类标更为接近。本发明基于深度图卷积神经网络和长短时间记忆神经网络，因此模型的参数由反向传播算法((Back PropagationThrough Time,BPTT)算法更新与优化。

本发明使用图卷积网络和长短时记忆神经网络(LSTM)对篮球比赛中的进球事件进行预测。在对单位长度的篮球比赛视频提取特征时，使用了三维卷积网络，比传统二维卷积网络多了时间维度的刻画，同时充分考虑视频中每个人和周围其他人的关系。为了捕捉篮球比赛中人与人之间的关系，本文利用图卷积深度神经网络，对人和人之间特征的信息交互进行刻画，在信息交互的过程中充分考虑到了人和人距离远近的关键因素，使得人与人之间的交互关系得到充分的表达。同时，本文还将基于全局的视频特征和图卷积神经网络得到的高维特征一起输入到长短时记忆神经网络，以对为来事件进行预测，使得模型既能聚焦局部，又能兼顾整体。本发明提出的模型能对篮球比赛进行良好的特征描述，从而实现篮球进分事件的准确预测，并且在美国职业篮球比赛(NBA)数据集中获得了较优的识别结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于图卷积网络和长短时记忆网络的事件预测方法，其特征在于，包括下述步骤：

S3、基于图卷积神经网络和长短时记忆神经实现对一段篮球视频下一单位长度进球事件的预测，先将输入的T秒长的篮球视频，按单位时间长度1秒分为T段视频片段，对于每个视频片段，用图卷积网络进行特征提取，最后将T个视频片段的特征按顺序输入长短时记忆神经网络进行预测；

所述步骤S3具体为：

将每个运动员视为图的一个节点，其节点特征为x_i；将所有运动员节点两两相连，即可得到全连接的无向图，将节点i和节点j的边权重定义为：

其中j∈N(i)

将节点i连向自己的边权重定义为：

其中0<p<1，p为超参数

在对上面的边权重用Softmax函数进行归一化，得到：

0＜w_ij＜1

w_ii＝p

由单位时间长视频片段构建图后，得到了图的节点特征集合X和边权重集合W，我们将其输入所述图卷积神经网络，可得到图的全局特征，将其表示为：

h_graph＝g(X，W)

h＝h_graph||x_scene

场景特征的加入使得提取的特征既有局部信息又有整体信息；

在对T个视频片段都提取特征并按时间顺序排列，得到特征序列{h₁，h₂，...，h_T}，将其作为T步长的多输入单输出的长短时记忆神经网络的输入，得到LSTM输出，并将其线性变换归一化，得到预测的篮球进球事件是否发生的后验概率为：

p(y|h₁，h₂，...，h_T)＝φ(W_outLSTM(h₁，h₂，...，h_T))

2.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法，其特征在于，步骤S1具体为：

S11、随机采样L帧RGB图像，并按时间顺序排列；

3.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法，其特征在于，步骤S2中，所述图卷积层的公式如下：

w′_ij＝α_ij

其中Θ∈R^F′xF，a∈R^2F′为可学习参数；

Θ为一个所有节点共享的线性变换矩阵，Θ∈RF^′xF，x_i∈R^F，y_i∈R^F′

4.根据权利要求3所述基于图卷积网络和长短时记忆网络的事件预测方法，其特征在于，基于图卷积层构建图卷积网络的具体方法为：

X′，W′＝f(X，W)

将n个图卷积层叠加，将当前层的输出作为下一层的输入；则可将图卷积网络第L层表示为：

X^L，W^L＝f^L(X^L-1，W^L-1)

其中1≤L≤n，X^L-1为第L层输入的节点特征集合，W^L-1为第L层输入的边权重集合，为了表征整个图的特征，我们将最后一层图卷积网络输出的所有节点特征进行平均，作为该图的全局特征h_graph，我们将这个步骤称为全局平均，可用如下公式表示：

其中N为图节点的个数。

5.根据权利要求1所述基于图卷积网络和长短时记忆网络的事件预测方法，其特征在于，在得到预测的篮球进球事件发生后验概率后利用交叉熵损失函数对预测类标和真实进球事件类标进行误差计算：