CN112508998A

CN112508998A - 基于全局运动的视觉目标对齐方法

Info

Publication number: CN112508998A
Application number: CN202011256300.8A
Authority: CN
Inventors: 毋立芳; 赵博煊; 赵宽; 杨雨辰; 简萌; 相叶; 石戈
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-03-16

Abstract

本发明提出了一种基于全局运动的视觉目标对齐方法，为了使冰壶项目运动员的训练更为科技化，能够更好的观察冰壶完整的运动路径。本方法通过分析冰壶运动视频可以获得视频中冰壶的跟踪数据，并且通过计算可以得到相机镜头的运动，用该运动对视频中的场地进行还原处理，进而得到冰壶场地的运动数据。将场地运动数据和冰壶跟踪数据相结合，最后计算得到完整的冰壶运动轨迹，输出可视化结果。通过测试验证了该方法的可行性，具有重要应用价值。

Description

基于全局运动的视觉目标对齐方法

技术领域

本发明设计图像处理领域，具体涉及与基于全局运动的视觉目标对齐。该方法根据架设在体育场内的专用摄像机所拍摄的冰壶比赛视频，顺序输入图像，通过目标跟踪和镜头运动还原获得冰壶跟踪轨迹。

背景技术

视频是由一个或多个镜头组成的，而每个镜头又是有连续的帧组成的，因此，获取冰壶运动轨迹的问题可以转换为获取每个视频帧中冰壶位置坐标的问题和获取镜头运动的问题。冰壶位置坐标要通过目标检测算法来获取，目前对于目标检测的研究已经有很大进展，目标检测的任务是找出图像中所有感兴趣的目标(物体)，确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观，形状，姿态，加上成像时光照，遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。目标检测的方法可以分为两类，一类是利用传统方法，比如帧差法、背景减除法、光流法等等，这些传统的目标检测方法大多数是基于手工特征所构建的计算方法。另一类是基于深度学习的目标检测算法，深度学习相对于传统目标检测算法能够提取更加高层和更好的表达目标的特征，还能将特征的提取、选择和分类集合在一个模型中。

获取镜头运动信息可以通过光流得到，但考虑到冰壶场地的特殊性，在拍摄过程中，绝大部分时间内屏幕都会被白色场地所占据，镜头的运动不能很好的体现出来。因此，从这样的视频提取得到的光流中无法表达出全局运动。也就无法进行后续的计算。

发明内容

为解决上述问题，本发明提供了一种基于全局运动的视觉目标对齐方法。目标检测部分使用深度学习算法实现，镜头运动的估计通过帧与帧之间角点匹配的办法实现，得到了良好的视觉目标对齐效果。

本发明的具体步骤如下:

步骤一：对于输入的视频，以视频帧序列的方式读取，对画面中出现的冰壶进行目标检测，得到每一帧中每个冰壶的位置坐标。

步骤二：对输入的视频进行全局运动估计，分别检测出视频每帧图像的角点，通常意义上来说，角点就是极值点，即在某方面属性特别突出的点，角点检测的基本思想是使用一个固定窗口(取某个像素的一个邻域窗口) 在图像上进行任意方向上的滑动，比较滑动前与滑动后两种情况，窗口中的像素灰度变化程度，如果存在任意方向上的滑动，都有着较大灰度变化，那么我们可以认为该窗口中存在角点。之后将每两帧之间检测到的角点进行配对，根据配对成功的角点计算每两帧之间的仿射变换矩阵。从仿射变换矩阵中提取出后一帧相对于前一帧的全局运动变量，即水平方向位移量、垂直方向位移量、倾斜角度、缩放尺度。将视频图形帧序列每两帧之间的全局运动变量依序输出后，通过后续的计算即可完成对摄像机全局运动路径的估计。

步骤三：在视频最后一帧中标注出冰壶计分区域中心的位置坐标，并对其使用步骤二中得到的两帧之间的全局运动变量进行计算，得到前一帧中的计分区域中心的位置坐标并输出。以此类推，从视频最后一帧开始，最终得到每一帧里计分区域中心点的位置坐标。

步骤四：在步骤三的基础上，以冰壶计分区域中心点为原点建立坐标系，该坐标系的x轴数值由左向右递增，y轴数值由上到下递增。将步骤一中得到的每帧里冰壶位置坐标与该帧中计分区域中心点位置坐标相减，得到的结果即为冰壶相对于计分区域中心点的坐标。将每一帧都按此方法处理之后，将得到的所有结果绘制在冰壶比赛场地的全景图上，即可得到冰壶完整运动轨迹的可视化数据。

本发明有如下优点：

通过帧与帧之间角点配对的方法计算两帧之间的仿射变换矩阵，并从仿射变换矩阵中提取出后一帧相对于前一帧的全局运动变量。使用这种方法，在最终结果准确性较高的情况下，解决了光流法不能从冰壶视频中表达出全局运动的问题，可以排除拍摄角度对查看冰壶运动轨迹的干扰。

附图说明：

图1为两帧之间角点匹配示意图。

具体实施方式

本发明提出了一种基于全局运动的视觉目标对齐方法。该发明的具体实现步骤如下：

步骤一：读取视频。将视频进行分帧处理，得到视频帧图像，对每张图像使用siamRPN++深度学习算法进行目标检测，得到冰壶的位置坐标。 siamRPN算法是一种基于RPN的孪生网络结构，由Siamese Network和RPN 两部分组成，前者用来从视频帧中提取特征，后者用来产生候选区域。在这之中，RPN网络又由两个分支组成，一个是用来区分目标和背景的分类分支，另外一个是微调候选区域的回归分支。在此基础上，siamRPN++算法进行了进一步的改进创新，使得算法的性能更好。对于视频帧中检测到的冰壶，该算法会将冰壶的外接矩形框的四角坐标作为输出结果，继续对该结果进行处理，得到矩形框中心位置的坐标，并将其视为冰壶中心位置坐标。

步骤二：对视频帧图像进行Shi-Tomasi角点检测，其中设定最大的角点个数为500，这个数字的设定考虑到了冰壶视频的特殊性，视频画面中大部分面积都是白色的冰壶场地，如果检测角点个数过少，会导致在之后的全局运动估计中出现较大误差。角点质量在0.01以下时自动忽略角点，如果将角点质量阈值设定过高，会出现符合条件的角点数量过少，影响后续计算。任意两个角点之间的最小欧式距离是12，以角点为中心取距离为12的邻域。以上四个参数的设定，是经过对比多组参数的实验结果之后确定下来的效果较好的一组参数。

角点质量评价方法如下：

其中w(x，y)是窗口函数，I(x，y)是该点的强度，I(x+u，y+v)是该点位移强度，E(u，v)是[u，v]这个方向上的图像灰度变化。角点检测需要使E(u，v)的值最大。

由I(x+u，y+v)＝I(x，y)+I_xu+I_yv+O(u²+v²)，其中，O(u²+v²)代表将I(x+u，y+v)展开后，得到的除I(x，y)+I_xu+I_yv以外的余项部分，其大小可以忽略不计。因此可以得到：

将

记为Δ，则，

这里I_x和I_y是x和y方向的导数。令λ₁，λ₂为M的特征值，则打分函数为：

R＝min(λ₁，λ₂)

如果打分R超过设定的角点质量评价值，就认为它是角点。

之后将每两帧之间检测出的角点进行配对，根据配对成功的角点计算每两帧之间的仿射变换矩阵。本发明中采用了四参数仿射变换模型进行全局运动的估计，仿射变换矩阵A的模型如方程(1)所示。

其中，x和y分别代表后一帧图像相对于前一帧图像的水平和垂直位移量， s代表缩放尺度，θ代表倾斜角度。

将仿射变换矩阵中的参数进行代换简化后，就得到了后一帧相对于前一帧的全局运动变量，全局运动变量矩阵B的模型如方程(2)所示。

其中，a等于仿射变换矩阵中的s*cosθ，b等于仿射变换矩阵中的 -s*sinθ，c等于仿射变换矩阵中的x，d等于仿射变换矩阵中的s*sinθ，e 等于仿射变换矩阵中的s*cosθ，f等于仿射变换矩阵中的y。

将视频每两帧之间的全局运动变量矩阵依序输出，用于后续对全局运动的估计。

步骤三：手动在视频帧图像里获取视频最后一帧中冰壶计分区域中心点的位置坐标，并用步骤二结果中最后一帧与倒数第二帧之间的全局运动变量对该坐标进行计算处理，计算过程如方程(3)，(4)所示。

x₂＝ax₁+by₁+c (3)

y₂＝dx₁+ey₁+f (4)

其中，等式右侧的两个未知数(x₁，y₁)为输入的后一帧中冰壶计分区域中心点的位置坐标，a，b，c，d，e，f分别与后一帧和前一帧之间的全局运动变量矩阵B中的参数a，b，c，d，e，f相同，等式左侧的两个未知数(x₂，y₂)为求得的前一帧中冰壶计分区域中心点的位置坐标。因此，将最后一帧中冰壶计分区域中心点的位置坐标作为输入，计算得到方程左侧的结果(x₂，y₂)为倒数第二帧中冰壶计分区域中心点的位置坐标。之后使用视频倒数第二帧与倒数第三帧之间的全局运动变量，对输入的倒数第二帧中冰壶计分区域中心点的位置坐标按同样方式处理，得到倒数第三帧中冰壶计分区域中心点的位置坐标。以此类推，最终可以计算得到视频第一帧中冰壶计分区域中心点的位置坐标，此时就已经获取到了视频全部帧中冰壶计分区域中心点的位置坐标。

步骤四：以冰壶计分区域中心点为原点建立坐标系，该坐标系的x轴数值由左向右递增，y轴数值由上到下递增。将步骤一中得到的每一帧中的冰壶中心位置坐标(x，y)，与在步骤三中得到的当前帧中冰壶计分区域中心点的位置坐标(x′，y′)，分别在x方向上和y方向上相减，得到的(x-x′，y-y′)就是冰壶相对于计分区域中心点的位置坐标。按此方式在每一帧里都使用当前帧的冰壶中心位置坐标和冰壶计分区域中心点的位置坐标计算，即可得到冰壶在每一帧中相对于冰壶计分区域中心点的位置坐标，将得到的全部结果画在冰壶场地全景图上，便实现了对冰壶完整运动轨迹的还原与可视化处理。

为了验证本发明的有效性，将本发明的方法在冰壶赛事视频上进行实验，将可视化结果与原始视频进行对比，可以发现本方法得到的结果与原始结果基本一致。

Claims

1.一种基于全局运动的视觉目标对齐方法，其特征在于，包括以下步骤：

(1)对冰壶运动视频中的冰壶进行目标跟踪，得到每一帧中冰壶所在位置的像素点坐标；

(2)对视频帧与帧之间的角点进行配对，得到仿射变换矩阵，在此基础上进行估计，得到视频中摄像机的全局运动数据；

(3)手动获取视频最后一帧冰壶计分区域中心点坐标，并用全局运动数据对其进行处理，得到所有帧中计分区域中心点位置坐标；

(4)结合冰壶位置数据和冰壶计分区域中心点位置数据，计算得到冰壶在场地上的完整运动轨迹，避免了镜头运动所产生的的干扰，实现视觉目标对齐。

2.根据权利要求1所述的方法，其特征在于步骤(1)中，对冰壶的目标跟踪的具体方法为：对冰壶进行目标检测，使用的是siamRPN++深度学习算法，该方法直接对视频每一帧里的冰壶进行跟踪，得到冰壶在当前图像里的位置，返回结果是每一帧里冰壶检测矩形框的四个角的坐标值；继续对该结果进行处理，得到矩形框中心位置的坐标，并将其视为冰壶中心位置坐标。

3.根据权利要求1所述的方法，其特征在于步骤(2)中，全局运动的估计方法为：分别对视频里的每一帧图像检测角点，使用的是Shi-Tomasi算法；

角点质量评价方法如下：

其中w(x，y)是窗口函数，I(x，y)是该点的强度，I(x+u，y+v)是该点位移强度，E(u，v)是[u，v]这个方向上的图像灰度变化；角点检测需要使E(u，v)的值最大；

由I(x+u，y+v)＝I(x，y)+I_xu+I_yv+O(u²+v²)，其中，O(u²+v²)代表将I(x+u，y+v)展开后，得到的除I(x，y)+I_xu+I_yv以外的余项部分，其大小可以忽略不计；因此得到：

将

记为Δ，则，

这里I_x和I_y是x和y方向的导数；令λ₁，λ₂为M的特征值，则打分函数为：

R＝min(λ₁，λ₂)

如果打分R超过设定的角点质量评价值，就认为它是角点；设定的角点质量评价值设置为0.01；

之后根据两帧之间配对成功的角点，估计出两帧之间的仿射变换矩阵，从中提取出后一帧相对于前一帧的全局运动变量，包括水平方向位移量、垂直方向位移量、倾斜角度、缩放尺度。

4.根据权利要求1所述的方法，其特征在于步骤(3)中，对于手动获取到的冰壶计分区域中心点的位置坐标，使用步骤(2)中得到的全局运动变量对其进行处理，便能得到前一帧的计分区域中心点位置坐标；以此类推，直到获得视频所有帧中的计分区域中心点位置坐标。

5.根据权利要求1所述的方法，其特征在于步骤(4)中，对步骤(1)得到的冰壶位置数据进行处理，求得冰壶检测框的中心位置坐标，将该数据与步骤(3)得到的每一帧中冰壶计分区域中心点位置坐标相结合进行计算，得到视频每一帧中冰壶相对于计分区域中心的相对位置坐标；将该结果绘制在冰壶比赛场地全景图上，得到冰壶完整运动轨迹的可视化数据。