CN103745483A

CN103745483A - 一种基于球场比赛视频图像的移动目标位置自动检测方法

Info

Publication number: CN103745483A
Application number: CN201310714339.3A
Authority: CN
Inventors: 沈乐君; 刘青
Original assignee: Chengdu Sport University
Current assignee: Chengdu Sport University
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2014-04-23
Anticipated expiration: 2033-12-20
Also published as: CN103745483B

Abstract

本发明公开了一种基于球场比赛视频图像的移动目标位置自动检测方法。检测方法包括比赛视频图像采集，视频图像处理和移动目标位置确定；本发明与现有方法相比，采用了直线跟踪与子像素优化方法；综合本发明系统整体的检测方法，本发明明显提高了从电视视频中获取技战术信息的速度与精度，有助于完成多摄像机条件下的摄像机参数自动标定，对开展体育视频分析与理解，进一步提高体育运动的技术分析与应用能力，提高运动员技战术水平有重要的作用。

Description

一种基于球场比赛视频图像的移动目标位置自动检测方法

技术领域

本发明属于计算机视觉、图像处理技术领域，尤其属于体育比赛技术分析图像处理技术领域，特别涉及一种基于球场比赛视频图像的移动目标位置自动检测方法。

背景技术

在体育比赛中，技战术对比赛结果有决定性的影响。因此，获取敌我双方的技战术信息，并进行统计分析，成为克敌制胜的关键环节。其中，从视频图像中获得运动员的技战术数据，不但具有客观、无干扰的特点，而且能够在比赛条件下进行的，是目前最为有效的科研手段之一。

真实的矩形比赛场地被光学装置如摄像机处理后，变成远小近大的透视图像。因此，需要将图像坐标下的二维落点位置进行“逆透视”变换，变为世界标准坐标系下的落点坐标，才能得到真实的球场落点信息。目前，有的技战术分析软件已经具备逆透视变换功能。

但是，上述方法在标定过程中严重依赖手工，效率非常低。如果摄像机固定不变，则只需要标定一次，就可以获取击球落点。但是，我们获得的关于对手的电视视频，大都不满足“摄像机固定不变”的条件。在体育比赛电视转播过程中，摄像机常常随着运动员的跑动而平移、在比赛精彩之处对运动员进行放缩、而且常常切换镜头避免观众出现疲劳。当摄像机参数不断变化，如平移、放缩和镜头切换时，需要对每帧都进行标定。逐帧标定的工作量巨大。

Farin（Farin D,Krabbe S,Effelsberg W.Robust camera calibration for sport videos using court models[C].Proceedings of SPIE Storage and Retrieval Methods and Applications for Multimedia,2004,5307:80.）在2004年提出的方法中，采用了霍夫变换的直线检测方法。但是，因为球场直线的实际宽度往往大于2个像素，所以霍夫变换容易出现多个检测结果。霍夫变换虽然能够检测到球场直线，但是一条真实的球场直线至少存在3条以上的直线检测结果。虽然它使用LMS方法将多个检测结果合并，但这给直线检测的精度带来了误差。也就是说，他的方法存在较大的误差。

Farin（Farin D,Han J.Fast camera calibration for the analysis of sport sequences[C].IEEE International Conference on Multimedia and Expo(ICME),2005:4）在2005年提出的方法中，采用了基于RANSAC（随机抽样一致性）的直线检测方法。该方法提高了计算速度，但是由于它的随机性，直线检测的结果依然存在较大的误差。其次，他们还使用了直线段的方法来进行更快速的球场检测。这极大的提高了计算效率。但是，他们并没有对RANSAC方法引入的系统误差进行处理。

沈乐君（Shen L J,Ke Z Y.A fast and sub-pixel detector for grid-like target in camera calibration[C].2010Symposium on Photonics and Optoelectronic (SOPO),2010:1-4.）在2010年提出的方法中，采用了新的直线检测思路。他们首先提取图像中的特征点，然后根据这些图像特征点进行分类，然后连接特征点完成直线检测。该方法通过特征点过滤的技术，降低了直线检测的计算量。而且，他们提出子像素精度的方法。但是，该直线检测方法隐含着一个假设：球场直线由特征点连接而成。但是，在真实的视频中，尤其是电视视频中，该假设并不总是成立。所以存在漏检的情况。

发明内容

本发明根据现有技术的不足公开了一种基于球场比赛视频图像的移动目标位置自动检测方法。本发明要解决的问题是采用检测与跟踪融合的分层直线跟踪技术（detection-by-tracking），消除了直线检测的虚警，降低比赛场地识别的计算量，实现自动识别比赛场地中的靶标，自动计算透视变换参数，进而获取移动目标位置等信息。

本发明通过以下技术方案实现：

基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于包括比赛视频图像采集，视频图像处理和移动目标位置确定；

比赛视频图像采集：获取包含球场的体育比赛中包括移动目标的数字视频图像；

视频图像处理：建立自动识别靶标、比赛场地模型与视频图像特征之间的透视变换矩阵数据库；

移动目标位置确定：通过逆透视变换确定视频图像中移动目标在比赛场地模型的位置。

进一步所述视频图像处理包括系统内置比赛场地模型文件、白像素检测、直线检测、场地检测；

所述白像素检测是将视频图像二值化并优化降低噪声干扰；

所述直线检测是根据白像素检测结果确定视频图像中的比赛场地直线，包括对视频图像进行随机抽样一致性、最小二乘法和直线跟踪数据处理；

其中直线跟踪是：根据视频图像获得的t和t+1时刻的直线特征L(i,t)和L(j,t+1)，i=1,2,...,n；计算t时刻的第i条直线L(i,t)与t+1时刻的第j条直线L(j,t+1)的夹角余弦c(i,j)；

然后，将夹角最小的直线L(j,t+1)与L(i,t)关联；重复上述步骤直到没有关联为止；

\max Σ_{i = 1}^{n} Σ_{j = 1}^{n} c (i, j) x (i, j) s . t \{\begin{matrix} \underset{j}{Σ} x (i, j) = 1, i = 1,2, . . ., n \\ \underset{i}{Σ} x (i, j) = 1, j = 1,2, . . ., n \\ x (i, j) &Element; {0,1} \end{matrix}

在连续3帧中，直线L(i,t)在相同位置反复出现，标记它为可信的直线；反之，若c(i,j)大于设定阈值，则是虚警，则取消L(i,t)与L(j,t+1)的关联；阈值设定可以为5度。阈值越小，则直线关联的约束条件越严格，获得的直线越可靠。

所述场地检测是根据内置比赛场地模型文件、直线检测获得的比赛场地直线特征进行场地模型拟合获得比赛场地模型与视频图像特征之间的透视变换矩阵数据库。

更进一步所述场地检测包括生成比赛场地假设、快速拒绝、子像素优化和场地似然度比较；

其中子像素优化是优化边线交点，包括利用目标函数：

f (C) = \underset{j &Element; N (C)}{Σ} g_{j}^{T} P_{j}

其中，N(C)表示中心点C附近的11x11图像邻域；使用Levenberg Marquardt无约束最优化算法求目标函数f的极小值

C^{*} = \arg \min_{C} {f (C)}

经过迭代后，得到优化边线交点。

本发明白像素检测包括二值化、纹理区域消除和均一区域消除；

纹理区域消除采用Sobel算子计算图像I的梯度；然后，在每个白像素I(x,y)的5x5邻域内计算下列矩阵

C = [\begin{matrix} Σ {(\frac{δI}{δx})}^{2} & Σ \frac{δI}{δx} \frac{δI}{δy} \\ Σ \frac{δI}{δx} \frac{δI}{δy} & Σ {(\frac{δI}{δy})}^{2} \end{matrix}]

的特征值λ₁和λ₂，如果λ₁>λ₂且λ₁<4λ₂，则该像素属于复杂的纹理区域，设置该白色像素的值为0；

均一区域消除采用每个白像素I(x,y)的7x7邻域内计算中央像素I(x,y)的上下左右4个点；如果中央像素I(x,y)比上下或左右的两个像素亮，则维持白像素的值1不变；反之，该像素属于均一区域，设置该像素的值为0。

本发明所述生成比赛场地假设是从场地模型中选出2条水平线和2条垂直线，从直线检测获得的比赛场地直线特征中选出2条水平线与2条垂直线；用透视变换矩阵H_i来唯一的表示该场地假设。

本发明所述快速拒绝是根据透视变换矩阵H_i值计算形变比率β：

f^{2} = - \frac{h_{00} h_{01} + h_{10} h_{11}}{h_{20} h_{21}}; β^{2} = \frac{h_{01}^{2} + h_{11}^{2} + f^{2} h_{21}^{2}}{h_{00}^{2} + h_{10}^{2} + f^{2} h_{20}^{2}}

若β的值小于0.5或大于2.5，则拒绝球场假设H_i，令Likelihood(H_i)=0，反之，根据H_i的值，将场地模型变换到比赛场地图像中，计算场地模型投影到二维图像的面积，面积以像素表示；若投影面积小于比赛场地图像的像素总和的10%或大于80%，则拒绝球场假设H_i，令Likelihood(H_i)=0；

上述两个测试均通过，则接受球场假设H_i。

本发明所述场地似然度比较是将场地模型变换到比赛场地图像中，该球场的似然度Likelihood(H_i)等于全部边线似然度的总和：

Likelihood (H_{i}) = Σ_{j = 1}^{9} Line (j) = Σ_{j = 1}^{9} \underset{(x, y) &Element; line (j)}{Σ} S (x, y)

其中，Line(j)是第j条边线的似然度，边线似然度等于该直线的全部像素的似然度的总和，像素(x,y)的似然度S(x,y)定义如下：

S (x, y) = \{\begin{matrix} 1 & W (x, y) = 1 \\ - 0.5 & W (x, y) = 0 \\ 0 & (x, y) isoutofimage \end{matrix}

若像素(x,y)是白像素，得1分；若该像素不是白像素，得-0.5分；若该像素在图像边界以外，得0分；

从全部场地假设中选择似然度最大的场地假设，作为场地检测的结果；

H^{*} = \arg \max_{H_{i}} {Likelihood (H_{i})}

若H*的似然度低于阈值400，则拒绝该结果，场地检测结果为空。

本发明移动目标位置确定是根据球场比赛视频图像中出现的目标位置得到图像坐标系下的目标落点位置p=(x,y)^T，单位：像素；然后，变换到齐次坐标系p’=(x,y,1)^T；利用透视变换矩阵H*，将p’变换到场地标准坐标系，得到目标的真实位置q，

q=H^*p'=H^*[x y 1]^T q的单位：米。

下面对本发明的一些原理进行说明：

本发明首先使用灰度阈值（二值化）的方法获取白像素。例如，图像的像素灰度大于110的点被认为是白色点。可是，因为体育比赛图像中存在着很多干扰，所以还需要进行进一步的剔除。

第一，我们使用Farin的非线性滤波方法，消除非直线特征产生的均一区域白像素。例如，穿白色衣服的运动员会产生大片的白像素区域，这一大片白像素区域势必干扰直线特征提取。第二，我们使用图像梯度的特征值方法，消除复杂纹理区域的白像素。例如，在观众席中存在的白色像素。上述两种方法，隐含着两个假设“比赛场地直线的白色像素附近没有复杂纹理，直线的宽度小于4个像素”。体育比赛图像显然满足这两个假设。最后，球场直线的白像素绝大部分被保留，多余的白像素被剔除。

本发明还使用随机抽样一致性方法来检测直线。基于随机抽样一致性方法的直线检测的原理是：从白像素图像中随机选中2个点，假设这两点之间存在一条直线，然后检查在这条直线附近的白像素个数。如果虚线内的白像素个数大于某个阈值，则该假设成立，检测到直线，移除这些白像素。反之，继续随机选择2个点。该方法的优点是速度快，而且不会出现漏检的情况。本发明采用了直线检测方法。但是，因为比赛场地直线的实际宽度大于2个像素，所以直线检测的结果也会偏离真实直线约2个像素。因此，使用该方法获得的直线是不精确的。这导致最终的比赛场地检测结果也将是不精确的。

由于RANSAC的随机性，以及白像素的虚警，导致许多直线检测的结果都是不正确的。消除这些错误的结果（虚警），有利于下一步的球场检测。本发明研究发现，在t时刻出现的直线检测结果，还会在t+1和t+2时刻再次出现。相反，虚警往往只出现一次，不会在相同的位置再次出现。于是，我们将直线检测算法在时域上进行扩展，引入分层数据关联（跟踪）的思想。它的原理是：在连续3帧中，若某直线在相同位置附近反复出现，则说明它们是稳定的图像特征，标记它为直线。反之，若仅出现一次，则很可能是虚警。也就是说，本应用步骤的隐含假设是：比赛场地直线在图像中稳定不变。真实视频中，当摄像机做慢速平移、俯仰或放缩时，该假设成立。反之，镜头切换的时候，该假设不满足。这导致全部直线特征失效，重新进行新的球场检测。所以，直线跟踪适合于动态场景运行结果令人满意。

其次，当不稳定的图像特征被剔除后。球场假设的生成个数也极大减少。因此，直线跟踪的第二个好处是：降低计算量。

本发明球场模型拟合首先从预置的标准比赛球场模型中选出4条直线，分别与比赛视频图像中的4条直线进行匹配。每一次选择都生成了一个球场假设。然后，根据这4条直线的交点，可以得到8个线性方程。将它们联立求解，可以得到摄像机参数。

接着，将比赛场地模型反投影到视频图像中。最后，计算该球场模型的得分（或似然）。具体方法是沿着反投影的直线段统计像素的得分：若该像素是白像素，得1分；若该像素不是白像素，得-0.5分；若该像素在图像边界以外，得0分。

如果图像共有4条垂直的图像直线特征，5条水平的图像直线特征。那么，可以生成3600个比赛场地假设。在全部的图像假设中，得分（似然）最大的比赛场地假设，就是靶标识别的结果。

Farin采用了统计靠近比赛场地直线的白像素个数的方法。该方法的缺点是所有“靠近”比赛场地直线的白像素，都会被统计在该直线的似然度之内。这样，不精确的直线也能够获得相当不错的似然度得分。反之，为了获得更高精度的似然度，本发明采用了在视频图像中进行直线扫描的方法。由于直线扫描是单像素的方式来计算似然度分数，因此误差大于1个像素的比赛场地假设很可能会被拒绝。该方法的优点是，本发明的比赛场地检测的精度将提高到小于等于1个像素。

但是，无论是Farin的以“靠近”为标准的像素扫描方法，还是单像素扫描方法，都存在缺点：由于严苛的单像素扫描，某些很好的比赛场地假设可能得到很低的分数（被拒绝）。有鉴于直线检测技术自身就存在误差，为了尽量避免直线检测误差导致比赛场地假设被拒绝，本发明采用了子像素优化的技术。

本发明研究发现：白色比赛场地边线产生的梯度方向与该直线方向垂直。边线交点，实际上是场地边线产生的这些梯度的垂直交汇点。换句话说，设P_j是从理想比赛场地特征点到比赛场地边线中第j个像素的向量，则第j个像素的梯度方向g_j与该向量Pj垂直。

根据上述观察，本发明设计了如下的目标函数：

f (C) = \underset{j &Element; N (C)}{Σ} g_{j}^{T} P_{j}

其中，N(C)表示中心点C附近的11x11图像邻域。比赛场地特征点使目标函数f最小化。

最后，本发明使用Levenberg–Marquardt最优化算法求目标函数的极小值

C^{*} = \arg \min_{C} {f (C)}

经过多次迭代后，得到优化边线交点。

本发明子像素优化方法的优点是计算代价小，精度高。

本发明有益性：本发明提出了新的基于球场比赛视频图像的移动目标位置自动检测方法。与现有方法相比，本发明采用了直线跟踪与子像素优化方法；综合本发明系统整体的检测方法，本发明明显提高了从电视视频中获取技战术信息的速度与精度，有助于完成多摄像机条件下的摄像机参数自动标定，对开展体育视频分析与理解，进一步提高体育运动的技术分析与应用能力，提高运动员技战术水平有重要的作用。

附图说明

图1是网球场地的示意图；

图2A是二值化源图像；图2B是二值化效果；

图3是均一区域消除计算方式示意图；

图4A是二值化效果；图4B是消除噪音示意图；

图5A、图5B、图5C是直线检测示意图；

图6是直线相似度计算示意图；

图7A、图7B是直线跟踪示意图；

图8是球场假设的4条直线对应图；

图9是计算投影面积的示例图；

图10是梯度图像中的边线交点与图像特征点示意图；

图11是梯度方向图与目标函数；

图12是图像特征点（起始点）、目标函数f(C)与边线交点（终点）技术示意图；

图13是像素似然度S(x,y)的示意图；

图14是视觉测量示意图

具体实施方式

下面通过实施例对本发明进行具体的描述，本实施例只用于对本发明进行进一步的说明，但不能理解为对本发明保护范围的限制，本领域的技术人员根据上述本发明的内容作出的一些非本质的改进和调整也属于本发明保护的范围。

本发明基于球场比赛视频图像的移动目标位置自动检测方法，包括比赛视频图像采集，视频图像处理和移动目标位置确定；

比赛视频图像采集：获取球场比赛中包括移动目标的数字视频图像；

下面以球类比赛为例对本发明进行说明：

一、比赛视频图像采集

使用数字摄像机录制比赛视频。为了拍摄室内的体育比赛（如乒乓球），本数字检测系统的摄像机具有较大的光圈（F1.8）和较高的快门速度（1/30-1/250）。为了完整的记录一场比赛，摄像机配置了大于32GB的存储器（SDHC）。为了满足体育比赛过程中的在线技战术分析需求，还提供HDMI与AV输出接口。

比赛视频图像采集还可以通过已有的比赛视频图像资料获得。

二、视频图像处理

视频处理，包含如下个步骤。

系统内置球场模型文件，包含各种球场的长宽高等几何数据。目前各类国际比赛所采用的比赛场地均为标准场地，例如，网球场的几何数据如图1所示：

2.1白像素检测

步骤1：二值化。使用灰度阈值（二值化）的方法获取图像I的白像素。即“若像素I(x,y)的灰度大于110，则设置该像素的值为1”。虽然该方法的计算速度很快，但是存在较大的噪声干扰，如图2B中的椭圆部分。图2A是源图像，图2B是二值化效果。

步骤2：纹理区域消除。为了进一步消除白像素中的噪声。我们首先使用Sobel算子计算图像I的梯度。然后，在每个白像素I(x,y)的5x5邻域内计算下列矩阵

C = [\begin{matrix} Σ {(\frac{δI}{δx})}^{2} & Σ \frac{δI}{δx} \frac{δI}{δy} \\ Σ \frac{δI}{δx} \frac{δI}{δy} & Σ {(\frac{δI}{δy})}^{2} \end{matrix}]

的特征值λ₁和λ₂。如果λ₁>λ₂且λ₁<4λ₂，则该像素属于复杂的纹理区域，如图2B椭圆部分，那么设置该白色像素的值为0。

步骤3：均一区域消除。在每个白像素I(x,y)的7x7邻域内计算图3中的4个点。

如果中央的像素I(x,y)比标记为V的两个像素亮，或者I(x,y)比标记为H的两个像素亮，则维持白像素的值1不变。反之，该像素属于均一区域，如图4中矩形部分，则设置该像素的值为0。

通过步骤2和步骤3，纹理区域，图4椭圆部分与白色衣服图4矩形部分的白像素被设置为0。这样，减少了白像素的个数，使得后续直线检测更准确。图4A是二值化图像，图4B是消除噪声后，观众席的纹理区域与白衣服的均一区域的白像素被消除的效果。

2.2直线检测

步骤4：RANSAC。随机抽样一致性算法（RANSAC）是从含有大量噪声的数据中，进行模型拟合的鲁棒性方法。在2.1中，我们得到了白像素图像W(x,y)。设白像素点有N_w个，i为直线的个数。

首先，均匀地随机地选择2个白像素点，如图5A和图5B中圆圈，根据这2点得到直线L。然后，根据剩下的N_w-2个点计算到直线L的距离。若距离小于2，则该点属于直线L。计算N_w-2次后，若属于该直线的点的个数大于10，则说明L是一条有效的球场边线，如图5A。接着，根据这些属于L的点，计算拟合误差E，并令L(i)=L，i++。反之，若属于该直线的点的个数小于10，则拒绝直线假设L，如图5B。重复上述步骤，直到没有满足条件的球场边线或迭代次数大于最大迭代次数为止。最后，得到N_L条直线，如在图5C中N_L=13。

步骤5：最小二乘法。因为球场直线的实际宽度大于2个像素，所以直线检测的结果也很可能偏离真实直线约2个像素。因此，使用上述步骤获得的直线往往是不精确的。这将导致最终的球场检测结果不精确。所以，有必要修正直线参数。我们根据属于L(i)的白像素，计算球场直线L(i)的最小二乘解。由于点的个数大于2，所以得到的直线参数更加精确。该步骤可以减少由于RANSAC的随机性带来的直线拟合误差。

步骤6：直线跟踪。由于RANSAC的随机性与白像素虚警，如图4B中观众席区域依然存在很多白像素点，导致许多直线检测的结果都不正确，如图5C中编号为8,9,10,11,13的直线。如果将这些错误的直线用于球场识别和检测，将出现很多错误。

我们发现：在t时刻出现的直线L(i,t)，还会在t+1和t+2时刻再次出现。相反，噪声导致的直线虚警往往只出现一次，不会在相同的位置再次出现。受到分层数据关联（跟踪）思想的启发，本发明提出了直线跟踪技术。

假设已经获得t和t+1时刻的直线特征L(i,t)和L(j,t+1)，i=1,2,...,n。计算t时刻的第i条直线L(i,t)与t+1时刻的第j条直线L(j,t+1)的夹角余弦c(i,j)。如图6所示。

然后，将夹角最小的直线L(j,t+1)与L(i,t)关联。重复上述步骤直到没有关联为止。

\max Σ_{i = 1}^{n} Σ_{j = 1}^{n} c (i, j) x (i, j) s . t \{\begin{matrix} \underset{j}{Σ} x (i, j) = 1, i = 1,2, . . ., n \\ \underset{i}{Σ} x (i, j) = 1, j = 1,2, . . ., n \\ x (i, j) &Element; {0,1} \end{matrix}

如果在连续3帧中，直线L(i,t)在相同位置反复出现，则说明它们是稳定的图像特征，标记它为可信的直线，如图7中标记为1,2,3,4,5,6,7,11的直线。反之，若c(i,j)大于某个阈值，本例取5度，则很可能是虚警。通过上面的方法，可以消除大部分的虚假直线特征，如图7A中标记为8,9,10,12,13,14,15的直线。最后，图7B中上方观众席（标记为10,14）与下方字幕（标记为8，15）导致的虚假直线被消除。

2.3球场检测

步骤7：生成球场假设。如图8所示，本例以网球为例，从预置的网球球场模型中选出4条直线（2条水平线与2条垂直线），然后从比赛图像中选出4条直线（2条水平线与2条垂直线）。这8条直线构成第i个球场假设。用透视变换矩阵H_i来唯一的表示该球场假设。对于第1帧，为了保证球场检测模块能够得到最优解，我们的生成策略是：完全枚举。

从第2帧之后，上一帧的球场检测结果为我们提供了在当前帧搜索最优解的先验信息。因此，第2帧之后的生成策略是：先验优先。换句话说，根据上一时刻的直线与球场似然度来选择当前时刻的直线。这有助于快速寻找最优解。

例如，在图8中，我们从模型中选择4条直线，从图像中选择4条直线（虚线是没有被选中的直线）。然后，根据这4条直线的交点（图像中的p₁’,p₂’,p₃’,p₄’与模型中的p₁,p₂,p₃,p₄），可以得到8个线性方程

[\begin{matrix} x_{1} & y_{1} & 1 & 0 & 0 & 0 & x_{1}^{'} x_{1} & x_{1}^{'} y_{1} \\ x_{2} & y_{2} & 1 & 0 & 0 & 0 & x_{2}^{'} x_{2} & x_{2}^{'} y_{2} \\ x_{3} & y_{4} & 1 & 0 & 0 & 0 & x_{3}^{'} x_{3} & x_{3}^{'} y_{3} \\ x_{4} & y_{4} & 1 & 0 & 0 & 0 & x_{4}^{'} x_{4} & x_{4}^{'} y_{4} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & y_{1}^{'} x_{1} & y_{1}^{'} y_{1} \\ 0 & 0 & 0 & x_{2} & y_{2} & 1 & y_{2}^{'} x_{2} & y_{2}^{'} y_{2} \\ 0 & 0 & 0 & x_{3} & y_{3} & 1 & y_{3}^{'} x_{3} & y_{3}^{'} y_{3} \\ 0 & 0 & 0 & x_{4} & y_{4} & 1 & y_{4}^{'} x_{4} & y_{4}^{'} y_{4} \end{matrix}] [\begin{matrix} h_{11} \\ h_{12} \\ h_{13} \\ h_{21} \\ h_{22} \\ h_{23} \\ h_{31} \\ h_{32} \end{matrix}] = [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \\ x_{1}^{'} \\ x_{2}^{'} \\ x_{3}^{'} \\ x_{4}^{'} \end{matrix}]

求解上述方程组，得到透视变换矩阵H的8个元素值（即h₁₁,h₁₂,...,h₃₂），并令h₃₃=1。

步骤8：快速拒绝。为了提高球场检测的执行效率，需要快速拒绝具有明显错误的球场假设。本发明采用2个方法：形变比率和投影面积。根据H_i的值，计算形变比率β：

f^{2} = - \frac{h_{00} h_{01} + h_{10} h_{11}}{h_{20} h_{21}}; β^{2} = \frac{h_{01}^{2} + h_{11}^{2} + f^{2} h_{21}^{2}}{h_{00}^{2} + h_{10}^{2} + f^{2} h_{20}^{2}}

若β的值小于0.5或大于2.5，则拒绝球场假设H_i，令Likelihood(H_i)=0。反之，根据H_i的值，将球场模型变换（或投影）到图像中，然后计算投影图形的面积。如图9所示，图9左图为标准预置的网球球场模型，其面积为260.7569平方米，图9中右图为视频图像，其面积为35640像素。

若投影面积小于图像的像素总和的10%或大于80%，则拒绝球场假设H_i，令Likelihood(H_i)=0。若上述两个测试都通过，则接受球场假设H_i。

步骤9：子像素优化。如前所述，我们使用球场边线的交点来计算H。可是，因为RANSAC的随机性与球场边线宽度大于2个像素，所以交点的误差很大。例如，将图10中某个交点区域放大后，可以发现图像特征点离真正的边线交点还有1～3个像素的误差。图10梯度图像中的边线交点与图像特征点，图中实心圆表示实际的边线交点，圆圈表示视频图像的交叉特征点。

我们发现：白色球场边线产生的梯度方向与该直线方向垂直。边线交点是球场边线产生的这些梯度的垂直交汇点。换句话说，设P_j是从理想边线交点到球场边线中第j个像素的向量，则第j个像素的梯度方向g_j与该向量Pj垂直。例如，在图11A和图11B中，白色球场边线产生的主要的梯度方向用箭头表示。设中心点为C，坐标=(u,v)。从C到5个像素（i₁,i₂,i₃,i₄,i₅）的方向矢量是（P₁,P₂,P₃,P₄,P₅）。这5个像素的梯度方向矢量（g₁,g₂,g₃,g₄,g₅）与（P₁,P₂,P₃,P₄,P₅）的夹角接近于90度（垂直）。换句话说，点积g_j ^TP_j接近于0。

于是，我们设计了如下的目标函数：

f (C) = \underset{j &Element; N (C)}{Σ} g_{j}^{T} P_{j}

其中，N(C)表示中心点C附近的11x11图像邻域。然后，使用Levenberg Marquardt无约束最优化算法求目标函数f的极小值

C^{*} = \arg \min_{C} {f (C)}

寻找极值的过程如图12所示。图12图像特征点（起始点）、目标函数f(C)与边线交点（终点），我们选择Harris角点作为起始点C₀=(243,88)，经过多次迭代后，终点（极值点）是球场边线交点C*=(242.32,87.51)。

步骤10：球场似然度。根据H_i，将球场模型变换（或投影）到图像中。则该球场假设的似然度Likelihood(H_i)等于全部边线似然度的总和：

Likelihood (H_{i}) = Σ_{j = 1}^{9} Line (j) = Σ_{j = 1}^{9} \underset{(x, y) &Element; line (j)}{Σ} S (x, y)

其中，Line(j)是第j条边线的似然度。例如，网球场共有9条球场边线，则j=1,2,...,9。边线似然度等于该直线的全部像素的似然度的总和。像素(x,y)的似然度S(x,y)定义如下：

S (x, y) = \{\begin{matrix} 1 & W (x, y) = 1 \\ - 0.5 & W (x, y) = 0 \\ 0 & (x, y) isoutofimage \end{matrix}

换句话说，若像素(x,y)是白像素，得1分；若该像素不是白像素，得-0.5分；若该像素在图像边界以外，得0分。如图13所示，这三种情况分别用灰色实线、黑色虚线和双实线表示：如图13像素似然度S(x,y)的示意图。

最后，从全部球场假设中选择似然度最大的球场假设，作为球场检测的结果。

H^{*} = \arg \max_{H_{i}} {Likelihood (H_{i})}

若H*的似然度低于某个阈值（如400），则拒绝该结果，球场检测结果为空。

三、移动目标位置确定

视觉测量

通过前面的步骤，可以得到球场模型与图像特征之间的透视变换矩阵H*。这个矩阵的用途是计算真实的击球落点位置。由于网球（乒乓球、羽毛球等）的速度太快，自动识别电视画面中的球落点非常困难。因此，我们采用人工操作的方式来完成视觉测量。

步骤11：逆透视变换。本系统支持对常用视频文件（如*.avi）的播放、暂停、前一帧、后一帧、前10帧、后10帧与书签功能。当图像中出现击球落点时，操作人员用鼠标点击图像中的落点位置，得到图像坐标系下的球落点位置p=(x,y)^T（单位：像素）。然后，变换到齐次坐标系p’=(x,y,1)^T。接着，利用透视变换矩阵H*，将p’变换到世界坐标系，得到球落点的真实位置q（单位：米）。

q=H^*p'=H^*[x y 1]^T

这个变换也被称为逆透视变换。例如，图14是2006年足球世界杯决赛中某球员的第一个任意球。操作人员点击该落点得到其图像坐标是(157,200)。将该点逆透视变换到世界坐标系后，其位置是(82.9765米,14.7029米)。

步骤12：数据管理。用数据库管理系统，管理和维护将每个落点信息。数据库中的每一条落点数据，不但包含每帧的逆透视变换矩阵H*和落点位置p，而且包含做出动作的运动员，击球时间戳等相关信息。

本发明提出了新的基于球场比赛视频图像的移动目标位置自动检测方法。与现有方法相比，本发明采用了直线跟踪与子像素优化方法；综合本发明系统整体的检测方法，本发明明显提高了从电视视频中获取技战术信息的速度与精度，有助于完成多摄像机条件下的摄像机参数自动标定，对开展体育视频分析与理解，进一步提高体育运动的技术分析与应用能力，提高运动员技战术水平有重要的作用。

Claims

1.一种基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于包括比赛视频图像采集，视频图像处理和移动目标位置确定；

移动目标位置确定：通过逆透视变换确定视频图像中移动目标在比赛场地模型中的位置。

2.根据权利要求1所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：所述视频图像处理包括系统内置比赛场地模型文件、白像素检测、直线检测、场地检测；

所述白像素检测是将视频图像二值化并优化降低噪声干扰；

\max Σ_{i = 1}^{n} Σ_{j = 1}^{n} c (i, j) x (i, j) s . t \{\begin{matrix} \underset{j}{Σ} x (i, j) = 1, i = 1,2, . . ., n \\ \underset{i}{Σ} x (i, j) = 1, j = 1,2, . . ., n \\ x (i, j) &Element; {0,1} \end{matrix}

在连续3帧中，直线L(i,t)在相同位置反复出现，标记它为可信的直线；反之，若c(i,j)大于设定阈值，则是虚警，则取消L(i,t)与L(j,t+1)的关联；

3.根据权利要求2所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

所述场地检测包括生成比赛场地假设、快速拒绝、子像素优化和场地似然度比较；

其中子像素优化是优化边线交点，包括利用目标函数：

f (C) = \underset{j &Element; N (C)}{Σ} g_{j}^{T} P_{j}

其中，N(C)表示中心点C附近的11x11图像邻域；使用LevenbergMarquardt无约束最优化算法求目标函数f的极小值

C^{*} = \arg \min_{C} {f (C)}

经过迭代后，得到优化边线交点。

4.根据权利要求3所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

所述白像素检测包括二值化、纹理区域消除和均一区域消除；

C = [\begin{matrix} Σ {(\frac{δI}{δx})}^{2} & Σ \frac{δI}{δx} \frac{δI}{δy} \\ Σ \frac{δI}{δx} \frac{δI}{δy} & Σ {(\frac{δI}{δy})}^{2} \end{matrix}]

5.根据权利要求3所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

所述生成比赛场地假设是从场地模型中选出2条水平线和2条垂直线，从直线检测获得的比赛场地直线特征中选出2条水平线与2条垂直线；用透视变换矩阵H_i来唯一的表示该场地假设。

6.根据权利要求5所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

所述快速拒绝是根据透视变换矩阵H_i值计算形变比率β：

f^{2} = - \frac{h_{00} h_{01} + h_{10} h_{11}}{h_{20} h_{21}}; β^{2} = \frac{h_{01}^{2} + h_{11}^{2} + f^{2} h_{21}^{2}}{h_{00}^{2} + h_{10}^{2} + f^{2} h_{20}^{2}}

上述两个测试均通过，则接受球场假设H_i。

7.根据权利要求6所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

所述场地似然度比较是将场地模型变换到比赛场地图像中，该球场的似然度Likelihood(H_i)等于全部边线似然度的总和：

Likelihood (H_{i}) = Σ_{j = 1}^{9} Line (j) = Σ_{j = 1}^{9} \underset{(x, y) &Element; line (j)}{Σ} S (x, y)

S (x, y) = \{\begin{matrix} 1 & W (x, y) = 1 \\ - 0.5 & W (x, y) = 0 \\ 0 & (x, y) isoutofimage \end{matrix}

H^{*} = \arg \max_{H_{i}} {Likelihood (H_{i})}

8.根据权利要求1至7所述的基于球场比赛视频图像的移动目标位置自动检测方法，其特征在于：

移动目标位置确定是根据球场比赛视频图像中出现的目标位置得到图像坐标系下的目标落点位置p=(x,y)^T，单位：像素；然后，变换到齐次坐标系p’=(x,y,1)^T；利用透视变换矩阵H*，将p’变换到场地标准坐标系，得到目标的真实位置q，

q=H^*p'=H^*[x y 1]^T

q的单位：米。