CN102306279B

CN102306279B - 视频比分的识别方法及装置

Info

Publication number: CN102306279B
Application number: CN201110193775.1A
Authority: CN
Inventors: 苗广艺; 张名举
Original assignee: CCTV INTERNATIONAL NETWORKS Co Ltd
Current assignee: CCTV INTERNATIONAL NETWORKS Co Ltd
Priority date: 2011-07-12
Filing date: 2011-07-12
Publication date: 2014-07-02
Anticipated expiration: 2031-07-12
Also published as: CN102306279A

Abstract

本发明公开了一种视频比分的识别方法及装置。其中，该方法包括：通过过滤处理获取视频画面中比分牌区域的比分区域；通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字。通过本发明，能够达到协助视频编辑人员快速编目足球视频，大大地减轻视频编目人员的工作量。

Description

视频比分的识别方法及装置

技术领域

本发明涉及视频领域，具体而言，涉及一种视频比分的识别方法及装置。

背景技术

对于广播体育视频，比分的变化情况十分重要，它为视频的编辑和分析提供了非常有帮助的信息。对于大部分体育视频，都会有比分牌出现，比分牌上记录着随时变化的比分，得到比分信息可以帮助我们对视频进行标注和编目。例如，对于一个足球视频，得到比分信息后，可以将视频的进球时间点标注出来，并进一步帮助标注进球精彩片段，这些编目信息对于这个视频十分重要。

相关现有技术的比分识别方法通常是根据先验的规律识别体育视频中比分牌上的时间或比分，具体的，通常是使用OCR软件识别和人工神经网络识别，由于OCR软件是针对所有字符库的识别，因此，使用视频OCR技术识别文字非常耗时，更重要的是，这种检测识别方法的准确率很低，并不能处理低分辨率情况，如果把数字识别成字符后续将很难处理，因此不适用足球视频的实际情况。而人工神经网络识别仅适用初步的数字识别。

目前针对相关技术中足球视频比分的识别方式准确率低且效率低的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中足球视频比分的识别方式准确率低且效率低的问题，目前尚未提出有效的问题而提出本发明，为此，本发明的主要目的在于提供一种视频比分的识别方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种视频比分的识别方法，该视频比分的识别方法包括：通过过滤处理获取视频画面中比分牌区域的比分区域；通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字。

进一步地，通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字包括：通过数字识别算法来识别比分区域，得到一个或多个粗比分数字；统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字。

进一步地，在统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字之后，方法还包括：当比分数字与上次识别到的比分数字的差超过1时，将预定时间内的出现频率次高的数字作为比分数字，或者保持显示上次识别到的比分数字。

进一步地，通过二分跳动解码算法来处理视频画面，以获取预定时刻的比分区域的比分数字，该步骤包括：步骤A，识别视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在第一比分数字与第二比分数字不同的情况下，获取第一有效视频区间；步骤B，获取第一有效视频区间中间位置的第三比分数字，在第三比分数字与第一比分数字或第二比分数字不同时，获取第二有效视频区间；步骤C，根据第二有效视频区间循环执行步骤B，直至比分数字不再发生变化时，识别该时刻比分区域的比分数字。

进一步地，通过过滤处理获取视频画面中比分牌区域的比分区域包括：将视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域；将比分牌区域的比分牌图像进行分解，以获取比分牌图像中的文字区域；基于第二过滤条件对文字区域进行筛选和匹配，以获取比分牌区域的比分区域。

进一步地，将视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域之前，方法还包括：采用跳帧方式在视频画面中均匀提取预定数目的帧图像；获取各个帧图像之间的帧差，并将获取到的帧差进行二值化处理以获取帧差图；在帧差图上进行区域聚合运算，以获取静止区域。

进一步地，将视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域之前，方法还包括：采用跳帧方式在视频画面中均匀提取预定数目的帧图像；计算并获取帧图像中每个像素的梯度绝对值；通过比较梯度绝对值和第一阈值来获取梯度图，其中，在梯度绝对值大于等于第一阈值的情况下，将梯度图中的像素标亮，否则将梯度图中的像素标暗；在梯度图上进行区域聚合运算，以获取纹理丰富区域。

进一步地，基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域包括：计算候选比分牌区域在不同帧中的变化程度，当变化程度在预定范围内时，将持续的帧数最大的候选比分牌区域作为视频画面上的比分牌区域。

进一步地，在将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域之后，方法还包括：根据以下公式来获取预定数目的帧图像的比分牌模板：T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k，其中，T_t(x，y)表示t帧时的模板像素，T_t-1(x，y)表示t-1帧时的模板像素，I_t(x，y)表示t帧时的图像像素值，k表示更新速度；根据比分牌模板检测任意图像帧中的是否出现比分牌，在出现比分牌时执行识别比分牌，并根据该公式更新比分牌模板。

进一步地，将比分牌区域的比分牌图像进行分解，以获取所有的文字区域包括：采用局部自适应阈值二值化算法对比分牌区域的比分牌图像进行二值化处理，以获取二值化区域；在二值化区域中进行文字特征筛选处理来得到文字区域。

进一步地，基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取比分牌区域的比分区域包括：根据时间区域特征获取文字区域中的时间区域，并删除文字区域中的时间区域来获取候选比分区域；根据比分区域的特征在比分区域模板中进行筛选处理，以得到与候选比分区域匹配的比分区域，其中，比分区域的特征包括：比分区域特征和队名区域特征。

为了实现上述目的，根据本发明的另一方面，提供了一种视频比分的识别装置，该视频比分的识别装置包括：获取单元，用于通过过滤处理获取视频画面中比分牌区域的比分区域；比分识别单元，用于通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字。

进一步地，比分识别单元包括：粗识别模块，用于通过数字识别算法来识别比分区域，得到一个或多个粗比分数字；精识别模块，用于统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字，且当比分数字与上次识别到的比分数字的差超过1时，将预定时间内的出现频率次高的数字作为比分数字，或者保持显示上次识别到的比分数字。

进一步地，装置还包括：识别加速处理模块，包括：第一处理模块，用于识别视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在第一比分数字与第二比分数字不同的情况下，获取第一有效视频区间；第二处理模块，用于获取第一有效视频区间中间位置的第三比分数字，在第三比分数字与第一比分数字或第二比分数字不同时，获取第二有效视频区间；第三处理模块，根据第二有效视频区间循环执行第二处理模块，直至比分数字不再发生变化时，识别该时刻比分区域的比分数字。

进一步地，装置还包括：比分牌位置检测模块，用于将获取到的视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；比分牌区域定位模块，用于基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域；比分牌版面分解模块，用于将比分牌区域的比分牌图像进行分解，以获取所有的文字区域；比分区域定位模块，用于基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取比分牌区域的比分区域。

进一步地，装置还包括：静止区域获取模块，用于采用跳帧方式在视频画面中均匀提取预定数目的帧图像，获取各个帧图像之间的帧差，将获取到的帧差进行二值化处理以获取帧差图，并在帧差图上进行区域聚合运算，以获取静止区域；以及纹理丰富区域获取模块，用于采用跳帧方式在视频画面中均匀提取预定数目的帧图像，获取帧图像中每个像素的梯度绝对值，通过比较梯度绝对值和第一阈值来获取梯度图，并在梯度图上进行区域聚合运算，以获取纹理丰富区域。

进一步地，比分牌区域定位模块包括：计算处理模块，用于计算候选比分牌区域在不同帧中的变化程度，当变化程度在预定范围内时，将持续的帧数最大的候选比分牌区域作为视频画面上的比分牌区域。

进一步地，装置还包括：比分牌模板建立模块，用于根据公式来获取预定数目的帧图像的比分牌模板，公式为：T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k，其中，T_t(x，y)表示t帧时的模板像素，T_t-1(x，y)表示t-1帧时的模板像素，I_t(x，y)表示t帧时的图像像素值，k表示更新速度；检测识别模块，用于根据比分牌模板检测任意图像帧中的是否出现比分牌，在出现比分牌时执行识别比分牌。

进一步地，比分牌版面分解模块包括：二值化处理模块，用于采用局部自适应阈值二值化算法对比分牌区域的比分牌图像进行二值化处理，以获取二值化区域；文字区域获取模块，用于在二值化区域中进行文字特征筛选处理来得到文字区域。

进一步地，比分区域定位模块包括：过滤模块，用于根据时间区域特征获取文字区域中的时间区域，并删除文字区域中的时间区域来获取候选比分区域；匹配模块，用于根据比分区域的特征在比分区域模板中进行筛选处理，以得到与候选比分区域匹配的比分区域，其中，比分区域的特征包括：比分区域特征和队名区域特征。

通过本发明，采用通过过滤处理获取视频画面中比分牌区域的比分区域；通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字，解决了相关现有技术中足球视频比分的识别方式准确率低且效率低的问题，进而实现提高识别足球视频比分的准确率、效率以及自适应性，从而达到协助视频编辑人员快速编目足球视频，大大地减轻视频编目人员的工作量的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的视频比分的识别装置的结构示意图；

图2是根据图1所示实施例的比分区域和队名区域的分布规律的模板示意图；

图3是根据本发明实施例的视频比分的识别方法的流程图；

图4是根据图3所示实施例中比分牌检测方法的流程示意图；

图5是根据图3所示实施例中比分区域检测方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本申请中涉及到的广播足球视频由于自身的特性具有一定的应用范围，本发明利用先验知识来提高本发明的有益效果，已知的先验知识包括：1)在一段体育视频里，比分牌在视频窗口中的位置和样式一般不会变化；2)比分区域在比分牌上的位置不会变化，并且两个比分的位置分布有一定规律；3)需要识别的比分只有零到九一共十个数字，虽然它们的字体颜色及大小在不同的视频中会不同，但是它的字体一定是标准易于识别的字体，颜色一定是和背景差别很大的，大小也在一定的范围内。4)足球比赛的比分从0比0开始，每次变化只增加1，并且变化频率非常低。

图1是根据本发明实施例的视频比分的识别装置的结构示意图。如图1所示，该装置包括：获取单元1，用于通过过滤处理获取视频画面中比分牌区域的比分区域；以及比分识别单元50，用于通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字。

本申请上述实施例，对通过过滤处理后获取的视频画面中比分牌区域的比分区域进行粗识别算法和精识别算法处理，最后得到识别的比分数字，解决了相关现有技术中足球视频比分的识别方式准确率低且效率低的问题，进而实现提高识别足球视频比分的准确率、效率以及自适应性，从而达到协助视频编辑人员快速编目足球视频，大大地减轻视频编目人员的工作量的效果。

如图1所示，本发明实施例中的比分识别单元50可以包括：粗识别模块501，用于通过数字识别算法来识别比分区域，得到一个或多个粗比分数字；精识别模块502，用于统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字，且当比分数字与上次识别到的比分数字的差超过1时，将预定时间内的出现频率次高的数字作为比分数字，或者保持显示上次识别到的比分数字。

优选地，本实施例装置还可以包括：识别加速处理模块70，包括：第一处理模块，用于识别视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在第一比分数字与第二比分数字不同的情况下，获取第一有效视频区间；第二处理模块，用于获取第一有效视频区间中间位置的第三比分数字，在第三比分数字与第一比分数字或第二比分数字不同时，获取第二有效视频区间；第三处理模块，根据第二有效视频区间循环执行第二处理模块，直至比分数字不再发生变化时，识别该时刻比分区域的比分数字。该实施例中，通过识别加速处理模块70来解决单纯使用数字识别算法识别数字会发生识别错误的缺陷，是一种识别加速算法，达到了优化识别结果的效果。

具体的，本领域技术人员可知，足球视频的比分变化频率很低，每一次比分变化到下一次变化，都会持续至少一分钟时间，因此可以利用时间相关性信息来纠正一些识别错误的帧。统计连续许多帧的粗识别结果，找出识别的次数最多的数字作为最后的识别结果，这样就可以排除掉单个错误，大大提高识别结果。

另外，比分的变化只能增加，不会减少，并且每次增加的值只能为1。如果比分一次增加超过1或者减少，说明比分识别结果出了问题，需要纠正。纠正的方法是采用识别次数第二多的数字作为识别结果。如果这个数字仍然不满足比分变化规律，那么保持比分不变。

由于足球视频中，比分变化的频率非常低，整场比赛的变化次数极少能超过10次，一般都在0至5次之间，因此没必要对每一帧都进行检测识别。如果只对必要的帧进行解码识别，会大大减少视频处理的时间。对于批量处理大规模视频数据和实时性要求较高的应用情况，算法的时间效率非常重要。

本发明实施例中，识别加速处理模块70通过识别加速算法，即二份跳动解码加速算法来防止识别结果出错，二分跳动解码的方法可以加速视频处理的过程。具体算法的流程如下：

步骤1，分别在视频的起始位置和结束位置进行比分识别，如果两个位置的比分相同，则直接结束算法；反之，生成第一个“有效视频区间”，起始点为视频起始点，终止点为视频终止点，将此区间压入堆栈。

步骤2，从堆栈中取出一个有效视频区间，在时间中点位置解码并识别该位置的比分。从中点位置将该有效视频区间切成两个新的有效视频区间。

步骤3，对于每个新的有效视频区间，如果起始点位置比分与结束点位置比分相同，则丢掉该区间；如果该区间长度小于MinLen分钟(例如取3分钟)，则直接解码整段视频并识别比分；如果都不是，则将此区间压入堆栈。

步骤4，如果堆栈中的有效视频区间数目为0，结束算法；反之，返回到步骤2。

通过二分跳动解码来处理足球视频，解码时间一般都是解码整个视频所要时间的几分之一，具体节省的时间取决于视频的比分变化情况。

优选地，本申请上述实施例还可以包括比分牌检测单元10，包括：比分牌位置检测模块101，用于将获取到的视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；比分牌区域定位模块102，用于基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域；比分区域检测单元30，包括：比分牌版面分解模块301，用于将比分牌区域的比分牌图像进行分解，以获取所有的文字区域；比分区域定位模块303，用于基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取比分牌区域的比分区域。

本申请上述实施例，先通过比分牌检测单元10在视频画面上检测比分牌，然后通过比分区域检测单元30在比分牌上寻找比分区域，最后通过比分识别单元50读取比分区域上的比分数字。具体的，在比分牌检测单元10进行比分牌检测时，利用了比分牌区域稳定、纹理复杂的基本特点，通过帧差和纹理信息确定比分牌在视频画面中的位置。然后建立一个比分牌模板，根据比分牌模板，可以判断当前帧图像中比分牌是否出现；在比分区域检测单元30进行比分区域检测时，首先对比分牌做版面分析，版面分析采用局部自适应阈值二值化算法，得到一些候选的文字区域。然后根据足球比分区域的特点对候选区域进行筛选，找到配对出现的比分区域；在比分识别单元50进行比分识别的时候，先是采用神经网络数字识别算法识别比分，得到初步的识别结果。然后根据时间相关性和比分变化规律等信息，对识别的比分进行纠正，得到精确的识别结果。

由上可知，由于通过结合获取到的足球视频画面中的静止区域和纹理丰富区域来确定比分牌区域，并且比分牌区域定位模块102进行了过滤处理以及文字和数字的区分处理，使得检测和识别都有很高的准确率，而且由于仅对比分区域进行检测和识别，因此，在实现对于低分辨率和低画质的视频也有很好的处理结果的同时，可以实现不需要解码整个视频，从而实现自动、快速准确地分析足球视频，并快速准确地检测并识别足球视频比分牌上的比分变化情况。解决了相关现有技术的检测和识别足球视频比分的准确率低、效率低，且过程消耗资源较大，浪费人力的问题，进而实现提高检测和识别足球视频比分的准确率、效率以及自适应性，进一步达到协助视频编辑人员快速编目足球视频，大大地减轻视频编目人员的工作量的效果。

优选地，本申请实施例中的比分牌检测单元10还可以包括：静止区域获取模块103，用于采用跳帧方式在视频画面中均匀提取预定数目的帧图像，获取各个帧图像之间的帧差，将获取到的帧差进行二值化处理以获取帧差图，并在帧差图上进行区域聚合运算，以获取静止区域；以及纹理丰富区域获取模块104，用于采用跳帧方式在视频画面中均匀提取预定数目的帧图像，获取帧图像中每个像素的梯度绝对值，通过比较梯度绝对值和第一阈值来获取梯度图，并在梯度图上进行区域聚合运算，以获取纹理丰富区域。

具体地，本领域技术人员可知，绝大多数的足球视频都有比分牌的出现，比分牌上面记录了两队的比分变化情况，实时显示给观众看。比分牌是足球比赛时人工叠加到视频画面上的，它的出现方式类似于广播视频节目上人工实时叠加的文字。比分牌一般都出现在视频画面的左上角或右上角区域，占用区域较小，但上面的文字信息特别是比分信息足够人眼识别。整个比分牌区域上面的纹理信息很丰富，这个特点和字幕文字很相似，可以把比分牌当成一种特殊的文字来看待。另一方面，对于同一场比赛，比分牌的大小、样式、出现的位置都是固定不变的，在大部分时间内，比分牌会出现在画面上，一般在回放、慢镜头、广告等视频片段，比分牌会暂时消失。

根据比分牌的上述特点，本申请利用区域静止和纹理复杂这两个信息来定位比分牌，通过静止区域获取模块103来计算视频图像的帧差，可以得到在视频中静止的区域；通过纹理丰富区域获取模块104来计算纹理，并得到静止区域内的纹理密度。将纹理密度低的区域删除，得到候选的比分牌区域，然后进一步筛选出比分牌区域。因为比分牌的位置固定，定位比分牌以后，建立一个比分牌像素颜色的模板，并实时更新它，通过模板可以快速判断每一帧是否有比分牌出现。

如图1所示，本申请上述实施例中的比分牌区域定位模块102可以包括：计算处理模块，用于计算候选比分牌区域在不同帧中的变化程度，当变化程度在预定范围内时，将持续的帧数最大的候选比分牌区域作为视频画面上的比分牌区域。

具体的，在上述实施例中，本发明可以采用启发式规则来选择最优的区域作为检测结果。首先根据一些规则来排除大部分噪声区域，采用的规则有：1，区域的大小必须在一定范围内，不能太大，也不能太小；2，区域的位置不能出现在图像的中心位置附近；3，区域的形状大致是矩形，矩形的可以是横着的长条，但不能是竖直的长条。通过这些规则，可以排除大部分噪声区域。剩下的区域利用时域的信息来寻找最优，寻找的方法为：利用计算处理模块来实现，通过用于计算帧差的20帧图像来计算每个候选区域的稳定性(该区域在不同帧中的大小变化程度)，然后计算其持续性(该区域在满足一定稳定性要求的情况下持续的帧数)，按照持续性对候选区域排队，持续时间最长的区域就是比分区域。比分牌区域的范围可以采用20帧中出现的所有比分牌的边界的均值来定位。

优选地，上述比分牌区域定位模块102可以包括：比分牌模板建立模块，用于根据公式来获取预定数目的帧图像的比分牌模板，公式为：T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k，其中，T_t(x，y)表示t帧时的模板像素，k表示更新速度；检测识别模块，用于根据比分牌模板检测任意图像帧中的是否出现比分牌，在出现比分牌时执行识别比分牌，并根据该公式更新比分牌模板。

该实施例中，技术人员可知：在一个足球视频中，有的时候比分牌会暂时性的消失，比如慢镜头回放、解说员镜头和广告等，为了提高比分牌检测的鲁棒性，本比分牌区域定位模块102建立了一个比分牌像素的模版，并实时更新它。通过前面的方法，定位了比分牌以后，采用20帧中持续有比分牌的帧中比分牌的像素的均值来建立模板，如等式T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k所示，其中，T_t(x，y)表示t帧时的模版像素，T_t-1(x，y)表示t-1帧时的模板像素，I_t(x，y)表示t帧时的图像像素值，k表示更新速度，这里采用经验值0.05。在后面的比分识别过程中，先根据模版比较来判断该帧中是否有比分牌出现，如果没有就跳过，如果有，进行比分识别，并用该帧的比分牌像素更新比分牌模板。

如图1所示的装置，该装置中的比分牌版面分解模块301可以包括：二值化处理模块，用于采用局部自适应阈值二值化算法对比分牌区域的比分牌图像进行二值化处理，以获取二值化区域；文字区域获取模块，用于在二值化区域中进行文字特征筛选处理来得到文字区域。

具体地，本领域技术人员可知，在足球视频当中，对于不同的视频，比分牌的样式和排版各不相同，但显示的基本信息都比较一致，比分牌上面的信息一般包含：两个球队的名称、两个球队的比分、比赛计时时间、其他文字信息等。比分牌的版面主要有以下几个特点：1)不同的视频可能会有不同的排版，同一个比赛视频，排版始终保持不变。2)对于两个球队的名称和时间这些信息，排版方式只有几种情况，符合一定的规律。3)文字和数字的分辨率可能会比较低，但和背景颜色的对比度都比较大，很容易区分。

根据比分牌的版面特点，算法在通过比分区域检测单元30检测比分区域的时候，先通过比分牌版面分解模块301对比分牌进行版面分解，用于检测到所有的文字区域，然后通过比分区域定位模块303实现根据比分区域的分布规律确定比分区域。具体的，可以首先采用局部自适应阈值对比分牌图像进行二值化处理，得到二值化区域，然后在这些区域中筛选出文字区域，对每个文字区域提取颜色和形状特征，最后根据比分区域的特点进行匹配，找到比分区域。

由于比分牌上的文字和背景的对比度比较大，所以通过二值化算法可以将文字像素和背景像素区分出来。又因为不同文字区域的前景背景颜色不相同，所以采用基于局部自适应阈值的方法可以很好地处理不同的文字区域。

具体的局部自适应阈值二值化算法流程如下。先定义一个滑动窗口，窗口采用n*n的正方形，边长n采用比分牌区域长边的1/8，滑动步长为n/2。在滑动窗口内，阈值使用ostu阈值法来确定，这样每一个滑动窗口的位置都会计算出一个局部阈值。由于滑动窗口的滑动步长为滑动窗口宽度的一半，所以比分牌图像上每一个像素点都会得到4个局部阈值，采用这4个阈值的均值作为该像素的阈值。

二值化后的图像上形成了很多区域，包括白色区域和黑色区域，这些区域有的是文字区域，有的是背景区域，根据文字的特点可以将文字区域筛选出来。利用的文字特点有：1)文字区域与图像边界不相连。2)文字区域的高度在一定范围内。3)同一个比分牌上所有的文字高度差别不大。因此筛选文字区域的过程为：1)去除和图像边界粘连的区域。2)去除高度过小或过大的区域。3)去除宽度过大的区域。4)将剩余区域的高度去掉一个最大值和一个最小值后，取平均值作为参考文字高度。5)与参考文字高度比较，去掉差别较大的区域。筛选后剩余的区域就是文字区域。

优选地，上述实施例中的比分区域定位模块303可以包括：过滤模块，用于根据时间区域特征获取文字区域中的时间区域，并删除文字区域中的时间区域来获取候选比分区域；匹配模块，用于根据比分区域的特征在比分区域模板中进行筛选处理，以得到与候选比分区域匹配的比分区域，其中，比分区域的特征包括：比分区域特征和队名区域特征。

对于每一个文字区域，提取颜色和形状特征，提取的特征包括：1)文字前景颜色；2)文字背景颜色；3)文字的高度；4)文字的边界。

在匹配模块进行比分区域匹配前，可以先通过过滤模块按照时间变化规律删除掉时间区域。足球视频的比分变化频率很低，比赛队名不会变化，只有时间区域会在每一秒都进行更新。通过时间变化规律，可以快速找到时间区域的“秒”的个位数字的位置。进而根据位置关系、颜色和形状特征可以确定整个时间区域。去除掉时间区域，可以大大减少比分区域匹配错误的概率。

图2是根据图1所示实施例的比分区域和队名区域的分布规律的模板示意图。足球视频图像上的比分区域和队名区域的分布有一定的规律，可以根据这个规律建立如图2所示的模板，队名A和队名B为一对，他们具有相同的颜色特征，在形状特征上也满足文字高度一致，中心位置水平或垂直方向上一致，文字的水平边界或垂直边界一致。比分A和比分B为一对，配对特征和队名的方式一样。另外队名区域的宽度一般在两个字符到四个字符之间，比分区域的宽度为一个数字字符的宽度。

根据这几个模板，对文字区域进行组合匹配，如果满足其中一个模板的分布特点，根据这个模板就可以确定两个比分区域的位置。

图3是根据本发明实施例的视频比分的识别方法的流程图。如图3所示该方法包括如下步骤：

步骤S10，通过图1中的获取单元1来执行，通过过滤处理获取视频画面中比分牌区域的比分区域。

步骤S30，通过图1中的比分识别单元50实现通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字。

如图3所示的实施例中，步骤S30，通过结合粗识别算法和精识别算法来识别比分区域以获取比分数字可以包括如下步骤：通过数字识别算法来识别比分区域，得到一个或多个粗比分数字；统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字。该实施例通过统计连续许多帧的粗识别结果，找出识别的次数最多的数字作为最后的识别结果，这样就可以排除掉单个错误，大大提高识别结果。

优选地，在统计预定时间内的各个粗比分数字的出现频率，将出现频率最高的数字作为比分数字之后，方法还可以包括：当比分数字与上次识别到的比分数字的差超过1时，将预定时间内的出现频率次高的数字作为比分数字，或者保持显示上次识别到的比分数字。由于足球比分的变化只能增加，不会减少，并且每次增加的值只能为1。因此，该实施例实现，如果比分一次增加超过1或者减少，将采用识别次数第二多的数字作为识别结果，以纠正错误比分的出现，且如果这个数字仍然不满足比分变化规律，那么保持比分不变。

优选地，本发明实施例可以通过二分跳动解码算法来处理视频画面，以获取预定时刻的比分区域的比分数字，该步骤包括：

步骤A，识别视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在第一比分数字与第二比分数字不同的情况下，获取第一有效视频区间。具体地，该步骤实现分别在视频的起始位置和结束位置进行比分识别，如果两个位置的比分相同，则直接结束算法；反之，生成第一个“有效视频区间”，起始点为视频起始点，终止点为视频终止点，将此区间压入堆栈。

步骤B，获取第一有效视频区间中间位置的第三比分数字，在第三比分数字与第一比分数字或第二比分数字不同时，获取第二有效视频区间。具体地，该步骤实现从堆栈中取出一个有效视频区间，在时间中点位置解码并识别该位置的比分。从中点位置将该有效视频区间切成两个新的有效视频区间，即获取到了第二有效视频区间。

步骤C，根据第二有效视频区间循环执行步骤B，直至比分数字不再发生变化时，识别该时刻比分区域的比分数字。具体地，该步骤实现对于每个新的有效视频区间，如果起始点位置比分与结束点位置比分相同，则丢掉该区间；如果该区间长度小于MinLen分钟(例如取3分钟)，则直接解码整段视频并识别比分；如果都不是，则将此区间压入堆栈。如果堆栈中的有效视频区间数目为0，结束算法；反之，返回到步骤B。

在进行比分识别的时候，采用二分跳动解码算法来加速视频的处理过程。足球视频的比分变化频率很低，没有必要对整场比赛全程检测比分变化情况，这里采用二分跳动的方法来解码视频，可以大大减少需要解码的视频帧数量。

针对批量处理大规模视频数据和实时性要求较高的应用情况，上述实施例算法提高了识别比分的时间效率。

优选地，上述步骤S10，通过过滤处理获取视频画面中比分牌区域的比分区域可以包括如下步骤：

通过图1中比分牌检测单元10的比分牌位置检测模块101来实现，将视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；通过图1中比分牌检测单元10的比分牌区域定位模块102来实现，基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域；通过图1中比分区域检测单元30的比分牌版面分解模块301将比分牌区域的比分牌图像进行分解，以获取所有的文字区域；通过图1中比分区域检测单元30的比分区域定位模块303来实现，基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取比分牌区域的比分区域。

由上可知，由于通过结合获取到的足球视频画面中的静止区域和纹理丰富区域来确定比分牌区域，并进行了过滤处理以及文字和数字的区分处理，使得检测和识别都有很高的准确率，而且由于仅对比分区域进行检测和识别，因此，在实现对于低分辨率和低画质的视频也有很好的处理结果的同时，可以实现不需要解码整个视频，从而实现自动、快速准确地分析足球视频，并快速准确地检测并识别足球视频比分牌上的比分变化情况。解决了相关现有技术的检测和识别足球视频比分的准确率低、效率低，且过程消耗资源较大，浪费人力的问题，进而实现提高检测和识别足球视频比分的准确率、效率以及自适应性，进一步达到协助视频编辑人员快速编目足球视频，大大地减轻视频编目人员的工作量的效果。

图4是根据图3所示实施例中比分牌检测方法的流程示意图。如图4所示，本发明上述实施例中，在将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域之前，还可以包括步骤S101：采用跳帧方式在视频画面中均匀提取预定数目的帧图像；获取各个帧图像之间的帧差，并将获取到的帧差进行二值化处理以获取帧差图；在帧差图上进行区域聚合运算，以获取静止区域。

具体地，本申请实施例通过计算帧差来寻找静止固定的像素，进而找到静止区域。对于一般足球视频，根据视频压缩的方式不同，每秒钟大概有24-30帧，如果每一帧都计算帧差，不但计算量大，而且效果不好，因为除了比分牌以外的背景部分在连续两帧间的变化非常小，很难突出比分牌前景。该实施例中采用跳帧的方式在一个视频中均匀取出20帧，然后计算它们之间的帧差。帧差的计算是在灰度图上进行的，采用经验阈值将结果二值化，得到的帧差图，帧差图上亮的像素是候选像素，表示该像素的位置帧差值很小。

然后在帧差图上进行区域聚合运算，可以得到静止区域。对于每一个像素，计算它的邻域内候选像素的密度，如果密度足够大，则将该像素标亮，否则将其标暗。局域聚合运算的结果是标亮的像素会成片出现，形成很多区域，每个区域内的候选像素密度都足够大，即为候选的静止区域。

本发明上述实施例中，如图4所示，在将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域之前，还可以包括步骤S102：采用跳帧方式在视频画面中均匀提取预定数目的帧图像；计算并获取帧图像中每个像素的梯度绝对值；通过比较梯度绝对值和第一阈值来获取梯度图，其中，在梯度绝对值大于等于第一阈值的情况下，将梯度图中的像素标亮，否则将梯度图中的像素标暗；在梯度图上进行区域聚合运算，以获取纹理丰富区域。

本申请实施例中，在找到静止区域之后，还不足以定位比分牌，因为在足球视频当中，对于计算帧差的两帧，有时候静止的部分不仅是比分牌，还可能包括其他物体，特别是颜色单一的比较大的物体，如单一颜色的球场等。由于球场等物的纹理信息非常少，本申请利用纹理来把它和比分牌区别开。

图像的纹理计算方法有很多种，包括简单的梯度到复杂的小波变换。为了保证整个算法的实时性，本发明上述实施例采用了比较简单的梯度特征。在计算纹理时采用计算帧差使用的20帧图像，对每一个像素都计算出它的梯度绝对值，将这个值与一个经验阈值进行比较，如果大于均值，则将该像素标亮，否则将该像素标暗。通过这个计算，可以得到一个梯度图，图上亮的像素是候选像素，表示该像素的梯度足够大。

然后在梯度图上进行区域聚合运算，可以得到纹理丰富区域。计算的方法与计算静止区域的方法相同。对于每个纹理丰富区域，区域内都含有丰富的纹理信息。

最后在步骤：将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域中将静止区域与纹理丰富区域进行合并，采用与运算，得到候选比分牌区域。候选比分牌区域既具有静止特点，又具有纹理信息丰富的特点。

优选地，本发明实施例中的第一过滤条件可以包括候选比分牌区域的大小、位置、形状和时域信息，上述实施例的步骤：基于第一过滤条件对候选比分牌区域进行筛选以获取视频画面上的比分牌区域可以包括：计算候选比分牌区域在不同帧中的变化程度，当变化程度在预定范围内时，将持续的帧数最大的候选比分牌区域作为视频画面上的比分牌区域。

该实施例进一步的，采用启发式规则来选择最优的区域作为检测结果。首先根据一些规则来排除大部分噪声区域，采用的规则有：1，区域的大小必须在一定范围内，不能太大，也不能太小；2，区域的位置不能出现在图像的中心位置附近；3，区域的形状大致是矩形，矩形的可以是横着的长条，但不能是竖直的长条。通过这些规则，可以排除大部分噪声区域。剩下的区域利用时域的信息来寻找最优，寻找的方法为：根据用来计算帧差的20帧，计算每个候选区域的稳定性(该区域在不同帧中的大小变化程度)，然后计算其持续性(该区域在满足一定稳定性要求的情况下持续的帧数)，按照持续性对候选区域排队，持续时间最长的区域就是比分区域。比分牌区域的范围采用20帧中出现的所有比分牌的边界的均值来定位。

优选地，在步骤：将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域之后，方法还包括步骤S103，根据公式来获取预定数目的帧图像的比分牌模板，公式为：T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k，其中，T_t(x，y)表示t帧时的模板像素，k表示更新速度；根据比分牌模板检测任意图像帧中的是否出现比分牌，在出现比分牌时执行识别比分牌，并根据该公式更新比分牌模板。

具体实施过程中，本领域技术人员可知，在一个足球视频中，有的时候比分牌会暂时性的消失，比如慢镜头回放、解说员镜头和广告等，为了提高比分牌检测的鲁棒性，本算法建立了一个比分牌像素的模版，并实时更新它。

通过前面的方法，定位了比分牌以后，采用20帧中持续有比分牌的帧中比分牌的像素的均值来建立模板，如等式T_t(x，y)＝T_t-1(x，y)×(1-k)+I_t(x，y)×k所示，其中，T_t(x，y)表示t帧时的模版像素，T_t-1(x，y)表示t-1帧时的模板像素，I_t(x，y)表示t帧时的图像像素值，k表示更新速度，这里采用经验值0.05。在后面的比分识别过程中，先根据模版比较来判断该帧中是否有比分牌出现，如果没有就跳过，如果有，进行比分识别，并用该帧的比分牌像素更新比分牌模板。

图5是根据图3所示实施例中比分区域检测方法的流程示意图。该实施例中，根据比分牌的版面特点，算法在检测比分区域的时候，先对比分牌进行版面分解，检测到所有的文字区域，然后根据比分区域的分布规律确定比分区域。

如图5所示，步骤：将比分牌区域的比分牌图像进行分解，以获取所有的文字区域可以包括如下步骤：

步骤S501，采用局部自适应阈值二值化算法对比分牌区域的比分牌图像进行二值化处理，以获取二值化区域。由于比分牌上的文字和背景的对比度比较大，所以通过二值化算法可以将文字像素和背景像素区分出来。又因为不同文字区域的前景背景颜色不相同，所以采用基于局部自适应阈值的方法可以很好地处理不同的文字区域。

步骤S502，在二值化区域中进行文字特征筛选处理来得到文字区域。

如图5所示，第二过滤条件包括文字区域的时间区域特征、比分区域特征和队名区域特征，步骤：基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取比分牌区域的比分区域可以包括如下步骤：

步骤S503，根据比分区域的特征在比分区域模板中进行筛选处理，以得到与候选比分区域匹配的比分区域，其中，比分区域的特征包括：比分区域特征和队名区域特征。该步骤中比分区域的特征由文字特征构成，系统提取每一个文字区域的文字特征，文字特征包括：位置关系；文字前景颜色；文字背景颜色；文字的高度；文字的边界。该实施例中的比分区域模拟参照图2所示的实现方式。

在步骤S503之前，还包括如下步骤：根据时间区域特征获取文字区域中的时间区域，并删除文字区域中的时间区域来获取候选比分区域。可以利用上述提取方式实现根据颜色和形状特征来确定整个时间区域，并在文字区域中去除掉时间区域，可以大大减少比分区域匹配错误的概率。

综上所述，图5所示的实施例实现采用局部自适应阈值对比分牌图像进行二值化处理，得到二值化区域，然后在这些区域中筛选出文字区域，对每个文字区域提取颜色和形状特征，最后根据比分区域的特点进行匹配，找到比分区域。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

从以上的描述中，可以看出，本发明实现了如下技术效果：针对足球视频专门设计算法，解决了足球视频比分检测和识别准确率低、效率低，且过程消耗资源较大，浪费人力的问题，对于低分辨率和低画质的视频也有很好的处理结果；有较强的鲁棒性和适应性，算法完全自动处理足球视频，可以适应不同类型的足球视频，可以适应不同分辨率和画质的视频源，同时可以自适应各种类型的比分牌的样式，并且不受比分牌偶尔消失等干扰的影响；采用二分跳动解码来加速视频处理过程，可以快速分析视频，不需要解码整个视频，具有很高的时间效率。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频比分的识别方法，其特征在于，包括：

通过过滤处理获取视频画面中比分牌区域的比分区域；

通过结合粗识别算法和精识别算法来识别所述比分区域以获取比分数字；

其中，通过结合粗识别算法和精识别算法来识别所述比分区域以获取比分数字包括：通过数字识别算法来识别所述比分区域，得到一个或多个粗比分数字；根据时间相关性和比分变化规律来统计预定时间内的各个所述粗比分数字的出现频率，将出现频率最高的数字作为所述比分数字，当所述比分数字与上次识别到的比分数字的差超过1时，将所述预定时间内的出现频率次高的数字作为所述比分数字，或者保持显示所述上次识别到的比分数字；

其中，通过过滤处理获取视频画面中比分牌区域的比分区域包括：通过帧差和纹理信息确定所述比分牌区域在所述视频画面中的位置；在所述比分牌区域中寻找所述比分区域；

其中，通过过滤处理获取视频画面中比分牌区域的比分区域包括：将视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；基于第一过滤条件对所述候选比分牌区域进行筛选以获取所述视频画面上的比分牌区域；将所述比分牌区域的比分牌图像进行分解，以获取所述比分牌图像中所有的文字区域；基于第二过滤条件对所述所有的文字区域进行筛选和匹配，以获取所述比分牌区域的比分区域；

其中，基于第一过滤条件对所述候选比分牌区域进行筛选以获取所述视频画面上的比分牌区域包括：计算所述候选比分牌区域在不同帧中的变化程度，当所述变化程度在预定范围内时，将持续的帧数最大的所述候选比分牌区域作为所述视频画面上的比分牌区域；

其中，在将视频画面中的静止区域和纹理丰富区域进行合并处理来获取候选比分牌区域之后，方法还包括：根据以下公式来获取预定数目的帧图像的比分牌模板，公式为：T_t(x,y)=T_t-1(x,y)×(1-k)+I_t(x,y)×k，其中，T_t(x,y)表示t帧时的模板像素，T_t-1(x,y)表示t-1帧时的模板像素，I_t(x,y)表示t帧时的图像像素值，k表示更新速度；根据所述比分牌模板检测任意图像帧中是否出现比分牌，在出现比分牌时执行识别比分牌，并根据该公式更新所述比分牌模板。

2.根据权利要求1所述的方法，其特征在于，通过二分跳动解码算法来处理所述视频画面，以获取预定时刻的所述比分区域的比分数字，该步骤包括：

步骤A，识别所述视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在所述第一比分数字与所述第二比分数字不同的情况下，获取第一有效视频区间；

步骤B，获取所述第一有效视频区间中间位置的第三比分数字，在所述第三比分数字与所述第一比分数字或第二比分数字不同时，获取第二有效视频区间；

步骤C，根据所述第二有效视频区间循环执行步骤B，直至所述比分数字不再发生变化时，识别该时刻所述比分区域的比分数字。

3.根据权利要求1所述的方法，其特征在于，基于第二过滤条件对所有的文字区域进行筛选和匹配，以获取所述比分牌区域的比分区域包括：

根据时间区域特征获取所述文字区域中的时间区域，并删除所述文字区域中的时间区域来获取候选比分区域；

根据所述比分区域的特征在比分区域模板中进行筛选处理，以得到与所述候选比分区域匹配的所述比分区域，其中，所述比分区域的特征包括：比分区域特征和队名区域特征。

4.一种视频比分的识别装置，其特征在于，包括：

获取单元，用于通过过滤处理获取视频画面中比分牌区域的比分区域；

比分识别单元，用于通过结合粗识别算法和精识别算法来识别所述比分区域以获取比分数字；

其中，所述比分识别单元包括：粗识别模块，用于通过数字识别算法来识别所述比分区域，得到一个或多个粗比分数字；精识别模块，用于根据时间相关性和比分变化规律来统计预定时间内的各个所述粗比分数字的出现频率，将出现频率最高的数字作为所述比分数字，且当所述比分数字与上次识别到的比分数字的差超过1时，将所述预定时间内的出现频率次高的数字作为所述比分数字，或者保持显示所述上次识别到的比分数字；

其中，所述获取单元包括：比分牌检测单元，用于通过帧差和纹理信息确定所述比分牌区域在所述视频画面中的位置；比分区域检测单元，用于在所述比分牌区域中寻找所述比分区域；

所述装置还包括：比分牌位置检测模块，用于将获取到的视频画面中的静止区域和纹理丰富区域进行合并处理以得到候选比分牌区域；比分牌区域定位模块，用于基于第一过滤条件对所述候选比分牌区域进行筛选以获取所述视频画面上的比分牌区域；比分牌版面分解模块，用于将所述比分牌区域的比分牌图像进行分解，以获取所述比分牌图像中所有的文字区域；比分区域定位模块，用于基于第二过滤条件对所述所有的文字区域进行筛选和匹配，以获取所述比分牌区域的比分区域；

其中，所述比分牌区域定位模块包括：计算处理模块，用于计算所述候选比分牌区域在不同帧中的变化程度，当所述变化程度在预定范围内时，将持续的帧数最大的所述候选比分牌区域作为所述视频画面上的比分牌区域；

其中，所述识别装置还包括：比分牌模板建立模块，用于根据公式来获取预定数目的帧图像的比分牌模板，公式为：T_t(x,y)=T_t-1(x,y)×(1-k)+I_t(x,y)×k，其中，T_t(x,y)表示t帧时的模板像素，T_t-1(x,y)表示t-1帧时的模板像素，I_t(x,y)表示t帧时的图像像素值，k表示更新速度；检测识别模块，用于根据所述比分牌模板检测任意图像帧中是否出现比分牌，在出现比分牌时执行识别比分牌，并根据该公式更新所述比分牌模板。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

识别加速处理模块，包括：

第一处理模块，用于识别所述视频画面的起始位置的第一比分数字和结束位置的第二比分数字，在所述第一比分数字与所述第二比分数字不同的情况下，获取第一有效视频区间；

第二处理模块，用于获取所述第一有效视频区间中间位置的第三比分数字，在所述第三比分数字与所述第一比分数字或第二比分数字不同时，获取第二有效视频区间；

第三处理模块，根据所述第二有效视频区间循环执行所述第二处理模块，直至所述比分数字不再发生变化时，识别该时刻所述比分区域的比分数字。