CN103065152A

CN103065152A - 一种视频中数字时钟的识别方法

Info

Publication number: CN103065152A
Application number: CN2012105336842A
Authority: CN
Inventors: 余新国
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2013-04-24
Anticipated expiration: 2032-12-10
Also published as: CN103065152B

Abstract

本发明公开了一种视频中数字时钟的识别方法，具体为：依据秒钟数字变化周期性确定秒位转换帧和秒位数字粗选区域；在粗选区域内依据秒位数字和背景颜色精准确定秒位数字区域，并依据时钟数字位置关系确定余下三个时钟数字区域；每两相邻秒位转换帧内提取一视频帧构成秒位待匹配视频帧序列，将其与0~9的数字序列模板进行匹配，从而识别秒位数字；每两相邻零秒视频帧内提取一视频帧构成十秒位待匹配视频帧序列，将其与0~5的数字序列模板进行匹配，从而识别十秒位；利用秒位数字视频帧作为样本训练得到分类器，利用分类器分别对视频帧进行分类，从而识别分钟和十分钟数字。本发明利用数字时钟本身变化规律来进行识别，提高了识别速率、准确度和鲁棒性。

Description

一种视频中数字时钟的识别方法

技术领域

本发明属于信息识别及视频分析领域，尤其涉及一种视频中数字时钟的识别方法。

背景技术

数字时钟识别是体育视频以及监护视频分析中十分重要的一个内容。在视频分析中，时间信息不仅可以作为元数据用于视频索引及标注，同时也是实现多模态内容同步(如体育视频中同一事件对应的视频、音频、文本信息)的重要参照信息。利用数字时钟识别技术，我们可以更好地对视频中的事件进行检测和分析，例如在足球视频分析中可以将比赛日志中提供的事件发生时间与视频中的比赛时间进行同步，从而在更短的时间内更准确地检测比赛事件；数字时钟识别技术同样可以帮助我们定位监护视频中特定的时刻对应的片断，从而能够更方便地对监护状况进行分析；在篮球比赛中数字时钟能够反映比赛状态是进行中还是中断状态，因此对篮球视频中的时钟进行识别也可以很好地帮助我们进行篮球比赛事件的检测和分析。

目前数字时钟识别主要有以下几种技术：

1、OCR

即直接获取图像中的数字图像，然后利用OCR(Optical CharacterRecognition)技术对其进行识别。但是由于视频中的数字时钟往往分辨率很低，而且伴随有噪声和变形，因此直接利用OCR进行数字识别的准确率无法满足要求。同时OCR技术需要利用字符的局部特征匹配来进行识别，因此在速度上也无法满足视频分析的要求。

2.基于图像处理的数字时钟识别方法

这一类方法首先检测视频中的静态区域(static region)，从中确定时钟区域，然后提取时钟区域中的连通域，并根据时钟数字的变化特点找出数字区域。然后对单个数字或数字序列进行匹配识别。这样的方法存在以下不足：

1)由于主要采用的是图像处理相关技术而没有充分利用时钟数字变化的规律，所以这种方法对于时钟位置的定位的效率较低，且易于出错。具体来说就是一方面视频中数字时钟区域的位置及大小并没有一个较为固定的规律可供参考，同时视频中的logo也会对时钟区域的检测产生干扰；另一方面在记分牌上也可能会有许多与时钟数字大小差不多的区域。这两点增加了基于图像处理的数字区域查找方法得出错误结果的可能性，同时由于要专门考虑如何排除这些干扰区域，从而也会限制数字区域查找的效率。

2)由于视频中的时钟数字分辨率较低，因此会导致某些形状相似的数字分辨起来极其困难，如8、9、0，5、6等。这就意味着如果仅仅对单个数字进行模板识别，那么识别的鲁棒性会较低。

发明内容

本发明的目的在于提供一种视频中数字时钟的识别方法，该方法利用数字时钟本身变化规律来进行识别，提高了识别速率、准确度和鲁棒性。

一种视频中数字时钟的识别方法，具体为：

(1)秒位数字粗选区域的初步定位：在视频帧流中，确定满足秒钟数字变化周期性的秒位转换帧F及该帧F内的潜在秒位像素点，按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域；所述秒钟数字变化的周期性是指秒位数字在某一帧发生变化，而在之前及之后的R帧都保持不变，R为视频的每秒传输帧数；

(2)四个时钟数字区域的准确定位：首先依据预定的时钟数字颜色和背景色在秒位数字粗选区域进一步精准确定秒位数字区域，再以秒位数字区域为基准，结合时钟数字颜色和背景色以及四个时钟数字间的位置和大小关系确定余下的十秒位、分位和十分位三个时钟数字区域；

(3)秒位数字的识别：预先构建0～9的数字序列模板，在视频帧流中标识11个连续的秒位转换帧，每两相邻秒位转换帧内任意提取一视频帧的秒位数字区域构成秒位待匹配视频帧序列，将秒位待匹配视频帧序列与0～9的数字序列模板进行匹配，从而识别视频帧的秒位数字；

(4)十秒位数字的识别：预先构建0～5的数字序列模板，在步骤(3)的识别结果中找到秒位数字为0的零秒视频帧，在视频帧流中标识6个连续的零秒视频帧，每两相邻零秒视频帧内任意提取一视频帧的十秒位数字区域构成十秒位待匹配视频帧序列，将十秒位待匹配视频帧序列与0～5的数字序列模板进行匹配，从而识别视频帧的十秒位数字；

(5)分钟和十分钟位数字的识别：利用步骤(3)识别出秒位数字的视频帧作为样本训练得到分类器，利用分类器分别对视频帧的分钟数字区域和十分钟数字区域进行分类，从而识别视频帧的分钟和十分钟数字。

进一步地，所述步骤(1)具体为：

(11)在视频帧中提取连续10秒的10*R帧，搜索其中每一帧z的潜在转换像素q，所述第i帧中的潜在转换像素q满足条件：

\{\begin{matrix} | c (k, q) - C_{1} | < β_{1}, k = z - R + 1, \cdot \cdot \cdot, z - 1, C_{1} = \frac{1}{R} Σ_{k = z - R}^{z - 1} c (k, q) \\ | c (k, q) - C_{2} | < β_{1}, k = z, \cdot \cdot \cdot, z + R - 1, C_{2} = \frac{1}{R} Σ_{k = z}^{z + R - 1} c (k, q) \\ | C_{1} - C_{2} | > β_{2} \end{matrix}

c(k，q)表示第k帧中像素点q的灰度值，β₁和β₂的取值区间在[20，60]。

(12)在连续10秒的10*R帧内搜索秒位转换帧F_η，秒位转换帧F_η满足其评估值

同时大于其它帧的评估值和阈值β₃，其中，转换帧在1秒内的视频帧序号η∈[0，R)，

β₃的取值区间为[10，20]；

(13)在秒位转换帧内搜索潜在秒位像素点p，潜在秒位像素点p满足条件：Q(p)＞β₄，其中，

β₄的取值区间为[3，5]；

(14)按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域。

进一步地，所述步骤(2)具体为：

(21)收集连续10秒视频帧的秒位粗选区域以及背景区域画面，分别构建像素值集合S和B；

(22)分别对像素值集合S和B构建直方图，并利用高斯混合模型确定数字和背景的颜色；

(23)在秒位粗选区域中利用获得的数字和背景颜色精准定位秒位数字区域B₁＝(r₁，c₁，w₁，h₁).，r₁，c₁，w₁，h₁分别表示秒位数字区域的左上角点的纵坐标、左上角点的横坐标、宽度和高度；

(24)定义B_i＝(r_i，c_i，w_i，h_i).i＝2，3，4表示十秒位、分钟位和十分钟位区域，r_i，c_i，w_i，h_i分别表示B_i的左上角点的纵坐标、左上角点的横坐标、宽度和高度；通过Hough-like方法求解秒位区域B₁与十秒位区域B₂之间的距离d₁以及十秒位区域B₂与分钟位区域B₃之间的距离d₂，进而确定十秒位、分钟位和十分钟位区域，即

\{\begin{matrix} (r_{2}, c_{2}, w_{2}, h_{2}) = (r, c - d_{1}, w, h) \\ (r_{3}, c_{3}, w_{3}, h_{3}) = (r, c - d_{1} - d_{2}, w, h) \\ (r_{4}, c_{4}, w_{4}, h_{4}) = (r, c - 2 d_{1} - d_{2}, w, h) \end{matrix} .

一种视频中数字时钟的识别系统，包括：

秒位数字粗选区域的初步定位模块，用于在视频帧流中，确定满足秒钟数字变化周期性的秒位转换帧F及该帧F内的潜在秒位像素点，按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域；所述秒钟数字变化的周期性是指秒位数字在某一帧发生变化，而在之前及之后的R帧都保持不变，R为视频的每秒传输帧数；

四个时钟数字区域的准确定位模块，用于首先依据预定的时钟数字颜色和背景色在秒位数字粗选区域进一步精准确定秒位数字区域，再以秒位数字区域为基准，结合时钟数字颜色和背景色以及四个时钟数字间的位置和大小关系确定余下的十秒位、分位和十分位三个时钟数字区域；

秒位数字的识别模块，用于预先构建0～9的数字序列模板，在视频帧流中标识11个连续的秒位转换帧，每两相邻秒位转换帧内任意提取一视频帧的秒位数字区域构成秒位待匹配视频帧序列，将秒位待匹配视频帧序列与0～9的数字序列模板进行匹配，从而识别视频帧的秒位数字；

十秒位数字的识别模块，用于预先构建0～5的数字序列模板，在秒位数字的识别模块的识别结果中找到秒位数字为0的零秒视频帧，在视频帧流中标识6个连续的零秒视频帧，每两相邻零秒视频帧内任意提取一视频帧的十秒位数字区域构成十秒位待匹配视频帧序列，将十秒位待匹配视频帧序列与0～5的数字序列模板进行匹配，从而识别视频帧的十秒位数字；

分钟和十分钟位数字的识别模块，用于利用秒位数字的识别模块识别出秒位数字的视频帧作为样本训练得到分类器，利用分类器分别对视频帧的分钟数字区域和十分钟数字区域进行分类，从而识别视频帧的分钟和十分钟数字。

进一步地，所述秒位数字粗选区域的初步定位模块包括：

初步定位模块的第一子模块，用于在视频帧中提取连续10秒的10*R帧，搜索其中每一帧z的潜在转换像素q，所述第i帧中的潜在转换像素q满足条件：

\{\begin{matrix} | c (k, q) - C_{1} | < β_{1}, k = z - R + 1, \cdot \cdot \cdot, z - 1, C_{1} = \frac{1}{R} Σ_{k = z - R}^{z - 1} c (k, q) \\ | c (k, q) - C_{2} | < β_{1}, k = z, \cdot \cdot \cdot, z + R - 1, C_{2} = \frac{1}{R} Σ_{k = z}^{z + R - 1} c (k, q) \\ | C_{1} - C_{2} | > β_{2} \end{matrix}

初步定位模块的第二子模块，用于在连续10秒的10*R帧内搜索秒位转换帧F_η，秒位转换帧F_η满足其评估值

β₃的取值区间为[10，20]；

初步定位模块的第三子模块，用于在秒位转换帧内搜索潜在秒位像素点p，初步定为位像素点p满足条件：Q(p)＞β₄，其中，

β₄的取值区间为[3，5]；

初步定位模块的第四子模块，按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域。

进一步地，所述四个时钟数字区域的准确定位模块包括：

准确定位模块的第一子模块，用于收集连续10秒视频帧的秒位粗选区域以及背景区域画面，分别构建像素值集合S和B；

准确定位模块的第二子模块，用于分别对像素值集合S和B构建直方图，并利用高斯混合模型确定数字和背景的颜色；

准确定位模块的第三子模块，用于在秒位粗选区域中利用获得的数字和背景颜色精准定位秒位数字区域B₁＝(r₁，c₁，w₁，h₁)，r₁，c₁，w₁，h₁分别表示秒位数字区域的左上角点的纵坐标、左上角点的横坐标、宽度和高度；

准确定位模块的第四子模块，用于定义B_i＝(r_i，c_i，w_i，h_i).i＝2，3，4表示十秒位、分钟位和十分钟位区域，r_i，c_i，w_i，h_i分别表示B_i的左上角点的纵坐标、左上角点的横坐标、宽度和高度；通过Hough-like方法求解秒位区域B₁与十秒位区域B₂之间的距离d₁以及十秒位区域B₂与分钟位区域B₃之间的距离d₂，进而确定十秒位、分钟位和十分钟位区域，即

\{\begin{matrix} (r_{2}, c_{2}, w_{2}, h_{2}) = (r, c - d_{1}, w, h) \\ (r_{3}, c_{3}, w_{3}, h_{3}) = (r, c - d_{1} - d_{2}, w, h) \\ (r_{4}, c_{4}, w_{4}, h_{4}) = (r, c - 2 d_{1} - d_{2}, w, h) \end{matrix} .

通过以上方案可以看出，本发明可带来以下有益效果：

1.本发明利用数字时钟本身的变化规律进行数字区域的定位，而没有采用现有的基于图像处理的思路，这样提高了识别的效率和鲁棒性。

2.本发明利用数字序列来进行秒位及十秒位数字的识别，然后利用视频本身的数字样本来对分钟位的数字进行识别。这样能够较好的解决视频中时钟数字分辨率较低以及噪声的问题，从而提高识别的准确度。

附图说明

图1是数字时钟识别方法的步骤示意图。

图2是10秒内秒位区域中某一像素的变化情况示意，其中2(a)是10秒内秒位区域某一像素的采样，2(b)为该像素点在10秒内灰度值的变化情况示意。

图3是时钟数字颜色的提取过程示意，其中3(a)和3(b)分别为数字区域和背景区域的采样示意；3(c)和3(d)分别为对应3(a)和3(b)的灰度直方图；3(e)为提取出的10秒内的秒位数字序列；3(f)为提取出的一个完整的时钟区域示例。

具体实施方式

下面结合附图对本发明做详细地说明。

本发明的实现包括4个步骤，依次是(1)秒位数字区域的初步定位；(2)四个时钟数字区域的定位；(3)秒位数字的识别；(4)分钟位数字的识别。

方法的实现流程如下：

(1)秒位数字区域的初步定位：这一步要做的是初步定位时钟中秒位的区域。根据秒钟数字变化的周期性即理想状态下，秒位的数字会在某一帧发生变化，而在之前及之后的R帧都基本保持不变(R为视频的每秒传输帧数fps)，本发明定义了三个函数来描述这种变化规律，并利用这三个函数来求出满足秒位变化规律的像素点。该部分分为两步，第一步是找到秒位转换帧η，第二步首先在视频图像中得到秒位像素的候选集合，然后对这些像素的分布状况进行评估，其中分布密度和面积均足够大的区域即为秒位所在区域，否则认为画面中没有出现时钟。

(2)四个时钟数字区域的定位：为了精确定位数字区域，需要知道视频中时钟数字的颜色。在第一步中，初步确定了秒位数字所在的区域。由于该区域中包含有两种颜色即时钟数字的颜色和背景色，因此利用高斯混合模型(GMM)在该区域中提取出时钟数字的颜色和背景色，并利用数字的颜色重新精确定位秒位对应的区域。接下来，利用两种颜色以及精确定位的秒位区域，根据常规经验(如一般来说时钟的4个数字位水平平行、数字颜色一致、大小一样等)建立模型并采用hough-like过程来进行求解，从而确定4个数字区域的位置和大小。

(3)秒位数字的识别：在第一步中检测到了秒位转换帧η，因此可以假定在[k*R+η+1，(k+1)*R+η]这个区间内秒位数字是不会变化的，不过此时还不能确定具体数值。由于在视频中，秒位数字的变化是有规律的，比如在足球视频中，秒位数字是在0-9之间循环，且逐秒按模递增。因此，采用由标准数字字体组成的数字序列模板来进行秒位数字的识别。比如当前10秒片断的秒位数字序列为“7890123456”，本发明采用“0123456789”，“1234567890”这样的模板序列逐个与秒位数字序列进行对比，等分最高的序列即为识别的结果。这样基于序列的数字识别可以很好地解决单个数字识别中相似字符不容易分辨的问题，在鲁棒性上大大优于基于单个字符的数字识别。对于十秒位的数字，也可以采用这种方式。

(4)分钟位数字的识别：不同于秒位和十秒位的数字，分钟数字每一分钟才会改变一次，因此采用序列模板的方式进行识别会导致过大的延迟。本发明采用实时训练分类器的思想来进行分钟位数字的识别。具体来说就是利用在秒位和十秒位识别的数字作为样本来训练分类器，然后利用分类器来识别分钟位以及十分钟位的数字。

每一步的具体实施方式分别如下：

(1)秒位数字区域的初步定位。

在本步骤中确定秒位转换帧，并初步定位时钟中的秒位区域。从图2的实例中可以看出，视频中时钟数字区域像素的变化具有周期性，即每隔R帧变化一次(R为视频的FPS)，利用这一规律可以对秒位区域进行初步定位，具体的实施步骤如下：

(11)找出视频帧中的潜在转换像素，潜在转换像素的定义为：

定义1：称第i帧中的像素q为潜在转换像素，当且仅当q同时满足下列条件：

\{\begin{matrix} | c (k, q) - C_{1} | < β_{1}, k = z - R + 1, \cdot \cdot \cdot, z - 1, C_{1} = \frac{1}{R} Σ_{k = z - R}^{z - 1} c (k, q) \\ | c (k, q) - C_{2} | < β_{1}, k = z, \cdot \cdot \cdot, z + R - 1, C_{2} = \frac{1}{R} Σ_{k = z}^{z + R - 1} c (k, q) \\ | C_{1} - C_{2} | > β_{2} \end{matrix}

其中R为视频的FPS。c(k，q)表示第k帧中像素q的灰度值，根据实验，β₁和β₂的取值区间在[20，60]。

(12)对10秒内的10*R帧进行评估，求出转换帧F_η。

评估函数S(i)的详细定义如下：

i为1秒内的视频帧序号；

定义2：潜在转换像素函数T(i，p)定义如下

对于某一帧图像F_i，评估函数S(i)定义为

\begin{matrix} S (i) = Σ_{j = 0}^{9} Σ_{p &Element; F_{i}} T (i + j * R, p) & i &Element; [0, R) \end{matrix}- - - - (2)

其中R为视频的FPS。

若在区间内评估函数S(i)的最大值大于阈值β₃，那么最大值对应的i值即为秒位转换帧η。这里β₃的取值区间为[10，20]。

(13)确定秒位转换帧以后，再重新对画面像素进行评估，找出在转换帧符合秒位数字变化规律的像素点并估计时钟的秒位区域。

具体评估函数定义如下：

定义4：φ(i，p)被称为秒位区域像素评估函数。这里φ(m，p)＝1意味着像素p符合转换帧为η的秒位数字变化规律。

定义5：对于像素p，定义

Q (p) = Σ_{j = 0}^{9 * R} φ (η + j \times R, p) - - - (5)

如果对于像素p，Q(p)的值满足条件Q(p)＞β₄，那么p即为可能的秒位区域像素。根据实验这里β₄的取值区间为[3，5]。

(14)按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域。本步骤可采用聚类方法或连通域标记方法。下面聚类方法示例说明：提取秒位区域簇：定义

定义

其中N为集合

中的像素数量。那么如果对于所有的集合均有N＜β₅，那么表示未检测到时钟，根据实验，这里β₅的取值区间为[5，8]，否则集合中最大的簇即为数字时钟的秒位区域。

(2)时钟四个数字区域的定位。第一步中最后所获得的结果只是秒位的一个大致范围，因此需要进一步的精确定位，同时利用定位后的秒位区域，结合数字时钟的特性(四个数字区域颜色一样、大小、字体一致，且呈水平排列等)确定四个数字区域的位置和大小。具体实现流程如下：

(21)秒位数字的区域提取。提取流程分四步：

1)收集连续十秒的秒位区域(粗)以及背景区域的画面，分别构建像素值集合S和B。

2)对S和B构建直方图，利用高斯混合模型(GMM)确定数字和背景的颜色(因为数字颜色和背景颜色在实际视频中的变化可以看作是符合高斯分布的，所以可以采用高斯混合模型将两种颜色从直方图中提取出来)。

3)利用获得的数字和背景颜色的高斯函数重新识别秒位区域中的数字像素。

4)利用识别结果将区域二值化(数字像素255(白色)，背景区域0(黑色))。

图3为该步骤的实例示意图，利用高斯混合模型对直方图进行处理，既可找到直方图中波峰对应的高斯分布，从而确定数字和背景区域的像素值。

(22)全部四个数字区域的定位

确定了秒位区域以后，接下来确定十分钟，分钟，十秒这三个数字区域的包围盒。这里本发明用B＝(r，c，w，h)来表示之前确定的秒位区域的包围盒，用B_i＝(r_i，c_i，w_i，h_i)，i＝1，2，3，4来表示秒位，十秒位，分钟位，十分钟位的包围盒。其中B和B₁是等价的。因为这四个包围盒具有相同的大小，且B₁和B₂之间的距离与B₃和B₄之间的距离相等。因此对于B_i＝(r_i，c_i，w_i，h_i)for i＝1 to 4可以构建一个方程组：

Θ : \{\begin{matrix} (r_{2}, c_{2}, w_{2}, h_{2}) = (r, c - d_{1}, w, h), \\ (r_{3}, c_{3}, w_{3}, h_{3}) = (r, c - d_{1} - d_{2}, w, h), \\ (r_{4}, c_{4}, w_{4}, h_{4}) = (r, c - 2 d_{1} - d_{2}, w, h) . \end{matrix} - - - (6)

其中d₁为B₁和B₂之间的距离，d₂为B₂和B₃之间的距离。

本发明利用Hough-like过程求解d₁和d₂.。在这个Hough-like过程中，Hough空间的定义如下：

其中

为自然数常数。.

对于H中的一对d，计算M(d₁，d₂)，而结果最小的(d₁，d₂)即为所求。M(d₁，d₂)的具体定义如下：

M (d_{1}, d_{2}) = Σ_{i = 2}^{4} Σ_{p &Element; B_{i}} E (p) - - - (8)

其中E(p)＝[d(p，l_i)]²，l_i为B_i的中线，d(p，l_i)表示p到l_i的距离。

(3)秒位区域的数字识别。利用前面的步骤中确定的秒位数字转换帧以及秒位区域，我们提取长度为11秒的秒位数字连续变化的视频片断。假设β为秒位转换帧，那么在[β+k*R+1，β+(k+1)*R](k＝1，2，3...N)区间内秒位数字可以看作是不变的，因此选择区间中间的帧来进行秒位区域的数字识别，即在[β+k*R+1，β+(k+1)*R]区间内提取第β+(k+0.5)*R帧来作为数字识别之用。在接下来的说明中采用Fk来表示该帧，对应的秒位区域用S^k.表示。设D(j)为起始数字为j(j＝0，1，2，...，9.)的长度为十的数字序列模板，即{j，(j+1)％10，(j+2)％10，...(j+9)％10}。那么对于一个开始数字为x的长度为10的连续S^k.序列，识别函数U(x)定义如下：

U (x) = Σ_{r = 0}^{9} M (D ((x + r) % 10), S^{k + r}) - - - (9)

其中U(x)的定义域为{0，1，2，3，...，9}，％表示求模，M表示内积操作。那么当函数取最大值时，对应的x即为S^k表示的数字。

(4)接下来可以用类似的方法识别十秒区域的数字，在步骤(3)的识别结果中找到秒位数字为0的零秒视频帧，值得注意的是不同于秒位区域，十秒区域的数字取值范围为{0，1，2，3，4，5}。

(5)分钟位数字和十分钟位数字的识别。不同于秒位和十秒位的数字，分钟数字每一分钟才会改变一次，十分钟每十分钟才会改变依次，因此采用序列的方式进行识别会导致过大的延迟。因此本发明采用实时训练分类器的思想来进行分钟位数字的识别。分类器可选用Bayes分类器，BP神经网络分类器，决策树算法，SVM(支持向量机)等等。大致流程如下：

1)收集识别出来的秒位区域数字样本。

2)利用获得的样本分别针对0-9训练10个分类器。

3)采集分钟及十分钟区域的数字样本。

4)利用分类器对样本进行识别。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频中数字时钟的识别方法，具体为：

（1）秒位数字粗选区域的初步定位：在视频帧流中，确定满足秒钟数字变化周期性的秒位转换帧F及该帧F内的潜在秒位像素点，按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域；所述秒钟数字变化的周期性是指秒位数字在某一帧发生变化，而在之前及之后的R帧都保持不变，R为视频的每秒传输帧数；

（2）四个时钟数字区域的准确定位：首先依据预定的时钟数字颜色和背景色在秒位数字粗选区域进一步精准确定秒位数字区域，再以秒位数字区域为基准，结合时钟数字颜色和背景色以及四个时钟数字间的位置和大小关系确定余下的十秒位、分位和十分位三个时钟数字区域；

（3）秒位数字的识别：预先构建0~9的数字序列模板，在视频帧流中标识11个连续的秒位转换帧，每两相邻秒位转换帧内任意提取一视频帧的秒位数字区域构成秒位待匹配视频帧序列，将秒位待匹配视频帧序列与0~9的数字序列模板进行匹配，从而识别视频帧的秒位数字；

（4）十秒位数字的识别：预先构建0~5的数字序列模板，在步骤（3）的识别结果中找到秒位数字为0的零秒视频帧，在视频帧流中标识6个连续的零秒视频帧，每两相邻零秒视频帧内任意提取一视频帧的十秒位数字区域构成十秒位待匹配视频帧序列，将十秒位待匹配视频帧序列与0~5的数字序列模板进行匹配，从而识别视频帧的十秒位数字；

（5）分钟和十分钟位数字的识别：利用步骤（3）识别出秒位数字的视频帧作为样本训练得到分类器，利用分类器分别对视频帧的分钟数字区域和十分钟数字区域进行分类，从而识别视频帧的分钟和十分钟数字。

2.根据权利要求1所述的一种视频中数字时钟的识别方法，其特征在于，所述步骤（1）具体为：

\{\begin{matrix} | c (k, q) - C_{1} | < β_{1}, k = z - R + 1, . . ., z - 1, C_{1} = \frac{1}{R} Σ_{k = z - R}^{z - 1} c (k, q) \\ | c (k, q) - C_{2} | < β_{1}, k = z, . . ., z + R - 1, C_{2} = \frac{1}{R} Σ_{k = z}^{z + R - 1} c (k, q) \\ | C_{1} - C_{2} | > β_{2} \end{matrix}

c(k，q)表示第k帧中像素点q的灰度值，β₁和β₂的取值区间在[20,60]。

（12）在连续10秒的10*R帧内搜索秒位转换帧F_η，秒位转换帧F_η满足其评估值

同时大于其它帧的评估值和阈值β₃，其中，转换帧在1秒内的视频帧序号η∈[0,R)，

β₃的取值区间为[10,20]；

（13）在秒位转换帧内搜索潜在秒位像素点p，潜在秒位像素点p满足条件：Q(p)＞β₄，其中，

Q (p) = Σ_{j = 0}^{q * R} φ (η + j \times R, p),

β₄的取值区间为[3,5]；

（14）按照潜在秒位像素点的分布密度和面积越大则为秒位数字粗选区域的可能性越大的原则选取秒位数字粗选区域。

3.根据权利要求1所述的一种视频中数字时钟的识别方法，其特征在于，所述步骤（2）具体为：

（21）收集连续10秒视频帧的秒位粗选区域以及背景区域画面，分别构建像素值集合S和B；

（22）分别对像素值集合S和B构建直方图，并利用高斯混合模型确定数字和背景的颜色；

（23）在秒位粗选区域中利用获得的数字和背景颜色精准定位秒位数字区域B₁＝(r₁,c₁,w₁,h₁)，，r₁,c₁,w₁,h₁分别表示秒位数字区域的左上角点的纵坐标、左上角点的横坐标、宽度和高度；

（24）定义B_i＝(r_i，c_i,w_i,h_i)i＝2,3,4表示十秒位、分钟位和十分钟位区域，r_i,c_i，w_i,h_i分别表示B_i的左上角点的纵坐标、左上角点的横坐标、宽度和高度；通过Hough-like方法求解秒位区域B₁与十秒位区域B₂之间的距离d₁以及十秒位区域B₂与分钟位区域B₃之间的距离d₂，进而确定十秒位、分钟位和十分钟位区域，即

\{\begin{matrix} (r_{2}, c_{2}, w_{2}, h_{2}) = (r, c - d_{1}, w, h) \\ (r_{3}, c_{3}, w_{3}, h_{3}) = (r, c - d_{1} - d_{2}, w, h) \\ (r_{4}, c_{4}, w_{4}, h_{4}) = (r, c - {2 d}_{1} - d_{2}, w, h) \end{matrix} .

4.一种视频中数字时钟的识别系统，包括：

秒位数字的识别模块，用于预先构建0~9的数字序列模板，在视频帧流中标识11个连续的秒位转换帧，每两相邻秒位转换帧内任意提取一视频帧的秒位数字区域构成秒位待匹配视频帧序列，将秒位待匹配视频帧序列与0~9的数字序列模板进行匹配，从而识别视频帧的秒位数字；

十秒位数字的识别模块，用于预先构建0~5的数字序列模板，在秒位数字的识别模块的识别结果中找到秒位数字为0的零秒视频帧，在视频帧流中标识6个连续的零秒视频帧，每两相邻零秒视频帧内任意提取一视频帧的十秒位数字区域构成十秒位待匹配视频帧序列，将十秒位待匹配视频帧序列与0~5的数字序列模板进行匹配，从而识别视频帧的十秒位数字；

5.根据权利要求4所述的一种视频中数字时钟的识别系统，其特征在于，所述秒位数字粗选区域的初步定位模块包括：

\{\begin{matrix} | c (k, q) - C_{1} | < β_{1}, k = z - R + 1, . . ., z - 1, C_{1} = \frac{1}{R} Σ_{k = z - R}^{z - 1} c (k, q) \\ | c (k, q) - C_{2} | < β_{1}, k = z, . . ., z + R - 1, C_{2} = \frac{1}{R} Σ_{k = z}^{z + R - 1} c (k, q) \\ | C_{1} - C_{2} | > β_{2} \end{matrix}

β₃的取值区间为[10,20]；

β₄的取值区间为[3,5]；

6.根据权利要求4或5所述的一种视频中数字时钟的识别系统，其特征在于，所述四个时钟数字区域的准确定位模块包括：

准确定位模块的第三子模块，用于在秒位粗选区域中利用获得的数字和背景颜色精准定位秒位数字区域B₁＝(r₁,c_1,w₁,h₁)，，r₁，c₁,w₁,h₁分别表示秒位数字区域的左上角点的纵坐标、左上角点的横坐标、宽度和高度；

准确定位模块的第四子模块，用于定义B_i＝(r_i，c_i,w_i,h_i)i＝2,3,4表示十秒位、分钟位和十分钟位区域，r_i,c_i，w_i,h_i分别表示B_i的左上角点的纵坐标、左上角点的横坐标、宽度和高度；通过Hough-like方法求解秒位区域B₁与十秒位区域B₂之间的距离d₁以及十秒位区域B₂与分钟位区域B₃之间的距离d₂，进而确定十秒位、分钟位和十分钟位区域，即

\{\begin{matrix} (r_{2}, c_{2}, w_{2}, h_{2}) = (r, c - d_{1}, w, h) \\ (r_{3}, c_{3}, w_{3}, h_{3}) = (r, c - d_{1} - d_{2}, w, h) \\ (r_{4}, c_{4}, w_{4}, h_{4}) = (r, c - {2 d}_{1} - d_{2}, w, h) \end{matrix} .