CN102193918A

CN102193918A - 视频检索方法和装置

Info

Publication number: CN102193918A
Application number: CN2010101158955A
Authority: CN
Inventors: 王修飞; 黄磊; 刘昌平
Original assignee: Hanwang Technology Co Ltd
Current assignee: BEIJING HANVON ZHIYUAN TECHNOLOGY CO., LTD.
Priority date: 2010-03-01
Filing date: 2010-03-01
Publication date: 2011-09-21
Anticipated expiration: 2030-03-01
Also published as: CN102193918B

Abstract

本发明公开了一种视频检索方法和装置，属于智能监控领域。方法包括如下步骤：步骤1：对输入的监控视频进行视频文字提取；步骤2：根据提取到的文本信息建立索引单元，并加入到索引表中；步骤3：根据索引表查找对应的视频。本发明可以自动定位、二值化并识别出监控视频中的文字信息，并根据识别的结果建立基于监控视频中文字信息的索引表，从而在索引表中搜索输入的查询关键字对监控视频进行查询。本发明可自动提取出监控视频中的文字信息，从而获得比运动信息以及纹理信息更丰富、更有用的语义信息。与传统的人工查询相比，本发明可通过查询系统自动查询相关视频，方便了用户进行基于内容的监控视频自动检索与查询，极大地节省了人力。

Description

视频检索方法和装置

技术领域

本发明属于智能监控领域，涉及一种视频检索方法和装置。

背景技术

视频监控系统以其直观方便、内容详实而被广泛应用于生产管理、安防等场合，视频监控系统的一般过程是：在一些重要场所安放一个或若干个摄像机拍摄监控现场，然后将视频信号通过一定的传输网络(线缆、无线、光纤或以太网)，传到指定的监控中心，再通过存储设备，将媒体存储到存储介质上，同时还可以根据不同需要和途径在现场安装其它的探测装置作为监控系统的辅助设备。

视频监控系统目前已被广泛地应用到了各个领域，如交通、医疗、社会安全等。通过视频监控系统，我们不仅能对监控区域进行实时监测，在重大事故发生后，我们还可以通过查询监控录像，还原事故现场。但是由于视频监控系统一般为全天候24小时监控，保存下来的监控视频录像数据量巨大，往往需要兆级以上的硬盘存储器来存储，这为监控视频的检索带来了极大的不便。

目前监控视频的检索与查询主要有两种方法，一种是人工查找，即由专业监控人员在硬盘服务器上查找，当监控数据达到一定的量级时，人工检索工作是十分耗时和繁琐的；第二种是基于内容的检索方法，基于内容的检索方法主要是通过对监控视频进行智能分析，获取到一些有用的语义信息，然后根据这些分析结果来进行查询。用于视频检索中较为常用的智能视频分析方法有：运动检测、纹理分类等。然而针对监控视频而言，通过这种视频分析方法所获取的语义信息过于简单，难以提供实用、有效的检索查询信息。

视频光学字符识别是一种旨在将视频或图像中的文字信息提取并识别出来的关键技术。随着数字视频在各个领域的应用越来越广泛，视频信息的提取、检索、查询技术越来越重要，Video OCR研究也逐渐成为热点。监控视频中的文字信息，如监控地点、监控时间、报警信息等是一种非常有用的语义信息，可用于监控视频的检索与查询。

发明内容

本发明所要解决的技术问题是提供一种视频检索方法和装置，本方法可以自动定位、二值化并识别出监控视频中的文字信息，并根据识别的结果建立基于监控视频中文字信息的索引表，通过在监控信息索引表中搜索输入的查询关键字对监控视频进行查询。本方法自动提取监控视频中的文字信息，包括监控时间、监控地点、车牌号码、报警信息等，方便了用户进行基于内容的监控视频自动检索与查询。

视频检索方法，包括如下步骤：

步骤1：对输入的监控视频进行视频文字提取；

步骤2：根据提取到的文本信息建立索引单元，并加入到索引表中；

步骤3：根据索引表查找对应的视频。

所述步骤1包括如下步骤：

步骤a：对输入的视频进行文本定位；

步骤b：对文本定位的结果进行二值化；

步骤c：对二值化后的字符进行切分；

步骤d：对切分后的字符进行识别。

所述步骤a中，将输入的视频经边缘检测后采用滑动窗口扫描得到文本区域，将文本区域合并后得到文本定位结果。

所述步骤a中的边缘检测采用索贝尔算子提取视频图像的边缘，得到边缘图像。

所述步骤a的滑动窗口扫描中，采用固定窗口逐行对边缘图像扫描，当滑动窗口的平均强度大于既定阈值，且边缘图的滑动窗口内的HOG特征F使得决策函数满足：

Des(F)＝W·F+b≥0

则滑动窗口内包含文本。式中，Des(·)为决策函数，W和b为决策函数的决策参数，通过SVM训练得到。

所述滑动窗口的平均强度为E_Avg(S)

E_{Avg} (S) = \frac{\underset{(i, j) &Element; s}{Σ} E (i, j)}{Area (S)}

其中，E_Avg(S)为滑动窗口S的平均边缘强度，E(i，j)为点(i，j)的边缘强度，Area(S)为滑动窗口S的面积。

所述文本区域合并过程中，两相邻的含有文本的滑动窗口的共有部分的面积与两含有文本的滑动窗口面积之和的比值如大于合并阈值，则两相邻的含有文本的滑动窗口合并为一文本区域。

所述步骤b中文本定位的结果进行二值化时，计算文本定位后的图像中自适应二值化阈值和自适应二值化阈值的扩展阈值，并根据自适应二值化阈值和其扩展阈值对得到的文本定位后的图像进行二值化。

所述步骤c中二值化后字符进行切分时，根据二值化后图像的投影直方图计算判定切分点，将文本行中的字符进行切分，得到切分图像。

所述步骤d中切分后的字符进行识别时，对多个切分图像计算识别可信度，选取识别可信度最高的结果作为最终识别出的文本信息。所述步骤d中，第i幅切分图像的识别可信度

C (i) = \frac{Σ_{j = 1}^{M} R (i, j)}{M},

其中，R(i，j)表示第i幅切分图像中的第j个字符的识别可信度，M为第i幅切分图像中总的字符个数。

所述步骤2中，索引表含有多个索引单元。

所述步骤3中，包括如下步骤：

(1).输入查询关键字；

(2).查找索引表中含有与查询关键字对应的文本信息的索引单元；

(3).由索引单元将相应视频输出。

一种视频检索方法装置，包括如下模块：

文字提取模块，对输入的监控视频进行视频文字提取。

索引模块，根据提取到的文本信息建立索引单元，并加入到索引表中。

查找模块，根据索引表查找对应的视频。

本发明一种视频检索方法和装置，与现有技术相比，其优点和效果在于：

1)采用视频光学字符识别技术自动识别监控视频中的文字信息，将视频中的文字信息进行自动定位；对文本行中的字符有效地切分出来，使得最后的识别信息更加可靠。

2)根据视频光学字符识别的识别输出，建立监控视频文本信息与视频文件的对应关系表，即索引表，大大缩小了搜索数据量。

3)通过在索引表中搜索与查询关键字相匹配的索引单元，再由索引单元输出监控视频，从而准确查询到待查找的监控视频。

与以往基于内容的检索方法相比，本发明可自动提取出监控视频中的文字信息，从而获得比运动信息以及纹理信息更丰富、更有用的语义信息。与传统的人工查询相比，本方法可通过查询系统自动查询相关视频，极大地节省了人力。

附图说明

图1为本发明视频检索方法的流程图；

图2为本发明视频检索方法的对输入的监控视频进行视频文字提取的流程图；

图3为本发明视频检索方法的边缘检测过程的示意图；

图4为本发明视频检索方法的滑动窗口扫描示意图；

图5a为本发明视频检索方法的实施例的输入图像；

图5b为本发明视频检索方法的实施例的输入图像的边缘提取的结果图；

图5c为本发明视频检索方法的实施例中滑动窗口扫描后得到的文本区域图；

图5d为本发明视频检索方法的实施例中文本合并后得到的定位结果图；

图6a为本发明视频检索方法的实施例中经步骤1对输入的视频进行文本定位后得到的文本图像；

图6b为本发明视频检索方法的对图6a采用阈值T₀二值化的结果图；

图6c为本发明视频检索方法的对图6a采用阈值T₁二值化的结果图；

图6d为本发明视频检索方法的对图6a采用阈值T₂二值化的结果图；

图7a为本发明视频检索方法的图6b对应的列投影直方图和切分结果图；

图7b为本发明视频检索方法的图6c对应的列投影直方图和切分结果图；

图7c为本发明视频检索方法的图6d对应的列投影直方图和切分结果图；

图8为本发明视频检索方法的图7a所对应的识别结果；

图9为本发明视频检索方法的索引单元的结构图；

图10为本发明视频检索方法的索引表的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明一种视频检索方法，如图1所示，包括如下步骤：

步骤1：对输入的监控视频进行视频文字提取。

如图2所示，

步骤a：对输入的视频进行文本定位。

对监控视频中的文字信息进行定位，分三步进行，包括：

1)边缘检测：文字是由一系列的边缘点组成的，采用索贝尔算子提取视频图像的边缘图，可以将视频中的文本信息突出出来。边缘提取的公式为：

E_x(i，j)＝f(i+1，j-1)+2×f(i+1，j)+f(i+1，j+1)-f(i-1，j-1)-2×f(i-1，j)-f(i-1，j+1)(1)

E_y(i，j)＝f(i-1，j+1)+2×f(i，j+1)+f(i+1，j+1)-f(i-1，j-1)-2×f(i，j-1)-f(i+1，j-1)(2)

E (i, j) = \sqrt{{E_{x}}^{2} (i, j) + {E_{y}}^{2} (i, j)} - - - (3)

式中，f(i，j)表示点(i，j)的灰度像素值，E_x(i，j)表示点(i，j)的水平边缘强度，E_y(i，j)表示点(i，j)的垂直边缘强度，E(i，j)则表示点(i，j)的边缘强度。

本实施例中，图5a为输入图像，如图3所示，为图5a中边缘上一点及其周围各像素点灰度像素值。E(i，j)则表示图3中的中心像素点的边缘强度值。图5a的边缘提取的结果图如图5b所示。

2)滑动窗口扫描。步骤1得到的边缘图像中含有大量的非文本信息，对文本定位造成了很大的干扰。

本实施例中，采用滑动窗口扫描的方法来去除这些非文本边缘噪声，具体的实施方法为：采用一个固定窗口S＝20×20，以固定的步长L＝5，按从左到右，从上到下的顺序对边缘图像进行扫描，当滑动窗口S满足以下条件时，认为该滑动窗口内存在文本：

a)滑动窗口S内边缘点的平均强度E_Avg(S)大于50，E_Avg(S)的计算公式为：

E_{Avg} (S) = \frac{\underset{(i, j) &Element; s}{Σ} E (i, j)}{Area (S)} - - - (4)

式中，E_Avg(S)为滑动窗口S的平均边缘强度，E(i，j)为点(i，j)的边缘强度，Area(S)为滑动窗口S的面积。

b)对滑动窗口S内的边缘图提取HOG特征F，HOG特征的提取方法见参考文献[6]，若特征F使得决策函数满足：

Des(F)＝W·F+b≥0 (5)

则认为滑动窗口S内包含文本。式中，Des(·)为决策函数，W和b为决策函数的决策参数。式(5)所示的决策函数及其决策参数是通过SVM训练得到。

本发明的滑动窗口扫描示意图如图4所示。对图5b作滑动窗口扫描后得到的文本区域如图5c所示。

3)文本合并。对由2)得到的文本区域进行合并，从而得到最终的文本定位结果。令S₁、S₂为2个经步骤2得到的文本窗口，它们能够合并的判决条件为：

\frac{Area (S_{1} \cap S_{2})}{Area (S_{1}) + Area (S_{2})} > 0.15 - - - (6)

式中，Area(·)为区域面积，S₁∩S₂表示S₁与S₂的相交区域。对图5(c)作文本合并处理后得到的定位结果如图5d所示。

步骤b：对文本定位的结果进行二值化；

视频光学字符识别核心只能识别二值文本图像，需要将经文本定位后得到的图像进行二值化才能进一步进行识别。本实施例中的视频中文本定位结果的二值化步骤分三步进行，包括：

1)计算自适应二值化阈值，得到阈值T₀，采用OTSU算法进行计算。

图6a为一幅利用上述视频文本定位方法得到的文本定位后的图像，对该图像中的文本定位结果利用OTSU二值化计算得到的阈值T₀＝198。

2)由于视频中的文本大多处于复杂的背景中，本方法采用多阈值进行二值化，生成多个二值化候选区域，供后续切分识别，使得最终的结果更可信，首先通过自适应二值化阈值计算自适应二值化阈值的扩展阈值。

本实施例中，计算方法如下：

T₁＝max(10，T₀-10) (6)

T₂＝min(230，T₀+10) (7)

示例图6a中自适应二值化阈值的扩展阈值T₁＝188，T₂＝208。

3)根据得到的自适应二值化阈值T₀、自适应二值化阈值的扩展阈值T₁和T₂对文本定位后的图像中作二值化处理，分别得到二值化图像B₀、B₁和B₂。示例图6a采用阈值T₀、T₁和T₂二值化的结果图分别为图6b、图6c和图6d。

步骤c：对二值化后的字符进行切分；

分别对由步骤b得到的三幅二值图像进行切分，得到各个字符的图像区域。分以下几个步骤进行，包括：

1)计算列投影直方图。计算方法为：输入二值图像T，其列投影直方图yHist可表示为：

yHist (x) = Σ_{y = 1}^{H} T (x, y) - - - (8)

式中，T(x，y)表示图像T中(x，y)点的像素值，H表示图像的高度。

如图7a，图7b和图7c所示，为图6b、图6c和图6d的列投影直方图。

2)计算水平切分点。满足如下条件的横坐标为输入二值图像T的切分点：

\frac{yHist (x)}{H} < TH - - - (9)

本实施例中，TH＝0.15为切分阈值。

3)获取切分结果，根据水平切分点，获取切分字符框。针对输入的二值图像T₀、T₁和T₂，分别得到切分图像图7a，图7b和图7c。

步骤d：对切分后的字符进行识别。

对由步骤3得到的三幅切分图进行识别，分以下几个步骤进行，包括：

1)计算切分图像S₀、S₁和S₂的识别可信度，计算方法为：

C (i) = \frac{Σ_{j = 1}^{M} R (i, j)}{M} - - - (10)

式中，C(i)为第i幅切分图像的识别可信度，R(i，j)表示第i幅切分图像中的第j个字符的识别可信度，M为第i幅切分图像中总的字符个数。

本实施例中，由字符切分步骤得到的切分图7a的识别结果如图8所示，各字符的识别可信度分别为：0.99 0.98 1.0 0.97 1.0 0.99 0.951.0 0.99 0.98 0.97…

针对切分图7a，图7b和图7c的识别结果，利用公式10计算到的：

C(0)＝0.97，C(1)＝0.85，C(2)＝0.99

2)选择最优识别结果。最优识别结果为识别可信度最高的识别结果，取C(0)、C(1)和C(2)中最大的作为识别输出。

根据步骤1计算得到的C(0)、C(1)和C(2)，C(2)＝0.99为最大值，则取切分图7c得到的识别结果作为最终的识别结果。

步骤2：根据提取到的视频文字建立索引单元，并加入到索引表中。

根据步骤1得到的识别结果生成索引表，索引表对应了多个索引单元。分如下几个步骤进行：

1)将步骤1的识别结果输入视频文件的索引表中对应的索引单元。本发明中索引单元的结构如图9所示。

本实施例中，图5a所在的视频在硬盘服务器上的存储路径为：

I：\Database\Video\20090603\A\20090603_a_sample.AVI

且该视频的标号为N，步骤1中，利用本方法提取到图5a中的文本信息有：“鸟巢热身场区”，“通道3”，“2009年09月26日16时44分06秒星期六”，“2009/09/26”，“16:44:34”，“星期六”，“267903”，则生成的索引单元为：

a)索引号：N

b)视频路径：

I：\Database\Video\20090603\A\20090603_a_sample.AVI

c)文本信息1：鸟巢热身场区

d)文本信息2：通道3

e)文本信息3：2009年09月26日16时44分06秒星期六

f)文本信息4：2009/09/26

g)文本信息5：16:44:34

h)文本信息6：星期六

i)文本信息7：267903

2)将由上步骤生成索引单元加入索引表。索引表是由一系列索引单元组成，索引表的第一个元素为索引表中索引单元的个数。

本发明中的索引表的结构如图10所示。索引单元的加入操作如下：

a)将索引单元加入索引表的末尾

b)索引表表头的索引单元总个数自增1

步骤3：根据索引表查找对应的视频。

基于索引表的监控视频查询包括以下步骤：

(1).输入查询关键字，本实施例中，查询关键字可以是监控时间、监控地点、报警信息等任何出现在监控视频上的文本信息。

(2).查找索引表，在索引表中查找含有与输入的查询关键字对应的文本信息的索引单元。

(3).由查找到的索引单元存储的存储路径查找相应视频并输出。

一种视频检索方法装置，包括如下模块：

文字提取模块，对输入的监控视频进行视频文字提取。

查找模块，根据索引表查找对应的视频。

Claims

1.一种视频检索方法，其特征在于，包括如下步骤：

步骤1：对输入的监控视频进行视频文字提取；

步骤3：根据索引表查找对应的视频。

2.根据权利要求1所述的方法，其特征在于：所述步骤1包括如下步骤：

步骤a：对输入的视频进行文本定位；

步骤b：对文本定位的结果进行二值化；

步骤c：对二值化后的字符进行切分；

步骤d：对切分后的字符进行识别。

3.根据权利要求2所述的方法，其特征在于：所述步骤a中，将输入的视频经边缘检测后采用滑动窗口扫描得到文本区域，将文本区域合并后得到文本定位结果。

4.根据权利要求3所述的方法，其特征在于：所述边缘检测采用索贝尔算子提取视频图像的边缘，得到边缘图像。

5.根据权利要求3所述的方法，其特征在于：所述滑动窗口扫描中，采用固定窗口逐行对边缘图像扫描，当滑动窗口的平均强度大于既定阈值，且边缘图的滑动窗口内的HOG特征F使得决策函数满足：

Des(F)＝W·F+b≥0

则滑动窗口内包含文本，式中，Des(·)为决策函数，W和b为决策函数的决策参数。

6.根据权利要求5所述的方法，其特征在于：所述滑动窗口的平均强度为E_Avg(S)

E_{Avg} (S) = \frac{\underset{(i, j) &Element; s}{Σ} E (i, j)}{Area (S)}

7.根据权利要求3所述的方法，其特征在于：所述文本区域合并过程中，两相邻的含有文本的滑动窗口的共有部分的面积与两含有文本的滑动窗口面积之和的比值如大于合并阈值，则两相邻的含有文本的滑动窗口合并为一文本区域。

8.根据权利要求2所述的方法，其特征在于：所述步骤b中文本定位的结果进行二值化时，计算文本定位后的图像中自适应二值化阈值和自适应二值化阈值的扩展阈值，并根据自适应二值化阈值和其扩展阈值对得到的文本定位后的图像进行二值化。

9.根据权利要求2所述的方法，其特征在于：所述步骤c中二值化后字符进行切分时，根据二值化后图像的投影直方图计算判定切分点，将文本行中的字符进行切分，得到切分图像。

10.根据权利要求2所述的方法，其特征在于：所述步骤d中切分后的字符进行识别时，对多个切分图像计算识别可信度，选取识别可信度最高的结果作为最终识别出的文本信息。

11.根据权利要求10所述的方法，其特征在于：所述步骤d中，第i幅切分图像的识别可信度

C (i) = \frac{Σ_{j = 1}^{M} R (i, j)}{M},

12.根据权利要求1所述的方法，其特征在于：所述步骤2中，索引表含有多个索引单元。

13.根据权利要求1或12所述的方法，其特征在于：所述步骤3中，包括如下步骤：

(1).输入查询关键字；

(3).由索引单元将相应视频输出。

14.一种视频检索方法装置，其特征在于，包括如下模块：

文字提取模块，对输入的监控视频进行视频文字提取；

索引模块，根据提取到的文本信息建立索引单元，并加入到索引表中；

查找模块，根据索引表查找对应的视频。