CN109583441A

CN109583441A - 基于监控平台的字幕识别方法

Info

Publication number: CN109583441A
Application number: CN201811219191.5A
Authority: CN
Inventors: 王璐璐; 张为
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-04-05

Abstract

本发明涉及一种基于监控平台的字幕识别方法，包括下列步骤：选取字幕区域：视频中的时间信息处于固定位置，选取字幕区域。获取感兴趣区域ROI，后续处理都将在ROI进行。字幕前景分割：使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理，将字幕的前景区域提取出来，将字幕前景转化为灰度图并二值化，作为后续字幕识别的素材。字幕识别。时间校准与保存。

Description

基于监控平台的字幕识别方法

技术领域

本发明属于计算机视觉方向的光学字符识别领域。具体来说属于一种基于现有监控平台的字幕识别技术。

背景技术

近年来，天网工程等项目的推广、安防技术的发展及民众安全意识增强使得视频监控系统的应用愈加广泛。据统计，我国现已安装摄像头数量几千万个，并且以每年20％以上的增长率快速增加。可以说，视频监控系统在火灾检测、智能交通、刑事侦查等领域发挥着不可替代的作用。视频监控在各个领域的应用方式千差万别，但本质都是通过计算机进行视频的理解与学习，从外部世界获取信息。需要理解的内容包括视频场景、人员行为甚至视频的主要思想，获取这些内容需要从各个方面进行视频的分析与学习。其中视频字幕是一个重要且准确的信息来源。

在异常事件的调查过程中，硬盘录像机所存储的监控视频能够及时、真实地记录和反映事件的发展情况和诸多细节，成为案件侦查的关键突破口。传统的视觉技术重在对异常事件的实时检测，很少对案件发生时间进行处理和记录，案发时间主要通过查看已存档视频和询问目击人员两种方式获取。其中，第一种方式需要工作人员对视频进行逐个查看才能确定案发时间，效率低下，耗费人力较多。第二种方式只能依赖目击人员的主观记忆，误差较大。为使显示更加直观，时间信息会以字幕的形式直接嵌入视频图像。在监控系统发现异常时对关键帧进行字幕识别，提取并保存时间信息可帮助调查人员快速找到所需视频，提高工作效率。

字幕提取核心部分是前景分割和字幕识别。视频图像中的文字分辨率低，且背景杂乱，直接用于字幕识别效果较差，因此需要对原图进行图片分割，提取前景区域。常用的图像分割技术可划分为四类：特征阈值、边缘检测、区域生长或区域提取。灰度阈值分割法是一种最常用的并行区域技术，它是图像分割中应用数量最多的一类，其优点是计算简单、运算效率较高、速度快。阈值分割在重视运算效率的应用场合已得到广泛应用。基于边缘检测的分割方法通过检测灰度级或者结构具有突变的地方，确定一个区域的终结，即另一个区域开始的地方。不同的图像灰度不同，边界处一般有明显的边缘，利用此特征可以分割图像。区域生长的基本思想是将具有相似性质的像素集合起来构成区域。这些都为解决实际的工程问题提供了理论支持。在这些方法中，GrabCut性能优越，操作简单，具有良好的分割效果。

字幕识别方面，比较主流的方法是OCR(Optical Character Recognition，光学字符识别)技术，该技术对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息。这项技术国外起步时间较早，至今已经十分成熟。Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。

发明内容

本发明意在针对异常事件检测中缺少时间提取模块的问题，提出一种基于现有监控平台的字幕提取方法，实现对关键帧发生时间的提取和保存，提高异常事件侦测的效率，节省人力物力。技术方案如下：

一种基于监控平台的字幕识别方法，包括下列步骤：

1)选取字幕区域：视频中的时间信息处于固定位置，选取字幕区域。

2)获取感兴趣区域ROI，后续处理都将在ROI进行。

3)字幕前景分割：使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理，将字幕的前景区域提取出来，将字幕前景转化为灰度图并二值化，作为后续字幕识别的素材。

4)字幕识别：调用预训练好的OCR分类器对图片中的字幕进行识别，得到视频关键帧的时间信息。其中OCR分类器以步骤3)中的字幕前景作为训练样本，使用Tesseract-OCR3软件训练得到。

5)时间校准与保存。考虑到视频设备的计时系统与标准时间存在一定时间差，对所得时间进一步校准，得到时间发生的真实时间，将提取到的时间信息存储在相关文档中。

附图说明

图1为本发明方法的流程图

图2为本发明方法的源文件和测试结果

具体实施方式

现有的安防领域对异常事件的一般处理框架为：接收存储在硬盘录像机中经过转码的视频文件作为输入，提取视频帧，利用机器学习、深度学习等相关方法对视频帧进行去噪、分割、分类等处理，查找出异常事件所在帧列并拉响警报。此流程中缺少对事件发生时间的存储，加大了后续调查难度。本发明针对这一问题对检查出的异常帧进行处理，提取时间信息。

本发明的核心模块是前景分割和字幕识别。前景分割采用GrabCut算法，该算法只要很少的用户操作便可达到良好的分割效果，操作简便；字幕识别所用Tesseract的OCR引擎是OCR业内最准确的三款识别引擎之一，本发明将二者创造性地结合起来，可以较为准确地进行视频字幕识别。本发明首先用鼠标选定字幕区域，适当扩大字幕区域得到待处理的ROI，之后使用的GrabCut图割算法接收ROI和感兴趣区域，将字幕从背景中分离出来，转化为灰度图并进行二值化处理，接着调用训练好的分类器对二值化字幕图片进行识别，经时间校准之后保存为txt文件供调查人员参考。

本方法具体如图1所示。下面对各个部分进行详细说明：

(1)设置字幕区域

本发明中用到的GrabCut算法首先需要标出包含字幕的区域，根据这项标定建立前景和背景直方图以进行后续分割。视频中字幕的位置固定不变，因此可在首次检测之前用鼠标圈出字幕区域，区域信息可在之后的检测中直接使用，不必重新设置。

(2)获取感兴趣区域

本发明中使用到的GrabCut算法分割准确，但计算量稍大，为提高处理效率，可将步骤(1)中的字幕区域进行适当放大获得ROI，代替原图进行字幕分割。此处宽度和高度的放大倍数选择1.1和1.5。

(3)字幕前景分割

GrabCut算法是一种基于图切算法的图像分割技术。该方法以ROI区域作为处理图片，将字幕区域作为可能的前景，ROI其余区域作为背景。分别计算两个区域的直方图，根据直方图、图像的纹理(颜色)信息和边界(反差)信息构造能量函数，将图像分割问题转化为能量最小的优化问题。能量函数表达式如下：

E(α,k,θ,z)＝U(α,k,θ,z)+V(α,z)

其中z是一个数组，其中存储图像中像素的颜色信息。θ表示图像的颜色分布直方图。在GrabCut中，前景和背景分别用一个包含5个分量的高斯混合模型来表示。其中α指定该像素点是否是前景元素，k表示用来表示该像素的高斯分量。U表示整幅图像表示α对整个图像的拟合程度，V是图像的局部平滑度，图像在局部范围内变化越小，则V越小。

最终GrabCut算法将输出一副与ROI同尺寸的图像模板，该模板像素值只有0和1两个数值，像素值为1表示原图此处像素为前景，否则为背景。根据所的图像模板可将ROI背景区域的像素置零，前景保持不变，得到从背景中分离出来的字幕。由于后续的OCR技术适用于黑白图片，此处还需将字幕图片转化为灰度图并进行二值化处理，最终得到适用于OCR技术的字幕前景图片。

(4)字幕识别

得到字幕前景之后，调用预训练好的OCR分类器对图片进行识别，得到异常帧的时间信息。其中OCR分类器需要提前训练。本发明中使用的训练工具是Tesseract-OCR 3，训练样本为步骤(3)中得到的二值化字幕前景图片，经过融合样本文件、定义字符配置文件、字符矫正等步骤，最终得到符合条件的分类器。

(5)时间校准与保存

考虑到视频设备的计时系统与标准时间存在一定时间差，还需根据设备时间差对所得时间进行校准，得到时间发生的真实时间，根据所得时间对异常帧重新排序，最终得到包含异常帧路径、名称与时间信息的txt文件。供调查人员参考，快速找到所需视频，大大提高侦察效率。

Claims

1.一种基于监控平台的字幕识别方法，包括下列步骤：

2)获取感兴趣区域ROI，后续处理都将在ROI进行；

3)字幕前景分割：使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理，将字幕的前景区域提取出来，将字幕前景转化为灰度图并二值化，作为后续字幕识别的素材；

4)字幕识别：调用预训练好的OCR分类器对图片中的字幕进行识别，得到视频关键帧的时间信息；其中OCR分类器以步骤3)中的字幕前景作为训练样本，使用Tesseract-OCR3软件训练得到；