CN109583441A - 基于监控平台的字幕识别方法 - Google Patents

基于监控平台的字幕识别方法 Download PDF

Info

Publication number
CN109583441A
CN109583441A CN201811219191.5A CN201811219191A CN109583441A CN 109583441 A CN109583441 A CN 109583441A CN 201811219191 A CN201811219191 A CN 201811219191A CN 109583441 A CN109583441 A CN 109583441A
Authority
CN
China
Prior art keywords
subtitle
video
roi
time
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811219191.5A
Other languages
English (en)
Inventor
王璐璐
张为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811219191.5A priority Critical patent/CN109583441A/zh
Publication of CN109583441A publication Critical patent/CN109583441A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Circuits (AREA)

Abstract

本发明涉及一种基于监控平台的字幕识别方法,包括下列步骤:选取字幕区域:视频中的时间信息处于固定位置,选取字幕区域。获取感兴趣区域ROI,后续处理都将在ROI进行。字幕前景分割:使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理,将字幕的前景区域提取出来,将字幕前景转化为灰度图并二值化,作为后续字幕识别的素材。字幕识别。时间校准与保存。

Description

基于监控平台的字幕识别方法
技术领域
本发明属于计算机视觉方向的光学字符识别领域。具体来说属于一种基于现有监控平台的字幕识别技术。
背景技术
近年来,天网工程等项目的推广、安防技术的发展及民众安全意识增强使得视频监控系统的应用愈加广泛。据统计,我国现已安装摄像头数量几千万个,并且以每年20%以上的增长率快速增加。可以说,视频监控系统在火灾检测、智能交通、刑事侦查等领域发挥着不可替代的作用。视频监控在各个领域的应用方式千差万别,但本质都是通过计算机进行视频的理解与学习,从外部世界获取信息。需要理解的内容包括视频场景、人员行为甚至视频的主要思想,获取这些内容需要从各个方面进行视频的分析与学习。其中视频字幕是一个重要且准确的信息来源。
在异常事件的调查过程中,硬盘录像机所存储的监控视频能够及时、真实地记录和反映事件的发展情况和诸多细节,成为案件侦查的关键突破口。传统的视觉技术重在对异常事件的实时检测,很少对案件发生时间进行处理和记录,案发时间主要通过查看已存档视频和询问目击人员两种方式获取。其中,第一种方式需要工作人员对视频进行逐个查看才能确定案发时间,效率低下,耗费人力较多。第二种方式只能依赖目击人员的主观记忆,误差较大。为使显示更加直观,时间信息会以字幕的形式直接嵌入视频图像。在监控系统发现异常时对关键帧进行字幕识别,提取并保存时间信息可帮助调查人员快速找到所需视频,提高工作效率。
字幕提取核心部分是前景分割和字幕识别。视频图像中的文字分辨率低,且背景杂乱,直接用于字幕识别效果较差,因此需要对原图进行图片分割,提取前景区域。常用的图像分割技术可划分为四类:特征阈值、边缘检测、区域生长或区域提取。灰度阈值分割法是一种最常用的并行区域技术,它是图像分割中应用数量最多的一类,其优点是计算简单、运算效率较高、速度快。阈值分割在重视运算效率的应用场合已得到广泛应用。基于边缘检测的分割方法通过检测灰度级或者结构具有突变的地方,确定一个区域的终结,即另一个区域开始的地方。不同的图像灰度不同,边界处一般有明显的边缘,利用此特征可以分割图像。区域生长的基本思想是将具有相似性质的像素集合起来构成区域。这些都为解决实际的工程问题提供了理论支持。在这些方法中,GrabCut性能优越,操作简单,具有良好的分割效果。
字幕识别方面,比较主流的方法是OCR(Optical Character Recognition,光学字符识别)技术,该技术对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息。这项技术国外起步时间较早,至今已经十分成熟。Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。
发明内容
本发明意在针对异常事件检测中缺少时间提取模块的问题,提出一种基于现有监控平台的字幕提取方法,实现对关键帧发生时间的提取和保存,提高异常事件侦测的效率,节省人力物力。技术方案如下:
一种基于监控平台的字幕识别方法,包括下列步骤:
1)选取字幕区域:视频中的时间信息处于固定位置,选取字幕区域。
2)获取感兴趣区域ROI,后续处理都将在ROI进行。
3)字幕前景分割:使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理,将字幕的前景区域提取出来,将字幕前景转化为灰度图并二值化,作为后续字幕识别的素材。
4)字幕识别:调用预训练好的OCR分类器对图片中的字幕进行识别,得到视频关键帧的时间信息。其中OCR分类器以步骤3)中的字幕前景作为训练样本,使用Tesseract-OCR3软件训练得到。
5)时间校准与保存。考虑到视频设备的计时系统与标准时间存在一定时间差,对所得时间进一步校准,得到时间发生的真实时间,将提取到的时间信息存储在相关文档中。
附图说明
图1为本发明方法的流程图
图2为本发明方法的源文件和测试结果
具体实施方式
现有的安防领域对异常事件的一般处理框架为:接收存储在硬盘录像机中经过转码的视频文件作为输入,提取视频帧,利用机器学习、深度学习等相关方法对视频帧进行去噪、分割、分类等处理,查找出异常事件所在帧列并拉响警报。此流程中缺少对事件发生时间的存储,加大了后续调查难度。本发明针对这一问题对检查出的异常帧进行处理,提取时间信息。
本发明的核心模块是前景分割和字幕识别。前景分割采用GrabCut算法,该算法只要很少的用户操作便可达到良好的分割效果,操作简便;字幕识别所用Tesseract的OCR引擎是OCR业内最准确的三款识别引擎之一,本发明将二者创造性地结合起来,可以较为准确地进行视频字幕识别。本发明首先用鼠标选定字幕区域,适当扩大字幕区域得到待处理的ROI,之后使用的GrabCut图割算法接收ROI和感兴趣区域,将字幕从背景中分离出来,转化为灰度图并进行二值化处理,接着调用训练好的分类器对二值化字幕图片进行识别,经时间校准之后保存为txt文件供调查人员参考。
本方法具体如图1所示。下面对各个部分进行详细说明:
(1)设置字幕区域
本发明中用到的GrabCut算法首先需要标出包含字幕的区域,根据这项标定建立前景和背景直方图以进行后续分割。视频中字幕的位置固定不变,因此可在首次检测之前用鼠标圈出字幕区域,区域信息可在之后的检测中直接使用,不必重新设置。
(2)获取感兴趣区域
本发明中使用到的GrabCut算法分割准确,但计算量稍大,为提高处理效率,可将步骤(1)中的字幕区域进行适当放大获得ROI,代替原图进行字幕分割。此处宽度和高度的放大倍数选择1.1和1.5。
(3)字幕前景分割
GrabCut算法是一种基于图切算法的图像分割技术。该方法以ROI区域作为处理图片,将字幕区域作为可能的前景,ROI其余区域作为背景。分别计算两个区域的直方图,根据直方图、图像的纹理(颜色)信息和边界(反差)信息构造能量函数,将图像分割问题转化为能量最小的优化问题。能量函数表达式如下:
E(α,k,θ,z)=U(α,k,θ,z)+V(α,z)
其中z是一个数组,其中存储图像中像素的颜色信息。θ表示图像的颜色分布直方图。在GrabCut中,前景和背景分别用一个包含5个分量的高斯混合模型来表示。其中α指定该像素点是否是前景元素,k表示用来表示该像素的高斯分量。U表示整幅图像表示α对整个图像的拟合程度,V是图像的局部平滑度,图像在局部范围内变化越小,则V越小。
最终GrabCut算法将输出一副与ROI同尺寸的图像模板,该模板像素值只有0和1两个数值,像素值为1表示原图此处像素为前景,否则为背景。根据所的图像模板可将ROI背景区域的像素置零,前景保持不变,得到从背景中分离出来的字幕。由于后续的OCR技术适用于黑白图片,此处还需将字幕图片转化为灰度图并进行二值化处理,最终得到适用于OCR技术的字幕前景图片。
(4)字幕识别
得到字幕前景之后,调用预训练好的OCR分类器对图片进行识别,得到异常帧的时间信息。其中OCR分类器需要提前训练。本发明中使用的训练工具是Tesseract-OCR 3,训练样本为步骤(3)中得到的二值化字幕前景图片,经过融合样本文件、定义字符配置文件、字符矫正等步骤,最终得到符合条件的分类器。
(5)时间校准与保存
考虑到视频设备的计时系统与标准时间存在一定时间差,还需根据设备时间差对所得时间进行校准,得到时间发生的真实时间,根据所得时间对异常帧重新排序,最终得到包含异常帧路径、名称与时间信息的txt文件。供调查人员参考,快速找到所需视频,大大提高侦察效率。

Claims (1)

1.一种基于监控平台的字幕识别方法,包括下列步骤:
1)选取字幕区域:视频中的时间信息处于固定位置,选取字幕区域。
2)获取感兴趣区域ROI,后续处理都将在ROI进行;
3)字幕前景分割:使用GrabCut算法综合考虑图像直方图、纹理和边界信息对ROI区域进行预处理,将字幕的前景区域提取出来,将字幕前景转化为灰度图并二值化,作为后续字幕识别的素材;
4)字幕识别:调用预训练好的OCR分类器对图片中的字幕进行识别,得到视频关键帧的时间信息;其中OCR分类器以步骤3)中的字幕前景作为训练样本,使用Tesseract-OCR3软件训练得到;
5)时间校准与保存。考虑到视频设备的计时系统与标准时间存在一定时间差,对所得时间进一步校准,得到时间发生的真实时间,将提取到的时间信息存储在相关文档中。
CN201811219191.5A 2018-10-19 2018-10-19 基于监控平台的字幕识别方法 Pending CN109583441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811219191.5A CN109583441A (zh) 2018-10-19 2018-10-19 基于监控平台的字幕识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811219191.5A CN109583441A (zh) 2018-10-19 2018-10-19 基于监控平台的字幕识别方法

Publications (1)

Publication Number Publication Date
CN109583441A true CN109583441A (zh) 2019-04-05

Family

ID=65920517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811219191.5A Pending CN109583441A (zh) 2018-10-19 2018-10-19 基于监控平台的字幕识别方法

Country Status (1)

Country Link
CN (1) CN109583441A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300241A (zh) * 2019-08-05 2019-10-01 上海天诚比集科技有限公司 一种视频检测区噪声帧去除方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244107A (zh) * 2014-08-26 2014-12-24 中译语通科技(北京)有限公司 一种基于字幕检测与识别的视频字幕还原方法
CN105740760A (zh) * 2016-01-21 2016-07-06 成都索贝数码科技股份有限公司 一种视频字幕ocr识别的自动校正方法
CN107707975A (zh) * 2017-09-20 2018-02-16 天津大学 基于监控平台的视频智能剪辑方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244107A (zh) * 2014-08-26 2014-12-24 中译语通科技(北京)有限公司 一种基于字幕检测与识别的视频字幕还原方法
CN105740760A (zh) * 2016-01-21 2016-07-06 成都索贝数码科技股份有限公司 一种视频字幕ocr识别的自动校正方法
CN107707975A (zh) * 2017-09-20 2018-02-16 天津大学 基于监控平台的视频智能剪辑方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG WANG ET AL: "The Experimental Implementation of GrabCut for Hardcode Subtitle Extraction", 《ICIS 2018》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300241A (zh) * 2019-08-05 2019-10-01 上海天诚比集科技有限公司 一种视频检测区噪声帧去除方法

Similar Documents

Publication Publication Date Title
EP1700269B1 (en) Detection of sky in digital color images
CN102509118B (zh) 一种监控视频检索方法
CN106056079B (zh) 一种图像采集设备及人脸五官的遮挡检测方法
CN111091098B (zh) 检测模型的训练方法、检测方法及相关装置
CN106610969A (zh) 基于多模态信息的视频内容审查系统及方法
CN105469105A (zh) 一种基于视频监控的香烟烟雾检测方法
Alkoffash et al. A survey of digital image processing techniques in character recognition
CN108010242B (zh) 一种基于视频识别的安防报警方法、系统及存储介质
CN111723656B (zh) 一种基于YOLO v3与自优化的烟雾检测方法及装置
CN110096945B (zh) 基于机器学习的室内监控视频关键帧实时提取方法
CN103530638A (zh) 多摄像头下的行人匹配方法
CN102193918A (zh) 视频检索方法和装置
CN111145222A (zh) 一种结合烟雾运动趋势和纹理特征的火灾检测方法
CN114648714A (zh) 一种基于yolo的车间规范行为的监测方法
CN117333776A (zh) VOCs气体泄漏检测方法、装置及存储介质
CN108921826A (zh) 超像素分割与深度学习相结合的输电线路入侵物检测方法
CN115731493A (zh) 基于视频图像识别的降水微物理特征参量提取与分析方法
CN109165592B (zh) 一种基于pico算法的实时可旋转的人脸检测方法
CN111680577A (zh) 人脸检测方法和装置
CN111708907B (zh) 一种目标人员的查询方法、装置、设备及存储介质
CN109583441A (zh) 基于监控平台的字幕识别方法
CN107707975A (zh) 基于监控平台的视频智能剪辑方法
Mantini et al. Camera Tampering Detection using Generative Reference Model and Deep Learned Features.
CN107403192B (zh) 一种基于多分类器的快速目标检测方法及系统
CN114758139B (zh) 基坑积水检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405