CN115115818A - 基于孪生网络和图像特征匹配的字幕识别方法及系统 - Google Patents

基于孪生网络和图像特征匹配的字幕识别方法及系统 Download PDF

Info

Publication number
CN115115818A
CN115115818A CN202110295696.5A CN202110295696A CN115115818A CN 115115818 A CN115115818 A CN 115115818A CN 202110295696 A CN202110295696 A CN 202110295696A CN 115115818 A CN115115818 A CN 115115818A
Authority
CN
China
Prior art keywords
caption
frame
subtitle
unit
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110295696.5A
Other languages
English (en)
Inventor
徐佳宏
董永飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipanel TV Inc
Original Assignee
Shenzhen Ipanel TV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipanel TV Inc filed Critical Shenzhen Ipanel TV Inc
Priority to CN202110295696.5A priority Critical patent/CN115115818A/zh
Publication of CN115115818A publication Critical patent/CN115115818A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,利用孪生网络确定字幕box位置,只获取对应位置的字幕图片,以减少背景噪声,再以图像特征匹配的手段去重,最后OCR识别,拼接后形成完整的字幕文字。本技术方案利用孪生网络做预处理,从源头上去除了背景噪对后期匹配的影响,因而在准确性上具有突出的优势,同时由于不依赖启发式的技巧,获得了很好地鲁棒性。

Description

基于孪生网络和图像特征匹配的字幕识别方法及系统
技术领域
本发明涉及视频检测领域,尤其是涉及基于孪生网络和图像特征匹配的字幕识别方法及系统。
背景技术
在视频检测领域,通常需要对视频进行字幕提取,例如,存在这样一种应用场景:服务器对新增视频A进行自动化分析,提取演员表,并将视频A与数据库中该演员关联,当用户选择该演员时,视频A自动呈现在集合中。
在上述场景中,技术实现的关键点在于如何准确获取字幕。
现有技术一种是先对字幕图片拼接,再整体OCR识别,另外一种是二值化加直方图识别。
图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。
直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵轴条纹或线段标识数据分布情况。对图像帧的每一个像素灰度进行统计,形成灰度值0到255的统计图,也叫灰度直方图,图像二值化是直方图的先决条件。
现有的方法对字幕背景噪声或预设的字幕的位置信息敏感,当存在严重的背景噪声时,得到的直方图不准确,而依赖预设字幕的位置这类启发式技巧会导致适应性差。
而且OCR识别对输入长度有一定的限制,先图片拼接再整体识别时,会导致速度慢,识别性能变差。
亟待解决的问题是,提供一种识别方法,既不依赖字幕预设位置等启发式技巧,又通过减少背景噪声提高最终识别的精度。
发明内容
本发明旨在解决现有字幕识别精度不高的问题,为解决上述技术问题,本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,所述的方法包括:
对输入视频进行抽帧,获取帧序列;
相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
获取相邻字幕帧的box区域文字图片,利用图像特征匹配,生成新的字幕不重复的图片序列;
由OCR识别输出并形成完整的字幕文字。
值得强调的是,本发明的识别方法是抽帧后先利用孪生网络去除帧序列的背景,获取包括文字区域box的图片序列,通常得到的结果是以黑色为背景的白色文字box框,具体文字已经被白色填充。然后获取box区域文字图片,此时的图片是不包含视频背景的,再利用图像特征匹配,去除重复部分,最后经OCR处理,将图片转化为字幕文字,最终获得完整的字幕内容。
具体的,所述的获取相邻字幕帧的box区域文字图片,包括,
获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
由于box区域的位置信息是孪生网络自动识别产生的,因此此位置信息不是具有人为因素的启发性技巧,不影响方案的适应性。根据位置信息,对照原图像就可以得到新的字幕帧,其特点是,去除了与字幕无关的背景,图片上只包含字幕部分。
具体的,所述的利用图像特征匹配,包括:
根据SIFT算法,得到一系列的匹配对;
根据匹配对,标记重复的文字区域。
对于只包含字幕部分的相邻图片,利用SIFT算法得到匹配对,简而言之,所述的匹配对就是匹配上的相同文字区域块,匹配对即是重复的文字区域,对所述的重复区域进行标记。
具体的,所述的生成新的字幕不重复的图片序列,包括:
每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
因为是相邻图片进行匹配,所以对每个前一序列来说,需要去除重复的文字区域,余下文字区域保留,而对后一序列来说,不必进行处理,因为下一次取相邻图片时,所述的后一序列会成为前一序列。
具体的,所述的由OCR识别输出并形成完整的字幕文字,包括:
所述新的图片序列分别经OCR识别输出;
拼接,形成完整的字幕文字。
现有技术中,多采用整体OCR识别,本方案是识别后再拼接,保证了OCR的性能。
相应的,提供一种系统,其特征在于,包括,
抽帧单元,用于:对输入视频进行抽帧,获取帧序列;
预处理单元,用于:相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
字幕帧获取单元,用于:获取字幕帧;
匹配单元,用于:利用图像特征匹配;
序列生成单元,用于:生成新的字幕不重复的图片序列;
字幕文字生成单元,用于:由OCR识别输出并形成完整的字幕文字。
具体的,所述的字幕帧获取单元包括,
位置获取单元,用于:获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
恢复单元,用于:在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
具体的,所述的匹配单元包括,
算法单元,用于:根据SIFT算法,得到一系列的匹配对;
标记单元,用于:根据匹配对,标记重复的文字区域。
具体的,所述的序列生成单元包括,
去重单元,用于:每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
具体的,所述的字幕文字生成单元包括,
字幕识别单元,用于:所述新的图片序列分别经OCR识别输出;
文字拼接单元,用于:拼接,形成完整的字幕文字。
附图及说明
图1是本发明的详细流程图;
图2是系统结构示意图;
图3是孪生网络处理前后图片序列示意图;
图4是获取只包括box区域文字的图片示意图;
图5是图像特征匹配后图片去重示意图;
其中,以S结合数字标识流程。
具体实施例
下面结合附图及具体实施例对本发明做进一步阐述。
(1)流程:
如图1所示,S100是对视频进行抽帧、S102是对帧序列进行孪生网络处理,输出包括文字区域box的序列,S104是获取所述的box位置,S106是依据具体位置,得到只带有文字区域内容的字幕帧,S108和S110是进行图像特征匹配,S112根据匹配结果对相邻的字幕帧去重,生成新的序列,S114对所述的序列进行OCR处理,转化为字幕文字,然后经S116的拼接,成为连续的字幕文字。
先用孪生网络算法找出文字位置,再获得只包含文字区域内容的图片序列,保证了在接下来的图像特征匹配的过程中,不受背景区域的信息干扰,从而得到更准确的匹配对,完成关键的去重。本发明不通过启发式的技巧获取文字位置,而是利用孪生网络来间接获得,减少了人为的因素,同时使方案更具有广泛的适应性,鲁棒性更好。
(2)系统
由于系统与本发明的方法存在对应关系,因此只做简单阐述。如图2所示,系统主要包括:抽帧单元、预处理单元、字幕帧获取单元、序列生成单元、字幕文字生成单元。其中:
字幕帧获取单元包括位置获取单元和恢复单元;
匹配单元包括算法单元和标记单元;
字幕文字生成单元包括字幕识别单元和文字拼接单元。
(3)孪生网络处理
如图3所示,图3a是未经孪生网络处理的序列帧,本例中,图中用X代替文字,以灰色代替背景,一般情况下,经孪生网络处理后,背景为黑色,文字box部分为白色,本例中文字box部分以黑色代替。由图3b可以发现,处理后,原背景信息和具体文字内容均消失,只剩下文字区域box部分,简单说,只留下了文字区域的位置信息。
孪生网络同时处理两张相邻的帧序列,由于处理方式相同,因此只用相邻帧其中一个为例说明。
(4)获取只包括box区域文字的图片
如图4所示,图4a已标识了文字区域box的具体位置,将box位置与原始帧对比,便可以获取到不包含背景信息,只包括文字内容的图片,便于后续图片特征匹配时去除背景信息干扰。
(5)图像特征匹配后图片去重
如图5a和图5b所示,图像特征匹配后相邻的序列重复部分已被标识,形成匹配对,假设图5a是前一序列帧,去重后,得到图5c,同样的道理,当图5b与后一帧匹配后,也可以对图5b去重,循环操作,便可以得到不重复的帧序列。
本说明书通过实施例对本发明的重点加以描述,每个实施例的重点都是与其他实施例的不同之处,相同之处相互参见即可。在本文中,第一第二的命名方式不包涵顺序或大小含义,仅仅用于区分两个单元的泛化表述,不应作为判定两个单元相同或不同的依据。同时,本发明中所述的系统,既可以通过硬件实现,也可以在硬件平台上,全部通过软件或部分通过软件实现,无论通过何种方式实现,都应该认为不超过本发明的保护范围。本文中以上实施例的说明只是用于帮助理解本申请方案,同时,对于本领域的一般技术人员,依据本申请的思想,在具体的实施方式及应用范围上均会有改变之处。综上所述,本说明书的内容不应理解为对本申请的限制。

Claims (10)

1.基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的方法包括:
对输入视频进行抽帧,获取帧序列;
相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
获取相邻字幕帧的box区域文字图片,利用图像特征匹配,生成新的字幕不重复的图片序列;
由OCR识别输出并形成完整的字幕文字。
2.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的获取相邻字幕帧的box区域文字图片,包括,
获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
3.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的利用图像特征匹配,包括:
根据SIFT算法,得到一系列的匹配对;
根据匹配对,标记重复的文字区域。
4.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的生成新的字幕不重复的图片序列,包括:
每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
5.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的由OCR识别输出并形成完整的字幕文字,包括:
所述新的图片序列分别经OCR识别输出;
拼接,形成完整的字幕文字。
6.一种系统,其特征在于,包括,
抽帧单元,用于:对输入视频进行抽帧,获取帧序列;
预处理单元,用于:相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
字幕帧获取单元,用于:获取字幕帧,
匹配单元,用于:利用图像特征匹配,
序列生成单元,用于:生成新的字幕不重复的图片序列;
字幕文字生成单元,用于:由OCR识别输出并形成完整的字幕文字。
7.按照权利要求6所述的一种系统,其特征在于,所述的字幕帧获取单元包括,
位置获取单元,用于:获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
恢复单元,用于:在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
8.按照权利要求6所述的一种系统,其特征在于,所述的匹配单元包括,
算法单元,用于:根据SIFT算法,得到一系列的匹配对;
标记单元,用于:根据匹配对,标记重复的文字区域。
9.按照权利要求6所述的一种系统,其特征在于,所述的序列生成单元,具体用于:每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
10.按照权利要求6所述的一种系统,其特征在于,所述的字幕文字生成单元包括,
字幕识别单元,用于:所述新的图片序列分别经OCR识别输出;
文字拼接单元,用于:拼接,形成完整的字幕文字。
CN202110295696.5A 2021-03-19 2021-03-19 基于孪生网络和图像特征匹配的字幕识别方法及系统 Pending CN115115818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110295696.5A CN115115818A (zh) 2021-03-19 2021-03-19 基于孪生网络和图像特征匹配的字幕识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110295696.5A CN115115818A (zh) 2021-03-19 2021-03-19 基于孪生网络和图像特征匹配的字幕识别方法及系统

Publications (1)

Publication Number Publication Date
CN115115818A true CN115115818A (zh) 2022-09-27

Family

ID=83324074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110295696.5A Pending CN115115818A (zh) 2021-03-19 2021-03-19 基于孪生网络和图像特征匹配的字幕识别方法及系统

Country Status (1)

Country Link
CN (1) CN115115818A (zh)

Similar Documents

Publication Publication Date Title
CN110705405B (zh) 目标标注的方法及装置
US7949157B2 (en) Interpreting sign language gestures
CN110267061B (zh) 一种新闻拆条方法及系统
KR100422709B1 (ko) 영상 의존적인 얼굴 영역 추출방법
US7403657B2 (en) Method and apparatus for character string search in image
US7630544B1 (en) System and method for locating a character set in a digital image
EP0720114A2 (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
CN107590447A (zh) 一种文字标题识别方法及装置
CN108447068B (zh) 三元图自动生成方法及利用该三元图的前景提取方法
CN113052169A (zh) 视频字幕识别方法、装置、介质及电子设备
CN105678301B (zh) 一种自动识别并分割文本图像的方法、系统及装置
CN108256508B (zh) 一种新闻主副标题检测方法及装置
CN108052931A (zh) 一种车牌识别结果融合方法及装置
CN108876810A (zh) 视频摘要中利用图割算法进行运动目标检测的方法
CN108446603A (zh) 一种新闻标题检测方法及装置
JP2016012767A (ja) 画像処理装置
CN115115818A (zh) 基于孪生网络和图像特征匹配的字幕识别方法及系统
Yang et al. Caption detection and text recognition in news video
CN115376139A (zh) 基于ocr高速图像识别的标签采集分析系统
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
JP2002204392A (ja) 画像処理装置、画像処理システム、画像処理方法、及び記憶媒体
KR100586227B1 (ko) 색분포 학습을 통한 얼굴영역 추출 방법
CN113361483B (zh) 一种交通限速标志检测方法、装置、设备及存储介质
Kumar et al. A comparative Analysis of Feature Extraction Algorithms and Deep Learning Techniques for Detection from Natural Images
CN116051402A (zh) 一种去除图像中的手指的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination