CN115115818A - 基于孪生网络和图像特征匹配的字幕识别方法及系统 - Google Patents
基于孪生网络和图像特征匹配的字幕识别方法及系统 Download PDFInfo
- Publication number
- CN115115818A CN115115818A CN202110295696.5A CN202110295696A CN115115818A CN 115115818 A CN115115818 A CN 115115818A CN 202110295696 A CN202110295696 A CN 202110295696A CN 115115818 A CN115115818 A CN 115115818A
- Authority
- CN
- China
- Prior art keywords
- caption
- frame
- subtitle
- unit
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,利用孪生网络确定字幕box位置,只获取对应位置的字幕图片,以减少背景噪声,再以图像特征匹配的手段去重,最后OCR识别,拼接后形成完整的字幕文字。本技术方案利用孪生网络做预处理,从源头上去除了背景噪对后期匹配的影响,因而在准确性上具有突出的优势,同时由于不依赖启发式的技巧,获得了很好地鲁棒性。
Description
技术领域
本发明涉及视频检测领域,尤其是涉及基于孪生网络和图像特征匹配的字幕识别方法及系统。
背景技术
在视频检测领域,通常需要对视频进行字幕提取,例如,存在这样一种应用场景:服务器对新增视频A进行自动化分析,提取演员表,并将视频A与数据库中该演员关联,当用户选择该演员时,视频A自动呈现在集合中。
在上述场景中,技术实现的关键点在于如何准确获取字幕。
现有技术一种是先对字幕图片拼接,再整体OCR识别,另外一种是二值化加直方图识别。
图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。
直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵轴条纹或线段标识数据分布情况。对图像帧的每一个像素灰度进行统计,形成灰度值0到255的统计图,也叫灰度直方图,图像二值化是直方图的先决条件。
现有的方法对字幕背景噪声或预设的字幕的位置信息敏感,当存在严重的背景噪声时,得到的直方图不准确,而依赖预设字幕的位置这类启发式技巧会导致适应性差。
而且OCR识别对输入长度有一定的限制,先图片拼接再整体识别时,会导致速度慢,识别性能变差。
亟待解决的问题是,提供一种识别方法,既不依赖字幕预设位置等启发式技巧,又通过减少背景噪声提高最终识别的精度。
发明内容
本发明旨在解决现有字幕识别精度不高的问题,为解决上述技术问题,本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,所述的方法包括:
对输入视频进行抽帧,获取帧序列;
相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
获取相邻字幕帧的box区域文字图片,利用图像特征匹配,生成新的字幕不重复的图片序列;
由OCR识别输出并形成完整的字幕文字。
值得强调的是,本发明的识别方法是抽帧后先利用孪生网络去除帧序列的背景,获取包括文字区域box的图片序列,通常得到的结果是以黑色为背景的白色文字box框,具体文字已经被白色填充。然后获取box区域文字图片,此时的图片是不包含视频背景的,再利用图像特征匹配,去除重复部分,最后经OCR处理,将图片转化为字幕文字,最终获得完整的字幕内容。
具体的,所述的获取相邻字幕帧的box区域文字图片,包括,
获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
由于box区域的位置信息是孪生网络自动识别产生的,因此此位置信息不是具有人为因素的启发性技巧,不影响方案的适应性。根据位置信息,对照原图像就可以得到新的字幕帧,其特点是,去除了与字幕无关的背景,图片上只包含字幕部分。
具体的,所述的利用图像特征匹配,包括:
根据SIFT算法,得到一系列的匹配对;
根据匹配对,标记重复的文字区域。
对于只包含字幕部分的相邻图片,利用SIFT算法得到匹配对,简而言之,所述的匹配对就是匹配上的相同文字区域块,匹配对即是重复的文字区域,对所述的重复区域进行标记。
具体的,所述的生成新的字幕不重复的图片序列,包括:
每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
因为是相邻图片进行匹配,所以对每个前一序列来说,需要去除重复的文字区域,余下文字区域保留,而对后一序列来说,不必进行处理,因为下一次取相邻图片时,所述的后一序列会成为前一序列。
具体的,所述的由OCR识别输出并形成完整的字幕文字,包括:
所述新的图片序列分别经OCR识别输出;
拼接,形成完整的字幕文字。
现有技术中,多采用整体OCR识别,本方案是识别后再拼接,保证了OCR的性能。
相应的,提供一种系统,其特征在于,包括,
抽帧单元,用于:对输入视频进行抽帧,获取帧序列;
预处理单元,用于:相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
字幕帧获取单元,用于:获取字幕帧;
匹配单元,用于:利用图像特征匹配;
序列生成单元,用于:生成新的字幕不重复的图片序列;
字幕文字生成单元,用于:由OCR识别输出并形成完整的字幕文字。
具体的,所述的字幕帧获取单元包括,
位置获取单元,用于:获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
恢复单元,用于:在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
具体的,所述的匹配单元包括,
算法单元,用于:根据SIFT算法,得到一系列的匹配对;
标记单元,用于:根据匹配对,标记重复的文字区域。
具体的,所述的序列生成单元包括,
去重单元,用于:每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
具体的,所述的字幕文字生成单元包括,
字幕识别单元,用于:所述新的图片序列分别经OCR识别输出;
文字拼接单元,用于:拼接,形成完整的字幕文字。
附图及说明
图1是本发明的详细流程图;
图2是系统结构示意图;
图3是孪生网络处理前后图片序列示意图;
图4是获取只包括box区域文字的图片示意图;
图5是图像特征匹配后图片去重示意图;
其中,以S结合数字标识流程。
具体实施例
下面结合附图及具体实施例对本发明做进一步阐述。
(1)流程:
如图1所示,S100是对视频进行抽帧、S102是对帧序列进行孪生网络处理,输出包括文字区域box的序列,S104是获取所述的box位置,S106是依据具体位置,得到只带有文字区域内容的字幕帧,S108和S110是进行图像特征匹配,S112根据匹配结果对相邻的字幕帧去重,生成新的序列,S114对所述的序列进行OCR处理,转化为字幕文字,然后经S116的拼接,成为连续的字幕文字。
先用孪生网络算法找出文字位置,再获得只包含文字区域内容的图片序列,保证了在接下来的图像特征匹配的过程中,不受背景区域的信息干扰,从而得到更准确的匹配对,完成关键的去重。本发明不通过启发式的技巧获取文字位置,而是利用孪生网络来间接获得,减少了人为的因素,同时使方案更具有广泛的适应性,鲁棒性更好。
(2)系统
由于系统与本发明的方法存在对应关系,因此只做简单阐述。如图2所示,系统主要包括:抽帧单元、预处理单元、字幕帧获取单元、序列生成单元、字幕文字生成单元。其中:
字幕帧获取单元包括位置获取单元和恢复单元;
匹配单元包括算法单元和标记单元;
字幕文字生成单元包括字幕识别单元和文字拼接单元。
(3)孪生网络处理
如图3所示,图3a是未经孪生网络处理的序列帧,本例中,图中用X代替文字,以灰色代替背景,一般情况下,经孪生网络处理后,背景为黑色,文字box部分为白色,本例中文字box部分以黑色代替。由图3b可以发现,处理后,原背景信息和具体文字内容均消失,只剩下文字区域box部分,简单说,只留下了文字区域的位置信息。
孪生网络同时处理两张相邻的帧序列,由于处理方式相同,因此只用相邻帧其中一个为例说明。
(4)获取只包括box区域文字的图片
如图4所示,图4a已标识了文字区域box的具体位置,将box位置与原始帧对比,便可以获取到不包含背景信息,只包括文字内容的图片,便于后续图片特征匹配时去除背景信息干扰。
(5)图像特征匹配后图片去重
如图5a和图5b所示,图像特征匹配后相邻的序列重复部分已被标识,形成匹配对,假设图5a是前一序列帧,去重后,得到图5c,同样的道理,当图5b与后一帧匹配后,也可以对图5b去重,循环操作,便可以得到不重复的帧序列。
本说明书通过实施例对本发明的重点加以描述,每个实施例的重点都是与其他实施例的不同之处,相同之处相互参见即可。在本文中,第一第二的命名方式不包涵顺序或大小含义,仅仅用于区分两个单元的泛化表述,不应作为判定两个单元相同或不同的依据。同时,本发明中所述的系统,既可以通过硬件实现,也可以在硬件平台上,全部通过软件或部分通过软件实现,无论通过何种方式实现,都应该认为不超过本发明的保护范围。本文中以上实施例的说明只是用于帮助理解本申请方案,同时,对于本领域的一般技术人员,依据本申请的思想,在具体的实施方式及应用范围上均会有改变之处。综上所述,本说明书的内容不应理解为对本申请的限制。
Claims (10)
1.基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的方法包括:
对输入视频进行抽帧,获取帧序列;
相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
获取相邻字幕帧的box区域文字图片,利用图像特征匹配,生成新的字幕不重复的图片序列;
由OCR识别输出并形成完整的字幕文字。
2.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的获取相邻字幕帧的box区域文字图片,包括,
获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
3.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的利用图像特征匹配,包括:
根据SIFT算法,得到一系列的匹配对;
根据匹配对,标记重复的文字区域。
4.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的生成新的字幕不重复的图片序列,包括:
每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
5.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法,其特征在于,所述的由OCR识别输出并形成完整的字幕文字,包括:
所述新的图片序列分别经OCR识别输出;
拼接,形成完整的字幕文字。
6.一种系统,其特征在于,包括,
抽帧单元,用于:对输入视频进行抽帧,获取帧序列;
预处理单元,用于:相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
字幕帧获取单元,用于:获取字幕帧,
匹配单元,用于:利用图像特征匹配,
序列生成单元,用于:生成新的字幕不重复的图片序列;
字幕文字生成单元,用于:由OCR识别输出并形成完整的字幕文字。
7.按照权利要求6所述的一种系统,其特征在于,所述的字幕帧获取单元包括,
位置获取单元,用于:获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
恢复单元,用于:在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
8.按照权利要求6所述的一种系统,其特征在于,所述的匹配单元包括,
算法单元,用于:根据SIFT算法,得到一系列的匹配对;
标记单元,用于:根据匹配对,标记重复的文字区域。
9.按照权利要求6所述的一种系统,其特征在于,所述的序列生成单元,具体用于:每在前一序列中,就删除其与后一序列重复的文字区域;余下文字区域保留。
10.按照权利要求6所述的一种系统,其特征在于,所述的字幕文字生成单元包括,
字幕识别单元,用于:所述新的图片序列分别经OCR识别输出;
文字拼接单元,用于:拼接,形成完整的字幕文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295696.5A CN115115818A (zh) | 2021-03-19 | 2021-03-19 | 基于孪生网络和图像特征匹配的字幕识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295696.5A CN115115818A (zh) | 2021-03-19 | 2021-03-19 | 基于孪生网络和图像特征匹配的字幕识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115818A true CN115115818A (zh) | 2022-09-27 |
Family
ID=83324074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110295696.5A Pending CN115115818A (zh) | 2021-03-19 | 2021-03-19 | 基于孪生网络和图像特征匹配的字幕识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115818A (zh) |
-
2021
- 2021-03-19 CN CN202110295696.5A patent/CN115115818A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705405B (zh) | 目标标注的方法及装置 | |
US7949157B2 (en) | Interpreting sign language gestures | |
CN110267061B (zh) | 一种新闻拆条方法及系统 | |
KR100422709B1 (ko) | 영상 의존적인 얼굴 영역 추출방법 | |
US7403657B2 (en) | Method and apparatus for character string search in image | |
US7630544B1 (en) | System and method for locating a character set in a digital image | |
EP0720114A2 (en) | Method and apparatus for detecting and interpreting textual captions in digital video signals | |
CN107590447A (zh) | 一种文字标题识别方法及装置 | |
CN108447068B (zh) | 三元图自动生成方法及利用该三元图的前景提取方法 | |
CN113052169A (zh) | 视频字幕识别方法、装置、介质及电子设备 | |
CN105678301B (zh) | 一种自动识别并分割文本图像的方法、系统及装置 | |
CN108256508B (zh) | 一种新闻主副标题检测方法及装置 | |
CN108052931A (zh) | 一种车牌识别结果融合方法及装置 | |
CN108876810A (zh) | 视频摘要中利用图割算法进行运动目标检测的方法 | |
CN108446603A (zh) | 一种新闻标题检测方法及装置 | |
JP2016012767A (ja) | 画像処理装置 | |
CN115115818A (zh) | 基于孪生网络和图像特征匹配的字幕识别方法及系统 | |
Yang et al. | Caption detection and text recognition in news video | |
CN115376139A (zh) | 基于ocr高速图像识别的标签采集分析系统 | |
KR100449486B1 (ko) | 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법 | |
JP2002204392A (ja) | 画像処理装置、画像処理システム、画像処理方法、及び記憶媒体 | |
KR100586227B1 (ko) | 색분포 학습을 통한 얼굴영역 추출 방법 | |
CN113361483B (zh) | 一种交通限速标志检测方法、装置、设备及存储介质 | |
Kumar et al. | A comparative Analysis of Feature Extraction Algorithms and Deep Learning Techniques for Detection from Natural Images | |
CN116051402A (zh) | 一种去除图像中的手指的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |