CN115115818A

CN115115818A - 基于孪生网络和图像特征匹配的字幕识别方法及系统

Info

Publication number: CN115115818A
Application number: CN202110295696.5A
Authority: CN
Inventors: 徐佳宏; 董永飞
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-09-27

Abstract

本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统，利用孪生网络确定字幕box位置，只获取对应位置的字幕图片，以减少背景噪声，再以图像特征匹配的手段去重，最后OCR识别，拼接后形成完整的字幕文字。本技术方案利用孪生网络做预处理，从源头上去除了背景噪对后期匹配的影响，因而在准确性上具有突出的优势，同时由于不依赖启发式的技巧，获得了很好地鲁棒性。

Description

基于孪生网络和图像特征匹配的字幕识别方法及系统

技术领域

本发明涉及视频检测领域，尤其是涉及基于孪生网络和图像特征匹配的字幕识别方法及系统。

背景技术

在视频检测领域，通常需要对视频进行字幕提取，例如，存在这样一种应用场景：服务器对新增视频A进行自动化分析，提取演员表，并将视频A与数据库中该演员关联，当用户选择该演员时，视频A自动呈现在集合中。

在上述场景中，技术实现的关键点在于如何准确获取字幕。

现有技术一种是先对字幕图片拼接，再整体OCR识别，另外一种是二值化加直方图识别。

图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中，图像的二值化使图像中数据量大为减少，从而能凸显出目标的轮廓。

直方图又称质量分布图，是一种统计报告图，由一系列高度不等的纵轴条纹或线段标识数据分布情况。对图像帧的每一个像素灰度进行统计，形成灰度值0到255的统计图，也叫灰度直方图，图像二值化是直方图的先决条件。

现有的方法对字幕背景噪声或预设的字幕的位置信息敏感，当存在严重的背景噪声时，得到的直方图不准确，而依赖预设字幕的位置这类启发式技巧会导致适应性差。

而且OCR识别对输入长度有一定的限制，先图片拼接再整体识别时，会导致速度慢，识别性能变差。

亟待解决的问题是，提供一种识别方法，既不依赖字幕预设位置等启发式技巧，又通过减少背景噪声提高最终识别的精度。

发明内容

本发明旨在解决现有字幕识别精度不高的问题，为解决上述技术问题，本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统，所述的方法包括：

对输入视频进行抽帧，获取帧序列；

相邻的帧序列依次输入孪生神经网络，分别输出包括文字区域box的图片序列；

获取相邻字幕帧的box区域文字图片，利用图像特征匹配，生成新的字幕不重复的图片序列；

由OCR识别输出并形成完整的字幕文字。

值得强调的是，本发明的识别方法是抽帧后先利用孪生网络去除帧序列的背景，获取包括文字区域box的图片序列，通常得到的结果是以黑色为背景的白色文字box框，具体文字已经被白色填充。然后获取box区域文字图片，此时的图片是不包含视频背景的，再利用图像特征匹配，去除重复部分，最后经OCR处理，将图片转化为字幕文字，最终获得完整的字幕内容。

具体的，所述的获取相邻字幕帧的box区域文字图片,包括,

获取经孪生神经网络处理后的相邻帧文字区域box的位置信息；

在原图像帧的同样位置取字幕，恢复成去掉背景信息的字幕帧。

由于box区域的位置信息是孪生网络自动识别产生的，因此此位置信息不是具有人为因素的启发性技巧，不影响方案的适应性。根据位置信息，对照原图像就可以得到新的字幕帧，其特点是，去除了与字幕无关的背景，图片上只包含字幕部分。

具体的，所述的利用图像特征匹配，包括：

根据SIFT算法，得到一系列的匹配对；

根据匹配对，标记重复的文字区域。

对于只包含字幕部分的相邻图片，利用SIFT算法得到匹配对，简而言之，所述的匹配对就是匹配上的相同文字区域块，匹配对即是重复的文字区域，对所述的重复区域进行标记。

具体的，所述的生成新的字幕不重复的图片序列，包括：

每在前一序列中，就删除其与后一序列重复的文字区域；余下文字区域保留。

因为是相邻图片进行匹配，所以对每个前一序列来说，需要去除重复的文字区域，余下文字区域保留，而对后一序列来说，不必进行处理，因为下一次取相邻图片时，所述的后一序列会成为前一序列。

具体的，所述的由OCR识别输出并形成完整的字幕文字，包括：

所述新的图片序列分别经OCR识别输出；

拼接，形成完整的字幕文字。

现有技术中，多采用整体OCR识别，本方案是识别后再拼接，保证了OCR的性能。

相应的，提供一种系统，其特征在于，包括，

抽帧单元，用于：对输入视频进行抽帧，获取帧序列；

预处理单元，用于：相邻的帧序列依次输入孪生神经网络，分别输出包括文字区域box的图片序列；

字幕帧获取单元，用于：获取字幕帧；

匹配单元，用于：利用图像特征匹配；

序列生成单元，用于：生成新的字幕不重复的图片序列；

字幕文字生成单元，用于：由OCR识别输出并形成完整的字幕文字。

具体的，所述的字幕帧获取单元包括，

位置获取单元，用于：获取经孪生神经网络处理后的相邻帧文字区域box的位置信息；

恢复单元，用于：在原图像帧的同样位置取字幕，恢复成去掉背景信息的字幕帧。

具体的，所述的匹配单元包括，

算法单元，用于：根据SIFT算法，得到一系列的匹配对；

标记单元，用于：根据匹配对，标记重复的文字区域。

具体的，所述的序列生成单元包括，

去重单元，用于：每在前一序列中，就删除其与后一序列重复的文字区域；余下文字区域保留。

具体的，所述的字幕文字生成单元包括，

字幕识别单元，用于：所述新的图片序列分别经OCR识别输出；

文字拼接单元，用于：拼接，形成完整的字幕文字。

附图及说明

图1是本发明的详细流程图；

图2是系统结构示意图；

图3是孪生网络处理前后图片序列示意图；

图4是获取只包括box区域文字的图片示意图；

图5是图像特征匹配后图片去重示意图；

其中，以S结合数字标识流程。

具体实施例

下面结合附图及具体实施例对本发明做进一步阐述。

(1)流程：

如图1所示，S100是对视频进行抽帧、S102是对帧序列进行孪生网络处理，输出包括文字区域box的序列，S104是获取所述的box位置，S106是依据具体位置，得到只带有文字区域内容的字幕帧，S108和S110是进行图像特征匹配，S112根据匹配结果对相邻的字幕帧去重，生成新的序列，S114对所述的序列进行OCR处理，转化为字幕文字，然后经S116的拼接，成为连续的字幕文字。

先用孪生网络算法找出文字位置，再获得只包含文字区域内容的图片序列，保证了在接下来的图像特征匹配的过程中，不受背景区域的信息干扰，从而得到更准确的匹配对，完成关键的去重。本发明不通过启发式的技巧获取文字位置，而是利用孪生网络来间接获得，减少了人为的因素，同时使方案更具有广泛的适应性，鲁棒性更好。

(2)系统

由于系统与本发明的方法存在对应关系，因此只做简单阐述。如图2所示，系统主要包括：抽帧单元、预处理单元、字幕帧获取单元、序列生成单元、字幕文字生成单元。其中：

字幕帧获取单元包括位置获取单元和恢复单元；

匹配单元包括算法单元和标记单元；

字幕文字生成单元包括字幕识别单元和文字拼接单元。

(3)孪生网络处理

如图3所示，图3a是未经孪生网络处理的序列帧，本例中，图中用X代替文字，以灰色代替背景，一般情况下，经孪生网络处理后，背景为黑色，文字box部分为白色，本例中文字box部分以黑色代替。由图3b可以发现，处理后，原背景信息和具体文字内容均消失，只剩下文字区域box部分，简单说，只留下了文字区域的位置信息。

孪生网络同时处理两张相邻的帧序列，由于处理方式相同，因此只用相邻帧其中一个为例说明。

(4)获取只包括box区域文字的图片

如图4所示，图4a已标识了文字区域box的具体位置，将box位置与原始帧对比，便可以获取到不包含背景信息，只包括文字内容的图片，便于后续图片特征匹配时去除背景信息干扰。

(5)图像特征匹配后图片去重

如图5a和图5b所示，图像特征匹配后相邻的序列重复部分已被标识，形成匹配对，假设图5a是前一序列帧，去重后，得到图5c,同样的道理，当图5b与后一帧匹配后，也可以对图5b去重，循环操作，便可以得到不重复的帧序列。

本说明书通过实施例对本发明的重点加以描述，每个实施例的重点都是与其他实施例的不同之处，相同之处相互参见即可。在本文中，第一第二的命名方式不包涵顺序或大小含义，仅仅用于区分两个单元的泛化表述，不应作为判定两个单元相同或不同的依据。同时，本发明中所述的系统，既可以通过硬件实现，也可以在硬件平台上，全部通过软件或部分通过软件实现，无论通过何种方式实现，都应该认为不超过本发明的保护范围。本文中以上实施例的说明只是用于帮助理解本申请方案，同时，对于本领域的一般技术人员，依据本申请的思想，在具体的实施方式及应用范围上均会有改变之处。综上所述，本说明书的内容不应理解为对本申请的限制。

Claims

1.基于孪生网络和图像特征匹配的字幕识别方法，其特征在于，所述的方法包括：

对输入视频进行抽帧，获取帧序列；

由OCR识别输出并形成完整的字幕文字。

2.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法，其特征在于，所述的获取相邻字幕帧的box区域文字图片,包括,

3.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法，其特征在于，所述的利用图像特征匹配，包括：

根据SIFT算法，得到一系列的匹配对；

根据匹配对，标记重复的文字区域。

4.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法，其特征在于，所述的生成新的字幕不重复的图片序列，包括：

5.按照权利要求1所述的基于孪生网络和图像特征匹配的字幕识别方法，其特征在于，所述的由OCR识别输出并形成完整的字幕文字，包括：

所述新的图片序列分别经OCR识别输出；

拼接，形成完整的字幕文字。

6.一种系统，其特征在于，包括，

抽帧单元，用于：对输入视频进行抽帧，获取帧序列；

字幕帧获取单元，用于：获取字幕帧，

匹配单元，用于：利用图像特征匹配，

序列生成单元，用于：生成新的字幕不重复的图片序列；

7.按照权利要求6所述的一种系统，其特征在于，所述的字幕帧获取单元包括，

8.按照权利要求6所述的一种系统，其特征在于，所述的匹配单元包括，

算法单元，用于：根据SIFT算法，得到一系列的匹配对；

标记单元，用于：根据匹配对，标记重复的文字区域。

9.按照权利要求6所述的一种系统，其特征在于，所述的序列生成单元，具体用于：每在前一序列中，就删除其与后一序列重复的文字区域；余下文字区域保留。

10.按照权利要求6所述的一种系统，其特征在于，所述的字幕文字生成单元包括，

文字拼接单元，用于：拼接，形成完整的字幕文字。