CN105740760B

CN105740760B - 一种视频字幕ocr识别的自动校正方法

Info

Publication number: CN105740760B
Application number: CN201610039259.6A
Authority: CN
Inventors: 谢超平; 吴春中; 罗明利
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2016-01-21
Filing date: 2016-01-21
Publication date: 2017-03-15
Anticipated expiration: 2036-01-21
Also published as: CN105740760A

Abstract

本发明公开了一种视频字幕OCR识别的自动校正方法，包括以下步骤：S1.获取带字幕的原始视频图像，并对该原始视频图像进行二值化处理得到二值化图像；S2.分别对原始视频图像和二值化图像进行光学字符识别，得到多个参考识别结果；S3.根据所述多个参考识别结果获取最优识别结果。本发明能够智能的从多种视频文字识别结果中选取最优识别结果呈现给用户。

Description

一种视频字幕OCR识别的自动校正方法

技术领域

本发明涉及光学字符识别技术领域，特别是涉及一种视频字幕OCR识别的自动校正方法。

背景技术

现有的视频字幕识别通常只产生一种识别结果，但是由于不同的北京、字体颜色纹理以及字体结构特征导致误识率较高；虽然现在也出现了一些视频文字识别系统通过多种引擎能够产生多种识别结果，但是这些视频文字识别系统不能智能的选取最优结果呈现给用户。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视频字幕OCR识别的自动校正方法，能够智能的从多种视频文字识别结果中选取最优识别结果。

本发明的目的是通过以下技术方案来实现的：一种视频字幕OCR识别的自动校正方法，包括以下步骤：

S1.获取带字幕的原始视频图像，并对该原始视频图像进行二值化处理得到二值化图像；

S2.分别对原始视频图像和二值化图像进行光学字符识别，得到多个参考识别结果；

S3.根据所述多个参考识别结果获取最优识别结果。

所述步骤S2包括以下子步骤：

S21.对原始视频图像进行光学字符识别，得到第一视频识别结果和第一文档识别结果；

S22.对二值化图像进行光学字符识别，得到第二视频识别结果和第二文档识别结果。

所述步骤S3包括以下子步骤：

S31.针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度；

S32.对所有字幕矩形区域进行去除噪声处理；

S33.根据每个参考识别结果的置信度选取得到最可靠的参考识别结果，将该最可靠的参考识别结果作为备选识别结果，并计算该备选识别结果中文字的特征数据；

S34.根据文字的特征数据对备选识别结果进行字幕矩形区域划分检查；

S35.结合其它所有参考识别结果，对备选识别结果中的所有字幕矩形区域逐个进行判断，得到各字幕矩形区域对应的文字的最优结果，将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。

所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为：获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字；将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类，当只有一类时，则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果；当有多类时，若各类中的识别结果的数量相同，则将所有识别结果的置信度进行加权计算，选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果，否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。

所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距。

所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为：

S331.根据每个文字的矩形区域计算出每个文字的宽度；

S332.统计出所有的宽度以及该宽度对应的文字的个数；

S333.选取宽度相差最小的参考识别结果组作为最可靠的参考识别结果。

本发明的有益效果是：本发明能够智能的从多种视频文字识别结果中选取最优识别结果呈现给用户。

附图说明

图1为本发明一种视频字幕OCR识别的自动校正方法的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种视频字幕OCR识别的自动校正方法，包括以下步骤：

S1.获取带字幕的原始视频图像，并对该原始视频图像进行二值化处理得到二值化图像。

S2.分别对原始视频图像和二值化图像进行光学字符识别，得到多个参考识别结果。本实施例中采用文通视频文字识别系统分别对原始视频图像和二值化图像进行光学字符识别。

所述步骤S2包括以下子步骤：

S21.对原始视频图像进行光学字符识别，得到第一视频识别结果和第一文档识别结果。

S3.根据所述多个参考识别结果获取最优识别结果。

所述步骤S3包括以下子步骤：

S31.针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度。在本实施例中，每个文字的置信度是文通识别引擎在生成识别结果的同时自动生成的。

S32.对所有字幕矩形区域进行去除噪声处理。

S33.根据每个参考识别结果的置信度选取得到最可靠的参考识别结果，将该最可靠的参考识别结果作为备选识别结果，并计算该备选识别结果中文字的特征数据。

所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为：文通识别引擎生成识别结果的同时自动生成每个文字的矩形区域；根据每个文字的矩形区域计算出每个文字的高度；统计出所有的宽度以及该宽度对应的文字的个数；由于每个文字的宽度都是一样的，从而判断出宽度相差最小的识别结果的置信度最高，因而选取宽度相差最小的参考识别结果组作为最可靠的参考识别结果。

S34.根据文字的特征数据对备选识别结果进行字幕矩形区域划分检查，例如，当两个字幕矩形区域的间距过大时需检查是否出现遗漏等，最终形成一个由字幕矩形区域以及字幕矩形区域对应的文字组成的备选识别结果。

所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为：获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字；将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类，当只有一类时，则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果；当有多类时，若各类中的识别结果的数量相同，则将所有识别结果的置信度进行加权计算，选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果，否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。对识别结果的置信度进行加权计算的方式为：根据字幕矩形区域的面积、置信度和相邻文字的置信度差异形成一个加权置信度。

实施例一：

一种视频字幕OCR识别的自动校正方法，包括以下步骤：

步骤一、获取带字幕的原始视频图像，并对该原始视频图像进行二值化处理得到二值化图像。

步骤二、对原始视频图像进行光学字符识别，得到第一视频识别结果和第一文档识别结果；对二值化图像进行光学字符识别，得到第二视频识别结果和第二文档识别结果，将第一视频识别结果、第一文档识别结果、第二视频识别结果和第二文档识别结果作为四个参考识别结果。

步骤三、针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度；对所有字幕矩形区域进行去除噪声处理；根据每个参考识别结果的置信度选取得到参考识别结果，将该最可靠的参考识别结果作为备选识别结果，并计算该备选识别结果中文字的特征数据。

所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距；根据文字的特征数据对备选结果进行字幕矩形区域划分检查，形成一个由字幕矩形区域以及字幕矩形区域对应的文字组成的备选识别结果；结合其它三个参考识别结果，对备选识别结果中的所有字幕矩形区域逐个进行判断，得到各字幕矩形区域对应的文字的最优结果，将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。

对备选识别结果中的字幕矩形区域进行判断的方式为：获取备选识别结果和其他三个参考识别结果在同一顺序处的字幕矩形区域对应的文字，得到第一文字、第二文字、第三文字和第四文字；

当第一文字、第二文字、第三文字和第四文字均相同时，则选取第一文字、第二文字、第三文字和第四文字中任意一个作为该顺序处的字幕矩形区域对应的文字的最优结果；

当第一文字、第二文字、第三文字和第四文字中有三个相同时，其中第一文字、第二文字和第三文字相同，则选取第一文字、第二文字和第三文字中任意一个作为该顺序处的字幕矩形区域对应的文字的最优结果；

当第一文字、第二文字、第三文字和第四文字两两相同时，其中第一文字和第二文字相同，第三文字和第四文字相同，将第一文字和第二文字对应的识别结果分为一组，将第三文字和第四文字对应的识别结果分为一组，将四个识别结果的置信度进行加权计算，选取加权置信度最好的一组对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果；

当第一文字、第二文字、第三文字和第四文字各不相同时，将四个识别结果的置信度进行加权计算，选取加权置信度最好的识别结果对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。

将四个识别结果的置信度进行加权计算的方式为：根据字幕矩形区域面积、识别结果中文字的置信度、相邻参考文字的置信度差异形成一个加权置信度。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种视频字幕OCR识别的自动校正方法，其特征在于：包括以下步骤：

S3.根据所述多个参考识别结果获取最优识别结果；

所述步骤S3包括以下子步骤：

S32.对所有字幕矩形区域进行去除噪声处理；

2.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法，其特征在于：所述步骤S2包括以下子步骤：

3.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法，其特征在于：所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为：获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字；将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类，当只有一类时，则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果；当有多类时，若各类中的识别结果的数量相同，则将所有识别结果的置信度进行加权计算，选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果，否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。

4.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法，其特征在于：所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距。

5.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法，其特征在于：所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为：

S331.根据每个文字的矩形区域计算出每个文字的宽度；

S332.统计出所有的宽度以及该宽度对应的文字的个数；