CN106355172A

CN106355172A - 一种字符识别方法及装置

Info

Publication number: CN106355172A
Application number: CN201610659846.5A
Authority: CN
Inventors: 刘帅
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2017-01-25

Abstract

本发明公开了一种字符识别方法及装置，用以降低字符像素值较低对识别效果造成的影响，提高识别的准确率。所述方法包括：在视频播放过程中截取视频帧；将所述截取到的视频帧转换为灰度图；确定所述灰度图中的字符区域；当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时，将所述灰度图进行反色处理；当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时，确定所述字符区域中每一个字符对应的子区域；识别所述子区域中的字符。采用本发明所提供的方法，能够使字符区域的像素值大于字符区域的相邻区域的像素值，从而降低了字符像素值较低对识别效果造成的影响，提高了识别的准确率。

Description

一种字符识别方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种字符识别方法及装置。

背景技术

随着各类拍摄设备的普及以及视频技术的飞速发展，互联网上的视频数量和传播速度出现了爆炸式的增长。视频中出现的字符，如视频标题、字幕等，携带大量信息，对视频内容的理解有着重要作用。

现有技术中，出现了一些自动识别视频中出现的字符的技术，来提高对视频信息的收集速率。然而，受限于视频中可能出现的字符像素值较低的情况，采用现有的识别技术，识别效果并不理想。因而，如何降低字符像素值较低而对识别效果造成的影响，提高识别的准确率，是一亟待解决的技术问题。

发明内容

本发明提供一种字符识别方法及装置，用以降低字符像素值较低对识别效果造成的影响，提高识别的准确率。

本发明提供一种字符识别方法，包括：

在视频播放过程中截取视频帧；

将所述截取到的视频帧转换为灰度图；

确定所述灰度图中的字符区域；

当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时，将所述灰度图进行反色处理；

当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时，确定所述字符区域中每一个字符对应的子区域；

识别所述子区域中的字符。

本发明的有益效果在于：在确定灰度图中的字符区域之后，如果字符区域的像素值小于字符区域的相邻区域的像素值时，将灰度图进行反色处理，以使字符区域的像素值大于字符区域的相邻区域的像素值，从而降低了字符像素值较低对识别效果造成的影响，提高了识别的准确率。

在一个实施例中，所述确定所述灰度图中的字符区域，包括：

获得所述灰度图的边缘图；

对所述边缘图进行二值化处理，以使所述边缘图的所有边缘的像素点都变为白色像素点；

对所述边缘进行角点检测，以得到所述边缘图上存在角点信息的区域；

将不存在角点信息的边缘中的白色像素点转换为黑色像素点；

将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并；

确定所述合并后的区域为字符区域。

本实施例的有益效果在于：获得灰度图的边缘图，减少了图像的数据量，使图像中各个对象的轮廓更加明显；通过对边缘图进行二值化处理，以使图像呈现出更加明显的黑白效果，进一步凸显了图像中各个对象的轮廓，更加易于对字符的识别。

在一个实施例中，当合并后的区域为多个时，所述确定所述合并后的区域为字符区域，包括：

获取各个合并后的区域的面积；

确定面积大于第一面积阈值且小于第二面积阈值的合并后的区域为字符区域。

本实施例的有益效果在于：通过设置第一面积阈值和第二面积阈值，能够将面积过大和过小的区域排除，简化了字符区域的确定过程。

在一个实施例中，在确定所述灰度图中的字符区域之后，所述方法还包括：

将所述字符区域中的所有像素值进行聚类处理得到所述字符区域的所有像素值对应的两个聚类中心；

获取与所述字符区域相邻的像素点的值；

当与所述字符区域相邻的像素点的值与所述两个聚类中心中较大值接近时，确定所述字符区域的像素值小于所述字符区域的相邻区域的像素值；

当与所述字符区域相邻的像素点的值与所述两个聚类中心中较小值接近时，确定所述字符区域的像素值大于所述字符区域的相邻区域的像素值。

本实施例的有益效果在于：通过聚类处理，能够将字符区域内的像素点分成像素值较高的一类像素点与像素值较低的一类像素点，从而，能够与字符区域相邻区域中的像素点的值做整体比对，简化了比对过程。

在一个实施例中，所述确定所述字符区域中每一个字符对应的子区域，包括：

识别所述字符区域中白色像素点形成的多个连通区域；

通过多个矩形框标识所述连通区域，其中，每个连通区域对应一个矩形框；

将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框；

确定满足预设比例阈值的矩形框为一个字符对应的子区域。

本实施例的有益效果在于：通过识别字符区域中白色像素点形成的连通区域来确定单个字符对应的子区域，将长和宽不满足预设比例阈值的相邻矩形合并为同一矩形区域，避免将上下结构或左右结构的文字误识别为两个字符。

本发明还提供一种字符识别装置，包括：

截取模块，用于在视频播放过程中截取视频帧；

转换模块，将所述截取到的视频帧转换为灰度图；

第一确定模块，用于确定所述灰度图中的字符区域；

第一处理模块，用于当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时，将所述灰度图进行反色处理；

第二确定模块，用于当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时，确定所述字符区域中每一个字符对应的子区域；

识别模块，用于识别所述子区域中的字符。

在一个实施例中，所述第一确定模块，包括：

获得子模块，用于获得所述灰度图的边缘图；

处理子模块，用于对所述边缘图进行二值化处理，以使所述边缘图的所有边缘的像素点都变为白色像素点；

检测子模块，用于对所述边缘进行角点检测，以得到所述边缘图上存在角点信息的区域；

转换子模块，用于将不存在角点信息的边缘中的白色像素点转换为黑色像素点；

第一合并子模块，用于将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并；

第一确定子模块，用于确定所述合并后的区域为字符区域。

在一个实施例中，所述第一确定子模块，包括：

当合并后的区域为多个时，获取各个合并后的区域的面积；

在一个实施例中，所述装置还包括：

第二处理模块，用于在确定所述灰度图中的字符区域之后，将所述字符区域中的所有像素值进行聚类处理得到所述字符区域的所有像素值对应的两个聚类中心；

获取模块，用于获取与所述字符区域相邻的像素点的值；

第三确定模块，用于当与所述字符区域相邻的像素点的值与所述两个聚类中心中较大值接近时，确定所述字符区域的像素值小于所述字符区域的相邻区域的像素值；

第四确定模块，用于当与所述字符区域相邻的像素点的值与所述两个聚类中心中较小值接近时，确定所述字符区域的像素值大于所述字符区域的相邻区域的像素值。

在一个实施例中，所述第二确定模块，包括：

识别子模块，用于识别所述字符区域中白色像素点形成的多个连通区域；

标识子模块，用于通过多个矩形框标识所述连通区域，其中，每个连通区域对应一个矩形框；

第二合并子模块，用于将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框；

第二确定子模块，用于确定满足预设比例阈值的矩形框为一个字符对应的子区域。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中字符识别方法的流程图；

图2为本发明一实施例中字符识别方法的流程图；

图3为本发明一实施例中字符识别方法的框图；

图4为本发明一实施例中字符识别方法的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中字符识别方法的流程图，该方法可被实施为以下步骤S101-S106：

在步骤S101中，在视频播放过程中截取视频帧；

在步骤S102中，将截取到的视频帧转换为灰度图；

在步骤S103中，确定灰度图中的字符区域；

在步骤S104中，当字符区域的像素值小于字符区域的相邻区域的像素值时，将灰度图进行反色处理；

在步骤S105中，当字符区域的像素值大于字符区域的相邻区域的像素值时，确定字符区域中每一个字符对应的子区域；

在步骤S106中，识别子区域中的字符。

本实施例中，在视频播放过程中截取视频帧，该视频帧可以是视频播放过程中的任意一帧视频，将截取到的视频帧转换为灰度图，并确定灰度图中的字符区域，该字符区域可以是视频下方的字幕所在的区域，也可以是视频标题所在的区域。

在确定字符区域之后，可对字符区域的像素值与该字符区域的相邻区域的像素值的大小进行比对，并根据比对结果的不同执行不同的后续处理过程。

例如，当字符区域的像素值小于字符区域的相邻区域的像素值时，执行下述步骤a，当字符区域的像素值大于字符区域的响铃区域的像素值时，执行下述步骤b：

在步骤a中，将灰度图进行反色处理，从而使字符区域的像素值大于字符区域的相邻区域的像素值。在反色处理执行完毕时，执行下述步骤b。

在步骤b中，确定字符区域中每一个字符对应的子区域。

在步骤b执行完毕之后，识别子区域中的字符。

需要说明的是，本实施例中的视频可以是网络点播视频、离线视频、网络直播视频、电视节目等。本实施例适用于对视频中字幕的识别或视频标题的识别。

在一个实施例中，如图2所示，上述步骤S103可被实施为如下步骤S201-S206：

在步骤S201中，获得灰度图的边缘图；

在步骤S202中，对边缘图进行二值化处理，以使边缘图的所有边缘的像素点都变为白色像素点；

在步骤S203中，对边缘进行角点检测，以得到边缘图上存在角点信息的区域；

在步骤S204中，将不存在角点信息的边缘中的白色像素点转换为黑色像素点；

在步骤S205中，将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并；

在步骤S206中，确定合并后的区域为字符区域。

举例而言，对视频帧对应的灰度图进行边缘检测，获得该灰度图的边缘图。边缘图是为了标识图像中亮度变化比较明显的点，而在视频播放时，字幕或标题与视频背景的颜色必然存在较大差异，通过边缘检测得到边缘图之后，边缘图中必然包含标识文字轮廓的边缘，通常情况下，边缘的灰度值要大于其他部分的灰度值。

本步骤中，通过获得灰度图的边缘图，能够使后续的检测更加方便。

对边缘图进行二值化处理。由于边缘图中的边缘部分像素大于其他部分的像素值，在二值化处理之后，边缘图的边缘部分灰度值被置为255，而除边缘部分之外的其他部分的灰度值被置为0，此时，边缘部分的像素点全部转换为白色像素点，而其他部分转换为黑色像素点。

对于字符而言，无论是字母、数字、汉字还是其他符号，其对应的图像特征变化都较为剧烈，用来标识字符的边缘几乎都存在角点信息，本步骤中，对图像中全部由白色像素点组成的边缘进行角点检测，以得到边缘图上存在角点信息的区域。将不存在角点信息的边缘中的白色像素点转换为黑色像素点，从而能够排除用于标识字符的边缘之外的其他边缘对识别造成的干扰。

将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并，确定合并后的区域为字符区域。

在一个实施例中，当合并后的区域为多个时，上述步骤S206可被实施为如下步骤A1-A2：

在步骤A1中，获取各个合并后的区域的面积；

在步骤A2中，确定面积大于第一面积阈值且小于第二面积阈值的合并后的区域为字符区域。

在执行角点检测时，除用于标识字符的边缘之外，还可能存在其他边缘也存在角点信息，因而，在上述步骤S205执行完毕之后，有可能存在多个合并后的区域。

在视频制作时，字幕或视频标题显示面积的设置通常以不影响主体内容的体现为标准，因而，其显示面积在整个视频画面中所占的比例较小，如不超过视频画面的10％，但是，如果显示面积过小，又会影响观众对字幕或视频标题的辨认，因而，其显示面积在整个视频画面中所占的比例又不能太小，如不小于视频画面的1％。

本实施例中，以40英寸的电视为例，其长约为81.28厘米，宽约为60.96厘米，则其面积S＝81.28×60.96＝4954.8288平方厘米≈0.5平方米。也就是说，40英寸的电视中视频画面的大小为0.5平方米，则预先设置第一面积阈值为0.005平方米，预设第二面积阈值为0.05平方米。当合并后的区域为多个时，获取各个合并后的区域的面积，确定面积大于0.005平方米且小于0.05平方米的区域为字符区域，将该范围之外的其他区域排除。

在一个实施例中，在上述步骤S103之后，方法还可被实施为如下步骤B1-B4：

在步骤B1中，将字符区域中的所有像素值进行聚类处理得到字符区域的所有像素值对应的两个聚类中心；

在步骤B2中，获取与字符区域相邻的像素点的值；

在步骤B3中，当与字符区域相邻的像素点的值与两个聚类中心中较大值接近时，确定字符区域的像素值小于字符区域的相邻区域的像素值；

在步骤B4中，当与字符区域相邻的像素点的值与两个聚类中心中较小值接近时，确定字符区域的像素值大于字符区域的相邻区域的像素值。

在确定灰度图中的字符区域之后，还需要确定字符区域的像素值是否大于字符区域的响铃区域的像素值。本实施例中，通过聚类处理将字符区域中所有像素值聚为两类，每一类对应一个聚类中心，每个聚类中心都用来标识其对应的类中像素点的值。

获取与字符区域相邻的一个或者多个像素点的值，当与字符区域相邻的像素点的值与两个聚类中心中较大值接近时，则说明字符区域的像素值小于字符区域的相邻区域的像素值；反之，当与字符区域相邻的像素点的值与两个聚类中心中较小值接近时，则说明字符区域的像素值大于字符区域的相邻区域的像素值。通过聚类算法将具有相似像素值的像素点聚类，从而能够将字符区域内的像素点分成像素值较高的像素点集合和像素值较低的像素点集合，从而能够与相邻区域中的像素点进行整体比对，简化了字符区域像素值与相邻区域像素值的比对过程。

在一个实施例中，上述步骤S105可被实施为如下步骤C1-C4：

在步骤C1中，识别字符区域中白色像素点形成的多个连通区域；

在步骤C2中，通过多个矩形框标识连通区域，其中，每个连通区域对应一个矩形框；

在步骤C3中，将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框；

在步骤C4中，确定满足预设比例阈值的矩形框为一个字符对应的子区域。

图像中具有相同像素值且位置相邻的前景像素点组成的图像区域被称为连通区域。本实施例中，由于白色像素点的像素值相同，因而，本实施例中，能够通过识别字符区域中白色像素点形成的多个连通区域来进行单个字符对应区域的拆分，具体如下：

识别字符区域中白色像素点形成的多个连通区域，通过多个矩形框标识连通区域，每一个连通区域对应一个矩形框。

在汉字中，除了独体字之外，还有上下、上中下、左右、半包围、全包围、品字形等多种类型的字体结构，一个汉字可能对应多个连通区域。考虑到这样的情况，在本实施例中，预先设置一比例阈值，通常情况下，非手写的汉字的宽高比为1比1，因而，预先设置一比例阈值为1比1。

当字幕或标题对应的显示区域为横向时，当出现两个相邻矩形框为上下相邻时，可确定上下相邻的矩形框是用来标识上下结构的汉字对应的两个连通区域的矩形框，则直接合并这两个相邻矩形框。对于左右结构的汉字，其对应的两个连通区域的宽高比为1比2，不满足预设的比例阈值，则将不满足预设比例阈值的相邻矩形框进行合并。

需要说明的是，本实施例中，当出现一个矩形框在另一个矩形框内时，可将小矩形框删除，从而，实现了对半包围结构和全包围结构的汉字的识别。

其次，还可以获取每个矩形框的面积，当存在三个品字形矩形框，且这三个矩形框面积小于其他矩形框时，将这三个品字形矩形框所标识的三个连通区域作为一个连通区域进行标识，从而实现了对品字形结构的汉字的识别。

图3为本发明一实施例中字符识别装置的框图，该装置包括如下模块：

截取模块31，用于在视频播放过程中截取视频帧；

转换模块32，将截取到的视频帧转换为灰度图；

第一确定模块33，用于确定灰度图中的字符区域；

第一处理模块34，用于当字符区域的像素值小于字符区域的相邻区域的像素值时，将灰度图进行反色处理；

第二确定模块35，用于当字符区域的像素值大于字符区域的相邻区域的像素值时，确定字符区域中每一个字符对应的子区域；

识别模块36，用于识别子区域中的字符。

在一个实施例中，如图4所示，第一确定模块33，包括：

获得子模块41，用于获得灰度图的边缘图；

处理子模块42，用于对边缘图进行二值化处理，以使边缘图的所有边缘的像素点都变为白色像素点；

检测子模块43，用于对边缘进行角点检测，以得到边缘图上存在角点信息的区域；

转换子模块44，用于将不存在角点信息的边缘中的白色像素点转换为黑色像素点；

第一合并子模块45，用于将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并；

第一确定子模块46，用于确定合并后的区域为字符区域。

在一个实施例中，第一确定子模块，包括：

当合并后的区域为多个时，获取各个合并后的区域的面积；

在一个实施例中，装置还包括：

第二处理模块，用于在确定灰度图中的字符区域之后，将字符区域中的所有像素值进行聚类处理得到字符区域的所有像素值对应的两个聚类中心；

获取模块，用于获取与字符区域相邻的像素点的值；

第三确定模块，用于当与字符区域相邻的像素点的值与两个聚类中心中较大值接近时，确定字符区域的像素值小于字符区域的相邻区域的像素值；

第四确定模块，用于当与字符区域相邻的像素点的值与两个聚类中心中较小值接近时，确定字符区域的像素值大于字符区域的相邻区域的像素值。

在一个实施例中，第二确定模块35，包括：

识别子模块，用于识别字符区域中白色像素点形成的多个连通区域；

标识子模块，用于通过多个矩形框标识连通区域，其中，每个连通区域对应一个矩形框；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种字符识别方法，其特征在于，包括：

在视频播放过程中截取视频帧；

将所述截取到的视频帧转换为灰度图；

确定所述灰度图中的字符区域；

识别所述子区域中的字符。

2.如权利要求1所述的方法，其特征在于，所述确定所述灰度图中的字符区域，包括：

获得所述灰度图的边缘图；

确定所述合并后的区域为字符区域。

3.如权利要求2所述的方法，其特征在于，当合并后的区域为多个时，所述确定所述合并后的区域为字符区域，包括：

获取各个合并后的区域的面积；

4.如权利要求1所述的方法，其特征在于，在确定所述灰度图中的字符区域之后，所述方法还包括：

获取与所述字符区域相邻的像素点的值；

5.如权利要求1所述的方法，其特征在于，所述确定所述字符区域中每一个字符对应的子区域，包括：

识别所述字符区域中白色像素点形成的多个连通区域；

确定满足预设比例阈值的矩形框为一个字符对应的子区域。

6.一种字符识别装置，其特征在于，包括：

截取模块，用于在视频播放过程中截取视频帧；

转换模块，将所述截取到的视频帧转换为灰度图；

第一确定模块，用于确定所述灰度图中的字符区域；

识别模块，用于识别所述子区域中的字符。

7.如权利要求6所述的装置，其特征在于，所述第一确定模块，包括：

获得子模块，用于获得所述灰度图的边缘图；

第一确定子模块，用于确定所述合并后的区域为字符区域。

8.如权利要求7所述的装置，其特征在于，所述第一确定子模块，包括：

当合并后的区域为多个时，获取各个合并后的区域的面积；

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取与所述字符区域相邻的像素点的值；

10.如权利要求6所述的装置，其特征在于，所述第二确定模块，包括：