CN107977658A

CN107977658A - 图像文字区域的识别方法、电视机和可读存储介质

Info

Publication number: CN107977658A
Application number: CN201711468194.8A
Authority: CN
Inventors: 陈铭良; 赖长明; 吴佳飞
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-05-01
Anticipated expiration: 2037-12-27
Also published as: CN107977658B

Abstract

本发明公开了一种图像文字区域的识别方法，图像文字区域的识别方法包括以下步骤：对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像；聚合各个所述最大稳定极值区域以获得多个备选框，并将所述第一待处理二值图像作为所述待识别图像的掩膜以获得第二待处理二值图像；删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域；将所述备选框添加至删除操作后的所述第二待处理二值图像，并将含有所述最大稳定极值区域的所述备选框作为文字区域。本发明还公开了一种电视机和可读存储介质。本发明提高了图像文字区域的识别精度。

Description

图像文字区域的识别方法、电视机和可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像文字区域的识别方法、电视机和可读存储介质。

背景技术

文字区域检测和定位是一个非常重要的基础性计算机视觉技术，它是光学字符识别的前提。

自然场景下的文字区域检测由于受到光照，文字变形和尺度变换等问题的挑战，传统的文字检测算法无法正确检测到相应的文字区域，即现有技术中图像文字区域的识别精度低。

发明内容

本发明的主要目的在于提供一种图像文字区域的识别方法、电视机和可读存储介质，旨在解决图像文字区域的识别精度低的问题。

为实现上述目的，本发明提供一种图像文字区域的识别方法，所述图像文字区域的识别方法包括以下步骤：

对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像；

聚合各个所述最大稳定极值区域以获得多个备选框，并将所述第一待处理二值图像作为所述待识别图像的掩膜以获得第二待处理二值图像；

删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域；

将所述备选框添加至删除操作后的所述第二待处理二值图像，并将含有所述最大稳定极值区域的所述备选框作为文字区域。

优选地，所述删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域的步骤包括：

采用卷积神经网络算法判断所述第二待处理二值图像的所述最大稳定极值区域是否为非文本区域；

删除判定为非文本区域的所述最大稳定极值区域。

优选地，所述对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像的步骤之后，还包括：

获取所述第一待处理二值图像中各个所述最大稳定极值区域的几何信息，并判断所述几何信息是否匹配预设几何信息；

删除不匹配的所述几何信息对应的所述最大稳定极值区域，并并执行所述聚合各个所述最大稳定极值区域以获得多个备选框的步骤。

优选地，所述对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像的步骤包括：

采用依次递增的灰度阈值二值化处理所述待识别图像，以获得含有多个最大稳定极值区域的第一待处理二值图像。

优选地，所述聚合各个所述最大稳定极值区域以获得多个备选框的步骤包括：

获取所述最大稳定极值区域对应的预设膨胀参数；

根据所述预设膨胀参数对各个所述最大稳定极值区域进行膨胀操作，以获得待处理区域；

将交叠的各个所述待处理区域聚合，以获得所述备选框。

优选地，所述图像文字区域的识别方法，还包括：

获取所述待识别图像的格式；

在所述待识别图像的格式为预设格式时，执行所述对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像的步骤；

在所述待识别图像的格式不为预设格式时，输出图像格式不正确的提示信息。

优选地，所述将所述备选框添加至删除操作后的所述第二待处理二值图像的步骤包括：

确定所述备选框在所述第一待处理二值图像的第一位置；

根据所述第一位置确定所述备选框在删除操作后的所述第二待处理二值图像的第二位置；

根据所述第二位置将所述备选框添加至删除操作后的所述第二待处理二值图像。

优选地，所述将含有所述最大稳定极值区域的所述备选框作为文字区域的步骤之后，还包括：

识别所述文字区域，以获得文字信息；

输出所述文字信息。

为实现上述目的，本发明还提供一种电视机，所述电视机包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的图像文字区域的识别程序，所述图像文字区域的识别程序被所述处理器执行时实现如上所述的图像文字区域的识别方法的步骤。

为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有图像文字区域的识别程序，所述图像文字区域的识别程序被处理器执行时实现如上所述的图像文字区域的识别方法的步骤。

本发明提供的图像文字区域的识别方法、电视机和可读存储介质，电视机对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像，再聚合各个最大稳定极值区域以得到含有多个备选框，将第一待处理二值图像作为待识别图像的掩膜以获得第二待处理二值图像，然后删除第二待处理二值图像的最大稳定极值区域中的非文本区域最后将备选框框添加至删除操作后的第二待处理二值图像，并将含有最大稳定极值区域的备选框作为文字区域；图像的文字区域由备选框确定，而备选框是由最大稳定极值区域构成，因最大稳定极值区域不受光照等环境因素影响，从而提高了图像文字区域的识别精度。

附图说明

图1为本发明实施例所涉及的电视机的硬件结构示意图；

图2为本发明图像文字区域的识别方法的第一实施例的流程示意图；

图3为图2中步骤S10的细化流程示意图；

图4为图2中步骤S20的细化流程示意图；

图5为图2中步骤S30的细化流程示意图；

图6为图2中步骤S40的细化流程示意图；

图7为本发明图像文字区域的识别方法的第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像；聚合各个所述最大稳定极值区域以获得多个备选框，并将所述第一待处理二值图像作为所述待识别图像的掩膜以获得第二待处理二值图像；删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域；将所述备选框添加至删除操作后的所述第二待处理二值图像，并将含有所述最大稳定极值区域的所述备选框作为文字区域。

由于现有技术中，自然场景下的文字区域检测由于受到光照，文字变形和尺度变换等问题的挑战，传统的文字检测算法无法正确检测到相应的文字区域，即现有技术中图像文字区域的识别精度低。

本发明提供一种解决方案，图像的文字区域由备选框确定，而备选框是由最大稳定极值区域构成，因最大稳定极值区域不受光照等环境因素影响，从而提高了图像文字区域的识别精度。

作为一种实现方案，上述电视机的硬件结构可以如图1所述。

参照图1，电视机可以包括：处理器1001，例如CPU，存储器1002，通信总线1003。其中，通信总线1003用于实现该电视机中各组成部件之间的连接通信。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。如图1所示，作为一种计算机存储介质的存储器1002中可以包括图像文字区域的识别程序。

在图1所示的电视机所涉及的硬件中处理器1001可以用于调用存储器1002中存储的图像文字区域的识别程序，并执行以下操作：

进一步的，在一个实施例中，处理器1001可以用于调用存储器1002中存储的图像文字区域的识别程序，并执行以下操作：

删除判定为非文本区域的所述最大稳定极值区域。

获取所述最大稳定极值区域对应的预设膨胀参数；

将交叠的各个所述待处理区域聚合，以获得所述备选框。

获取所述待识别图像的格式；

确定所述备选框在所述第一待处理二值图像的第一位置；

识别所述文字区域，以获得文字信息；

输出所述文字信息。

本实施例根据上述方案，电视机对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像，再聚合各个最大稳定极值区域以得到含有多个备选框，将第一待处理二值图像作为待识别图像的掩膜以获得第二待处理二值图像，然后删除第二待处理二值图像的最大稳定极值区域中的非文本区域最后将备选框框添加至删除操作后的第二待处理二值图像，并将含有最大稳定极值区域的备选框作为文字区域；图像的文字区域由备选框确定，而备选框是由最大稳定极值区域构成，因最大稳定极值区域不受光照等环境因素影响，从而提高了图像文字区域的识别精度。

基于上述硬件构架，提出本发明图像文字区域的识别方法的实施例。

参照图2，图2为本发明图像文字区域的识别方法的第一实施例，所视图像文字区域的识别方法包括以下步骤：

步骤S10，对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像；

在本发明中，执行主体可以为图像文字识别的确定装置，也可以是电视机，还可以是其它任意装载有图像文字识别的确定程序的设备，下面以电视机作为执行主体对本实施例进行描述。图像可以是预先存储于装置内，也可以是实时获取的环境图像，本发明对此不做限定。

电视机在采集到图像或者接收到图像信号时，会产生图像文字识别的指令，从而使得电视机的图像文字区域的识别程序运行；电视机会对图像进行二值化处理，从而得到含有多个最大稳定极值区域的第一待处理二值化图像，具体的，请参照图3，即步骤S10包括：

步骤S11，采用依次递增的灰度阈值二值化处理所述待识别图像，以获得含有多个最大稳定极值区域的第一待处理二值图像；

电视机在接收到图像文字识别指令时，会解析该文字识别指令，从而获取图像的标识，再根据标识获取对应的待识别图像。

为了提高文字识别区域的确定准确性，电视机采用最大稳定极值区域算法获得图像的多个最大稳定极值区域。该算法的基本原理是对一幅灰度图像取阈值进行二值化处理，阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升，随着水面的上升，有一些较矮的陆地会被淹没。在得到的所有二值图像中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。这些最大稳定区域将作为文字出现的备选区域。

最大稳定极值区域算法(MSER算法)可以用数学公式表示为：

其中，Q_i表示阈值为i时的某一连通区域，Δ为灰度阈值的微小变化量，q(i)为阈值是i时区域Q_i的变化率。当q(i)为局部极小值时，则Q_i为最大稳定极值区域。绝大多数情况下，MSER算法都能快速稳定的检测出全部或部分包含文字的区域。因此采用MSER作为文字的先验知识，该先验知识能很好的指导训练神经网络去学习用户真正关注的文字的特征，防止因字体的变化和变形带来的训练过拟合。

需要说明的是，灰度阈值不一定需要从0-255，可以采用任意递增的灰度阈值二值化处理待识别图像。

步骤S20，聚合各个所述最大稳定极值区域以获得多个备选框，并将所述第一待处理二值图像作为所述待识别图像的掩膜以获得第二待处理二值图像；

最大稳定极值区域可能时分散的文字或字母，而在识别过程时，只识别单个字母或者文字不能还原出图像中原本表述的意义，所以需要确定各个最大稳定极值区域之间的距离，从而将距离较近的相邻最大稳定极值区域聚合以最大程度还原文字的意思或者单词的意思，具体的，请参照图4，即步骤S20包括：

步骤S21，获取所述最大稳定极值区域对应的预设膨胀参数；

步骤S22，根据所述预设膨胀参数对各个所述最大稳定极值区域进行膨胀操作，以获得待处理区域；

步骤S23，将交叠的各个所述待处理区域聚合，以获得所述备选框；

电视机预先设置每一个最大稳定极值区域对应的膨胀系数，从而对每一个最大稳定极值区域进行膨胀操作，以扩大各个最大稳定极值区域，对于膨胀操作可采用下述数学公式：

其中，X_min，Y_min，X_max和Y_max分别为矩形框(最大稳定极值区域)左上角和右下角的点的坐标值，同理，和分别为扩展后的矩形框左上角和右下角的点的坐标值，W和H为检测图片的宽度和高度，为膨胀系数。

在扩展最大稳定极值区域后，聚合交叠的各个膨胀后的最大极值稳定区域(待处理区域)，从而获得备选框，即对第一待处理二值图像进行最大稳定极值区域的聚合，得到了含有多个备选框。进一步的，电视机将未交叠的待处理区域删除。

需要说明的是，可对最大稳定极值区域设置多个预设膨胀系数，从而获得多个待处理区域，再将待处理区域送入神经网络进行分类和回归，最后在进行连接，从而提高备选框的生成准确性。

在获取备选框后，将第一待处理二值图像作为待识别图像的掩膜，从而获得第二待处理二值图像。

步骤S30，删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域；

卷积神经网络可以判断待识别区域是否为非文本区域，具体的，请参照图5，即步骤S30包括：

步骤S31，采用卷积神经网络算法判断所述第二待处理二值图像的所述最大稳定极值区域是否为非文本区域；

步骤S32，删除判定为非文本区域的所述最大稳定极值区域；

卷积神经网络可以判断待识别区域是否为非文本区域，而卷积神经网络需要先验知识训练指导，训练的损失函数定义如下：

包括两部分的损失函数，分类的损失函数L_class(x,c)和定位的损失函数L_loc(x,l,g)。N是每一次训练的所有数据的个数，是调整连个损失函数权重的参数。

分类的损失函数定义如下：

其中，x_i∈{1,0}表示第i个矩形框(最大稳定极值区域)实际上是否属于文本区域，和分别表示我们的神经网络将矩形框分类为非文本和文本区域的概率。

定位的损失函数如下：

其中，S代表用SmoothL1方法求距离。l是预测的矩形框位置，g是真实的矩形框的位置。上面公式使用的x^*，y^*，w^*，h^*是矩形框中心点的坐标和宽高的相对位置偏移，是和原本从MSER中得到的备选矩形框l_mser相比较得到的：

其中x,y是矩形框的中心点位置，w,h是矩形框的宽和高。

步骤S40，将所述备选框添加至删除操作后的所述第二待处理二值图像，并将含有所述最大稳定极值区域的所述备选框作为文字区域；

可由第一待处理二值图像确定备选框在进行删除操作后的第二待处理二值图像的位置，具体的，请参照图6，即步骤S40包括：

步骤S41，确定所述备选框在所述第一待处理二值图像的第一位置；

步骤S42，根据所述第一位置确定所述备选框在删除操作后的所述第二待处理二值图像的第二位置；

步骤S43，根据所述第二位置将所述备选框添加至删除操作后的所述第二待处理二值图像；

备选框处于第一待处理二值图像，而第一待处理二值图像与进行删除操作后的第二待处理二值图像都是由待识别图像获得，即可以根据备选框在第一待处理二值图像的确定备选框在进行删除操作后的第二待处理二值的位置(第二位置)。

在获得备选框在进行删除操作后的第二待处理二值图像的位置后，电视机根据位置将备选框添加至进行删除操作后第二待处理二值图像，从而使得删除操作后的第二待处理二值图像含有多个备选框，备选框内若含有文本区域的最大稳定极值区域时，该备选框即为文字识别区域。

在确定各个文字区域后，对文字区域进行识别，从而获得文字信息，在输出文字信息。

需要说明的是，待识别图像应为RGB图像，所以电视机在对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像之前，需要确定待识别图像的格式，若格式不为RGB格式(预设格式)，则输出图像格式不正确的提示信息，若为RGB格式，则二值化处理待识别图像的步骤。

在本实施例提供的技术方案中，电视机对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像，再聚合各个最大稳定极值区域以得到含有多个备选框，将第一待处理二值图像作为待识别图像的掩膜以获得第二待处理二值图像，然后删除第二待处理二值图像的最大稳定极值区域中的非文本区域最后将备选框框添加至删除操作后的第二待处理二值图像，并将含有最大稳定极值区域的备选框作为文字区域；图像的文字区域由备选框确定，而备选框是由最大稳定极值区域构成，因最大稳定极值区域不受光照等环境因素影响，从而提高了图像文字区域的识别精度。

参照图7，图7为本发明图像文字区域的识别方法的第二实施例，基于上述实施例，所述步骤S10之后，还包括：

步骤S50，获取所述第一待处理二值图像中各个所述最大稳定极值区域的几何信息，并判断所述几何信息是否匹配预设几何信息；

步骤S60，将不匹配预设几何信息的所述几何信息对应的所述最大稳定极值删除，并执行所述聚合各个所述最大稳定极值区域以获得多个备选框的步骤；

最大稳定极值区域可能是文本区域，也可能是非文本区域，所以所要删除非文本区域对应的最大稳定极值区域，一般而言，基于文字的几何属性使用简单的阈值就可以用于过滤掉足够多的非文本区域，也可以使用更复杂的但效果更好的机器学习方法训练文本与非文本分类器。而这两种方法的组合使用通常能生成更好的结果。可采用简单的基于几何规则的方法来筛选非文本区域。有许多几何性质能比较好的区分文本和非文本区域，包含相应区域的最小矩形的宽高比，与区域具有相同标准二阶中心矩的椭圆的离心率，欧拉数，同时在区域和其最小边界矩形中的像素比例，同时在区域和其最小凸多边形中的像素比例。

可以理解的是，文本区域的几何信息与非文本区域的几何信息不同，电视机可以预先设置几何信息(预设几何信息)，然后获取最大稳定极值区域的几何信息，在将几何信息与预设几何信息进行比对，若几何信息与预设几何信息匹配，则该几何信息对应的最大稳定极值区域为文本区域；若几何信息与预设几何信息不匹配，该几何信息对应的最大稳定极值区域为非文本区域，需要进行删除。

本实施例提供的技术方案中，电视机获取各个最大稳定极值区域的几何信息，并将不匹配预设几何信息的几何信息对应的最大稳定极值区域删除，从而将非文本区域删除，进一步提高了文字识别区域的确定的准确性。

本发明还提供一种电视机，所述电视机包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的图像文字区域的识别程序，所述图像文字区域的识别程序被所述处理器执行时实现如上实施例所述的图像文字区域的识别方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储有图像文字区域的识别程序，所述图像文字区域的识别程序被处理器执行时实现如上实施例所述的图像文字区域的识别方法的步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像文字区域的识别方法，其特征在于，所述图像文字区域的识别方法包括以下步骤：

2.如权利要求1所述的图像文字区域的识别方法，其特征在于，所述删除所述第二待处理二值图像的所述最大稳定极值区域中的非文本区域的步骤包括：

删除判定为非文本区域的所述最大稳定极值区域。

3.如权利要求2所述的图像文字区域的识别方法，其特征在于，所述对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像的步骤之后，还包括：

删除不匹配的所述几何信息对应的所述最大稳定极值区域，并执行所述聚合各个所述最大稳定极值区域以获得多个备选框的步骤。

4.如权利要求3所述的图像文字区域的识别方法，其特征在于，所述对待识别图像进行处理得到含有多个最大稳定极值区域的第一待处理二值图像的步骤包括：

5.如权利要求4所述的图像文字区域的识别方法，其特征在于，所述聚合各个所述最大稳定极值区域以获得多个备选框的步骤包括：

获取所述最大稳定极值区域对应的预设膨胀参数；

将交叠的各个所述待处理区域聚合，以获得所述备选框。

6.如权利要求1-5任一项所述的图像文字区域的识别方法，其特征在于，所述图像文字区域的识别方法，还包括：

获取所述待识别图像的格式；

7.如权利要求1-5任一项所述的图像文字区域的识别方法，其特征在于，所述将所述备选框添加至删除操作后的所述第二待处理二值图像的步骤包括：

确定所述备选框在所述第一待处理二值图像的第一位置；

8.如权利要求1-5任一项所述的图像文字区域的识别方法，其特征在于，所述将含有所述最大稳定极值区域的所述备选框作为文字区域的步骤之后，还包括：

识别所述文字区域，以获得文字信息；

输出所述文字信息。

9.一种电视机，其特征在于，所述电视机包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的图像文字区域的识别程序，所述图像文字区域的识别程序被所述处理器执行时实现如权利要求1-8任一项所述的图像文字区域的识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有图像文字区域的识别程序，所述图像文字区域的识别程序被处理器执行时实现如权利要求1-8中任一项所述的图像文字区域的识别方法的步骤。