CN109409377A

CN109409377A - 图像中文字的检测方法及装置

Info

Publication number: CN109409377A
Application number: CN201811468245.1A
Authority: CN
Inventors: 聂镭; 王竹欣; 聂颖; 郑权; 张峰
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-03-01
Anticipated expiration: 2038-12-03
Also published as: CN109409377B

Abstract

本发明提供了一种图像中文字的检测方法及装置，该方法包括：从目标图像中提取目标颜色信息，其中，目标颜色信息用于指示目标图像中的背景颜色；将目标图像的像素点与目标颜色信息进行匹配，得到满足匹配条件的图像区域；对图像区域进行检测，得到目标文字区域。通过本发明，解决了相关技术中对图像中文字进行检测的效率较低的问题，进而达到了提高对图像中文字进行检测的效率的效果。

Description

图像中文字的检测方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像中文字的检测方法及装置。

背景技术

自然场景中蕴含着丰富的文字信息，例如，公共汽车站牌、广告牌、门牌号、商店名称、交通标识上面的文字、登机牌等，这些文字的识别对场景的识别有重要的意义，是描述和理解场景的关键线索，在人们日常生活中起着重要的作用。

利用OCR对文本的识别已经发展的比较成熟，而在自然场景下直接使用OCR进行文字的识别准确率比较低，这是因为自然场景下文本的背景更复杂，可能会包含与文字结构类似的背景；自然场景下的文字可能由于光照不均匀、拍摄角度不当等原因造成其文字模糊不清等现象。

现有的文本定位算法有基于连通成分的分割算法，此方法可以迅速定位文本，但是在文本嵌入到复杂的背景或是接触到了其他的文本或图像对象的时候，这种方法就会遇到困难。基于边缘的检测方法，此方法难以处理大尺寸文本和字体差别较大的文本。基于纹理的方法，此方法的主要缺点是比较费时。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像中文字的检测方法及装置，以至少解决相关技术中对图像中文字进行检测的效率较低的问题。

根据本发明的一个实施例，提供了一种图像中文字的检测方法，包括：从目标图像中提取目标颜色信息，其中，所述目标颜色信息用于指示所述目标图像中的背景颜色；将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域；对所述图像区域进行检测，得到目标文字区域。

可选地，从所述目标图像中提取所述目标颜色信息包括：获取所述目标图像中的像素点；对所述像素点进行聚类，得到多个像素点集合；从所述多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合；将所述目标像素点集合中所包括的像素点具有的颜色信息确定为所述目标颜色信息。

可选地，从所述多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合包括：从所述多个像素点集合中获取像素点集合中所包括的像素点的数量最多的N个像素点集合作为所述目标像素点集合，其中，N为大于或者等于2的自然数；将所述目标像素点集合中所包括的像素点具有的颜色信息确定为所述目标颜色信息包括：将所述N个像素点集合中每个像素点集合所包括的像素点具有的颜色信息分别确定为所述目标颜色信息，其中，所述目标颜色信息包括N个颜色信息。

可选地，将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域包括：将所述目标图像的像素点分别与所述N个颜色信息进行匹配，得到满足所述匹配条件的N个图像区域。

可选地，对所述图像区域进行检测，得到所述目标文字区域包括：对所述N个图像区域分别进行检测，得到所述N个图像区域对应的N个检测结果；根据所述检测结果从所述N个图像区域中确定所述目标文字区域。

可选地，将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域包括：检测所述目标图像的像素点中每个像素点与所述目标颜色信息的匹配度；将所述匹配度低于目标匹配度的像素点确定为目标像素点，将目标像素点组成的连通区域确定为候选的目标区域；从所述候选的目标区域中获取边缘像素点；将所述边缘像素点依次连接后所围绕的区域范围确定为所述图像区域。

可选地，对所述图像区域进行检测，得到所述目标文字区域包括：对所述图像区域进行边缘检测，得到边缘检测结果；对所述边缘检测结果进行角点检测，得到所述目标文字区域。

根据本发明的另一个实施例，提供了一种图像中文字的检测装置，包括：提取模块，用于从目标图像中提取目标颜色信息，其中，所述目标颜色信息用于指示所述目标图像中的背景颜色；匹配模块，用于将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域；检测模块，用于对所述图像区域进行检测，得到目标文字区域。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过从目标图像中提取目标颜色信息，其中，目标颜色信息用于指示目标图像中的背景颜色；将目标图像的像素点与目标颜色信息进行匹配，得到满足匹配条件的图像区域；对图像区域进行检测，得到目标文字区域的方式，从目标图像中提取出目标图像的背景颜色的信息，通过匹配背景颜色的信息，得到满足匹配条件的图像区域，该区域是将背景从目标图像中剔除掉的区域，从而能够快速有效的从图像中定位出可能的文字区域，再从可能的文字区域中识别文字，从而提高了文字识别是速度，进一步，也减小了背景颜色对文字检测的干扰，使得检测到的目标文字区域更加准确。因此，可以解决相关技术中对图像中文字进行检测的效率较低的问题，达到提高对图像中文字进行检测的效率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种图像中文字的检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的图像中文字的检测方法的流程图；

图3是根据本发明实施例的图像中文字的检测装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种图像中文字的检测方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像中文字的检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种图像中文字的检测方法，图2是根据本发明实施例的图像中文字的检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，从目标图像中提取目标颜色信息，其中，目标颜色信息用于指示目标图像中的背景颜色；

步骤S204，将目标图像的像素点与目标颜色信息进行匹配，得到满足匹配条件的图像区域；

步骤S206，对图像区域进行检测，得到目标文字区域。

可选地，在本实施例中，目标图像可以但不限于包括图片、视频图像等等。

可选地，在本实施例中，目标图像可以但不限于包括展示自然场景的图像。自然场景中蕴含着丰富的文字信息，例如，公共汽车站牌、广告牌、门牌号、商店名称、交通标识上面的文字、登机牌等。

可选地，在本实施例中，在上述步骤S202之前，还可以对自然场景的图像进行预处理，得到上述目标图像。例如：利用预置的去噪算法对输入的自然场景下的图片进行去噪，其中预置的去噪算法可以但不限于包括中值滤波算法、小波阈值去噪以及基于PDE的图像去噪算法等等。若自然场景下的图片较暗，可以利用拉普拉斯算子的方法对图片进行增强；若自然场景下的图片是在晚上拍的，可以利用对数变换的方式对图像进行增强。还可以将图片的大小按原比例压缩，得到大小合适的目标图像。

通过上述步骤，从目标图像中提取出目标图像的背景颜色的信息，通过匹配背景颜色的信息，得到满足匹配条件的图像区域，该区域是将背景从目标图像中剔除掉的区域，从而能够快速有效的从图像中定位出可能的文字区域，再从可能的文字区域中识别文字，从而提高了文字识别的速度，进一步，也减小了背景颜色对文字检测的干扰，使得检测到的目标文字区域更加准确。因此，可以解决相关技术中对图像中文字进行检测的效率较低的问题，达到提高对图像中文字进行检测的效率的效果。

可选地，在上述步骤S202中，可以获取目标图像中的像素点；对像素点进行聚类，得到多个像素点集合；从多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合；将目标像素点集合中所包括的像素点具有的颜色信息确定为目标颜色信息。像素点就是图片中带有颜色的点，其由红(R)、绿(G)、蓝(B)三个颜色通道的值的变化以及它们相互之间的叠加来得到，是图像中的一个最小单位。

例如：将图片分割为n*n个像素点，利用K-Means聚类算法对各像素点的颜色进行聚类，取聚类后的像素点最多的一个或者多个像素点的颜色，将取出的颜色具有的颜色信息确定为目标颜色信息。

可选地，可以从多个像素点集合中获取像素点集合中所包括的像素点的数量最多的N个像素点集合作为目标像素点集合，其中，N为大于或者等于2的自然数，并将N个像素点集合中每个像素点集合所包括的像素点具有的颜色信息分别确定为目标颜色信息，其中，目标颜色信息包括N个颜色信息。

比如：N为2，则可以取top2个颜色的像素点的颜色信息，该top2个颜色的像素点的颜色信息分别为指定颜色区域的颜色。

可选地，在上述步骤S204中，将目标图像的像素点分别与N个颜色信息进行匹配，得到满足匹配条件的N个图像区域。

例如：N为2的情况下，分别将上述两个指定颜色区域从左至右，从上至下，遍历目标图像上所有的行与列，若指定颜色区域的颜色与某一区域的颜色未匹配，则将不匹配的点标记，然后继续遍历，将所有的标记点中四个方向的最大值(分别为最上、最下、最左、最右的点)的点进行连接，进而将所有的标记点涵盖于此最小包围范围中，上述两个指定颜色遍历完将会生成两个连通区域T1、T2，将T1、T2作为候选的文字区域(相当于上述图像区域)。

可选地，在上述步骤S206中，对N个图像区域分别进行检测，得到N个图像区域对应的N个检测结果，再根据检测结果从N个图像区域中确定目标文字区域。

例如：对T1、T2进行边缘检测得到文字区域T111、T222，再对T111、T222进行角点检测，得到角点检测结果，再根据角点检测结果来确定T111、T222是否为文字区域，从而在图像中确定出目标文字区域。

可选地，在上述步骤S204中，检测目标图像的像素点中每个像素点与目标颜色信息的匹配度；将匹配度低于目标匹配度的像素点确定为目标像素点,将目标像素点组成的连通区域确定为候选的目标区域；从候选的目标区域中获取边缘像素点；将边缘像素点依次连接后所围绕的区域范围确定为图像区域。

可选地，在上述步骤S206中，对图像区域进行边缘检测，得到边缘检测结果；对边缘检测结果进行角点检测，得到目标文字区域。

例如：对图像区域T1、T2进行sober六个方向边缘检测，其主要流程如下：将T1、T2候选文字区域进行6*6窗口的中值滤波后组成的像素矩阵为T11、T22；由于自然场景下的图片中的文字方向不定，故选取45°,90°,135°,180°,225°,270°六个方向，查找与x,y轴不平行或垂直方向上的边缘；构造六个方向的6*6大小的卷积核S₁,S₂,...,S₆，其中卷积核中每个位置的权重由该位置到中心点的距离以及该位置在模板中所在的方向决定的。且等距离的点的权重一样。用S₁,S₂,...,S₆与T11、T22做卷积，分别得到T11、T22卷积后的6个方向上的像素点灰度值矩阵，将6个方向上的像素点灰度值矩阵对应位置的最大值作为像素点新的灰度值，进而可以得到两个候选的文字区域的像素灰度值；对于两个候选的文字区域，设定像素灰度值的阈值α＝0.8，若图像中新的灰度值大于所设阈值，则确定此点为边缘点，将边缘点连接，可进一步得到候选的文字区域T111、T222。对得到的候选文字区域T111、T222进行Harris角点检测，进而得到自然场景中图片中文字的区域。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种图像中文字的检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的图像中文字的检测装置的结构框图，如图3所示，该装置包括：

提取模块32，用于从目标图像中提取目标颜色信息，其中，目标颜色信息用于指示目标图像中的背景颜色；

匹配模块34，用于将目标图像的像素点与目标颜色信息进行匹配，得到满足匹配条件的图像区域；

检测模块36，用于对图像区域进行检测，得到目标文字区域。

通过上述装置，从目标图像中提取出目标图像的背景颜色的信息，通过匹配背景颜色的信息，得到满足匹配条件的图像区域，该区域是将背景从目标图像中剔除掉的区域，从而能够快速有效的从图像中定位出可能的文字区域，再从可能的文字区域中识别文字，从而提高了文字识别是速度，进一步，也减小了背景颜色对文字检测的干扰，使得检测到的目标文字区域更加准确。因此，可以解决相关技术中对图像中文字进行检测的效率较低的问题，达到提高对图像中文字进行检测的效率的效果。

可选地，提取模块包括：第一获取单元，用于获取目标图像中的像素点；聚类单元，用于对像素点进行聚类，得到多个像素点集合；第二获取单元，用于从多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合；第一确定单元，用于将目标像素点集合中所包括的像素点具有的颜色信息确定为目标颜色信息。

可选地，第二获取单元用于：从多个像素点集合中获取像素点集合中所包括的像素点的数量最多的N个像素点集合作为目标像素点集合，其中，N为大于或者等于2的自然数；确定单元用于：将N个像素点集合中每个像素点集合所包括的像素点具有的颜色信息分别确定为目标颜色信息，其中，目标颜色信息包括N个颜色信息。

可选地，匹配模块用于：将目标图像的像素点分别与N个颜色信息进行匹配，得到满足匹配条件的N个图像区域。

可选地，检测模块用于：对N个图像区域分别进行检测，得到N个图像区域对应的N个检测结果；根据检测结果从N个图像区域中确定目标文字区域。

可选地，匹配模块包括：第一检测单元，用于检测目标图像的像素点中每个像素点与目标颜色信息的匹配度；第二确定单元，用于将匹配度低于目标匹配度的像素点确定为目标像素点,将目标像素点组成的连通区域确定为候选的目标区域；第三获取单元，用于从候选的目标区域中获取边缘像素点；第三确定单元，用于将边缘像素点依次连接后所围绕的区域范围确定为图像区域。

可选地，检测模块包括：第二检测单元，用于对图像区域进行边缘检测，得到边缘检测结果；第三检测单元，用于对边缘检测结果进行角点检测，得到目标文字区域。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从目标图像中提取目标颜色信息，其中，目标颜色信息用于指示目标图像中的背景颜色；

S2，将目标图像的像素点与目标颜色信息进行匹配，得到满足匹配条件的图像区域；

S3，对图像区域进行检测，得到目标文字区域。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S3，对图像区域进行检测，得到目标文字区域。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像中文字的检测方法，其特征在于，包括：

从目标图像中提取目标颜色信息，其中，所述目标颜色信息用于指示所述目标图像中的背景颜色；

将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域；

对所述图像区域进行检测，得到目标文字区域。

2.根据权利要求1所述的方法，其特征在于，从所述目标图像中提取所述目标颜色信息包括：

获取所述目标图像中的像素点；

对所述像素点进行聚类，得到多个像素点集合；

从所述多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合；

将所述目标像素点集合中所包括的像素点具有的颜色信息确定为所述目标颜色信息。

3.根据权利要求2所述的方法，其特征在于，

从所述多个像素点集合中获取像素点集合中所包括的像素点的数量满足目标条件的目标像素点集合包括：从所述多个像素点集合中获取像素点集合中所包括的像素点的数量最多的N个像素点集合作为所述目标像素点集合，其中，N为大于或者等于2的自然数；

将所述目标像素点集合中所包括的像素点具有的颜色信息确定为所述目标颜色信息包括：将所述N个像素点集合中每个像素点集合所包括的像素点具有的颜色信息分别确定为所述目标颜色信息，其中，所述目标颜色信息包括N个颜色信息。

4.根据权利要求3所述的方法，其特征在于，将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域包括：

将所述目标图像的像素点分别与所述N个颜色信息进行匹配，得到满足所述匹配条件的N个图像区域。

5.根据权利要求4所述的方法，其特征在于，对所述图像区域进行检测，得到所述目标文字区域包括：

对所述N个图像区域分别进行检测，得到所述N个图像区域对应的N个检测结果；

根据所述检测结果从所述N个图像区域中确定所述目标文字区域。

6.根据权利要求1所述的方法，其特征在于，将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域包括：

检测所述目标图像的像素点中每个像素点与所述目标颜色信息的匹配度；

将所述匹配度低于目标匹配度的像素点确定为目标像素点,将目标像素点组成的连通区域确定为候选的目标区域；

从所述候选的目标区域中获取边缘像素点；

将所述边缘像素点依次连接后所围绕的区域范围确定为所述图像区域。

7.根据权利要求1所述的方法，其特征在于，对所述图像区域进行检测，得到所述目标文字区域包括：

对所述图像区域进行边缘检测，得到边缘检测结果；

对所述边缘检测结果进行角点检测，得到所述目标文字区域。

8.一种图像中文字的检测装置，其特征在于，包括：

提取模块，用于从目标图像中提取目标颜色信息，其中，所述目标颜色信息用于指示所述目标图像中的背景颜色；

匹配模块，用于将所述目标图像的像素点与所述目标颜色信息进行匹配，得到满足匹配条件的图像区域；

检测模块，用于对所述图像区域进行检测，得到目标文字区域。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。