CN111986155A

CN111986155A - 一种通用场景文字识别方法及装置

Info

Publication number: CN111986155A
Application number: CN202010700929.0A
Authority: CN
Inventors: 罗健锋; 李仕军; 郑伟雄
Original assignee: Guangzhou Runpu Network Technology Co ltd
Current assignee: Guangzhou Runpu Network Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-24

Abstract

本发明揭示了一种通用场景文字识别方法及装置。所述方法包括：获取目标自然图像的图像质量信息；根据图像质量信息判断该目标自然图像是否为可识别图像；如果是，获取该目标自然图像的识别等级；依据其识别等级选择相匹配的文本检测策略，并利用该文本检测策略对目标自然图像进行检测，得到该目标自然图像包含的一块或多块候选文本区域；利用预先训练得到的文字识别模型对该候选文本区域进行识别，识别出每个候选文本区域的文字内容。此方法下，能够对自然场景图像进行质量的甄别和优化处理，保证文字识别的准确性和可靠性。

Description

一种通用场景文字识别方法及装置

技术领域

本发明涉及图像识别技术领域，特别涉及一种通用场景文字识别方法及装置。

背景技术

自然场景中包含着丰富的文字信息，如商店招牌、道路指示牌以及各种警告提示牌等，如果人们能够将这些文字提取出来，并做进一步处理后将会为图像语义的理解提供非常有利的依据和丰富的信息。

文字提取处理的前提是自然场景图像的获取。目前，大多数自然场景图像都是由人手持手机、平板等电子设备拍摄得到的。人为拍摄容易在拍摄过程中发生抖动，导致拍摄的图像模糊；如果连续拍摄还会受到拍摄环境变化的影响，图像的成像质量参差不齐，进而导致自然场景图像的识别效果不佳。

由此可见，如果不能在对自然场景图像进行文字提取处理之前对该图像进行质量的甄别和优化处理，自然场景图像的文字识别的准确率和可靠性将无法得到保证。

发明内容

为了解决相关技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题，本发明提供了一种通用场景文字识别方法及装置。

本发明实施例第一方面公开了一种通用场景文字识别方法，所述方法包括：

获取目标自然图像的图像质量信息；

根据所述图像质量信息判断所述目标自然图像是否为可识别图像；

如果是，获取所述目标自然图像的识别等级；

依据所述目标自然图像的识别等级选择相匹配的文本检测策略，并利用所述文本检测策略对所述目标自然图像进行检测，得到所述目标自然图像包含的一块或多块候选文本区域；

利用预先训练得到的文字识别模型对所述候选文本区域进行识别，识别出每个所述候选文本区域的文字内容。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取目标自然图像的图像质量信息之前，所述方法还包括：

采集同一场景下的若干张连续的自然图像；

对所述若干张自然图像进行多帧融合，得到目标自然图像。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取目标自然图像的图像质量信息，包括：

获取所述目标自然图像的图像质量评价指标；

基于所述图像质量评价指标确定所述目标自然图像的图像质量信息；其中，所述图像质量评价指标至少包括对比度、饱和度和阴影面积。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述图像质量信息判断所述目标自然图像是否为可识别图像，包括：

当所述对比度位于预设的第一区间、所述饱和度位于预设的第二区间和所述阴影面积小于预设的第三阈值中的至少一项满足时，确定所述目标自然图像为可识别图像。

本发明实施例第二方面公开了一种通用场景文字识别装置，包括：

第一获取模块，用于获取目标自然图像的图像质量信息；

判断模块，用于根据所述图像质量信息判断所述目标自然图像是否为可识别图像；

第二获取模块，用于在所述判断模块的判断结果为是时，获取所述目标自然图像的识别等级；

选择模块，用于依据所述目标自然图像的识别等级选择相匹配的文本检测策略；

检测模块，用于利用所述文本检测策略对所述目标自然图像进行检测，得到所述目标自然图像包含的一块或多块候选文本区域；

识别模块，用于利用预先训练得到的文字识别模型对所述候选文本区域进行识别，识别出每个所述候选文本区域的文字内容。

作为一种可选的实施方式，在本发明实施例第二方面中，采集模块，用于在所述第一获取模块获取目标自然图像的图像质量信息之前，采集同一场景下的若干张连续的自然图像；

融合模块，用于对所述若干张自然图像进行多帧融合，得到目标自然图像。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第一获取模块，包括：

获取子模块，用于获取所述目标自然图像的图像质量评价指标；

确定子模块，用于基于所述图像质量评价指标确定所述目标自然图像的图像质量信息；其中，所述图像质量评价指标至少包括对比度、饱和度和阴影面积。

作为一种可选的实施方式，在本发明实施例第二方面中，所述判断模块具体用于当所述对比度位于预设的第一区间、所述饱和度位于预设的第二区间和所述阴影面积小于预设的第三阈值中的至少一项满足时，确定所述目标自然图像为可识别图像。

本发明实施例第三方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种通用场景文字识别方法。

本发明实施例第四方面公开一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明所提供的通用场景文字识别方法包括如下步骤，获取目标自然图像的图像质量信息；根据图像质量信息判断该目标自然图像是否为可识别图像；如果是，获取该目标自然图像的识别等级；依据其识别等级选择相匹配的文本检测策略，并利用该文本检测策略对目标自然图像进行检测，得到该目标自然图像包含的一块或多块候选文本区域；利用预先训练得到的文字识别模型对该候选文本区域进行识别，识别出每个候选文本区域的文字内容。

此方法下，能够利用图像质量信息判断该目标自然图像是否可以识别，实现了在图像文字识别初级阶段对图像质量的初步甄别和筛选，并在判断出该图像可以识别之后选择与其识别等级相匹配的文本检测策略，利用该文本检测策略检测得到目标自然图像的候选文本区域，使得文本检测的方式更符合该图像的实际情况，进一步利用文本识别模型识别出候选文本区域的文字内容，使得文字识别的效果得到有效保障，解决了现有技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种通用场景文字识别方法的流程图；

图2是根据一示例性实施例示出的另一种通用场景文字识别方法的流程图；

图3是根据一示例性实施例示出的一种通用场景文字识别装置的框图；

图4是根据一示例性实施例示出的另一种通用场景文字识别装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种通用场景文字识别方法的流程图。如图1所示，此方法包括以下步骤。

步骤101，文字识别装置获取目标自然图像的图像质量信息。

作为一种可选的实施方式，文字识别装置获取目标自然图像的图像质量信息，可以包括：

获取目标自然图像的图像质量评价指标；基于该图像质量评价指标确定目标自然图像的图像质量信息；其中，该图像质量评价指标至少可以包括对比度、饱和度和阴影面积。

本发明实施例中，可选的，在基于该图像质量评价指标确定目标自然图像的图像质量信息之前，可以获取每个图像质量评价指标的指标值和每个图像质量评价指标对应的预设权重值；分别计算每个指标值及其对应的预设权重值的乘积，得到各个图像评价指标的乘积结果，并对所有的图像评价指标的乘积结果进行求和，得到求和结果；根据求和结果确定目标自然图像的图像质量信息。其中，上述图像质量评价指标除了可以包括对比度、饱和度、阴影面积以外，还可以包括曝光度、倾斜角度等等，本发明实施例不做限定。此外，上述指标值可以是各图像质量评价指标的数值经过归一化处理之后得到的。

作为另一种可选的实施方式，文字识别装置获取目标自然图像的图像质量信息，可以包括：

获取目标自然图像的各项图像质量评价指标；将各项图像质量评价指标输入到预设的图像质量计算模型，得到图像质量分析结果；根据该图像质量分析结果确定该目标自然图像的图像质量信息；其中，该图像质量评价指标至少可以包括对比度、饱和度和阴影面积。

本发明实施例中，可选的，可以在上述的获取目标自然图像的各项图像质量评价指标之前，建立并训练得到图像质量计算模型。具体地，其训练过程可以包括：

获取预设数量的待测图像作为训练样本；分别获取待测图像的上述各项图像质量评价指标，且预先设定每一个待测图像的图像质量分析结果；根据上述待测图像的质量评价指标以及每个待测图像的图像质量分析结果进行训练,学习出以图像质量评价指标为输入、图像质量分析结果为输出的SVM拟合模型（(Support Vector Machine，支持向量机),并将该SVM拟合模型作为预设的图像质量计算模型。

步骤102，文字识别装置根据图像质量信息判断目标自然图像是否为可识别图像；如果是，触发执行步骤103；如果否，结束本流程。

作为一种可选的实施方式，文字识别装置根据图像质量信息判断目标自然图像是否为可识别图像，可以包括：

当上述对比度位于预设的第一区间、上述饱和度位于预设的第二区间和上述阴影面积小于预设的第三阈值中的至少一项满足时，确定该目标自然图像为可识别图像。

本发明实施例中，上述图像质量评价指标还可以包括曝光度、倾斜角度等等，本发明实施例不做限定。进一步可选的,文字识别装置根据图像质量信息判断目标自然图像是否为可识别图像,具体可以包括:

当上述对比度位于预设的第一区间、上述饱和度位于预设的第二区间、上述阴影面积小于预设的第三阈值、上述曝光度位于预设的第四区间、上述倾斜角度小于预设的第五角度阈值中的至少两项满足时，确定该目标自然图像为可识别图像。

步骤103，文字识别装置获取该目标自然图像的识别等级。

本发明实施例中，可选的，文字识别装置可以根据上述图像质量信息确定并获取目标自然图像的识别等级。具体地,识别等级可以分为高、中、低三级，如果该图像质量信息对应的数值位于第六区间范围内,则该目标自然图像的识别等级为高级;如果该图像质量信息对应的数值位于第七区间范围内,则该目标自然图像的识别等级为中级;如果该图像质量信息对应的数值位于第八区间范围内,则该目标自然图像的识别等级为低级。其中,图像的识别等级较高，说明该图像的清晰度、可识别度较高，因而其识别难度较低，即图像识别等级与其识别难度成反比：识别等级越高，识别难度越低，反之，识别等级越低，识别难度越高；此外，由上述发明实施例可知,图像质量信息对应的数值可以是所有图像评价指标的指标值与其对应权重值的乘积之和。

步骤104，文字识别装置依据目标自然图像的识别等级选择相匹配的文本检测策略，并利用文本检测策略对目标自然图像进行检测，得到目标自然图像包含的一块或多块候选文本区域。

本发明实施例中，可以预先绑定有每个识别等级对应的文本检测策略;其中,该文本检测策略用于定位图像中的候选文本区域。

步骤105，文字识别装置利用预先训练得到的文字识别模型对候选文本区域进行识别，识别出每个候选文本区域的文字内容。

可见，实施图1所描述的通用场景文字识别方法，能够利用图像质量信息判断该目标自然图像是否可以识别，实现了在图像文字识别初级阶段对图像质量的初步甄别和筛选，并在判断出该图像可以识别之后选择与其识别等级相匹配的文本检测策略，利用该文本检测策略检测得到目标自然图像的候选文本区域，使得文本检测的方式更符合该图像的实际情况，进一步利用文本识别模型识别出候选文本区域的文字内容，使得文字识别的效果得到有效保障，解决了现有技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题。

请参考图2，图2是本发明实施例公开的另一种通用场景文字识别方法的流程示意图。其中，如图2所示，该通用场景文字识别方法可以包括以下步骤：

本发明实施例中，该通用场景文字识别方法包括步骤203~207，针对步骤203~207的描述，请参照实施例一中针对步骤101~105的详细描述，本发明实施例不再赘述。

步骤201，文字识别装置采集同一场景下的若干张连续的自然图像。

步骤202，文字识别装置对若干张自然图像进行多帧融合，得到目标自然图像。

本发明实施例中,通过对同一场景下的若干张连续的自然图像进行多帧融合,能够最大限度的提取各自然图像中的有利信息,最终综合成高质量的图像,以提高图像信息的利用率、提升原始图像的空间分辨率和光谱分辨率,便于提高后续的文字识别的准确率。

可见，实施图2所描述的通用场景文字识别方法，能够利用图像质量信息判断该目标自然图像是否可以识别，实现了在图像文字识别初级阶段对图像质量的初步甄别和筛选，并在判断出该图像可以识别之后选择与其识别等级相匹配的文本检测策略，利用该文本检测策略检测得到目标自然图像的候选文本区域，使得文本检测的方式更符合该图像的实际情况，进一步利用文本识别模型识别出候选文本区域的文字内容，使得文字识别的效果得到有效保障，解决了现有技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题。

图3是根据一示例性实施例示出的一种通用场景文字识别装置的框图。如图3所示，该装置包括：

第一获取模块301，用于获取目标自然图像的图像质量信息，并将其提供给判断模块302。

判断模块302，用于根据图像质量信息判断目标自然图像是否为可识别图像。

第二获取模块303，用于在上述判断模块的判断结果为是时，获取目标自然图像的识别等级，并将其提供给选择模块304。

选择模块304，用于依据目标自然图像的识别等级选择相匹配的文本检测策略，并将其提供给检测模块305。

检测模块305，用于利用文本检测策略对目标自然图像进行检测，得到目标自然图像包含的一块或多块候选文本区域，并将其提供给识别模块306。

识别模块306，用于利用预先训练得到的文字识别模型对候选文本区域进行识别，识别出每个候选文本区域的文字内容。

可见，实施图3所描述的通用场景文字识别装置，能够利用图像质量信息判断该目标自然图像是否可以识别，实现了在图像文字识别初级阶段对图像质量的初步甄别和筛选，并在判断出该图像可以识别之后选择与其识别等级相匹配的文本检测策略，利用该文本检测策略检测得到目标自然图像的候选文本区域，使得文本检测的方式更符合该图像的实际情况，进一步利用文本识别模型识别出候选文本区域的文字内容，使得文字识别的效果得到有效保障，解决了现有技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题。

图4是根据一示例性实施例示出的另一种通用场景文字识别装置的框图。其中，图4所示的装置是由图3所示的专职进一步进行优化得到的。与图3所示的通用场景文字识别装置相比较，图4所示的装置还可以包括：

采集模块307，用于在上述第一获取模块301获取目标自然图像的图像质量信息之前，采集同一场景下的若干张连续的自然图像，并将该自然图像提供给融合模块308。

融合模块308，用于对上述若干张自然图像进行多帧融合，得到目标自然图像。

本发明实施例中，上述融合模块308多帧融合得到目标自然图像之后将其提供给上述第一获取模块301。

作为一种可选的实施方式，在上述图4所示的装置中，上述第一获取模块301，包括：

获取子模块3011，用于获取目标自然图像的图像质量评价指标，并将其提供给确定子模块3012。

确定子模块3012，用于基于上述图像质量评价指标确定目标自然图像的图像质量信息；其中，该图像质量评价指标至少可以包括对比度、饱和度和阴影面积。

进一步可选的，上述判断模块302具体用于当上述对比度位于预设的第一区间、饱和度位于预设的第二区间和阴影面积小于预设的第三阈值中的至少一项满足时，确定该目标自然图像为可识别图像。

可见，实施图4所描述的通用场景文字识别装置，能够利用图像质量信息判断该目标自然图像是否可以识别，实现了在图像文字识别初级阶段对图像质量的初步甄别和筛选，并在判断出该图像可以识别之后选择与其识别等级相匹配的文本检测策略，利用该文本检测策略检测得到目标自然图像的候选文本区域，使得文本检测的方式更符合该图像的实际情况，进一步利用文本识别模型识别出候选文本区域的文字内容，使得文字识别的效果得到有效保障，解决了现有技术中存在的无法对自然场景图像进行质量的甄别和优化处理、保证文字识别的准确性和可靠性的技术问题。

本发明还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的通用场景文字识别方法。

在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的通用场景文字识别方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种通用场景文字识别方法，其特征在于，所述方法包括：

获取目标自然图像的图像质量信息；

如果是，获取所述目标自然图像的识别等级；

2.根据权利要求1所述的方法，其特征在于，所述获取目标自然图像的图像质量信息之前，所述方法还包括：

采集同一场景下的若干张连续的自然图像；

对所述若干张自然图像进行多帧融合，得到目标自然图像。

3.根据权利要求1或2所述的方法，其特征在于，所述获取目标自然图像的图像质量信息，包括：

获取所述目标自然图像的图像质量评价指标；

4.根据权利要求3所述的方法，其特征在于，根据所述图像质量信息判断所述目标自然图像是否为可识别图像，包括：

5.一种通用场景文字识别装置，其特征在于，包括：

第一获取模块，用于获取目标自然图像的图像质量信息；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

采集模块，用于在所述第一获取模块获取目标自然图像的图像质量信息之前，采集同一场景下的若干张连续的自然图像；

7.根据权利要求5或6所述的装置，其特征在于，所述第一获取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述判断模块具体用于当所述对比度位于预设的第一区间、所述饱和度位于预设的第二区间和所述阴影面积小于预设的第三阈值中的至少一项满足时，确定所述目标自然图像为可识别图像。