CN113129298B

CN113129298B - 文本图像的清晰度识别方法

Info

Publication number: CN113129298B
Application number: CN202110491955.1A
Authority: CN
Inventors: 唐天浩; 刘川贺; 汪明浩
Original assignee: Beijing Seektruth Data Technology Service Co ltd
Current assignee: Beijing Seektruth Data Technology Service Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2024-01-12
Anticipated expiration: 2041-05-06
Also published as: CN113129298A

Abstract

本申请实施例提供了一种文本图像的清晰度识别方法，涉及图像识别技术领域，该方法包括将获取的文本图像进行归一化处理，得到归一化图像；以归一化图像中各像素点的像素值所构成的向量矩阵，作为预先训练的文字检测模型的输入进行运算，得到文字置信度特征图，文字置信度特征图中像素点的灰度值代表其所在区域为文字的置信度；对文字置信度特征图进行二值化处理，得到二值化图像；提取出二值化图像中的文字区域；计算文本图像中与文字区域对应的目标区域的纹理变化值；基于纹理变化值和/或文字区域的数量确定出文本图像的清晰度。本申请实施例提供的文本图像的清晰度识别方法可提高文本图像的清晰度识别效率。

Description

文本图像的清晰度识别方法

技术领域

本申请涉及图像识别技术领域，尤其涉及一种文本图像的清晰度识别方法。

背景技术

在对文本图像进行识别过程中，常常需要对文本图像的清晰度进行识别。

目前，对于文本图像的清晰度识别，常用的方案是首先对全部文字进行检测定位，随后进行文字识别，最后对于已知特点字段的识别结果进行判定。然而，采用这样的方式，不仅对测试问题提出了多种要求，同时文字检测识别模型的运算对资源也提出了很高要求，导致识别的效率较低。

因此，如何提供一种有效的方案以提高文本图像的清晰度识别效率，已成为现有技术中一亟待解决的问题。

发明内容

本申请实施例提供一种文本图像的清晰度识别方法，用以解决现有技术存在的文本图像的清晰度识别效率较低的问题。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供了一种文本图像的清晰度识别方法，包括：

将获取的文本图像进行归一化处理，得到归一化图像；

将依据所述归一化图像中各像素点的像素值所构建的向量矩阵，作为预先训练的文字检测模型的输入进行运算，得到与所述归一化图像对应的文字置信度特征图，其中，所述文字置信度特征图中各像素点的灰度值，表征所述归一化图像中与所述各像素点对应的像素点位于文本区域的置信度；

对所述文字置信度特征图进行二值化处理，得到二值化图像；

提取出所述二值化图像中灰度值为1的第一目标区域；

计算所述文本图像中与所述第一目标区域对应的第二目标区域的纹理变化值；

基于所述纹理变化值和所述第一目标区域的数量确定出所述文本图像的清晰度，或基于所述纹理变化值确定出所述文本图像的清晰度。

在一个可能的设计中，所述提取出所述二值化图像中灰度值为1的第一目标区域，包括：

通过连通域分析算法提取出所述二值化图像中的灰度值为1的至少一个备选区域；

将所述至少一个备选区域中宽度大于预设宽度、高度大于预设高度且宽高比例处于预设比例范围内的区域作为所述第一目标区域。

在一个可能的设计中，所述计算所述文本图像中与所述第一目标区域对应的第二目标区域的纹理变化值，包括：

计算所述第二目标区域中各像素点的图像纹理值；

基于所述第二目标区域中各像素点的图像纹理值，确定出所述第二目标区域中相邻像素点之间的纹理变化值；

将所有纹理变化值中数值大小处于预设排名的纹理变化值作为所述第二目标区域的纹理变化值。

在一个可能的设计中，所述方法还包括：

对所述第二目标区域进行模糊处理；

所述计算所述第二目标区域中各像素点的图像纹理值，包括：

计算模糊处理后的所述第二目标区域中各像素点的图像纹理值。

在一个可能的设计中，所述对所述第二目标区域进行模糊处理，包括：

通过高斯模糊算法或插值模糊算法对所述第二目标区域进行模糊处理。

在一个可能的设计中，计算所述第二目标区域中各像素点的图像纹理值所采用的算子为拉普拉斯算子或Canny算子。

在一个可能的设计中，将获取的文本图像进行归一化处理，包括：

将所述文本图像的图像通道顺序转换为指定顺序；

将图像通道顺序转换为指定顺序后的所述文本图像进行归一化处理。

在一个可能的设计中，在将获取的文本图像进行归一化处理之前，所述方法还包括：

将所述文本图像缩放至指定尺寸。

本申请实施例采用的上述技术方案能够达到以下有益效果：

通过将归一化处理后的文本图像中各像素点的像素值所构成的向量矩阵，作为文字检测模型的输入进行运算得到文字置信度特征图，并对文字置信度特征图进行二值化处理后提取出其中的文字区域，然后计算文本图像中与文字区域对应的目标区域的纹理变化值，并根据纹理变化值和第一目标区域的数量或者根据纹理变化值确定出文本图像的清晰度。如此，可降低文本图像的清晰度识别对资源的要求，提高文本图像的清晰度识别效率。

附图说明

此处所说明的附图用来提供对本文件的进一步理解，构成本文件的一部分，本文件的示意性实施例及其说明用于解释本文件，并不构成对本文件的不当限定。在附图中：

图1为本申请一个实施例提供的文本图像的清晰度识别方法的流程示意图。

图2为本申请一个实施例提供的电子设备的结构示意图。

图3为本申请一个实施例提供的文本图像的清晰度识别方法装置的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚，下面将结合本文件具体实施例及相应的附图对本文件技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本文件一部分实施例，而不是全部的实施例。基于本文件中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

为了实现对文本图像的清晰度快速识别，本申请实施例提供了一种文本图像的清晰度识别方法，该文本图像的清晰度识别方法能够提高文本图像的清晰度识别效率。

下面将对本申请实施例提供的文本图像的清晰度识别方法进行详细说明。

本申请实施例提供的文本图像的清晰度识别方法可应用于用户终端，所述用户终端可以是，但不限于个人电脑、智能手机、平板电脑、膝上型便携计算机、个人数字助理等。

可以理解，所述执行主体并不构成对本申请实施例的限定。

可选地，该文本图像的清晰度识别方法的流程如图1所示，可以包括如下步骤：

步骤S101，将获取的文本图像进行归一化处理，得到归一化图像。

其中，所述文本图像可以是通过摄像机拍摄到的，也可以是从视频流中提取的一帧或多帧图像。文本图像的格式可以是，但不限于RGB、HSV格式等。本申请实施例中，文本图像的格式为RGB。

本申请实施例中，在将文本图像进行归一化处理之前，还可以将文本图像的图像通道顺序转换为指定顺序，该指定顺序与后续过程中的文字检测模型在训练时作为输入的图像的通道顺序相同，以确保文本图像清晰度识别的准确性，例如可以将文本图像的图像通道顺序转换为RGB、GRB或BGR等。

进一步的，在将获取的文本图像进行归一化处理之前，还可以将文本图像缩放至指定尺寸，该指定尺寸不宜过大，以避免运算量过大而导致清晰度识别的效率降低。

步骤S102，将依据归一化图像中各像素点的像素值所构建的向量矩阵，作为预先训练的文字检测模型的输入进行运算，得到与归一化图像对应的文字置信度特征图。

其中，文字置信度特征图中各像素点的灰度值，表征归一化图像中与所述各像素点对应的像素点位于文本区域的置信度。

具体的，归一化图像的尺寸可以与文字置信度特征图的尺寸相同，可以是文字置信度特征图的尺寸的正整数倍(即归一化图像宽度是文字置信度特征图宽度的正整数倍和/或归一化图像高度是文字置信度特征图高度的正整数倍)。例如，归一化图像为800*600像素大小的图像，文字置信度特征图可以是800*600像素大小的图像，也可以是400*300像素大小的图像。

文字置信度特征图中的每个像素点与归一化图像中的一个或多个像素点对应。当文字置信度特征图的尺寸与归一化图像相同时，文字置信度特征图中的像素点与归一化图像中的像素点一一对应，当归一化图像的尺寸是文字置信度特征图的正整数倍时，文字置信度特征图中的每个像素点对应归一化图像中的多个像素点。

例如，当归一化图像和文字置信度特征图均为800*600像素大小的图像时，文字置信度特征图中像素坐标为(1,1)的像素点与归一化图像中的像素坐标为(1,1)的像素点对应，文字置信度特征图中像素坐标为(1,1)的像素点的灰度值表征归一化图像中像素坐标为(1,1)的像素点位于文本区域的置信度。又例如，当归一化图像为800*600像素大小的图像，而文字置信度特征图为400*300像素大小的图像时，则文字置信度特征图中像素坐标为(1,1)的像素点与归一化图像中的像素坐标为(1,1)、(1,2)、(2,1)以及(2,2)的像素点对应，文字置信度特征图中像素坐标为(1,1)的像素点的灰度值表征归一化图像中像素坐标为(1,1)、(1,2)、(2,1)以及(2,2)的像素点位于文本区域的置信度。

本申请实施例中，文字检测模型用于确定出与归一化图像对应的文字置信度特征图，其可以是，但不限于基于连接预选框网络的文本检测(Detecting Text in NaturalImage with Connectionist Text Proposal Network，CTPN)模型、字符级文本检测(Character Region Awareness for Text Detection，CRAFT)模型等。

步骤S103，对文字置信度特征图进行二值化处理，得到二值化图像。

具体的，可将文字置信度特征图中灰度值高于预设阈值的像素点的灰度值设置为1，低于预设阈值的像素点的灰度值设置为0。该预设阈值可根据实际情况调整，例如当图像中像素点位于文本区域的置信度为70％就认为该像素点位于文本区域，则可以将该预设阈值设置为0.7。

步骤S104，提取出二值化图像中灰度值为1的第一目标区域。

具体的，提取出二值化图像中灰度值为1的第一目标区域可以包括如下步骤：

步骤S1041，通过连通域分析算法提取出二值化图像中的灰度值为1的至少一个备选区域。

首先，可通过连通域分析算法提取出二值化图像中的灰度值为1的所有区域，得到至少一个备选区域。

步骤S1042，将至少一个备选区域中宽度大于预设宽度、高度大于预设高度且宽高比例处于预设比例范围内的区域作为所述第一目标区域。

文本图像中的文字具有固定的宽度和高度，且文本区域的宽高比例一般满足一定的比例范围，因此在提取出二值化图像中的至少一个备选区域后，还将该至少一个备选区域中高度大于预设高度、宽度大于预设宽度且宽高比例处于预设比例范围内的区域作为第一目标区域。

其中，该预设宽度、预设高度以及预设比例可根据正常字体的宽度和高度确定。

步骤S105，计算文本图像中与第一目标区域对应的第二目标区域的纹理变化值。

其中，纹理变化值是指相邻像素点之间的纹理值的差值。

具体的，计算文本图像中与第一目标区域对应的第二目标区域的纹理变化值，可以包括如下步骤：

步骤S1051，计算第二目标区域中各像素点的图像纹理值。

本申请实施例中，在计算第二目标区域中各像素点的图像纹理值之前，还可以先对第二目标区域进行模糊处理，然后再计算模糊处理后的第二目标区域中各像素点的图像纹理值。

其中，对第二目标区域进行模糊处理可以采用，但不限于高斯模糊算法、插值模糊算法等。计算第二目标区域中各像素点的图像纹理值所采用的算子可以是，但不限拉普拉斯算子、Canny算子等。

本申请实施例中，对第二目标区域进行模糊处理采用的是高斯模糊算法。

步骤S1052，基于第二目标区域中各像素点的图像纹理值，确定出第二目标区域中相邻像素点之间的纹理变化值。

步骤S1053，将所有纹理变化值中数值大小处于预设排名的纹理变化值作为第二目标区域的纹理变化值。

其中，所述预设排名可根据实际情况选定，为避免由于计算过程中可能存在的误差而影响清晰度识别的准确性，因此该预设排名不宜取最靠前的排名和最靠后的排名。本申请实施例中，取所有纹理变化值中数值由大到小处于第10％的纹理变化值作为第二目标区域的纹理变化值。

步骤S106，基于纹理变化值确定出文本图像的清晰度。

具体的，在确定文本图像的清晰度时，可以计算所有第二目标区域的纹理变化值的平均值，并根据该平均值确定文本图像的清晰度，平均值越大，文本图像的清晰度越高。也可以取所有第二目标区域的纹理变化值的中间值，并根据取的中间值确定文本图像的清晰度，中间值越大，文本图像的清晰度越高。

可以理解的，上述确定文本图像清晰度的方式仅是举例说明，在其他的一些实施例中还可以采用其他的方式。

例如，还可以根据第二目标区域的纹理变化值和第一目标区域的数量确定文本图像的清晰度。具体的，可以根据所有第二目标区域的纹理变化值的平均值和第一目标区域的数量进行加权运行，计算得出清晰度得分，然后根据清晰度得分确定出文本图像的清晰度。加权运算公式可以表示为S＝a*q1+b*q2，其中S表示清晰度得分，a表示所有第二目标区域的纹理变化值的平均值，b表示第一目标区域的数量，q1和q2分别表示权重。

本申请实施例提供的文本图像的清晰度识别方法，通过将归一化处理后的文本图像中各像素点的像素值所构成的向量矩阵，作为文字检测模型的输入进行运算得到文字置信度特征图，并对文字置信度特征图进行二值化处理后提取出其中的文字区域，然后计算文本图像中与文字区域对应的目标区域的纹理变化值，并根据纹理变化值和第一目标区域的数量或者根据纹理变化值确定出文本图像的清晰度。如此，可降低清晰度识别的复杂度，可降低文本图像的清晰度识别对资源的要求，提高文本图像的清晰度识别效率。同时，在将文本图像进行归一化处理之前还将文本图像缩放至指定尺寸，进一步避免由于运算量过大而导致清晰度识别的效率降低。另外，本申请实施例提供的文本图像的清晰度识别方法的可兼容和可扩展性强，可适用于多种场景，具备跨平台部署能力，在多个主流框架下均可运行。

图2是本申请的一个实施例电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本图像的清晰度识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将获取的文本图像进行归一化处理，得到归一化图像；

提取出所述二值化图像中灰度值为1的第一目标区域；

上述如本申请图2所示实施例揭示的文本图像的清晰度识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1所示实施例的方法，并实现文本图像的清晰度识别装置在图1所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

将获取的文本图像进行归一化处理，得到归一化图像；

提取出所述二值化图像中灰度值为1的第一目标区域；

图3是本申请的一个实施例提供的文本图像的清晰度识别装置的结构示意图。请参考图3，在一种软件实施方式中，提供的文本图像的清晰度识别装置可包括：

归一化模块，用于将获取的文本图像进行归一化处理，得到归一化图像；

运算模块，用于将依据所述归一化图像中各像素点的像素值所构建的向量矩阵，作为预先训练的文字检测模型的输入进行运算，得到与所述归一化图像对应的文字置信度特征图，其中，所述文字置信度特征图中各像素点的灰度值，表征所述归一化图像中与所述各像素点对应的像素点位于文本区域的置信度；

二值化模块，用于对所述文字置信度特征图进行二值化处理，得到二值化图像；

提取模块，用于提取出所述二值化图像中灰度值为1的第一目标区域；

计算模块，用于计算所述文本图像中与所述第一目标区域对应的第二目标区域的纹理变化值；

确定模块，用于基于所述纹理变化值和所述第一目标区域的数量确定出所述文本图像的清晰度，或基于所述纹理变化值确定出所述文本图像的清晰度。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种文本图像的清晰度识别方法，其特征在于，包括：

将获取的文本图像进行归一化处理，得到归一化图像；

提取出所述二值化图像中灰度值为1的第一目标区域；

基于所述纹理变化值和所述第一目标区域的数量确定出所述文本图像的清晰度，或基于所述纹理变化值确定出所述文本图像的清晰度；

所述基于所述纹理变化值确定出所述文本图像的清晰度，包括：

计算所有第二目标区域的纹理变化值的平均值，并根据所述平均值确定出所述文本图像的清晰度；或

计算所有第二目标区域的纹理变化值的中间值，并根据所述中间值确定出所述文本图像的清晰度；

所述基于所述纹理变化值和所述第一目标区域的数量确定出所述文本图像的清晰度，包括：

根据所有第二目标区域的纹理变化值的平均值和所述第一目标区域的数量进行加权运算，得出清晰度得分，并根据清晰度得分确定出文本图像的清晰度；

加权运算公式为S＝a*q1+b*q2，其中S表示清晰度得分，a表示所有第二目标区域的纹理变化值的平均值，b表示第一目标区域的数量，q1和q2分别表示权重。

2.根据权利要求1所述的方法，其特征在于，所述提取出所述二值化图像中灰度值为1的第一目标区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述文本图像中与所述第一目标区域对应的第二目标区域的纹理变化值，包括：

计算所述第二目标区域中各像素点的图像纹理值；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述第二目标区域进行模糊处理；

5.根据权利要求4所述的方法，其特征在于，所述对所述第二目标区域进行模糊处理，包括：

6.根据权利要求3所述的方法，其特征在于，计算所述第二目标区域中各像素点的图像纹理值所采用的算子为拉普拉斯算子或Canny算子。

7.根据权利要求1所述的方法，其特征在于，将获取的文本图像进行归一化处理，包括：

将所述文本图像的图像通道顺序转换为指定顺序；

8.根据权利要求1所述的方法，其特征在于，在将获取的文本图像进行归一化处理之前，所述方法还包括：

将所述文本图像缩放至指定尺寸。