CN112712080B

CN112712080B - 一种用于走字屏采集图像的文字识别处理方法

Info

Publication number: CN112712080B
Application number: CN202110021188.8A
Authority: CN
Inventors: 侯磊; 张乐平; 张博; 支蕴倩; 李海峰
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-09-28
Anticipated expiration: 2041-01-08
Also published as: CN112712080A

Abstract

本发明公开了一种用于走字屏采集图像的文字识别处理方法，文字检测模型输出的特征图上分别由文字区域和背景区域两种值，通过掩码从走字屏采集图像提取文字区域；文字识别模型的输入图像为预设尺寸，文字识别模型的输出为字符类别，通过查询类别值与计算机字符的映射关系得到字符区域文字区域；根据字符区域文字区域所在的行坐标进行聚合，并按照每个字符行坐标从左到右的顺序将字符组成字符串；文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据，推理阶段，当采样窗口的中心落在文字边缘或在两个文字的中间空隙时，将最终的特征值定义为背景。本发明能够模拟走字屏文字特征，生成特征训练数据，使得模型能够实现对走字屏文字的针对性训练，训练效果好。

Description

一种用于走字屏采集图像的文字识别处理方法

技术领域

本发明涉及文字处理技术领域，具体涉及一种用于走字屏采集图像的文字识别处理方法。

背景技术

目前，对图像中的文字进行识别(OCR)，是深度学习领域的一个重要场景。不同于传统的利用图像处理技术提取文字区域特征并使用分类器判定字符，基于深度学习的OCR技术利用深度神经网络提取图像特征，能够达到比传统效果高得多的识别准确度。

基于深度学习的OCR处理一般分为两个模型，文字区域检测和文字字符识别。文字区域检测模型对输入的文本图像进行扫描，标记出其中的文字区域；文字字符识别模型对文字区域的每个字符进行提取并分类得到字符值，最终重组为文本。

走字屏是文字信息发布的重要媒介，对于走字屏文字内容的识别与分析在舆情监控与内容安全方面有重要意义。对于走字屏采集图像的识别，目前没有针对性的方法，可采用通用的对电子文档的文字识别算法或针对通用场景的文字识别算法。

现有的采用通用方案对走字屏采集图像的文字进行处理存在以下缺点：

第一、走字屏的采集图像相比起打印文字，文字笔画边缘不平滑，呈锯齿状，且往往带有畸变，针对电子文档的文字识别算法在应对上述情况时容易出现误识别；

第二、通用文字检测模型和文字识别模型复杂，训练成本高；

第三、走字屏文字图像识别一般需要部署于现场嵌入式设备，且需要实时识别。比如使用通用场景的OCR技术(如目标检测模型+循环神经网络)对走字屏图像进行识别，这种应用成本较高，计算时间更长，通用文字检测模型和文字识别模型占用资源多，计算时间长，不适用与嵌入式实时计算场景；

第四、使用图像处理技术，直接对走字屏文字图像进行二值化和基于直方图阈值的坐标分割，实现走字屏文字区域检测，后续利用CNN或SVM分类器对字符进行分类识别。但该方法对文字的分割泛化性较差，无法应对文字间隔过近或有噪声的情况。

综上所述，亟需一种用于走字屏采集图像的文字识别处理的技术方案。

发明内容

为此，本发明实施例提供一种用于走字屏采集图像的文字识别处理方法，能够模拟走字屏文字特征，生成特征训练数据，使得模型能够实现对走字屏文字的针对性训练，得到更好的训练效果。

为了实现上述目的，本发明的实施方式提供如下技术方案：一种用于走字屏采集图像的文字识别处理方法，包括以下步骤：

采用卷积神经网络作为文字检测模型与文字识别模型的基础网络，对所述文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪；

通过1x1卷积层完成文字检测模型与文字识别模型全卷积化，对输入的走字屏采集图像进行多尺度特征提取，文字检测模型输出的特征图上分别有文字区域和背景区域两种值，通过掩码从所述走字屏采集图像提取文字区域；

所述文字识别模型采用基于alexnet结构的图像分类模型，文字识别模型的输入图像为预设尺寸，文字识别模型的输出为字符类别，通过查询类别值与计算机字符的映射关系得到文字区域；根据所述文字区域所在的行坐标进行聚合，并按照每个字符行坐标从左到右的顺序将字符组成字符串；

所述文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据，文字检测模型在推理阶段，当采样窗口的中心落在文字边缘或在两个文字的中间空隙时，将最终的特征值定义为背景。

作为用于走字屏采集图像的文字识别处理方法的优选方案，基于走字屏文字的特点生成文字图像。

作为用于走字屏采集图像的文字识别处理方法的优选方案，生成文字图像的过程中进行文字去除抗锯齿效果处理，进而保留锯齿边缘，避免默认的八位文字位图对笔画边缘的平滑处理。

作为用于走字屏采集图像的文字识别处理方法的优选方案，生成文字图像的过程中进行随机像素水平漂移处理，对生成的文字图像随机选取目标行，对目标行像素进行平移变换。

作为用于走字屏采集图像的文字识别处理方法的优选方案，生成文字图像过程中，当文字行间距小于预设值时，将多行文字位图输出到背景图像上，每行文字位图的起始纵坐标为上一行文字位图的右下角纵坐标加上调节值，随机调整所述调节值控制行间距。

作为用于走字屏采集图像的文字识别处理方法的优选方案，生成文字图像过程中，当文字边缘贴近图像边缘时，将文字位图输出到背景图像：

若文字位图的起始横坐标为0，文字位图贴近背景图像的左边缘；

若文字位图的起始纵坐标为0；文字位图贴近背景图像的上边缘；

若文字位图的起始横坐标＝背景图像宽度-文字位图宽度，文字位图贴近背景图像的右边缘；

若文字位图的起始纵坐标＝背景图像高度-文字位图高度，文字位图贴近背景图像的下边缘。

作为用于走字屏采集图像的文字识别处理方法的优选方案，通过走字屏文字图像自动生成器对文字间隙、文字尺寸进行处理，在背景图像上打印出模拟生成的走字屏文字，然后利用采样窗口提取部分区域作为文字检测模型和文字识别模型的训练数据。

作为用于走字屏采集图像的文字识别处理方法的优选方案，文字间隙区域的处理方式为：采样窗口的中心点位于两个文字中间，采样窗口边长随机选取范围为文字宽度至文字宽度的两倍，使采样窗口包含两个文字的一部分或全部。

作为用于走字屏采集图像的文字识别处理方法的优选方案，文字尺寸超过预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点在文字中心距离小于文字宽度的0.2倍，采样窗口边长小于文字宽度的0.5倍。

作为用于走字屏采集图像的文字识别处理方法的优选方案，文字尺寸小于预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点与文字中心距离小于文字宽度的0.2倍，采样窗口边长大于文字宽度的2.5倍。

本发明采用卷积神经网络作为文字检测模型与文字识别模型的基础网络，对文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪；通过1x1卷积层完成文字检测模型与文字识别模型全卷积化，对输入的走字屏采集图像进行多尺度特征提取，文字检测模型输出的特征图上分别由文字区域和背景区域两种值，通过掩码从走字屏采集图像提取文字区域；文字识别模型采用基于alexnet结构的图像分类模型，文字识别模型的输入图像为预设尺寸，文字识别模型的输出为字符类别，通过查询类别值与计算机字符的映射关系得到文字区域；根据文字区域所在的行坐标进行聚合，并按照每个字符行坐标从左到右的顺序将字符组成字符串；文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据，文字检测模型在推理阶段，当采样窗口的中心落在文字边缘或在两个文字的中间空隙时，将最终的特征值定义为背景。本发明得到的文字检测模型能够完成字符级别的文字检测，在检测过程中直接划分文字区域，能够极大的简化图像文字识别的流程，提高计算性能；本发明针对走字屏采样图像的识别场景，针对性的简化了网络模型，能够得到更快的计算速度和更少的资源占用，实现更低成本的部署；本发明能够模拟走字屏文字特征，生成特征训练数据，使得模型能够实现对走字屏文字的针对性训练，得到更好的训练效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例中提供的用于走字屏采集图像的文字识别处理方法流程；

图2为本发明实施例中提供的走字屏文字检测模型；

图3为本发明实施例中提供的用于走字屏采集图像的文字识别处理方法中带有水平像素漂移的走字屏采集图像。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，提供一种用于走字屏采集图像的文字识别处理方法，包括以下步骤：

S1：采用卷积神经网络作为文字检测模型与文字识别模型的基础网络，对所述文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪；

S2：通过1x1卷积层完成文字检测模型与文字识别模型全卷积化，对输入的走字屏采集图像进行多尺度特征提取，文字检测模型输出的特征图上分别由文字区域和背景区域两种值，通过掩码从所述走字屏采集图像提取文字区域；

S3：所述文字识别模型采用基于alexnet结构的图像分类模型，文字识别模型的输入图像为预设尺寸，文字识别模型的输出为字符类别，通过查询类别值与计算机字符的映射关系得到文字区域；根据所述文字区域所在的行坐标进行聚合，并按照每个字符行坐标从左到右的顺序将字符组成字符串；

在实际使用场景中，参见图2，本发明采用基于CNN的卷积神经网络作为文字检测模型与文字识别模型的基础网络，由于走字屏文字图像背景基本为单色、文字颜色也为单色，整体的文字图像特征更加明显，可用较少的卷积层即可达到特征提取的效果。因此对文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪，裁剪后的模型占用资源极小，在嵌入式设备上仍可以完成实时计算，单位成本更低。

裁剪后的文字检测模型如图2所示，模型的输出通过1x1卷积层完成全卷积化，可对输入的文字图像进行多尺度(图2中各矩形结构代表不同的尺寸)的特征提取，并通过特征提取得到特征图，且在模型输出的特征图上，如图3所示，分别具有文字区域(1)和背景区域(0)两种值，通过掩码提取即可从原图提取文字区域。

文字识别模型采用基于alexnet结构的图像分类模型，输入图像为固定尺寸，输出为字符类别，查询类别值与计算机字符的映射关系即可得到文字区域。重组字符串根据文字区域所在的行坐标进行聚合，并按照每个字符坐标从左到右的顺序将字符组成字符串。

文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据，模型在推理阶段，采样窗口的中心落在文字边缘或在两个文字的中间空隙时，最终的特征值是背景。因此，整个特征图上，文字字符全部被分割开。提取文字区域后，文字识别模型只需批量分类为计算机字符值，即可重建为字符串文本。

具体的，通过走字屏文字图像自动生成器基于走字屏文字的特点生成文字图像。

在基于走字屏文字的特点自动生成文字图像时，包括以下步骤：

生成文字图像的过程中进行文字去除抗锯齿效果处理，文字去除抗锯齿效果过程采用基于Python Pillow类库的ImageFont模块，生成二值位图，保留锯齿效果。在生成走字屏文字时，不使用默认的八位文字位图(会对笔画边缘进行平滑)，采用二值位图，使边缘均保留了锯齿效果。

生成文字图像的过程中进行随机像素水平漂移处理，对生成的文字图像随机选取目标行，对目标行像素进行平移变换。平移变换本身是图像处理领域的现有技术。

生成文字图像过程中，当文字行间距小于预设值时，将多行文字位图输出到背景图像上，每行文字位图的起始纵坐标为上一行文字位图的右下角纵坐标加上调节值，随机调整所述调节值控制行间距。

生成文字图像过程中，当文字位图的边缘贴近图像边缘时，将文字位图输出到背景图像：

本发明还通过走字屏文字图像自动生成器对文字间隙、文字尺寸进行处理，在背景图像上打印出模拟生成的走字屏文字，然后利用采样窗口提取部分区域作为文字检测模型和文字识别模型的训练数据。

具体的，文字间隙区域的处理方式为：采样窗口的中心点位于两个文字中间，采样窗口边长随机选取范围为文字宽度至文字宽度的两倍，使采样窗口包含两个文字的一部分或全部。该类图像标注为背景(0)。

具体的，文字尺寸超过预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点在文字中心距离小于文字宽度的0.2倍，采样窗口边长小于文字宽度的0.5倍。采样后的区域中看不到完整的字符，只能看到字符的一部分，该类图像标注为0。

具体的，文字尺寸小于预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点与文字中心距离小于文字宽度的0.2倍，采样窗口边长大于文字宽度的2.5倍。采样后的区域中字符所占比例很小，该类图像标注为0。

本发明通过走字屏文字图像自动生成器得到的模拟图像可以同时作为文字检测模型和文字识别模型的训练数据。只需要调整文字区域的标注值即可：在用于文字区域检测时，文字区域图像的标注值为1(文字)；用于文字识别模型时，文字区域图像的标注值为对应文字的索引键值。

本发明采用卷积神经网络作为文字检测模型与文字识别模型的基础网络，对所述文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪；通过1x1卷积层完成文字检测模型与文字识别模型全卷积化，对输入的走字屏采集图像进行多尺度特征提取，文字检测模型输出的特征图上分别由文字区域和背景区域两种值，通过掩码从所述走字屏采集图像提取文字区域；所述文字识别模型采用基于alexnet结构的图像分类模型，文字识别模型的输入图像为预设尺寸，文字识别模型的输出为字符类别，通过查询类别值与计算机字符的映射关系得到文字区域；根据所述文字区域所在的行坐标进行聚合，并按照每个字符行坐标从左到右的顺序将字符组成字符串；所述文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据，文字检测模型在推理阶段，当采样窗口的中心落在文字边缘或在两个文字的中间空隙时，将最终的特征值定义为背景。本发明得到的文字检测模型能够完成字符级别的文字检测，在检测过程中直接划分文字区域，能够极大的简化图像文字识别的流程，提高计算性能；本发明针对走字屏采样图像的识别场景，针对性的简化了网络模型，能够得到更快的计算速度和更少的资源占用，实现更低成本的部署；本发明能够模拟走字屏文字特征，生成特征训练数据，使得模型能够实现对走字屏文字的针对性训练，得到更好的训练效果。

实施例2

本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有用于走字屏采集图像的文字识别处理的程序代码，所述程序代码包括用于执行实施例1或其任意可能的实现方式中的用于走字屏采集图像的文字识别处理方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk、SSD))等。

实施例3

本发明提供了一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，当所述处理器执行存储介质中的指令时，使得所述电子设备执行实施例1或其任意可能的实现方式中的用于走字屏采集图像的文字识别处理方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

具体的，中央处理单元(CPU)根据只读存储器(ROM)中存储的程序或从存储部分加载到随机存取存储器(RAM)的程序执行各种处理。在RAM中，还根据需要存储当CPU执行各种处理等等时所需的数据。CPU、ROM和RAM经由总线彼此连接。输入/输出接口也连接到总线。

下述部件连接到输入/输出接口：输入部分(包括键盘、鼠标等等)、输出部分(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分(包括硬盘等)、通信部分(包括网络接口卡比如LAN卡、调制解调器等)。通信部分经由网络比如因特网执行通信处理。根据需要，驱动器也可连接到输入/输出接口。可拆卸介质比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器上，使得从中读出的计算机程序根据需要被安装到存储部分中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于存储有程序的、与设备相分离地分发以向用户提供程序的可拆卸介质。可拆卸介质的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM、存储部分中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种用于走字屏采集图像的文字识别处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，基于走字屏采集图像提取得到的走字屏文字的特点生成文字图像。

3.根据权利要求2所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，生成文字图像的过程中进行文字去除抗锯齿效果处理。

4.根据权利要求3所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，生成文字图像的过程中进行随机像素水平漂移处理，对生成的文字图像随机选取目标行，对目标行像素进行平移变换。

5.根据权利要求4所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，生成文字图像过程中，当文字行间距小于预设值时，将多行文字位图输出到背景图像上，每行文字位图的起始纵坐标为上一行文字位图的右下角纵坐标加上调节值，随机调整所述调节值控制行间距。

6.根据权利要求5所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，生成文字图像过程中，当文字位图的边缘贴近图像边缘时，将文字位图输出到背景图像：

若所述文字位图的起始横坐标为0，所述文字位图贴近所述背景图像的左边缘；

若所述文字位图的起始纵坐标为0；所述文字位图贴近所述背景图像的上边缘；

若所述文字位图的起始横坐标＝背景图像宽度-文字位图宽度，文字位图贴近所述背景图像的右边缘；

若所述文字位图的起始纵坐标＝背景图像高度-文字位图高度，文字位图贴近所述背景图像的下边缘。

7.根据权利要求2所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，通过走字屏文字图像自动生成器对文字间隙、文字尺寸进行处理，在背景图像上打印出模拟生成的走字屏文字，然后利用采样窗口提取部分区域作为文字检测模型和文字识别模型的训练数据。

8.根据权利要求7所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，文字间隙的处理方式为：采样窗口的中心点位于两个文字中间，采样窗口边长随机选取范围为文字宽度至文字宽度的两倍，使采样窗口包含两个文字的一部分或全部。

9.根据权利要求7所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，文字尺寸超过预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点与文字中心的距离小于文字宽度的0.2倍，采样窗口边长小于文字宽度的0.5倍。

10.根据权利要求7所述的一种用于走字屏采集图像的文字识别处理方法，其特征在于，文字尺寸小于预设大小时的处理方式为：采样窗口中心点在文字中心附近随机选择，采样窗口中心点与文字中心的距离小于文字宽度的0.2倍，采样窗口边长大于文字宽度的2.5倍。