CN112329744B

CN112329744B - 一种图片文字识别方法和装置

Info

Publication number: CN112329744B
Application number: CN202110000853.5A
Authority: CN
Inventors: 黄海峰
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-06
Anticipated expiration: 2041-01-04
Also published as: CN112329744A

Abstract

本发明公开了一种图片文字识别方法和装置，借助于不规则滑动窗口的选取图片，不依赖于预设的小框，在待处理图像中分割出不同的窗口图片，作为神经网络的输入，通过神经网络对图片进行分类和识别，随后解码进行文字识别，提高了字体识别的准确度和完整性。

Description

一种图片文字识别方法和装置

技术领域

本发明涉及一种人工智能领域，特别是图片文字的识别方法和装置。

背景技术

随着传感器技术、智能计算技术、云计算、大数据等新兴技术的发展，传统的鼠标、键盘等交互方式已经不能满足新型、高效、便捷的人机交互需求，人与系统的自然高效互动、用户意图的准确理解等急需解决关键问题。人机交互协同的应用实现可以让系统操作更加灵活和人性化。从而受到更广泛的关注。

在人机交互环境中，存在两种不同的文本交互方式：一种是通过键盘录入的文本交互，另一种是通过手写笔、触摸屏等输入设备进行手写文本交互，第一种交互方式的输入文本是最优质的交互信息，不需要识别技术，直接进行语义理解，从文本转换成机器的控制命令。而第二种交互方式需要对手写文字进行高精度识别，是需要突破的技术点。

针对手写文本所具有的特点：写法差异大，特征不易提取，多字粘连无法准确分割等，如何实现手写文字图像的切割，提高手写字迹的准确性和完整性，成为一个急需解决的技术问题。

发明内容

为此，我们提出了一种图片文字的识别方法，用以提高手写字迹识别的准确性和完整性。

一种图片文字识别方法，所述方法包括：

步骤S01，基于CASIA-HWD数据库，利用cycle-GAN判别器，训练生成样本文本数据，输入神经网络用以训练神经网络；

步骤S02，对获得的文字图片，进行不同尺度的滑窗操作，所述滑窗操作是，对所述每一个待测文字图像不同的尺度的窗进行做固定步长的滑窗提取候选区域，获得标准目标窗口图片；

步骤 S03，然后将标准目标窗口图片送入到神经网络中识别和分类，神经网络可包括池化层，卷积层，全连接层，用以对文字图片数据的分类和识别；

步骤 S04，通过神经网络将缩放后的文本图像处理为固定高度的特征图；选择CTC连续时序分类进行解码，得到长度对应特征图宽度的标签序列；基于标签序列获得文本图像中的文字内容；标签序列包括至少一个标签，每个标签用于表示一个文字；其中，所述CTC的解码是，对输出的特征图用Softmax归一化得到概率分布矩阵，矩阵行数为神经网络中全连接层的通道数，列数可选择为特征图的宽度，每一列和为1，表示该位置每个汉字的概率，第0类表示空白，获得每一列的最大值的序号作为该位置的标签，得到一个长度为特征图宽度的标签序列。

进一步，所述cycle-GAN判别器由两个生成器Gab和Gba，两个判别器Da和Db组成。A、B分别代表源域和目标域的样本集，N、M分别代表源域和目标域样本集大小，ai代表源域中的第 i 张图片，bj代表目标域中的第j张图片。Gab提供从源域A到目标域B的映射A→B，Gba提供从目标域B到源域A的映射B→A。判别器Da的作用是判别a和Gba(b)的真假，判别器Db的作用是判别b和Gab( a) 的真假。

进一步，在样本在输入神经网络训练之前还包括步骤，获取步骤S01中获得训练模型合成文本的训练样本；对输入的文字图像进行灰度化：将书写文字图像预处理为灰度图像块，并将书写文字图像中的彩色图片转化为灰度图像，然后把得到的灰度图像尺寸归一化为32*32的灰度图像块。

所述神经网络的分类包括：构建一个具有自适应识别分类功能的包括加入BN算法的改进神经网络，改进神经网络为一个多层的神经网络，通过可训练的卷积核作为滤波器，对图像进行逐层滤波，并将每一层滤波结果进行自动组合，最终自动提取出对分类最有利的特征。

可选的神经网络采用前两个卷积加一个池化层，之后两个卷积层，卷积层之后是两个全连接层。

可选的，全连接层，全连接层的作用是将输入的二维特征矩阵降维到一维特征向量，便于输出层进行分类处理。输出层，输出层的作用是根据上面全连接层的输出的一维向量进行分类。

可选的，构建二分类器：将得到的正常文本数据训练样本和非正常文本数据训练样本输入神经网络，神经网络可被训练为能够识别正常文本和非正常文本的二分类器；

可选的，所述神经网络层包括识别分支神经网络层。

可选的，将所述池化特征后向传播至执行字符识别操作的识别分支神经网络层，通过所述识别分支神经网络层输出所述文本区域标记的字符序列。识别分支神经网络层包括网络模型的时间卷积网络层和字符分类层。

一种图片文字识别装置，所述装置包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行以实现方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现所述的方法。

本发明通过神经网络的识别和分类，借助于不规则滑动窗口的选取图片，不依赖于预设的小框，而在待处理图像中分割出各种角度以及各种弯曲形状的文本，作为神经网络的输入，通过神经网络对图片进行分类和识别，随后解码进行文字的识别，实现了数字笔记字体识别的准确度和完整性。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中

图1本发明的图片文字的识别示意图；

图2是识别方法流程示流程图。

具体实施方式

参看下面的说明以及附图，本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本发明的保护范围。可以理解的是，附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。

实施例1

针对手写文本所具有的特点：写法差异大，特征不易提取，多字粘连无法准确分割等，我们研究用于增强手写文字质量的数据预处理技术，实现图像旋转矫正；文本行倾斜矫正；手写笔迹宽度归一化，以及其他常见噪声和干扰的去除等，在有效去除图像噪声和污染干扰的同时，提高手写字迹的准确性和完整性。

另外中文类别数目庞大，基于深度学习的方法需要大量的训练样本，如果全部通过人工标记获得，要消耗大量人力和时间，而且存在真实样本类别覆盖面小的问题，这样训练的模型实际使用时泛化能力差。基于此，提出样本自动合成用于合成训练数据，来降低人力和时间成本，并提高系统的鲁棒性。

图1示例性地给出了本申请识别的识别框架示意图。

本发明的方案，样本生成技术采用一种生成对抗网络cycle-GAN，使用现有的真实手写文本行数据集，同时依靠CASIA-HWDB数据集中丰富的单字样本，对单字进行排列生成另一个文本行数据集。其中，CASIA-HWDB数据库是手写汉字的数据集，由中科院设立的。将两者同时送入cycle-GAN模型，通过此模型的生成-判别结构，训练得到两者的映射模型，最终通过训练得到的生成模型合成文本行数据。

cycle-GAN结构由两个生成器Gab和Gba，两个判别器Da和Db组成。A、B分别代表源域和目标域的样本集，N、M分别代表源域和目标域样本集大小，ai代表源域中的第 i 张图片，bj代表目标域中的第 j 张图片。Gab提供从源域A到目标域B的映射A→B，Gba提供从目标域B到源域A的映射B→A。判别器Da的作用是判别a和Gba(b) 的真假，判别器Db的作用是判别b和Gab(a)的真假。

针对手写汉字文本多字粘连无法准确分割等情况，应用深度神经网络进行端到端的手写文本行识别，该深度学习模型将特征抽取和模式分类整合为一个整体，采用全局优化的方式实现从输入端待识别图像到输出端文字识别结果的转化，实现从整体优化上提高识别率。

如图2所示的流程，对文字图片执行滑窗文本行截取，依据人眼观看事物的生物特点，首先在提取到的文本行图片上进行不同尺度的滑窗，对所述每一个待测文字图像Si中用大小为a×b的窗进行步长r的滑窗提取候选区域，并对每一个候选区域进行下采样，大小变为c×d。可选的在目标书写图像中，在检测的时候首先对目标书写图像进行密集的扫描，其次对目标图像进行缩小；将目标图像按3层或4层进行缩小，直到目标图像的高度或者宽度小于等于标准检测窗口的高度或者宽度，可以获得一系列目标图像。可选的，预设的候选区域在得到的特征图上移动，基于候选标准图片总区域中包括的所有像素均预测或检测为文字的候选区域获得文本框；候选区域包括预设的固定宽度和可变高度；基于包括的所有像素均预测为文字的候选区域确定获得的文本框的坐标，根据文本框的坐标确定文本框的位置。可选的，首先对数据集进行裁剪和旋转，然后将其划分为不同尺度的图像块。

然后将目标窗口图片送入单字分类器，得到每个窗口的候选识别结果，可选的使用神经网络对语言模型进行隐式建模。可选的神经网络的算法是：获取步骤S01中，获得训练模型合成文本的训练样本包括对输入的文字图像进行灰度化：将书写文字图像预处理为灰度图像块，并将书写文字图像中的彩色图片转化为灰度图像，然后把得到的灰度图像尺寸归一化为32*32的灰度图像块；

步骤S202构建神经网络层：构建一个具有自适应识别分类功能的包括加入BN算法的改进神经网络，改进神经网络为一个多层的神经网络，通过可训练的卷积核作为滤波器，对图像进行逐层滤波，并将每一层滤波结果进行自动组合，最终自动提取出对分类最有利的特征，提取完特征之后，从所有特征参数中根据分类类别不同，进行参数分类，之后对不同类别之间的特征参数进行组合训练和识别，并根据识别结果的不同，调整训练特征向量，当根据本次特征参数组合获得的识别结果小于之前的识别结果时，则根据现有的特征向量，添加或删除相应的特征参数，以期再次识别时获得更高的识别率；

构建二分类器：将得到的正常文本数据训练样本和非正常文本数据训练样本输入改进神经网络，改进神经网络被训练为能够识别正常文本和非正常文本的二分类器；

步骤S203得到识别结果：将待测试的书写文字图像输入改进神经网络，改进神经网络自动进行识别、归类。

神经网络可包括检测神经网络层和池化层，可选的神经网络采用前两个卷积加一个池化层，之后两个卷积层，卷积层之后是两个全连接层。可选的全连接层，全连接层的作用是将输入的二维特征矩阵降维到一维特征向量，便于输出层进行分类处理；输出层的作用是根据上面全连接层的输出的一维向量进行分类。

可选的，神经网络中可通过池化层对全局特征进行卷积变换实现区域筛选参数的预测，进而池化层根据区域筛选参数对边框候选区域进行筛选，可以检测出图像中的文本区域，进而对倾斜的文本区域进行旋转，获得水平化的文本区域的图像数据，作为文本区域的池化特征。将所述池化特征后向传播至执行字符识别操作的识别分支网络层，通过所述识别分支网络层输出所述文本区域标记的字符序列。识别分支网络层可包括网络模型的时间卷积网络层和字符分类层。

可选的，通过神经网络将缩放后的文本图像处理为高度为h的特征图；选择CTC连续时序分类进行解码，得到长度对应特征图宽度的标签序列；基于标签序列获得文本图像中的文字内容；标签序列包括至少一个标签，每个标签用于表示一个文字。最终通过CTC解码得到最终的识别结果，可选的CTC的解码是，先对输出的特征图用Softmax归一化得到概率分布矩阵，矩阵行数为全连接的通道数，列数为特征图的宽度，每一列和为1，表示该位置每个汉字的概率，第0类表示空白，获得每一列的最大值的序号作为该位置的标签，得到一个长度为特征图宽度的标签序列。

可选的，所表示的在得到的标签序列中，有个别位置对应的标签为第0类，即该位置为空白，签字图片中空白表示间隔或区分，可以空白将序列分为若干子序列，使每个子序列中不包含空白，在各子序列中将连续相同的标签合并为一个，最终按顺序连接所有子序列作为最后文字识别标签，再将标签映射为对应的文字内容。

可选的，将“序列图片”即目标窗口文件，输入到一个深度卷积网络中得到一个特征序列，通常这种特征序列具有高层语义信息。然后将卷积网络输出的视觉特征输入到循环网络中，进行时序特征提取。然后使用softmax层对特征序列中的每一个特征进行分类。CTC在softmax层中引入一个“空白符”扩充分类类别，这样我们就得到了每个特征的类别概率分布。我们在分类序列的每一个时刻选择一个分类的概率值组成一个概率序列，我们将这个概率序列称之为“路径”，如果这个“路径”经过CTC变换之后能够得到标签序列，则我们称这个“路径”为“有效路径”。所有的“有效路径”的概率和就是CTC损失。CTC变换是：（1）首先将输入序列中的“连续重复”符号删除。（2）然后再将步骤1 产生的序列中的“空白符”删除。CTC损失本质上是概率和，每个概率是所有时刻上的概率乘积，故CTC损失是可导的。穷举所有的“路径”需要指数时间，所以暴力计算CTC损失是不可行的。可以看出各个“路径”之间有大量的重复“子路径”，所以可以使用动态规划算法进行求解。

优选的，也可以采用将源语言序列通过编码器（encoder）转化为一个句子向量，然后使用解码器（decoder）将句子向量转化为目标语言序列。通常编码器与解码器都是长短时记忆模型（Long Short Term Memory, LSTM）。将编码器每一时刻的输出信号保存下，标记为B信号，解码端的每一时刻在解码过程中将“该B信号加权和”融合到解码信号中，从而得到更加准确的解码。

实施例2

一种图片文字的识别装置，所述装置包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行以实现实施例1中的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random AccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组（例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互）的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种图片文字识别方法，其特征在于包括如下步骤：

步骤S01，基于CASIA-HWD数据库，利用cycle-GAN判别器，训练生成样本文本数据，用以训练神经网络；其中，所述cycle-GAN判别器由两个生成器Gab和Gba，两个判别器Da和Db组成；训练样本在输入神经网络训练之前还包括，对输入的文字图像进行灰度化，将文字图像预处理为灰度图像块，并将文字图像中的彩色图片转化为灰度图像，然后把得到的灰度图像尺寸归一化为32*32的灰度图像块；

步骤S02，对获得的文字图片，进行不同尺度的滑窗操作，以获得标准窗口图片，所述滑窗操作是，对每一个待测文字图片，用不同尺度的窗做固定步长的滑窗，以提取候选区域；

步骤 S03，然后将标准目标窗口图片送入到神经网络中识别和分类，神经网络包括池化层，卷积层，全连接层，用以执行对文字图片数据的分类和识别；

步骤 S04，通过神经网络将分类和识别后的文本图像处理为固定高度的特征图；选择CTC连续时序分类进行解码，得到长度对应特征图宽度的标签序列；基于标签序列获得文本图像中的文字内容；标签序列包括至少一个标签，每个标签用于表示一个文字；其中，所述CTC连续时序分类进行解码包括，对输出的特征图用Softmax归一化得到概率分布矩阵，矩阵行数为神经网络中全连接层的通道数，列数选择为特征图的宽度。

2.如权利要求1所述的方法，其特征在于：所述神经网络的分类和识别包括：构建一个具有自适应识别分类功能的包括加入BN算法的改进神经网络，改进神经网络为一个多层的神经网络，通过可训练的卷积核作为滤波器，对图像进行逐层滤波，并将每一层滤波结果进行自动组合，最终自动提取出对分类优化的特征。

3.如权利要求2所述的方法，其特征在于：神经网络包括卷积层，池化层，全连接层和输出层。

4.如权利要求3所述的方法，其特征在于，所述全连接层将输入的二维特征矩阵降维到一维特征向量，由输出层进行分类处理。

5.如权利要求4所述的方法，其特征在于，所述神经网络包括识别分支神经网络层。

6.如权利要求1-5中任一项所述的方法，其特征在于：所述神经网络是DCNN神经网络或Bi-LSTM神经网络。

7.一种图片文字识别装置，所述装置包括处理器和存储器，所述存储器上存储有计算机程序，其特征在于：所述计算机程序被处理器执行以实现权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行以实现权利要求1-5中任一项所述的方法。