CN114048735A

CN114048735A - 一种针对手写连写字符串的识别方法及装置

Info

Publication number: CN114048735A
Application number: CN202111212982.7A
Authority: CN
Inventors: 张园; 范必成; 奚望; 陆振涛
Original assignee: Nanjing College of Information Technology
Current assignee: Nanjing College of Information Technology
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-15

Abstract

本发明公开了一种针对手写连写字符串的识别方法及装置，方法包括以下步骤：获取连写字符串的图片；识别所述连写字符串的图片，获取连写字符串的概率最大的前两个的数量识别结果及其概率；识别所述连写字符串的图片，获取连写字符串的多个字符串识别结果及其概率；融合所述连写字符串的概率最大的前两个的数量识别结果及其概率和所述连写字符串的多个字符串识别结果及其概率，获得输出结果。本发明能够识别数字串的数字数量，然后识别数字串的具体数字，将识别的数字串识别结果和数量识别结果相融合，从而获得更准确的识别结果。

Description

一种针对手写连写字符串的识别方法及装置

技术领域

本发明涉及一种针对手写连写字符串的识别方法及装置，属于字符识别技术领域。

背景技术

在文档分析和识别领域，常常会出现识别长度未知且书写不整齐的数字字符串，这些手写的数字常常连在一起，因此以往的将字符串分割为表示单个数字的组件的简单解决方案通常是不可行的。

之前采用的方法是将数字串尽可能细的分割，但这会导致过度分割的情况，比如56会错误的分割为510。识别效率不高也准确率也低。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种针对手写连写字符串的识别方法及装置，提高识别准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种针对手写连写字符串的识别方法，包括以下步骤：

获取连写字符串的图片；

对所述连写字符串的图片进行长度识别，获取连写字符串的多个数量识别结果及其概率；

对所述连写字符串的图片进行字符识别，获取连写字符串的多个字符串识别结果及其概率；

融合所述连写字符串的前两个概率最大的数量识别结果及其概率和所述连写字符串的多个字符串识别结果及其概率，获得输出结果。

进一步的，融合所述连写字符串的概率最大的前两个的数量识别结果及其概率和所述连写字符串的多个字符串识别结果及其概率，获得输出结果的方法包括以下步骤：

如果某个数量识别结果的概率超过阈值，则将字符数量等于该数量识别结果的字符串识别结果中的概率最大的字符串识别结果确定为输出结果；

如果所有数量识别结果的概率均不超过阈值，则将字符串识别结果中的概率最大的字符串识别结果确定为输出结果。

进一步的，所述连写字符串为连写数字串；

识别连写数字串的方法包括以下步骤：

获取连写数字串的图片；

对所述连写数字串的图片进行长度识别，获取连写数字串的多个数量识别结果及其概率；

对所述连写数字串的图片进行字符识别，获取连写数字串的多个数字串识别结果及其概率；

融合所述连写数字串的前两个概率最大的数量识别结果及其概率和所述连写数字串的多个数字串识别结果及其概率，获得输出结果。

进一步的，融合所述连写数字串的概率最大的前两个的数量识别结果及其概率和所述连写数字串的多个数字串识别结果及其概率，获得输出结果的方法包括以下步骤：

如果某个数量识别结果的概率超过阈值，则将数字数量等于该数量识别结果的数字串识别结果中的概率最大的数字串识别结果确定为输出结果；

如果所有数量识别结果的概率均不超过阈值，则将数字串识别结果中的概率最大的数字串识别结果确定为输出结果。

进一步的，所述阈值为0.95。

进一步的，对所述连写数字串的图片进行数量识别，获取连写数字串的多个数量识别结果及其概率的方法包括：

将所述连写数字串的图片输入长度分类器，识别连写数字串的长度，输出该数字串是1位、2位、3位或4位连写数字的概率，即数量识别结果及其概率；

比较该数字串是1位、2位、3位或4位连写数字的概率，获取其中概率大小位于前两位的数量识别结果及其概率。

进一步的，所述长度分类器为CNN卷积神经网络，包含三个卷积层、设置在每个卷积层后的最大池化层、全连接层和输出层；

所述卷积层采用激活函数ReLU，全连接层使用softmax函数进行分类。

进一步的，所述长度分类器的输入图像的大小为64×64像素；

所述长度分类器包括第一层卷积层、第二层最大池化层、第三层卷积层、第四层最大池化层、第五层卷积层、第六层最大池化层、全连接层和输出层；

所述第一层卷积层中包括6个卷积核，每个卷积核的大小为5×5，步幅为1，该层输出特征图大小为60×60，神经元数量为60×60×6；

所述第二层最大池化层的输入图像大小60×60×6，池化区域是2×2，步幅为2，卷积核有6个，神经元数量为30×30×6；

所述第三层卷积层包括32个卷积核，每个卷积核的大小为5×5，输入图像大小为30×30×6，输出特征图大小：26×26，神经元数量为26×26×32；

所述第四层最大池化层的输入图像大小为26×26×32，池化区域为2×2，步幅为2，卷积核为32个，神经元数量为13×13×32；

所述第五层卷积层包括20个卷积核，每个卷积核的大小为4×4，输入图像大小为13×13×32，输出特征图大小为10×10，神经元数量为10×10×20；

所述第六层最大池化层的输入图像大小为10×10×20，池化区域是2×2，神经元数量5×5×20。

所述全连接层的神经元数量为72，填充有softmax函数；

所述输出层包括4个分类输出。

进一步的，对所述连写数字串的图片进行字符识别，获取连写数字串的多个数字串识别结果及其概率的方法包括：

将所述连写数字串的图片输入数字分类器，识别连写数字串的具体数字，输出该数字串的具体数字及其概率，即数字串识别结果及其概率；

所述数字分类器为CNN卷积神经网络，包含3个卷积层、2个最大池化层、1个全连接层。

进一步的，所述数字分类器的输入图像的大小为64×64像素；

所述数字分类器包括第一层卷积层、第二层最大池化层、第三层卷积层、第四层卷积层、第五层最大池化层、全连接层和输出层；

所述第一层卷积层包括24个卷积核，每个卷积核的大小为7×7，步幅为1，该层输出特征图大小为58×58，神经元数量为58×58×24；

所述第二层最大池化层的输入图像大小为58×58×24，池化区域为2×2，步幅为2，卷积核有24个，该层输出特征图大小为29×29的特征图，神经元数量为29×29×24；

所述第三层卷积层包括128个卷积核，每个卷积核的大小为5×5，步幅为1，输入图像大小为29×29×24，该层输出特征图大小为25×25，神经元数量为25×25×128；

所述第四层卷积层包括32个卷积核，每个卷积核的大小为6×6，步幅为1，输入图像大小为25×25×128，该层输出特征图大小为20×20，神经元数量为20×20×32；

所述第五层最大池化层的输入图像大小为20×20×32，池化区域是2×2，步幅为2，卷积核有32个，该层输出特征图大小为10×10的特征图，神经元数量为10×10×32；

所述全连接层神经元数量1200，填充有softmax函数；

所述输出层有1110个分类输出。

进一步的，所述长度分类器和数字分类器的训练方法包括：

采用交叉熵损失函数，在训练集，选取最优的权重时，采用小批量随机梯度下降法作为优化方法；

设置每个小批量为256个样本，动量因子为0.9，权重衰减为5×10^-4；

学习速率在开始设置为10^-2，网络开始过度拟合训练数据时训练终止。

第二方面，本发明提供了一种针对手写连写字符串的识别装置，所述装置包括：

获取模块：用于获取连写字符串的图片；

数量识别模块：用于识别所述连写字符串的图片，获取连写字符串的概率最大的前两个的数量识别结果及其概率；

数字识别模块：用于识别所述连写字符串的图片获取连写字符串的多个数字串识别结果及其概率；

融合输出模块：用于融合所述连写字符串的概率最大的前两个的数量识别结果及其概率和所述连写字符串的多个数字串识别结果及其概率，获得输出结果。

与现有技术相比，本发明所达到的有益效果：

本发明首先识别字符串的字符数量，然后识别字符串的具体字符，将识别的字符串识别结果和数量识别结果相融合，从而获得更准确的识别结果。以往的连写字符识别需要先进行字符的分割，这些分割方法依赖背景信息，进行最佳的分割本身就比较困难，本发明将原本分割再单个字符识别的过程，在一个算法中一次完成，大大降低了计算成本，加快了识别速度。

附图说明

图1是本发明的针对手写连写字符串的识别方法的流程图；

图2是长度分类器的结构示意图；

图3是数字分类器的结构示意图；

图4是输入图像60的识别流程图；

图5是输入图像837的识别流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供一种针对手写连写字符串的识别方法，包括以下步骤：

获取连写字符串的图片；

融合所述连写字符串的概率最大的前两个的数量识别结果及其概率和所述连写字符串的多个字符串识别结果及其概率，获得输出结果的方法包括以下步骤：

如果某个数量识别结果的概率超过阈值，则将数字数量等于该数量识别结果的字符串识别结果中的概率最大的字符串识别结果确定为输出结果；

本实施例首先识别字符串的字符数量，然后识别字符串的具体字符，将识别的字符串识别结果和数量识别结果相融合，从而获得更准确的识别结果。以往的连写字符识别需要先进行字符的分割，这些分割方法依赖背景信息，进行最佳的分割本身就比较困难，本发明将原本分割再单个字符识别的过程，在一个算法中一次完成，大大降低了计算成本，加快了识别速度。

实施例二：

本实施例提供一种针对手写连写字符串的识别方法，本实施例中，针对的连写字符串为连写数字串，包括以下步骤：

获取连写数字串的图片；

识别所述连写数字串的图片的长度，获取连写数字串的概率最大的前两个的数量识别结果及其概率；

识别所述连写数字串的图片的具体数字，获取连写数字串的多个数字串识别结果及其概率；

融合所述连写数字串的概率最大的前两个的数量识别结果及其概率和所述连写数字串的多个数字串识别结果及其概率，获得输出结果。

需要说明的是，本实施例虽然仅描述了连写数字串的识别方法，但其仅是为了说明如果进行识别，如果识别其他字符如英文、标点等等，其原理与本实施例相同，本领域技术人员可根据本实施例的描述进行有限的修改得到。

本方法不需要进行预先的分割，即可识别数字串。本方法提出的连写手写数字串的识别方法是，通过一个1110类的分类器和字符串长度分类器共同组成的解决方案,能够针对1位数字，识别其为0～9中的某个确切数字，即在10类中进行分类；针对2位连写数字，识别其为0～99中的某个确切数字，即在100类中进行分类；针对3位连写数字，识别其为0～999中的某个确切数字，即在1000类中进行分类。总共可区分1110个类。其结构如图1所示。

本方法中使用的所有分类器均为CNN卷积神经网络，采用交叉熵损失函数，在训练集，选取最优的权重时，本方法采用小批量随机梯度下降。随机梯度下降法在计算下降最快的方向时时随机选一个数据进行计算，来调整权重，而不是扫描全部训练数据集，这样的方法更快，更快收敛。这里每个小批量有256个样本，动量因子为0.9，权重衰减为5×10^-4。学习速率在开始设置为10^-2。在本方法中，正则化是通过早期停止来实现的，以防止一旦验证集上的网络性能恶化，过拟合中断训练过程。网络开始过度拟合训练数据时学习方法就会终止。

手写数字串图像先由长度分类器估算数字串的长度，长度分类器会计算该数字串是1位、2位、3位或4位连写数字的概率。只计算这几种类型的连写数字概率是因为根据日常生活情境，大部分的连写发生在两位数字之间，有时也发生在三位数字之间。由三个以上的连写数字组成的字符串比较罕见。

长度分类器的架构包含三个卷积层，每个卷积层后是最大池化层，然后是全连接层。卷积层采用激活函数ReLU，最后一层使用softmax函数进行分类。如下图2所示。

具体参数大小如下：

①本方法中输入图像的大小为64×64像素。

②第一层卷积层中使用了6个卷积核，每个卷积核的大小为5×5，步幅1，该层输出特征图大小60×60(64-5+1)像素，神经元数量60×60×6。

③第二层最大池化层，输入图像大小60×60×6像素，池化区域是2×2，步幅2，卷积核有6个，30×30((60-2)/2+1)的特征图，()内的式子是说明池化输出的计算过程：【池化输出大小＝[(输入大小-卷积核大小)/步幅]+1】，神经元数量30×30×6。

④第三层卷积层中使用了32个卷积核，每个卷积核的大小为5×5，输入图像大小30×30×6像素，输出特征图大小：26×26(30-5+1)像素，神经元数量26×26×32。

⑤第四层最大池化层，输入图像大小26×26×32像素，池化区域是2×2，步幅2，卷积核有32个，13×13((26-2)/2+1)的输出特征图，神经元数量13×13×32。

⑥第五层卷积层中使用了20个卷积核，每个卷积核的大小为4×4，输入图像大小13×13×32像素，输出特征图大小10×10(13-4+1)像素，神经元数量10×10×20。

⑦第六层最大池化层，输入图像大小10×10×20像素，池化区域是2×2，有20个5×5(10/2,10/2)输出特征图，神经元数量5×5×20。

⑧全连接层神经元数量72，填充入softmax函数。

⑨输出层有4个分类输出(分为1～4位数字，共4类)。

数字分类器进行具体数字的预测，采用如下图3所示的网络结构，包含3个卷积层、2个最大池化层、1个全连接层。

具体参数大小如下：

①本方法中输入图像的大小为64×64像素。

②第一层卷积层中使用了24个卷积核，每个卷积核的大小为7×7，步幅1，该层输出特征图大小58×58，神经元数量58×58×24。

③第二层最大池化层，输入图像大小58×58×24，池化区域是2×2，步幅2，卷积核有24个，29×29的特征图，神经元数量29×29×24。

④第三层卷积层中使用了128个卷积核，每个卷积核的大小为5×5，步幅1，输入图像大小29×29×24，该层输出特征图大小25×25，神经元数量25×25×128。

⑤第四层卷积层中使用了32个卷积核，每个卷积核的大小为6×6，步幅1，输入图像大小25×25×128，该层输出特征图大小20×20，神经元数量20×20×32。

⑥第五层最大池化层，输入图像大小20×20×32，池化区域是2×2，步幅2，卷积核有32个，10×10的特征图，神经元数量10×10×32。

⑦全连接层神经元数量1200，填充入softmax函数。

⑧输出层有1110个分类输出。

本方法中使用的融合规则考虑了长度分类器的前2个概率最大的输出。L(x)是输入的手写数字串x由i位(i＝1、2、3、4)数字组成的概率。设Top1和Top2是长度分类器输出概率值第一和第二高的取值。C(x)＝p^j(x)，(1<j<ω，ω∈[0…1110])，表示分类器C将输入的手写数字串x分配给每个类j的概率值为p^j(x)。

根据公式1将x分配给类ω_j。

符号说明：

P(ω_j|x)是x被分配给ω_j类的概率；

C_Top1(L)(x)是识别长度为Top1时，手写数字串x概率最高的分类的概率值；

C_Top2(L)(x)是识别长度为Top2时，手写数字串x概率最高的分类的概率值；

L(X)是手写数字串x被识别为i位数字的概率；

本方法中阈值T设置为0.95。

这里有一个概率小但可能会发生的事件：某个数量识别结果的概率超过阈值，但数字串识别结果中却没有数字数量等于该数量识别结果的数量识别结果(比如说数量识别结果为4的概率超过阈值)，这种情况下，输出识别错误信息并进行人工识别或重新识别。

需要说明的是，虽然本实施例只给出了数字串的识别方法，但是，本实施例的方法可以拓展到包括数字、字母、标点等领域，本发明的核心思想(长度识别与字符识别相融合)是不变的，只是具体的分类器需要进行一些调整。对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，可以对分类器做出若干改进和变形以使识别领域拓展到其他领域，这些改进和变形也应视为本发明的保护范围。

举例说明：

如图4所示，对输入图像60进行识别，长度分类器的识别结果中，概率最高的Top1识别为2位数字，该识别结果的概率为97％，大于阈值T。再对图像进行数字分类器的识别，数字分类器的识别结果为Top1:认为是数字串610，该识别结果的概率为55％；Top2:认为是数字串60，该识别结果的概率为35％。所以根据公式1，选择识别结果为2位数字的最高概率值，即60。

如图5所示，对输入图像837进行识别，长度分类器的识别结果中，概率最高的Top1识别为2位数字，该识别结果的概率为55％，概率第二高的Top2识别为3位数字，该识别结果的概率为45％，两种概率均小于阈值T的95％。再对图像进行数字分类器的识别，数字分类器的识别结果为Top1：认为是数字串837，该识别结果的概率为43％；Top2：认为是数字串831，该识别结果的概率为40％；Top3：认为是数字串87，该识别结果的概率为17％。所以根据公式1，选择识别结果为2或3位数字的最高概率值，即837。

实验结果：利用Caffe框架进行长度分类器实验中，分别使用400,000、79,157和79,742个样本(均匀分布)进行训练、验证和测试时，30,000次迭代训练模型耗时约90分钟。单个输入图像的分类大约需要0.4毫秒。对1位数字进行长度识别时，识别为1位数字的概率为99.9％；对2位数字进行长度识别时，识别为2位数字的概率为99.2％；对3位数字进行长度识别时，识别为3位数字的概率为96.9％，识别为2位数字的概率为0.9％；对4位数字进行长度识别时，识别为4位数字的概率为97.7％，识别为3位数字的概率为2.3％。

利用Caffe框架进行完成的数字识别实验中，分别使用400,000、79,157和79,742个样本(均匀分布)进行训练、验证和测试时，30,000次迭代训练模型耗时约9小时，单个输入图像的分类大约需要1.1毫秒。实验验证正确识别1位数字的概率为98.73％，正确识别2位数字的概率为96.82％，正确识别3位数字的概率为95.50％。

实施例三：

本实施例提供了一种针对手写连写字符串的识别装置，所述装置包括：

获取模块：用于获取连写字符串的图片；

本发明首先通过长度分类器识别数字串的数字数量，然后识别数字串的具体数字，将识别的数字串识别结果和数量识别结果相融合，从而获得更准确的识别结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种针对手写连写字符串的识别方法，其特征在于，包括以下步骤：

获取连写字符串的图片；

2.根据权利要求1所述的针对手写连写字符串的识别方法，其特征在于，融合所述连写字符串的概率最大的前两个的数量识别结果及其概率和所述连写字符串的多个字符串识别结果及其概率，获得输出结果的方法包括以下步骤：

3.根据权利要求1所述的针对手写连写字符串的识别方法，其特征在于，所述连写字符串为连写数字串；

识别连写数字串的方法包括以下步骤：

获取连写数字串的图片；

4.根据权利要求3所述的针对手写连写字符串的识别方法，其特征在于，融合所述连写数字串的概率最大的前两个的数量识别结果及其概率和所述连写数字串的多个数字串识别结果及其概率，获得输出结果的方法包括以下步骤：

5.根据权利要求4所述的针对手写连写字符串的识别方法，其特征在于，所述阈值为0.95。

6.根据权利要求3所述的针对手写连写字符串的识别方法，其特征在于，对所述连写数字串的图片进行长度识别，获取连写数字串的多个数量识别结果及其概率的方法包括以下步骤：

比较该数字串是1位、2位、3位或4位连写数字的概率，获取其中概率大小位于最大的前两位的数量识别结果及其概率。

7.根据权利要求6所述的针对手写连写字符串的识别方法，其特征在于，所述长度分类器为CNN卷积神经网络，包含三个卷积层、设置在每个卷积层后的最大池化层、全连接层和输出层；

8.根据权利要求7所述的针对手写连写字符串的识别方法，其特征在于，所述长度分类器的输入图像的大小为64×64像素；

所述第三层卷积层包括32个卷积核，每个卷积核的大小为5×5，输入图像大小为30×30×6，输出特征图大小：26×26，神经元数量为26×26×32。

9.所述第四层最大池化层的输入图像大小为26×26×32，池化区域为2×2，步幅为2，卷积核为32个，神经元数量为13×13×32；

所述第六层最大池化层的输入图像大小为10×10×20，池化区域是2×2，神经元数量5×5×20；

所述全连接层的神经元数量为72，填充有softmax函数；

所述输出层包括4个分类输出；

根据权利要求3所述的针对手写连写字符串的识别方法，其特征在于，对所述连写数字串的图片进行字符识别，获取连写数字串的多个数字串识别结果及其概率的方法包括：

10.一种针对手写连写字符串的识别装置，其特征在于，所述装置包括：

获取模块：用于获取连写字符串的图片；