CN112183494A

CN112183494A - 基于神经网络的文字识别方法、装置及存储介质

Info

Publication number: CN112183494A
Application number: CN202011223438.8A
Authority: CN
Inventors: 吴若昊
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-05

Abstract

本发明公开了一种基于神经网络的文字识别方法、装置及存储介质，所述方法包括：获取待识别的文字数据集；将所述文字数据集输入训练好的神经网络模型，其中，神经网络模型包含六层，其中，第一层为空洞卷积层，第二层和第三层为卷积层，第四层为最大池化层，第五层和第六层为全连接层；根据所述神经网络模型的输出得到文字识别结果。根据本发明公开的基于神经网络的文字识别方法，可以识别图片尺度较小的手写体文字，其神经网络层数更少，有效避免了损失函数弥散、不收敛等情况，而且大大提高了数据处理的效率。

Description

基于神经网络的文字识别方法、装置及存储介质

技术领域

本发明涉及文字识别技术领域，特别涉及一种基于神经网络的文字识别方法、装置及存储介质。

背景技术

随着时代的发展，对环保和资源节约方面的重视，无纸化办公成为当前数字化办公方面发展的热点。现有技术中，通过扫描、拍摄等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品中的文字转化为图像信息，或者直接获取图片、视频帧等图像信息，再采用文字识别技术将上述图像信息转化为文本。但是在日常的生产生活中，相当数量的票据、文档是手工书写的，人工归档录入需要消耗大量的物力与财力。而且手工书写的文本存在字体不规范、潦草、大小不一、不整齐等问题，常用的文字识别模型显然无法应对这种情况。因此，设计一种可识别手写体文字的方法是本领域技术人员面临的重大技术问题。

发明内容

本公开实施例提供了一种基于神经网络的文字识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本公开实施例提供了一种基于神经网络的文字识别方法，包括：

获取待识别的文字数据集；

将文字数据集输入训练好的神经网络模型，其中，神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层；

根据神经网络模型的输出得到文字识别结果。

在一个可选地实施例中，获取待识别的文字数据集之后，还包括：将文字数据集处理成单通道的灰度图像。

在一个可选地实施例中，神经网络模型包含六层，其中，第一层为空洞卷积层，第二层和第三层为卷积层，第四层为最大池化层，第五层和第六层为全连接层。

在一个可选地实施例中，第一层、第二层以及第三层输入输出的图像尺寸遵循以下公式：

其中，W_OUT为输出图像的尺寸，W_in为输入图像的尺寸，参数padding为用于填充边缘的层数，F为卷积核的尺寸，stride参数为卷积步长。

在一个可选地实施例中，空洞卷积层、卷积层和全连接层的激活函数为Relu激活函数。

在一个可选地实施例中，将数据集输入训练好的神经网络模型之前，还包括：

根据随机梯度下降算法将训练数据集分批输入神经网络模型进行训练；

根据交叉熵损失函数调整神经网络模型，得到训练好的神经网络模型。

第二方面，本公开实施例提供了一种基于神经网络的文字识别装置，包括：

获取模块，用于获取待识别的文字数据集；

输入模块，用于将文字数据集输入训练好的神经网络模型，其中，神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层；

识别模块，用于根据神经网络模型的输出得到文字识别结果。

在一个可选地实施例中，还包括：

文字处理模块，用于将文字数据集处理成单通道的灰度图像。

第三方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机可读指令，计算机可读指令可被处理器执行以实现上述实施例提供的一种基于神经网络的文字识别方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例提供了一种基于神经网络的文字识别方法，通过在神经网络模型中加入空洞卷积层，可以保证神经网络每层的特征都取自更大的感受野，可以保证每层的特征提取更侧重于两个较远像素之间的特征关系，因此本公开实施例中的神经网络模型，可以识别图片尺度较小的手写体文字，而且可以在保证准确率的情况下，减少网络层数，提高数据处理的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于神经网络的文字识别方法的流程示意图；

图2是根据一示例性实施例示出的一种神经网络模型的结构示意图；

图3是根据一示例性实施例示出的一种卷积核提取的感受野的示意图；

图4是根据一示例性实施例示出的一种空洞卷积层的数据处理示意图；

图5是根据一示例性实施例示出的一种基于神经网络的文字识别装置的结构示意图；

图6是根据一示例性实施例示出的一种计算机存储介质的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或一个以上实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

对于手写字体的单个汉字来将，图片尺度较小，汉字结构对最终的识别影响很大，例如，汉字“哈”是一个左右结构的汉字，有“口”和“合”二字共同构成，若使用较小的尺度特征，即普通卷积所使用的小感受野，在模型迭代训练次数不足的情况下容易造成识别上的错误，因此，现有技术中的方案对手写字体的识别准确率较低，而且现有技术中的神经网络层数较多，数据处理的速度也较低。本公开实施例提供的基于神经网络的文字识别方法，可以更好地识别手写体文字，可以大大提高数据处理的速度。

下面将结合附图1-附图4，对本申请实施例提供的基于神经网络的文字识别方法进行详细介绍。

参见图1，该方法具体包括以下步骤；

S101，获取待识别的文字数据集。

本公开实施例中的文字数据集可为手写体文字数据集，也可为非手写体的文字数据集。

在一种可能的实现方式中，获取手写体文字数据集，将所有的数据进行标注，并将同一个字放入同一个文件夹，手写字体字库部分将字体位置、字体大小设为随机参数，并生成文字图片。由于手写字体尺度偏小和模型结构对输入图片的限制，在输入时所有手写字体图片被处理成单通道的灰度图像。

可选地，输入的文字图片的尺寸可为48*48。

S102将文字数据集输入训练好的神经网络模型，其中，神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层。

在将数据集输入训练好的神经网络模型之前，还包括，训练神经网络模型。

具体地，首先构建训练数据集，可以采用中科院自动化研究所研究的开源手写汉字数据集HDWB数据集，该数据集由300个人手写而成，其中包含171个阿拉伯数字和特殊符号，3755类GB2312-80 level-1汉字，在此基础上额外包含少量开源的手写字体字库的数据进行训练，字体种类包含全部3755个一级汉字。将所有的数据进行标注并将同一个字放入同一个文件夹，手写字体字库部分将字体位置、字体大小设为随机参数，每个文字生成五张图片用于训练、两张图片用于测试。

由于手写字体尺度偏小和模型结构对输入图片的限制，在训练时所有手写字体图片被处理成单通道的灰度图，为保证全连接层神经元数量的匹配和字体图片缩放的时候的细节保存，输入图片的尺寸设定为48*48。

然后构建神经网络模型，为保证特征传递的有效性，避免梯度消失的情况，同时最大限度地减少神经网络深度，以加快迭代速度，神经网络设计为六层结构，本领域技术人员可根据需要改变神经网络的层数，本公开实施例不做具体限定。图2是根据一示例性实施例示出的一种神经网络模型的结构示意图。

如图2所示，神经网络模型包括六层，其中，第一层为空洞卷积层，空洞卷积是指在卷积核之间注入空洞，与传统标准的卷积不同的是，在卷积核的每个元素不是两两相邻的，相比于传统的卷积，空洞卷积拥有更大的感受野，而且其选取的特征尺度更大，可以保证在不增加参数量的条件下，不易过拟合并且可以在一定程度上加快训练速度。图3是根据一示例性实施例示出的一种卷积核提取的感受野的示意图。如图3所示，正常的卷积结构尺寸为3*3的卷积核，所提取的感受野如(a)所示，当空洞卷积的膨胀系数为2时，用同样的3*3卷积核所提取的感受野就增大到了7*7，如(b)所示。相对应的，空洞卷积神经网络是指在网络主要结构中包含空洞卷积层的一类卷积神经网络。

因为手写体图像的尺度较小，汉字比较密集，在提取特征的时候，为了保证准确率，需要将输入图像先送入空洞卷积层来提取较大尺度的信息，即较远距离的像素点之间的关联性的特征。通过在神经网络模型中加入空洞卷积层，可以保证神经网络每层的特征都取自更大的感受野，可以保证每层的特征提取更侧重于两个较远像素之间的特征关系。

图4是根据一示例性实施例示出的一种空洞卷积层的数据处理示意图，如图4所示，空洞卷积层的输入数据是尺寸为48*48的单通道原始图像，卷积核尺寸为3*3,步长s为2，padding参数为2，膨胀系数d为2，得到的特征图尺寸是25*25的64通道的特征张量。

第二层为卷积层，用于根据上一层输出的特征图，以卷积神经网络的方式提取高维度特征，该层的输入数据是来自上一层空洞卷积输出的25*25的64通道的特征张量，输出为尺寸是13*13的128维特征图。

在一种可能的实现方式中，使用128个尺寸为5*5*64的卷积核，并为了最大程度提取特征图边缘信息，边缘填充参数Padding设置为2，卷积的步长为2。

第三层为卷积层，用于根据上一层输出的特征图，以卷积神经网络的方式提取高维度特征，该层的输入数据是来自上一层卷积输出的13*13的128通道特征张量，使用256个尺寸为3*3*128的卷积核进行步长为1的卷积产生的特征张量尺寸是11*11*256。

第四层为池化层，用于减少传向全连接层的参数，并尽可能多的保存特征信息，该层的输入数据是来自上一层卷积输出的11*11的256维度的特征张量，池化运算感受野的尺寸是2*2，步长为2。输出的特征张量尺寸为5*5*256。

第五层为全连接层，该层的输入数据是来自上一层输出的5*5*256的特征张量，这一层有4096个卷积核，每个卷积核的大小是5*5*256，与输入特征图的尺寸相同，因此卷积后的像素层尺寸为4096*1*1，即有4096个神经元。这4096个神经元的运算结果，通过ReLU激活函数生成4096个值，并且通过Dropout函数随机的断开某些神经元的链接，来防止过拟合的情况发生。

第六层为全连接层，该层的输入是由上一层的4096个数据与3755个神经元进行全连接，经过训练后输出3755个float型的值，经过softmax函数归一化之后就是最终输出的预测结果。

可选地，上述第一层至第三层中的卷积层输入输出的图像尺寸遵循以下公式：

根据上述公式，本领域技术人员可自行调整神经网络的参数，本公开实施例不做具体限定。在实际任务中不可避免地出现数据集图片尺寸过小的情况，此时若将图片调整成48*48的尺寸则会出现不同程度的失真情况，可根据上文提供的输出特征张量尺寸公式，计算各层的输入输出张量尺寸，并在第一个全连接层相应修改输入特征张量尺寸。

可选的，本公开实施例所实验的数据集是包含GB2312国标码所确定的所有3755个一级汉字，若在现实使用场景中需要加入额外的汉字、字母、字符等，在数据集添加对应类别的训练数据之外，需要在开始训练前，在网络的最后一层全连接层的输出特征图尺寸，按数量对应修改。网络的最后一层全连接层输出的特征图尺寸需要按数量对应修改。

可选地，卷积层和全连接层的激活函数为Relu激活函数。在训练过程中，卷积神经网络提取输入的图像的特征，并将其送入到relu激活函数层，获得代表优化方向的梯度，并将特征图送入下一层神经网络。

在一种可能的实现方式中，将训练数据集输入构建好的神经网络模型进行训练，根据随机梯度下降算法将训练数据集分批输入神经网络模型中进行计算，每次使用一批数据,虽然不能反映整体数据的情况,不过却很大程度上加速了神经网络的训练过程,而且也不会损失太多准确率。然后根据交叉熵损失函数调整神经网络模型，得到训练好的神经网络模型。其中，在模型的训练阶段，经过训练会保存神经网络各层各神经元的权重参数。交叉熵损失函数可为：H(p,q)＝-∑p(x)logq(x)；

其中，p(x)和q(x)分别代表真实值和预测值的概率分布，H(p,q)即代表着样本x的交叉熵。

根据该步骤，可以得到训练好的神经网络模型，然后将待识别的数据集输入训练好的神经网络模型。

S103根据神经网络模型的输出得到文字识别结果。

具体地，将待识别的文字数据集转化为48*48的单通道灰度图，输入训练好的神经网络模型，经过训练时保存的权重参数计算最终在最后一层输出一个包含3755个分类，对应可识别的3755个汉字的概率分布，概率值最高的即为预测值，得到文字识别结果。

本公开实施例提供的基于神经网络的文字识别方法，通过在神经网络模型中加入空洞卷积层，可以保证神经网络每层的特征都取自更大的感受野，适应于类似手写汉字图片这类小尺度数据，其神经网络结构更浅，有效避免了损失函数弥散、不收敛等情况。在小尺度图像数据上有更高的有效性与鲁棒性，而且大大提高了数据处理的速度。

本公开实施例还提供一种基于神经网络的文字识别装置，该装置用于执行上述实施例的文字识别方法，如图5所示，该装置包括：

获取模块501，用于获取待识别的文字数据集；

输入模块502，用于将文字数据集输入训练好的神经网络模型，其中，神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层；

识别模块503，用于根据神经网络模型的输出得到文字识别结果。

在一个可选地实施例中，还包括：

在一个可选地实施例中，还包括：

模型训练模块，用于根据随机梯度下降算法将训练数据集分批输入神经网络模型进行训练；根据交叉熵损失函数调整神经网络模型，得到训练好的神经网络模型。

本公开实施例提供的基于神经网络的文字识别装置，通过在神经网络模型中加入空洞卷积层，可以保证神经网络每层的特征都取自更大的感受野，适应于类似手写汉字图片这类小尺度数据，其神经网络结构更浅，有效避免了损失函数弥散、不收敛等情况。在小尺度图像数据上有更高的有效性与鲁棒性，而且大大提高了数据处理的速度。

需要说明的是，上述实施例提供的基于神经网络的文字识别装置在执行基于神经网络的文字识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于神经网络的文字识别装置与基于神经网络的文字识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

本公开实施例还提供一种与前述实施例所提供的基于神经网络的文字识别方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘600，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施例所提供的基于神经网络的文字识别方法。

需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于神经网络的文字识别方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于神经网络的文字识别方法，其特征在于，包括：

获取待识别的文字数据集；

将所述文字数据集输入训练好的神经网络模型，其中，所述神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层；

根据所述神经网络模型的输出得到文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的文字数据集之后，还包括：

将所述文字数据集处理成单通道的灰度图像。

3.根据权利要求1所述的方法，其特征在于，所述神经网络模型包含六层，其中，第一层为空洞卷积层，第二层和第三层为卷积层，第四层为最大池化层，第五层和第六层为全连接层。

4.根据权利要求3所述的方法，其特征在于，第一层、第二层以及第三层输入输出的图像尺寸遵循以下公式：

其中，W_OUT为输出图像的尺寸，W_in为输入图像的尺寸，padding为用于填充边缘的层数，F为卷积核的尺寸，stride为卷积步长。

5.根据权利要求1所述的方法，其特征在于，所述空洞卷积层、卷积层和所述全连接层的激活函数为Relu激活函数。

6.根据权利要求1所述的方法，其特征在于，将所述文字数据集输入训练好的神经网络模型之前，还包括：

根据交叉熵损失函数调整所述神经网络模型，得到训练好的神经网络模型。

7.一种基于神经网络的文字识别装置，其特征在于，包括：

获取模块，用于获取待识别的文字数据集；

输入模块，用于将所述文字数据集输入训练好的神经网络模型，其中，所述神经网络模型包括依次连接的空洞卷积层、卷积层、池化层以及全连接层；

识别模块，用于根据所述神经网络模型的输出得到文字识别结果。

8.根据权利要求7所述的装置，其特征在于，还包括：

文字处理模块，用于将所述文字数据集处理成单通道的灰度图像。

9.根据权利要求7所述的装置，其特征在于，所述神经网络模型包含六层，其中，第一层为空洞卷积层，第二层和第三层为卷积层，第四层为最大池化层，第五层和第六层为全连接层。

10.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至6任一项所述的一种基于神经网络的文字识别方法。