CN111539417B

CN111539417B - 一种基于深度神经网络的文本识别训练优化方法

Info

Publication number: CN111539417B
Application number: CN202010351097.6A
Authority: CN
Inventors: 夏路遥; 侯进; 黄贤俊
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Shenyuan Hengji Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-04-05
Anticipated expiration: 2040-04-28
Also published as: CN111539417A

Abstract

本发明公开了一种基于深度神经网络的文本识别训练优化方法，属于计算机视觉技术领域。本发明所述训练方法，通过降低连续错误或连续正确的次数较多的样本加入训练的概率，可以降低人工标注错误带来的影响，同时提高低频词出现的频率，并对训练样本的总量做了筛选，可以更快的让模型收敛，降低训练耗时。可以提高识别模型的准确率。

Description

一种基于深度神经网络的文本识别训练优化方法

技术领域

本发明属于计算机视觉技术领域，特别是涉及文本检测与识别技术。

背景技术

OCR （Optical Character Recognition光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将文字图像翻译成计算机文字的过程。目前，许多公司都有图片电子化的需要，例如将用户提供的大量的报销票据或个人证件等文本类的图片，转变为系统内所需要的相关数据，而将图片转为电子数据的这项技术靠的就是OCR。目前的OCR技术，分为检测和识别两个模块，检测模块负责将文字区域检测出来，识别模块负责将检测出来的区域裁剪出来并识别为对应文字。

现有的OCR技术中，识别模型的训练需要大量的文本标注数据，文本标注数据通常会存在人工标注错误、模糊字段存在不同人标注不同等问题，从而影响识别模型的训练效果；并且识别模型本身的准确率会受到原始数据样本分布的影响：对大量出现的文本有较高的准确率，但是频率较低的文本则准确率较低，识别模型的训练耗时较长，且容易出现误识别为高频率相似字的现象。本发明主要解决的就是数据样本分布不均带来的问题。

发明内容

针对上述技术问题，本发明提出了一种基于深度神经网络的文本识别训练优化方法，本训练方法，可以降低人工标注错误带来的影响，同时提高低频词出现的频率，并对训练样本的总量做了筛选，可以更快的让模型收敛，降低训练耗时。可以提高识别模型的准确率。

本发明包含以下技术方案：

一种基于深度神经网络的文本识别训练优化方法，包括以下步骤：

（1）训练开始，从存储的缓存中读取训练数据；

（2）判断当前训练数据的训练状态，所述训练状态为连续识别错误次数或连续识别正确次数，其取值范围为连续错误10次至连续正确10次，超过10次的以10次记；

（3）按照连续错误或连续正确的次数越多，下次加入训练的概率越低的原则确定对应数据下次加入训练的概率；

（4）根据步骤（3）确定的下次加入训练的概率对数据进行训练；

（5）进行多个轮次的训练，得到训练优化后的样本分布。

在该文本识别训练优化方法中，随着训练的次数的增加，不断减低连续识别错误次数或连续识别正确次数较高的数据的加入概率；容易识别正确（连续正确）的样本加入概率会不断降低，容易识别错误（连续错误）的样本加入概率也会降低。容易正确的样本，一般是高频率的词，降低加入概率，可以降低此类样本带来的过拟合。一直错误的样本，往往是标注错误或者样本本身较为模糊的，这些样本对模型本身有负面作用的。剩下那些经常在正确与错误之间切换状态的样本，则是我们希望通过训练可以提高准确率的样本。

作为可选方式，在上述文本识别训练优化方法中，所述轮次在100以上。

作为可选方式，在上述文本识别训练优化方法中，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误或连续正确的次数小于n时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于n时，随着连续错误或连续正确的次数的增加，对应数据下次加入训练的概率依次减半，所述n的取值为3或4或5或6或7，n 的具体取值可根据应用实际灵活选择。

作为可选方式，在上述文本识别训练优化方法中，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误的次数小于4时，对应数据下次加入训练的概率为100%，当连续错误的次数大于或等于4时，随着连续错误的次数的增加，对应数据下次加入训练的概率依次减半；当连续正确的次数小于7时，对应数据下次加入训练的概率为100%，当连续正确的次数大于或等于7时，随着连续正确的次数的增加，对应数据下次加入训练的概率依次减半。

作为可选方式，在上述文本识别训练优化方法中，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误或连续正确的次数小于n时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于n时，随着连续错误或连续正确的次数的增加，对应数据下次加入训练的概率依次递减10%，所述n的取值为5、6、7或8。

作为可选方式，在上述文本识别训练优化方法中，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误的次数小于6时，对应数据下次加入训练的概率为100%，当连续错误的次数为6时，对应数据下次加入训练的概率为85%，当连续错误的次数为7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%；当连续正确的次数小于5时，对应数据下次加入训练的概率为100%，当连续正确的次数等于5时，对应数据下次加入训练的概率为85%，当连续错误的次数为6、7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%。

在上述文本识别训练优化方法中，所述步骤（3）中确定对应数据下次加入训练的概率的方法并不局限于上述几种可选方式，只需要符合连续正确或连续错误的次数越多的样本加入概率越低即可。

作为可选方式，在上述文本识别训练优化方法中，所述步骤（4）中，先随机生成一个0-1的三位小数，如果所得数值大于对应数据下次加入训练的概率，则该数据不加如本轮训练，如果所得数值小于等于对应数据下次加入训练的概率，则将对应数据加入本轮训练，并根据训练后数据是否识别正确，更新数据的训练状态。

本发明还提供了一种基于深度神经网络的文本识别方法，包括以下步骤：

（1）对原始文本进行人工标注，标注出处文本区域与文本内容；

（2）建立文本检测模型，并使用步骤（1）标注的文本区域数据来训练文本检测模型；

（3）建立文本识别模型，并结合步骤（1）标注的文本识别内容采用上述任意一种文本识别训练优化方法来训练文本识别模型。

作为可选方式，在上述文本识别方法中，所述文本检测模型可以使用FasterRCNN、SSD、YOLO、YOLO-v2等通用的目标检测算法中的任意一种，也可以使用专门为文字检测优化过后的算法：比如：EAST，RRCNN，TextBoxes， CTPN等。

作为可选方式，在上述文本识别方法中，所述文本检测模型为Faster RCNN，具体包括以下步骤：

1）深度卷积网络（conv layers）提取文本图片抽象特征（feature maps）；

2）使用区域候选网络推荐候选文本区域；

3）从候选区域回归票据的精准区域。

该模型主要基于的是目前发展较好的深度卷积神经网络进行检测，目前是对较为成熟的Faster RCNN框架进行改良，该框架的基础版本对于较大的物体有比较高的准确率。框架的的流程为：I.对图片提取特征，II.枚举大量的矩形来试图回归出对应的物体，III.将枚举出的矩形分成2类：包含目标且交集较大的正样本和其他负样本，IV.将正样本从特征图中裁剪出来，然后根据特征图去回归目标的边界。

作为可选方式，在上述文本识别方法中，所述文本识别模型为CNN+RNN模型。该模型通过深度循环网络进行文字串识别，结合了 CNN与RNN,由CNN提取图像特征，对特征图进行横向切片，然后采用LSTM循环网络进行推理文本 ,最后采用CTC损失函数计算预测字符串与标注的差距，完成端到端的训练。

作为可选方式，在上述文本识别方法中，所述文本识别模型具体包括以下步骤：

1）使用卷积网络提取耳标图片特征；

2）将上述特征输入LSTM构成的双向循环神经网络；

3）使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本发明的有益效果：

本发明所述训练方法，可以降低人工标注错误带来的影响，同时提高低频词出现的频率，并对训练样本的总量做了筛选，可以更快的让模型收敛，降低训练耗时。可以提高识别模型的准确率。

附图说明：

图1为本发明所述智能仓储零配件视频识别检索系统的结构示意图；

图2为本发明所述智能仓储零配件视频识别检索系统工作流程图；

图3为本发明所述数据采集前端智能穿戴眼镜的结构示意图；

图4为本发明所述箱签和零配件签的示意图。

具体实施方式：

以下通过实施例的具体实施方式以票据的文本检测和识别为例再对本发明的上述内容作进一步的详细说明。但不应当将此理解为本发明上述主题的范围仅限于以下的实例，本发明所述方法可以适用于票据之外的其他文本的检测和识别。在不脱离本发明的精神和原则之内做的任何修改，以及根据本领域普通技术知识和惯用手段做出的等同替换或者改进，均应包括在本发明的保护范围内。

实施例1

一种基于深度神经网络的文本识别方法，包括以下工作流程：

（1）对原始的票据进行标注，标注出处文字区域与文本内容；

（2）使用标注的文本区域数据，用faster-rcnn框架来训练文本检测的基础模型；

（3）使用标注的文本识别内容来训练CNN+RNN的文本识别模型。

其中步骤（2）用于票据检测（即从图片中检测文字串）的Faster RCNN算法的基本流程如图1所示，具体包括：

1)深度卷积网络（conv layers）提取票据图片抽象特征（feature maps）；

2)使用区域候选网络推荐候选票据区域；

3)从候选区域回归票据的精准区域。

其中，步骤（3）中裁剪旋正后的票据图片的文字识别算法结合了深度卷积神经网络和循环神经网络，共同实现图片到文字的转换。其算法原理如图2所示，具体为：

1)使用卷积网络提取耳标图片特征

2)将上述特征输入LSTM构成的双向循环神经网络

3)使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

其中，所述步骤（3）中文本识别模型的训练方法如图3所示，具体为：

1）训练开始，从存储的缓存中读取训练数据；

2）判断当前训练数据的训练状态，所述训练状态为连续识别错误次数或连续识别正确次数，其取值范围为连续错误10次至连续正确10次，超过10次的以10次记；

3）按照连续错误或连续正确的次数越多，下次加入训练的概率越低的原则确定对应数据下次加入训练的概率，具体如图4所示，当连续错误的次数小于4时，对应数据下次加入训练的概率为100%，当连续错误的次数大于或等于4时，随着连续错误的次数的增加，对应数据下次加入训练的概率依次减半；当连续正确的次数小于7时，对应数据下次加入训练的概率为100%，当连续正确的次数大于或等于7时，随着连续正确的次数的增加，对应数据下次加入训练的概率依次减半；

4）根据步骤3）确定的下次加入训练的概率对数据进行训练；

5）进行多个轮次的训练，得到训练优化后的样本分布。

采用本实施例所述的训练方法，一般训练完所有训练数据大概100个轮次模型可以收敛到比较高的准确率，通过数据过滤，相对于传统的训练方法，本实施例训练样本总数可以下降69%，训练的迭代时间降低61%，同时，通过此方法修改样本分布之后，平均错误率可以降低12%。

实施例2

（2）使用标注的文本区域数据，用YOLO框架来训练文本检测的基础模型；

1)使用卷积网络提取耳标图片特征

2)将上述特征输入LSTM构成的双向循环神经网络

1）训练开始，从存储的缓存中读取训练数据；

3）按照连续错误或连续正确的次数越多，下次加入训练的概率越低的原则确定对应数据下次加入训练的概率，当连续错误或连续正确的次数小于5时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于5时，随着连续错误或连续正确的次数的增加，对应数据下次加入训练的概率依次减半；

5）进行多个轮次的训练，得到训练优化后的样本分布。

采用本实施例所述的训练方法，一般训练完所有训练数据大概120个轮次模型可以收敛到比较高的准确率，通过数据过滤，相对于传统的训练方法，本实施例训练样本总数可以下降65%，训练的迭代时间降低57%，同时，通过此方法修改样本分布之后，平均错误率可以降低11%。

实施例3

（2）使用标注的文本区域数据，用EAST框架来训练文本检测的基础模型；

1)使用卷积网络提取耳标图片特征

2)将上述特征输入LSTM构成的双向循环神经网络

1）训练开始，从存储的缓存中读取训练数据；

3）按照连续错误或连续正确的次数越多，下次加入训练的概率越低的原则确定对应数据下次加入训练的概率，当连续错误的次数小于6时，对应数据下次加入训练的概率为100%，当连续错误的次数为6时，对应数据下次加入训练的概率为85%，当连续错误的次数为7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%；当连续正确的次数小于5时，对应数据下次加入训练的概率为100%，当连续正确的次数等于5时，对应数据下次加入训练的概率为85%，当连续错误的次数为6、7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%；

5）进行多个轮次的训练，得到训练优化后的样本分布。

采用本实施例所述的训练方法，一般训练完所有训练数据大概150个轮次模型可以收敛到比较高的准确率，通过数据过滤，相对于传统的训练方法，本实施例训练样本总数可以下降50%，训练的迭代时间降低50%，同时，通过此方法修改样本分布之后，平均错误率可以降低10%。

以上所述仅为本发明的优选实施例，对本发明而言仅是说明性的，而非限制性的；本领域普通技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效变更，但都将落入本发明的保护范围。

Claims

1.一种基于深度神经网络的文本识别训练优化方法，其特征在于，包括以下步骤：

（1）训练开始，从存储的缓存中读取训练数据；

（4）根据步骤（3）确定的下次加入训练的概率对数据进行训练，具体为：先随机生成一个0-1的三位小数，如果所得数值大于对应数据下次加入训练的概率，则该数据不加入本轮训练，如果所得数值小于等于对应数据下次加入训练的概率，则将对应数据加入本轮训练，并根据训练后数据是否识别正确，更新数据的训练状态；

（5）进行100个轮次以上的训练，得到训练优化后的样本分布。

2.根据权利要求1所述的文本识别训练优化方法，其特征在于，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误或连续正确的次数小于n时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于n时，随着连续错误或连续正确的次数的增加，对应数据下次加入训练的概率依次减半，所述n的取值为3或4或5或6或7。

3.根据权利要求1所述的文本识别训练优化方法，其特征在于，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误的次数小于4时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于4时，随着连续错误的次数的增加，对应数据下次加入训练的概率依次减半；当连续正确的次数小于7时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于7时，随着连续错误的次数的增加，对应数据下次加入训练的概率依次减半。

4.根据权利要求1所述的文本识别训练优化方法，其特征在于，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误或连续正确的次数小于n时，对应数据下次加入训练的概率为100%，当连续错误或连续正确的次数大于或等于n时，随着连续错误或连续正确的次数的增加，对应数据下次加入训练的概率依次递减10%，所述n的取值为7或8。

5.根据权利要求1所述的文本识别训练优化方法，其特征在于，所述步骤（3）中确定对应数据下次加入训练的概率的方法具体为：当连续错误的次数小于6时，对应数据下次加入训练的概率为100%，当连续错误的次数为6时，对应数据下次加入训练的概率为85%，当连续错误的次数为7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%；当连续正确的次数小于5时，对应数据下次加入训练的概率为100%，当连续正确的次数等于5时，对应数据下次加入训练的概率为85%，当连续错误的次数为6、7、8、9、10时，对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%。

6.一种基于深度神经网络的文本识别方法，其特征在于，包括以下步骤：

（3）建立文本识别模型，并结合步骤（1）标注的文本识别内容采用权利要求1所述的文本识别训练优化方法来训练文本识别模型。

7.根据权利要求6所述的文本识别方法，其特征在于，所述文本检测模型为FasterRCNN、SSD、YOLO、YOLO-v2、EAST，RRCNN、TextBoxes、 CTPN中的一种。

8.根据权利要求6所述的文本识别方法，其特征在于，所述文本检测模型为FasterRCNN，具体包括以下步骤：

1）深度卷积网络提取文本图片抽象特征；

2）使用区域候选网络推荐候选文本区域；

3）从候选区域回归票据的精准区域。

9.根据权利要求6所述的文本识别方法，其特征在于，所述文本识别模型为CNN+RNN模型。

10.根据权利要求6所述的文本识别方法，其特征在于，所述文本识别模型具体包括以下步骤：

1）使用卷积网络提取目标图片特征；

2）将上述特征输入LSTM构成的双向循环神经网络；