CN109670494A

CN109670494A - 一种附带识别置信度的文本检测方法及系统

Info

Publication number: CN109670494A
Application number: CN201811526406.8A
Authority: CN
Inventors: 夏路遥; 黄贤俊
Original assignee: Shenzhen Yuan Heng Technology Co Ltd
Current assignee: Shenzhen Yuan Heng Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-23
Anticipated expiration: 2038-12-13
Also published as: CN109670494B

Abstract

本发明公开了一种附带识别置信度的文本检测方法及系统，检测方法包括对原始图片进行标注，标注图片文本区域和文本内容；基于标注的图片文本区域，训练检测模型；基于标注的文本内容，训练识别模型；基于检测模型与识别模型对原始图片进行预测，得到图片文本区域和文本内容的预测结果；基于预测的图片文本区域和文本内容与标注的图片文本区域和文本内容进行比对，生成文本区域识别难易程度标签；基于新标注的图片文本区域和文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度的文本检测模型。

Description

一种附带识别置信度的文本检测方法及系统

技术领域

本发明涉及文本检测技术领域，具体涉及一种附带识别置信度的文本检测方法及系统。

背景技术

OCR(Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。目前，保险公司在处理各种医疗案件时候，需要将用户提供的大量的报销票据或复印件的图片电子化，转变为案件所需要的的医疗数据，这部分工作需要大量的人力，而将图片转为电子数据的这项技术靠的就是OCR。

目前的OCR技术，分为检测和识别两个模块，检测模型有其置信度，代表检测出来的区域为文本的置信度；识别模型也有其置信度，代表的是裁剪出来的图像识别出正确文本的置信度。在实际使用场景中，这两个置信度都有其局限性，无法真正的表示出这个文本正确的概率。前者，对于模糊或者有遮挡的文字仍然可以正常检测出，当时往往识别难以正确，而后者，如果遇到区域有切字，会出现置信度较高但是实际错误的情况，又或者文本较长(但本身较为清楚)时，往往会出现置信度较低，但实际上正确的情况。

发明内容

针对上述问题中存在的不足之处，本发明提供一种附带识别置信度的文本检测方法及系统。

本发明公开了一种附带识别置信度的文本检测方法，包括：

对原始图片进行标注，标注图片文本区域和文本内容；

基于标注的图片文本区域，训练检测模型；

基于标注的文本内容，训练识别模型；

基于所述检测模型与识别模型对所述原始图片进行预测，得到图片文本区域和文本内容的预测结果；

基于预测的图片文本区域和文本内容与标注的图片文本区域和文本内容进行比对，生成文本区域识别难易程度标签；

基于新标注的图片文本区域和所述文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度的文本检测模型。

作为本发明的进一步改进，所述训练检测模型包括：

基于标注的图片文本区域，采用Faster-RCNN、SSD、YOLO、YOLO-v2、EAST、RRCNN或TextBoxes目标检测算法训练检测模型。

作为本发明的进一步改进，基于标注的图片文本区域，采用Faster-RCNN目标检测算法训练检测模型；包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域。

作为本发明的进一步改进，所述训练识别模型的文字识别算法结合深度卷积神经网络和循环神经网络，实现图片到文字的转换，包括：

基于深度卷积网络提取图片特征；

将图片特征输入LSTM构成的双向循环神经网络；

使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

作为本发明的进一步改进，所述生成文本区域识别难易程度标签包括：

若标注的图片文本区域与预测的图片文本区域的交集大于预设阈值，则生成“容易识别”的文本区域识别标签；否则，生成“难以识别”的文本区域识别标签；

若标注的文本内容与预测的文本内容一致，则生成“容易识别”的文本区域识别标签；否则，生成“难以识别”的文本区域识别标签。

作为本发明的进一步改进，所述训练新的带有文本识别难易程度置信度的文本检测模型包括：

基于新标注的图片文本区域和所述文本区域识别难易程度标签，采用改进的Faster-RCNN框架训练新的带有文本识别难易程度置信度的文本检测模型。

作为本发明的进一步改进，所述改进的Faster-RCNN框架训练新的带有文本识别难易程度置信度的文本检测模型包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域；

从候选区域回归文本的识别难易。

本发明还提供一种附带识别置信度的文本检测系统，包括：

标注模块，用于对原始图片进行标注，标注图片文本区域和文本内容；

检测模型训练模块，用于基于标注的图片文本区域，训练检测模型；

识别模型训练模块，用于基于标注的文本内容，训练识别模型；

预测模块，用于基于所述检测模型与识别模型对所述原始图片进行预测，得到图片文本区域和文本内容的预测结果；

比较模块，用于基于预测的图片文本区域和文本内容与标注的图片文本区域和文本内容进行比对，生成文本区域识别难易程度标签；

训练模块，用于基于新标注的图片文本区域和所述文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度的文本检测模型。

与现有技术相比，本发明的有益效果为：

本发明在文本检测和文本识别中能获取极高的准确率，对图片做提取特征的处理，使得在复杂场景也能达到超高准确率；

本发明的目标检测自带置信度是对目标定位是否足够准确的一种评估指标，并不能真正的代表检测识别出来的文本是否可用，在实际场景中，新的识别置信度代表的是文本的识别难易程度，对于使用者意义更加明确，使用上更加方便。

附图说明

图1为本发明一种实施例公开的附带识别置信度的文本检测方法的流程图；

图2为本发明一种实施例公开的附带识别置信度的文本检测系统的框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明公开了一种附带识别置信度的文本检测方法，包括：

步骤1、对原始图片进行标注，标注图片文本区域和文本内容；

步骤2、基于标注的图片文本区域，训练检测模型；

步骤3、基于标注的文本内容，训练识别模型；

步骤4、基于检测模型与识别模型对原始图片进行预测，得到图片文本区域和文本内容的预测结果；

步骤5、基于预测的图片文本区域和文本内容与标注的图片文本区域和文本内容进行比对，生成文本区域识别难易程度标签；

步骤6、基于新标注的图片文本区域和文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度的文本检测模型。

其中：

本发明的训练检测模型的检测算法采用Faster-RCNN、SSD、YOLO、YOLO-v2、EAST、RRCNN或TextBoxes等通用的目标检测算法。

Faster-RCNN检测算法的原理为：

基于深度卷积网络(conv layers)提取原始图片(票据图片)抽象特征(featuremaps)；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域。

Faster-RCNN检测算法的流程为：

1、对图片提取特征；

2、枚举大量的矩形来试图回归出对应的物体；

3、将枚举出的矩形分成2类：包含目标且交集较大的正样本和其他负样本；

4、.将正样本从特征图中裁剪出来，然后根据特征图去回归目标的边界；

5、根据其识别难度，区分图像是否为易识别，容易对的且边界回归较好的区域。

本发明文字识别算法结合了深度卷积神经网络和循环神经网络，共同实现图片到文字的转换。其算法原理如下：

使用卷积网络提取耳标图片特征；

将上述特征输入LSTM构成的双向循环神经网络；

使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

本发明文字识别算法的流程为：

深度循环网络进行文字串识别，结合了CNN与RNN,由CNN提取图像特征，对特征图进行横向切片，然后采用LSTM循环网络进行推理文本,最后采用CTC损失函数计算预测字符串与标注的差距，完成端到端的训练。

本发明在步骤5中生成文本区域识别难易程度标签包括：

若标注的图片文本区域与预测的图片文本区域的交集大于预设阈值(一般取0.5–0.7)，则生成“容易识别”的文本区域识别标签；否则，生成“难以识别”的文本区域识别标签；

本发明在步骤6中训练新的带有文本识别难易程度置信度的文本检测模型包括：

基于新标注的图片文本区域和文本区域识别难易程度标签，采用改进的Faster-RCNN框架训练新的带有文本识别难易程度置信度的文本检测模型。

本发明带识别难易程度的检测模型，是在Faster-RCNN的基础上进行的改良的检测模型；改进的Faster-RCNN框架训练新的带有文本识别难易程度置信度的文本检测模型包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域；

从候选区域回归文本的识别难易。

如图2所示，本发明还提供一种附带识别置信度的文本检测系统，包括：

预测模块，用于基于检测模型与识别模型对原始图片进行预测，得到图片文本区域和文本内容的预测结果；

训练模块，用于基于新标注的图片文本区域和文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度的文本检测模型。

其中：

Faster-RCNN检测算法的原理为：

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域。

Faster-RCNN检测算法的流程为：

1、对图片提取特征；

2、枚举大量的矩形来试图回归出对应的物体；

使用卷积网络提取耳标图片特征；

将上述特征输入LSTM构成的双向循环神经网络；

使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

本发明文字识别算法的流程为：

本发明在步骤5中生成文本区域识别难易程度标签包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域；

从候选区域回归文本的识别难易。

本发明的优点为：

本发明在文本检测和文本识别中能获取极高的准确率，对图片做提取特征的处理，使得在复杂场景也能达到超高准确率；本发明的目标检测自带置信度是对目标定位是否足够准确的一种评估指标，并不能真正的代表检测识别出来的文本是否可用，在实际场景中，新的识别置信度代表的是文本的识别难易程度，对于使用者意义更加明确，使用上更加方便。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种附带识别置信度的文本检测方法，其特征在于，包括：

对原始图片进行标注，标注图片文本区域和文本内容；

基于标注的图片文本区域，训练检测模型；

基于标注的文本内容，训练识别模型；

基于新标注的图片文本区域和所述文本区域识别难易程度标签，训练新的带有文本识别难易程度置信度文本检测模型。

2.如权利要求1所述的附带识别置信度的文本检测方法，其特征在于，所述训练检测模型包括：

3.如权利要求2所述的附带识别置信度的文本检测方法，其特征在于，基于标注的图片文本区域，采用Faster-RCNN目标检测算法训练检测模型；包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域。

4.如权利要求1所述的附带识别置信度的文本检测方法，其特征在于，所述训练识别模型的文字识别算法结合深度卷积神经网络和循环神经网络，实现图片到文字的转换，包括：

基于深度卷积网络提取图片特征；

将图片特征输入LSTM构成的双向循环神经网络；

使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

5.如权利要求1所述的附带识别置信度的文本检测方法，其特征在于，所述生成文本区域识别难易程度标签包括：

6.如权利要求1所述的附带识别置信度的文本检测方法，其特征在于，所述训练新的带有文本识别难易程度置信度的文本检测模型包括：

7.如权利要求6所述的附带识别置信度的文本检测方法，其特征在于，所述改进的Faster-RCNN框架训练新的带有文本识别难易程度置信度的文本检测模型包括：

基于深度卷积网络提取原始图片抽象特征；

使用区域候选网络推荐原始图片的候选区域；

从候选区域回归文本的精准区域；

从候选区域回归文本的识别难易。

8.一种如权利要求1-7中任一项所述的附带识别置信度的文本检测方法的文本检测系统，其特征在于，包括：