CN112287898A

CN112287898A - 一种图像的文本检测质量评价方法及系统

Info

Publication number: CN112287898A
Application number: CN202011348987.8A
Authority: CN
Inventors: 丛建亭; 黄贤俊; 侯进
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Shenyuan Hengji Technology Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-01-29

Abstract

本发明公开了一种图像的文本检测质量评价方法及系统，包括：对图像进行文本检测和可视化绘制，得到文本检测行对象；筛选概率小于预设值的文本检测行对象，构成待评价对象集合；采用深度学习分类网络，依次对对象集合中每个文本检测行对象的可视化图像区域进行质量分类评价；其中，评价结果包括“可视化质量差”和“可视化质量良好”；输出“可视化质量差”的文本检测行对象，构成待质检修正对象集合。本发明采用了深度学习分类网络学习文本检测的可视化主观视觉质量，准确率高；相比仅用阈值逻辑区分方式更加符合人眼主观视觉感受，进一步提高票据文本检测标注过程中的处理效率，降低企业人力运营成本。

Description

一种图像的文本检测质量评价方法及系统

技术领域

本发明涉及文本检测质量评价技术领域，具体涉及一种图像的文本检测质量评价方法及系统，适用于票据等图像。

背景技术

文本检测:文本检测就是找出每个文本在图片中出现的位置，通常类别只有2个"有文字和没文字"。

质量评价：图像质量评价方法有主观评价和客观评价两个分支。主观评价以人作为观测者，对图像进行主观评价，力求能够真实地反映人的视觉感知；客观评价方法借助于某种数学模型，反映人眼的主观感知，给出基于数字计算的结果。

OCR(Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。图像文字识别的解决方案通常是文本检测和文字识别两个步骤，文本检测用来定位图像中的文本行，文字识别则对文本行做进一步的识别，从而得到结构化得到文本信息。

2012年以来，深度学习在图片识别领域取得非常大的进步。相比传统的图片识别方法使用的色彩、HOG等低级视觉特征；深度神经网络能学得更多高级的、抽象的特征，这使得深度神经网络的性能远远超越传统方法。2014年以来，深度学习开始在物体检测、物体分割等领域取得优秀成果，涌现出Deeplab、YOLO、Faster RCNN等一序列方法，识别准确率在特定任务上已经超越了人类识别的水平，并在生成环境中得到大规模使用。

其中，文本检测现在多流行端到端的深度学习网络实现，包括训练环节和推理环节，通常情况下对文本检测训练后的模型做质量评价时通常采用有标注ground truth的方式评估模型的召回和准确率，从而获得模型的性能参数。对票据图像来说，票据中的文本行经常会特别丰富，有的票据多达几百个文本行目标，因此票据图像数据标注工作非常消耗人工成本，同时一个人完成一张票据图像修正也会消耗大量时间和精力，更容易使得人工疲劳。

虽然现在业内都会采用预标注文本检测框来改善票据图像数据标注效率，但为了获取高质量的文本检测训练数据，即使对单张票据图像的文本检测行做质检修正，由于目标数量很大，仍然是一个效率不够高的标注过程。

基于上述情况，为改善票据图像标注质检效率、节省人工标注成本、获取高质量文本检测训练图像数据，是非常有必要对无标注ground truth的票据图像的文本行做质量评价，标注时仅关注质量评价不高的文本行对象即可。

同时，通常文本检测对象的质量评价可以采用概率score设置阈值来实现，但概率具有一定的局限性，与人眼主观偏差较大；部分概率值偏小的图像从人眼主观视觉上判断也是质量良好的，即使其概率由于某些原因不如周围的文本对象。

发明内容

针对现有技术中存在的上述问题，本发明提供一种图像的文本检测质量评价方法及系统，其基于深度学习网络对单个文本行对象的可视化图像区域做出质量分类评价，分类结果包括“可视化质量差”和“可视化质量良好”两类，进一步提高改善疑似问题的文本行对象的人工质检修正效率。

本发明公开了一种图像的文本检测质量评价方法，包括：

对图像进行文本检测和可视化绘制，得到文本检测行对象；

筛选概率小于预设值的文本检测行对象，构成待评价对象集合；

采用深度学习分类网络，依次对所述对象集合中每个文本检测行对象的可视化图像区域进行质量分类评价；其中，评价结果包括“可视化质量差”和“可视化质量良好”；

输出“可视化质量差”的文本检测行对象，构成待质检修正对象集合。

作为本发明的进一步改进，所述文本检测的算法包括Faster RCNN、R2CNN、Mask_RCNN中的一种。

作为本发明的进一步改进，采用矩形框进行可视化绘制。

作为本发明的进一步改进，筛选概率小于0.8的文本检测行对象，构成待评价对象集合。

作为本发明的进一步改进，所述可视化图像区域为以单个文本检测行对象中心取256*256大小的正方形图像区域。

作为本发明的进一步改进，所述质量分类评价的算法包括Mobilenet、VGG、ResNet、GoogleNet、InceptionV3、NASNet中的一种。

作为本发明的进一步改进，过滤评价结果为“可视化质量良好”的文本检测行对象，无需进行质检修正。

作为本发明的进一步改进，还包括：

对待质检修正对象集合中的文本检测行对象进行人工拉框修正。

本发明还公开了一种用于上述文本检测质量评价方法的评价系统，包括：

文本检测可视化绘制模块，对图像进行文本检测和可视化绘制，得到文本检测行对象；

筛选模块，用于筛选概率小于预设值的文本检测行对象，构成待评价对象集合；

可视化质量评价模块，用于采用深度学习分类网络，依次对所述对象集合中每个文本检测行对象的可视化图像区域进行质量分类评价；其中，评价结果包括“可视化质量差”和“可视化质量良好”；

输出模块，用于输出“可视化质量差”的文本检测行对象，构成待质检修正对象集合。

作为本发明的进一步改进，还包括：

质检修正模块，用于对待质检修正对象集合中的文本检测行对象进行人工拉框修正。

与现有技术相比，本发明的有益效果为：

本发明采用了深度学习分类网络学习文本检测的可视化主观视觉质量，准确率高；相比仅用阈值逻辑区分方式更加符合人眼主观视觉感受，进一步提高票据文本检测标注过程中的处理效率，降低企业人力运营成本。

附图说明

图1为本发明一种实施例公开的文本检测质量评价方法的流程图；

图2为本发明一种实施例公开的文本检测质量评价系统的框架图；

图3为Faster RCNN两阶段深度网络结构示意图；

图4a为可视化质量差的示意图；

图4b为可视化质量良好的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种图像的文本检测质量评价方法，包括：

步骤1、对图像进行文本检测和可视化绘制，得到文本检测行对象；

具体包括：

基于已训练好的文本检测模型对票据等图像进行文本检测，推理出图像中的文本行对象；并以文本行对象坐标做矩形框的可视化绘制，得到该图像的文本检测行对象；

其中，上述文本检测模型所使用的述文本检测的算法包括Faster RCNN、R2CNN、Mask_RCNN中的一种，优选采用Faster RCNN两阶段深度网络结构实现，该技术网络结构通常如图3所示。

步骤2、基于阈值逻辑区分方式，筛选概率小于预设值的文本检测行对象，构成待评价对象集合；

其中，本发明优选筛选概率小于0.8的文本检测行对象，构成待评价对象集合；即认定对象集合中的每个文本行对象中心是可视化质量评价模块输入图像的中心位置。

步骤3、采用深度学习分类网络，依次对对象集合中每个文本检测行对象的可视化图像区域进行质量分类评价；

其中，可视化图像区域为以单个文本检测行对象中心取256*256大小的正方形图像区域，可视化图像区域的选择用于不降低文本字符成像的分辨率，分类网络更容易做识别；

质量分类评价的算法包括常规的Mobilenet、VGG、ResNet、GoogleNet、InceptionV3、NASNet中的一种，本发明选用Mobilenet网络来对256*256的图像区域做分类；评价结果包括如图4a所示的“可视化质量差”和图4b所示的“可视化质量良好”；进一步，图4a、4b中的文字仅作为示例。

步骤4、过滤评价结果为“可视化质量良好”的文本检测行对象，输出“可视化质量差”的文本检测行对象，构成待质检修正对象集合；

其中，本发明仅对“可视化质量差”的文本检测行对象进行质检修正。

步骤5、对待质检修正对象集合中的文本检测行对象进行人工拉框修正。

如图2所示，本发明提供一种用于上述文本检测质量评价方法的评价系统，包括：

文本检测可视化绘制模块，用于实现上述步骤1；

筛选模块，用于实现上述步骤2；

可视化质量评价模块，用于实现上述步骤3；

输出模块，用于实现上述步骤4；

质检修正模块，用于实现上述步骤5。

本发明的优点为：

在实际工作中验证约有50％比例的概率小于0.80的文本行对象可视化质量是良好的，这些将被过滤掉，无需人工质检修正，也就是说对人工标注而言，减少约50％的工作量。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像的文本检测质量评价方法，其特征在于，包括：

对图像进行文本检测和可视化绘制，得到文本检测行对象；

2.如权利要求1所述的文本检测质量评价方法，其特征在于，所述文本检测的算法包括Faster RCNN、R2CNN、Mask_RCNN中的一种。

3.如权利要求1所述的文本检测质量评价方法，其特征在于，采用矩形框进行可视化绘制。

4.如权利要求1所述的文本检测质量评价方法，其特征在于，筛选概率小于0.8的文本检测行对象，构成待评价对象集合。

5.如权利要求1所述的文本检测质量评价方法，其特征在于，所述可视化图像区域为以单个文本检测行对象中心取256*256大小的正方形图像区域。

6.如权利要求1所述的文本检测质量评价方法，其特征在于，所述质量分类评价的算法包括Mobilenet、VGG、ResNet、GoogleNet、InceptionV3、NASNet中的一种。

7.如权利要求1所述的文本检测质量评价方法，其特征在于，过滤评价结果为“可视化质量良好”的文本检测行对象，无需进行质检修正。

8.如权利要求1所述的文本检测质量评价方法，其特征在于，还包括：

9.一种用于实现如权利要求1～8中任一项所述的文本检测质量评价方法的评价系统，其特征在于，包括：

10.如权利要求9所述的评价系统，其特征在于，还包括：