CN111914706A

CN111914706A - 一种文字检测输出结果质量检测和控制的方法与装置

Info

Publication number: CN111914706A
Application number: CN202010713460.4A
Authority: CN
Inventors: 韦建; 周异; 陈凯
Original assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Current assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-10
Anticipated expiration: 2040-07-22
Also published as: CN111914706B

Abstract

本发明涉及一种文字检测输出结果质量检测和控制的方法和装置，其中质量检测和控制的方法包括以下步骤：获取目标文档影像数据；对所述目标文档影像数据进行预处理，获取所述目标文档影像数据中各文字字段所处文本框的定位边界；根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征，根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度；预设用于判断是否需要人工干预的阈值，比对各所述文字字段的正确度和阈值；若文字字段的正确度小于阈值，则对该文字字段进行人工处理后再对该文字字段进行文字识别；若文字字段的正确度大于等于阈值，则直接对该文字字段进行文字识别。

Description

一种文字检测输出结果质量检测和控制的方法与装置

技术领域

本发明涉及一种文字检测输出结果质量检测和控制的方法与装置，属于图像目标检测技术领域。

背景技术

文字检测是实现文档处理自动化系统(包括文字检测和识别、结构化、存储和检索、数据挖掘、智能决策等)的关键技术。文档是指由机器和/或人工填写其上记载有信息的实体，其实例包括发票、银行账单、车牌和医疗检验单、文档、收据、报文刊物、清单等。文字检测需要确定文档图像中全部文字字段或者部分关键字段在文档中所处位置(字段定位)，以及将定位到的文字串分类(字段分类)。

近几年来图像处理技术，尤其是深度学习技术的发展迅猛，基于候选区域和基于分割这两大类目标检测方法进步迅速，文字检测的准确率得到很大提高，在文档OCR(包括文字检测和识别)等领域取得了很多落地的应用。但是很多非标准或者非大规模OCR应用需求的文档对于OCR识别准确率具有很高的要求，比如发票识别和报销影像化识别的应用，目前现有技术中基于深度学习的机器文档检测商业化的产品的识别方法还达不到诸如金融行业期望的性能(金融行业对于容错率要求比民用的OCR文档行业要求严格的多)。目前现有技术中基于机器学习的产品应用，需要能判断文本检测结果正确程度，并根据判断结果采取必要的干预措施(比如人工检测和/或纠错等)。本申请所指的文本检测结果正确程度，是指文本检测器正确输出期望的文本类别以及定位框，而正确的定位框是指文本检测器输出的定位框包含的文本能被文本识别器正确地识别。

现有技术中基于深度学习的文本检测方法，可以输出文本检测的分类结果的可信度，但是分类结果的可信度不能用来有效地衡量定位准确度。现有技术有尝试预测检测器输出的定位框与目标框的重叠度用来衡量定位的精确度，但是预测不够准确，而且目标框的标注有较大的波动性。另外定位准确度和定位正确度虽然有一定关系，但是并不能很好地表征定位正确度。以一串有100个数字的文字串为例，假设仅有第一个数字未被定位框框住，在此情况下定位的精确度很高，但是定位结果是不正确的，因为文本识别器将无法正确识别出期望的文字串的内容。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种文字检测输出结果质量检测和控制的方法与装置，通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理，能有效提高文档处理自动化程度，在保障文档检测和识别准确度的前提下，减少人工参与和系统成本。

本发明的技术方案如下：

技术方案一

一种文字检测输出结果质量检测和控制的方法，包括以下步骤：

获取目标文档影像数据；

对所述目标文档影像数据进行预处理，获取所述目标文档影像数据中各文字字段所处文本框的定位边界；

根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征，根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度；

预设用于判断是否需要人工干预的阈值，比对各所述文字字段的正确度和阈值；若文字字段的正确度小于阈值，则对该文字字段进行人工处理后再对该文字字段进行文字识别；若文字字段的正确度大于等于阈值，则直接对该文字字段进行文字识别。

进一步的，在对所述目标文档影像数据进行预处理的步骤中，获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤：

建立用于识别文字的文字检测器深度学习模型，收集用于训练的文档影像样本，对所述文档影像样本中的各关键文字字段进行标注，标注的信息包括：各关键文字字段在所述文档影像样本中的位置和字段的类别信息和类别置信度；其中所述关键文字字段在所述文档影像样本中的位置通过使用定位边界框进行标注；将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练，经过更新迭代后，得到训练好的文字检测器深度学习模型；

训练用于识别文字的文字检测器深度学习模型，收集用于训练的文档影像样本，对所述文档影像样本中的各关键文字字段进行标注，使用定位边界框标注各关键文字字段在所述文档影像样本中的位置；将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练，经过更新迭代后，得到训练好的文字检测器深度学习模型；

将所述目标文档影像数据送入训练好的文字检测器深度学习模型进行识别，所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像。

进一步的，在所述根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征，根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤：

建立用于评估正确度的质量检查器深度学习模型；

利用训练好的文字检测器深度学习模型，检测出每个文档影像样本中的文字字段所在的位置，并输出检测到的各文字字段的定位边界框位置；

通过各文字字段的定位边界框位置，截取各文字字段定位边界框周边区域的影像作为质量检查器深度学习模型的训练样本；

对各所述质量检查器深度学习模型的训练样本进行正确度标注，根据文字字段定位边界框周边区域的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内，根据框选的正确程度标注所述质量检查器深度学习模型的训练样本中各文字字段的定位正确度；

将经标注完的供质量检查器深度学习模型训练使用的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练；

将所述目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查，所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果。

进一步的，在所述训练用于识别文字的文字检测器深度学习模型中，还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注；所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度；

在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中，结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度。

技术方案二

一种文字检测输出结果质量检测和控制的装置，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

获取目标文档影像数据；

建立用于评估正确度的质量检查器深度学习模型；

本发明具有如下有益效果：

1、本发明一种文字检测输出结果质量检测和控制的方法与装置，通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理，能有效提高文档处理自动化程度，在保障文档检测和识别准确度的前提下，减少人工参与和系统成本，大幅度提高文档处理的速度和性能，有利于增加文档检测和识别系统的规模、支持更多的用户。

2、本发明一种文字检测输出结果质量检测和控制的方法与装置，通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度，提高文字识别的速度和准确率。

3、本发明一种文字检测输出结果质量检测和控制的方法与装置，通过质量检查器深度学习模型进行判决文字字段的正确度，结合文字字段的定位框提取局部特征，能够根据文字字段周边的局部特征判断定位框是否准确框选文字字段，提高判决结果的准确度。

附图说明

图1为本发明实施例的流程图；

图2为对文档影像进行预处理的示例图；

图3为通过局部特征判决文档影像的示例图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参见图1，一种文字检测输出结果质量检测和控制的方法，包括以下步骤：

获取目标文档影像数据；

对所述目标文档影像数据进行预处理(预处理主要采用一些常见的图像形态学操作，比如去噪、滤波等。同时可以利用深度学习分割模型将影像中非票据的背景部分去除)，获取所述目标文档影像数据中各文字字段所处文本框的定位边界(本实施例中文字字段的定位边界可以采用基于目标检测的文字检测器深度学习模型来获取，比如Faster-RCNN、SSD和Yolo等)。

根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征(局部特征则是指局部的特征/信息，比如包含字段框左右/上下延长等的图像区域的信息或者经过神经网络模型处理得到的特征)，根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度；文字字段的正确度指的是所定位的字段中的文字内容正确的概率。

本实施例通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理，能有效提高文档处理自动化程度，在保障文档检测和识别准确度的前提下，减少人工参与和系统成本，大幅度提高文档处理的速度和性能，有利于增加文档检测和识别系统的规模、支持更多的用户。

实施例二

进一步的，参见图2，对所述目标文档影像数据进行预处理，识别所述文档影像中的各文字字段，诸如付款人名称、付款人行号、收款人名称、收款人行号、金额等，获取所述目标文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤：

建立用于识别文字的文字检测器深度学习模型，文字检测器深度学习模型可以采用目前已经比较成熟的用于目标检测的深度学习网络模型，比如Faster-RCNN、SSD和Yolo等，本实施实例采用Faster-RCNN网络模型，主要有四个部分组成：1)基础卷积网络，用于提取图片的特征图(feature maps)；2)RPN网络(Region Proposal Network)，用于预测候选区(proposals)；3)感兴趣区域池化(RoI pooling)，利用RPN网络生成候选区域和最后一层的特征图，得到固定大小的候选区特征图，进入到后面可利用全连接操作来进行目标识别和定位；4)分类和回归，输出候选区域所属的类，和修正候选区域在图像中的精确位置。

收集一定数量的训练文档影像样本(比如1000张)，每个文档影像样本包括一定数目的文字字段，其中包括感兴趣的关键字段。工作人员对所述文档影像样本中的各关键文字字段进行标注，使用定位边界框标注各关键文字字段在所述文档影像样本中的位置，如图2所示，定位边界框可以为四个顶点组成的一个倾斜角度为0度的长方形；标注信息记载每个关键字段在文档图像中的位置(如坐标)，图2所示为一份文档影像样本的样例，是一张银行发票，里面标注了十个关键字段(发票抬头，付款人名称，收款人名称等)的位置，用作训练的文档影像样本，可不断补充。将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练。

将所述文档影像送入训练好的文字检测器深度学习模型进行识别，所述文字检测器深度学习模型输出文档影像中检测到的各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度。

进一步的，参见图3，所述根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征(局部特征指字段框左右延长的图像区域，见图3中img_left,img_right。我们将该图像区域合并为img_merge，然后质量检查器模型提取出img_merge的图像特征，并对其进行分类推断。)，结合文字字段的其它信息，判决各所述文字字段的正确度的具体方法包括以下步骤：

建立用于判决各所述文字字段的正确度的质量检查器深度学习模型，本实施例中质量检查器深度学习模型采用CNN网络模型，该网络模型共有5层，前4层为卷积层，最后1层为全连接层；前4层中，每层包含卷积、批归一化(batch normalizaiton)、激活和池化层。质量检查器深度学习模型也可以采用其它的分类模型。质量检查器深度学习模型的输入层是原始的RGB图像。第一层卷积层经32个5*5的卷积核作一次卷积，接着作批归一化、激活和池化操作。第二层卷积层经64个5*5的卷积核作一次卷积，接着作批归一化、激活和池化操作。第三层卷积层经128个3*3的卷积核作一次卷积，接着作批归一化、激活和池化操作。第四层卷积层经128个3*3的卷积核作一次卷积，接着作批归一化、激活和池化操作。最后经一层全连接层最后通过softmax输出2个值，分别对应二分类的预测概率。在网络模型训练/推理过程中，图片经过一定的预处理后输入到基于卷积神经网络的深度学习网络。图片在计算机里面可以作为一个3维矩阵来表示，比如I_w0，h0，c0，这里w0代表输入图片宽度(像素的个数)，h0代表输入图片高度，c0代表输入图片颜色通道(彩色图片有红蓝绿三个颜色通道，灰度图片只有一个颜色通道)。卷积神经网络具有多个阶段(stage)，每个阶段都包含一定数目的卷积模块(其作用是提取图象特征)和池化层(缩小特征图大小)等。卷积神经网络的输入是图片，输出是由神经网络提取出来的图片的特征，比如在最初的阶段，卷积模块提取出比较低级的特征(比如直线，弧线等)，随着卷积层阶段的增加，卷积模块提取出来的特征变得更加抽象和高级(比如，由初级特征组合得到的物体的部件，比如文字的偏旁部首等)，到最后的卷积模块，提取出来的特征对应到具体的文字，可以用来定位和识别。

利用训练好的文字检测器深度学习模型，检测每个文档影像样本中的文字字段，对各文档影像样本输出检测到的各文字字段的定位边界框位置；

参见图3，通过各文字字段的定位边界框位置，截取各文字字段定位边界框周边的影像作为质量检查器深度学习模型的训练样本；采用文字检测器深度学习模型获得字段的边界定位框(参见图例3-img_context列中方框)

在边界定位框左右两边界向外各延长一定宽度的小区域，将其切下来，得到边界定位框左边界向左边延长的小区域影像(记为img_left)和定位框向右延长的小区域影像(记为img_right)；局部特权的提取主要是根据实际情况发现，深度学习模型的定位错误中左右边界不准确的比例占绝大部分。一般来说不同行字段上下之间会有比较明显的间距，定位模型不太会出错。需要指出的是，本发明提出的方案通用性很强，不仅可以利用左右延长区域的局部特征，也可以利用定位框的上下信息。在实例中仅仅是利用了左右边界截取的影像。本实施例中，延长的宽度限定设置为定位框高度的一半。

将img_left和img_right合并，得到合并的图像(记为img_merge)。本实施例中合并的操作如下：在img_left和img_right之间嵌入一个(不包含任何信息)黑图，其中黑图的宽度设为img_left宽度的两倍；通过这种方式可以避免img_left和img_right在卷积提取特征的过程中互相影响；也可以使用其他的合并方式。

工作人员对各所述质量检查器深度学习模型的训练样本进行正确度标注，根据文字字段定位边界框周围的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内，根据框选的正确程度标注所述质量检查器深度学习模型的训练样本的正确度，正确度的表达形式可以选择为二值输出(如用1和0表示正确或者不正确)或者线性数值输出(如1～100)。每个文字字段定位正确度的具体的值可以采用人工确定或者利用预训练的文字识别模型来确定。比如通过人工的方法，观测边界定位框是否仅将需要的文字字段对应的文本像素有效地框进到边界定位框里面，具体参加图3中Label栏，如果检测到的文字字段被正确地框在边界定位框内，可以标注该文字字段定位正确度为1，否则标注为0。也可以利用训练的文字识别模型代替人工进行上述标注方式。本实施例中，标注正确度的操作方式如下：

将img_merge的高度归一化到h(h＝32)。

对img_merge进行标注，标注值(记为label)为1(如果该图片对应的边界定位框中的文字被给定的文字识别器正确识别出来)或者0(如果边界定位框的文字没有被正确识别出来)。

一个合并的图片(img_merge)和相应的标注形成一个训练样本。

重复上述操作，可以得到所需的一定数量的训练样本的集合。

将标注完的质量检查器深度学习模型的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练；

将文档影像中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查，所述质量检查器深度学习模型输出对文档影像中检测到的各文字字段的正确度的判决结果。

进一步的，在所述训练用于识别文字的文字检测器深度学习模型中，还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注，关键字段的类别信息如文字字段为金额字段、字符字段等；所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度；

在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中，结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度，在计算正确度时，根据类别信息可以推断出相应字段内容的格式，比如得知某字段属于金额字段，则字段内容必须符合金额的格式。另外类别置信度也可以作为参考，如果类别置信度很低的话，最终正确度也会受到影响。

本实施例中对于一张输入文档进行文字检测输出结果质量检测和控制的流程如下：首先采用文字检测器深度学习模型定位出感兴趣的文本区域，输出文字字段的定位框的位置坐标以及文字字段的类别信息和类别置信度。对于任一检测出的文字字段，利用检测到的文字字段的定位框，生成相应的合并图片(img_merge)。使用训练好的质量检查器深度学习模型对合并图片进行处理，输出对合并图片对应的文本字段的定位正确度的预测。结合文字检测器对合并图片对应的文本字段的检测性能(文字字段的类别信息以及类别置信度)以及质量检查器输出的定位正确度，决定是否需要对检测结果添加额外的人工处理。其中文本类别可以预先推断识别内容的格式，类别置信度和定位正确度都可以作为判断是否需要人工处理的参考。比如得知某字段属于金额字段，则字段内容必须符合金额的格式；类别置信度和定位正确度可以分别设置不同的阈值。字段内容符合所属类型的格式，且类别置信度和定位正确度都高于阈值则认为不需要人工处理，否则需要人工处理。

本实施例不仅具备实施例一的有益效果，进一步的，提出了通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度，提高文字识别的速度和准确率；通过质量检查器深度学习模型进行判决文字字段的正确度，结合文字字段的定位框提取局部特征，再通过文字字段的其它信息判决文字正确度，通用性强。

实施例三

参加图1，一种文字检测输出结果质量检测和控制的装置，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

获取目标文档影像数据；

实施例四

将img_merge的高度归一化到h(h＝32)。

一个合并的图片(img_merge)和相应的标注形成一个训练样本。

本实施例不仅具备实施例三的有益效果，进一步的，提出了通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度，提高文字识别的速度和准确率；通过质量检查器深度学习模型进行判决文字字段的正确度，结合文字字段的定位框提取局部特征，再通过文字字段的其它信息判决文字正确度，通用性强。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文字检测输出结果质量检测和控制的方法，其特征在于，包括以下步骤：

获取目标文档影像数据；

2.根据权利要求1所述的一种文字检测输出结果质量检测和控制的方法，其特征在于，在对所述目标文档影像数据进行预处理的步骤中，获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤：

3.根据权利要求2所述的一种文字检测输出结果质量检测和控制的方法，其特征在于，在所述根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征，根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤：

建立用于评估正确度的质量检查器深度学习模型；

4.根据权利要求3所述的一种文字检测输出结果质量检测和控制的方法，其特征在于：

在所述训练用于识别文字的文字检测器深度学习模型中，还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注；所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度；

在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中，结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度评估各文字字段的正确度。

5.一种文字检测输出结果质量检测和控制的装置，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

获取目标文档影像数据；

6.根据权利要求5所述的一种文字检测输出结果质量检测和控制的装置，其特征在于，在对所述目标文档影像数据进行预处理的步骤中，获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤：

7.根据权利要求6所述的一种文字检测输出结果质量检测和控制的装置，其特征在于，在所述根据各所述文字字段的定位边界，提取各所述文字字段对应的图像周边的局部特征，根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤：

建立用于评估正确度的质量检查器深度学习模型；

8.根据权利要求7所述的一种文字检测输出结果质量检测和控制的装置，其特征在于：