CN112949574A

CN112949574A - 一种基于深度学习的级联式文本关键字段检测方法

Info

Publication number: CN112949574A
Application number: CN202110334566.8A
Authority: CN
Inventors: 汪增福; 吴仕莲
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-11
Anticipated expiration: 2041-03-29
Also published as: CN112949574B

Abstract

本发明公开了一种基于深度学习的级联式文本关键字段检测方法，其步骤包括：首先收集文档图片并进行人工标注，建立关键字段检测数据集；接着构建基于深度学习的级联式文本关键字段检测模型；然后运行基于深度学习的级联式文本关键字段检测模型，得到检测结果；最后根据检测结果对文本关键字段进行后处理，得到矫正后的关键字段。本发明无需复杂的后处理，能够直接针对图像输出关键字段所在位置，便于后续的关键字段识别。

Description

一种基于深度学习的级联式文本关键字段检测方法

技术领域

本发明涉及涉及文档分析领域的相关问题，具体涉及一种基于深度学习的级联式文本关键字段检测方法。

背景技术

文档分析中，一个关键的技术就是结构化：即很多时候并不需要对文档中的每一个文字都进行检测识别，而只需要识别那些客户所需要的字段信息。如在保险单识别中，客户只需要保险单号、姓名、价格与保险时间这些字段的识别结果，其他的保险条款等内容是无用信息。在行驶证识别中，只需要识别车牌号码、姓名与注册日期等字段。

目前的一般方法都是根据关键字段的位置来设计一系列规则，之后利用这些规则去检测关键字段。但这种方法鲁棒性很差，只要测试的图片稍有变化，就需要重新设计参数来检测关键字段，并且精度低，检测的字段位置不精确。

发明内容

本发明克服了现有技术的不足之处，提供一种基于深度学习的级联式文本关键字段检测方法，以期通过深度学习方法来提取丰富的上下文特征，从而提升关键字段检测的准确率与鲁棒性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的级联式文本关键字段检测方法的特点在于，包括以下步骤：

步骤1：收集文档图片并进行人工标注，建立用于关键字段检测的图片数据集；

步骤2：构建基于深度学习的级联式文本关键字段检测模型，包括：基于热力图回归的关键字段检测模型HeatNet、基于角点检测的字段矫正模型RectifyNet；

所述基于热力图回归的关键字段检测模型HeatNet，包含：4组StemBlock层、一组检测模块与4个最大池化层；每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成；所述检测模块由4层卷积组成；

所述基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成；

步骤3：运行基于深度学习的级联式文本关键字段检测模型；

步骤3.1：将所述图片数据集中的一张文档图片X送入所述关键字段检测模型HeatNet的4组StemBlock层中，每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后，再经过一个最大池化层的下采样处理，从而在经过4个SteamBlock层以及4个最大池化层处理后，得到尺寸为

的特征图F，其中，H和W是文档图片X的高与宽；

其中，利用式(1)得到第一个StemBlock层的输出Out₁：

Out₁＝MaxPool(Conv₁(DWConv_M1(X))) (1)

式(1)中，DWConv_M1(·)表示第一个StemBlock层的M个深度可分离卷积操作，其卷积核的输出通道数为C1；Conv₁(·)表示卷积核为1×1的第一卷积操作，其卷积核的输出通道数为C1；MaxPool(·)表示步长为2的最大池化层；

利用式(2)得到第二个StemBlock层的输出Out₂：

Out₂＝MaxPool(Conv₂(DWConv_M2(Out₁))) (2)

式(2)中，DWConv_M2(·)表示第二个StemBlock层的M个深度可分离卷积操作，其卷积核的输出通道数为C2；Conv₂(·)表示卷积核为1×1的第二卷积操作，其卷积核的输出通道数为C2；

利用式(3)得到第三个StemBlock层的输出Out₃：

Out₃＝MaxPool(Conv₃(DWConv_M3(Out₂))) (3)

式(3)中，DWConv_M3(·)表示第三个StemBlock层的M个深度可分离卷积，其卷积核的输出通道数为C3；Conv₃(·)表示卷积核为1×1的第三卷积层，其卷积核的输出通道数为C3；

利用式(4)得到第四个StemBlock层的输出F：

F＝MaxPool(Conv₄(DWConv_M4(Out₃))) (4)

式(4)中，DWConv_M4(·)表示第四个StemBlock层的M个深度可分离卷积，其卷积核的输出通道数为C4；Conv₄(·)表示卷积核为1×1的第四卷积层，其卷积核的输出通道数为C4；

步骤3.2：将所述特征图F送入所述检测模块中，经过如式(5)和式(6)所示的两次卷积后，得到2组特征：

F_h＝Conv_1×K(F) (5)

F_v＝Conv_K×1(F) (6)

式(5)和式(6)中，Conv_1×K(·)表示卷积核为1×K的卷积操作，用于提取水平方向的特征，F_h表示水平方向特征；Conv_K×1(·)表示卷积核为K×1的卷积操作，用于提取竖直方向的特征，F_v表示竖直方向特征；

利用式(7)将两者进行融合，得到融合水平与竖直方向信息后的特征F_fuse：

F_fuse＝Concat(F_h,F_v) (7)

式(7)中，Concat(·)表示拼接操作；

式(8)和式(9)将融合后的特征F_fuse进行两次卷积操作，从而得到字段中心热力图heatmap_X和字段宽高预测结果wh_X：

heatmap_X＝Conv_heat(F_fuse) (8)

wh_X＝Conv_wh(F_fuse) (9)

式(8)和式(9)中，Conv_heat(·)表示用于得到字段中心热力图heatmap_X的卷积操作，其卷积核的输出通道数为1，表示预测为中心点的置信度，Conv_wh(·)表示用于得到字段宽高预测结果wh_X的卷积操作，其卷积核输出通道数为2，分别表示宽度与高度；

步骤3.3：将所述特征图F送入基于角点检测的字段矫正模型RectifyNet中，从而利用式(10)进行预测，得到文本关键字段的角点预测结果Corner_X：

Corner_X＝DeformableConv(F_fuse) (10)

式(10)中；DeformableConv(·)表示可变形卷积操作，其卷积核的输出通道数为4，分别表示文本关键字段四个角点的置信度；

步骤4：根据步骤3的结果对文本关键字段进行矫正；

步骤4.1：对检测结果进行后处理：

将中心热力图heatmap_X与字段宽高预测结果wh_X结合后得到字段的外接矩形；并对文档图片X中所有的外接矩形作非极大值抑制，得到最终的字段检测结果；

步骤4.2：对字段检测结果进行矫正：

遍历字段检测结果，选择对应的角点预测结果，结合四个角点得到每个字段的外接四边形；通过外接四边形的角点坐标对检测到的字段作仿射变换，从而得到矫正后的字段并作为最终的文本关键字段的检测结果。

与现有技术相比，本发明的有益效果在于：

1、本发明利用深度学习方法来检测文档图像中的关键字段，具有鲁棒性高，速度快的优点。

2、本发明利用角点检测模型来对关键字段检测的结果进行修正，因而得到的结果更加精准，能够很好的将关键字段完整的裁剪出来，能够有效排除其他文字的干扰。

3、本发明通过可变形卷积来提取角点，具有精度高的优点。

附图说明

图1是本发明基于基于深度学习的级联式文本关键字段检测方法的使用流程图；

图2是本发明基于深度学习的级联式文本关键字段检测方法的网络结构图。

具体实施方式

本实施例中，如图1所示，一种基于深度学习的级联式文本关键字段检测方法包括以下步骤：

步骤1：收集文档图片并进行人工标注，建立用于关键字段检测的图片数据集：标注规则为：只标注需要检测的字段的位置坐标(字段的四个角点坐标)。例如在火车票识别中，如果只需要检测始发站与终点站，则只标注始发站与终点站的位置坐标；

基于热力图回归的关键字段检测模型HeatNet，包含：4组StemBlock层、一组检测模块与4个最大池化层；每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成；检测模块由4层卷积组成；其中深度可分离卷积的计算量相比普通卷积操作要少很多，因此能大大提高模型的运算速度；

基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成；

步骤3：运行基于深度学习的级联式文本关键字段检测模型，如图2所示；

步骤3.1：将图片数据集中的一张文档图片X送入关键字段检测模型HeatNet的4组StemBlock层中，每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后，再经过一个最大池化层的下采样处理，从而在经过4个SteamBlock层以及4个最大池化层处理后，得到尺寸为

的特征图F，其中，H和W是文档图片X的高与宽；其中，利用式(1)得到第一个StemBlock层的输出Out₁：

Out₁＝MaxPool(Conv₁(DWConv_M1(X))) (1)

利用式(2)得到第二个StemBlock层的输出Out₂：

Out₂＝MaxPool(Conv₂(DWConv_M2(Out₁))) (2)

利用式(3)得到第三个StemBlock层的输出Out₃：

Out₃＝MaxPool(Conv₃(DWConv_M3(Out₂))) (3)

利用式(4)得到第四个StemBlock层的输出F：

F＝MaxPool(Conv₄(DWConv_M4(Out₃))) (4)

步骤3.2：将特征图F送入检测模块中，经过如式(5)和式(6)所示的两次卷积后，得到2组特征：

F_h＝Conv_1×K(F) (5)

F_v＝Conv_K×1(F) (6)

F_fuse＝Concat(F_h,F_v) (7)

式(7)中，Concat(·)表示拼接操作；

heatmap_X＝Conv_heat(F_fuse) (8)

wh_X＝Conv_wh(F_fuse) (9)

步骤3.3：将特征图F送入基于角点检测的字段矫正模型RectifyNet中，从而利用式(10)进行预测，得到文本关键字段的角点预测结果Corner_X：

Corner_X＝DeformableConv(F_fuse) (10)

式(10)中；DeformableConv(·)表示可变形卷积操作，其卷积核的输出通道数为4，分别表示文本关键字段四个角点的置信度；可变形卷积通过在在感受野中引入可学习的偏移量，因此使得感受野不再是普通的方形，而是与物体的实际形状贴近，所以预测到的角点会更加精准；

步骤4：根据步骤3的结果对文本关键字段进行矫正；

步骤4.1：对检测结果进行后处理：

将中心热力图heatmap_X与字段宽高预测结果wh_X结合后得到字段的外接矩形：首先设置一个阈值，取出中心热力图上所有大于阈值的点，作为每个字段的中心点，结合字段宽高预测结果即得到每一个字段的外接矩形：中心点坐标为(x,y),宽高为(w,h)，则外接矩形的左上角坐标为(x-w/2,x-h/2)，右下角坐标为(x+w/2,x+h/2)；由于原始的检测结果存在冗余，因此需要文档图片X中所有的外接矩形作非极大值抑制，得到最终的字段检测结果；

步骤4.2：对字段检测结果进行矫正：

由于步骤4.1中得到的字段检测结果是用水平的矩形表示的，因此只能得到大致的结果，并不精准，因此需要继续进行矫正：遍历字段检测结果，选择对应的角点预测结果，结合四个角点得到每个字段的外接四边形；通过外接四边形的角点坐标对检测到的字段作仿射变换，从而得到矫正后的字段并作为最终的文本关键字段的检测结果。

Claims

1.一种基于深度学习的级联式文本关键字段检测方法，其特征在于，包括以下步骤：

步骤3：运行基于深度学习的级联式文本关键字段检测模型；

的特征图F，其中，H和W是文档图片X的高与宽；

其中，利用式(1)得到第一个StemBlock层的输出Out₁：

Out₁＝MaxPool(Conv₁(DWConv_M1(X))) (1)

利用式(2)得到第二个StemBlock层的输出Out₂：

Out₂＝MaxPool(Conv₂(DWConv_M2(Out₁))) (2)

利用式(3)得到第三个StemBlock层的输出Out₃：

Out₃＝MaxPool(Conv₃(DWConv_M3(Out₂))) (3)

利用式(4)得到第四个StemBlock层的输出F：

F＝MaxPool(Conv₄(DWConv_M4(Out₃))) (4)

F_h＝Conv_1×K(F) (5)

F_v＝Conv_K×1(F) (6)

F_fuse＝Concat(F_h,F_v) (7)

式(7)中，Concat(·)表示拼接操作；

heatmap_X＝Conv_heat(F_fuse) (8)

wh_X＝Conv_wh(F_fuse) (9)

Corner_X＝DeformableConv(F_fuse) (10)

步骤4：根据步骤3的结果对文本关键字段进行矫正；

步骤4.1：对检测结果进行后处理：

步骤4.2：对字段检测结果进行矫正：