CN112949574A - 一种基于深度学习的级联式文本关键字段检测方法 - Google Patents

一种基于深度学习的级联式文本关键字段检测方法 Download PDF

Info

Publication number
CN112949574A
CN112949574A CN202110334566.8A CN202110334566A CN112949574A CN 112949574 A CN112949574 A CN 112949574A CN 202110334566 A CN202110334566 A CN 202110334566A CN 112949574 A CN112949574 A CN 112949574A
Authority
CN
China
Prior art keywords
convolution
conv
formula
convolution kernel
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110334566.8A
Other languages
English (en)
Other versions
CN112949574B (zh
Inventor
汪增福
吴仕莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202110334566.8A priority Critical patent/CN112949574B/zh
Publication of CN112949574A publication Critical patent/CN112949574A/zh
Application granted granted Critical
Publication of CN112949574B publication Critical patent/CN112949574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于深度学习的级联式文本关键字段检测方法,其步骤包括:首先收集文档图片并进行人工标注,建立关键字段检测数据集;接着构建基于深度学习的级联式文本关键字段检测模型;然后运行基于深度学习的级联式文本关键字段检测模型,得到检测结果;最后根据检测结果对文本关键字段进行后处理,得到矫正后的关键字段。本发明无需复杂的后处理,能够直接针对图像输出关键字段所在位置,便于后续的关键字段识别。

Description

一种基于深度学习的级联式文本关键字段检测方法
技术领域
本发明涉及涉及文档分析领域的相关问题,具体涉及一种基于深度学习的级联式文本关键字段检测方法。
背景技术
文档分析中,一个关键的技术就是结构化:即很多时候并不需要对文档中的每一个文字都进行检测识别,而只需要识别那些客户所需要的字段信息。如在保险单识别中,客户只需要保险单号、姓名、价格与保险时间这些字段的识别结果,其他的保险条款等内容是无用信息。在行驶证识别中,只需要识别车牌号码、姓名与注册日期等字段。
目前的一般方法都是根据关键字段的位置来设计一系列规则,之后利用这些规则去检测关键字段。但这种方法鲁棒性很差,只要测试的图片稍有变化,就需要重新设计参数来检测关键字段,并且精度低,检测的字段位置不精确。
发明内容
本发明克服了现有技术的不足之处,提供一种基于深度学习的级联式文本关键字段检测方法,以期通过深度学习方法来提取丰富的上下文特征,从而提升关键字段检测的准确率与鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的级联式文本关键字段检测方法的特点在于,包括以下步骤:
步骤1:收集文档图片并进行人工标注,建立用于关键字段检测的图片数据集;
步骤2:构建基于深度学习的级联式文本关键字段检测模型,包括:基于热力图回归的关键字段检测模型HeatNet、基于角点检测的字段矫正模型RectifyNet;
所述基于热力图回归的关键字段检测模型HeatNet,包含:4组StemBlock层、一组检测模块与4个最大池化层;每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成;所述检测模块由4层卷积组成;
所述基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成;
步骤3:运行基于深度学习的级联式文本关键字段检测模型;
步骤3.1:将所述图片数据集中的一张文档图片X送入所述关键字段检测模型HeatNet的4组StemBlock层中,每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后,再经过一个最大池化层的下采样处理,从而在经过4个SteamBlock层以及4个最大池化层处理后,得到尺寸为
Figure BDA0002996871430000011
的特征图F,其中,H和W是文档图片X的高与宽;
其中,利用式(1)得到第一个StemBlock层的输出Out1
Out1=MaxPool(Conv1(DWConvM1(X))) (1)
式(1)中,DWConvM1(·)表示第一个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C1;Conv1(·)表示卷积核为1×1的第一卷积操作,其卷积核的输出通道数为C1;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第二个StemBlock层的输出Out2
Out2=MaxPool(Conv2(DWConvM2(Out1))) (2)
式(2)中,DWConvM2(·)表示第二个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C2;Conv2(·)表示卷积核为1×1的第二卷积操作,其卷积核的输出通道数为C2;
利用式(3)得到第三个StemBlock层的输出Out3
Out3=MaxPool(Conv3(DWConvM3(Out2))) (3)
式(3)中,DWConvM3(·)表示第三个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C3;Conv3(·)表示卷积核为1×1的第三卷积层,其卷积核的输出通道数为C3;
利用式(4)得到第四个StemBlock层的输出F:
F=MaxPool(Conv4(DWConvM4(Out3))) (4)
式(4)中,DWConvM4(·)表示第四个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C4;Conv4(·)表示卷积核为1×1的第四卷积层,其卷积核的输出通道数为C4;
步骤3.2:将所述特征图F送入所述检测模块中,经过如式(5)和式(6)所示的两次卷积后,得到2组特征:
Fh=Conv1×K(F) (5)
Fv=ConvK×1(F) (6)
式(5)和式(6)中,Conv1×K(·)表示卷积核为1×K的卷积操作,用于提取水平方向的特征,Fh表示水平方向特征;ConvK×1(·)表示卷积核为K×1的卷积操作,用于提取竖直方向的特征,Fv表示竖直方向特征;
利用式(7)将两者进行融合,得到融合水平与竖直方向信息后的特征Ffuse
Ffuse=Concat(Fh,Fv) (7)
式(7)中,Concat(·)表示拼接操作;
式(8)和式(9)将融合后的特征Ffuse进行两次卷积操作,从而得到字段中心热力图heatmapX和字段宽高预测结果whX
heatmapX=Convheat(Ffuse) (8)
whX=Convwh(Ffuse) (9)
式(8)和式(9)中,Convheat(·)表示用于得到字段中心热力图heatmapX的卷积操作,其卷积核的输出通道数为1,表示预测为中心点的置信度,Convwh(·)表示用于得到字段宽高预测结果whX的卷积操作,其卷积核输出通道数为2,分别表示宽度与高度;
步骤3.3:将所述特征图F送入基于角点检测的字段矫正模型RectifyNet中,从而利用式(10)进行预测,得到文本关键字段的角点预测结果CornerX
CornerX=DeformableConv(Ffuse) (10)
式(10)中;DeformableConv(·)表示可变形卷积操作,其卷积核的输出通道数为4,分别表示文本关键字段四个角点的置信度;
步骤4:根据步骤3的结果对文本关键字段进行矫正;
步骤4.1:对检测结果进行后处理:
将中心热力图heatmapX与字段宽高预测结果whX结合后得到字段的外接矩形;并对文档图片X中所有的外接矩形作非极大值抑制,得到最终的字段检测结果;
步骤4.2:对字段检测结果进行矫正:
遍历字段检测结果,选择对应的角点预测结果,结合四个角点得到每个字段的外接四边形;通过外接四边形的角点坐标对检测到的字段作仿射变换,从而得到矫正后的字段并作为最终的文本关键字段的检测结果。
与现有技术相比,本发明的有益效果在于:
1、本发明利用深度学习方法来检测文档图像中的关键字段,具有鲁棒性高,速度快的优点。
2、本发明利用角点检测模型来对关键字段检测的结果进行修正,因而得到的结果更加精准,能够很好的将关键字段完整的裁剪出来,能够有效排除其他文字的干扰。
3、本发明通过可变形卷积来提取角点,具有精度高的优点。
附图说明
图1是本发明基于基于深度学习的级联式文本关键字段检测方法的使用流程图;
图2是本发明基于深度学习的级联式文本关键字段检测方法的网络结构图。
具体实施方式
本实施例中,如图1所示,一种基于深度学习的级联式文本关键字段检测方法包括以下步骤:
步骤1:收集文档图片并进行人工标注,建立用于关键字段检测的图片数据集:标注规则为:只标注需要检测的字段的位置坐标(字段的四个角点坐标)。例如在火车票识别中,如果只需要检测始发站与终点站,则只标注始发站与终点站的位置坐标;
步骤2:构建基于深度学习的级联式文本关键字段检测模型,包括:基于热力图回归的关键字段检测模型HeatNet、基于角点检测的字段矫正模型RectifyNet;
基于热力图回归的关键字段检测模型HeatNet,包含:4组StemBlock层、一组检测模块与4个最大池化层;每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成;检测模块由4层卷积组成;其中深度可分离卷积的计算量相比普通卷积操作要少很多,因此能大大提高模型的运算速度;
基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成;
步骤3:运行基于深度学习的级联式文本关键字段检测模型,如图2所示;
步骤3.1:将图片数据集中的一张文档图片X送入关键字段检测模型HeatNet的4组StemBlock层中,每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后,再经过一个最大池化层的下采样处理,从而在经过4个SteamBlock层以及4个最大池化层处理后,得到尺寸为
Figure BDA0002996871430000041
的特征图F,其中,H和W是文档图片X的高与宽;其中,利用式(1)得到第一个StemBlock层的输出Out1
Out1=MaxPool(Conv1(DWConvM1(X))) (1)
式(1)中,DWConvM1(·)表示第一个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C1;Conv1(·)表示卷积核为1×1的第一卷积操作,其卷积核的输出通道数为C1;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第二个StemBlock层的输出Out2
Out2=MaxPool(Conv2(DWConvM2(Out1))) (2)
式(2)中,DWConvM2(·)表示第二个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C2;Conv2(·)表示卷积核为1×1的第二卷积操作,其卷积核的输出通道数为C2;
利用式(3)得到第三个StemBlock层的输出Out3
Out3=MaxPool(Conv3(DWConvM3(Out2))) (3)
式(3)中,DWConvM3(·)表示第三个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C3;Conv3(·)表示卷积核为1×1的第三卷积层,其卷积核的输出通道数为C3;
利用式(4)得到第四个StemBlock层的输出F:
F=MaxPool(Conv4(DWConvM4(Out3))) (4)
式(4)中,DWConvM4(·)表示第四个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C4;Conv4(·)表示卷积核为1×1的第四卷积层,其卷积核的输出通道数为C4;
步骤3.2:将特征图F送入检测模块中,经过如式(5)和式(6)所示的两次卷积后,得到2组特征:
Fh=Conv1×K(F) (5)
Fv=ConvK×1(F) (6)
式(5)和式(6)中,Conv1×K(·)表示卷积核为1×K的卷积操作,用于提取水平方向的特征,Fh表示水平方向特征;ConvK×1(·)表示卷积核为K×1的卷积操作,用于提取竖直方向的特征,Fv表示竖直方向特征;
利用式(7)将两者进行融合,得到融合水平与竖直方向信息后的特征Ffuse
Ffuse=Concat(Fh,Fv) (7)
式(7)中,Concat(·)表示拼接操作;
式(8)和式(9)将融合后的特征Ffuse进行两次卷积操作,从而得到字段中心热力图heatmapX和字段宽高预测结果whX
heatmapX=Convheat(Ffuse) (8)
whX=Convwh(Ffuse) (9)
式(8)和式(9)中,Convheat(·)表示用于得到字段中心热力图heatmapX的卷积操作,其卷积核的输出通道数为1,表示预测为中心点的置信度,Convwh(·)表示用于得到字段宽高预测结果whX的卷积操作,其卷积核输出通道数为2,分别表示宽度与高度;
步骤3.3:将特征图F送入基于角点检测的字段矫正模型RectifyNet中,从而利用式(10)进行预测,得到文本关键字段的角点预测结果CornerX
CornerX=DeformableConv(Ffuse) (10)
式(10)中;DeformableConv(·)表示可变形卷积操作,其卷积核的输出通道数为4,分别表示文本关键字段四个角点的置信度;可变形卷积通过在在感受野中引入可学习的偏移量,因此使得感受野不再是普通的方形,而是与物体的实际形状贴近,所以预测到的角点会更加精准;
步骤4:根据步骤3的结果对文本关键字段进行矫正;
步骤4.1:对检测结果进行后处理:
将中心热力图heatmapX与字段宽高预测结果whX结合后得到字段的外接矩形:首先设置一个阈值,取出中心热力图上所有大于阈值的点,作为每个字段的中心点,结合字段宽高预测结果即得到每一个字段的外接矩形:中心点坐标为(x,y),宽高为(w,h),则外接矩形的左上角坐标为(x-w/2,x-h/2),右下角坐标为(x+w/2,x+h/2);由于原始的检测结果存在冗余,因此需要文档图片X中所有的外接矩形作非极大值抑制,得到最终的字段检测结果;
步骤4.2:对字段检测结果进行矫正:
由于步骤4.1中得到的字段检测结果是用水平的矩形表示的,因此只能得到大致的结果,并不精准,因此需要继续进行矫正:遍历字段检测结果,选择对应的角点预测结果,结合四个角点得到每个字段的外接四边形;通过外接四边形的角点坐标对检测到的字段作仿射变换,从而得到矫正后的字段并作为最终的文本关键字段的检测结果。

Claims (1)

1.一种基于深度学习的级联式文本关键字段检测方法,其特征在于,包括以下步骤:
步骤1:收集文档图片并进行人工标注,建立用于关键字段检测的图片数据集;
步骤2:构建基于深度学习的级联式文本关键字段检测模型,包括:基于热力图回归的关键字段检测模型HeatNet、基于角点检测的字段矫正模型RectifyNet;
所述基于热力图回归的关键字段检测模型HeatNet,包含:4组StemBlock层、一组检测模块与4个最大池化层;每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成;所述检测模块由4层卷积组成;
所述基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成;
步骤3:运行基于深度学习的级联式文本关键字段检测模型;
步骤3.1:将所述图片数据集中的一张文档图片X送入所述关键字段检测模型HeatNet的4组StemBlock层中,每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后,再经过一个最大池化层的下采样处理,从而在经过4个SteamBlock层以及4个最大池化层处理后,得到尺寸为
Figure FDA0002996871420000011
的特征图F,其中,H和W是文档图片X的高与宽;
其中,利用式(1)得到第一个StemBlock层的输出Out1
Out1=MaxPool(Conv1(DWConvM1(X))) (1)
式(1)中,DWConvM1(·)表示第一个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C1;Conv1(·)表示卷积核为1×1的第一卷积操作,其卷积核的输出通道数为C1;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第二个StemBlock层的输出Out2
Out2=MaxPool(Conv2(DWConvM2(Out1))) (2)
式(2)中,DWConvM2(·)表示第二个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C2;Conv2(·)表示卷积核为1×1的第二卷积操作,其卷积核的输出通道数为C2;
利用式(3)得到第三个StemBlock层的输出Out3
Out3=MaxPool(Conv3(DWConvM3(Out2))) (3)
式(3)中,DWConvM3(·)表示第三个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C3;Conv3(·)表示卷积核为1×1的第三卷积层,其卷积核的输出通道数为C3;
利用式(4)得到第四个StemBlock层的输出F:
F=MaxPool(Conv4(DWConvM4(Out3))) (4)
式(4)中,DWConvM4(·)表示第四个StemBlock层的M个深度可分离卷积,其卷积核的输出通道数为C4;Conv4(·)表示卷积核为1×1的第四卷积层,其卷积核的输出通道数为C4;
步骤3.2:将所述特征图F送入所述检测模块中,经过如式(5)和式(6)所示的两次卷积后,得到2组特征:
Fh=Conv1×K(F) (5)
Fv=ConvK×1(F) (6)
式(5)和式(6)中,Conv1×K(·)表示卷积核为1×K的卷积操作,用于提取水平方向的特征,Fh表示水平方向特征;ConvK×1(·)表示卷积核为K×1的卷积操作,用于提取竖直方向的特征,Fv表示竖直方向特征;
利用式(7)将两者进行融合,得到融合水平与竖直方向信息后的特征Ffuse
Ffuse=Concat(Fh,Fv) (7)
式(7)中,Concat(·)表示拼接操作;
式(8)和式(9)将融合后的特征Ffuse进行两次卷积操作,从而得到字段中心热力图heatmapX和字段宽高预测结果whX
heatmapX=Convheat(Ffuse) (8)
whX=Convwh(Ffuse) (9)
式(8)和式(9)中,Convheat(·)表示用于得到字段中心热力图heatmapX的卷积操作,其卷积核的输出通道数为1,表示预测为中心点的置信度,Convwh(·)表示用于得到字段宽高预测结果whX的卷积操作,其卷积核输出通道数为2,分别表示宽度与高度;
步骤3.3:将所述特征图F送入基于角点检测的字段矫正模型RectifyNet中,从而利用式(10)进行预测,得到文本关键字段的角点预测结果CornerX
CornerX=DeformableConv(Ffuse) (10)
式(10)中;DeformableConv(·)表示可变形卷积操作,其卷积核的输出通道数为4,分别表示文本关键字段四个角点的置信度;
步骤4:根据步骤3的结果对文本关键字段进行矫正;
步骤4.1:对检测结果进行后处理:
将中心热力图heatmapX与字段宽高预测结果whX结合后得到字段的外接矩形;并对文档图片X中所有的外接矩形作非极大值抑制,得到最终的字段检测结果;
步骤4.2:对字段检测结果进行矫正:
遍历字段检测结果,选择对应的角点预测结果,结合四个角点得到每个字段的外接四边形;通过外接四边形的角点坐标对检测到的字段作仿射变换,从而得到矫正后的字段并作为最终的文本关键字段的检测结果。
CN202110334566.8A 2021-03-29 2021-03-29 一种基于深度学习的级联式文本关键字段检测方法 Active CN112949574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334566.8A CN112949574B (zh) 2021-03-29 2021-03-29 一种基于深度学习的级联式文本关键字段检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334566.8A CN112949574B (zh) 2021-03-29 2021-03-29 一种基于深度学习的级联式文本关键字段检测方法

Publications (2)

Publication Number Publication Date
CN112949574A true CN112949574A (zh) 2021-06-11
CN112949574B CN112949574B (zh) 2022-09-27

Family

ID=76228308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334566.8A Active CN112949574B (zh) 2021-03-29 2021-03-29 一种基于深度学习的级联式文本关键字段检测方法

Country Status (1)

Country Link
CN (1) CN112949574B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
KR20190118744A (ko) * 2018-04-11 2019-10-21 한국과학기술원 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN110969160A (zh) * 2019-11-21 2020-04-07 合肥工业大学 一种基于深度学习的车牌图像校正、识别方法及系统
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111145124A (zh) * 2019-12-30 2020-05-12 北京华宇信息技术有限公司 一种图像倾斜的校正方法及装置
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法
KR20190118744A (ko) * 2018-04-11 2019-10-21 한국과학기술원 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN110969160A (zh) * 2019-11-21 2020-04-07 合肥工业大学 一种基于深度学习的车牌图像校正、识别方法及系统
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111145124A (zh) * 2019-12-30 2020-05-12 北京华宇信息技术有限公司 一种图像倾斜的校正方法及装置
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
TENSMEYER, CHRIS 等: "Robust Keypoint Regression", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
付源梓: "自然场景下基于深度学习的车牌识别方法研究", 《知网硕士电子期刊》 *
姜典转: "基于深度学习的票据文本定位与识别研究", 《知网硕士电子期刊》 *
张振宇等: "一种面向银行票据文字自动化识别的高效人工智能方法", 《温州大学学报(自然科学版)》 *
谢禹等: "基于关键点的目标检测算法综述", 《信息技术与标准化》 *

Also Published As

Publication number Publication date
CN112949574B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN109993160B (zh) 一种图像矫正及文本与位置识别方法及系统
CN106529537B (zh) 一种数字仪表读数图像识别方法
CN112115783B (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
WO2019201035A1 (zh) 对图像中的对象节点的识别方法、装置、终端及计算机可读存储介质
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN105184292A (zh) 自然场景图像中手写体数学公式结构分析与识别方法
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN108960115B (zh) 基于角点的多方向文本检测方法
CN110705563B (zh) 一种基于深度学习的工业零件关键点检测方法
CN112115936A (zh) 一种用于文本的识别方法、装置、存储介质以及电子设备
CN110543877A (zh) 标识识别方法及其模型的训练方法、装置和电子系统
CN115713694B (zh) 一种土地测绘信息管理方法
CN113344857A (zh) 缺陷检测网络的训练方法、缺陷检测方法和存储介质
CN113705570B (zh) 一种基于深度学习的少样本目标检测方法
CN111008576A (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
JP2014002497A (ja) 電子機器の捺印シンボル検査装置、及びその方法
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN108694716B (zh) 一种工件检测方法、模型训练方法及设备
CN110287940B (zh) 一种基于人工智能的掌纹识别方法及系统
CN114266881A (zh) 一种基于改进型语义分割网络的指针式仪表自动读数方法
CN116363573A (zh) 一种变电站设备状态异常识别方法和系统
CN114743201A (zh) 一种基于旋转目标检测的万用表读数识别方法及系统
CN112949574B (zh) 一种基于深度学习的级联式文本关键字段检测方法
CN112418206A (zh) 基于位置检测模型的图片分类方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant