CN112926581B - 一种基于轮廓建模的文本检测方法 - Google Patents

一种基于轮廓建模的文本检测方法 Download PDF

Info

Publication number
CN112926581B
CN112926581B CN202110335246.4A CN202110335246A CN112926581B CN 112926581 B CN112926581 B CN 112926581B CN 202110335246 A CN202110335246 A CN 202110335246A CN 112926581 B CN112926581 B CN 112926581B
Authority
CN
China
Prior art keywords
conv
convolution
text
formula
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110335246.4A
Other languages
English (en)
Other versions
CN112926581A (zh
Inventor
汪增福
吴仕莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202110335246.4A priority Critical patent/CN112926581B/zh
Publication of CN112926581A publication Critical patent/CN112926581A/zh
Application granted granted Critical
Publication of CN112926581B publication Critical patent/CN112926581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轮廓建模的文本检测方法,其步骤包括:首先收集包含文字的图片并进行人工标注,建立用于文本检测的图片数据集;接着构建基于轮廓建模的文本检测模型;然后运行基于轮廓建模的文本检测模型,得到文本轮廓预测结果与文本坐标偏移预测结果;最后进行后处理,得到每一个文本的外接多边形。本发明能够检测任意形状的文本,具有鲁棒性高,速度快的优点。

Description

一种基于轮廓建模的文本检测方法
技术领域
本发明涉及涉及文字检测领域的相关问题,具体涉及一种基于轮廓建模的文本检测方法。
背景技术
文字检测领域中,目前最常用的算法都是基于深度学习的方法:主要有两种方法,一种是基于分割的方法,一种是基于检测的方法;前者可以检测任意形状文本,但相邻的文本难以区分,且后处理复杂;后者流程简单,但不能检测任意形状,且受到感受野的限制,对于长文本效果不佳。
发明内容
本发明克服了现有技术的不足之处,提供一种基于轮廓建模的文本检测方法,以期通过轮廓预测来确定文本实例,从而提升文字检测的准确率与鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于轮廓建模的文本检测方法的特点在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为
Figure BDA0002997322480000011
其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)- 式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。
与现有技术相比,本发明的有益效果在于:
1、本发明利用分割的方法来检测文本的轮廓,以确定文本实例,再回归坐标偏移,从而结合了分割方法与检测方法的优点,提高了长文本检测的效果。
2、本发明利用回归坐标偏移的方法来确定文本的外接多边形,具有后处理简单,可以检测任意形状文本的优点。
3、本发明通过预测轮廓来对文本的外接多边形进行建模,具有后处理简单,速度快的优点。
附图说明
图1是本发明基于轮廓建模的文本检测方法的使用流程图;
图2是本发明基于轮廓建模的文本检测方法的网络结构图。
具体实施方式
本实施例中,如图1所示,一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为
Figure BDA0002997322480000051
其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)- 式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX:
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示为了得到益于轮廓检测的图像特征的N次卷积操作, Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了得到益于坐标偏移预测的图像特征的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作,表示对4个点的x坐标与y坐标的偏移;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理:设置一个阈值,将ClsX上大于阈值的点的值设为1,小于阈值的点的值设为0;然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓,设置一个最小宽度与高度,只保留外接旋转矩形的宽高大于设置的最小宽高的轮廓;每一个轮廓就确定了一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,接着遍历每一个轮廓上的所有点,在文本坐标偏移预测结果OffsetX上选择对应点的预测结果,与对应轮廓点的坐标进行加法处理,以此可以得到4个边界点坐标;此边界点坐标含义如下:用一个经过当前点的水平线去切文本的外接矩形,可以得到左右2个边界点;再用一个经过当前点的竖直线去切文本的外接矩形,可以得到上下2个边界点;设一个轮廓上有T个点,处理后可以得到4T个边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,得到最终的外接多边形结果。

Claims (1)

1.一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为
Figure FDA0002997322470000011
其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)-式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。
CN202110335246.4A 2021-03-29 2021-03-29 一种基于轮廓建模的文本检测方法 Active CN112926581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335246.4A CN112926581B (zh) 2021-03-29 2021-03-29 一种基于轮廓建模的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335246.4A CN112926581B (zh) 2021-03-29 2021-03-29 一种基于轮廓建模的文本检测方法

Publications (2)

Publication Number Publication Date
CN112926581A CN112926581A (zh) 2021-06-08
CN112926581B true CN112926581B (zh) 2022-11-08

Family

ID=76176456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335246.4A Active CN112926581B (zh) 2021-03-29 2021-03-29 一种基于轮廓建模的文本检测方法

Country Status (1)

Country Link
CN (1) CN112926581B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998906B (zh) * 2022-05-25 2023-08-08 北京百度网讯科技有限公司 文本检测方法、模型的训练方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574524A (zh) * 2015-12-11 2016-05-11 北京大学 基于对白和分镜联合识别的漫画图像版面识别方法和系统
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110767292A (zh) * 2019-10-12 2020-02-07 腾讯科技(深圳)有限公司 病理编号识别方法、信息识别方法、装置及信息识别系统
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428439A (zh) * 2020-03-27 2020-07-17 杭州趣维科技有限公司 一种基于轮廓树结构适用移动端生成立体文字模型的方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855419B2 (en) * 2012-11-20 2014-10-07 Eastman Kodak Company Image rectification using an orientation vector field

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574524A (zh) * 2015-12-11 2016-05-11 北京大学 基于对白和分镜联合识别的漫画图像版面识别方法和系统
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110767292A (zh) * 2019-10-12 2020-02-07 腾讯科技(深圳)有限公司 病理编号识别方法、信息识别方法、装置及信息识别系统
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428439A (zh) * 2020-03-27 2020-07-17 杭州趣维科技有限公司 一种基于轮廓树结构适用移动端生成立体文字模型的方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《EMBDN:An Efficient Multiclass Barcode Detection Network for Complicated Environments》;Jia J et al;《IEEE》;20190806;全文 *
《彝文古籍字符检测和识别的研究与实现》;韩旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210115(第2021年第01期);全文 *

Also Published As

Publication number Publication date
CN112926581A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN111027547B (zh) 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111460927B (zh) 对房产证图像进行结构化信息提取的方法
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN105426856A (zh) 一种图像表格文字识别方法
CN109948533B (zh) 一种文本检测方法、装置、设备及可读存储介质
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN108376244A (zh) 一种自然场景图片中的文本字体的识别方法
EP3889833A1 (en) Method and apparatus for extracting a satellite image-based building footprint
CN105701508A (zh) 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN113723330B (zh) 一种图表文档信息理解的方法及系统
TW202013311A (zh) 一種圖像處理方法、電子設備及存儲介質
CN111144411B (zh) 一种基于显著图的不规则文本修正与识别方法及系统
CN104951788A (zh) 一种书法作品中单字笔画的提取方法
CN112926581B (zh) 一种基于轮廓建模的文本检测方法
CN115620322B (zh) 一种基于关键点检测的全线表表格结构识别方法
CN111612747A (zh) 产品表面裂缝快速检测方法及检测系统
CN110555122B (zh) 一种基于分段矩形的建筑平面图墙体矢量化方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN111104539A (zh) 细粒度车辆图像检索方法、装置及设备
CN110992310A (zh) 一种确定纵隔淋巴结所在分区的方法及装置
CN112949755B (zh) 一种基于图像结构信息的ocr数据合成方法
CN112446292A (zh) 一种2d图像显著目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant