CN112926581B - 一种基于轮廓建模的文本检测方法 - Google Patents
一种基于轮廓建模的文本检测方法 Download PDFInfo
- Publication number
- CN112926581B CN112926581B CN202110335246.4A CN202110335246A CN112926581B CN 112926581 B CN112926581 B CN 112926581B CN 202110335246 A CN202110335246 A CN 202110335246A CN 112926581 B CN112926581 B CN 112926581B
- Authority
- CN
- China
- Prior art keywords
- conv
- convolution
- text
- formula
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于轮廓建模的文本检测方法,其步骤包括:首先收集包含文字的图片并进行人工标注,建立用于文本检测的图片数据集;接着构建基于轮廓建模的文本检测模型;然后运行基于轮廓建模的文本检测模型,得到文本轮廓预测结果与文本坐标偏移预测结果;最后进行后处理,得到每一个文本的外接多边形。本发明能够检测任意形状的文本,具有鲁棒性高,速度快的优点。
Description
技术领域
本发明涉及涉及文字检测领域的相关问题,具体涉及一种基于轮廓建模的文本检测方法。
背景技术
文字检测领域中,目前最常用的算法都是基于深度学习的方法:主要有两种方法,一种是基于分割的方法,一种是基于检测的方法;前者可以检测任意形状文本,但相邻的文本难以区分,且后处理复杂;后者流程简单,但不能检测任意形状,且受到感受野的限制,对于长文本效果不佳。
发明内容
本发明克服了现有技术的不足之处,提供一种基于轮廓建模的文本检测方法,以期通过轮廓预测来确定文本实例,从而提升文字检测的准确率与鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于轮廓建模的文本检测方法的特点在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1:
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1:
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2:
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3:
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4:
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)- 式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4;
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3;
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2;
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1;
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX:
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。
与现有技术相比,本发明的有益效果在于:
1、本发明利用分割的方法来检测文本的轮廓,以确定文本实例,再回归坐标偏移,从而结合了分割方法与检测方法的优点,提高了长文本检测的效果。
2、本发明利用回归坐标偏移的方法来确定文本的外接多边形,具有后处理简单,可以检测任意形状文本的优点。
3、本发明通过预测轮廓来对文本的外接多边形进行建模,具有后处理简单,速度快的优点。
附图说明
图1是本发明基于轮廓建模的文本检测方法的使用流程图;
图2是本发明基于轮廓建模的文本检测方法的网络结构图。
具体实施方式
本实施例中,如图1所示,一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1:
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1:
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2:
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3:
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4:
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)- 式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4;
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3;
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2;
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1;
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX:
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示为了得到益于轮廓检测的图像特征的N次卷积操作, Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了得到益于坐标偏移预测的图像特征的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作,表示对4个点的x坐标与y坐标的偏移;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理:设置一个阈值,将ClsX上大于阈值的点的值设为1,小于阈值的点的值设为0;然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓,设置一个最小宽度与高度,只保留外接旋转矩形的宽高大于设置的最小宽高的轮廓;每一个轮廓就确定了一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,接着遍历每一个轮廓上的所有点,在文本坐标偏移预测结果OffsetX上选择对应点的预测结果,与对应轮廓点的坐标进行加法处理,以此可以得到4个边界点坐标;此边界点坐标含义如下:用一个经过当前点的水平线去切文本的外接矩形,可以得到左右2个边界点;再用一个经过当前点的竖直线去切文本的外接矩形,可以得到上下2个边界点;设一个轮廓上有T个点,处理后可以得到4T个边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,得到最终的外接多边形结果。
Claims (1)
1.一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1:
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1:
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2:
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3:
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4:
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)-式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4;
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3;
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2;
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1;
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX:
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335246.4A CN112926581B (zh) | 2021-03-29 | 2021-03-29 | 一种基于轮廓建模的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335246.4A CN112926581B (zh) | 2021-03-29 | 2021-03-29 | 一种基于轮廓建模的文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926581A CN112926581A (zh) | 2021-06-08 |
CN112926581B true CN112926581B (zh) | 2022-11-08 |
Family
ID=76176456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110335246.4A Active CN112926581B (zh) | 2021-03-29 | 2021-03-29 | 一种基于轮廓建模的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926581B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998906B (zh) * | 2022-05-25 | 2023-08-08 | 北京百度网讯科技有限公司 | 文本检测方法、模型的训练方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574524A (zh) * | 2015-12-11 | 2016-05-11 | 北京大学 | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110767292A (zh) * | 2019-10-12 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 病理编号识别方法、信息识别方法、装置及信息识别系统 |
CN111310760A (zh) * | 2020-02-13 | 2020-06-19 | 辽宁师范大学 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
CN111428439A (zh) * | 2020-03-27 | 2020-07-17 | 杭州趣维科技有限公司 | 一种基于轮廓树结构适用移动端生成立体文字模型的方法 |
CN111444919A (zh) * | 2020-04-17 | 2020-07-24 | 南京大学 | 一种自然场景中的任意形状文本检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8855419B2 (en) * | 2012-11-20 | 2014-10-07 | Eastman Kodak Company | Image rectification using an orientation vector field |
-
2021
- 2021-03-29 CN CN202110335246.4A patent/CN112926581B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574524A (zh) * | 2015-12-11 | 2016-05-11 | 北京大学 | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110767292A (zh) * | 2019-10-12 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 病理编号识别方法、信息识别方法、装置及信息识别系统 |
CN111310760A (zh) * | 2020-02-13 | 2020-06-19 | 辽宁师范大学 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
CN111428439A (zh) * | 2020-03-27 | 2020-07-17 | 杭州趣维科技有限公司 | 一种基于轮廓树结构适用移动端生成立体文字模型的方法 |
CN111444919A (zh) * | 2020-04-17 | 2020-07-24 | 南京大学 | 一种自然场景中的任意形状文本检测方法 |
Non-Patent Citations (2)
Title |
---|
《EMBDN:An Efficient Multiclass Barcode Detection Network for Complicated Environments》;Jia J et al;《IEEE》;20190806;全文 * |
《彝文古籍字符检测和识别的研究与实现》;韩旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210115(第2021年第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926581A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027547B (zh) | 一种针对二维图像中的多尺度多形态目标的自动检测方法 | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
CN105426856A (zh) | 一种图像表格文字识别方法 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN110334709B (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN108376244A (zh) | 一种自然场景图片中的文本字体的识别方法 | |
EP3889833A1 (en) | Method and apparatus for extracting a satellite image-based building footprint | |
CN105701508A (zh) | 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN113723330B (zh) | 一种图表文档信息理解的方法及系统 | |
TW202013311A (zh) | 一種圖像處理方法、電子設備及存儲介質 | |
CN111144411B (zh) | 一种基于显著图的不规则文本修正与识别方法及系统 | |
CN104951788A (zh) | 一种书法作品中单字笔画的提取方法 | |
CN112926581B (zh) | 一种基于轮廓建模的文本检测方法 | |
CN115620322B (zh) | 一种基于关键点检测的全线表表格结构识别方法 | |
CN111612747A (zh) | 产品表面裂缝快速检测方法及检测系统 | |
CN110555122B (zh) | 一种基于分段矩形的建筑平面图墙体矢量化方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111104539A (zh) | 细粒度车辆图像检索方法、装置及设备 | |
CN110992310A (zh) | 一种确定纵隔淋巴结所在分区的方法及装置 | |
CN112949755B (zh) | 一种基于图像结构信息的ocr数据合成方法 | |
CN112446292A (zh) | 一种2d图像显著目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |