CN111967463A - 一种检测自然场景中弯曲文本的曲线拟合的方法 - Google Patents

一种检测自然场景中弯曲文本的曲线拟合的方法 Download PDF

Info

Publication number
CN111967463A
CN111967463A CN202010584515.6A CN202010584515A CN111967463A CN 111967463 A CN111967463 A CN 111967463A CN 202010584515 A CN202010584515 A CN 202010584515A CN 111967463 A CN111967463 A CN 111967463A
Authority
CN
China
Prior art keywords
text
layer
segments
link
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010584515.6A
Other languages
English (en)
Inventor
徐健锋
邹伟康
刘澜
吴俊杰
江飞翔
杨迎方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202010584515.6A priority Critical patent/CN111967463A/zh
Publication of CN111967463A publication Critical patent/CN111967463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自然场景弯曲文本的检测方法,方法包括:S1:获取包含弯曲文本的自然场景图片的数据集;S2:利用将VGG‑16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取,得到特征图;S3:对步骤S2中的特征图进行卷积处理得到段和链接;S4:取步骤S3中每个段的上下中心点,将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域,得到的区域即为文本检测框;S5:输出步骤S4中的文本检测框。本发明能够更精准的定位到自然场景中的弯曲文本,可以非常灵活和高效地检测任意长度和方向的文本。

Description

一种检测自然场景中弯曲文本的曲线拟合的方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种自然场景弯曲文本的检测方法。
背景技术
近年来,在自然场景文本的检测与识别等方面,国内外学者掀起了一股研究热潮。其驱动因素既有应用前景,也有研究价值。一方面,场景文本检测与识别在场景理解、地理定位、自动驾驶、图像检索等众多实用系统中发挥着越来越重要的作用。另一方面,由于场景文本具有一般目标检测对象不具备的属性,例如文本大多数以长矩形形式存在,而普通的目标检测对象长宽比接近于1;普通物体存在明显的闭合边缘轮廓,而文本没有;文本中包含多个文字,而文字之间是有间隔的,如果检测做的不好,就会把每个字都当成文本行给框出来而非整行作为文本框。
不规则文本检测是文本检测中的一个难点问题。其主要原因是大多数现有的文本检测方法都基于一个共同的假设,即文本实例形状大致是呈线性的,因此采用相对简单的轴对齐矩形、旋转矩形或四边形来表示检测框。尽管这些方法在标准基准上取得了进展,但在处理不规则形状(例如曲线文本)的文本实例时,依然可能会显现不足。
发明内容
本发明提供一种自然场景弯曲文本检测方法,能够更精准的定位到自然场景中的弯曲文本,可以非常灵活和高效地检测任意长度和方向的文本。
为解决上述技术问题,本发明提供一种自然场景弯曲文本检测方法,包括如下步骤:
S1:获取包含弯曲文本的自然场景图片的图像数据集;
S2利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤(1)中获得的图像数据集进行特征提取,得到特征图;
S3:对步骤S2中的特征图进行卷积处理得到段和链接;
S4:取步骤S3中每个段的上下中心点,将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域,得到的区域即为文本检测框;
S5输出步骤S4中的文本检测框。
步骤S1中,所述图像数据集为已有的公共的场景曲线文本图像数据集,或者临时采集场景中的曲线文本图像数据集,所述图像数据集中包含有N张训练图片,每张训练图片中至少有一个曲线文本区域,并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
步骤S2中,网络结构是使用一个预先训练好的VGG-16网络作为骨干网(conv1到pool5)。在SSD之后,将VGG-16的全连接层转换为卷积层(fc6转换为conv6,fc7转换为conv7)。接着是一些额外的卷积层(conv8_1到conv11),它们可以用更大的感受野提取更深层次的特征。
步骤S3中,段也是定向框,用s=(xs,ys,ws,hs,θs)表示。通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段。每个默认框都与一个特征图位置相关联,它的得分和偏移量将根据该位置的特征进行预测。
一个链接连接一对相邻的段,表示它们属于同一个单词。在此,相邻段是在相邻特征图位置处检测到的那些段。链接不仅是将段组合成完整单词所必需的,而且有助于分隔两个相邻单词-在两个相邻单词之间,链接应该被预测为否定的。
使用相同的特征来显式地检测段之间的链接。由于在一个特征图位置上只检测到一个段,段可以通过它们的特征图位置(x,y)和层索引l(用s(x,y,l)表示)进行索引。
当局部检测到段时,一对相邻的段在输入图像上也相邻。卷积预测器也可以检测到链接。一个预测器为连接到8个相邻段的链接,输出为16个通道。每2个通道均经过softmax归一化以获得链接得分。
在的网络中,在不同的特征层上以不同的尺度检测段。每个层处理一系列比例。使这些范围重叠,以免在其边缘丢失比例。但结果是,同一个单词的段可以同时在多个层上被检测到,从而产生冗余。
跨层链接将两个特征层上的段与相邻的索引连接起来。例如,在conv4_3和conv7之间检测到跨层链接,因为它们的索引分别为l=1和l=2。
这种对的一个重要特性是,由于它们之间的下采样层(最大池化或跨步2卷积),第一层的大小总是第二层的两倍。只有当所有特征层的大小都为偶数时,此特性才有效。实际上,通过将输入图像的宽度和高度都可除以128来确保这一特性。例如,1000×800图像的大小调整为1024×768,这是最接近的有效大小。
此外,跨层链接由卷积预测器检测。预测器输出8个跨层链接通道。每2个通道被softmax归一化,以产生一个跨层链接的分数。在特征层l=2,…,6上检测到跨层链接,但在l=1(conv4_3)上检测不到跨层链接,因为它没有优先的特征层。
通过跨层链接,可以连接不同比例的段,然后进行组合。与传统的非最大抑制相比,跨层连接提供了一种可训练的冗余连接方式。
步骤S4中,在卷积预测器检测到段和链接之后,可以利用最小二乘拟合曲线的方法来计算出边界框。
对于段上下边界中点pi,pj,要寻找y与x之间的近似函数关系
Figure BDA0002553590490000031
Figure BDA0002553590490000032
近似描述已知数据(xi,yi)(i=0,1,2...,m),不必要求在每个点xi处,误差
Figure BDA0002553590490000041
都为0,只需在所有点处的某种总体误差最小即可。设给定基函数
Figure BDA0002553590490000042
在集合
Figure BDA0002553590490000043
中寻求形如
Figure BDA0002553590490000044
的函数,使其近似已知数据。
步骤S5中,根据上述步骤输出由曲线c1,c2和直线方程l1,l2围成的区域c*=(c1,c2,l1,l2)。
与现有技术相比,本发明的有益效果是:本发明使用一种改进的全卷积神经网络,使用曲线拟合的方法可以很好地拟合任意形状(水平,多方向和弯曲的形式)和长度的文本,具有自适应的检测效果,同时还可以检测非拉丁文字的长行,例如中文,且模型结构简单检测效率高。由于它对文本结构的复杂多样性具有良好的适应能力,为了适应外部环境而改变其形状,能够更精准的定位到自然场景中的弯曲文本,可以非常灵活和高效地检测任意长度和方向的文本。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
如图1所示,一种自然场景弯曲文本的检测方法,包括如下步骤:
S1:获取包含弯曲文本的自然场景图片的图像数据集;
图像数据集为已有的公共的场景曲线文本图像数据集,或者临时采集场景中的曲线文本图像数据集,所述图像数据集中包含有N张训练图片,每张训练图片中至少有一个曲线文本区域,并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
S2:利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取,得到特征图;
网络结构是使用一个预先训练好的VGG-16网络作为骨干网(conv1到pool5)。在SSD之后,将VGG-16的全连接层转换为卷积层(fc6转换为conv6,fc7转换为conv7)。接着是一些额外的卷积层(conv8_1到conv11),它们可以用更大的感受野提取更深层次的特征。
在6个特征层上检测到段和链接,分别是conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11。这些特征层提供不同粒度的高质量深层特征(conv4_3最细,conv11最粗),在6层中每层增加一个3×3核的卷积预测器来检测段和链接。用l=1,…,6对特征层和预测器进行索引。
S3:对步骤S2中的特征图进行卷积处理得到段和链接;
段也是定向框,用s=(xs,ys,ws,hs,θs)表示。通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段。每个默认框都与一个特征图位置相关联,它的得分和偏移量将根据该位置的特征进行预测。为了简单起见,只将一个默认框与特征图位置相关联。特征图大小为wl×hl的第l特征层,特征图上的位置(x,y)对应于图像上的默认框中心位置为(xa,ya),
Figure BDA0002553590490000051
其中wI,hI,为输入图像的宽和高,wl×hl为第l特征层的特征图的宽和高。默认框的宽度和高度都设置为常数al。
卷积预测器产生7个通道用于分段检测。其中,对2个通道进行进一步的softmax归一化,得到(0,1)中的段分数。其余5个是几何偏移。特征图上的某个位置(x,y),将该位置沿深度的矢量表示为(Δxs,Δys,Δws,Δhs,Δθs)。然后,通过以下方法计算此位置的段:
xs=alΔxs+xa
ys=alΔys+ya
ws=al exp(Δws)
hs=al exp(Δhs)
θs=Δθs (2)
这里,常数al控制输出段的比例。应根据第l层的感受野大小来选择。使用一个经验公式来选择这个尺寸:
Figure BDA0002553590490000061
其中γ=1.5。
一个链接连接一对相邻的段,表示它们属于同一个单词。在此,相邻段是在相邻特征图位置处检测到的那些段。链接不仅是将段组合成完整单词所必需的,而且有助于分隔两个相邻单词-在两个相邻单词之间,链接应该被预测为否定的。
使用相同的特征来显式地检测段之间的链接。由于在一个特征图位置上只检测到一个段,段可以通过它们的特征图位置(x,y)和层索引l(用s(x,y,l)表示)进行索引。一个段的层内邻居为同一特征层上的8个连通邻居
Figure BDA0002553590490000062
当局部检测到段时,一对相邻的段在输入图像上也相邻。卷积预测器也可以检测到链接。一个预测器为连接到8个相邻段的链接,输出为16个通道。每2个通道均经过softmax归一化以获得链接得分。
在的网络中,在不同的特征层上以不同的尺度检测段。每个层处理一系列比例。使这些范围重叠,以免在其边缘丢失比例。但结果是,同一个单词的段可以同时在多个层上被检测到,从而产生冗余。
跨层链接将两个特征层上的段与相邻的索引连接起来。例如,在conv4_3和conv7之间检测到跨层链接,因为它们的索引分别为l=1和l=2。
这种对的一个重要特性是,由于它们之间的下采样层(最大池化或跨步2卷积),第一层的大小总是第二层的两倍。只有当所有特征层的大小都为偶数时,此特性才有效。实际上,通过将输入图像的宽度和高度都可除以128来确保这一特性。例如,1000×800图像的大小调整为1024×768,这是最接近的有效大小。段的跨层邻居为
Figure BDA0002553590490000071
它们是前一层的段。每段有4个跨层邻居。通过两层之间的两倍大小关系来确保对应关系。
此外,跨层链接由卷积预测器检测。预测器输出8个跨层链接通道。每2个通道被softmax归一化,以产生一个跨层链接的分数。在特征层l=2,…,6上检测到跨层链接,但在l=1(conv4_3)上检测不到跨层链接,因为它没有优先的特征层。
通过跨层链接,可以连接不同比例的段,然后进行组合。与传统的非最大抑制相比,跨层连接提供了一种可训练的冗余连接方式。
S4:取步骤S3中每个段的上下中心点,将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域,得到的区域即为文本检测框;
在卷积预测器检测到段和链接之后,可以利用最小二乘拟合曲线的方法来计算出边界框。
段表示为s=(xs,ys,ws,hss),段的上边界中点为
Figure BDA0002553590490000072
段的下边界中的为
Figure BDA0002553590490000073
分别记为pi=(xi,yi),pj=(xj,yj)。段两边边界的上下顶点为:
Figure BDA0002553590490000074
Figure BDA0002553590490000075
Figure BDA0002553590490000076
Figure BDA0002553590490000077
对于段上下边界中点pi,pj,要寻找y与x之间的近似函数关系
Figure BDA0002553590490000078
Figure BDA0002553590490000079
近似描述已知数据(xi,yi)(i=0,1,2...,m),不必要求在每个点xi处,误差
Figure BDA00025535904900000710
都为0,只需在所有点处的某种总体误差最小即可。设给定基函数
Figure BDA0002553590490000081
在集合
Figure BDA0002553590490000082
中寻求形如
Figure BDA0002553590490000083
的函数,使其近似已知数据。
对给定的数据(xi,yi)(i=0,1,2...,m),若
Figure BDA0002553590490000084
使得
Figure BDA0002553590490000085
则称y=y*(x)为曲线族中Ω的最小二乘拟合曲线,均方误差。
Figure BDA0002553590490000086
要确定拟合曲线(5)中的待定系数
Figure BDA0002553590490000087
由(6)式知,就是求多元函数
Figure BDA0002553590490000088
的最小值点
Figure BDA0002553590490000089
由多元函数取极值的必要条件,有
Figure BDA00025535904900000810
从而有
Figure BDA00025535904900000811
这是n+1个方程、n+1个未知数的线性方程组,借助矩阵运算,可写成如下矩阵形式:
ATAc=ATy (8)
其中,
c=(c0,c1,...,cn)T,y=(y0,y1,...,ym)
Figure BDA0002553590490000091
方程组(8)称为法方程组,设
Figure BDA0002553590490000092
线性无关,则行列式|ATA|≠0,线性方程组(8)存在唯一的一组解。
若取基函数Ω=span{1,x,x2,...,xn},法方程的系数矩阵显然非奇异,求解法方程组,得到拟合系数
Figure BDA0002553590490000093
从而得到
Figure BDA0002553590490000094
再由多元函数取极值的充分条件可证明,求出的y*(x)确实是方程组(6)的解,即y*(x)为最小二乘拟合曲线。
S5:输出步骤S4中的文本检测框;
根据上述步骤输出由曲线c1,c2和直线方程l1,l2围成的区域c*=(c1,c2,l1,l2)。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种自然场景弯曲文本的检测方法,其特征在于,包括以下步骤:
S1:获取包含弯曲文本的自然场景图片的图像数据集;
S2:利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取,得到特征图;
S3:对步骤S2中的特征图进行卷积处理得到段和链接;
S4:取步骤S3中每个段的上下中心点,将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域,得到的区域即为文本检测框;
S5:输出步骤S4中的文本检测框。
2.根据权利要求1所述的一种自然场景弯曲文本的检测方法,其特征在于,步骤S1中,所述图像数据集为已有的公共的场景曲线文本图像数据集,或者临时采集场景中的曲线文本图像数据集,所述图像数据集中包含有N张训练图片,每张训练图片中至少有一个曲线文本区域,并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
3.根据权利要求1所述的一种自然场景弯曲文本的检测方法,其特征在于,步骤S2中,使用一个预先训练好的VGG-16网络作为骨干网的网络结构;
在SSD之后,将VGG-16的全连接层转换为卷积层;
接着是一些额外的卷积层,它们可以用更大的感受野提取更深层次的特征。
4.根据权利要求1所述的一种自然场景弯曲文本的检测方法,其特征在于,步骤S3中,段是定向框,用s=(xs,ys,ws,hs,θs)表示;
通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段;
每个默认框都与一个特征图位置相关联,它的得分和偏移量将根据该位置的特征进行预测。
5.根据权利要求4所述的一种自然场景弯曲文本的检测方法,其特征在于,一个链接连接一对相邻的段,表示它们属于同一个单词;
链接不仅是将段组合成完整单词所必需的,而且有助于分隔两个相邻单词-在两个相邻单词之间,链接应该被预测为否定的;
使用相同的特征来显式地检测段之间的链接,由于在一个特征图位置上只检测到一个段,段可以通过它们的特征图位置和层索引l进行索引;
当局部检测到段时,一对相邻的段在输入图像上也相邻,卷积预测器也可以检测到链接,一个预测器为连接到8个相邻段的链接,输出为16个通道,每2个通道均经过softmax归一化以获得链接得分。
6.根据权利要求5所述的一种自然场景弯曲文本的检测方法,其特征在于,以跨层链接将两个特征层上的段与相邻的索引连接起来;
这种对的一个重要特性是,由于它们之间的下采样层,第一层的大小总是第二层的两倍,只有当所有特征层的大小都为偶数时,此特性才有效;
跨层链接由卷积预测器检测,预测器输出8个跨层链接通道,每2个通道被softmax归一化,以产生一个跨层链接的分数,在特征层l=2,…,6上检测到跨层链接,但在l=1上检测不到跨层链接,因为它没有优先的特征层。
7.根据权利要求6所述的一种自然场景弯曲文本的检测方法,其特征在于,跨层链接,可以连接不同比例的段,然后进行组合,与传统的非最大抑制相比,跨层连接提供了一种可训练的冗余连接方式。
8.如权利要求1所述的检测自然场景中弯曲文本的曲线拟合的方法,其特征在于,步骤S4中,在卷积预测器检测到段和链接之后,可以利用最小二乘拟合曲线的方法来计算出边界框;
对于段上下边界中点pi,pj,要寻找y与x之间的近似函数关系
Figure FDA0002553590480000021
Figure FDA0002553590480000022
近似描述已知数据(xi,yi)(i=0,1,2...,m),不必要求在每个点xi处,误差
Figure FDA0002553590480000023
都为0,只需在所有点处的某种总体误差最小即可;
设给定基函数
Figure FDA0002553590480000031
在集合
Figure FDA0002553590480000032
中寻求形如
Figure FDA0002553590480000033
的函数,使其近似已知数据。
9.如权利要求1所述的检测自然场景中弯曲文本的曲线拟合的方法,其特征在于,步骤S5中,根据上述步骤输出由曲线c1,c2和直线方程l1,l2围成的区域c*=(c1,c2,l1,l2)。
CN202010584515.6A 2020-06-23 2020-06-23 一种检测自然场景中弯曲文本的曲线拟合的方法 Pending CN111967463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010584515.6A CN111967463A (zh) 2020-06-23 2020-06-23 一种检测自然场景中弯曲文本的曲线拟合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010584515.6A CN111967463A (zh) 2020-06-23 2020-06-23 一种检测自然场景中弯曲文本的曲线拟合的方法

Publications (1)

Publication Number Publication Date
CN111967463A true CN111967463A (zh) 2020-11-20

Family

ID=73360618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010584515.6A Pending CN111967463A (zh) 2020-06-23 2020-06-23 一种检测自然场景中弯曲文本的曲线拟合的方法

Country Status (1)

Country Link
CN (1) CN111967463A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809436A (zh) * 2015-04-23 2015-07-29 天津大学 一种弯曲书面文字识别方法
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN108830186A (zh) * 2018-05-28 2018-11-16 腾讯科技(深圳)有限公司 文本图像的内容提取方法、装置、设备及存储介质
CN109919146A (zh) * 2019-02-02 2019-06-21 上海兑观信息科技技术有限公司 图片文字识别方法、装置及平台
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN110598699A (zh) * 2019-09-16 2019-12-20 华中科技大学 一种基于多光谱图像的防伪票据鉴伪系统和方法
CN110766003A (zh) * 2019-10-18 2020-02-07 湖北工业大学 一种基于卷积神经网络的片段和链接的场景文字的检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
CN104809436A (zh) * 2015-04-23 2015-07-29 天津大学 一种弯曲书面文字识别方法
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN108830186A (zh) * 2018-05-28 2018-11-16 腾讯科技(深圳)有限公司 文本图像的内容提取方法、装置、设备及存储介质
CN109919146A (zh) * 2019-02-02 2019-06-21 上海兑观信息科技技术有限公司 图片文字识别方法、装置及平台
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN110598699A (zh) * 2019-09-16 2019-12-20 华中科技大学 一种基于多光谱图像的防伪票据鉴伪系统和方法
CN110766003A (zh) * 2019-10-18 2020-02-07 湖北工业大学 一种基于卷积神经网络的片段和链接的场景文字的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: "Detecting Oriented Text in Natural Images by Linking Segments", 《ARXIV:1703.06520V3》 *
罗晓萍等: "分段Radon变换的弯曲文本基线提取", 《小型微型计算机系统》 *

Similar Documents

Publication Publication Date Title
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
Lv et al. Residential floor plan recognition and reconstruction
CN108446694B (zh) 一种目标检测方法及装置
CN108694393A (zh) 一种基于深度卷积的证件图像文本区域提取方法
CN112418216B (zh) 一种复杂自然场景图像中的文字检测方法
CN112132058B (zh) 一种头部姿态估计方法及其实现系统、存储介质
CN113158768B (zh) 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法
CN110180186A (zh) 一种地形图转换方法及系统
CN108776989A (zh) 基于稀疏slam框架的低纹理平面场景重建方法
CN111899295B (zh) 一种基于深度学习的单目场景深度预测方法
CN111553837A (zh) 一种基于神经风格迁移的艺术文本图像生成方法
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN105046278B (zh) 基于Haar特征的Adaboost检测算法的优化方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统
CN111967463A (zh) 一种检测自然场景中弯曲文本的曲线拟合的方法
Hashmani et al. A survey on edge detection based recent marine horizon line detection methods and their applications
CN115082778B (zh) 一种基于多分支学习的宅基地识别方法及系统
CN109117841B (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN115410089A (zh) 自适应局部上下文嵌入的光学遥感小尺度目标检测方法
Tong et al. Correction of perspective text image based on gradient method
CN102938156B (zh) 一种基于积分图像的面状注记配置方法
CN110443248A (zh) 大幅遥感影像语义分割分块效应消除方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201120

WD01 Invention patent application deemed withdrawn after publication