CN114708591A - 基于单字连接的文档图像中文字符检测方法 - Google Patents

基于单字连接的文档图像中文字符检测方法 Download PDF

Info

Publication number
CN114708591A
CN114708591A CN202210407860.1A CN202210407860A CN114708591A CN 114708591 A CN114708591 A CN 114708591A CN 202210407860 A CN202210407860 A CN 202210407860A CN 114708591 A CN114708591 A CN 114708591A
Authority
CN
China
Prior art keywords
character
detection
network
central point
single character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210407860.1A
Other languages
English (en)
Other versions
CN114708591B (zh
Inventor
周钊
郑莹斌
金城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202210407860.1A priority Critical patent/CN114708591B/zh
Publication of CN114708591A publication Critical patent/CN114708591A/zh
Application granted granted Critical
Publication of CN114708591B publication Critical patent/CN114708591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于单字连接的文档图像中文字符检测方法;该方法包括:给定一张或多张自然场景图像输入,区别于使用锚点的方法,直接通过分割的方法得到单个字的中心点和文字宽高。得到单字的检测结果后,通过预测连接的方法将单字进行拼接,得到最终检测结果。本发明可应用于任意场景下的中文字符定位,文档资料的字符定位,针对整文本行检测或单字检测都有较好的效果。

Description

基于单字连接的文档图像中文字符检测方法
技术领域
本发明涉及中文文字检测技术领域,尤其涉及一种基于单字连接的文档图像中文字符检测方法。
背景技术
场景文本检测因其场景理解、自动驾驶、即时翻译等多种应用而在学术界和行业引起越来越多的关注。受益于深度学习在物体检测和语义分割的快速发展,场景文本检测取得了重大进展。
目前,大多数文本检测方法都是基于文本行设计的。虽然先前的工作对文本行检测模型进行了大量的修改,但对字符级别的检测模型研究还不够。由于建模字符级上下文的困难,在出现深度网络和合成数据之后,对字符级别的场景文本检测的研究有所减少。一方面,字符级别的手动注释非常耗时,并且到目前为止,具有真实字符级别标签的训练场景图像数量有限。另一方面,文本行设置适用于由字母组成的语言,例如英语。中文文本的书面外观与英文有很大不同。中文文本行由字符组成,两个字符之间没有额外的空间。一个汉字大概就是一个单词,而大部分英文单词都是由几个字母组成的。此外,中文有数千个字符,而英文只有26个字母。在复杂的背景和各种方向中提取中文文本行具有挑战性。
近年来,利用深度学习方法从场景图像中检测文本取得了很大进展。一类方法是使用隐式锚点回归的方法,它将场景文本视为一般对象,并依赖于使用框回归的目标检测框架,具有词级和行级先验知识。例如:通过修改卷积核和锚点框的大小,扩展了SSD以有效捕获各种文本形状;在Faster R-CNN中引入了锚点和RoI-Pooling的旋转,以检测任意方向的场景文本;但隐式锚点回归的方法为了更好的贴合文本区域,通常会使用额外的信息,例如角度等,这就造成了额外的计算量;由于角度的偏差对长文本很敏感,锚点回归的方法对长文本的预测效果不佳。另一类是基于分割的方法,它从语义分割方法中汲取灵感,通过估计单词边界区域来检测文本;首先进行像素级别的文本实例分割,然后根据分割结果生成边界框,同时提出了FCN的注意力机制,大幅抑制特征图中的背景干扰,实现对单词的准确检测;但基于分割的方法往往需要耗时的后处理。
此外,也有检测单个文本部分或字符的方法,其中一些使用连接或通过后处理方法来生成文本行结果。例如使用YOLO和SSD来检测单个字符;利用改进Faster R-CNN提取具有固定宽度的水平文本提议,通过循环神经网络生成水平文本行。但由于中文的特殊性,并不像英文以单词的形式出现,基于文本行方式的字符检测,往往是根据文字间距来区分是否属于一个实例,该判别方法在一定情况下不适用,例如中文纵向排布时。
发明内容
针对上述现有技术的不足,本发明的主要目的在于解决中文字符检测问题,提供一种基于单字连接的文档图像中文字符检测方法,本发明中文字符检测技术建立在深度卷积神经网路技术的基础上,能对自然场景图像进行单字检测或者文本行检测。
本发明的技术方案具体介绍如下。
一种基于单字连接的文档图像中文字符检测方法,包括以下步骤:
(1)将若干有单字标注的数据图片输入到单字检测网络中进行训练,使单字检测网络学习到单字的特征,通过反向传播算法进行网络调优,得到单字检测模型;其中,单字的特征包含中心点坐标,字符大小和中心点偏移;
单字检测网络使用ResNet作为主干网络,其通过跳跃连接将深层特征和浅层特征融合以共享高级语义信息和低级精细的细节信息,并通过双线性插值将深层特征上采样到与浅层特征相同的大小,上采样的特征图通过3×3卷积层进行重构;对于输入的一个图像,通过ResNet基础网络提取图像特征后,通过一个单独的3×3卷积、ReLU和另一个1×1卷积分别得到中心点坐标、字符大小和中心点偏移预测结果;
单字检测网络预测三个热图,即中心点概率图、字符大小和中心点偏移;对于中心点概率图,使用具有对象大小自适应标准偏差的高斯核将所有文字中心点p转换为概率图Y,Yp=1对应于中心点,Yp=0表示p在背景中,如果同一类的两个高斯重叠,取最大值作为该点的值;
(2)将待检测文档图像输入到训练好的单字检测模型中进行单字检测,得到字符的中心点位置、中心点偏移和字符大小,获得单字检测结果;
(3)将步骤(2)得到的单字检测结果进行预测拼接,得到文本行检测结果。
本发明中,步骤(1)中,有单字标注的数据图片通过数字增强的方法得到。
本发明中,步骤(1)中,以标注的单字作为节点生成无向图,节点的信息为单字检测网络的特征输出,边特征为两个节点的距离和两个节点的特征拼接。
本发明中,步骤(2)中,单字检测时,输入的待检测文档图像通过网络获得中心点概率图,使用中心点概率作为其检测置信度的度量,检测值大于或等于8个连接的邻居的点作为中心点概率图中的峰值。
本发明中,步骤(2)中,单字检测时,将带检测文档图像调整为768×768的分辨率后输入训练好的单字检测模型中;并应用非最大抑制来算法去除重复检测。
本发明中,步骤(3)中,将单字检测结果构成图,通过图神经网络预测每个节点的连接关系后得到文本行检测结果。
进一步的,本发明中,步骤(1)中,单字检测网络用单字检测和拼接网络替代;省略步骤(3),直接在步骤(2)中将待检测文档图像输入到训练好的单字检测模型中进行单字检测和拼接,得到文本行检测结果;其中:
步骤(1)中,单字检测和拼接网络学习的特征含中心点坐标,字符大小、中心点偏移和连接中心点坐标;
单字检测与拼接网络使用ResNet作为主干网络,其将深层特征和浅层特征连接以共享高级语义信息和低级精细的细节信息,并通过双线性插值将深层特征上采样到与浅层特征相同的大小,上采样的特征图通过3×3卷积层进行重构;对于输入的一个图像,通过ResNet基础网络提取图像特征后,通过一个单独的3×3卷积、ReLU和另一个1×1卷积分别得到中心点坐标、字符大小、中心点偏移和连接中心点预测结果;
单字检测和拼接网络预测四个热图,即中心点概率图、字符大小、中心点偏移和连接概率图;对于中心点概率图,使用具有对象大小自适应标准偏差的高斯核将所有文字的中心点p转换为概率图Y;Yp=1对应于中心点,Yp=0表示p在背景中,如果同一类的两个高斯重叠,取最大值作为该点的值;对于连接概率图,将属于同一个文字区域相邻的两个单字中心点的中点作为连接概率图的中心,同样用高斯核得到相应的概率图L,概率图L在p点的值Lp=1表示两个字相连,Lp=0表示两个字不相连。
再进一步的,本发明中,针对竖排的文字进行文本行检测时,可以只需要单字的检测,不需要进行拼接;即省略步骤(3),在现有的结构上去除相应的连接模块,直接得到单字检测结果。
和现有技术相比,本发明的有益效果在于:本发明可应用于任意场景下的中文字符定位,文档资料的字符定位,针对整文本行检测或单字检测都有较好的效果。
附图说明
图1是基于单字连接的文档图像中文字符检测方法的流程图。
图2是基于单字连接的文档图像中文字符检测系统的第一种网络架构。
图3是基于单字连接的文档图像中文字符检测系统的第二种网络架构。
图4是需要检测单字的情况。
图5是基于单字连接的文档图像中文字符检测系统的第三种网络架构。
图6是实施例中的检测结果。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细阐述。
本发明的技术解决方案流程图如图1所示,具体实施步骤包括:
1)通过一系列有单字标注的数据字符检测网络,使网络学习到单字的特征和单字连接特征,包含中心点位置,中心点偏移、字符的大小和字符连接情况。
2)对于输入的图像,利用训练好的模型得到中心点位置,中心点偏移和字符大小,整合后得到单字检测结果。
3)利用单字检测结果,输入相应的连接网络得到问本行检测结果。
实施例1
本实施例采用基于单字连接的文档图像中文字符检测,目的在于快速提取所文字区域。本实例包含数据准备,网络结构,推理过程。主要流程包括:
将图片输入到单字检测网络中进行训练,根据反向传播算法进行网络调优,得到单字检测模型;
训练单字拼接网络,利用单字信息构建图,利用图神经网络训练单字拼接模型。
利用单字检测模型对测试数据进行单字位置预测,利用单字拼接模型得到最终的检测结果。
具体实现细节如下:
(一)数据准备
由于汉字的巨大变化,仅使用真实世界的图像可能不足以构建强大的模型。因此,我们采用数据增强来丰富训练数据。我们随机选择训练图像的裁剪区域,生成合成汉字,并将它们粘贴到区域中。在字符合成过程中,我们还考虑了每个字符类别的实例数,以避免模型对某些特定字符的过拟合。
网络需要预测三个热图,即表示字符中心点的概率图、边界框和中心点偏移。对于中心点概率图,我们使用具有对象大小自适应标准偏差的高斯核将所有文字中心点p转换为概率图Y。Yp=1对应于中心点,Yp=0表示p在背景中。如果同一类的两个高斯重叠,我们取最大值作为该点的值。
以标注的单字作为节点生成无向图,节点的信息为单字网络的特征输出,边特征为两个节点的距离和两个节点的特征拼接。连接网络最后输出各个节点的连接情况。
(二)网络结构
图2显示了检测网络架构。输入图像首先通过一个主干网络。在本专利中,我们使用ResNet作为主干网络。为了保持空间分辨率并充分利用多层级特征信息,我们通过将深层和浅层结合起来通过连接以共享高级语义信息和低级精细的细节信息。在这里,我们首先通过双线性插值将深层特征上采样到与浅层特征相同的大小。上采样的特征图通过3×3卷积层进行重构。
为了表示字符边界框,我们在网络的头部使用了三个分支:中心点坐标
Figure BDA0003602782840000051
Figure BDA0003602782840000052
字符大小
Figure BDA0003602782840000053
和中心点偏移
Figure BDA0003602782840000054
其中K表示类别,W表示输入图像宽度,H表示输入图像的高度,R代表预测结果和原图的缩放比例。使用单个网络来预测中心点Y、中心点偏移O和字符大小S。对于输入的一个图像,通过ResNet基础网络提取图像特征后,通过一个单独的3×3卷积、ReLU和另一个1×1卷积分别得到中心点坐标、字符大小和中心点偏移预测结果;
总体的损失函数如下:
L=LcpsizeLsizeoffLoffconnectLgraph
其中Lcp表示中心点概率图的loss,Lsize表示字符大小的loss,Loff表示中心点偏移的loss,Lgraph表示字符之间连接的loss,λsize,λoff和λconnect表示三个loss的权重值。
(三)推理过程
在单字检测阶段,输入图像首先通过网络获得表示中心点坐标Y、字符大小S和中心点偏移O,获得中心点概率图。我们使用中心点概率
Figure BDA0003602782840000055
作为其检测置信度的度量。通过检测值大于或等于其8个连接的邻居的点作为中心点概率图中的峰值。在连接阶段利用单字检测的结果和最后一层的特征最为输入,预测出单字的连接情况。
为了与模型训练保持一致并考虑到文字的大小可能会有很大差异,在推理过程中执行了多尺度方案。所有图像调整为768×768的分辨率后输入框架中。最后,应用非最大抑制来去除重复检测。
在连接网络阶段,利用单字结果构成图,通过图神经网络预测每个节点的连接关系后得到最后的文字检测结果。
实施例2
本实施例采用基于单字连接的文档图像中文字符检测,区别于实例1采用图神经网络进行单字连接的方式,该实例使用了直接预测连接关系的方法。主要包含三个步骤:数据准备,网络结构,推理过程。主要流程如下:
将图片输入到网络中进行训练,根据反向传播算法进行网络调优,得到单字检测与拼接模型。
预测阶段,利用单字检测结果和拼接预测结果组合得到最终的结果。
具体实现细节如下:
(一)数据准备
网络需要预测四个热图,即表示字符中心点的概率图、边界框、中心点偏移和连接概率图。对于中心点概率图,我们使用具有对象大小自适应标准偏差的高斯核将所有文字的中心点p转换为概率图Y。概率图p点的值Yp=1对应于中心点,Yp=0表示p在背景中。如果同一类的两个高斯重叠,我们取最大值作为该点的值。
对于连接概率图,我们将属于同一个文字区域相邻的两个单字中心点的中点作为连接概率图的中心,同样用高斯核得到相应的概率图L,概率图在p点的值Lp=1表示两个字相连,Lp=0两个字不相连。
(二)网络结构
图3显示了检测网络架构。与实例1类似,输入图像首先通过一个主干网络。在本专利中,我们使用ResNet作为主干网络。为了保持空间分辨率并充分利用多层级特征信息,我们通过将深层和浅层结合起来通过连接以共享高级语义信息和低级精细的细节信息。在这里,我们首先通过双线性插值将深层特征上采样到与浅层特征相同的大小。上采样的特征图通过3×3卷积层进行重构。
为了表示字符边界框,我们在网络的头部使用了四个分支:中心点坐标
Figure BDA0003602782840000061
Figure BDA0003602782840000062
字符大小
Figure BDA0003602782840000063
中心点偏移
Figure BDA0003602782840000064
和连接中心点
Figure BDA0003602782840000065
W表示输入图像宽度,H表示输入图像的高度,R代表预测结果和原图的缩放比例。使用单个网络来预测中心点Y、局部偏移O、字符大小S和连接中心点C。我们使用单个网络来预测中心点、中心点偏移、字符大小和连接中心点。所有输出共享一个公共的全卷积网络。对于每种预测结果,主干特征通过一个单独的3×3卷积、ReLU和另一个1×1卷积得到结果。
总体的损失函数如下:
L=LcpsizeLsizeoffLoffconnectLconnect
其中Lcp表示中心点概率图的loss,Lsize表示字符大小的loss,Loff表示中心点偏移的loss,Lconnect表示字符之间连接的loss,λsize,λoff和λconnect表示三个loss的权重值。
(三)推理过程
输入图像通过网络并获得表示中心点坐标、字符大小、中心点偏移概率图和连接中心概率图。我们使用中心点概率作为其检测置信度的度量。
在训练时,我们使用了有单字标注的数据集,针对没有单字标注的数据集,我们将文字区域按照标注的文字个数进行划分,提取每个文字的中心点位置。我们使用了多尺度方案。具有固定步幅值的三个尺度裁剪后被调整为768×768的分辨率,然后作为输入输入到网络中。最后,利用拼接信息和单字信息得到检测结果。
实施例3
本实例主要对于仅需要检测单字的情况,如图4所示,大多竖排的文字只需要单字的检测,不需要进行拼接。在现有的结构上去除相应的连接模块,直接得到单字检测结果,其主要步骤包括:
预测每个文字的中心点,宽高和偏移。
利用三个预测信息得到单字检测结果。
具体实现细节如下:
(一)数据准备
我们在公开数据集CTW上做了相应的实验和比较。CTW数据集主要包含32285张图片,共计1018402个汉字,3850个汉字类别,图片大小为2048*2048。其中训练集:检测测试集:识别测试集=8:1:1。该数据集主要是街景的拍摄,可以用于自然场景文字的检测和识别2个任务。
由于与整个场景图像相比,字符通常相对较小,因此我们应用原始图像中的裁剪区域进行训练。具体来说,我们调整图像大小,长边为2048像素,然后使用步长为24的密集采样策略,得到大小为672×672的裁剪图像。
由于汉字的巨大变化,我们认为仅使用真实世界的图像可能不足以构建强大的模型。因此,我们采用数据增强来丰富训练数据。我们随机选择训练图像的裁剪区域,生成合成汉字,并将它们粘贴到区域中。在字符合成过程中,我们还考虑了每个字符类别的实例数,以避免模型对某些特定字符的偏差。
网络需要预测三个热图,即表示字符中心点的概率图、边界框和中心点偏移。对于中心点概率图,我们使用具有对象大小自适应标准偏差的高斯核将所有地面实况中心点p转换为概率图Y。Yp=1对应于中心点,Yp=0表示p在背景中。如果同一类的两个高斯重叠,我们取最大值作为该点的值。
(二)网络结构
图5显示了检测网络架构。与实例1类似,输入图像首先通过一个主干网络。在本专利中,我们使用ResNet作为主干网络。为了保持空间分辨率并充分利用多层级特征信息,我们通过将深层和浅层结合起来通过连接以共享高级语义信息和低级精细的细节信息。在这里,我们首先通过双线性插值将深层特征上采样到与浅层特征相同的大小。上采样的特征图通过3×3卷积层进行重构。
为了表示字符边界框,我们在网络的头部使用了三个分支:中心点坐标
Figure BDA0003602782840000081
Figure BDA0003602782840000082
字符大小
Figure BDA0003602782840000083
和中心点偏移
Figure BDA0003602782840000084
我们使用单个网络来预测中心点Y、中心点偏移O和字符大小S。所有输出共享一个公共的全卷积网络。对于每种预测结果,主干特征通过一个单独的3×3卷积、ReLU和另一个1×1卷积。
总体的损失函数如下:
L=LcpsizeLsizeoffLoff
其中Lcp表示中心点概率图的loss,Lsize表示字符大小的loss,Loff表示中心点偏移的loss,Lconnect表示字符之间连接的loss。
(三)推理过程
在单字检测过程中,输入图像首先通过网络并获得表示中心点坐标
Figure BDA0003602782840000085
字符大小
Figure BDA0003602782840000086
和中心点偏移
Figure BDA0003602782840000087
的概率图。我们使用中心点概率
Figure BDA0003602782840000088
作为其检测置信度的度量。通过检测值大于或等于其8个连接的邻居的点作为中心点概率图中的峰值。
在训练集中使用了裁剪操作,用于处理整个图像和单个字符之间的大小差异。为了与模型训练保持一致并考虑到角色实例的大小可能会有很大差异,在推理过程中执行了多尺度方案。具有固定步幅值的三个尺度的裁剪区域被调整为768×768的分辨率,然后作为输入输入到框架中。最后,应用非最大抑制来去除重复检测。
(四)结果与展示
该实施例提出的方法检测平均精度达到了76.3%,召回率和准确率上得到了较好的平衡。同时,该方法在单个Nvidia GTX1080 GPU上获得了6-10FPS的检测速度。从左到右分别为:原始图像标注的结果、YOLO的结果和本专利提出方法的结果展示如图6所示。

Claims (7)

1.一种基于单字连接的文档图像中文字符检测方法,其特征在于,包括以下步骤:
(1)将若干有单字标注的数据图片输入到单字检测网络中进行训练,使单字检测网络学习到单字的特征,通过反向传播算法进行网络调优,得到单字检测模型;其中,单字的特征包含中心点坐标,字符大小和中心点偏移;
单字检测网络使用ResNet作为主干网络,其通过跳跃连接将深层特征和浅层特征融合以共享高级语义信息和低级精细的细节信息,并通过双线性插值将深层特征上采样到与浅层特征相同的大小,上采样的特征图通过3×3卷积层进行重构;对于输入的一个图像,经ResNet基础网络提取图像特征后,通过一个单独的3×3卷积、ReLU和另一个1×1卷积分别得到中心点坐标、字符大小和中心点偏移预测结果;
单字检测网络预测三个热图,即中心点概率图、字符大小和中心点偏移;对于中心点概 率图,使用具有对象大小自适应标准偏差的高斯核将所有文字中心点p转换为概率图Y,概 率图Y在p点的值
Figure DEST_PATH_IMAGE001
=1对应于中心点,
Figure 489002DEST_PATH_IMAGE001
=0表示p在背景中,如果同一类的两个高斯重叠,取 最大值作为该点的值;
(2)将待检测文档图像输入到训练好的单字检测模型中进行单字检测,得到字符的中心点位置、中心点偏移和字符大小,获得单字检测结果;
(3)将步骤(2)得到的单字检测结果进行预测拼接,得到文本行检测结果。
2.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(1)中,有单字标注的数据图片通过数字增强的方法得到。
3.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(1)中,以标注的单字作为节点生成无向图,节点的信息为单字检测网络的特征输出,边特征为两个节点的距离和两个节点的特征拼接。
4.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(2)中,单字检测时,输入的待检测文档图像通过网络获得中心点概率图,使用中心点概率作为其检测置信度的度量,检测值大于或等于8个连接的邻居的点作为中心点概率图中的峰值。
5.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(2)中,单字检测时,将带检测文档图像调整为768×768的分辨率后输入训练好的单字检测模型中;并应用非最大抑制来算法去除重复检测。
6.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(3)中,将单字检测结果构成图,通过图神经网络预测每个节点的连接关系后得到文本行检测结果。
7.根据权利要求1所述的文档图像中文字符检测方法,其特征在于,步骤(1)中,单字检测网络用单字检测和拼接网络替代;省略步骤(3),直接在步骤(2)中将待检测文档图像输入到训练好的单字检测模型中进行单字检测和拼接,得到文本行检测结果;其中:
步骤(1)中,单字检测和拼接网络学习的特征含中心点坐标,字符大小、中心点偏移和连接中心点坐标;
单字检测与拼接网络使用ResNet作为主干网络,其将深层特征和浅层特征连接以共享高级语义信息和低级精细的细节信息,并通过双线性插值将深层特征上采样到与浅层特征相同的大小,上采样的特征图通过3×3卷积层进行重构;对于输入的一个图像,通过ResNet基础网络提取图像特征后,通过一个单独的3×3卷积、ReLU和另一个1×1卷积分别得到中心点坐标、字符大小、中心点偏移和连接中心点预测结果;
单字检测和拼接网络预测四个热图,即中心点概率图、字符大小、中心点偏移和连接概 率图;对于中心点概率图,使用具有对象大小自适应标准偏差的高斯核将所有文字的中心 点p转换为概率图Y;概率图Y在p点的值
Figure 226014DEST_PATH_IMAGE001
=1对应于中心点,
Figure 14978DEST_PATH_IMAGE001
=0表示p在背景中,如果同一 类的两个高斯重叠,取最大值作为该点的值;对于连接概率图,将属于同一个文字区域相邻 的两个单字中心点的中点作为连接概率图的中心,同样用高斯核得到相应的概率图L,概率 图L在p点的值
Figure 648085DEST_PATH_IMAGE002
=1表示两个字相连,
Figure 889710DEST_PATH_IMAGE002
=0表示两个字不相连。
CN202210407860.1A 2022-04-19 2022-04-19 基于单字连接的文档图像中文字符检测方法 Active CN114708591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210407860.1A CN114708591B (zh) 2022-04-19 2022-04-19 基于单字连接的文档图像中文字符检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210407860.1A CN114708591B (zh) 2022-04-19 2022-04-19 基于单字连接的文档图像中文字符检测方法

Publications (2)

Publication Number Publication Date
CN114708591A true CN114708591A (zh) 2022-07-05
CN114708591B CN114708591B (zh) 2024-10-15

Family

ID=82173762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210407860.1A Active CN114708591B (zh) 2022-04-19 2022-04-19 基于单字连接的文档图像中文字符检测方法

Country Status (1)

Country Link
CN (1) CN114708591B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680691A (zh) * 2020-04-30 2020-09-18 北京三快在线科技有限公司 文字检测方法、装置、电子设备和计算机可读存储介质
CN111798480A (zh) * 2020-07-23 2020-10-20 北京思图场景数据科技服务有限公司 基于单字符及文字间连接关系预测的文字检测方法及装置
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
US20220058420A1 (en) * 2020-08-22 2022-02-24 Tsinghua University Scene text detection method and system based on sequential deformation
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680691A (zh) * 2020-04-30 2020-09-18 北京三快在线科技有限公司 文字检测方法、装置、电子设备和计算机可读存储介质
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
CN111798480A (zh) * 2020-07-23 2020-10-20 北京思图场景数据科技服务有限公司 基于单字符及文字间连接关系预测的文字检测方法及装置
US20220058420A1 (en) * 2020-08-22 2022-02-24 Tsinghua University Scene text detection method and system based on sequential deformation
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN115588202B (zh) * 2022-10-28 2023-08-15 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统

Also Published As

Publication number Publication date
CN114708591B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
CN111640125A (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114266794B (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN107506792B (zh) 一种半监督的显著对象检测方法
CN114820655B (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN111640116B (zh) 基于深层卷积残差网络的航拍图建筑物分割方法及装置
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
WO2022109922A1 (zh) 抠图实现方法、装置、设备及存储介质
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN116740528A (zh) 一种基于阴影特征的侧扫声呐图像目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant