CN114283431A - 一种基于可微分二值化的文本检测方法 - Google Patents

一种基于可微分二值化的文本检测方法 Download PDF

Info

Publication number
CN114283431A
CN114283431A CN202210207398.0A CN202210207398A CN114283431A CN 114283431 A CN114283431 A CN 114283431A CN 202210207398 A CN202210207398 A CN 202210207398A CN 114283431 A CN114283431 A CN 114283431A
Authority
CN
China
Prior art keywords
gate
map
size
characteristic diagram
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210207398.0A
Other languages
English (en)
Other versions
CN114283431B (zh
Inventor
王三明
王聪明
王壮峰
云尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyuan Technology Co.,Ltd.
Original Assignee
Nanjing Anyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Anyuan Technology Co ltd filed Critical Nanjing Anyuan Technology Co ltd
Priority to CN202210207398.0A priority Critical patent/CN114283431B/zh
Publication of CN114283431A publication Critical patent/CN114283431A/zh
Application granted granted Critical
Publication of CN114283431B publication Critical patent/CN114283431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于文字识别技术领域,提供了一种基于可微分二值化的文本检测方法。该文字检测方法,包含:获取待识别的包含文字的图像;通过特征提取网络对待识别图像进行特征提取,经过计算得到概率图和阈值图;将概率图和阈值图经过可微分二值化模块处理,得到近似二值图;由近似二值图得到文本区域,对文本区域进行判断,对不规则的文本区域进行矫正,最终返回文本位置。本发明识别过程减少人工干预,全过程自动化,进一步提升了对不规则文字图像的文字检测效率和精度。

Description

一种基于可微分二值化的文本检测方法
技术领域
本发明属于文字识别技术领域,更具体地说,涉及一种基于可微分二值化的文本检测方法。
背景技术
文字是人类信息交流、感知世界的最重要的一个载体。生活中的文字图像无所不在,图像文字识别拥有着广泛的应用前景,如纸质书籍电子化、证件信息提取、票据自动化录入等。将图像中的文字转换为计算机中可编辑的字符,在图像分析领域有着不可替代的作用。
OCR(光学字符识别)文字识别方法精度受图像质量影响,如待识别图像没有模糊、文字偏转等因素影响,识别精度较高,否则识别精度下降。当前多数的OCR文字识别方法多是针对横排文字方向、质量较好的图像进行识别,精度较高。文字偏转、排版复杂、不规则文字等复杂图像的文字识别效果,无法满足使用者的期望。
发明内容
文字识别领域中,文字识别是通过文字检测模块检测出文字的区域,再针对检测区域的文字进行识别。在具体实际应用中,往往输入的待识别图像存在排版复杂、字体多样等情况,极大地影响了文字检测方法的检测效果,如漏检、错检,使得检测结果降低。同时文字图像种类繁多,排版多样,多种因素导致文字检测方法的检测结果不尽人意。在进行文字识别的过程中,当前主流的文字识别方法大多是针对水平排列的单行文字图像进行序列化识别文字,文字识别方法模型接收的图片都是文字检测模型输出的,文本检测输出结果中也会出现不规则的文本框,例如红章、艺术字体、弯取文本等。将不规则扭曲的文本框矫正为规则的、水平的、文字横向排列的文本框,提升文字识别的效果,使得整体文字识别系统的准确率大大提升,具有极高的实际应用价值。故在常见场景下,人们需要一种对含有不规则文字的文字图像进行准确提取信息的方法,进而获得完整、准确的文字信息。
为了解决上述问题,本发明的目的在于提供一种基于可微分二值化的文本检测方法,能够提升文本检测的准确率,进而提升文字识别的整体效果。包括以下步骤:
步骤a、获取待识别的文字图像,对直接获取的原始样本进行边缘调整、比例缩放、均值化处理操作,得到识别样本,为第一类样本。
步骤b、对第一类样本输入至门特征金字塔网络GFPN中提取特征,得到样本特征图F,通过样本特征图F预测概率图P以及阈值图T,其中:
所述门特征金字塔网络GFPN包括多个Gblock门模块,Gblock门模块由一组核大小为1×1、3×3和5×5的卷积层组成,并将不同的卷积层的特征相加。
在每个横向连接的1×1, 3×3, 5×5卷积块之前插入一个动态门,其中:
动态门在特征图Ii上使用非线性函数生成门信号:
Figure 701061DEST_PATH_IMAGE001
其中,
Figure 946098DEST_PATH_IMAGE002
表示门信号的关闭,其形式为one-hot向量,
Figure 991414DEST_PATH_IMAGE003
Figure 714520DEST_PATH_IMAGE004
表示门概率计算函数,
Figure 794471DEST_PATH_IMAGE005
表示第j个位置第i个特征图的采样概率,ai表示第i个Gblock门模块的采样概率,m是Gblock门模块个数,
Figure 449224DEST_PATH_IMAGE006
是随机采样的噪声,t表示常数;第i个Gblock门模块的采样概率的计算方式如下:
Figure 247416DEST_PATH_IMAGE007
其中,
Figure 711895DEST_PATH_IMAGE008
表示Gblock门模块的采样概率的计算权重,A表示激活函数,
Figure 708670DEST_PATH_IMAGE009
表示池化层的采样概率的计算权重,Pool表示全局池化函数,
Figure 967613DEST_PATH_IMAGE010
表示第i个动态门上的特征图,
Figure 551304DEST_PATH_IMAGE011
表示池化层的采样概率的计算常数,
Figure 553895DEST_PATH_IMAGE013
表示Gblock门模块中采样概率的计算常数,激活函数:
Figure 405176DEST_PATH_IMAGE014
Figure 100600DEST_PATH_IMAGE015
Figure 873384DEST_PATH_IMAGE016
表示池化层的采样概率,
Figure 476403DEST_PATH_IMAGE017
表示激活函数参数;
步骤c、将概率图P和阈值图T经过可微分二值化模块处理,得到近似二值图
Figure 883989DEST_PATH_IMAGE018
,作为第二类样本。
步骤d、由近似二值图
Figure 547051DEST_PATH_IMAGE019
得到文本区域,对文本区域进行判断,如果文本区域判断为不规则,则对不规则的文本区域进行矫正,得到第三类样本。
步骤e、返回文本区域的位置坐标。
进一步的,Gblock门模块中,将不同卷积层的特征相加,其中:
Figure 541552DEST_PATH_IMAGE020
其中,Conv1X1表示核大小为1×1的卷积,Conv3X3表示核大小为3×3的卷积,Conv5X5表示核大小为5×5的卷积,
Figure 151525DEST_PATH_IMAGE021
表示第i个Gblock门模块上的特征图,
Figure 977398DEST_PATH_IMAGE022
表示第i个Gblock门模块上的特征图计算函数,
Figure 14624DEST_PATH_IMAGE023
表示第i个Gblock门模块上的特征图输出。
进一步的,在所述门特征金字塔网络GFPN中,给定输入大小为1024×1024的图片I,经过卷积和池化操作得到大小为512×512的第一特征图I1,第一特征图I1经过卷积和池化操作得到大小为256×256的第二特征图I2,后者由前者经过相同的卷积层和池化层的卷积和池化操作得到,以此类推,得到大小为128×128的第三特征图I3、大小为64×64的第四特征图I4、大小为32×32的第五特征图I5
门特征金字塔网络GFPN的网络输入特征图为{I2,I3,I4,I5},网络输出特征图为{Q2,Q3,Q4,Q5},其中:
Figure 794624DEST_PATH_IMAGE024
Figure 942708DEST_PATH_IMAGE025
其中,q代表特征金字塔的层数,
Figure 623089DEST_PATH_IMAGE026
表示第q层特征金字塔输出的单层输出特征图,R代表调整大小的操作,fq是 1×1卷积。
进一步的,由门特征金字塔网络GFPN的网络输出特征图{Q2,Q3,Q4,Q5},分别经过Conv3×3和对应倍数的大小调整,得到中间特征图{
Figure 96795DEST_PATH_IMAGE027
,
Figure 800309DEST_PATH_IMAGE028
,
Figure 41498DEST_PATH_IMAGE029
,
Figure 45226DEST_PATH_IMAGE031
},计算过程表示为:
Figure 424255DEST_PATH_IMAGE032
其中,2i-2表示调整大小的倍数,Conv3×3表示3×3卷积,将得到的中间特征图{
Figure 677382DEST_PATH_IMAGE027
,
Figure 167269DEST_PATH_IMAGE028
,
Figure 556662DEST_PATH_IMAGE029
,
Figure 608057DEST_PATH_IMAGE031
}通过连接层concat连接融合操作得到门特征金字塔网络GFPN最后输出的输出特征图F。
进一步的,由输出特征图F计算出概率图P和阈值图T,计算过程相同,其过程如下:
将大小为256×256的输出特征图F先经过卷积层,将通道压缩为输入的1/4,然后经过BN和relu操作,得到的特征图大小为256×256。
将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图大小为512×512,此时为原图的1/2大小。
再进行反卷积操作,不同的是输出的特征图通道为1,得到的特征图大小为1024×1024,此时为原图大小。
最后经过sigmoid函数,输出结果。
进一步的,通过可微分二值化公式,即可得到最终的近似二值图
Figure 551742DEST_PATH_IMAGE033
Figure 907637DEST_PATH_IMAGE034
其中,
Figure 354799DEST_PATH_IMAGE035
表示近似二值图,
Figure 872368DEST_PATH_IMAGE036
是网络学习的阈值图T中每个像素点的阈值,
Figure 37770DEST_PATH_IMAGE037
表示概率图P中每个像素点是文本的概率,k是一个因子。
进一步的,所述概率图P和近似二值图
Figure 430312DEST_PATH_IMAGE038
使用的是相同的标签。
进一步的,所述步骤d中,对第二类样本进行轮廓检测,得到轮廓点集合,对所有轮廓点进行迭代终点拟合,得到文字轮廓的外接多边形。
进一步的,将得到的文字轮廓外接多边形进行判断,若不是矩形,则对不规则的多边形进行矫正。
本发明的用于文字过程中的文件检测方法,具有如下优势:
1、使用了人工智能识别技术,有效的识别明暗变化、模糊的文字图像,使得整体文字识别的效果大幅提高,适应多种应用场景,例如证件识别、票据识别、复杂文档识别、场景文字识别等。
2、GFPN模块中不同的卷积核带来了不同大小的感受野,因而能够有效的检测出不同大小的文字区域,避免文字检测过程中漏检、误检等问题。
3、不同大小的检测目标并不是全部需要大的感受野,因而使用动态门的Gblock模块来选择待检测目标所需要的合适大小的卷积核,提升效果的同时减少计算量。
4、使用可微分二值化的文字方向检测模型,有效的识别了复杂排版文字图像,避免了漏识别、错识别问题,并且很好地支持了曲形文字,保证了复杂排版文字图像上提取信息的完整,能够适应生活中绝大多数的复杂文字识别场景,有效的提升了文字识别精度。
5、引入曲形文本框矫正功能,将不规则文本框矫正得到矩形文本框,极大地提升了文字识别准确率,更好的支持了复杂排版中曲形文字的识别。同时,利用深度神经网络得到基准点,矫正过程不需手工设计特征,避免了复杂的计算过程,极大地减少了任务量,鲁棒性好。
6、在深度神经网络模型构建方面,灵活配置骨干网络,节省计算开销,提升文字识别的效率。不同骨干网络适配不同计算硬件,文字识别系统的部署方式多样化。
附图说明
图1为本发明的文本检测方法的运行环境图。
图2为本发明的实施方式流程图。
图3为本发明的检测方法中第一类样本到第二类样本的过程图。
图4为门特征金字塔网络GFPN结构图。
图5为不规则的多边形文本框矫正图。
图6为本发明的矫正过程中的相关结构表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的文本检测方法在获取待识别文字图像的过程中,可以运行在此应用环境中,其中,客户端与服务端进行通信,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端可以用独立的服务器或者是多个服务器组成的服务器集群或者是云服务器来实现。
如图2和图3,图2是本发明基于人工智能的文本检测方法的实施方式流程图,图3显示了更多细节。
1、获取待识别的文字图像,得到原始样本。对原始样本进行边缘调整、比例缩放、均值化处理等操作,得到第一类样本。
2、将第一类样本送入文字位置检测模型进行预测,得到文字位置对应的文本框,此为第二类样本。
其中,文字位置检测模型使用了基于分割的文字检测方法。在文字检测的相关方法中,相比于基于回归的文字检测方法,基于分割的文字检测方法往往更为准确。已有高效的文本检测器(基于回归)多数是针对四边形文本样例设计的, 在检测曲线文本时存在不足。实际生活中的文字图像上,文字的形状、字体、大小多种多样,基于分割的文本检测方法能够预测像素级的结果来描述各种形状的文本,是一种较为通用的文字检测方法。
在本实施例的该步骤中,具体地,采用可微分二值化思想,整体网络结构如图3所示。
在图3中,第一类样本输入至门特征金字塔网络GFPN(Gate Feature PyramidNetworks)提取特征,得到特征图F,通过特征图F预测概率图(probability map)称为P以及阈值图(threshold map)称为T,最后通过概率图P以及阈值图T计算出近似二值图
Figure 263138DEST_PATH_IMAGE039
。推断过程文本框可以通过近似二值图
Figure 889292DEST_PATH_IMAGE039
或者概率图来获取。
其中,门特征金字塔网络GFPN(Gate Feature Pyramid Networks)网络结构如图4所示。
其中,给定输入图片I(1024×1024),经过conv+pool卷积和池化操作得到第一特征图I1(512×512),第一特征图I1经过conv+pool得到第二特征图I2(256×256),后者由前者经过相同的卷积层和池化层得到,以此类推,分别可以得到第三特征图I3(128×128),第四特征图I4(64×64),第五特征图I5(32×32)。
门特征金字塔网络GFPN是一种有效的特征融合方法,用于提高网络性能。门特征金字塔网络GFPN输入的特征为{I2,I3,I4,I5},输出的特征为{Q2,Q3,Q4,Q5},建模如下:
Figure 604307DEST_PATH_IMAGE040
Figure 239688DEST_PATH_IMAGE041
其中,q代表特征金字塔的层数,R代表调整大小的操作,fq是 1×1卷积。
图4所示,门特征金字塔网络包括多个Gblock门模块,Gblock门模块(Gate block)中通过门(Gate)来有选择地扩展感受野来丰富特征金字塔的空间信息。Gblock门模块由一组核大小为1×1、3×3和5×5的卷积组成,并将不同卷积的特征相加如下:
Figure 959644DEST_PATH_IMAGE042
其中,Conv1X1表示核大小为1×1的卷积,Conv3X3表示核大小为3×3的卷积,Conv5X5表示核大小为5×5的卷积。
Gblock门模块包括1×1、3×3和5×5的卷积,通过组合不同的卷积可以有效地生成更好的特征,充分扩展感受野来丰富空间信息,显著提高了检测精度。Gblock门模块通过引入动态门来解决计算负担问题,在每个横向连接的1×1, 3×3, 5×5卷积块之前插入一个计算成本可以忽略的动态门,有选择地去判断是否需要使用不同卷积层去提取当前的输入特征图Ii。GFPN的特征将会根据输入来动态计算,因此可以提供更有效的动态推理,从而在精度和计算成本之间实现更好的平衡,在优化计算资源分配的同时显著提高了性能,动态门根据输入自适应地确定是否执行整个卷积块,动态门可以大大降低计算成本,同时保持高检测精度。
动态门在特征图Ii上使用非线性函数生成门信号:
Figure 287857DEST_PATH_IMAGE043
其中,
Figure 162273DEST_PATH_IMAGE044
表示门信号的关闭,其形式为one-hot向量,
Figure 398082DEST_PATH_IMAGE045
Figure 736659DEST_PATH_IMAGE046
表示门概率计算函数,
Figure 235774DEST_PATH_IMAGE047
表示第j个位置第i个特征图的采样概率,ai表示第i个Gblock门模块的采样概率,m是Gblock门模块个数,
Figure 898617DEST_PATH_IMAGE048
是随机采样的噪声,t表示常数;第i个Gblock门模块的采样概率的计算方式如下:
Figure 141380DEST_PATH_IMAGE049
其中,
Figure 272147DEST_PATH_IMAGE050
表示Gblock门模块的采样概率的计算权重,A表示激活函数,
Figure 738900DEST_PATH_IMAGE051
表示池化层的采样概率的计算权重,Pool表示全局池化函数,
Figure 587907DEST_PATH_IMAGE052
表示第i个动态门上的特征图,
Figure 666984DEST_PATH_IMAGE053
表示池化层的采样概率的计算常数,
Figure 183416DEST_PATH_IMAGE054
表示Gblock门模块中采样概率的计算常数,激活函数:
Figure 758754DEST_PATH_IMAGE055
Figure 157374DEST_PATH_IMAGE056
Figure 476360DEST_PATH_IMAGE057
表示池化层的采样概率,
Figure 644036DEST_PATH_IMAGE017
表示激活函数参数;
由GFPN模块输出特征{Q2,Q3,Q4,Q5},分别经过Conv3×3和对应倍数的大小调整,得到特征{
Figure 888811DEST_PATH_IMAGE027
,
Figure 712410DEST_PATH_IMAGE028
,
Figure 897404DEST_PATH_IMAGE029
,
Figure 857269DEST_PATH_IMAGE031
},计算过程表示为:
Figure 836727DEST_PATH_IMAGE058
其中2i-2表示调整大小的倍数,Conv3×3表示3×3卷积。将得到的特征{
Figure 147622DEST_PATH_IMAGE027
,
Figure 575455DEST_PATH_IMAGE028
,
Figure 452144DEST_PATH_IMAGE029
,
Figure 805765DEST_PATH_IMAGE031
}通过concat操作得到GFPN模块最后输出的特征图F。
特征图F(256*256)先经过卷积层,将通道压缩为输入的1/4,然后经过BN和relu,得到的特征图shape为(256, 256)。
将得到的特征图进行反卷积操作,卷积核为(2,2),得到的特征图shape为(512,512),此时为原图的1/2大小。
再进行反卷积操作,不同的是输出的特征图通道为1,得到的特征图shape为(1024,1024),此时为原图大小。
最后经过sigmoid函数,输出概率图P。
特征图F(256*256)得到阈值图T的过程与上述F->P过程相同,只是训练的过程中,参数不同。
由于概率图P和阈值图T已知,通过可微分二值化公式:
Figure 400694DEST_PATH_IMAGE059
即可得到最终的近似二值图
Figure 130753DEST_PATH_IMAGE019
。上式输出的
Figure 799632DEST_PATH_IMAGE060
表示近似二值图,T是网络学习的阈值图,k是一个因子,本文设为50。概率图P和二值图
Figure 902584DEST_PATH_IMAGE018
使用的是相同的标签。将每个标注框缩小一定的偏移量,偏移量的大小的定义如下式所示:
Figure 922493DEST_PATH_IMAGE061
其中,A是收缩区域的面积,L是收缩区域的周长,r是收缩因子。
得到的标签图称为
Figure 190663DEST_PATH_IMAGE062
,原始标注文本框为G。首先使用
Figure 41944DEST_PATH_IMAGE062
计算过程中的偏移量 D进行多边形的扩充。得到
Figure 737368DEST_PATH_IMAGE062
和G之间的区域。计算之间区域到原始框的距离,并得到最近边(长方形就是 4 条边)的距离。最外面的大框线上区域和最里面的小框线上区域计算为 D,原始框位置的距离为 0。进行第一次的归一化,即除以D,这样距离控制到 [0,1] 之间,并且最中间的区域越接近0,越里面和越外面的区域越接近1。然后使用 1-X 操作,让越中心的距离为1,越边缘的距离为0。(图片显示就是中间亮两头暗)。最终再进行缩放,比如归一化到 [0.3,0.7] 的值。
使用可微分二值化深度神经网络模型对第二类样本进行推理预测,可得到第二类样本经过模型后输出的二值化结果图像。从二值图中获取连通域(收缩后的文字区域)。使用偏移量D来膨胀文字收缩区域。
Figure 542775DEST_PATH_IMAGE063
其中A是收缩区域的面积,L是收缩区域的周长, r是收缩因子,r经验上设置到1.5。可以通过修改r值来获取不同膨胀程度的文字区域,调整文本框大小可以更好的获得检测结果,提升整体文字识别效果。
3、根据第2步中得到的第二类样本,对第二类样本(二值图)进行文本框检测,检测得到第二类样本上所有文本框,将第二类样本中规则的矩形文本框送入下一步,将扭曲的不规则的文本框进行矫正,矫正后的样本为第三类样本。
第二类样本(二值图)进行轮廓检测,得到轮廓点集合,对所有轮廓点进行迭代终点拟合方法,得到文字轮廓的外接多边形,迭代终点拟合方法具体处理步骤如下:
(1)在曲线首尾两点 A,B 之间连接一条直线 AB,该直线为曲线的弦。
(2)得到曲线上离该直线段距离最大的点 C,计算其与 AB 的距离 d。
(3)比较该距离与预先给定的阈值 threshold 的大小,如果小于 threshold,则该直线段作为曲线的近似,该段曲线处理完毕。
(4)如果距离大于阈值,则用 C 将曲线分为两段 AC 和 BC ,并分别对两段曲线进行 (1)-(3)的步骤处理。
(5)当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即可以作为曲线的近似。
将得到的文字轮廓外接多边形进行判断,若不是矩形,需要对不规则的多边形进行矫正,矫正过程采用TPS方法,如图5所示,具体过程如下:
(Ⅰ)将已得多边形文字区域通过连通域方法得到最小外接矩形,根据矩形边框将不规则文本块裁剪出。
(Ⅱ)通过深度神经网络模型,对裁剪到的文字图片进行预测,得到文字位置上下两个方向的K(此处K=20)个基准点。网络输入为100×32,其相关结构如图6。
(Ⅲ)根据获取到的基准点位置,在目标图像上下边缘均匀生成K个基准点,利用前后基准点映射关系,通过TPS变换,得到不规则文本框矫正后的矩形文本框。
以上所述,仅为本发明较佳的具体实施方式。但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (9)

1.一种基于可微分二值化的文本检测方法,其特征在于,包括以下步骤:
步骤a、获取待识别的文字图像,对直接获取的原始样本进行边缘调整、比例缩放、均值化处理操作,得到识别样本,为第一类样本;
步骤b、对第一类样本输入至门特征金字塔网络GFPN中提取特征,得到样本特征图F,通过样本特征图F预测概率图P以及阈值图T,其中:
所述门特征金字塔网络GFPN包括多个Gblock门模块,Gblock门模块由一组核大小为1×1、3×3和5×5的卷积层组成,并将不同的卷积层的特征相加;
在每个横向连接的1×1, 3×3, 5×5卷积块之前插入一个动态门,其中:
动态门使用非线性函数生成门信号:
Figure 841030DEST_PATH_IMAGE001
其中,
Figure 384269DEST_PATH_IMAGE002
表示门信号的关闭,其形式为one-hot向量,
Figure 819799DEST_PATH_IMAGE003
Figure 887112DEST_PATH_IMAGE004
表示门概率计算函数,
Figure 386970DEST_PATH_IMAGE005
表示第j个位置第i个特征图的采样概率,ai表示第i个Gblock门模块的采样概率,m是Gblock门模块个数,
Figure 678274DEST_PATH_IMAGE006
是随机采样的噪声,t表示常数;第i个Gblock门模块的采样概率的计算方式如下:
Figure 397837DEST_PATH_IMAGE007
其中,
Figure 65579DEST_PATH_IMAGE008
表示Gblock门模块的采样概率的计算权重,A表示激活函数,
Figure 937720DEST_PATH_IMAGE009
表示池化层的采样概率的计算权重,Pool表示全局池化函数,
Figure 885079DEST_PATH_IMAGE010
表示第i个动态门上的特征图,
Figure 842670DEST_PATH_IMAGE011
表示池化层的采样概率的计算常数,
Figure 782944DEST_PATH_IMAGE012
表示Gblock门模块中采样概率的计算常数,激活函数:
Figure 24439DEST_PATH_IMAGE013
Figure 657545DEST_PATH_IMAGE014
Figure 368012DEST_PATH_IMAGE015
表示池化层的采样概率,
Figure 328622DEST_PATH_IMAGE016
表示激活函数参数;
步骤c、将概率图P和阈值图T经过可微分二值化模块处理,得到近似二值图
Figure 440934DEST_PATH_IMAGE017
,作为第二类样本;
步骤d、由近似二值图
Figure 244942DEST_PATH_IMAGE018
得到文本区域,对文本区域进行判断,如果文本区域判断为不规则,则对不规则的文本区域进行矫正,得到第三类样本;
步骤e、返回文本区域的位置坐标。
2.根据权利要求1所述的一种基于可微分二值化的文本检测方法,其特征在于:Gblock门模块中,将不同卷积层的特征相加,其中:
Figure 426394DEST_PATH_IMAGE019
其中,Conv1X1表示核大小为1×1的卷积,Conv3X3表示核大小为3×3的卷积,Conv5X5表示核大小为5×5的卷积,
Figure 708471DEST_PATH_IMAGE020
表示第i个Gblock门模块上的特征图,
Figure 409710DEST_PATH_IMAGE021
表示第i个Gblock门模块上的特征图计算函数,
Figure 135352DEST_PATH_IMAGE022
表示第i个Gblock门模块上的特征图输出。
3.根据权利要求2所述的一种基于可微分二值化的文本检测方法,其特征在于:在所述门特征金字塔网络GFPN中,给定输入大小为1024×1024的图片I,经过卷积和池化操作得到大小为512×512的第一特征图I1,第一特征图I1经过卷积和池化操作得到大小为256×256的第二特征图I2,后者由前者经过相同的卷积层和池化层的卷积和池化操作得到,以此类推,得到大小为128×128的第三特征图I3、大小为64×64的第四特征图I4、大小为32×32的第五特征图I5
门特征金字塔网络GFPN的网络输入特征图为{I2,I3,I4,I5},网络输出特征图为{Q2,Q3,Q4,Q5},其中:
Figure 554832DEST_PATH_IMAGE024
Figure 640600DEST_PATH_IMAGE026
其中,q代表特征金字塔的层数,
Figure 445614DEST_PATH_IMAGE028
表示第q层特征金字塔输出的单层输出特征图,R代表调整大小的操作,fq是 1×1卷积。
4.根据权利要求3所述的一种基于可微分二值化的文本检测方法,其特征在于:由门特征金字塔网络GFPN的网络输出特征图{Q2,Q3,Q4,Q5},分别经过Conv3×3和对应倍数的大小调整,得到中间特征图{
Figure 591424DEST_PATH_IMAGE029
,
Figure 232621DEST_PATH_IMAGE030
,
Figure 604303DEST_PATH_IMAGE031
,
Figure 545714DEST_PATH_IMAGE032
},计算过程表示为:
Figure 862426DEST_PATH_IMAGE033
其中:2i-2表示调整大小的倍数,Conv3×3表示3×3卷积,将得到的中间特征图{
Figure 240187DEST_PATH_IMAGE029
,
Figure 667757DEST_PATH_IMAGE030
,
Figure 683249DEST_PATH_IMAGE031
,
Figure 170862DEST_PATH_IMAGE032
}通过连接层concat连接融合操作得到门特征金字塔网络GFPN最后输出的输出特征图F。
5.根据权利要求4所述的一种基于可微分二值化的文本检测方法,其特征在于:由输出特征图F计算出概率图P和阈值图T,计算过程相同,其过程如下:
将大小为256×256的输出特征图F先经过卷积层,将通道压缩为输入的1/4,然后经过BN和relu操作,得到的特征图大小为256×256;
将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图大小为512×512,此时为原图的1/2大小;
再进行反卷积操作,不同的是输出的特征图通道为1,得到的特征图大小为1024×1024,此时为原图大小;
最后经过sigmoid函数,输出结果。
6.根据权利要求5所述的一种基于可微分二值化的文本检测方法,其特征在于:通过可微分二值化公式,即可得到最终的近似二值图
Figure 52230DEST_PATH_IMAGE034
Figure 532759DEST_PATH_IMAGE035
其中,
Figure 917604DEST_PATH_IMAGE017
表示近似二值图,
Figure 310539DEST_PATH_IMAGE036
是网络学习的阈值图T中每个像素点的阈值,
Figure 161427DEST_PATH_IMAGE037
表示概率图P中每个像素点是文本的概率,k是一个因子。
7.根据权利要求6所述的一种基于可微分二值化的文本检测方法,其特征在于:所述概率图P和二值图
Figure 196379DEST_PATH_IMAGE034
使用的是相同的标签。
8.根据权利要求7所述的一种基于可微分二值化的文本检测方法,其特征在于:所述步骤d中,对第二类样本进行轮廓检测,得到轮廓点集合,对所有轮廓点进行迭代终点拟合,得到文字轮廓的外接多边形。
9.根据权利要求8所述的一种基于可微分二值化的文本检测方法,其特征在于:将得到的文字轮廓外接多边形进行判断,若不是矩形,则对不规则的多边形进行矫正。
CN202210207398.0A 2022-03-04 2022-03-04 一种基于可微分二值化的文本检测方法 Active CN114283431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210207398.0A CN114283431B (zh) 2022-03-04 2022-03-04 一种基于可微分二值化的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210207398.0A CN114283431B (zh) 2022-03-04 2022-03-04 一种基于可微分二值化的文本检测方法

Publications (2)

Publication Number Publication Date
CN114283431A true CN114283431A (zh) 2022-04-05
CN114283431B CN114283431B (zh) 2022-06-28

Family

ID=80882241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210207398.0A Active CN114283431B (zh) 2022-03-04 2022-03-04 一种基于可微分二值化的文本检测方法

Country Status (1)

Country Link
CN (1) CN114283431B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973285A (zh) * 2022-05-26 2022-08-30 中国平安人寿保险股份有限公司 图像处理方法和装置、设备、介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
CN108647681A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 一种带有文本方向校正的英文文本检测方法
CN109636815A (zh) * 2018-12-19 2019-04-16 东北大学 一种基于计算机视觉的金属板带产品标签信息识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法
CN110781967A (zh) * 2019-10-29 2020-02-11 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN111598861A (zh) * 2020-05-13 2020-08-28 河北工业大学 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法
CN111985470A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种自然场景下的船牌矫正识别方法
CN112348028A (zh) * 2020-11-30 2021-02-09 广东国粒教育技术有限公司 一种场景文本检测方法、批改方法、装置、电子设备及介质
CN112686282A (zh) * 2020-12-11 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于自学习数据的目标检测方法
CN112906718A (zh) * 2021-03-09 2021-06-04 西安电子科技大学 一种基于卷积神经网络的多目标检测方法
CN113076738A (zh) * 2021-04-09 2021-07-06 北京智谱华章科技有限公司 Gnn编码器及基于图上下文学习的异常点检测方法
CN113780283A (zh) * 2021-09-17 2021-12-10 湖北天天数链技术有限公司 模型训练方法、文本检测方法、装置及轻量级网络模型
CN113971809A (zh) * 2021-10-25 2022-01-25 多伦科技股份有限公司 一种基于深度学习的文本识别方法、设备及存储介质
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
CN108647681A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 一种带有文本方向校正的英文文本检测方法
CN109636815A (zh) * 2018-12-19 2019-04-16 东北大学 一种基于计算机视觉的金属板带产品标签信息识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法
CN110781967A (zh) * 2019-10-29 2020-02-11 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN111598861A (zh) * 2020-05-13 2020-08-28 河北工业大学 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法
CN111985470A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种自然场景下的船牌矫正识别方法
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112348028A (zh) * 2020-11-30 2021-02-09 广东国粒教育技术有限公司 一种场景文本检测方法、批改方法、装置、电子设备及介质
CN112686282A (zh) * 2020-12-11 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于自学习数据的目标检测方法
CN112906718A (zh) * 2021-03-09 2021-06-04 西安电子科技大学 一种基于卷积神经网络的多目标检测方法
CN113076738A (zh) * 2021-04-09 2021-07-06 北京智谱华章科技有限公司 Gnn编码器及基于图上下文学习的异常点检测方法
CN113780283A (zh) * 2021-09-17 2021-12-10 湖北天天数链技术有限公司 模型训练方法、文本检测方法、装置及轻量级网络模型
CN113971809A (zh) * 2021-10-25 2022-01-25 多伦科技股份有限公司 一种基于深度学习的文本识别方法、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI 等: "Robust Scene Text Recognition with Automatic Rectification", 《CVPR》 *
MINGJIAN ZHU 等: "Dynamic Feature Pyramid Networks for Object Detection", 《ARXIV》 *
WEI WANG 等: "TPSNet:Thin-Plate-Spline Representation for Arbitrary Shape Text Detection", 《ARXIV》 *
WEIYANG LIU 等: "Large-Margin Softmax Loss for Convolutional Neural Networks", 《ARXIV》 *
张琳: "自然场景中任意形状文字提取关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
蔡鑫鑫 等: "基于分割的任意形状场景文本检测", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973285A (zh) * 2022-05-26 2022-08-30 中国平安人寿保险股份有限公司 图像处理方法和装置、设备、介质

Also Published As

Publication number Publication date
CN114283431B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN110287960B (zh) 自然场景图像中曲线文字的检测识别方法
WO2018028255A1 (zh) 基于对抗网络的图像显著性检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111553837B (zh) 一种基于神经风格迁移的艺术文本图像生成方法
CN109522908A (zh) 基于区域标签融合的图像显著性检测方法
CN111640125A (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111160407A (zh) 一种深度学习目标检测方法及系统
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN111680690A (zh) 一种文字识别方法及装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN113920468A (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN111597875A (zh) 一种交通标志识别方法、装置、设备及存储介质
CN114283431B (zh) 一种基于可微分二值化的文本检测方法
CN115393635A (zh) 一种基于超像素分割以及数据增强的红外小目标检测方法
CN113536896B (zh) 基于改进Faster RCNN的绝缘子缺陷检测方法、装置及存储介质
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN115063679B (zh) 一种基于深度学习的路面质量评估方法
Ovodov Optical Braille recognition using object detection CNN
CN113344005B (zh) 一种基于优化小尺度特征的图像边缘检测方法
CN113343749A (zh) 基于D2Det模型的果实识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 11-14 / F, tower a, Tengfei building, 88 Jiangmiao Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province 210000

Patentee after: Anyuan Technology Co.,Ltd.

Address before: 11-14 / F, tower a, Tengfei building, 88 Jiangmiao Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province 210000

Patentee before: NANJING ANYUAN TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder