CN110399882A - 一种基于可变形卷积神经网络的文字检测方法 - Google Patents

一种基于可变形卷积神经网络的文字检测方法 Download PDF

Info

Publication number
CN110399882A
CN110399882A CN201910459144.6A CN201910459144A CN110399882A CN 110399882 A CN110399882 A CN 110399882A CN 201910459144 A CN201910459144 A CN 201910459144A CN 110399882 A CN110399882 A CN 110399882A
Authority
CN
China
Prior art keywords
image
text
deformable
network
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910459144.6A
Other languages
English (en)
Inventor
黄国恒
杨帆
黄和锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910459144.6A priority Critical patent/CN110399882A/zh
Publication of CN110399882A publication Critical patent/CN110399882A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可变形卷积神经网络的文字检测方法,通过接收输入的包含文字信息的图像,然后构建包括可变形卷积结构的卷积神经网络并对图像进行特征提取,得到多张特征映射;使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。由于本发明卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测解决了现有技术对于图像中大小不一的文字检测准确率低的问题。

Description

一种基于可变形卷积神经网络的文字检测方法
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种基于可变形卷积神经网络的文字检测方法。
背景技术
近年来随着深度学习的发展,文字检测技术有了很大的提高,自然场景下文字检测与识别技术的应用十分广泛,各种应用系统开始推出,如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等。其中自然场景下文字检测与识别包括两个任务,分别是文字检测和文字识别,由于文字检测的正确率直接决定了后续文字识别的正确率,文字检测占有十分重要的地位。
然而由于自然场景下文字的多方向性和多形态性,现有基于卷积神经网络的文字检测方法有时难以提取有用的特征,对于图像中过大过小的字体无法检测,影响了文字检测的准确率。
发明内容
本发明为解决现有技术对于图像中大小不一的文字检测准确率低的问题,提供了一种基于可变形卷积神经网络的文字检测方法。
为实现以上发明目的,而采用的技术手段是:
一种基于可变形卷积神经网络的文字检测方法,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;
S6.将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。
上述方案中,通过对标准的卷积神经网络进行改进,在其中设置了可变形卷积结构来对图像进行特征提取,从而有效地对图像中过大或过小的字体进行检测;同时将特征向量输入到BiGRU网络中进行学习和检测,可以减少矩阵乘法,提高检测效率,最后将BiGRU网络的输出结果输入到一个全连接层并进行分类和回归得到图像中的文字检测结果。
优选的,步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。在本优选方案中,通过对VGG19网络进行改进,在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征,可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测。
优选的,所述可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
优选的,所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
优选的,所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反。
优选的,所述GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
优选的,所述步骤S6具体为:
将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角;通过文本构造算法将所述结果合并成文本框,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
与现有技术相比,本发明技术方案的有益效果是:
通过对用于提取图像特征的卷积神经网络进行改进,在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征,可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测,提高了对于图像中大小不一的文字检测准确率;同时设置了BiGRU网络,将特征输入到BiGRU网络中进行学习和检测,可以减少矩阵乘法,进一步提高了文字检测的效率。
附图说明
图1为本发明方法的流程图。
图2为本实施例中某图像得到分类和回归的结果的效果图。
图3为本实施例中某图像根据到分类和回归结果合并成文本框的效果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
一种基于可变形卷积神经网络的文字检测方法,如图1所示,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
其中卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。
可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;其中所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;其中所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反;
GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
S6.将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角,本实施例中某图像的具体效果如图2所示;通过文本构造算法将所述结果合并成文本框,效果如图3所示,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于可变形卷积神经网络的文字检测方法,其特征在于,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;
S6.将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。
2.根据权利要求1所述的文字检测方法,其特征在于,步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。
3.根据权利要求2所述的文字检测方法,其特征在于,所述可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
4.根据权利要求1所述的文字检测方法,其特征在于,所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
5.根据权利要求1所述的文字检测方法,其特征在于,所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反。
6.根据权利要求5所述的文字检测方法,其特征在于,所述GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
7.根据权利要求1所述的文字检测方法,其特征在于,所述步骤S6具体为:
将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角;通过文本构造算法将所述结果合并成文本框,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
CN201910459144.6A 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法 Pending CN110399882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459144.6A CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459144.6A CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Publications (1)

Publication Number Publication Date
CN110399882A true CN110399882A (zh) 2019-11-01

Family

ID=68322908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459144.6A Pending CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Country Status (1)

Country Link
CN (1) CN110399882A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428632A (zh) * 2020-03-23 2020-07-17 中国科学院重庆绿色智能技术研究院 一种绞车状态检测方法及矿工行为检测方法
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111881706A (zh) * 2019-11-27 2020-11-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN112907560A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种基于深度学习的笔记本外观瑕疵分割方法
WO2021227058A1 (zh) * 2020-05-15 2021-11-18 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129261A1 (en) * 2005-06-01 2006-12-07 Koninklijke Philips Electronics N.V. Method and device for detecting text
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129261A1 (en) * 2005-06-01 2006-12-07 Koninklijke Philips Electronics N.V. Method and device for detecting text
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明攀: "基于深度学习的目标检测算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881706A (zh) * 2019-11-27 2020-11-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111881706B (zh) * 2019-11-27 2021-09-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111310760B (zh) * 2020-02-13 2023-05-26 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428632A (zh) * 2020-03-23 2020-07-17 中国科学院重庆绿色智能技术研究院 一种绞车状态检测方法及矿工行为检测方法
WO2021227058A1 (zh) * 2020-05-15 2021-11-18 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质
CN114026613A (zh) * 2020-05-15 2022-02-08 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质
CN114026613B (zh) * 2020-05-15 2025-05-23 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111667493B (zh) * 2020-05-27 2022-09-20 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN112907560A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种基于深度学习的笔记本外观瑕疵分割方法

Similar Documents

Publication Publication Date Title
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110399882A (zh) 一种基于可变形卷积神经网络的文字检测方法
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN107704857A (zh) 一种端到端的轻量级车牌识别方法及装置
CN110276253A (zh) 一种基于深度学习的模糊文字检测识别方法
CN107977620A (zh) 一种基于全卷积网络的多方向场景文本单次检测方法
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114155540B (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
CN116051953A (zh) 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN112597940B (zh) 证件图像识别方法、装置及存储介质
CN111274981A (zh) 目标检测网络构建方法及装置、目标检测方法
CN114359932B (zh) 文本检测方法、文本识别方法及装置
CN114943869B (zh) 风格迁移增强的机场目标检测方法
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN114444565B (zh) 一种图像篡改检测方法、终端设备及存储介质
WO2021147437A1 (zh) 证卡边缘检测方法、设备及存储介质
CN112825141A (zh) 识别文本的方法、装置、识别设备和存储介质
CN114359709A (zh) 一种针对遥感图像的目标检测方法及装置
CN116740528A (zh) 一种基于阴影特征的侧扫声呐图像目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101

RJ01 Rejection of invention patent application after publication