CN110399882A - 一种基于可变形卷积神经网络的文字检测方法 - Google Patents

一种基于可变形卷积神经网络的文字检测方法 Download PDF

Info

Publication number
CN110399882A
CN110399882A CN201910459144.6A CN201910459144A CN110399882A CN 110399882 A CN110399882 A CN 110399882A CN 201910459144 A CN201910459144 A CN 201910459144A CN 110399882 A CN110399882 A CN 110399882A
Authority
CN
China
Prior art keywords
image
deformable
text
neural networks
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910459144.6A
Other languages
English (en)
Inventor
黄国恒
杨帆
黄和锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910459144.6A priority Critical patent/CN110399882A/zh
Publication of CN110399882A publication Critical patent/CN110399882A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可变形卷积神经网络的文字检测方法,通过接收输入的包含文字信息的图像,然后构建包括可变形卷积结构的卷积神经网络并对图像进行特征提取,得到多张特征映射;使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。由于本发明卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测解决了现有技术对于图像中大小不一的文字检测准确率低的问题。

Description

一种基于可变形卷积神经网络的文字检测方法
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种基于可变形卷积神经网络的文字检测方法。
背景技术
近年来随着深度学习的发展,文字检测技术有了很大的提高,自然场景下文字检测与识别技术的应用十分广泛,各种应用系统开始推出,如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等。其中自然场景下文字检测与识别包括两个任务,分别是文字检测和文字识别,由于文字检测的正确率直接决定了后续文字识别的正确率,文字检测占有十分重要的地位。
然而由于自然场景下文字的多方向性和多形态性,现有基于卷积神经网络的文字检测方法有时难以提取有用的特征,对于图像中过大过小的字体无法检测,影响了文字检测的准确率。
发明内容
本发明为解决现有技术对于图像中大小不一的文字检测准确率低的问题,提供了一种基于可变形卷积神经网络的文字检测方法。
为实现以上发明目的,而采用的技术手段是:
一种基于可变形卷积神经网络的文字检测方法,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;
S6.将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。
上述方案中,通过对标准的卷积神经网络进行改进,在其中设置了可变形卷积结构来对图像进行特征提取,从而有效地对图像中过大或过小的字体进行检测;同时将特征向量输入到BiGRU网络中进行学习和检测,可以减少矩阵乘法,提高检测效率,最后将BiGRU网络的输出结果输入到一个全连接层并进行分类和回归得到图像中的文字检测结果。
优选的,步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。在本优选方案中,通过对VGG19网络进行改进,在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征,可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测。
优选的,所述可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
优选的,所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
优选的,所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反。
优选的,所述GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
优选的,所述步骤S6具体为:
将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角;通过文本构造算法将所述结果合并成文本框,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
与现有技术相比,本发明技术方案的有益效果是:
通过对用于提取图像特征的卷积神经网络进行改进,在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征,可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测,从而有效地对图像中过大或过小的字体进行检测,提高了对于图像中大小不一的文字检测准确率;同时设置了BiGRU网络,将特征输入到BiGRU网络中进行学习和检测,可以减少矩阵乘法,进一步提高了文字检测的效率。
附图说明
图1为本发明方法的流程图。
图2为本实施例中某图像得到分类和回归的结果的效果图。
图3为本实施例中某图像根据到分类和回归结果合并成文本框的效果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
一种基于可变形卷积神经网络的文字检测方法,如图1所示,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
其中卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。
可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;其中所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;其中所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反;
GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
S6.将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角,本实施例中某图像的具体效果如图2所示;通过文本构造算法将所述结果合并成文本框,效果如图3所示,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于可变形卷积神经网络的文字检测方法,其特征在于,包括以下步骤:
S1.接收输入的图像,所述图像中包括待检测的文字信息;
S2.构建卷积神经网络,所述卷积神经网络中包括可变形卷积结构;
S3.通过所述卷积神经网络对图像进行特征提取,得到多张特征映射;
S4.使用滑动窗口提取所述特征映射上的特征向量,根据所述特征向量对多个候选框进行预测;
S5.将所述特征向量输入到BiGRU网络中,将BiGRU网络的输出结果输入到一个全连接层;
S6.将从所述全连接层得到的特征向量结果进行分类和回归,基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。
2.根据权利要求1所述的文字检测方法,其特征在于,步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构,所述可变形卷积结构具体为:将原始VGG19网络中的Conv2D层替换为可变形卷积层,将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。
3.根据权利要求2所述的文字检测方法,其特征在于,所述可变形卷积结构定义为:
其中对于每个输出y(P0),都要从x上采样9个位置,所述9个位置由中心点位置P0向四周扩散得到;所述可变形卷积层的扩散量参数即偏移量ΔPn;w(Pn)为输入的图像;Pn为9个位置,使用3*3卷积;
进行双线性插值操作:
x(p)=∑qG(Q,P)*x(q)
其中G(q,p)=g(qx,px)*g(qy,py)g(a,b)=max(0,1-|a-b|),若a-b>1,g即为0;x(p)为进行双线性插值之后的值,x(q)是进行双线性插值之前的值;
进行可变形池化,i,j为像素数:
y(i,j)=∑p∈bin(i,j)x(p0+p+Δpij)/nij
p0是左上方的角落块,nij是角落块内的像素值,ΔPij为偏移量;
其中,梯度偏移量ΔPn
其中,梯度偏移量ΔPij
4.根据权利要求1所述的文字检测方法,其特征在于,所述滑动窗口的大小是3×3×C,所述特征映射的大小为W×H×C。
5.根据权利要求1所述的文字检测方法,其特征在于,所述BiGRU网络包括两个单向的GRU网络,两个所述GRU网络的方向相反。
6.根据权利要求5所述的文字检测方法,其特征在于,所述GRU网络的前向传播公式为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(W0·ht)
其中rt表示t时刻的重置门,zt表示t时刻的更新门,ht表示t时刻的候选激活状态,ht表示t时刻的激活状态,ht-1表示t-1时刻的隐藏门状态,xt为本次输入的特征向量数据。
7.根据权利要求1所述的文字检测方法,其特征在于,所述步骤S6具体为:
将从所述全连接层得到的特征向量结果进行分类和回归,得到的分类和回归的结果为2k个纵向坐标y,2k个分数,k个的水平偏移量x,k个参数角;通过文本构造算法将所述结果合并成文本框,并将所述文本框映射到所述图像上,得到图像中的文字检测结果;
其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标,2k个分数表示k个候选框的类别信息,说明其是否为字符;k个的水平偏移量x表示的是候选框的水平偏移量,k个参数角为最终输出的候选框与水平线之间的角度。
CN201910459144.6A 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法 Pending CN110399882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459144.6A CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459144.6A CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Publications (1)

Publication Number Publication Date
CN110399882A true CN110399882A (zh) 2019-11-01

Family

ID=68322908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459144.6A Pending CN110399882A (zh) 2019-05-29 2019-05-29 一种基于可变形卷积神经网络的文字检测方法

Country Status (1)

Country Link
CN (1) CN110399882A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428632A (zh) * 2020-03-23 2020-07-17 中国科学院重庆绿色智能技术研究院 一种绞车状态检测方法及矿工行为检测方法
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111881706A (zh) * 2019-11-27 2020-11-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN112907560A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种基于深度学习的笔记本外观瑕疵分割方法
WO2021227058A1 (zh) * 2020-05-15 2021-11-18 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129261A1 (en) * 2005-06-01 2006-12-07 Koninklijke Philips Electronics N.V. Method and device for detecting text
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129261A1 (en) * 2005-06-01 2006-12-07 Koninklijke Philips Electronics N.V. Method and device for detecting text
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明攀: "基于深度学习的目标检测算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881706A (zh) * 2019-11-27 2020-11-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111881706B (zh) * 2019-11-27 2021-09-03 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111310760A (zh) * 2020-02-13 2020-06-19 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111310760B (zh) * 2020-02-13 2023-05-26 辽宁师范大学 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111428632A (zh) * 2020-03-23 2020-07-17 中国科学院重庆绿色智能技术研究院 一种绞车状态检测方法及矿工行为检测方法
WO2021227058A1 (zh) * 2020-05-15 2021-11-18 京东方科技集团股份有限公司 文本处理方法、装置、电子设备及存储介质
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111667493B (zh) * 2020-05-27 2022-09-20 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN112907560A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种基于深度学习的笔记本外观瑕疵分割方法

Similar Documents

Publication Publication Date Title
CN110399882A (zh) 一种基于可变形卷积神经网络的文字检测方法
CN108229355B (zh) 行为识别方法和装置、电子设备、计算机存储介质
Hazirbas et al. Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture
KR102554724B1 (ko) 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스
WO2022161286A1 (zh) 图像检测方法、模型训练方法、设备、介质及程序产品
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
US20170124415A1 (en) Subcategory-aware convolutional neural networks for object detection
CN112598643B (zh) 深度伪造图像检测及模型训练方法、装置、设备、介质
CN107624189A (zh) 用于生成预测模型的方法和设备
GB2555136A (en) A method for analysing media content
Xu et al. Fast vehicle and pedestrian detection using improved Mask R‐CNN
CN107305635A (zh) 对象识别方法、对象识别装置和分类器训练方法
Shen et al. A convolutional neural‐network‐based pedestrian counting model for various crowded scenes
CN107273870A (zh) 一种监控场景下融合上下文信息的行人位置检测方法
CN112101359B (zh) 文本公式的定位方法、模型训练方法及相关装置
CN107025444A (zh) 分块协同表示嵌入核稀疏表示遮挡人脸识别方法和装置
CN112651333A (zh) 静默活体检测方法、装置、终端设备和存储介质
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN109492601A (zh) 人脸比对方法及装置、计算机可读介质和电子设备
Gao et al. Attention-free global multiscale fusion network for remote sensing object detection
CN114677611B (zh) 数据识别方法、存储介质及设备
CN111027472A (zh) 一种基于视频光流和图像空间特征权重融合的视频识别方法
Sedik et al. AI-enabled digital forgery analysis and crucial interactions monitoring in smart communities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101