CN113822041A - 一种适用密集文本的深度神经网络自然场景文本检测方法 - Google Patents

一种适用密集文本的深度神经网络自然场景文本检测方法 Download PDF

Info

Publication number
CN113822041A
CN113822041A CN202010559882.0A CN202010559882A CN113822041A CN 113822041 A CN113822041 A CN 113822041A CN 202010559882 A CN202010559882 A CN 202010559882A CN 113822041 A CN113822041 A CN 113822041A
Authority
CN
China
Prior art keywords
text
neural network
deep neural
dense
natural scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010559882.0A
Other languages
English (en)
Other versions
CN113822041B (zh
Inventor
卿粼波
牟森
陈洪刚
何小海
王思怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010559882.0A priority Critical patent/CN113822041B/zh
Publication of CN113822041A publication Critical patent/CN113822041A/zh
Application granted granted Critical
Publication of CN113822041B publication Critical patent/CN113822041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种适用密集文本的深度神经网络自然场景文本检测方法。主要包括以下步骤:在特征提取层,构建空洞卷积模块;根据前一步骤得到的特征提取层,构建引入角点注意力机制的特征融合层;根据第一个步骤得到的特征提取层和第二个步骤得到的特征融合层,构建网络输出层,得到一种适用密集文本的文本检测深度神经网络模型;用训练数据集,设计引入类别权重因子和样本难度权重因子的损失函数来训练前一步骤构建的深度神经网络模型;自然场景图像输入到前一步骤训练好的深度神经网络模型得到图像中的文本检测图像。本发明在自然场景中密集文本的检测效果良好,是一种有效的自然场景密集文本检测方法。

Description

一种适用密集文本的深度神经网络自然场景文本检测方法
技术领域
本发明涉及文本检测技术,具体涉及一种适用密集文本的深度神经网络自然场景文本检测方法,属于自然场景文本检测领域。
背景技术
自然场景下的文本检测与识别被认为是在目标检测领域中最具有挑战性的难点之一,它在图像处理、无人驾驶、文档分析、自然语言处理等诸多机器视觉领域都存在大量的应用。其检测方法主要分为文本检测和文本识别两个部分。相较于通用物体的目标检测,复杂场景下的文本检测却存在诸多难点:(1)场景中的文本行颜色、字体、尺度多样化并且相关性较小。(2)背景多样化。在自然场景下,文本行的背景是任意的,还可能会受到结构相近的背景影响(如栅栏)。(3)文本行的形状和方向多样化。如水平、垂直、倾斜、弯曲等。(4)存在诸多艺术字、手写字、多种语言混合以及不同程度的扭曲。(5)恶劣的光照条件和不同程度的遮挡。
近年来,文本检测领域的深度学习策略主要有:(1)基于字符的文本检测。先检测单个字符及字符间的连接关系,然后根据字符间的连接关系确定最终的文本行。(2)基于文本框的坐标回归的文本检测。将文本检测任务转化为一连串小尺度文本框的检测,并且引入RNN提升文本检测效果,用边界优化提升文本框边界预测精准度。(3)基于语义分割后进行实例分割的方法。不从边界框回归检测文本,而是直接通过实例分割结果中提取文本位置。并且将像素点进行连接,得到文本框。使用像素分类进行语义分割,连接进行实例分割。4)文本框回归和语义分割的组合方法。首先由直接回归模块产生粗略的四边形表征的候选文本框;接着在提取的特征图上通过迭代修正得到完整的长文本行的四边形表征;最后通过结合文本行区域、文本行中心线及文本行边界偏移得到最终的文本行。
AdvancedEAST是一个两阶段的文本检测方法,分为全卷积网络(FCN)阶段和NMS(非极大值抑制)合并阶段。FCN可以直接生成文本区域,消除冗余过程及复杂的中间步骤。该方法即可以检测单词级别,又可以检测文本行级别,检测的形状可以为矩形或者任意形状的四边形。但是该方法对密集文本的检测结果较差。
发明内容
本发明要解决的技术问题是:提供一种适用密集文本的深度神经网络自然场景文本检测方法,以解决上述现有技术中存在的问题。
本发明提出的一种适用密集文本的深度神经网络自然场景文本检测方法,主要包括以下操作步骤:
(1)在特征提取层,构建空洞卷积模块;
(2)根据步骤(1)得到的特征提取层,构建引入角点注意力机制的特征融合层;
(3)根据步骤(1)得到的特征提取层和步骤(2)得到的特征融合层,构建网络输出层,得到一种适用密集文本的文本检测深度神经网络模型;
(4)利用训练数据集,设计引入类别权重因子和样本难度权重因子的损失函数来训练步骤(3)中构建的深度神经网络模型;
(5)将自然场景图像输入到步骤(4)中训练好的深度神经网络模型得到图像中的文本检测图像。
附图说明
图1是包含空洞卷积模块的特征提取层
图2是引入角点注意力机制的特征融合层
图3是本发明提出的深度神经网络模型
图4是AdvancedEAST方法对密集文本检测的效果图
图5是本发明对密集文本检测的效果图
具体实施方式
下面结合附图对本发明作进一步说明:
一种适用密集文本的深度神经网络自然场景文本检测方法,具体可以分为以下几个步骤:
(1)在特征提取层,构建空洞卷积模块;
(2)根据步骤(1)得到的特征提取层,构建引入角点注意力机制的特征融合层;
(3)根据步骤(1)得到的特征提取层和步骤(2)得到的特征融合层,构建网络输出层,得到一种适用密集文本的文本检测深度神经网络模型;
(4)利用训练数据集,设计引入类别权重因子和样本难度权重因子的损失函数来训练步骤(3)中构建的深度神经网络模型;
(5)将自然场景图像输入到步骤(4)中训练好的深度神经网络模型得到图像中的文本检测图像。
具体地,如图1所示,在步骤(1)中构建的特征提取层,在resnet50网络的四个特征图输出之前,分别采用扩张率为18、12、6和3的3×3空洞卷积。
如图2所示,在步骤(2)构建的引入角点注意力机制的特征融合层,为了生成更加均匀的特征金字塔,通过双线性上采样逐层连接。然后将边界像素特征加入注意力模块,得到如下公式:
attentioni=soft max(Dense(xi,yi-1))
Figure BDA0002545896470000021
其中,i表示当前时步,xi为输入边界像素特征,yi-1为输出的边界像素特征,attentioni表示i处的注意力权重,Dense(·)为一全连接操作,soft max(·)为一激活函数,ci表示输出的带有注意力的上下文信息。
所述步骤(3)中,将步骤(1)中得到的特征提取层中每一层输出的特征图与步骤(2)中得到的特征融合层中角点注意力模块输出连接,同时构建网络输出层,得到如图3所示的一种适用密集文本的文本检测深度神经网络模型。
在一般的训练数据集中,负样本数量太大,导致损失函数输入参数的大部分都是负样本,而且多是容易分类的,因此会使得对密集文本的检测效果并不是很好。所述步骤(4)中,设计引入类别权重因子和样本难度权重因子的损失函数设计的引入类别权重因子α和样本难度权重因子
Figure BDA0002545896470000031
的损失函数,来缓解上述问题。具体公式如下:
Figure BDA0002545896470000032
Figure BDA0002545896470000033
Figure BDA0002545896470000034
其中,Y*表示正确标注,
Figure BDA0002545896470000035
表示预测值,N表示样本数量,w为归属权重是,S表示一种非线性函数。α可以平衡正负样本。γ>0可以减少易分类样本的损失,使得模型更关注于困难的、错分的样本。
α表示所有训练图像中所有为1的像素点数量占总像素点数量的比例,由下式给出:
Figure BDA0002545896470000036
S采用收敛得更快并且对离群点、异常值不敏感,梯度变化相对更小的函数。公式如下:
Figure BDA0002545896470000037
得到总的损失函数为:
L=λsLsvLvgLg
其中,λs、λv和λg为损失权重,Ls、Lv和Lg为损失函数。
利用训练数据集,将步骤(4)中引入类别权重因子和样本难度权重因子的损失函数来训练步骤(3)中构建的深度神经网络模型。
所述步骤(5)中,自然场景图像输入到步骤(4)中训练好的深度神经网络模型得到图像中的文本检测图像。
本发明提出的一种适用密集文本的深度神经网络自然场景文本检测方法,利用边界像素的上下文信息,引入类别权重因子和样本难度权重因子的损失函数,有效改善了对自然场景图像中密集文本的检测效果。图4-5给出了AdvancedEAST方法以及本发明对自然场景中密集文本检测效果图。
同时,本发明使用准确率(Precision)、召回率(Recall)和加权调和平均值F-measured三个指标来评价本文算法在ReCTS数据集上的训练效果。并与AdvancedEAST方法进行对比,实验结果如表1所示。可以看出,本发明相比于AdvancedEAST方法在文本检测的各项指标上均有提升。其中召回率提升比较明显,这是因为本发明增大了图像中密集文本的检测能力。
表一
方法 Precision Recall F-measured
AdvancedEAST 89.46 61.07 72.59
本发明 93.02 76.69 84.07
综上所述,相比于AdvancedEAST方法,本发明在自然场景中密集文本的检测效果,在主客观评价上都有明显的优势。因此,本发明是一种有效的自然场景密集文本检测方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种适用密集文本的深度神经网络自然场景文本检测方法,其特征在于包括以下步骤:
步骤一:在特征提取层,构建空洞卷积模块;
步骤二:根据步骤一得到的特征提取层,构建引入角点注意力机制的特征融合层;
步骤三:根据步骤一得到的特征提取层和步骤二得到的特征融合层,构建网络输出层,得到一种适用密集文本的文本检测深度神经网络模型;
步骤四:用训练数据集,设计损失函数组合来训练步骤三构建的深度神经网络模型;
步骤五:自然场景图像输入到步骤四训练好的深度神经网络模型得到图像中的文本检测图像。
2.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法,其特征在于步骤一中构建的特征提取层,在resnet50网络的四个特征图输出之前,分别采用扩张率为18,12,6和3的3×3空洞卷积。
3.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法,其特征在于步骤二中构建的引入角点注意力机制的特征融合层,将特征图的输入边像素界特征与输出的边界像素特征通过一个标准的一维全连接层连接起来,然后输出的带有注意力的上下文信息。
4.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法,其特征在于步骤三中提出的深度神经网络模型,该模型中为了提高其特征表达能力,通过卷积、双线性上采样操作和特征降维融合当前尺度和相邻尺度的特征图。
5.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法,其特征在于步骤四中设计的损失函数组合,该损失函数组合使用收敛得更快并且对异常值、离群点不敏感,梯度的变化相对更小的函数,并且引入类别权重因子和样本难度权重因子,来处理样本类别不均衡的问题。
CN202010559882.0A 2020-06-18 2020-06-18 一种适用密集文本的深度神经网络自然场景文本检测方法 Active CN113822041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010559882.0A CN113822041B (zh) 2020-06-18 2020-06-18 一种适用密集文本的深度神经网络自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559882.0A CN113822041B (zh) 2020-06-18 2020-06-18 一种适用密集文本的深度神经网络自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN113822041A true CN113822041A (zh) 2021-12-21
CN113822041B CN113822041B (zh) 2023-04-18

Family

ID=78911826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559882.0A Active CN113822041B (zh) 2020-06-18 2020-06-18 一种适用密集文本的深度神经网络自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN113822041B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833920A (zh) * 2018-06-04 2018-11-16 四川大学 一种基于光流和块匹配的dvc边信息融合方法
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN110032969A (zh) * 2019-04-11 2019-07-19 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833920A (zh) * 2018-06-04 2018-11-16 四川大学 一种基于光流和块匹配的dvc边信息融合方法
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN110032969A (zh) * 2019-04-11 2019-07-19 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO QIN 等: "Arbitrary Shape Natural Scene Text Detection Method Based on Soft Attention Mechanism and Dilated Convolution" *
宁芊;胡诗雨;雷印杰;陈炳才;: "基于多尺度特征和注意力机制的航空图像分割" *
牟森 等: "自然场景下的密集文本检测方法" *

Also Published As

Publication number Publication date
CN113822041B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111462126A (zh) 一种基于边缘增强的语义图像分割方法及系统
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN110969129B (zh) 一种端到端税务票据文本检测与识别方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN111986125B (zh) 一种用于多目标任务实例分割的方法
CN108009637B (zh) 基于跨层特征提取的像素级台标识别网络的台标分割方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN110188802B (zh) 基于多层特征图融合的ssd目标检测算法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN111062329B (zh) 基于增广网络的无监督行人重识别方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN111626292A (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN115205521A (zh) 基于神经网络的厨余垃圾检测方法
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN114926826A (zh) 场景文本检测系统
CN110046595A (zh) 一种基于级联式多尺度的密集人脸检测方法
CN113011431A (zh) 一种基于MaskRCNN的汉字笔画分割提取方法及系统
CN113822041B (zh) 一种适用密集文本的深度神经网络自然场景文本检测方法
CN110705613A (zh) 物体分类方法
CN114998702B (zh) 基于BlendMask的实体识别、知识图谱生成方法及系统
Singh et al. A comprehensive survey on Bangla handwritten numeral recognition
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
Bai et al. DHRNet: A Dual-Branch Hybrid Reinforcement Network for Semantic Segmentation of Remote Sensing Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant