CN109165697B - 一种基于注意力机制卷积神经网络的自然场景文字检测方法 - Google Patents

一种基于注意力机制卷积神经网络的自然场景文字检测方法 Download PDF

Info

Publication number
CN109165697B
CN109165697B CN201811187360.1A CN201811187360A CN109165697B CN 109165697 B CN109165697 B CN 109165697B CN 201811187360 A CN201811187360 A CN 201811187360A CN 109165697 B CN109165697 B CN 109165697B
Authority
CN
China
Prior art keywords
text
attention mechanism
neural network
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811187360.1A
Other languages
English (en)
Other versions
CN109165697A (zh
Inventor
柯逍
罗洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201811187360.1A priority Critical patent/CN109165697B/zh
Publication of CN109165697A publication Critical patent/CN109165697A/zh
Application granted granted Critical
Publication of CN109165697B publication Critical patent/CN109165697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制卷积神经网络的自然场景文字检测方法,首先对自然场景下的带文本的图像数据进行标注,并将其分为训练集和测试集;然后使用数据增强的方法对文本图像进行处理作为训练数据;基于注意力机制模块和Inception网络构建了基于注意力机制特征提取网络,并采用多尺度特征融合的方法学习不同大小字体的特征;使用课程学习的策略预训练网络;利用自然场景的文本图像数据再次训练网络;使用融合后的特征进行回归得到图像中文本的坐标,得到文本检测的结果。最后在测试集以及其他公开数据集验证训练后的神经网络的有效性。本发明能够解决当前技术面对复杂自然环境下文字召回率不高、识别正确率较低的问题,并在运行速度上具有优势。

Description

一种基于注意力机制卷积神经网络的自然场景文字检测方法
技术领域
本发明涉及模式识别与计算机视觉领域,特别是一种基于注意力机制卷积神经网络的自然场景文字检测方法。
背景技术
文本作为人们生活中信息传递的一个主要载体之一,在现实生活中具有极其重要的作用。自动文本检测为计算机提供了一种利用图片和视频获取文本信息的方法,使得快速自动处理海量的自然场景下的文本信息成为了可能。
自然场景下自动文本检测的困难之处包括:
(1)文本中字符大小不一。
(2)文本中存在各种各样的字体。
(3)自然场景下文本带有复杂的图像背景。
(4)观察文本视角不同。
(5)光照度的多样性。
现有研究针对以上难点提出了许多解决办法。传统的文本检测方法都是先通过人工选择特征,特征通常是基于纹理和连通域信息的,然后通过这些特征提取图像中的文本信息。比较典型的方法包括笔划宽度变换(SWT)、笔划特征变换(SFT)和最大稳定极值区域(MSER)法。这些方法都在一定程度上可以检测到文本信息,但都存在各自的缺点。这些缺点主要有以下几种:
(1)传统算法约束较多,使用场景有限制,泛化能力不足。例如当输入图像比较模糊,边缘信息较少时,基于SWT的算法的效果明显变差;而基于MSER的算法对于不是MSER区域的文字存在漏检情况。
(2)传统算法使用人工设计的特征,带有很多的经验参数,算法效果很大程度上受这些经验参数这些参数影响。实际使用算法时,需要针对不同的图像对经验参数进行调整,算法的鲁棒性较差。
(3)传统算法无法识别一些复杂场景的自然图像上的文本与背景,检测效果不理想。
(4)与这些上述传统算法相比,深度学习方法可以通过大量实际数据自动提取特征,因此具有很强的普适性。深度学习网络在特征提取方面巨大的优越性使得其在目标检测、图像分类和语义分割等计算机视觉任务上得到了广泛的应用。
目前,有一些基于深度卷积网络的文本检测工作,如:将LSTM与Faster-RCNN相结合的算法,将RPN与Fast-RNN相结合的算法,这些算法检测效果好,但速度较慢。
发明内容
有鉴于此,本发明的目的是提出一种基于注意力机制卷积神经网络的自然场景文字检测方法,解决当前技术面对复杂自然环境下文字召回率不高、识别正确率较低的问题,同时采用端对端的结构,相比与其他多步处理方法在运行速度上具有优势。
本发明采用以下方案实现:一种基于注意力机制卷积神经网络的自然场景文字检测方法,具体包括以下步骤:
步骤S1:对获取的自然场景下的文本图像数据集进行人工标注,然后将数据集分为训练集和测试集;
步骤S2:对训练集数据进行数据增强处理;
步骤S3:基于注意力机制模块和Inception网络构建特征提取网络,并采用多尺度特征融合的方法学习不同大小字体的特征;
步骤S4:采用课程学习(Curriculum Learning)的策略预训练神经网络;
步骤S5:采用步骤S2增强处理后的训练集再次训练步骤S4预训练后的神经网络;采用Adam方法进行优化,初始学习率设置为0.00002,训练10个epoch以后开始衰减,每个epoch衰减1%。并采用权重衰减的方法减小网络过拟合,权重衰减的参数设置为1e-5;
步骤S6:使用融合后的特征进行回归得到图像中文本的坐标,得到文本检测的结果;
步骤S7:在测试集以及其他公开数据集验证训练后的神经网络的有效性。
进一步地,步骤S1具体包括以下步骤:
步骤S11:从清华数据集中获得3000张自然场景下的文本图像作为数据集;
步骤S12:对获得的文本图像统一缩放到448x448大小,并使用开源的labelimg对数据集中的文本进行人工标注方框,同时保存组成方框的四个点的坐标;
步骤S13:将数据集按照100:1的比例随机分为训练集和测试集。
进一步地,步骤S2具体包括以下步骤:
步骤S21:对图像进行随机仿射变换增强;包括平移、旋转、扭曲等操作;通过这些增强可以使得网络获得对自然场景下不同位置,不同角度的文本图像的特征提取;
其中,图像平移的操作方法如下:
Figure BDA0001826587700000031
图像的旋转对操作方法如下:
Figure BDA0001826587700000032
图像扭曲操作可以使用仿射变换实现:
Figure BDA0001826587700000041
式中,a、b为变换后的坐标,(v,w)为变换前的坐标,x0是横轴方向上的平移量,y0是纵轴方向上的平移量,t为仿射变换矩阵参数,θ为旋转角度;进行扭曲变换的变换矩阵可以使用旋转前的图像上的四个位置坐标和旋转后图像上的四个位置坐标获得;
步骤S22:对图像进行随机亮度和对比度增强;通过这种数据增强方法,可以使得网络对于不同光照下的文本都具备识别的能力;
亮度和对比度调整通常使用点处理完成,两个常用的点处理过程是乘法和加法:
g(m)=αf(m)+β;
式中,参数α>0和β通常被称为增益和偏置参数,可以通过这些参数分别控制对比度和亮度;
令f(m)作为源图像和g(m)作为输出图像,m为第m个像素。上述表达式简写成:
g(h,k)=α·f(h,k)+β;
式中,h和k表示像素位于第h行和第k列;
步骤S23:对图像进行随机模糊增强;由于各种原因(如摄像头像素不高、拍摄时抖动、拍摄距离远等),自然场景下的文本图片可能存在一定程度的模糊,本文通过对训练数据使用高斯模糊,模拟自然场景下模糊的文本图片,使网络对模糊文本具有一定的识别能力;
步骤S24:对图像进行随机加噪增强。因为夜晚场景下获得的含有文本信息的图像会具有比较多的噪声,本发明通过对文本图像进行加噪处理使网络面对带有噪声的文本图片,依然可以识别其中的文本信息。
进一步地,步骤S3中,所述基于注意力机制模块和Inception网络构建特征提取网络具体包括以下步骤:
步骤S31:构建以InceptionV4为基础的多尺度特征提取模块,主要利用了Inception采用不同大小的卷积核提取图像不同层次特征的思想;所述多尺度特征提取模块包括1个StemBlock、4个Inception-A、1个Reduction-A、7个Inception-B、1个Reduction-B、以及3个Inception-C;
步骤S32:构建细化提取特征重要程度的注意力机制模块,所述注意力机制模块由残差单元组成,后面接两个1x1的卷积使得输出的特征图的大小和通道数与多尺度特征提取模块的输出的特征图一致,然后再接一个sigmoid层,用以保证得到的权重在0-1之间;
步骤S33:将多尺度特征提取模块的结果和注意力机制模块的结果对应相乘,即通过注意力机制模块学习,给予每个特征不同的重要程度,再将相乘结果和注意力机制模块结果相加,避免网络因为相乘而导致反向传递时的梯度弥散。
进一步地,步骤S4具体包括以下步骤:
步骤S41:制作一批文本和简单背景合成的图片作为预训练输入数据;其中文本包括汉字和英文字体,同时包括多种大小和字体,所述简单背景为纯色背景或者字体周围不存在干扰物;
步骤S42:对所述预训练输入数据进行数据增强处理,其处理方法可以采用步骤S2所采用的方法;
步骤S43:使用步骤S42增强处理后的预训练输入数据对随机初始化的神经网络进行训练,使神经网络获得提取简单背景下文本特征的能力。通过这种方法,可以在训练样本数较少的情况下(几千张),仍然可以使得网络获得良好的文本检测效果。
进一步地,步骤S6具体包括以下步骤:
步骤S61:网络最多可以检测10个文本框;为了检测倾斜文本,每个文本框使用4组点坐标共8个参数表示;最后一层使用1x1的卷积层回归坐标,输出结果为80x1x1x1的特征图;相比于使用全连接层,1x1的卷积层输出可以有效减少参数,减少网络运行时间;
步骤S62:使用L1Smooth作为损失函数,其中损失函数表示如下:
Figure BDA0001826587700000061
式中,i表示第i个检测到的文本框,j表示本文框的第j个坐标点,(cij,uij)表示神经网络检测到文本框的点坐标,(c'ij,u'ij)表示对应的实际文本框坐标。
与现有技术相比,本发明有以下有益效果:本发明通过深度神经网络解决了传统分类器使用人工选取的特征泛化性差、需要调参的不足;通过注意力机制和Inception的结合使得网络可以获得丰富的文本特征,提升了检测精度;通过多尺度特征融合可以使得网络可以适应多种大小和分辨率的字体;网络使用端到端的结构可以快速输出结果,解决了当前用于文本检测的深度卷积网络运行速度较慢的问题。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的网络结构示意图。
图3为本发明实施例的注意力机制模块示意图。
图4为本发明实施例的各种场景下(不同字体、模糊、不同光照、不同角度)的检测结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于注意力机制卷积神经网络的自然场景文字检测方法,具体包括以下步骤:
步骤S1:对获取的自然场景下的文本图像数据集进行人工标注,然后将数据集分为训练集和测试集;
步骤S2:对训练集数据进行数据增强处理;
步骤S3:基于注意力机制模块和Inception网络构建特征提取网络,并采用多尺度特征融合的方法学习不同大小字体的特征;
步骤S4:采用课程学习(Curriculum Learning)的策略预训练神经网络;
步骤S5:采用步骤S2增强处理后的训练集再次训练步骤S4预训练后的神经网络;采用Adam方法进行优化,初始学习率设置为0.00002,训练10个epoch以后开始衰减,每个epoch衰减1%。并采用权重衰减的方法减小网络过拟合,权重衰减的参数设置为1e-5;
步骤S6:使用融合后的特征进行回归得到图像中文本的坐标,得到文本检测的结果;
步骤S7:在测试集以及其他公开数据集验证训练后的神经网络的有效性。
在本实施例中,步骤S1具体包括以下步骤:
步骤S11:从清华数据集中获得3000张自然场景下的文本图像作为数据集;
步骤S12:对获得的文本图像统一缩放到448x448大小,并使用开源的labelimg对数据集中的文本进行人工标注方框,同时保存组成方框的四个点的坐标;
步骤S13:将数据集按照100:1的比例随机分为训练集和测试集。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:对图像进行随机仿射变换增强;包括平移、旋转、扭曲等操作;通过这些增强可以使得网络获得对自然场景下不同位置,不同角度的文本图像的特征提取;
其中,图像平移的操作方法如下:
Figure BDA0001826587700000081
图像的旋转对操作方法如下:
Figure BDA0001826587700000082
图像扭曲操作可以使用仿射变换实现:
Figure BDA0001826587700000083
式中,a、b为变换后的坐标,(v,w)为变换前的坐标,x0是横轴方向上的平移量,y0是纵轴方向上的平移量,t为仿射变换矩阵参数,θ为旋转角度;进行扭曲变换的变换矩阵可以使用旋转前的图像上的四个位置坐标和旋转后图像上的四个位置坐标获得;
步骤S22:对图像进行随机亮度和对比度增强;通过这种数据增强方法,可以使得网络对于不同光照下的文本都具备识别的能力;
亮度和对比度调整通常使用点处理完成,两个常用的点处理过程是乘法和加法:
g(m)=αf(m)+β;
式中,参数α>0和β通常被称为增益和偏置参数,可以通过这些参数分别控制对比度和亮度;
令f(m)作为源图像和g(m)作为输出图像,m为第m个像素。上述表达式简写成:
g(h,k)=α·f(h,k)+β;
式中,h和k表示像素位于第h行和第k列;
步骤S23:对图像进行随机模糊增强;由于各种原因(如摄像头像素不高、拍摄时抖动、拍摄距离远等),自然场景下的文本图片可能存在一定程度的模糊,本文通过对训练数据使用高斯模糊,模拟自然场景下模糊的文本图片,使网络对模糊文本具有一定的识别能力;
步骤S24:对图像进行随机加噪增强。因为夜晚场景下获得的含有文本信息的图像会具有比较多的噪声,本发明通过对文本图像进行加噪处理使网络面对带有噪声的文本图片,依然可以识别其中的文本信息。
如图2所示,在本实施例中,步骤S3中,所述基于注意力机制模块和Inception网络构建特征提取网络具体包括以下步骤:
步骤S31:构建以InceptionV4为基础的多尺度特征提取模块,主要利用了Inception采用不同大小的卷积核提取图像不同层次特征的思想;所述多尺度特征提取模块包括1个StemBlock、4个Inception-A、1个Reduction-A、7个Inception-B、1个Reduction-B、以及3个Inception-C(具体可以参考InceptionV4的实现);
步骤S32:构建细化提取特征重要程度的注意力机制模块,所述注意力机制模块由残差单元组成,后面接两个1x1的卷积使得输出的特征图的大小和通道数与多尺度特征提取模块的输出的特征图一致,然后再接一个sigmoid层,用以保证得到的权重在0-1之间,如图3所示;
步骤S33:将多尺度特征提取模块的结果和注意力机制模块的结果对应相乘,即通过注意力机制模块学习,给予每个特征不同的重要程度,再将相乘结果和注意力机制模块结果相加,避免网络因为相乘而导致反向传递时的梯度弥散。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:制作一批文本和简单背景合成的图片作为预训练输入数据;其中文本包括汉字和英文字体,同时包括多种大小和字体,所述简单背景为纯色背景或者字体周围不存在干扰物;
步骤S42:对所述预训练输入数据进行数据增强处理,其处理方法可以采用步骤S2所采用的方法;
步骤S43:使用步骤S42增强处理后的预训练输入数据对随机初始化的神经网络进行训练,使神经网络获得提取简单背景下文本特征的能力。通过这种方法,可以在训练样本数较少的情况下(几千张),仍然可以使得网络获得良好的文本检测效果。
在本实施例中,步骤S6具体包括以下步骤:
步骤S61:网络最多可以检测10个文本框;为了检测倾斜文本,每个文本框使用4组点坐标共8个参数表示;最后一层使用1x1的卷积层回归坐标,输出结果为80x1x1x1的特征图;相比于使用全连接层,1x1的卷积层输出可以有效减少参数,减少网络运行时间;
步骤S62:使用L1Smooth作为损失函数,其中损失函数表示如下:
Figure BDA0001826587700000101
式中,i表示第i个检测到的文本框,j表示本文框的第j个坐标点,(cij,uij)表示神经网络检测到文本框的点坐标,(c'ij,u'ij)表示对应的实际文本框坐标。
对于训练完成的网络,采用测试集和一些公开的文本图像数据集如ICDAR进行测试。结果表明本实施例提出的基于注意力机制卷积神经网络对于传统方法无法检测的图片也可以有效进行检测。此外,相比于现有的一些神经网络方法(如SSD),本发明在准确率和召回率略优的条件下,检测时间显著减少。
图4为各种场景下(不同字体、模糊、不同光照、不同角度)本发明的检测结果图。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于注意力机制卷积神经网络的自然场景文字检测方法,其特征在于:包括以下步骤:
步骤S1:对获取的自然场景下的文本图像数据集进行人工标注,然后将数据集分为训练集和测试集;
步骤S2:对训练集数据进行数据增强处理;
步骤S3:基于注意力机制模块和Inception网络构建特征提取网络,并采用多尺度特征融合的方法学习不同大小字体的特征;
步骤S4:采用课程学习的策略预训练神经网络;
步骤S5:采用步骤S2增强处理后的训练集再次训练步骤S4预训练后的神经网络;
步骤S6:使用融合后的特征进行回归得到图像中文本的坐标,得到文本检测的结果;
步骤S7:在测试集以及其他公开数据集验证训练后的神经网络的有效性;
步骤S3中,所述基于注意力机制模块和Inception网络构建特征提取网络具体包括以下步骤:
步骤S31:构建以InceptionV4为基础的多尺度特征提取模块,所述多尺度特征提取模块包括1个StemBlock、4个Inception-A、1个Reduction-A、7个Inception-B、1个Reduction-B、以及3个Inception-C;
步骤S32:构建细化提取特征重要程度的注意力机制模块,所述注意力机制模块由残差单元组成,后面接两个1x1的卷积使得输出的特征图的大小和通道数与多尺度特征提取模块的输出的特征图一致,然后再接一个sigmoid层,用以保证得到的权重在0-1之间;
步骤S33:将多尺度特征提取模块的结果和注意力机制模块的结果对应相乘,即通过注意力机制模块学习,给予每个特征不同的重要程度,再将相乘结果和注意力机制模块结果相加,避免网络因为相乘而导致反向传递时的梯度弥散。
2.根据权利要求1所述的一种基于注意力机制卷积神经网络的自然场景文字检测方法,其特征在于:步骤S1具体包括以下步骤:
步骤S11:从清华数据集中获得3000张自然场景下的文本图像作为数据集;
步骤S12:对获得的文本图像统一缩放到448x448大小,并使用开源的labelimg对数据集中的文本进行人工标注方框,同时保存组成方框的四个点的坐标;
步骤S13:将数据集按照100:1的比例随机分为训练集和测试集。
3.根据权利要求1所述的一种基于注意力机制卷积神经网络的自然场景文字检测方法,其特征在于:步骤S2具体包括以下步骤:
步骤S21:对图像进行随机仿射变换增强;
步骤S22:对图像进行随机亮度和对比度增强;
步骤S23:对图像进行随机模糊增强;
步骤S24:对图像进行随机加噪增强。
4.根据权利要求1所述的一种基于注意力机制卷积神经网络的自然场景文字检测方法,其特征在于:步骤S4具体包括以下步骤:
步骤S41:制作一批文本和简单背景合成的图片作为预训练输入数据;其中文本包括汉字和英文字体,同时包括多种大小和字体,所述简单背景为纯色背景或者字体周围不存在干扰物;
步骤S42:对所述预训练输入数据进行数据增强处理;
步骤S43:使用步骤S42增强处理后的预训练输入数据对随机初始化的神经网络进行训练,使神经网络获得提取简单背景下文本特征的能力。
5.根据权利要求1所述的一种基于注意力机制卷积神经网络的自然场景文字检测方法,其特征在于:步骤S6具体包括以下步骤:
步骤S61:为了检测倾斜文本,每个文本框使用4组点坐标共8个参数表示;最后一层使用1x1的卷积层回归坐标,输出结果为80x1x1x1的特征图;
步骤S62:使用L1Smooth作为损失函数,其中损失函数表示如下:
Figure FDA0003091722820000021
式中,i表示第i个检测到的文本框,j表示本文框的第j个坐标点,(cij,uij)表示神经网络检测到文本框的点坐标,(c'ij,u'ij)表示对应的实际文本框坐标。
CN201811187360.1A 2018-10-12 2018-10-12 一种基于注意力机制卷积神经网络的自然场景文字检测方法 Active CN109165697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811187360.1A CN109165697B (zh) 2018-10-12 2018-10-12 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811187360.1A CN109165697B (zh) 2018-10-12 2018-10-12 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Publications (2)

Publication Number Publication Date
CN109165697A CN109165697A (zh) 2019-01-08
CN109165697B true CN109165697B (zh) 2021-11-30

Family

ID=64878006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811187360.1A Active CN109165697B (zh) 2018-10-12 2018-10-12 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Country Status (1)

Country Link
CN (1) CN109165697B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919838B (zh) * 2019-01-17 2023-02-14 华南理工大学 基于注意力机制提升轮廓清晰度的超声图像超分辨率重建方法
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN109993160B (zh) * 2019-02-18 2022-02-25 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110059539A (zh) * 2019-02-27 2019-07-26 天津大学 一种基于图像分割的自然场景文本位置检测方法
CN110020658B (zh) * 2019-03-28 2022-09-30 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN109977956B (zh) * 2019-04-29 2022-11-18 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110119703B (zh) * 2019-05-07 2022-10-04 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110147788B (zh) * 2019-05-27 2021-09-21 东北大学 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN110210362A (zh) * 2019-05-27 2019-09-06 中国科学技术大学 一种基于卷积神经网络的交通标志检测方法
CN110298387A (zh) * 2019-06-10 2019-10-01 天津大学 融入像素级attention机制的深度神经网络目标检测方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110472524B (zh) * 2019-07-25 2022-09-13 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110458164A (zh) * 2019-08-07 2019-11-15 深圳市商汤科技有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110458165B (zh) * 2019-08-14 2022-11-08 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110516669B (zh) * 2019-08-23 2022-04-29 西北工业大学 一种复杂环境下多层级多尺度融合的文字检测方法
CN110705547B (zh) * 2019-09-06 2023-08-18 中国平安财产保险股份有限公司 图像内文字识别方法、装置及计算机可读存储介质
CN110738207B (zh) * 2019-09-10 2020-06-19 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110728307A (zh) * 2019-09-20 2020-01-24 天津大学 自生成数据集与标签实现x光影像图小样本字符识别方法
CN111079825B (zh) * 2019-12-09 2022-09-30 中国科学技术大学 针对医学图像的细胞核自动检测方法
CN111104898B (zh) * 2019-12-18 2022-03-25 武汉大学 基于目标语义和注意力机制的图像场景分类方法及装置
CN111126243B (zh) * 2019-12-19 2023-04-07 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111310757B (zh) * 2020-02-07 2023-08-11 北方工业大学 视频弹幕检测识别方法及装置
CN111488921B (zh) * 2020-03-30 2023-06-16 中国科学院深圳先进技术研究院 一种全景数字病理图像智能分析系统及方法
CN111832546B (zh) * 2020-06-23 2024-04-02 南京航空航天大学 一种轻量级自然场景文本识别方法
CN111898598B (zh) * 2020-07-03 2022-08-30 贵州大学 一种动态场景下基于文本的目标检测方法
CN111898608B (zh) * 2020-07-04 2022-04-26 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111931624B (zh) * 2020-08-03 2023-02-07 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN112348015B (zh) * 2020-11-09 2022-11-18 厦门市美亚柏科信息股份有限公司 一种基于级联神经网络的文字检测方法、装置及存储介质
CN112257716A (zh) * 2020-12-08 2021-01-22 之江实验室 一种基于尺度自适应及方向注意力网络的场景文字识别方法
CN112883964B (zh) * 2021-02-07 2022-07-29 河海大学 一种自然场景文字检测的方法
CN113313149B (zh) * 2021-05-14 2022-11-18 华南理工大学 一种基于注意力机制和度量学习的菜品识别方法
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN115063643B (zh) * 2022-05-30 2024-08-23 国网四川省电力公司眉山供电公司 一种电力场景图像数据自动标注方法
CN115240172B (zh) * 2022-07-12 2023-04-07 哈尔滨市科佳通用机电股份有限公司 基于深度学习的缓解阀丢失检测方法
CN115661828B (zh) * 2022-12-08 2023-10-20 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN108399386A (zh) * 2018-02-26 2018-08-14 阿博茨德(北京)科技有限公司 饼图中的信息提取方法及装置
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475142B2 (en) * 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
CN107862287A (zh) * 2017-11-08 2018-03-30 吉林大学 一种前方小区域物体识别及车辆预警方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN108399386A (zh) * 2018-02-26 2018-08-14 阿博茨德(北京)科技有限公司 饼图中的信息提取方法及装置
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的场景文字检测与识别";白翔等;《中国科学:信息科学》;20180531;第48卷(第5期);第3节 *
Rethinking the Inception Architecture for Computer Vision;Christian Szegedy.et al;《arXiv:1512.00567v3》;20151211;全文 *

Also Published As

Publication number Publication date
CN109165697A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165697B (zh) 一种基于注意力机制卷积神经网络的自然场景文字检测方法
Ren et al. Deep video dehazing with semantic segmentation
CN112288658B (zh) 一种基于多残差联合学习的水下图像增强方法
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
CN106778730B (zh) 一种用于快速生成ocr训练样本的自适应方法及系统
CN107403130A (zh) 一种字符识别方法及字符识别装置
TW201732651A (zh) 一種單詞的分割方法和裝置
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN112614136B (zh) 一种红外小目标实时实例分割方法及装置
CN108810413A (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN111753839A (zh) 一种文本检测方法和装置
CN110135446A (zh) 文本检测方法及计算机存储介质
Guo et al. Dynamic low-light image enhancement for object detection via end-to-end training
CN112330613B (zh) 一种细胞病理数字图像质量的评价方法及系统
CN113657528B (zh) 图像特征点提取方法、装置、计算机终端及存储介质
Su et al. Prior guided conditional generative adversarial network for single image dehazing
CN114596233A (zh) 基于注意引导和多尺度特征融合的低照度图像增强方法
CN114821778A (zh) 一种水下鱼体姿态动态识别方法及装置
CN114821048A (zh) 目标物分割方法和相关装置
CN114882204A (zh) 船名自动识别方法
CN116452469B (zh) 一种基于深度学习的图像去雾处理方法及装置
CN115861276A (zh) 石墨膜片表面划痕检测方法和装置
CN115953312A (zh) 一种基于单幅图像的联合去雾检测方法、装置及存储介质
CN107274412A (zh) 基于红外图像的小目标检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant