CN110020676A - 基于多感受野深度特征的文本检测方法、系统、设备及介质 - Google Patents
基于多感受野深度特征的文本检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN110020676A CN110020676A CN201910201552.1A CN201910201552A CN110020676A CN 110020676 A CN110020676 A CN 110020676A CN 201910201552 A CN201910201552 A CN 201910201552A CN 110020676 A CN110020676 A CN 110020676A
- Authority
- CN
- China
- Prior art keywords
- text
- text box
- layer
- segmentation
- field depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000004927 fusion Effects 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003709 image segmentation Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多感受野深度特征的文本检测方法、系统、设备及介质,所述方法包括:获取文本检测数据库,将其作为网络训练数据库;搭建多感受野深度网络模型;将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。本发明充分利用深度网络模型的特征学习能力和分类性能,结合了图像分割的特点,具有检测准确率高、召回率高、鲁棒性强等特点,具有较好的自然场景下文本检测效果。
Description
技术领域
本发明涉及一种基于多感受野深度特征的文本检测方法、系统、设备及介质,属于图像文本分析领域。
背景技术
随着计算机视觉技术的发展,图像理解技术的应用越来越广泛。文字信息作为图像的一个信息稠密点,是图像理解的关键。而文本定位则是图像中提取关键信息的重要一步。而自然场景图像中文文本定位由于背景的多样性,大小、方向的不确定性,面临着如下的挑战:1)文本格式的变化,以及文本行的高宽比的变化;2)文本框方向多变;3)文本框大小尺寸变化悬殊;4)文字和背景相似导致的混淆。
目前利用深度学习进行文本框检测的方法主要有两种:
(1)基于图像分割实现文本框的检测;
(2)基于回归的文本框检测方法,其中回归的方法分为直接回归和间接回归的方法。
目前,基于图像分割方法实现文本框的不足在于,通过单一维度的卷积特征的使用,将导致文本框回归存在位置偏差,或者文本框无法完全覆盖文本区域等问题,对于自然场景下多变多方向多尺度和复杂背景的文本框检测准确率和召回率低的问题。近年来,卷积神经网络技术得到了迅速发展,通过并行的多尺寸的卷积核和空洞卷积计算方法实现多尺度和多感受野卷积特征的提取,并在文本检测中取得了较好的性能。
发明内容
有鉴于此,本发明提供了一种基于多感受野深度特征的文本检测方法、系统、计算机设备设备及存储介质,其充分利用深度网络模型的特征学习能力和分类性能,结合了图像分割的特点,一方面使用并行的多尺度的卷积核和空洞卷积的方法提取文本的多尺度和多感受野的特征,另一方面基于分割实现了多尺度和多方向的文本框的检测,具有检测准确率高、召回率高、鲁棒性强等特点,具有较好的自然场景下文本检测效果,可以广泛应用于多方向、多尺度以及面积差距悬殊的文本检测。
本发明的第一个目的在于提供一种基于多感受野深度特征的文本检测方法。
本发明的第二个目的在于提供一种基于多感受野深度特征的文本检测系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于多感受野深度特征的文本检测方法,所述方法包括:
获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建多感受野深度网络模型;
将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
进一步的,所述多感受野深度网络模型包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块;
所述多感受野深度特征图提取模块,用于从自然场景图像中提取文本特征信息,通过多通道全卷积,得到多感受野深度特征图;
所述基于分割的损失计算模块,用于根据多感受野深度特征图,计算每个像素八邻域连通度的损失以及是否为文本的分类损失,联合这两类损失计算出对于每个预测文本框生成可形成分割结果的掩码,用于形成最终的文本框预测结果;
所述转化模块,用于将分割区域转化为回归的文本框坐标。
进一步的,所述多感受野深度特征图提取模块包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层;其中,所述第一卷积层为三通道卷积层,所述第六卷积层为空洞卷积层;
所述第一特征融合层用于将经过第五卷积层卷积的特征与第七卷积层的特征进行融合;
所述第二特征融合层用于将经过第四卷积层卷积的特征与经过上采样的第一特征融合层的特征进行融合;
所述第三特征融合层用于将经过第三卷积层卷积的特征与经过上采样的第二特征融合层的特征进行融合;
所述第四特征融合层用于将经过第二卷积层卷积的特征与经过上采样的第三特征融合层的特征进行融合。
进一步的,所述基于分割的损失计算模块中,每个像素八邻域连通度的损失如下式:
其中,rsum表示将张量转化为标量的运算方式;
其中,表示预测结果和真值的交叉熵,分别表示每个像素八邻域像素相连与否的平衡权重矩阵;
其中,k=[1,2,3,4,5,6,7,8],Y表示像素的邻域是否相连的标记矩阵,k(i,j)∈K表示图片内每个像素点的平衡权重矩阵。
进一步的,所述基于分割的损失计算模块中,每个像素是否为文本的分类损失如下式:
其中,表示图片内判定为文本框区域的像素的交叉熵;r=3,K表示图片内每个像素点的平衡权重矩阵。
进一步的,所述基于分割的损失计算模块,每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下:
对于一张图片中的第i个文本框,定义为Bi,Bi的面积为Si,那么每一个预测文本框内的像素有权重系数:
其中,Si表示文本框按面积正序排列。
进一步的,所述多感受野深度网络模型的训练采用如下的参数设定:
迭代次数:150000;
优化器:采用随机梯度下降法;
学习率:1e-3;
学习率更新策略:训练迭代到1000步时学习率变化为5e-3。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于多感受野深度特征的文本检测系统,所述系统包括:
获取单元,用于获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建单元,用于搭建多感受野深度网络模型;
训练单元,用于将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
计算单元,用于通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
处理单元,用于统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的文本检测方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的文本检测方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明通过多感受野深度网络模型提取文本特征,计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标,通过提取多感受野的深度特征,分割出文本框区域,自动生成多尺度、多方向的预测文本框,来适应由于文本高宽比变化大、背景相似、光照变化和运动模糊引入噪声等而导致的准确率低问题,其测试结果显示,相比于单一维度卷积特征的文本分割检测方法,检测准确率、召回率和F值均得到了提升,具有较好的文本检测性能。
2、本发明的多感受野深度特征图提取模块采用了三通道卷积层和空洞卷积层,三通道卷积层融合了三种尺度的卷积特征的网络,能够提取到图片中不同尺度的文本信息,因而对尺寸变化很大的文本框有更强的适配性,解决了分辨率高的图片内,由于文本框尺寸变化大造成分辨率变化很大造成的检测问题;空洞卷积层使得网络在避免了过去增大感受野的池化操作下信息丢失的问题,通过稀疏化卷积核的分布,使得在进行卷积运算的时候能够在更大范围内学习特征,解决了特大尺寸的文本框的特征提取和检测的问题,同时在最小化信息损耗的情况下,扩大网络的感受野,加强了对于大尺寸的文本框检测效果,提高网络性能。
3、本发明与已有的使用一般卷积神经网络提取深层特征的基于回归的文本框检测的方法相比,采用分割的方法预测文本框,不需要根据文本框的长宽比、方向和大小提前生成候选文本框,节省了计算量,而且是对于多方向的文本有更强的适应性,具有更高的检测准确率、召回率和F值,并且使用了多通道卷积核和空洞卷积提取多感受野的深度特征,能够提取图片内从全局到局部细节的特征,对于对于图片内文本框大小悬殊的特点有更强的适配性,能够应对模糊、透视变换等复杂的实际应用场景。
4、本发明使用多感受野的深度学习特征,能够学习多尺度、包含全局到局部的文本框信息,与传统的基于分割的方法作文本框回归的方法相比,具有更强的鲁棒性,具有明显优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的基于多感受野深度特征的文本检测方法的流程图。
图2为本发明实施例1的多感受野深度网络模型的结构图。
图3a为本发明实施例1的第一个示例的检测结果图。
图3b为本发明实施例1的第二个示例的检测结果图。
图3c为本发明实施例1的第三个示例的检测结果图。
图4为本发明实施例2的基于多感受野深度特征的文本检测系统的结构框图。
图5为本发明实施例2的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种基于多感受野深度特征的文本检测方法,该方法包括以下步骤:
S101、数据获取
具体地,获取自然场景下文本检测领域被学术界广泛使用的的文本检测数据库之一,将该文本检测数据库作为网络训练数据库。
本实施例中,文本检测数据库采用RCTW17比赛数据库,数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。
数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注,在数据集中存在字体、布局和语言等多样性。
S102、多感受野深度网络模型搭建
具体地,多感受野深度网络模型的结构如图2所示,其包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块。
多感受野深度特征图提取模块,用于从自然场景图像中提取文本特征信息,通过多通道全卷积,得到多感受野深度特征图。
基于分割的损失计算模块,用于根据多感受野深度特征图,计算每个像素八邻域连通度的损失以及是否为文本的分类损失,联合这两类损失计算出对于每个预测文本框生成可形成分割结果的掩码,用于形成最终的文本框预测结果。
转化模块,用于将分割区域转化为回归的文本框坐标。
本实施例的多感受野深度特征图提取模块包括输入层、第一卷积层conv1、第一池化层pooling1、第二卷积层conv2、第二池化层pooling2、第三卷积层conv3、第三池化层pooling3、第四卷积层conv4、第四池化层pooling4、第五卷积层conv5、第五池化层pooling5、第六卷积层conv6、第七卷积层conv7、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层。
第一卷积层为三通道卷积层,该三通道卷积层通过使用三种尺度的卷积核:3*3、5*5、7*7,每种尺度的卷积核数量均有64个,取步长为1,获得三种尺度的卷积特征;三种尺度的卷积进行融合后输入第二卷积层进行训练,融合了三种尺度的卷积特征的网络,能够提取到图片中不同尺度的文本信息,因而对尺寸变化很大的文本框有更强的适配性,解决了分辨率高的图片内,由于文本框尺寸变化大造成分辨率变化很大造成的检测问题。
第六卷积层为空洞卷积层(dilation conv),该空洞卷积层使得网络在避免了过去增大感受野的池化操作下信息丢失的问题,通过稀疏化卷积核的分布,使得在进行卷积运算的时候能够在更大范围内学习特征,解决了特大尺寸的文本框的特征提取和检测的问题。同时在最小化信息损耗的情况下,扩大网络的感受野,加强了对于大尺寸的文本框检测效果,提高网络性能。
第一特征融合层用于将经过第五卷积层卷积的特征与第七卷积层的特征进行融合。
第二特征融合层用于将经过第四卷积层卷积的特征与经过上采样的第一特征融合层的特征进行融合。
第三特征融合层用于将经过第三卷积层卷积的特征与经过上采样的第二特征融合层的特征进行融合。
第四特征融合层用于将经过第二卷积层卷积的特征与经过上采样的第三特征融合层的特征进行融合。
多感受野深度特征图提取模块中各个网络层的具体说明如下表1所示。
表1多感受野深度特征图提取模块的结构
本实施例的基于分割的损失计算模块中,对于每个像素点将计算两类损失:
L=λLpixel+Llink
其中,λ=2。
(1)每个像素八邻域连通度的损失如下式:
其中,rsum表示将张量转化为标量的运算方式;
其中,表示预测结果和真值的交叉熵,分别表示每个像素八邻域像素相连与否的平衡权重矩阵;
其中,k=[1,2,3,4,5,6,7,8],Y表示像素的邻域是否相连的标记矩阵,K(i,j)∈K表示图片内每个像素点的平衡权重矩阵。
(2)每个像素是否为文本的分类损失如下式:
其中,表示图片内判定为文本框区域的像素的交叉熵;r=3,K表示图片内每个像素点的平衡权重矩阵。
(3)每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下:
对于一张图片中的第i个文本框,定义为Bi,Bi的面积为Si,那么每一个预测文本框内的像素有权重系数:
其中,Si表示文本框按面积正序排列。
S103、多感受野深度网络模型训练
具体地,将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练。
本实施例中,多感受野深度网络模型的训练采用如下的参数设定:
迭代次数:150000;
优化器:采用随机梯度下降法(Stochastic Gradient Descent,简称SGD);
学习率:1e-3;
学习率更新策略:训练迭代到1000步时学习率变化为5e-3。
S104、文本框生成及文本框坐标输出
具体地,通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标。
本实施例中,通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,通过minAreaRect算法把分割区域转化为回归的文本框坐标;其中,minAreaRect函数将loss计算完毕后得到的图像的掩码转化为坐标输出,使用的是Opencv库里的minAreaRect函数。
对于多感受野深度特征图的每个像素点,输出的预测结果为每张图片内所有文本框的x、y坐标:x1,y1,x2,y2,x3,y3,x4,y4。
S105、检测结果后处理
具体地,统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
本实施例的文本框尺寸包括文本框面积和文本框高度,统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框,具体为:统计训练数据库里面的文本框的面积和文本框高度分布,统计出最小面积阈值min_area和最小高度阈值min_height,使得95%的文本框可以采用这个文本框过滤条件筛选出目标文本框。
在图3a~3c所示的三个示例中,显示了本实施例的中文文本检测方法的检测结果。
实施例2:
如图4所示,本实施例提供了一种基于多感受野深度特征的文本检测系统,该系统包括获取单元401、搭建单元402、训练单元403、计算单元404和处理单元405,各个单元的具体功能如下:
所述获取单元401,用于获取文本检测数据库,将该文本检测数据库作为网络训练数据库。
所述搭建单元402,用于搭建多感受野深度网络模型。
所述训练单元403,用于将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练。
所述计算单元404,用于通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
所述处理单元405,用于统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以是计算机,如图5所示,其包括通过系统总线501连接的处理器502、存储器、输入装置503、显示器504和网络接口505,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质506和内存储器507,该非易失性存储介质506存储有操作系统、计算机程序和数据库,该内存储器507为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器502执行存储器存储的计算机程序时,实现上述实施例1的文本检测方法,如下:
获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建多感受野深度网络模型;
将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时,处理器执行存储器存储的计算机程序时,实现上述实施例1的文本检测方法,如下:
获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建多感受野深度网络模型;
将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明通过多感受野深度网络模型提取文本特征,计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标,通过提取多感受野的深度特征,分割出文本框区域,自动生成多尺度、多方向的预测文本框,来适应由于文本高宽比变化大、背景相似、光照变化和运动模糊引入噪声等而导致的准确率低问题,其测试结果显示,相比于单一维度卷积特征的文本分割检测方法,检测准确率、召回率和F值均得到了提升,具有较好的文本检测性能。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.一种基于多感受野深度特征的文本检测方法,其特征在于,所述方法包括:
获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建多感受野深度网络模型;
将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
2.根据权利要求1所述的文本检测方法,其特征在于,所述多感受野深度网络模型包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块;
所述多感受野深度特征图提取模块,用于从自然场景图像中提取文本特征信息,通过多通道全卷积,得到多感受野深度特征图;
所述基于分割的损失计算模块,用于根据多感受野深度特征图,计算每个像素八邻域连通度的损失以及是否为文本的分类损失,联合这两类损失计算出对于每个预测文本框生成可形成分割结果的掩码,用于形成最终的文本框预测结果;
所述转化模块,用于将分割区域转化为回归的文本框坐标。
3.根据权利要求2所述的文本检测方法,其特征在于,所述多感受野深度特征图提取模块包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层;其中,所述第一卷积层为三通道卷积层,所述第六卷积层为空洞卷积层;
所述第一特征融合层用于将经过第五卷积层卷积的特征与第七卷积层的特征进行融合;
所述第二特征融合层用于将经过第四卷积层卷积的特征与经过上采样的第一特征融合层的特征进行融合;
所述第三特征融合层用于将经过第三卷积层卷积的特征与经过上采样的第二特征融合层的特征进行融合;
所述第四特征融合层用于将经过第二卷积层卷积的特征与经过上采样的第三特征融合层的特征进行融合。
4.根据权利要求2所述的文本检测方法,其特征在于,所述基于分割的损失计算模块中,每个像素八邻域连通度的损失如下式:
其中,rsum表示将张量转化为标量的运算方式;
其中,表示预测结果和真值的交叉熵,分别表示每个像素八邻域像素相连与否的平衡权重矩阵;
其中,k=[1,2,3,4,5,6,7,8],Y表示像素的邻域是否相连的标记矩阵,K(i,j)∈K表示图片内每个像素点的平衡权重矩阵。
5.根据权利要求2所述的文本检测方法,其特征在于,所述基于分割的损失计算模块中,每个像素是否为文本的分类损失如下式:
其中,表示图片内判定为文本框区域的像素的交叉熵;r=3,K表示图片内每个像素点的平衡权重矩阵。
6.根据权利要求2-5任一项所述的文本检测方法,其特征在于,所述基于分割的损失计算模块,每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下:
对于一张图片中的第i个文本框,定义为Bi,Bi的面积为Si,那么每一个预测文本框内的像素有权重系数:
其中,Si表示文本框按面积正序排列。
7.根据权利要求1-5任一项所述的文本检测方法,其特征在于,所述多感受野深度网络模型的训练采用如下的参数设定:
迭代次数:150000;
优化器:采用随机梯度下降法;
学习率:1e-3;
学习率更新策略:训练迭代到1000步时学习率变化为5e-3。
8.一种基于多感受野深度特征的文本检测系统,其特征在于,所述系统包括:
获取单元,用于获取文本检测数据库,将该文本检测数据库作为网络训练数据库;
搭建单元,用于搭建多感受野深度网络模型;
训练单元,用于将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练;
计算单元,用于通过已训练的多感受野深度网络模型计算出分割用的图像掩码,得到分割结果,将分割区域转化为回归的文本框坐标;
处理单元,用于统计网络训练数据库的文本框尺寸,设计文本框过滤条件,根据文本框过滤条件,筛选出目标文本框。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的文本检测方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201552.1A CN110020676A (zh) | 2019-03-18 | 2019-03-18 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201552.1A CN110020676A (zh) | 2019-03-18 | 2019-03-18 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110020676A true CN110020676A (zh) | 2019-07-16 |
Family
ID=67189626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910201552.1A Pending CN110020676A (zh) | 2019-03-18 | 2019-03-18 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020676A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472539A (zh) * | 2019-08-01 | 2019-11-19 | 上海海事大学 | 一种文本检测方法、装置及计算机存储介质 |
CN110516541A (zh) * | 2019-07-19 | 2019-11-29 | 金蝶软件(中国)有限公司 | 文本定位方法、装置、计算机可读存储介质和计算机设备 |
CN110738647A (zh) * | 2019-10-12 | 2020-01-31 | 成都考拉悠然科技有限公司 | 融合多感受野特征映射与高斯概率模型的老鼠检测方法 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111027554A (zh) * | 2019-12-27 | 2020-04-17 | 创新奇智(重庆)科技有限公司 | 商品价签文字精确检测定位系统及定位方法 |
CN111062854A (zh) * | 2019-12-26 | 2020-04-24 | Oppo广东移动通信有限公司 | 检测水印的方法、装置、终端及存储介质 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111310746A (zh) * | 2020-01-15 | 2020-06-19 | 支付宝实验室(新加坡)有限公司 | 文本行检测方法、模型训练方法、装置、服务器及介质 |
CN111325101A (zh) * | 2020-01-21 | 2020-06-23 | 上海中旖能源科技有限公司 | 基于卫星图像的液化天然气储罐检测方法及装置、设备 |
CN111428717A (zh) * | 2020-03-26 | 2020-07-17 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN111915615A (zh) * | 2020-09-10 | 2020-11-10 | 中移(杭州)信息技术有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
CN111950545A (zh) * | 2020-07-23 | 2020-11-17 | 南京大学 | 一种基于MSDNet和空间划分的场景文本检测方法 |
CN112070041A (zh) * | 2020-09-14 | 2020-12-11 | 北京印刷学院 | 一种基于cnn深度学习模型的活体人脸检测方法和装置 |
CN112101385A (zh) * | 2020-09-21 | 2020-12-18 | 西南大学 | 一种弱监督文本检测方法 |
CN112541417A (zh) * | 2020-12-03 | 2021-03-23 | 山东众阳健康科技集团有限公司 | 一种文字检测中使用的高效解码方法 |
CN112949755A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
CN113033346A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN113033558A (zh) * | 2021-04-19 | 2021-06-25 | 深圳市华汉伟业科技有限公司 | 一种用于自然场景的文本检测方法及装置、存储介质 |
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113191358A (zh) * | 2021-05-31 | 2021-07-30 | 上海交通大学 | 金属零件表面文本检测方法和系统 |
CN113239925A (zh) * | 2021-05-24 | 2021-08-10 | 北京有竹居网络技术有限公司 | 一种文本检测模型训练方法、文本检测方法及装置、设备 |
CN113255646A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种实时场景文本检测方法 |
WO2021169102A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 文本图像处理方法、装置、计算机设备和存储介质 |
CN113569878A (zh) * | 2020-04-28 | 2021-10-29 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
CN113822041A (zh) * | 2020-06-18 | 2021-12-21 | 四川大学 | 一种适用密集文本的深度神经网络自然场景文本检测方法 |
CN114359206A (zh) * | 2021-12-29 | 2022-04-15 | 推想医疗科技股份有限公司 | 血管识别方法和装置、计算机可读存储介质和电子设备 |
CN115908408A (zh) * | 2023-01-05 | 2023-04-04 | 浙江工业大学 | 基于多邻域预测模型的磁芯缺陷检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181826A1 (en) * | 2016-12-27 | 2018-06-28 | Datalogic Usa, Inc. | Robust String Text Detection for Industrial Optical Character Recognition |
CN109086663A (zh) * | 2018-06-27 | 2018-12-25 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
-
2019
- 2019-03-18 CN CN201910201552.1A patent/CN110020676A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181826A1 (en) * | 2016-12-27 | 2018-06-28 | Datalogic Usa, Inc. | Robust String Text Detection for Industrial Optical Character Recognition |
CN109086663A (zh) * | 2018-06-27 | 2018-12-25 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
Non-Patent Citations (6)
Title |
---|
DAN DENG: "PixelLink:Detecting Scene Text via Instance Segmentation", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
WENHAO HE ET.AL: "Multi-Oriented and Multi-Lingual Scene Text Detection With Direct Regression", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
王志元: "自然场景下的文本检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
胡晓军: "《MATLAB应用图像处理》", 31 March 2011, 西安电子科技大学出版社 * |
谢锋明等: "基于多尺度特征提取的场景文本检测新方法", 《化工自动化及仪表》 * |
高志强等: "《深度学习从入门到实战》", 30 June 2018, 中国铁道出版社 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516541B (zh) * | 2019-07-19 | 2022-06-10 | 金蝶软件(中国)有限公司 | 文本定位方法、装置、计算机可读存储介质和计算机设备 |
CN110516541A (zh) * | 2019-07-19 | 2019-11-29 | 金蝶软件(中国)有限公司 | 文本定位方法、装置、计算机可读存储介质和计算机设备 |
CN110472539A (zh) * | 2019-08-01 | 2019-11-19 | 上海海事大学 | 一种文本检测方法、装置及计算机存储介质 |
CN110472539B (zh) * | 2019-08-01 | 2022-09-30 | 上海海事大学 | 一种文本检测方法、装置及计算机存储介质 |
CN110738647A (zh) * | 2019-10-12 | 2020-01-31 | 成都考拉悠然科技有限公司 | 融合多感受野特征映射与高斯概率模型的老鼠检测方法 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113033593B (zh) * | 2019-12-25 | 2023-09-01 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN111062854B (zh) * | 2019-12-26 | 2023-08-25 | Oppo广东移动通信有限公司 | 检测水印的方法、装置、终端及存储介质 |
CN111062854A (zh) * | 2019-12-26 | 2020-04-24 | Oppo广东移动通信有限公司 | 检测水印的方法、装置、终端及存储介质 |
WO2021129466A1 (zh) * | 2019-12-26 | 2021-07-01 | Oppo广东移动通信有限公司 | 检测水印的方法、装置、终端及存储介质 |
CN111027554B (zh) * | 2019-12-27 | 2023-05-23 | 创新奇智(重庆)科技有限公司 | 商品价签文字精确检测定位系统及定位方法 |
CN111027554A (zh) * | 2019-12-27 | 2020-04-17 | 创新奇智(重庆)科技有限公司 | 商品价签文字精确检测定位系统及定位方法 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111310746B (zh) * | 2020-01-15 | 2024-03-01 | 支付宝实验室(新加坡)有限公司 | 文本行检测方法、模型训练方法、装置、服务器及介质 |
CN111310746A (zh) * | 2020-01-15 | 2020-06-19 | 支付宝实验室(新加坡)有限公司 | 文本行检测方法、模型训练方法、装置、服务器及介质 |
CN111325101A (zh) * | 2020-01-21 | 2020-06-23 | 上海中旖能源科技有限公司 | 基于卫星图像的液化天然气储罐检测方法及装置、设备 |
WO2021169102A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 文本图像处理方法、装置、计算机设备和存储介质 |
CN111428717A (zh) * | 2020-03-26 | 2020-07-17 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN111428717B (zh) * | 2020-03-26 | 2024-04-26 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN113569878A (zh) * | 2020-04-28 | 2021-10-29 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
CN113569878B (zh) * | 2020-04-28 | 2024-03-01 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
CN113822041B (zh) * | 2020-06-18 | 2023-04-18 | 四川大学 | 一种适用密集文本的深度神经网络自然场景文本检测方法 |
CN113822041A (zh) * | 2020-06-18 | 2021-12-21 | 四川大学 | 一种适用密集文本的深度神经网络自然场景文本检测方法 |
CN111950545B (zh) * | 2020-07-23 | 2024-02-09 | 南京大学 | 一种基于MSDNet和空间划分的场景文本检测方法 |
CN111950545A (zh) * | 2020-07-23 | 2020-11-17 | 南京大学 | 一种基于MSDNet和空间划分的场景文本检测方法 |
CN111915615A (zh) * | 2020-09-10 | 2020-11-10 | 中移(杭州)信息技术有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
CN112070041A (zh) * | 2020-09-14 | 2020-12-11 | 北京印刷学院 | 一种基于cnn深度学习模型的活体人脸检测方法和装置 |
CN112101385B (zh) * | 2020-09-21 | 2022-06-10 | 西南大学 | 一种弱监督文本检测方法 |
CN112101385A (zh) * | 2020-09-21 | 2020-12-18 | 西南大学 | 一种弱监督文本检测方法 |
CN112541417B (zh) * | 2020-12-03 | 2022-09-16 | 山东众阳健康科技集团有限公司 | 一种文字检测中使用的高效解码方法 |
CN112541417A (zh) * | 2020-12-03 | 2021-03-23 | 山东众阳健康科技集团有限公司 | 一种文字检测中使用的高效解码方法 |
CN113033346B (zh) * | 2021-03-10 | 2023-08-04 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN113033346A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 文本检测方法、装置和电子设备 |
CN112949755B (zh) * | 2021-03-29 | 2022-09-13 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
CN112949755A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
CN113033558A (zh) * | 2021-04-19 | 2021-06-25 | 深圳市华汉伟业科技有限公司 | 一种用于自然场景的文本检测方法及装置、存储介质 |
CN113033558B (zh) * | 2021-04-19 | 2024-03-19 | 深圳市华汉伟业科技有限公司 | 一种用于自然场景的文本检测方法及装置、存储介质 |
CN113239925A (zh) * | 2021-05-24 | 2021-08-10 | 北京有竹居网络技术有限公司 | 一种文本检测模型训练方法、文本检测方法及装置、设备 |
CN113191358B (zh) * | 2021-05-31 | 2023-01-24 | 上海交通大学 | 金属零件表面文本检测方法和系统 |
CN113191358A (zh) * | 2021-05-31 | 2021-07-30 | 上海交通大学 | 金属零件表面文本检测方法和系统 |
CN113255646B (zh) * | 2021-06-02 | 2022-10-18 | 北京理工大学 | 一种实时场景文本检测方法 |
CN113255646A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种实时场景文本检测方法 |
CN114359206A (zh) * | 2021-12-29 | 2022-04-15 | 推想医疗科技股份有限公司 | 血管识别方法和装置、计算机可读存储介质和电子设备 |
CN115908408A (zh) * | 2023-01-05 | 2023-04-04 | 浙江工业大学 | 基于多邻域预测模型的磁芯缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020676A (zh) | 基于多感受野深度特征的文本检测方法、系统、设备及介质 | |
Mohanty et al. | Deep learning for understanding satellite imagery: An experimental survey | |
CN109635883B (zh) | 基于深度堆叠网络的结构信息指导的中文字库生成方法 | |
CN109977956B (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
JP7464752B2 (ja) | 画像処理方法、装置、機器及びコンピュータプログラム | |
CN110428428B (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN109493350B (zh) | 人像分割方法及装置 | |
CN112036395B (zh) | 基于目标检测的文本分类识别方法及装置 | |
CN110992238B (zh) | 一种基于双通道网络的数字图像篡改盲检测方法 | |
Li et al. | Matting anything | |
JP7559063B2 (ja) | フェイスパーシング方法および関連デバイス | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN111444365B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN113498521A (zh) | 文本检测方法及装置、存储介质 | |
CN113901972A (zh) | 遥感图像建筑物的检测方法、装置、设备及存储介质 | |
WO2022109922A1 (zh) | 抠图实现方法、装置、设备及存储介质 | |
CN108898092A (zh) | 基于全卷积神经网络的多光谱遥感影像路网提取方法 | |
CN113903022B (zh) | 基于特征金字塔与注意力融合的文本检测方法及系统 | |
CN115272691A (zh) | 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |