CN111723841A - 文本检测方法、装置、电子设备及存储介质 - Google Patents

文本检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111723841A
CN111723841A CN202010387120.7A CN202010387120A CN111723841A CN 111723841 A CN111723841 A CN 111723841A CN 202010387120 A CN202010387120 A CN 202010387120A CN 111723841 A CN111723841 A CN 111723841A
Authority
CN
China
Prior art keywords
feature
feature extraction
trained
prediction
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010387120.7A
Other languages
English (en)
Inventor
雷军
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010387120.7A priority Critical patent/CN111723841A/zh
Publication of CN111723841A publication Critical patent/CN111723841A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供了一种文本检测方法、装置、电子设备及存储介质。文本检测方法包括:将待检测文本图像输入预先训练的文本检测模型,文本检测模型包括特征提取网络和预测网络,特征提取网络包括依次连接的多个特征提取单元;利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;利用预测网络对多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。本发明能够减少文本检测过程中的漏检及误合并现象,提高及文本检测的准确率。

Description

文本检测方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种文本检测方法、装置、电子设备及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。文本识别分为两个步骤:文本的检测和文本的识别。文本检测是前期比较重要的一个环节,文本检测算法的准确度对于文本识别整体的识别率影响很大。
在文本检测这一领域,目前学界和工业界都开源了很多相关的算法。但是通过在应用场景实践中发现,现有算法在文本检测任务中效果表现得并不好,产生很多漏检的现象,导致文本检测的准确率较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本检测方法、装置、电子设备及存储介质。
第一方面,本发明实施例公开了一种文本检测方法,所述方法包括:
将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;
利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;
利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;
对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
可选地,第一个特征提取单元的输入图像为所述待检测文本图像;从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
可选地,所述卷积特征图的数量小于等于4,所述预测特征图的数量小于等于6。
可选地,所述文本检测模型通过如下方式训练:
获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域;
将所述样本图像输入待训练模型;所述待训练模型包括待训练特征提取网络和待训练预测网络,所述待训练特征提取网络包括依次连接的多个待训练特征提取单元;
利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图;
利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图;
基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
第二方面,本发明实施例公开了一种文本检测装置,所述装置包括:
第一输入模块,用于将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;
第一提取模块,用于利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;
第一分割模块,用于利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;
处理模块,用于对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
可选地,第一个特征提取单元的输入图像为所述待检测文本图像;从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
可选地,所述卷积特征图的数量小于等于4,所述预测特征图的数量小于等于6。
可选地,所述文本检测模型通过如下模块训练:
获取模块,用于获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域;
第二输入模块,用于将所述样本图像输入待训练模型;所述待训练模型包括待训练特征提取网络和待训练预测网络,所述待训练特征提取网络包括依次连接的多个待训练特征提取单元;
第二提取模块,用于利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图;
第二分割模块,用于利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图;
确定模块,用于基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
第三方面,本发明实施例公开了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质;当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一项所述的文本检测方法。
第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的文本检测方法。
本发明实施例中,将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。由此可知,本发明实施例对特征提取网络进行了改进,将输入图像对应的多个不同尺度的特征图按照各自对应的权重进行交叉融合,并且在融合的过程添加了自适应的权重系数,一方面持续保持着图像高分辨率表征,另一方面逐步引入低分辨率卷积,使得低分辨率图像特征在卷积过程得到重视,从而提升高分辨率和低分辨率表征的表达能力,增强文本检测场景的鲁棒性,减少漏检现象的产生;并且通过后续的特征融合、分割预测及后处理,能够减少误合并的现象。
附图说明
图1是本发明实施例的一种PSENet网络的示意图。
图2是本发明实施例的一种特征提取单元的示意图。
图3是本发明实施例的一种文本检测模型训练方法的步骤流程图。
图4是本发明实施例的一种文本检测方法的步骤流程图。
图5是本发明实施例的一种文本检测装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例考虑到PSENet(Progressive Scale Expansion Network,渐进比例扩展网络)虽然能够有效地区分不同文本块,减少很多误合并现象的产生,但是通过在应用场景实践中发现,该算法在一些目标较小的密集文本检测任务中效果表现得并不好,产生很多漏检的现象,导致整体模型的适用场景受限。基于这个角度,本发明实施例对PSENet网络中的特征提取部分进行修改,在保证误合并较少的情况下,将缩小后的特征图不断与该特征图对应的二分之一、四分之一等多种比例大小的特征图进行交叉融合,并且在不同层融合的过程中,添加了自适应的权重系数,使得低分辨率图像特征在卷积过程得到重视,增强模型对低分辨率文本检测场景的鲁棒性,减少漏检现象的产生。因此,本发明实施例既保留了PSENet网络对于不同文本框边界的良好区分性,减少误合并文本框现象的产生,又提高了对于低分辨率场景的适应能力,减少了漏检现象的产生,从而提升整体OCR过程的识别准确率。
本发明实施例的整体思路过程如下:
一、修改PSENet文本检测网络架构,修改网络前期的特征提取方式,不同特征层之间采用自适应的权重进行交叉加权融合;
二、制作训练样本集;
三、利用训练样本集对修改后的网络模型进行训练;
四、检测阶段,将待检测的文本图像输入到训练好的模型进行前向推理,通过高分辨率特征提取网络及后续的分割网络得到多个预测特征图,然后利用聚合像素等后处理方法生成最终的文本检测结果。
下面,结合各附图进行详细说明。
图1是本发明实施例的一种PSENet网络的示意图。如图1所示,PSENet网络中虚线之前的部分为特征提取网络,虚线之后的部分为预测网络。
PSENet网络中的特征提取网络采用类似于FPN(Feature Pyramid Networks,特征金字塔网络)的U形框架。特征提取部分左边的称为“自底向上”,右边的称为“自上而下”。自底向上的过程就是神经网络的正向传播过程,特征图经过卷积核计算,通常会越变越小。自上而下的过程是把更抽象、语义更强的高层特征图进行上采样,然后把该特征横向连接至前一层特征,因此,高层特征得到了增强,每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征,可以完成对应分辨率大小的物体进行检测,保证每一层都有合适的分辨率以及强语义特征。通过特征提取部分提取出P2、P3、P4、P5这四个卷积特征图。
PSENet网络中的预测网络先对P2、P3、P4、P5进行上采样后融合成特征图F,然后再利用图像分割的方式提取出n个预测特征图S1~Sn。根据设定的固定二值化阈值对n个预测特征图的像素进行分类,判断其是否属于文本区域像素,最后利用特定地聚合方式对n个预测特征图进行后处理从而得到文本检测结果。n个预测特征图的区别在于分割出的文本区域大小不同,后处理算法的目的在于通过最紧致的S1特征图不断地向文本面积最大的Sn特征图进行逐步聚合,单个像素最多只能归并到一个文本框中,从而使得不同的文本行发生误合并的可能性很小。但是,图1所示的网络虽然提取了一定程度上的空间与语义信息,但是仅仅通过上采样这种模式恢复的高分辨率表征空间区分度仍然不够强,相应的空间精度损失会使得模型在一些对于精度比较敏感的文本检测任务上很难取得准确的预测结果。
图1中的特征提取网络一般都是一个特征层先调整大小,然后再和另一特征层直接相加,但是这样假设了这两层的特征有了相同的权重,因此合理性较差。更合理的方式可以是每个特征层都对应一个可学习的自适应权重,然后进行加权,这样相当于对不同的特征层加入了注意力机制,从而提升特征提取的效果。基于此,本发明实施例对图1中的特征提取网络部分进行了修改。修改后的特征提取网络包括依次连接的多个特征提取单元。
参照图2,示出了本发明实施例的一种特征提取单元的示意图。如图2所示,Image(输入图像)进入特征提取单元后,经过Stem(卷积层)得到一个尺度的特征图(featuremaps),该特征图的尺度小于输入图像(比如可以为输入图像的二分之一、四分之一,等等),图2中以1/4为例。该1/4尺度的特征图经过卷积(比如1*1卷积)向右持续卷积计算;并且该1/4尺度的特征图还经过下采样卷积(stridedconv)得到另一个尺度的特征图,该特征图的尺度小于上述1/4尺度的特征图(比如可以为上述1/4尺度的特征图的二分之一、四分之一,等等),图2中以1/8为例。该1/8尺度的特征图经过卷积(比如1*1卷积)向右持续卷积计算;并且该1/8尺度的特征图还经过下采样卷积(stridedconv)后与1/4尺度的特征图经过下采样卷积后进行加权融合,得到另一个尺度的特征图,该特征图的尺度小于上述1/8尺度的特征图(比如可以为上述1/8尺度的特征图的二分之一、四分之一,等等),图2中以1/16为例。该1/16尺度的特征图经过卷积(比如1*1卷积)向右持续卷积计算。
除上述卷积计算之外,各不同尺度的特征图还按照各自对应的权重进行加权融合。图2中,至少两个箭头指向同一个特征图的部分表示加权融合。比如,第5个1/4尺度的特征图经过1*1卷积得到的特征图,与第3个1/8尺度的特征图进行上采样卷积(upsample)后得到的特征图,两者之间进行加权融合,得到第6个1/4尺度的特征图。其中,上采样卷积的目的是将1/8尺度的特征图放大到1/4尺度的特征图。再比如,第8个1/4尺度的特征图经过1*1卷积得到的特征图,与第6个1/8尺度的特征图进行上采样卷积(upsample)后得到的特征图,与第3个1/16尺度的特征图进行上采样卷积后得到的特征图,三者之间进行加权融合,得到第9个1/4尺度的特征图。对于其他的加权融合部分同理,本发明实施例不再详细论述。其中,第9个1/4尺度的特征图即为该特征提取单元输出的卷积特征图。
由图2可以得知,特征提取网络始终保持着图像高分辨率表征,逐步引入低分辨率卷积是为了获取相应的高语义信息,高分辨率与低分辨率通道并行连接的同时也不断进行特征融合,相互促进,从而提升高分辨率和低分辨率表征的表达能力。需要说明的是,图2所示的特征提取单元仅用于举例说明,在实现中,特征提取单元可以按照任意适用的方式进行卷积计算和加权融合。并且,不同的特征提取单元可以采用不同的方式进行卷积计算和加权融合,本发明实施例对此不做限制。
基于上述方式,本发明实施例预先训练文本检测模型。参照图3,示出了本发明实施例的一种文本检测模型训练方法的步骤流程图。
本发明实施例的文本检测模型训练方法可以包括以下步骤:
步骤301,获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域。
获取大量的文本图像作为样本图像,可以包括如行驶证、驾驶证、护照、小说、报纸、发票等多种文本图像,部分文本图像包含密集文本以及小目标文本,训练时文本图像大小归一化到640*640*3的彩图。针对每个样本图像,人工标注出各样本图像中的文本区域。
对于每个文本图像,利用vatti clipping(瓦蒂剪辑,一种图形学中的多边形裁剪算法)等算法进行不同比例的缩放处理,从而得到多个样本目标预测特征图和各样本目标预测特征图中的标注文本区域。
步骤302,将所述样本图像输入待训练模型。
随机获取样本图像中包含文本块的区域,截取该区域图像并调整大小到640*640的彩图,进行一定程度的模糊处理,可选地其他预处理操作包括对色度处理、亮度处理、一定程度的旋转等预处理,预处理之后输入待训练模型。采用tensorflow(是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现)框架进行模型训练,优化器使用比如adam(是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重),初始化学习率为0.001,每1000轮学习率衰减十分之一。
本发明实施例中,待训练模型包括待训练特征提取网络和待训练预测网络。其中,所述待训练特征提取网络可以包括依次连接的多个待训练特征提取单元,待训练特征提取单元的结构可以如图2所示。待训练预测网络的结构可以如图1所示的虚线之后部分的预测网络。图1中,特征提取网络输出的卷积特征图为P2、P3、P4、P5共四个,预测网络输出的预测特征图为S1~Sn共n个。本发明实施例对特征提取网络改进后,得到的卷积特征图更加准确,因此可以降低卷积特征图和预测特征图的数量。因此本发明实施例中待训练特征提取单元的数量可以小于等于PSENet网络中卷积特征图的数量,比如待训练特征提取单元的数量小于等于4;相应地样本卷积特征图的数量可以小于等于PSENet网络中卷积特征图的数量,比如样本卷积特征图的数量小于等于4。待训练预测网络中待训练预测支路的数量可以小于等于PSENet网络中预测特征图的数量,比如待训练预测支路的数量小于等于6;相应地样本预测特征图的数量可以小于等于PSENet网络中预测特征图的数量,比如样本预测特征图的数量小于等于6。
步骤303,利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图。
样本图像输入待训练模型后,进入待训练特征提取网络。在待训练特征提取网络中,每个待训练特征提取单元分别执行如下操作:利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图。具体的处理过程可以参照上述关于图2的相关描述即可,本发明实施例在此不再详细论述。
对于各待训练特征提取单元的输入图像来说,可选地,第一个待训练特征提取单元的输入图像为所述样本图像;从第二个待训练特征提取单元开始,当前待训练特征提取单元的输入图像为上一个待训练特征提取单元输出的卷积特征图。
步骤304,利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图。
与图1所示的虚线之后部分的预测网络类似,首先利用融合函数C(比如concat函数)对多个待训练特征提取单元输出的样本卷积特征图进行特征融合得到特征图F。然后对特征图F进行n支路分割预测,经过1个卷积层生成n个样本预测特征图S1~Sn,n取值为自然数,每个样本预测特征图中分割出了其中的文本区域。对于特征融合和分割预测的具体过程,本领域技术人员可以采用任意适用的方式执行,本发明实施例在此不再详细论述。
步骤305,基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,计算得到损失值。损失值可以表示样本预测特征图中分割出的文本区域与该样本预测特征图对应的样本目标预测特征图的标注文本区域的偏差程度。损失值越小,模型的鲁棒性越好。本发明实施例中预先设定用于衡量模型是否训练完成的损失阈值。如果损失值小于设定的损失阈值,可以认为训练完成将训练完成的模型作为所述文本检测模型。训练完成后得到模型中的各参数,比如,在特征提取单元中各尺度的特征图各自对应的权重等参数。如果损失值大于或者等于设定的损失阈值,则可以调整模型的参数,继续进行训练。对于设定损失阈值的具体数值,本领域技术人员根据实际经验选用任意适用的值均可,本发明实施例对此不做限制。
本发明实施例结合PSENet检测算法与改进后的高分辨特征提取网络的良好特性,有效地抑制文本框误合并的问题,同时使得模型在低分辨率及小目标场景下也具有良好的适应能力,增加了模型的鲁棒性。
在经过上述模型训练方法训练得到文本检测模型后,利用该文本检测模型进行文本检测。
参照图4,示出了本发明实施例的一种文本检测方法的步骤流程图。
本发明实施例的文本检测方法可以包括以下步骤:
步骤401,将待检测文本图像输入预先训练的文本检测模型。
本发明实施例中,可以先将待检测文本图像调整大小到640*640的彩图,然后进行模糊处理、色度处理、亮度处理、一定程度的旋转等预处理,预处理之后输入预先训练的文本检测模型。
文本检测模型包括特征提取网络和预测网络。特征提取网络包括依次连接的多个特征提取单元,特征提取单元的结构可以如图2所示。预测网络的结构可以如图1所示的虚线之后部分的预测网络。
步骤402,利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图。
待检测文本图像输入文本检测模型后,进入特征提取网络。在特征提取网络中,每个特征提取单元分别执行如下操作:利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图。具体的处理过程可以参照上述关于图2的相关描述即可,本发明实施例在此不再详细论述。
可选地,第一个特征提取单元的输入图像为所述待检测文本图像;从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
可选地,本发明实施例中特征提取单元的数量可以小于等于PSENet网络中卷积特征图的数量,比如特征提取单元的数量小于等于4;相应地卷积特征图的数量可以小于等于PSENet网络中卷积特征图的数量,比如卷积特征图的数量小于等于4。
步骤403,利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图。
与图1所示的虚线之后部分的预测网络类似,首先利用融合函数C(比如concat函数)对多个特征提取单元输出的卷积特征图进行特征融合得到特征图F。然后对特征图F进行n支路分割预测,经过1个卷积层生成n个预测特征图S1~Sn,n取值为自然数,每个预测特征图中分割出了其中的文本区域。
可选地,本发明实施例中预测网络中预测支路的数量可以小于等于PSENet网络中预测特征图的数量,比如预测支路的数量小于等于6;相应地预测特征图的数量可以小于等于PSENet网络中预测特征图的数量,比如预测特征图的数量小于等于6。
步骤404,对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
其中,后处理过程可以采用尺度扩展等算法,目的在于通过最紧致的S1特征图不断地向文本面积最大的Sn特征图进行逐步聚合,得到一个文本检测结果图像。该文本检测结果图像中分割出了待检测文本图像中的文本区域,效果类似于图1中的图像R。
本发明实施例对特征提取网络进行了改进,将输入图像对应的多个不同尺度的特征图按照各自对应的权重进行交叉融合,并且在融合的过程添加了自适应的权重系数,一方面持续保持着图像高分辨率表征,另一方面逐步引入低分辨率卷积,使得低分辨率图像特征在卷积过程得到重视,从而提升高分辨率和低分辨率表征的表达能力,增强对低分辨率文本检测场景的鲁棒性,减少漏检现象的产生;并且通过后续的特征融合、分割预测及后处理,能够减少误合并的现象。
参照图5,示出了本发明实施例的一种文本检测装置的结构框图。
本发明实施例的文本检测装置可以包括以下模块:
第一输入模块501,用于将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;
第一提取模块502,用于利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;
第一分割模块503,用于利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;
处理模块504,用于对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
可选地,第一个特征提取单元的输入图像为所述待检测文本图像;从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
可选地,所述卷积特征图的数量小于等于4,所述预测特征图的数量小于等于6。
可选地,所述文本检测模型通过如下模块训练:
获取模块,用于获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域;
第二输入模块,用于将所述样本图像输入待训练模型;所述待训练模型包括待训练特征提取网络和待训练预测网络,所述待训练特征提取网络包括依次连接的多个待训练特征提取单元;
第二提取模块,用于利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图;
第二分割模块,用于利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图;
确定模块,用于基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
本发明实施例对特征提取网络进行了改进,将输入图像对应的多个不同尺度的特征图按照各自对应的权重进行交叉融合,并且在融合的过程添加了自适应的权重系数,一方面持续保持着图像高分辨率表征,另一方面逐步引入低分辨率卷积,使得低分辨率图像特征在卷积过程得到重视,从而提升高分辨率和低分辨率表征的表达能力,增强对低分辨率文本检测场景的鲁棒性,减少漏检现象的产生;并且通过后续的特征融合、分割预测及后处理,能够减少误合并的现象。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本发明的实施例中,还提供了一种电子设备。该电子设备可以包括一个或多个处理器,以及其上存储有指令的一个或多个机器可读介质,指令例如应用程序。当所述指令由所述一个或多个处理器执行时,使得所述处理器执行上述的文本检测方法。
在本发明的实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序可由电子设备的处理器执行,以完成上述的文本检测方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种文本检测方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本检测方法,其特征在于,所述方法包括:
将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;
利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;
利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;
对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,
第一个特征提取单元的输入图像为所述待检测文本图像;
从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
3.根据权利要求1所述的方法,其特征在于,所述卷积特征图的数量小于等于4,所述预测特征图的数量小于等于6。
4.根据权利要求1所述的方法,其特征在于,所述文本检测模型通过如下方式训练:
获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域;
将所述样本图像输入待训练模型;所述待训练模型包括待训练特征提取网络和待训练预测网络,所述待训练特征提取网络包括依次连接的多个待训练特征提取单元;
利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图;
利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图;
基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
5.一种文本检测装置,其特征在于,所述装置包括:
第一输入模块,用于将待检测文本图像输入预先训练的文本检测模型;所述文本检测模型包括特征提取网络和预测网络,所述特征提取网络包括依次连接的多个特征提取单元;
第一提取模块,用于利用当前特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前特征提取单元输出的卷积特征图;
第一分割模块,用于利用所述预测网络对所述多个特征提取单元输出的卷积特征图进行特征融合和分割预测,输出多个预测特征图;
处理模块,用于对所述多个预测特征图进行后处理,得到所述待检测文本图像对应的文本检测结果。
6.根据权利要求5所述的装置,其特征在于,
第一个特征提取单元的输入图像为所述待检测文本图像;
从第二个特征提取单元开始,当前特征提取单元的输入图像为上一个特征提取单元输出的卷积特征图。
7.根据权利要求5所述的装置,其特征在于,所述卷积特征图的数量小于等于4,所述预测特征图的数量小于等于6。
8.根据权利要求5所述的装置,其特征在于,所述文本检测模型通过如下模块训练:
获取模块,用于获取样本图像和所述样本图像的标注文本区域,并对所述样本图像进行不同比例的缩放处理,得到多个样本目标预测特征图和各样本目标预测特征图的标注文本区域;
第二输入模块,用于将所述样本图像输入待训练模型;所述待训练模型包括待训练特征提取网络和待训练预测网络,所述待训练特征提取网络包括依次连接的多个待训练特征提取单元;
第二提取模块,用于利用当前待训练特征提取单元对自身的输入图像对应的多个不同尺度的特征图进行卷积计算,及按照所述特征图各自对应的权重进行加权融合,得到当前待训练特征提取单元输出的样本卷积特征图;
第二分割模块,用于利用所述待训练预测网络对所述多个待训练特征提取单元输出的样本卷积特征图进行特征融合和分割预测,输出多个样本预测特征图;
确定模块,用于基于所述多个样本预测特征图,以及所述多个样本目标预测特征图和各样本目标预测特征图的标注文本区域,确定是否训练完成,将训练完成的模型作为所述文本检测模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质;
当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如权利要求1至4任一项所述的文本检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至4任一项所述的文本检测方法。
CN202010387120.7A 2020-05-09 2020-05-09 文本检测方法、装置、电子设备及存储介质 Pending CN111723841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010387120.7A CN111723841A (zh) 2020-05-09 2020-05-09 文本检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010387120.7A CN111723841A (zh) 2020-05-09 2020-05-09 文本检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111723841A true CN111723841A (zh) 2020-09-29

Family

ID=72564796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010387120.7A Pending CN111723841A (zh) 2020-05-09 2020-05-09 文本检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111723841A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112633156A (zh) * 2020-12-22 2021-04-09 浙江大华技术股份有限公司 车辆检测方法、图像处理装置以及计算机可读存储介质
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113780283A (zh) * 2021-09-17 2021-12-10 湖北天天数链技术有限公司 模型训练方法、文本检测方法、装置及轻量级网络模型
CN114037826A (zh) * 2021-11-16 2022-02-11 平安普惠企业管理有限公司 基于多尺度增强特征的文本识别方法、装置、设备及介质
CN114743206A (zh) * 2022-05-17 2022-07-12 北京百度网讯科技有限公司 文本检测方法、模型训练方法、装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268870A (zh) * 2018-01-29 2018-07-10 重庆理工大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110705555A (zh) * 2019-09-17 2020-01-17 中山大学 基于fcn的腹部多器官核磁共振图像分割方法、系统及介质
CN110782420A (zh) * 2019-09-19 2020-02-11 杭州电子科技大学 一种基于深度学习的小目标特征表示增强方法
CN111047602A (zh) * 2019-11-26 2020-04-21 中国科学院深圳先进技术研究院 图像分割方法、装置及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268870A (zh) * 2018-01-29 2018-07-10 重庆理工大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
CN110705555A (zh) * 2019-09-17 2020-01-17 中山大学 基于fcn的腹部多器官核磁共振图像分割方法、系统及介质
CN110782420A (zh) * 2019-09-19 2020-02-11 杭州电子科技大学 一种基于深度学习的小目标特征表示增强方法
CN111047602A (zh) * 2019-11-26 2020-04-21 中国科学院深圳先进技术研究院 图像分割方法、装置及终端设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
MINGXING TAN等: "EfficientDet: Scalable and Efficient Object Detection", ARXIV:1911.09070 *
MINGXING TAN等: "EfficientDet: Scalable and Efficient Object Detection", vol. 2017, pages 301 - 302, Retrieved from the Internet <URL:https://arxiv.org/pdf/1911.09070v4.pdf> *
SEUNG-WOOK KIM等: "Parallel Feature Pyramid Network for Object Detection", EUROPEAN CONFERENCE ON COMPUTER VISION 2018:, pages 239 - 256 *
WENHAI WANG等: "《Shape Robust Text Detection With Progressive Scale Expansion Network》", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
WENHAI WANG等: "《Shape Robust Text Detection With Progressive Scale Expansion Network》", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 15 June 2019 (2019-06-15), pages 3 *
XIANG LI等: "Shape Robust Text Detection With Progressive Scale Expansion Network", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 3 - 4 *
蔡梦倩;张蕾;王炎;莫娟;: "基于全卷积网络的数字仪表字符识别方法", 现代计算机(专业版), no. 02, pages 40 - 45 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112633156A (zh) * 2020-12-22 2021-04-09 浙江大华技术股份有限公司 车辆检测方法、图像处理装置以及计算机可读存储介质
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113076814B (zh) * 2021-03-15 2022-02-25 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113780283A (zh) * 2021-09-17 2021-12-10 湖北天天数链技术有限公司 模型训练方法、文本检测方法、装置及轻量级网络模型
CN114037826A (zh) * 2021-11-16 2022-02-11 平安普惠企业管理有限公司 基于多尺度增强特征的文本识别方法、装置、设备及介质
CN114743206A (zh) * 2022-05-17 2022-07-12 北京百度网讯科技有限公司 文本检测方法、模型训练方法、装置、电子设备
CN114743206B (zh) * 2022-05-17 2023-10-27 北京百度网讯科技有限公司 文本检测方法、模型训练方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
CN110647829A (zh) 一种票据的文本识别方法及系统
CN111696110B (zh) 场景分割方法及系统
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN110135446B (zh) 文本检测方法及计算机存储介质
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN111523429A (zh) 基于深度学习的堆钢识别方法
CN110781980A (zh) 目标检测模型的训练方法、目标检测方法及装置
CN115937655A (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN112132867B (zh) 一种遥感影像变化检测方法及装置
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN111340139A (zh) 一种图像内容复杂度的判别方法及装置
CN111259838A (zh) 服务机器人服务环境下深度理解人体行为的方法及系统
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN113822287B (zh) 一种图像处理方法、系统、设备以及介质
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN113065548A (zh) 基于特征的文本检测方法及装置
CN117423116B (zh) 一种文本检测模型的训练方法、文本检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination