CN114758332A - 一种文本检测方法、装置、计算设备及存储介质 - Google Patents
一种文本检测方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN114758332A CN114758332A CN202210659346.7A CN202210659346A CN114758332A CN 114758332 A CN114758332 A CN 114758332A CN 202210659346 A CN202210659346 A CN 202210659346A CN 114758332 A CN114758332 A CN 114758332A
- Authority
- CN
- China
- Prior art keywords
- feature
- map
- enhancement
- image
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及计算机视觉技术领域,具体公开了一种文本检测方法、装置、计算设备及存储介质。其中,文本检测方法包括步骤:对待检测图像进行预处理,生成预处理后的图像;将预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;将基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图,其中特征增强层包括并行连接的空间特征增强层和通道特征增强层;通过对增强特征图的处理,确定出文本区域。基于该检测方法,通过对待检测图像进行特征增强,能够有效提升文本检测的效果。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种文本检测方案。
背景技术
文本检测,即,通过对包含文本信息的图像进行处理,以定位出图像中的文字区域。文本检测在计算机视觉领域有着广泛的应用,如图像检索、场景解析、盲人导航、敏感内容识别等。
当前应用中面对文本检测会遇到很多难点:例如,文本的形状和方向多样化,可能图像中文本的摆放方向是倾斜的、横向的;又如,文本的颜色、字体多样化;又如,文本图像的背景比较复杂,会对检测造成干扰等。由于这些检测上的难点,传统基于OpenCV通过形态学等方法来进行的文本检测,其准确性还不够。
因此,需要一种新的文本检测方案。
发明内容
为此,本公开提供了一种文本检测方法、装置、计算设备及存储介质,以力图解决或至少缓解上面存在的问题。
根据本公开的第一个方面,提供了一种文本检测方法,包括步骤:对待检测图像进行预处理,生成预处理后的图像;将预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;将基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图,其中特征增强层包括并行连接的空间特征增强层和通道特征增强层;通过对增强特征图的处理,确定出文本区域。
可选地,在根据本公开的方法中,基础特征提取层包括依次耦接的至少两个卷积处理组件,以及卷积处理组件包括:第一分支,包括依次耦接的多个卷积层、池化层,适于对卷积处理组件的输入图像进行处理;第二分支,包括依次耦接的可变形卷积层和可变形兴趣区域池化层,适于对卷积处理组件的输入图像进行处理;融合单元,分别耦接第一分支和第二分支,适于将卷积处理组件的输入图像、第一分支的输出图像和第二分支的输出图像进行特征融合,得到卷积处理组件的输出图像。
可选地,根据本公开的方法还包括步骤:至少基于空间特征增强层,对基础特征图进行采样,以得到第一特征增强图;至少基于通道特征增强层,对基础特征图进行卷积,以得到第二特征增强图;将第一特征增强图和第二特征增强图进行融合,得到增强特征图。
可选地,根据本公开的方法还包括步骤:将基础特征图映射为3个相同的第一特征图;利用空间特征增强层,对3个第一特征图至少进行下采样、特征融合、上采样,生成第一特征增强图;和/或,按照通道数,将基础特征图划分为多个第二特征图;利用通道特征增强层,对多个第二特征图分别执行不同的卷积处理,并将处理后的特征融合生成第二特征增强图。
可选地,在根据本公开的方法中,利用通道特征增强层,对多个第二特征图分别执行不同的卷积处理,并将处理后的特征融合生成第二特征增强图的步骤包括:基于残差卷积,对第一个第二特征图进行处理,生成第一个增强图;基于残差卷积,对第二个第二特征图进行处理,生成第二个增强图;对第三个第二特征图和第四个第二特征图共同进行卷积处理,生成第三个增强图和第四个增强图;以及将第一个增强图、第二个增强图、第三个增强图和第四个增强图融合,得到第二特征增强图。
可选地,在根据本公开的方法中,对第三个第二特征图和第四个第二特征图共同进行卷积处理,生成第三个增强图和第四个增强图的步骤包括:基于注意力机制,计算第三个第二特征图和第四个第二特征图的相关性,生成对应卷积核的权重;至少基于对应卷积核及其权重,分别对第三个第二特征图和第四个第二特征图进行卷积处理,以生成第三个增强图和第四个增强图。
可选地,在根据本公开的方法中,通过对增强特征图的处理,确定出文本区域的步骤包括:生成增强特征图的二值图;对二值图进行连通域查找,以确定出文本区域。
根据本公开的第二个方面,提供了一种文本检测装置,包括:预处理单元,适于对待检测图像进行预处理,生成预处理后的图像;深度学习处理单元,包括依次耦接的基础特征提取层和特征增强层,适于将预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;还适于将基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图;后处理单元,适于生成增强特征图的二值图,并对二值图进行连通域查找,以生成检测出的文本矩形框。
根据本公开的第三个方面,提供了一种计算设备,包括:至少一个处理器和存储有程序指令的存储器;当程序指令被处理器读取并执行时,使得计算设备执行如上所述的任一方法。
根据本公开的第四个方面,提供了一种存储一个或多个程序的计算机可读存储介质,其中一个或多个程序包括指令,该指令在被计算设备执行时,使得计算设备执行如上所述的方法。
根据本公开的技术方案,充分考虑文本检测的特点,构建了基础特征提取层和特征增强层,以提升文本检测的准确度。例如,考虑到文本区域形状尺寸多样性的特点,在基础特征提取层设置可变形卷积,能够适应不同形状大小的文本。考虑到自然场景中图像信息较为复杂,设置了特征增强层,进一步增强从待检测图像中提取的特征信息,以适应复杂场景下的文本检测。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本公开一个实施例的计算设备100的示意图;
图2示出了根据本公开一个实施例的文本检测方法200的流程示意图;
图3示出了根据本公开一些实施例的基础特征提取层300的结构示意图;
图4示出了根据本公开一些实施例的空间特征增强层的示意图;
图5示出了根据本公开一些实施例的通道特征增强层500的示意图;
图6示出了根据本公开一些实施例的文本检测装置600的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在深度学习席卷计算机视觉领域之后,传统的文本检测方法渐渐就被基于深度学习的方法代替了。不过,将常规物体检测方法(如SSD、YOLO、Faster-RCNN等)直接照搬到文本检测领域,效果并不理想。因此,需要结合文本检测的特点,构造出合适的文本检测方法。
考虑到文本检测的下述特点:1)相比于常规物体,文本的长度、长宽比例变化范围很大,且诸如艺术字体、手写字体,其变化模式也很多,使得文本的形状、尺寸多样化;2)自然场景中图像信息较为复杂,如某些物体局部图像与字母形状相似,如果不参考图像全局信息将会有误检测等情况发生,本公开提供了一种新的文本检测方案,以进一步提升文本检测的准确性。
图1示出了根据本公开一个实施例的计算设备100的结构框图。
如图1所示,在基本配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理(DSP)核心或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器104读取。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。
在计算设备100启动运行时,处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上,利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136(例如CD、DVD、U盘、可移动硬盘等)和不可移除储存器138(例如硬盘驱动器HDD等),可移除储存器136和不可移除储存器138均与储存接口总线134连接。
计算设备100还可以包括储存接口总线134。储存接口总线134实现了从储存设备132(例如,可移除储存器136和不可移除储存器138)经由总线/接口控制器130到基本配置102的通信。操作系统120、应用122以及程序数据124的至少一部分可以存储在可移除储存器136和/或不可移除储存器138上,并且在计算设备100上电或者要执行应用122时,经由储存接口总线134而加载到系统存储器106中,并由一个或者多个处理器104来执行。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图像处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。甚至可以被实现为服务器,如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。本发明的实施例对此均不做限制。
在根据本公开的实施例中,计算设备100被配置为执行根据本公开的文本检测方法200。其中,布置在操作系统上的应用122中包含用于执行本公开的文本检测方法200的多条程序指令,这些程序指令可以指示处理器104执行本公开的文本检测方法200,以确定出待检测图像中的文本。
图2示出了根据本公开一个实施例的文本检测方法200的流程示意图。
在根据本公开的实施例中,方法200通过构造的文本检测模型,对待检测图像进行处理,以对待检测图像进行特征增强,得到增强特征图。之后,通过对增强特征图做进一步处理,便可定位出待检测图像中的至少一个文本区域。
根据本公开的实施方式,文本检测模型基于卷积网络,其至少包括依次耦接的基础特征提取层和特征增强层。待检测图像先由基础特征提取层进行处理,来提取出图像中的基础特征(即,基础特征图),基础特征信息例如包括轮廓、边缘、颜色、纹理、语义等。之后,由特征增强层对基础特征图进行处理,来增强图像中的特征,得到增强特征表示,作为增强特征图。
关于文本检测模型的结构,可参考下文中相关步骤的具体描述,此处不做展开。
如图2所示,方法200始于步骤S210。对待检测图像进行预处理,生成预处理后的图像。
在一种实施例中,在将待检测图像输入文本检测模型之前,先对其进行预处理。预处理主要包括对待检测图像进行缩放、边缘扩充、仿射变换等操作,以便于有效提升后续检测的速度和效果。
根据本公开的实施方式,待检测图像可以是扫描图像(如票据、快递单等)、自然场景图像,可以包含一个或多个文本区域,本公开对此均不做限制。
随后在步骤S220中,将预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图。
基础特征提取层包括依次耦接的N个卷积处理组件(N≥2)。根据本公开的一种实施方式,N个卷积处理组件的结构完全相同,且卷积处理组件中包含卷积层、池化层、可变形卷积层等,以适应不同形状大小的文本。
图3示出了根据本公开一些实施例的基础特征提取层300的结构示意图。应当了解,此处示出的结构仅作为示例,任何基于本公开实施例的描述,来构建的基础特征提取层,均在本公开的保护范围之内。
应当了解,为便于描述,图3中示例性地示出了2个卷积处理组件310(即,N=2的情况),但本公开并不限于此。另外,图3仅示出了第1个卷积处理组件的具体结构,其它卷积处理组件可参考第1个卷积处理组件。不做赘述。
根据一种实施例,卷积处理组件310包括:第一分支312、第二分支314和融合单元316。如图3所示,第一分支312和第二分支314分别与融合单元316耦接,并且,卷积处理组件310的输入图像,要同时输入到第一分支312、第二分支314、融合单元316中,进行处理。具体而言,第一分支312对卷积处理组件310的输入图像X进行处理,得到对应的输出图像O1;同时,第二分支314也会对卷积处理组件310的输入图像X进行处理,得到对应的输出图像O2;融合单元316将卷积处理组件310的输入图像X、第一分支312的输出图像O1和第二分支314的输出图像O2进行特征融合,最终得到卷积处理组件310的输出图像Y。
需要说明的是,对于基础特征提取层300中的第一个卷积处理组件,其输入图像X即预处理后的图像,对于之后的第i(i≥2)个卷积处理组件,其对应的输入图像X是第i-1个卷积处理组件的输出图像。而最后一个卷积处理组件的输出图像,即基础特征图。
在一种实施例中,第一分支312包括依次耦接的多个卷积层(Conv)、池化层(MP)。第二分支314包括依次耦接的可变形卷积层(DConv)和可变形兴趣区域池化层(DRP)。融合单元316将输入图像X、第一分支312的输出图像O1和第二分支314的输出图像O2进行特征融合,来生成该卷积处理组件的输出图像Y。
如图3,第一分支312中包含3个卷积层(Conv1~Conv3),3个卷积层对应的卷积核依次为1×1、3×3、1×1。池化层采用最大池化(Max-pooling)。第二分支314基于可变形卷积,包含可变形卷积层(DConv)和可变形兴趣区域池化层(DRP),以使得卷积处理组件310能够适应各种形状变化的文本。融合单元316可以采用诸如concat、add等方式进行特征融合,本公开对此不做过多限制。
此外,根据本公开的实施方式,卷积处理组件310被重复叠加N次,以提取更深层的基础特征。在一些优选的实施例中,N的取值范围为3-5。
随后在步骤S230中,将基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图。
根据一种实施方式,特征增强层包括并行连接的空间特征增强层和通道特征增强层。其中,空间特征增强层主要用来增强同一特征图上的特征信息,通道特征增强层主要用来进一步丰富通道特征信息,提高特征的表达能力。
在一种实施例中,一方面,至少基于空间特征增强层,对基础特征图进行采样,以得到第一特征增强图。具体地,先将基础特征图映射为3个相同的第一特征图。之后,利用空间特征增强层,对这3个第一特征图至少进行下采样、特征融合、上采样等处理,生成第一特征增强图。另一方面,至少基于通道特征增强层,对基础特征图进行卷积,以得到第二特征增强图。具体地,先按照通道数,将基础特征图划分为多个第二特征图。之后,利用通道特征增强层,对这多个第二特征图分别执行不同的卷积处理,并将处理后的特征融合生成第二特征增强图。最后,将第一特征增强图和第二特征增强图进行融合,就得到增强特征图。
以下结合图4和图5,分别介绍空间特征增强层和通道特征增强层。
图4示出了根据本公开一些实施例的空间特征增强层的示意图。应当了解,此处示出的空间特征增强层仅作为示例,任何基于本公开实施例的描述,来构建的空间特征增强层,均在本公开的保护范围之内。
在根据本公开的实施例中,空间特征增强层至少包含下采样层、特征融合层、Softmax层、特征加权融合层和上采样层。应当了解,下采样层和上采样层均由卷积神经网络组成,最简单地,可以利用池化(Pooling)操作实现,本实施例对此不做过多限制。
图4示例性地示出了包含2轮下采样处理和2轮上采样处理的空间特征增强层,应当了解,图4仅作为示例,以说明空间特征增强层的处理流程,本公开对执行下采样/上采样的具体次数并不作限制,根据本公开,下采样次数与下采样次数相对应即可。
需要说明的是,为便于图示,在图4中采用大写英文字母来代表各第一特征图和中间处理步骤生成的图像。如图4,Q、K、V代表第一特征图,Q、K和V是相同的,由基础特征图映射生成(例如,将基础特征图复制得到3个第一特征图)。另外,在图4中,“分类器”表示神经网络中的Softmax层。
将Q、K、V输入空间特征增强层,在第一轮下采样时,对第一特征图Q和K分别进行一次下采样,对应得到特征图Q/2、K/2。将第一特征图Q和第一特征图K融合,并经Softmax层处理后,与第一特征图V融合(例如,采用加权融合的方式),之后,再对加权融合后的特征图进行下采样,得到特征图V/2。需要说明的是,本公开并不限制加权融合处理时的加权权重,也不限制特征融合的具体方式。
类似地,在第二轮下采样时,对特征图Q/2、K/2分别进行一次下采样,对应得到特征图Q/4、K/4。将特征图Q/2和K/2融合,并经Softmax层处理后,与特征图V/2加权融合,之后,再对加权融合后的特征图进行下采样,得到特征图V/4。
与上述两轮下采样过程相对应的,再执行两轮上采样的处理。
具体来说,在第一轮上采样时,对特征图Q/4和K/4分别进行上采样,对应得到特征图Q’/2和K’/2。将特征图Q/4和K/4融合,并经Softmax层处理后,与特征图V/4加权融合,之后,再对加权融合后的特征图进行上采样,得到特征图V’/2。
在第二轮上采样时,对特征图Q’/2, K’/2分别进行上采样,对应得到特征图Q’和K’。将特征图Q’/2和K’/2融合,并经Softmax层处理后,与特征图V’/2加权融合,之后,再对加权融合后的特征图进行上采样,得到特征图V’。
最后,将特征图Q’和K’融合,并经Softmax层处理后,与特征图V’加权融合,该加权融合后的特征图,就是第一特征增强图。
图5示出了根据本公开一些实施例的通道特征增强层500的示意图。应当了解,此处示出的结构仅作为示例,任何基于本公开实施例的描述,来构建的通道特征增强层,均在本公开的保护范围之内。
根据本公开的实施方式,通道特征增强层具有多个并行的分支,其分支数目与基础特征图的通道数相关。换言之,按照通道数,将基础特征图划分为多个第二特征图,那么,每个分支对应处理一个第二特征图。通道特征增强层通过对不同通道进行卷积操作,建立长距离空间和通道间依赖性的校准操作,增强通道特征,提高特征的表达能力。
在一种实施例中,按照通道数,将基础特征图划分为4个特征图,记作第二特征图S1, S2, S3, S4。
根据一种实施例,在分支510中,基于残差卷积,对第一个第二特征图S1执行残差卷积处理,生成第一个增强图T1。如图5,分支510包含3个卷积层(Conv),其卷积核尺寸依次为1×1、3×3、1×1,将S1经3个卷积层处理后的特征、再与S1融合(如图5中“”所示),得到T1。
在分支520中,同样基于残差卷积,对第二个第二特征图S2进行处理,生成第二个增强图T2。但分支520与分支510具体的卷积结构有所不同。如图5,一方面,对S2进行卷积、激活处理,使其分别经卷积层和激活函数(Sigmoid层)处理;另一方面,只通过卷积层对S2进行处理;最后,将激活函数(Sigmoid层)的输出、卷积层的输出(如图5中分支520的中间部分所示)、以及S2本身,进行加权融合(如图5中“”所示),最后,将加权融合后的输出再经卷积层处理后,输出T2。
分支530和分支540相关联,如图5所示,分支530和分支540具有部分重合,该重合部分为计算第三个第二特征图S3和第四个第二特征图S4的相关性,以对S3和S4共同进行卷积处理,从而生成第三个增强图T3和第四个增强图T4。
在一种实施例中,基于注意力机制(Attention),计算S3和S4的相关性,生成对应卷积核的权重(a1、a2和a3)。如图5所示,3个权重a1、a2和a3,分别对应卷积Conv1、Conv2和Conv3。根据一种实施例,注意力机制可以采用SENet网络,本公开对此不做限制。
之后,至少基于对应卷积核及其权重,分别对S3和S4进行卷积处理,以生成T3和T4。在一种实施例中,以S3为例,先基于对应卷积核(Conv1、Conv2和Conv3)及其权重,对S3进行卷积处理,将各卷积处理后的输出与S3融合(如图5中“”所示),再经过一次卷积层(Conv)处理,最终输出T3。对S4的处理可参考对S3的处理过程,此处不再赘述。
根据本公开的实施方式,S3和S4共享动态卷积核,可以更灵活高效地提高特征表达能力。
最后,将第一个增强图T1、第二个增强图T2、第三个增强图T3和第四个增强图T4融合,得到第二特征增强图。
随后在步骤S240中,通过对增强特征图的处理,确定出文本区域。
根据一种实施例,对增强特征图的处理可以包括:二值化、轮廓查找等。
具体而言,首先,生成增强特征图的二值图。
在一种实施例中,通过参数阈值,对增强特征图进行二值化处理,得到二值特征图。将二值特征图缩放到与待检测图像相同的尺寸,作为二值图。需要说明的是,参数阈值可以是预先设置好的,也可以自适应地选取,本实施例对此不做限制。
之后,对二值图进行连通域查找,以确定出文本区域。
可以调用MATLAB中的连通区域标记函数、或是一些开源库(如,clob库)中使用的连通域标记算法,来从二值图中确定出连通区域,作为文本区域。本公开并不限制采用何种算法来寻找二值图像中的连通域。
根据本公开的文本检测方法200,充分考虑文本检测的特点,构建了基础特征提取层和特征增强层,以提升文本检测的准确度。例如,考虑到文本区域形状尺寸多样性的特点,在基础特征提取层设置可变形卷积,能够适应不同形状大小的文本。考虑到自然场景中图像信息较为复杂,设置了特征增强层,进一步增强从待检测图像中提取的特征信息,以适应复杂场景下的文本检测。具体地,基于卷积神经网络,空间特征增强层对同一特征图进行多次的、不同的卷积操作,充分利用了全局信息,使得提取的特征不仅有局部性还有全局性,这有利于提取文本的上下文语义信息,增强了特征的语义性。另外,通道特征增强层通过对不同通道的特征图进行卷积操作,扩展了卷积网络的宽度,增强了网络特征表达能力,使得提取的特征更多样性。
图6示出了根据本公开一些实施例的文本检测装置600的示意图。根据本公开的一些实施方式,文本检测装置600适于执行上述文本检测方法200,来确定出文本区域。应当了解,文本检测装置600与方法200的内容互为补充,重复之处,此处不再赘述。
如图6,文本检测装置600包括:预处理单元610、深度学习处理单元620和后处理单元630。
预处理单元610对待检测图像进行预处理,生成预处理后的图像。
深度学习处理单元620基于深度学习,构建文本检测模型,来检测输入图像中的文本,并定位到所检测出的文本区域。进一步地,深度学习处理单元620又包括依次耦接的基础特征提取层622和特征增强层624。基础特征提取层622对预处理后的图像进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;特征增强层624对基础特征图进行处理,以提取出待检测图像的增强特征表示,作为增强特征图。
后处理单元630生成增强特征图的二值图,并对二值图进行连通域查找,以生成检测出的文本矩形框。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本公开的方法和设备,或者本公开的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本公开的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本公开的文本检测方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本公开的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的优选实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该公开的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本公开,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本公开的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本公开的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本公开的范围,对本公开所做的公开是说明性的而非限制性的,本公开的范围由所附权利要求书限定。
Claims (10)
1.一种文本检测方法,包括步骤:
对待检测图像进行预处理,生成预处理后的图像;
将所述预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;
将所述基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图,其中所述特征增强层包括并行连接的空间特征增强层和通道特征增强层;
通过对所述增强特征图的处理,确定出文本区域。
2.如权利要求1所述的方法,其中,所述基础特征提取层包括依次耦接的至少两个卷积处理组件,所述卷积处理组件包括:
第一分支,包括依次耦接的多个卷积层、池化层,适于对所述卷积处理组件的输入图像进行处理;
第二分支,包括依次耦接的可变形卷积层和可变形兴趣区域池化层,适于对所述卷积处理组件的输入图像进行处理;
融合单元,分别耦接所述第一分支和所述第二分支,适于将所述卷积处理组件的输入图像、所述第一分支的输出图像和所述第二分支的输出图像进行特征融合,得到卷积处理组件的输出图像。
3.如权利要求1所述的方法,其中,将所述基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图包括:
至少基于空间特征增强层,对所述基础特征图进行采样,以得到第一特征增强图;
至少基于通道特征增强层,对所述基础特征图进行卷积,以得到第二特征增强图;
将所述第一特征增强图和所述第二特征增强图进行融合,得到增强特征图。
4.如权利要求3所述的方法,其中,所述至少基于空间特征增强层,对基础特征图进行采样,以得到第一特征增强图的步骤包括:
将所述基础特征图映射为3个相同的第一特征图,
利用所述空间特征增强层,对3个第一特征图至少进行下采样、特征融合、上采样,生成第一特征增强图;
所述至少基于通道特征增强层,对基础特征图进行卷积,以得到第二特征增强图的步骤包括:
按照通道数,将所述基础特征图划分为多个第二特征图,
利用所述通道特征增强层,对所述多个第二特征图分别执行不同的卷积处理,并将处理后的特征融合生成第二特征增强图。
5.如权利要求4所述的方法,其中,所述利用通道特征增强层,对多个第二特征图分别执行不同的卷积处理,并将处理后的特征融合生成第二特征增强图的步骤包括:
基于残差卷积,对第一个第二特征图进行处理,生成第一个增强图;
基于残差卷积,对第二个第二特征图进行处理,生成第二个增强图;
对第三个第二特征图和第四个第二特征图共同进行卷积处理,生成第三个增强图和第四个增强图;
将所述第一个增强图、所述第二个增强图、所述第三个增强图和所述第四个增强图融合,得到第二特征增强图。
6.如权利要求5所述的方法,其中,所述对第三个第二特征图和第四个第二特征图共同进行卷积处理,生成第三个增强图和第四个增强图的步骤包括:
基于注意力机制,计算所述第三个第二特征图和所述第四个第二特征图的相关性,生成对应卷积核的权重;
至少基于对应卷积核及其权重,分别对所述第三个第二特征图和所述第四个第二特征图进行卷积处理,以生成第三个增强图和第四个增强图。
7.如权利要求1所述的方法,其中,所述通过对增强特征图的处理,确定出文本区域的步骤包括:
生成所述增强特征图的二值图;
对二值图进行连通域查找,以确定出文本区域。
8.一种文本检测装置,包括:
预处理单元,适于对待检测图像进行预处理,生成预处理后的图像;
深度学习处理单元,包括依次耦接的基础特征提取层和特征增强层,适于将所述预处理后的图像输入基础特征提取层进行处理,以提取出待检测图像的基础特征表示,作为基础特征图;还适于将所述基础特征图输入特征增强层进行处理,以提取出待检测图像的增强特征表示,作为增强特征图;
后处理单元,适于生成所述增强特征图的二值图,并对所述二值图进行连通域查找,以生成检测出的文本矩形框。
9.一种计算设备,包括:
至少一个处理器和存储有程序指令的存储器;
当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行如权利要求1-7中任一项所述的方法。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令在被计算设备执行时,使得所述计算设备执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210659346.7A CN114758332B (zh) | 2022-06-13 | 2022-06-13 | 一种文本检测方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210659346.7A CN114758332B (zh) | 2022-06-13 | 2022-06-13 | 一种文本检测方法、装置、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758332A true CN114758332A (zh) | 2022-07-15 |
CN114758332B CN114758332B (zh) | 2022-09-02 |
Family
ID=82336267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210659346.7A Active CN114758332B (zh) | 2022-06-13 | 2022-06-13 | 一种文本检测方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758332B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393868A (zh) * | 2022-08-18 | 2022-11-25 | 中化现代农业有限公司 | 文本检测方法、装置、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050271284A1 (en) * | 2004-06-07 | 2005-12-08 | Chen-Chung Chen | Printing quality enhancement via graphic/text detection method in compression (JPEG) image |
CN103425973A (zh) * | 2012-05-25 | 2013-12-04 | 夏普株式会社 | 对含有文本的图像进行增强处理的方法、装置和视频显示设备 |
CN111444834A (zh) * | 2020-03-26 | 2020-07-24 | 同盾控股有限公司 | 图像文本行检测方法、装置、设备及存储介质 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN113486890A (zh) * | 2021-06-16 | 2021-10-08 | 湖北工业大学 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
CN113516126A (zh) * | 2021-07-02 | 2021-10-19 | 成都信息工程大学 | 一种基于注意力特征融合的自适应阈值场景文本检测方法 |
WO2022046486A1 (en) * | 2021-08-18 | 2022-03-03 | Innopeak Technology, Inc. | Scene text recognition model with text orientation or angle detection |
CN114387610A (zh) * | 2022-01-14 | 2022-04-22 | 重庆邮电大学 | 一种基于增强特征金字塔网络的任意形状场景文本检测方法 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
-
2022
- 2022-06-13 CN CN202210659346.7A patent/CN114758332B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050271284A1 (en) * | 2004-06-07 | 2005-12-08 | Chen-Chung Chen | Printing quality enhancement via graphic/text detection method in compression (JPEG) image |
CN103425973A (zh) * | 2012-05-25 | 2013-12-04 | 夏普株式会社 | 对含有文本的图像进行增强处理的方法、装置和视频显示设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN111444834A (zh) * | 2020-03-26 | 2020-07-24 | 同盾控股有限公司 | 图像文本行检测方法、装置、设备及存储介质 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN113486890A (zh) * | 2021-06-16 | 2021-10-08 | 湖北工业大学 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
CN113516126A (zh) * | 2021-07-02 | 2021-10-19 | 成都信息工程大学 | 一种基于注意力特征融合的自适应阈值场景文本检测方法 |
WO2022046486A1 (en) * | 2021-08-18 | 2022-03-03 | Innopeak Technology, Inc. | Scene text recognition model with text orientation or angle detection |
CN114387610A (zh) * | 2022-01-14 | 2022-04-22 | 重庆邮电大学 | 一种基于增强特征金字塔网络的任意形状场景文本检测方法 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393868A (zh) * | 2022-08-18 | 2022-11-25 | 中化现代农业有限公司 | 文本检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114758332B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961009B (zh) | 基于深度学习的行人检测方法、系统、装置及存储介质 | |
US11670071B2 (en) | Fine-grained image recognition | |
US10740640B2 (en) | Image processing method and processing device | |
US11055566B1 (en) | Utilizing a large-scale object detector to automatically select objects in digital images | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
WO2016054778A1 (en) | Generic object detection in images | |
US20220292684A1 (en) | Generating refined segmentations masks via meticulous object segmentation | |
CN110427946B (zh) | 一种文档图像二值化方法、装置和计算设备 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN111553351A (zh) | 一种基于语义分割的场景任意形状的文本检测方法 | |
CN114758332B (zh) | 一种文本检测方法、装置、计算设备及存储介质 | |
CN111582267A (zh) | 一种文本检测方法、计算设备及可读存储介质 | |
CN112132164A (zh) | 目标检测方法、系统、计算机装置及存储介质 | |
Smolov et al. | Imago: Open-Source Toolkit for 2D Chemical Structure Image Recognition. | |
CN111160368A (zh) | 图像中目标检测方法、装置、设备及存储介质 | |
US11989956B2 (en) | Dynamic head for object detection | |
CN110796130A (zh) | 用于文字识别的方法、装置及计算机存储介质 | |
CN113642545B (zh) | 一种基于多任务学习的人脸图像处理方法 | |
CN112785601B (zh) | 一种图像分割方法、系统、介质及电子终端 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN115004261A (zh) | 文本行检测 | |
CN110688511A (zh) | 细粒度图像检索方法、装置、计算机设备及存储介质 | |
CN115761755A (zh) | 生成文本检测模型的方法、文本检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |