CN111598055A - 文本检测方法、装置、计算机设备和存储介质 - Google Patents
文本检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111598055A CN111598055A CN202010566752.XA CN202010566752A CN111598055A CN 111598055 A CN111598055 A CN 111598055A CN 202010566752 A CN202010566752 A CN 202010566752A CN 111598055 A CN111598055 A CN 111598055A
- Authority
- CN
- China
- Prior art keywords
- text
- feature map
- feature
- target
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机技术领域,特别是涉及一种文本检测方法、装置、计算机设备和存储介质。所述方法包括:获取待识别图像,待识别图像中包括多个待检测文本;对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。采用本方法能够提升文件检测的兼容性,提升文本检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本检测方法、装置、计算机设备和存储介质。
背景技术
随着智能技术的发展,在工程中常需要对文本类图像进行识别,如车辆年检文本类图等。
在传统方式中,在进行通用文本和小范围信息进行文本检测时,通常无法兼顾大范围信息的完整性和小范围信息的分散性,即,当其在大范围文本类信息上表现良好时,常会出现小范围文本粘黏的情况,当小范围文本类信息完好的区分开时,在大范围文本类信息中常会出现区域不完整的情况,使得文本检测的效果差。
因此,如何提升文件检测的兼容性,提升文本检测的准确性成为亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文件检测的兼容性,提升文本检测的准确性的文本检测方法、装置、计算机设备和介质。
一种文本检测方法,所述方法包括:
获取待识别图像,待识别图像中包括多个待检测文本;
对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;
对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;
根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;
对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
在其中一个实施例中,对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,包括:
通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
在其中一个实施例中,根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图,包括:
对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;
对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
在其中一个实施例中,对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图,包括:
对待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图;
对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,包括:
对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应顶层特征层的下一特征层至目标特征层的多个融合文本特征图,目标特征层为对应预设目标尺度的特征层;
对目标特征层对应的融合文本特征图以及填充文本特征图进行上采样并进行特征融合处理,得到对应目标特征层的下一特征层的融合文本特征图;
根据目标特征层的下一特征层的融合文本特征图以及多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
在其中一个实施例中,对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图,包括:
将各融合文本特征图以及填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图;
对同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
在其中一个实施例中,对目标特征图进行文本检测处理之前,还包括:
基于预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图;
对目标特征图进行文本检测处理,包括:
对降维处理后的目标特征图进行文本检测处理。
在其中一个实施例中,对目标特征图进行文本检测处理,得到各待检测文本的检测结果,包括:
对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果;
基于多个尺度的分割结果中最小尺度的分割结果,确定对应各待检测文本的多个连通域;
根据多个尺度的分割结果中非最小尺度的分割结果,对确定的各连通域进行扩展,得到待识别图像中各待检测文本的检测结果。
一种文本检测装置,所述装置包括:
待识别图像获取模块,用于获取待识别图像,待识别图像中包括多个待检测文本;
特征提取模块,用于对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;
填充模块,用于对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;
特征融合模块,用于根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;
检测处理模块,用于对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
在其中一个实施例中,填充模块用于通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图;
特征融合模块,包括:
第一融合子模块,用于对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;
第二融合子模块,用于对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述文本检测方法、装置、计算机设备和存储介质,通过获取待识别图像,待识别图像中包括多个待检测文本;对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。通过对尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,可以使得填充文本特征图保留了原本尺度最小的文本特征图的特征信息,可以使生成的目标特征图也包含了原本尺度最小的文本特征图的特征信息,进而在基于目标特征图进行文本检测处理的时候,检测处理过程既包含了对大尺度的文本特征图的特征信息进行检测处理,也包含了对小尺度的文本特征图的特征信息进行检测处理,提升了文本检测的兼容性,进而可以提升检测的准确性。
附图说明
图1为一个实施例中文本检测方法的应用场景图;
图2为一个实施例中文本检测方法的流程示意图;
图3为一个实施例中文本检测模型的结构示意图;
图4为一个实施例中填充文本特征图的示意图;
图5为一个实施例中上采样后文本特征图的示意图;
图6为一个实施例中文本检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。在本实施例中,用户可以通过终端102采集待识别图像,然后通过网络将待识别图像发送至服务器104,待识别图像中包括多个待检测文本。服务器104在获取待识别图像后,对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图。然后服务器104对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图。进一步,服务器104根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图,并对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待识别图像,待识别图像中包括多个待检测文本。
其中,待识别图像可以是指工程中所需要进行文本检测的图像,例如,可以是车辆年检表单图像,或者是采集的包含有车牌号、车架号、水印信息的车辆图像等。
在本实施例中,待识别图像中可以包括不同尺寸大小或者不同范围大小的待检测文本内容,例如,可以同时包括小尺寸文本内容以及大尺寸文本内容,或者同时包括小区域范围的文本内容以及大区域范围的文本内容。
在本实施例中,用户通过终端采集到待识别图像后,可以通过网络发送至服务器,以通过服务器进行后续的处理。
步骤S204,对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图。
在本实施例中,服务器可以通过训练完成的神经网络模型对待识别图像进行多个尺度的特征的提取,以得到多个尺度的特征。例如,参考图3,服务器通过主干网络为RESNET的卷积神经网路(Convolutional Neural Networks,CNN)对待识别图像进行多尺度特征的提取,以分别得到文本特征图C1、文本特征图C2、文本特征图C3以及文本特征图C4。
本领域技术人员可以理解的是,在其他实施例中,也可以是其他卷积神经网络,如VGG16等。
步骤206,对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图。
具体地,继续参考图3,服务器在进行多尺度特征的提取时,可以生成对应不同尺度特征的文本特征图。服务器可以获取尺度最小的文本特征图,并进行图像填充,使其在特征信息不变的前提下,扩充图像的尺寸,以得到填充后的填充文本特征图。
步骤S208,根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图。
其中,目标特征图是指包含有提取的特征信息的特征图。
具体地,服务器可以通过上采样以及特征融合的方式,对填充文本特征图以及各尺度的文本特征图进行处理,以生成目标特征图。
步骤S210,对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
其中,检测结果是指待检测图像中各待检测文本对应区域的检测结果。
在本实施例中,服务器在得到目标特征图后,可以根据各像素点的特征信息,对待检测图像进行图像分割预测处理以及后处理后,得到待检测图像中各待检测文本的检测结果。
上述文本检测方法中,通过获取待识别图像,待识别图像中包括多个待检测文本;对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。从而,对尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,可以使得填充文本特征图保留了原本尺度最小的文本特征图的特征信息,可以使生成的目标特征图也包含了原本尺度最小的文本特征图的特征信息,进而在基于目标特征图进行文本检测处理的时候,检测处理过程既包含了对大尺度的文本特征图的特征信息进行检测处理,也包含了对小尺度的文本特征图的特征信息进行检测处理,提升了文本检测的兼容性,进而可以提升检测的准确性。
在其中一个实施例中,对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,可以包括:通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
其中,目标尺度是指预先设定的尺度。参考图3,在本实施例中,目标尺度可以是指文本特征图C3对应的尺度。
具体地,服务器可以通过预设的像素对顶层文本特征图进行填充,以得到与预设目标尺度一致的填充文本特征图。
在本实施例中,参考图4,服务器可以通过0像素对顶层文本特征图的周边进行填充处理,以得到对应预设目标尺度的填充文本特征图。
上述实施例中,通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,如,通过0像素进行填充,从而可以在在保持顶层文本特征图原有的特征信息的基础上得到对应目标尺度的填充文本特征图,提升后续识别检测的兼容性。
在其中一个实施例中,根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图,可以包括:对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
具体地,继续参考图3,服务器在得到文本特征图C1~C4,以及得到填充文本特征图P4-2后,可以通过上采样以及特征融合处理,得到对应各尺度的各融合文本特征图P4~P1。
在其中一个实施例中,服务器在得到对应各尺度的融合文本特征图P4、融合文本特征图P3、融合文本特征图P2、融合文本特征图P1以及填充文本特征图P4-2后,对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图,可以包括:将各融合文本特征图以及填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图;对同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
具体地,服务器可以分别对融合文本特征图P4、融合文本特征图P3、融合文本特征图P2以及填充文本特征图P4-2进行上采样,使其上采样后的各上采样文本特征图与融合文本特征图P1的尺度一致。如,将融合文本特征图P4进行8倍上采样、融合文本特征图P3进行4倍上采样、融合文本特征图P2进行2倍上采样以及填充文本特征图P4-2进行4倍上采样,以得到与融合文本特征图P1的尺度一致的上采样文本特征图。
进一步,服务器对得到的多个上采样文本特征图进行concat特征融合处理,以得到目标特征图F。
在上述实施例中,通过对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,然后对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图,从而得到的目标特征图包含了尺度最小的文本特征图的特征信息,可以提升后续检测过程的兼容性,提升文本检测的准确性。
在其中一个实施例中,对目标特征图进行文本检测处理之前,还可以包括:基于预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图。
具体地,服务器在得到目标特征图后,可以对得到的目标特征图进行降维处理并输出,以得到维度与预设维度一致的目标特征图,例如,输出维度为256的目标特征图。
在本实施例中,对目标特征图进行文本检测处理,可以包括:对降维处理后的目标特征图进行文本检测处理。
在上述实施例中,通过预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图,在后续进行文本检测处理的时候,可以通过降维处理后的目标特征图进行文本检测处理,减少了后续检测处理中的数据量,可以提升数据处理速度。
在其中一个实施例中,对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图,可以包括:对待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图。
具体地,继续参考图3,服务器在进行特征提取的时候,可以得到特征金字塔,即得到对应多个尺度的文本特征图C1、文本特征图C2、文本特征图C3以及文本特征图C4,特征金字塔的各特征层分别对应一个尺度的文本特征图。从特征金字塔的顶层至底层,文本特征图的尺度逐渐增大,即C4<C3<C2<C1。
在本实施例中,对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,可以包括:对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应顶层特征层的下一特征层至目标特征层的多个融合文本特征图,目标特征层为对应预设目标尺度的特征层;对目标特征层对应的融合文本特征图以及填充文本特征图进行上采样并进行特征融合处理,得到对应目标特征层的下一特征层的融合文本特征图;根据目标特征层的下一特征层的融合文本特征图以及多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
具体地,继续参考图3,服务器可以将顶层特征层对应的文本特征图C4作为融合文本特征图P4。
进一步,服务器可以对融合文本特征图P4进行上采样处理,得到尺度与文本特征图C3一致的上采样融合文本特征图,上采样过程如图5所示,然后服务器将尺度一致的上采样融合文本特征图与文本特征图C3进行特征融合,得到融合文本特征图P3。
在本实施例中,目标尺度为文本特征图C3对应的尺度。服务器在得到对应目标尺度的融合文本特征图P3后,可以对目标特征层对应的融合文本特征图P3以及填充文本特征图P4-2进行上采样,将融合文本特征图P3以及填充文本特征图P4-2上采样至目标特征层的下一特征层对应的尺度,即上采样至文本特征图C2对应的尺度。
进一步,服务器将上采样后的融合文本特征图P3、上采样后的填充文本特征图P4-2以及文本特征图C2进行特征融合,以得到融合文本特征图P2.
进一步,服务器可以对融合文本特征图P2进行上采样处理,得到尺度与文本特征图C1一致的上采样融合文本特征图,然后服务器将尺度一致的上采样融合文本特征图与文本特征图C1进行特征融合,得到融合文本特征图P1。
在其中一个实施例中,对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果,可以包括:对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果;基于多个尺度的分割结果中最小尺度的分割结果,确定对应各待检测文本的多个连通域;根据多个尺度的分割结果中非最小尺度的分割结果,对确定的各连通域进行扩展,得到待识别图像中各待检测文本的检测结果。
在本实施例中,继续参考图3,服务器在得到目标特征图F后,可以将目标特征图F映射到n个分支中,以产生多个分割结果S1…Sn,每个Si将是所有待检测文本在一定范围内的一个分割掩码。
在本实施例中,在这些掩码中,S1给出了具有最小标度(即,最小内核)的待检测文本的分割结果,而Sn表示原始分割掩码(即,最大内核)。
具体地,服务器在获得这些分割掩码后,可以通过使用渐进扩展算法将S1中的所有待检测文本的“内核”逐渐扩展到其Sn中的完整形状,并获得最终的检测结果。
具体地,服务器基于最小尺度的分割结果S1(即最小内核的分割掩码),确定对应不同待检测文本的连通域。到目前为止,服务器已经检测到了所有待检测文本的中心部分(即最小内核)。然后,服务器通过逐渐合并多个尺度的分割结果中最小尺度的分割结果中的像素,即S2…Sn-1中的像素,将其扩展到内核,以对各连通域进行不断的扩展,直至完成Sn中像素的扩展,得到最终的检测结果。
在本实施例中,通过对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果,然后以渐进扩展算法得到最终的检测结果,从而各待检测文本的检测扩展过程分开执行,可以提升检测的准确性以及检测精度。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种文本检测装置,包括:待识别图像获取模块100、特征提取模块200、填充模块300、特征融合模块400和检测处理模块500,其中:
待识别图像获取模块100,用于获取待识别图像,待识别图像中包括多个待检测文本。
特征提取模块200,用于对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图。
填充模块300,用于对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图。
特征融合模块400,用于根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图。
检测处理模块500,用于对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
在其中一个实施例中,填充模块300用于通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
在本实施例中,特征融合模块400可以包括:
第一融合子模块,用于对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图。
第二融合子模块,用于对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
在其中一个实施例中,特征提取模块200用于对待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图。
在本实施例中,第一融合子模块可以包括:
第一融合单元,用于对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应顶层特征层的下一特征层至目标特征层的多个融合文本特征图,目标特征层为对应预设目标尺度的特征层。
第二融合单元,用于对目标特征层对应的融合文本特征图以及填充文本特征图进行上采样并进行特征融合处理,得到对应目标特征层的下一特征层的融合文本特征图。
第三融合单元,用于根据目标特征层的下一特征层的融合文本特征图以及多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
在其中一个实施例中,第二融合子模块可以包括:
上采样单元,用于将各融合文本特征图以及填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图。
第四融合单元,用于对同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
在其中一个实施例中,上述装置还可以包括:
降维处理模块,用于当检测处理模块500对目标特征图进行文本检测处理之前,基于预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图。
在本实施例中,检测处理模块500可以用于对降维处理后的目标特征图进行文本检测处理。
在其中一个实施例中,检测处理模块500可以包括:
分割预测子模块,用于对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果。
连通域确定子模块,用于基于多个尺度的分割结果中最小尺度的分割结果,确定对应各待检测文本的多个连通域。
检测结果确定子模块,用于根据多个尺度的分割结果中非最小尺度的分割结果,对确定的各连通域进行扩展,得到待识别图像中各待检测文本的检测结果。
关于文本检测装置的具体限定可以参见上文中对于文本检测方法的限定,在此不再赘述。上述文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别图像、文本特征图、填充文本特征图、目标特征图以及检测结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别图像,待识别图像中包括多个待检测文本;对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
在其中一个实施例中,处理器执行计算机程序时实现对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,可以包括:通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
在其中一个实施例中,处理器执行计算机程序时实现根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图,可以包括:对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
在其中一个实施例中,处理器执行计算机程序时实现对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图,可以包括:对待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图。
在本实施例中,处理器执行计算机程序时实现对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,可以包括:对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应顶层特征层的下一特征层至目标特征层的多个融合文本特征图,目标特征层为对应预设目标尺度的特征层;对目标特征层对应的融合文本特征图以及填充文本特征图进行上采样并进行特征融合处理,得到对应目标特征层的下一特征层的融合文本特征图;根据目标特征层的下一特征层的融合文本特征图以及多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
在其中一个实施例中,处理器执行计算机程序时实现对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图,可以包括:将各融合文本特征图以及填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图;对同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
在其中一个实施例中,处理器执行计算机程序时实现对目标特征图进行文本检测处理之前,还可以实现如下步骤:基于预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图。处理器执行计算机程序时实现对目标特征图进行文本检测处理,可以包括:对降维处理后的目标特征图进行文本检测处理。
在其中一个实施例中,处理器执行计算机程序时实现对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果,可以包括:对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果;基于多个尺度的分割结果中最小尺度的分割结果,确定对应各待检测文本的多个连通域;根据多个尺度的分割结果中非最小尺度的分割结果,对确定的各连通域进行扩展,得到待识别图像中各待检测文本的检测结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别图像,待识别图像中包括多个待检测文本;对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图;对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果。
在其中一个实施例中,计算机程序被处理器执行时实现对多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,可以包括:通过预设像素将多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
在其中一个实施例中,计算机程序被处理器执行时实现根据填充文本特征图以及多个尺度的文本特征图,进行特征融合处理,生成目标特征图,可以包括:对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
在其中一个实施例中,计算机程序被处理器执行时实现对待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图,可以包括:对待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图。
在本实施例中,计算机程序被处理器执行时实现对多个尺度的文本特征图以及填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,可以包括:对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应顶层特征层的下一特征层至目标特征层的多个融合文本特征图,目标特征层为对应预设目标尺度的特征层;对目标特征层对应的融合文本特征图以及填充文本特征图进行上采样并进行特征融合处理,得到对应目标特征层的下一特征层的融合文本特征图;根据目标特征层的下一特征层的融合文本特征图以及多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
在其中一个实施例中,计算机程序被处理器执行时实现对各融合文本特征图以及填充文本特征图进行上采样,并进行特征融合,得到目标特征图,可以包括:将各融合文本特征图以及填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图;对同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
在其中一个实施例中,计算机程序被处理器执行时实现对目标特征图进行文本检测处理之前,还可以实现如下步骤:基于预设维度对目标特征图进行降维处理,得到维度与预设维度一致的目标特征图。计算机程序被处理器执行时实现对目标特征图进行文本检测处理,可以包括:对降维处理后的目标特征图进行文本检测处理。
在其中一个实施例中,计算机程序被处理器执行时实现对目标特征图进行文本检测处理,得到分别对应各待检测文本的检测结果,可以包括:对目标特征图进行多尺度的分割预测,得到多个尺度的分割结果;基于多个尺度的分割结果中最小尺度的分割结果,确定对应各待检测文本的多个连通域;根据多个尺度的分割结果中非最小尺度的分割结果,对确定的各连通域进行扩展,得到待识别图像中各待检测文本的检测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本检测方法,其特征在于,所述方法包括:
获取待识别图像,所述待识别图像中包括多个待检测文本;
对所述待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;
对所述多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;
根据所述填充文本特征图以及所述多个尺度的文本特征图,进行特征融合处理,生成目标特征图;
对所述目标特征图进行文本检测处理,得到分别对应各所述待检测文本的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图,包括:
通过预设像素将所述多个尺度的文本特征图中尺度最小的文本特征图的尺度填充至与预设目标尺度一致,得到填充后的填充文本特征图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述填充文本特征图以及所述多个尺度的文本特征图,进行特征融合处理,生成目标特征图,包括:
对所述多个尺度的文本特征图以及所述填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图;
对各所述融合文本特征图以及所述填充文本特征图进行上采样,并进行特征融合,得到目标特征图。
4.根据权利要求3所述的方法,其特征在于,所述对所述待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图,包括:
对所述待识别图像进行多尺度特征的提取,得到从顶层至底层尺度逐渐增大的多个特征层的各文本特征图;
所述对所述多个尺度的文本特征图以及所述填充文本特征图进行特征融合,得到对应多个尺度的各融合文本特征图,包括:
对顶层特征层至目标特征层对应的各文本特征图进行特征融合,得到分别对应所述顶层特征层的下一特征层至所述目标特征层的多个融合文本特征图,所述目标特征层为对应所述预设目标尺度的特征层;
对所述目标特征层对应的融合文本特征图以及所述填充文本特征图进行上采样,并进行特征融合处理,得到对应所述目标特征层的下一特征层的融合文本特征图;
根据所述目标特征层的下一特征层的融合文本特征图以及所述多个特征层中各剩余特征层的文本特征图,生成对应各剩余特征层的各融合文本特征图。
5.根据权利要求3所述的方法,其特征在于,所述对各所述融合文本特征图以及所述填充文本特征图进行上采样,并进行特征融合,得到目标特征图,包括:
将各所述融合文本特征图以及所述填充文本特征图上采样至同一尺度,得到同一尺度的多个上采样文本特征图;
对所述同一尺度的多个上采样文本特征图进行特征融合,得到目标特征图。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标特征图进行文本检测处理之前,还包括:
基于预设维度对所述目标特征图进行降维处理,得到维度与所述预设维度一致的目标特征图;
所述对所述目标特征图进行文本检测处理,包括:
对所述降维处理后的目标特征图进行文本检测处理。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标特征图进行文本检测处理,得到分别对应各所述待检测文本的检测结果,包括:
对所述目标特征图进行多尺度的分割预测,得到多个尺度的分割结果;
基于所述多个尺度的分割结果中最小尺度的分割结果,确定对应各所述待检测文本的多个连通域;
根据所述多个尺度的分割结果中非最小尺度的分割结果,对确定的各所述连通域进行扩展,得到所述待识别图像中各待检测文本的检测结果。
8.一种文本检测装置,其特征在于,所述装置包括:
待识别图像获取模块,用于获取待识别图像,所述待识别图像中包括多个待检测文本;
特征提取模块,用于对所述待识别图像进行多尺度特征的提取,得到多个尺度的文本特征图;
填充模块,用于对所述多个尺度的文本特征图中尺度最小的文本特征图进行像素点填充,得到填充后的填充文本特征图;
特征融合模块,用于根据所述填充文本特征图以及所述多个尺度的文本特征图,进行特征融合处理,生成目标特征图;
检测处理模块,用于对所述目标特征图进行文本检测处理,得到分别对应各所述待检测文本的检测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566752.XA CN111598055A (zh) | 2020-06-19 | 2020-06-19 | 文本检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566752.XA CN111598055A (zh) | 2020-06-19 | 2020-06-19 | 文本检测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111598055A true CN111598055A (zh) | 2020-08-28 |
Family
ID=72182776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010566752.XA Withdrawn CN111598055A (zh) | 2020-06-19 | 2020-06-19 | 文本检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598055A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313111A (zh) * | 2021-05-28 | 2021-08-27 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
WO2022105521A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 弯曲文本图像的文字识别方法、装置及计算机设备 |
-
2020
- 2020-06-19 CN CN202010566752.XA patent/CN111598055A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105521A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 弯曲文本图像的文字识别方法、装置及计算机设备 |
CN113313111A (zh) * | 2021-05-28 | 2021-08-27 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886077B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111950329A (zh) | 目标检测及模型训练方法、装置、计算机设备和存储介质 | |
CN111079632A (zh) | 文本检测模型的训练方法、装置、计算机设备和存储介质 | |
CN110751134A (zh) | 目标检测方法、存储介质及计算机设备 | |
CN110781859B (zh) | 图像标注方法、装置、计算机设备和存储介质 | |
CN113496150B (zh) | 密集目标检测方法、装置、存储介质及计算机设备 | |
CN112184687B (zh) | 基于胶囊特征金字塔的道路裂缝检测方法和存储介质 | |
CN113435594B (zh) | 安防检测模型训练方法、装置、设备及存储介质 | |
CN111598055A (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN111062324A (zh) | 人脸检测方法、装置、计算机设备和存储介质 | |
CN109711381B (zh) | 遥感图像的目标识别方法、装置和计算机设备 | |
CN111191533A (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN110766027A (zh) | 图像的区域定位方法和目标区域定位模型的训练方法 | |
CN111666931A (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN112115860B (zh) | 人脸关键点定位方法、装置、计算机设备和存储介质 | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN112241646A (zh) | 车道线识别方法、装置、计算机设备和存储介质 | |
CN110222752B (zh) | 图像处理方法、系统、计算机设备、存储介质和芯片 | |
CN112560864A (zh) | 图像语义分割方法、装置及图像语义分割模型的训练方法 | |
CN110188813B (zh) | 图像特征分类方法、计算机设备和存储介质 | |
CN115223012A (zh) | 一种去遮罩人脸恢复的方法、装置、计算机设备和介质 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110084766A (zh) | 一种图像处理方法、装置和电子设备 | |
CN112580656A (zh) | 一种端到端的文本检测方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200828 |