CN112801045A - 一种文本区域检测方法、电子设备及计算机存储介质 - Google Patents
一种文本区域检测方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112801045A CN112801045A CN202110291099.5A CN202110291099A CN112801045A CN 112801045 A CN112801045 A CN 112801045A CN 202110291099 A CN202110291099 A CN 202110291099A CN 112801045 A CN112801045 A CN 112801045A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- convolution
- generate
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种文本区域检测方法、电子设备及计算机存储介质。根据本申请实施例提供的文本区域检测方案,对待识别图像进行的第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,进而融合所述第一特征图像和所述第二特征图像,生成目标特征图像,从而基于目标特征图像预测得到中心点的坐标值,以及,基于第二特征图像预测得到边界点相对于所述中心点的坐标值的偏移量,进而确定得到边界点的坐标值,并根据所述边界点的坐标值确定文本区域。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本区域检测方法、电子设备及计算机存储介质。
背景技术
在针对文本区域(即用户手写输入所产生的文字区域)的检测中,经常会出现文本区域非常密集的实际应用场景。例如,在一张小学生的算术练习册上,可能一张图像上就有100个左右的文本区域。
常规方式中进行文本区域的检测,主要包括基于滑动窗口的文本检测方法,以及,基于计算连通域的方法。基于滑动窗口的文本检测方法需要耗费大量计算资源进行遍历搜索,以及对每个搜索框进行分类判定,计算量过大,耗时较长;而基于计算连通域的方法需要涉及大量的计算和调优。
在图像中的文本区域不多的情形下,常规方式还可以接受。但是随着文本框数量的增长,常规的检测方式的速度下降明显,无法满足实际应用场景的速度需求。基于此,需要一种更快速的文本区域检测方案。
发明内容
有鉴于此,本申请实施例提供一种文本区域检测方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种文本区域检测方法,包括:
获取待识别图像;对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;融合所述第一特征图像和所述第二特征图像,生成目标特征图像;根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;根据所述边界点的坐标值确定文本区域。
根据本申请实施例的第二方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的文本区域检测方法对应的操作。
根据本申请实施例的第三方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本区域检测方法。
根据本申请实施例提供的文本区域检测方案,对待识别图像进行的第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,进而融合所述第一特征图像和所述第二特征图像,生成目标特征图像,从而基于目标特征图像预测得到中心点的坐标值,以及,基于第二特征图像预测得到边界点相对于所述中心点的坐标值的偏移量,进而确定得到边界点的坐标值,并根据所述边界点的坐标值确定文本区域。通过本申请实施例所提供的方案,使用更加合理的卷积核强化提取特征,从而提取到更为精准的特征表达,同时,基于边界点相对于中心点的偏移量来确定边界点的坐标值,实现检测加速,从而提升了对于文本区域的检测速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种文本区域检测方法的流程示意图;
图2为本申请实施例所提供的进行第一卷积和第二卷积的示意图;
图3为本申请实施例所提供的一种内缩文本区域的示意图;
图4为本申请实施例所提供的一种具体的实施方式的示意图;
图5为本申请实施例所提供的一种电子设备的结构示意图;
图6为本申请实施例所提供的一种文本区域检测装置的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
如图1所示,图1为本申请实施例所提供的一种文本区域检测方法的流程示意图,包括:
S101,获取待识别图像。
待识别图像通常是包含有密集文本区域(即大量用户输入所产生的文本区域)的图像,例如,在线上教育中,经常需要对学生所产生的手写试卷进行区域检测,以便评分。
S103,对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像。
该部分也可以称为特征提取部分,即特征提取部分包含有两个分支,第一分支和第二分支。
在第一分支对所述待识别图像执行第一卷积操作,提取得到特征,并且将提取到的特征使用多次FPEM模块进行处理,从而得到第一特征图像,提取得到的第一特征图像可以采用是基于一个卷积处理模块所提取得到的特征图像,也可以是基于多个并行卷积处理模块所对应得到的多个子特征图像所融合得到。例如,可以采用包含多个块的基础网络模型对所述待识别图像分别进行卷积,生成对应于所述多个块的多个相同或者不同大小的第一子特征图像,然后融合所述多个第一子特征图像,生成所述第一特征图像。
在第二分支中同样是对所述待识别图像执行相应的卷积操作,提取得到特征,并且将提取到的特征使用多次FPEM模块进行处理,从而得到第二特征图像。
与第一分支所不同的地方在于,在第一分支中进行的卷积是常规方式的卷积,而在第二分支中进行第二卷积时采用的是包含有偏移量矩阵的卷积核进行第二卷积,所述偏移量矩阵用于指示在第二卷积时的卷积位置(即卷积的主点)的偏移量。同时,该包含偏移量矩阵的卷积核的规格是预先指定的,以及偏移量矩阵中所包含的偏移量是基于第一特征图像中所预测得到的。如图2所示,图2为本申请实施例所提供的进行第一卷积和第二卷积的示意图。
具体而言,在第二分支中可以则使用两层双向循环神经网络(例如,双向长短期记忆人工神经网络(Long Short-Term Memory,LSTM))和一个Resnet18组成,其中双向LSTM以第一个分支的每个block的输出作为输入,采用多对多的形式(即多个时间步输入,对应多个输出),预测得到一个卷积核的大小。即将所述多个第一子特征图像作为预设的双向长短期记忆人工神经网络的并行输入,生成对应的多个输出值;根据所述多个输出值确定所述偏移量矩阵,生成包含所述偏移量矩阵的卷积核。
进而采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像。生成的第二特征图像的过程与生成第一特征图像的过程类似,同样可以是基于一个卷积处理模块所提取得到的特征图像,也可以是基于多个并行卷积处理模块所对应得到的多个子特征图像所融合得到的特征图像。在一种实施例中,所得到的第二特征图像和第一特征图像的规格是相同的。
S105,融合所述第一特征图像和所述第二特征图像,生成目标特征图像。
由于第一特征图像和所述第二特征图像的规格相同,因此可以串联所述第一特征图像和所述第二特征图像,或者采用诸如逐点相加再串联的方式来得到目标特征图像。如前所述,假设第一子特征图像的长宽规格是W*H,同时,基础网络模型有N个进行了特征提取,那么串联得到的第一特征图的规格即为W*H*N。那么,生成的目标特征图像的规格即为W*H*2N。
S107,根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值。
该部分可以视为中心点预测分支,用来预测中心点的坐标。具体而言,即可以如目标特征图像作为输入,对所述目标特征图像进行多次的卷积和多次的反卷积(例如,3次卷次操作和两次反卷积操作),生成包含与所述待识别图像相同规格的输出特征图像。输出特征图像可以是一个或者多个通道的特征图像,其中的至少一个通道即为区域中心点概率图。根据实际需要,在输出特征图像中还可以包含有其它通道的特征图像。
例如,输出特征图像为包含了2个通道的特征图像。此时,其中的第一个通道表示内缩文本区域概率图,在内缩文本区域概率图中表征了待识别图像中每一个点属于内缩文本区域(内缩文本区域指的是按照预设的缩小参数,将文本区域缩小后所形成的区域)的概率。如图3所示,图3为本申请实施例所提供的一种内缩文本区域的示意图。在线上教育的场景中,由于用户包括学生,在手写的情形下,经常会发生字迹重叠(即文本区域重合)的情形,通过设置内缩文本区域,即可以将重合的文本区域有效的进行区分。
第二个通道表示文本区域中心点概率图。在文本区域中心点概率图中表征了待识别图像中每一个点属于文本区域的中心点的概率。需要说明的是,对于一个文本区域而言,模型可能识别得到存在多个距离较近的中心点。
在输出特征图像中,文本区域中心点概率图和内缩文本区域概率图中的值都是属于[0,1]之间的数值。此时,可以对文本区域中心点概率图进行二值化为0或者1,即基于设定的阈值(例如,0.9),若一个点的概率值大于阈值即赋值为1,否则,赋值为0,从而得到二值化后的区域中心点概率图。对区域中心点概率图进行二值化可以便于确定区域中心点概率图中的中心点,从而可以快速确定得到以中心点所构成的连通域。
进而,可以确定所述二值化后的区域中心点概率图中包含多个点的连通域,根据所述连通域中所包含的多个点的坐标值确定区域中心点的坐标值,例如,将连通域中所包含的多个点的坐标值的均值或者与连通域中其它点的距离最小的点的坐标值确定区域中心点的坐标值,得到的中心点的坐标值为一个。
此外需要说明的是,对于该部分中所包含的两个通道,在训练和部署中可使用交并比值(DiceLoss)作为目标损失函数。
S109,根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值、
该部分即为边界点的偏移量预测分支。在该部分,包含一层lstm网络,以第二特征图像作为输入。具体操作为使用1*1*2k的卷积核在输入特征上滑动,k为待预测的边界点的数量(k通常不少于4,例如,通常k可以取14),每次得到的向量作为lstm网络一个时间步的输入,一整行的卷积结果作为一个完整输入。
对于输入的第二特征图像,其规格为W*H*N,因此,此时得到的完整输入的规格即为(W*H*2k,即一共有H组完整输入,其中h大于训练集中任意一张图上的所有文本区域数量),lstm网络的输出为k个二维向量(中心点的坐标值实际上也是个二维向量),每个二维向量均表示了一个边界点的坐标值相对于文本区域中心点坐标值的偏移量。
进而,可以直接分别相加所述中心点的坐标值和所述k个二维向量,生成对应的k个边界点的坐标值。或者,还可以基于预设的加权参数,对所述中心点的坐标值和k个二维向量进行加权参数的加权求和,而得到的k个边界点的坐标值。
在该部分中,在模型的训练和部署中可以采用使用平滑L1损失函数作为目标损失函数。
S111,根据所述边界点的坐标值确定文本区域。
具体而言,即可以连接所述多个边界点所得到的区域确定为文本区域;或者,基于预设的外扩参数(外扩参数与前述的预设的缩小参数的乘积为1)和所述边界点到所述边界点的距离,沿所述中心点到所述边界点的连线对所述边界点进行外扩,生成外扩后的多个边界点,将连接所述外扩后的多个边界点所得到的区域确定为文本区域。
例如,假设中心点的坐标为(0,0),一个边界点的坐标为(0,1),外扩参数为2.5,则外扩后的该边界点的坐标即为(0,2.5)。文本区域外扩的示意同样可以参见图3,即为内缩的反向示意。
根据本申请实施例提供的文本区域检测方案,对待识别图像进行的第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,进而融合所述第一特征图像和所述第二特征图像,生成目标特征图像,从而基于目标特征图像预测得到中心点的坐标值,以及,基于第二特征图像预测得到边界点相对于所述中心点的坐标值的偏移量,进而确定得到边界点的坐标值,并根据所述边界点的坐标值确定文本区域。通过本申请实施例所提供的方案,使用更加合理的卷积核强化提取特征,从而提取到更为精准的特征表达,同时,基于边界点相对于中心点的偏移量来确定边界点的坐标值,实现检测加速,从而提升了对于文本区域的检测速度。
在一种实施例中,可以采用包含多个块的基础网络模型对所述待识别图像进行第一卷积,而得到第一特征图像。
具体而言,首先采用包含多个块(例如,4个块,可根据需要进行设定)的基础网络模型(例如,可以采用Resnet18模型)对所述待识别图像分别进行卷积,对输入的待识别图像中提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的多通道子特征图像表征,其提取到的特征依次为原始输入的待识别图像的1/4、1/8、1/16和1/32,从而生成对应所述多个块的多个不同大小的正向特征图像。按照从大到小的,从前往后的次序,依次称该4组特征图像为正向第一、正向第二、正向第三、正向第四特征图像。
然后采用多个特征融合模块(Feature Fusion EnhanceModule,FFEM,例如,可采用两个FFEM模块,具体数量可根据需要进行设定)对正向第一、正向第二、正向第三、正向第四特征图像进行诸如图像上采样/下采样、按照通道逐点相加、深度可分离卷积、批归一化和激活函数等操作之后,从而生成得到4个不同大小(分别是原始输入的待识别图像的1/4、1/8、1/16和1/32)的第一子特征图像。
具体而言,第一个FFEM模块可以先对正向第四组特征图像进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征图像按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征图像,同样的操作用于反向第二组特征图像和正向第二组特征图像得到反向第三组特征图像,然后同样的操作作用于反向第三组特征图像和正向第一组特征图像,得到反向第四组特征图像,同时将正向第四组特征图像视为反向第一组特征图像,由此得到4组反向特征图像;将第四组反向特征图像作为目标第一组特征图像,然后对目标第一组特征图像进行 2倍下采样,即大小缩小2倍,然后将其与反向第三组特征图像按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征图像,同样的操作作用于目标第二组特征图像和反向第二组特征图像,得到目标第三组特征图像,然后同样的操作作用于目标第三组特征图像和反向第一组特征图像,得到目标第四组特征图像,目标第一、目标第二、目标第三和目标第四组特征图像便是FFEM模块的输出;第2个FFEM模块是以第1个FFEM模块的输出作为输入,进行与前述方式同样的操作,得到输出,即为4个不同大小的第一子特征图像。
此时,即可以对第一子特征图像分别进行上采样(即放大)至相同规格(例如,放大至待识别图像的1/4大小,即与正向第一特征图像大小相同)。并串联所述上采样后的多个第一子特征图像,生成包含所述多个第一子特征图像的第一特征图像。在第一分支中,假设第一子特征图像的长宽规格是W*H,同时,基础网络模型有N个进行了特征提取,那么串联得到的第一特征图像的规格即为W*H*N。
进一步地,对于第二特征图像也可以采用类似于前述的方式而得到,即根据所述偏移量矩阵确定卷积时的偏移量;采用包含多个块的基础网络模型根据所述偏移量对所述待识别图像分别进行卷积,生成对应所述多个块的多个不同大小的第二子特征图像;对所述多个不同大小的第二子特征图像进行上采样,生成相同规格的上采样后的多个第二子特征图像;串联所述上采样后的多个第二子特征图像,生成所述第二特征图像。
在这种方式下由于融合了多个块的卷积结果,因此所得到的第一特征图像和/或第二特征图像中所包含的特征更为丰富。
在一种实施例中,还可以根据内缩文本区域概率图确定内缩文本区域。即对内缩文本区域概率图进行二值化,并基于二值化后的内缩文本区域概率图求连通域,而得到内缩文本区域。进而,对于基于中心点的坐标和偏移量所得到的任一边界点,如果该边界点的坐标值不处于所述内缩文本区域中,那么则需要剔除掉该边界点,并且,从内缩文本区域中找到与该被剔除的边界点距离最近的另一点,并将所述的另一点确定为边界点。通过该方式可以有效的对错误识别而得到的边界点进行过滤,提高文本识别区域的准确性。如图4所示,图4为本申请实施例所提供的一种具体的实施方式的示意图。
本实施例的文本区域检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
本申请实施例的第二方面,还提供了一种电子设备,如图5所示,图5为本申请实施例所提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述文本区域检测方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取待识别图像;
对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;
融合所述第一特征图像和所述第二特征图像,生成目标特征图像;
根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;
根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;
根据所述边界点的坐标值确定文本区域。
程序510中各步骤的具体实现可以参见上述文本区域检测方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例的第三方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中所述的文本区域检测方法。
本申请实施例的第四方面,还提供了一种文本区域检测装置,如图6所示,图6为本申请实施例所提供的一种文本区域检测装置的结构示意图,包括:
获取模块601,获取待识别图像;
特征提取模块603,对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;
目标特征生成模块605,融合所述第一特征图像和所述第二特征图像,生成目标特征图像;
中心点预测模块607,根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;
边界点确定模块609,根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;
文本区域确定模块611,根据所述边界点的坐标值确定文本区域。
本实施例的文本区域检测装置用于实现前述多个方法实施例中相应的文本区域检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的文本区域检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本区域检测方法。此外,当通用计算机访问用于实现在此示出的文本区域检测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本区域检测方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (12)
1.一种文本区域检测方法,包括:
获取待识别图像;
对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;
融合所述第一特征图像和所述第二特征图像,生成目标特征图像;
根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;
根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;
根据所述边界点的坐标值确定文本区域。
2.如权利要求1所述的方法,其中,对所述待识别图像进行第一卷积,生成第一特征图像,包括:
采用包含多个块的基础网络模型对所述待识别图像分别进行卷积,生成对应于所述多个块的多个不同大小的第一子特征图像;
对所述多个不同大小的第一子特征图像进行上采样,生成相同规格的上采样后的多个第一子特征图像;
串联所述上采样后的多个第一子特征图像,生成所述第一特征图像。
3.如权利要求2所述的方法,其中,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,包括:
将所述多个第一子特征图像作为预设的双向长短期记忆人工神经网络的并行输入,生成对应的多个输出值;
根据所述多个输出值确定所述偏移量矩阵,生成包含所述偏移量矩阵的卷积核。
4.如权利要求3所述的方法,其中,采用包含偏移量矩阵的卷积核所述对所述待识别图像进行第二卷积,生成第二特征图像,包括:
根据所述偏移量矩阵确定卷积时的偏移量;
采用包含多个块的基础网络模型根据所述偏移量对所述待识别图像分别进行卷积,生成对应所述多个块的多个不同大小的第二子特征图像;
对所述多个不同大小的第二子特征图像进行上采样,生成相同规格的上采样后的多个第二子特征图像;
串联所述上采样后的多个第二子特征图像,生成所述第二特征图像。
5.如权利要求1所述的方法,其中,根据所述目标特征图像生成输出特征图像,包括:
对所述目标特征图像进行卷积和反卷积,生成包含与所述待识别图像相同规格的包含区域中心点概率图的输出特征图像。
6.如权利要求5所述的方法,其中,根据所述输出特征图像确定中心点的坐标值,包括:
将所述区域中心点概率图进行二值化,生成二值化后的区域中心点概率图;
确定所述二值化后的区域中心点概率图中由中心点所构成的连通域,根据所述连通域中所包含的多个点的坐标值确定区域中心点的坐标值。
7.如权利要求1所述的方法,其中,根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,包括:
采用预设规格的卷积核对所述第二特征图像进行卷积,生成多个特征向量;
将每一个特征向量作为预设的双向长短期记忆人工神经网络LSTM的一个时间步的输入,以及,将采用所述预设规格的卷积核对于所述第二特征图像的一行卷积的结果作为所述LSTM的一组输入,生成对应于边界点数量的多个二维向量,其中,所述二维向量表征了所述边界点相对于所述中心点的坐标值的偏移量。
8.如权利要求7所述的方法,其中,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值,包括:
分别相加所述中心点的坐标值和所述多个二维向量,生成对应的多个边界点的坐标值。
9.如权利要求8所述的方法,其中,所述输出特征图像还包括内缩文本区域概率图,所述方法还包括:
根据所述内缩文本区域概率图确定内缩文本区域;
针对任一边界点,当该边界点的坐标值不处于所述内缩文本区域中时,剔除该边界点;
以及,将所述内缩文本区域中与该被剔除的边界点距离最近的另一点确定为边界点。
10.如权利要求1所述的方法,其中,根据所述边界点的坐标值确定文本区域,包括:
连接多个所述边界点所得到的区域确定为文本区域;或者,
基于预设的外扩参数,沿所述中心点到所述边界点的连线对所述边界点进行外扩,生成外扩后的多个边界点,将连接所述外扩后的多个边界点所得到的区域确定为文本区域。
11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的文本区域检测方法对应的操作。
12.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一所述的文本区域检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291099.5A CN112801045B (zh) | 2021-03-18 | 2021-03-18 | 一种文本区域检测方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291099.5A CN112801045B (zh) | 2021-03-18 | 2021-03-18 | 一种文本区域检测方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801045A true CN112801045A (zh) | 2021-05-14 |
CN112801045B CN112801045B (zh) | 2021-07-16 |
Family
ID=75817220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110291099.5A Active CN112801045B (zh) | 2021-03-18 | 2021-03-18 | 一种文本区域检测方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801045B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN110321893A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种聚焦增强的场景文本识别网络 |
CN110443258A (zh) * | 2019-07-08 | 2019-11-12 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111275034A (zh) * | 2020-01-19 | 2020-06-12 | 世纪龙信息网络有限责任公司 | 从图像中提取文本区域的方法、装置、设备和存储介质 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
WO2020194004A1 (en) * | 2019-03-28 | 2020-10-01 | The Nielsen Company (Us), Llc | Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis |
CN111797821A (zh) * | 2020-09-09 | 2020-10-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112016551A (zh) * | 2020-10-23 | 2020-12-01 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112241736A (zh) * | 2019-07-19 | 2021-01-19 | 上海高德威智能交通系统有限公司 | 一种文本检测的方法及装置 |
-
2021
- 2021-03-18 CN CN202110291099.5A patent/CN112801045B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
WO2020194004A1 (en) * | 2019-03-28 | 2020-10-01 | The Nielsen Company (Us), Llc | Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN110321893A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种聚焦增强的场景文本识别网络 |
CN110443258A (zh) * | 2019-07-08 | 2019-11-12 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN112241736A (zh) * | 2019-07-19 | 2021-01-19 | 上海高德威智能交通系统有限公司 | 一种文本检测的方法及装置 |
CN111275034A (zh) * | 2020-01-19 | 2020-06-12 | 世纪龙信息网络有限责任公司 | 从图像中提取文本区域的方法、装置、设备和存储介质 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111797821A (zh) * | 2020-09-09 | 2020-10-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112016551A (zh) * | 2020-10-23 | 2020-12-01 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
CN113139625B (zh) * | 2021-05-18 | 2023-12-15 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112801045B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN112336342B (zh) | 手部关键点检测方法、装置及终端设备 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN111461170A (zh) | 车辆图像检测方法、装置、计算机设备及存储介质 | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
CN113361567B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN112861678B (zh) | 一种图像识别方法及装置 | |
CN116071625B (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN112749576A (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
CN111401335A (zh) | 一种关键点检测方法及装置、存储介质 | |
CN112419249B (zh) | 一种特殊服饰图片转化方法、终端设备及存储介质 | |
CN111967460B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN114913330A (zh) | 点云部件分割方法、装置、电子设备与存储介质 | |
CN116563898A (zh) | 基于GhostNet网络的掌静脉图像识别方法、装置、设备及介质 | |
CN111259753A (zh) | 人脸关键点处理方法及装置 | |
CN112528899A (zh) | 基于隐含深度信息恢复的图像显著性物体检测方法及系统 | |
CN112200774A (zh) | 图像识别设备 | |
CN112101347A (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN112668582B (zh) | 图像识别方法、装置、设备和存储介质 | |
CN110705479A (zh) | 模型训练方法和目标识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |