CN111797821B - 文本检测方法、装置、电子设备及计算机存储介质 - Google Patents
文本检测方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111797821B CN111797821B CN202010942864.0A CN202010942864A CN111797821B CN 111797821 B CN111797821 B CN 111797821B CN 202010942864 A CN202010942864 A CN 202010942864A CN 111797821 B CN111797821 B CN 111797821B
- Authority
- CN
- China
- Prior art keywords
- text
- region
- image
- vertex
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 121
- 238000000605 extraction Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000010606 normalization Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质,该文本检测方法通过对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征,梯度图像可以强化待检测文本图像中文本所在部分的特征,使得提取的特征更加准确,根据文本特征预测得到文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;进而根据中心区域的原始坐标和预测的中心区域的顶点偏移量,确定文本区域的候选坐标;再基于候选坐标与文本区域二值图之间的关系对候选坐标进行验证,从而获得文本检测结果,通过上述方法,提高了文本检测的准确性,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本检测方法、装置、电子设备及计算机存储介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定。
但是,这种方法计算量过大,不仅需要耗费大量计算资源,而且耗时较长,降低文本检测的速度。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置、电子设备及计算机存储介质,用以克服现有技术中在检测文本时耗费大量计算资源、耗时较长的缺陷。
第一方面,本申请实施例提供了一种文本检测方法,所述方法包括:
对待检测文本图像和所述待检测文本图像的梯度图像进行特征提取获得文本特征,根据所述文本特征预测得到所述待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;
获取所述文本区域阈值图对应的文本区域二值图和所述中心区域图对应的中心区域的原始坐标;
根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标;
根据所述文本区域的候选坐标和所述文本区域二值图,获得所述待检测文本图像的文本检测结果。
第二方面,本申请实施例提供了一种文本检测装置,所述装置包括特征提取模块,获取模块,候选坐标确定模块,结果获取模块;
所述特征提取模块用于对待检测文本图像和所述待检测文本图像的梯度图像进行特征提取获得文本特征,根据所述文本特征预测得到文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;
所述获取模块用于获取所述文本区域阈值图对应的文本区域二值图和所述中心区域图对应的中心区域的原始坐标;
所述候选坐标确定模块用于根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标;
所述结果获取模块用于根据所述文本区域的候选坐标和所述文本区域二值图,获得所述待检测文本图像的文本检测结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面所述的文本检测方法对应的操作。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本检测方法。
本申请实施例中,通过对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征,根据文本特征预测得到待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;获取文本区域阈值图对应的文本区域二值图和中心区域图对应的中心区域的原始坐标;根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标;根据文本区域的候选坐标和文本区域二值图,获得待检测文本图像的文本检测结果。本申请实施例是基于待检测文本图像及其梯度图像分别提取文本特征,其中的梯度图像可以强化待检测文本图像中文本所在部分的特征,使得提取的特征更加准确;进而,根据中心区域的原始坐标和预测的中心区域的顶点偏移量确定文本区域的候选坐标,再基于候选坐标与文本区域二值图之间的关系对候选坐标进行验证,从而获得文本检测结果。可见,通过本申请实施例的方案,强化了文本特征,提高了文本检测的准确性,无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本检测方法的流程图;
图2为本申请实施例提供的另一种文本检测方法的流程图;
图3为本申请实施例提供的再一种文本检测方法的流程图;
图4为本申请实施例提供的一种文本检测装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的多个指两个及两个以上,例如,多个像素点的坐标。本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一文本特征、第二文本特征,第一分支、第二分支,第一残差网络、第二残差网络,第一注意力层、第二注意力层,第一损失值、第二损失值、第三损失值、第四损失值等。
下面结合附图进一步说明本申请实施例的具体实现。
实施例一、
本申请实施例一提供一种文本检测方法,如图1所示,图1为本申请实施例提供的一种文本检测方法的流程图,该文本检测方法包括以下步骤:
步骤101、对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征,根据文本特征预测得到待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图。
首先需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
待检测文本图像的梯度图像能有效保留文本图像的高频信息,示例的,该高频信息可以是边缘、角点等信息,同时能够过滤掉低频信息,该低频信息可以是图像中变化不明显的部分。通过对待检测文本图像和其对应的梯度图像进行特征提取,提高了获得的文本特征的准确性。
根据文本特征预测得到的文本区域阈值图表示每个像素点距离真实的文本区域框的距离,若进行了归一化操作,则其表现为距离是0到1之间的数值;文本区域的中心区域可以采用像素点表示,例如,可以为采用正方形排列的四个像素点,可以理解的是,也可以用其他数量的像素点表征一个中心区域,如仅用一个像素点表征中心区域。偏移量特征图通过预估的偏移量特征生成,用于预估中心区域内的像素点相对于可能的文本框顶点的距离,该偏移量包括横坐标偏移量和纵坐标偏移量,文本框顶点可以包括文本框左上顶点、左下顶点、右上顶点和右下顶点。
在根据文本特征预测得到待检测文本图像的中心区域的顶点偏移量特征图时,可选的,在本申请的一种实施例中,根据文本特征预测得到待检测文本图像的中心区域的原始顶点偏移量特征;对原始顶点偏移量特征进行取对数操作,根据取对数操作结果获得待检测文本图像的中心区域的顶点偏移量特征图。
此处需要说明的是,示例的,顶点偏移量特征图可以实现为8维向量,表征中心区域内的像素点到其对应的预估文本框左上顶点、左下顶点、右上顶点和右下顶点的距离,这个距离的距离值可能是几个像素值、几十个像素值,而文本区域阈值图中每个像素点的值都是0到1之间的数,因此可以对根据文本特征预测得到的原始顶点偏移量特征进行取对数操作,以便于数据的统一处理。
步骤102、获取文本区域阈值图对应的文本区域二值图和中心区域图对应的中心区域的原始坐标。
对文本区域阈值图进行二值化操作可获得文本区域二值图,具体的二值化操作可采用任意适当方式实现,例如,可以根据预设值对文本区域阈值图进行二值化,从而获得文本区域二值图等。其中用到的预设值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中的像素点被有效区分即可,一种可实现的方式中,当使用文本检测模型时,预设值可以根据文本检测模型训练阶段时的阈值设定;另一种可实现的方式中,预设值可以通过对大量的文本区域阈值图或中心区域图进行二值化处理中,对使用的大量阈值的分析确定。
在获取中心区域图对应的中心区域的原始坐标时,可选的,在本申请的一种实施例中,对中心区域图进行二值化,得到中心区域二值图;对中心区域二值图求连通域,得到中心区域的原始坐标。
对中心区域图的二值化操作可采用任意适当方式实现,例如,可以根据预设值对中心区域图进行二值化,从而获得中心区域二值图。如前所述,其中用到的预设值可以由本领域技术人员根据实际需求适当设置。
通过二值化的方式,可以有效提取与文本检测相关的特征,提高数据处理效率,减少因无用数据处理而导致的系统消耗。
在得到中心区域二值图之后,对中心区域二值图求连通域,得到中心区域的每个像素点位置,可以选取其中的一个像素点或多个像素点表征该中心区域,即选取其中的一个像素点或多个像素点的坐标表征该中心区域的原始坐标。示例的,选取中心区域的中心点的坐标表征该中心区域的原始坐标,或者,选取中心区域对应的正方形的对角上的两个顶点的坐标表征该中心区域的原始坐标,或者,选取中心区域对应的正方形的四个顶点的坐标表征该中心区域的原始坐标。通过求取连通域获得中心区域的原始坐标的方式,既保证了中心区域的原始坐标的准确性,也提高了中心区域的原始坐标获取的速度和效率。
步骤103、根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标。
中心区域的原始坐标包括原始横坐标和原始纵坐标,顶点偏移向量包括横坐标偏移量和纵坐标偏移量,根据原始横坐标与对应的顶点横坐标偏移量可以得到该顶点的候选横坐标,根据原始纵坐标与对应的顶点纵坐标偏移量可以得到该顶点的候选纵坐标。
可选的,在本申请的一种实施例中,当中心区域的原始坐标包括一个像素点的坐标时,将该像素点的坐标,分别与顶点偏移量特征图指示的四个顶点偏移量相加,得到文本区域的四个顶点的候选坐标;或者,当中心区域的原始坐标包括多个像素点的坐标时,将多个像素点中的每个像素点的坐标,分别与每个像素点对应的偏移量特征图所指示的四个顶点偏移量相加,得到文本区域的四个顶点的候选坐标。
当中心区域的原始坐标包括一个像素点的坐标时,示例的,选取中心区域的中心点的坐标表征中心区域的原始坐标,针对文本区域的每个顶点,将中心点的横纵坐标分别与顶点横纵坐标偏移量相加,得到顶点的候选横纵坐标,按照上述判断方法,可以得到文本区域的四组候选横纵坐标,其中,文本区域的一个顶点对应一组候选横纵坐标。例如,以像素点S表征中心区域,像素点S的坐标(A,B)即为中心区域的原始坐标,设定像素点S对应的顶点偏移量分别为(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4),则获得的文本区域的四个顶点的候选坐标分别为(A+X1,B+Y1)、(A+X2,B+Y2)、(A+X3,B+Y3)和(A+X4,B+Y4)。此种方式中,以一个像素点表征中心区域,减轻了后续数据处理的负担,提高了数据处理速度。
当中心区域的原始坐标包括多个像素点的坐标时,示例的,可选取中心区域对应的正方形的四个顶点的坐标表征该中心区域的原始坐标,可以理解的是,也可以选取文本区域内的2个像素点的坐标表征中心区域的原始坐标,或者,选取6个像素点的坐标表征中心区域的原始坐标,对此本申请实施例不做限制,仅是以中心区域对应的正方形的四个顶点的坐标表征该中心区域的原始坐标为例进行说明。针对中心区域对应的正方形的每个顶点,将该每个顶点的横纵坐标均与四个顶点横纵坐标偏移量相加,可以得到文本区域的十六组候选横纵坐标,其中,文本区域的一个顶点对应四组候选横纵坐标。此种方式中,以多个像素点表征中心区域,提高了中心区域确定的准确度。
例如,以像素点S1、S2、S3、S4表征中心区域,像素点S1的坐标(A1,B1),像素点S2的坐标(A2,B2),像素点S3的坐标(A3,B3),像素点S4的坐标(A4,B4),中心区域的原始坐标即可通过该四个像素点的上述坐标表征。设定像素点S1对应的顶点偏移量分别为(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4),像素点S2对应的顶点偏移量分别为(X5,Y5)、(X6,Y6)、(X7,Y7)和(X8,Y8),像素点S3对应的顶点偏移量分别为(X9,Y9)、(X10,Y10)、(X11,Y11)和(X12,Y12),像素点S4对应的顶点偏移量分别为(X13,Y13)、(X14,Y14)、(X15,Y15)和(X16,Y16)。则,像素点S1对应的文本区域的四个顶点中的候选坐标分别为(A1+X1,B1+Y1)、(A1+X2,B1+Y2)、(A1+X3,B1+Y3)和(A1+X4,B1+Y4),像素点S2对应的文本区域的四个顶点中的候选坐标分别为(A2+X5,B2+Y5)、(A2+X6,B2+Y6)、(A2+X7,B2+Y7)和(A2+X8,B2+Y8),像素点S3对应的文本区域的四个顶点中的候选坐标分别为(A3+X9,B3+Y9)、(A3+X10,B3+Y10)、(A3+X11,B3+Y11)和(A3+X12,B3+Y12),像素点S4对应的文本区域的四个顶点中的候选坐标分别为(A4+X13,B4+Y13)、(A4+X14,B4+Y14)、(A4+X15,B4+Y15)和(A4+X16,B4+Y16)。基于此,获得的文本区域的四个顶点中的每个顶点都对应有一组(四个)候选坐标,例如,文本区域左上顶点的候选坐标为{(A1+X1,B1+Y1)、(A2+X5,B2+Y5)、(A3+X9,B3+Y9)、(A4+X13,B4+Y13)};文本区域右上顶点的候选坐标为{(A1+X2,B1+Y2)、(A2+X6,B2+Y6)、(A3+X10,B3+Y10)、(A4+X14,B4+Y14)};文本区域左下顶点的候选坐标为{(A1+X3,B1+Y3)、(A2+X7,B2+Y7)、(A3+X11,B3+Y11)、(A4+X15,B4+Y15)};文本区域右下顶点的候选坐标为{(A1+X4,B1+Y4)、(A2+X8,B2+Y8)、(A3+X12,B3+Y12)、(A4+X16,B4+Y16)}。后续,可以针对每个顶点的每组候选坐标进行相应处理如求平均等,以确定该顶点的最终坐标,具体可如步骤104中所述。
可选的,在本申请的一种实施例中,若之前对原始顶点偏移量特征进行过对数操作,则本步骤中,可对偏移量特征图对应的偏移量特征进行反对数操作,获得原始顶点偏移量特征;根据中心区域的原始坐标和原始顶点偏移量特征所指示的偏移量,确定文本区域的候选坐标。
需要说明的是,上述步骤101中为了便于数据的统一处理,对获取的原始顶点偏移量特征进行取对数操作,那么在确定文本区域的候选坐标时,需要对偏移量特征图对应的偏移量特征进行反对数操作,也就是指数操作,将偏移量特征图中的顶点偏移量还原成原始顶点偏移量,也就是得到原始顶点偏移量特征,进而根据中心区域的原始坐标和原始顶点偏移量特征所指示的偏移量确定文本区域的候选坐标,以使得到的候选坐标能代表文本区域的坐标。
步骤104、根据文本区域的候选坐标和文本区域二值图,获得待检测文本图像的文本检测结果。
在此列举两个示例进行说明,第一个示例,当某顶点的候选坐标位于文本区域二值图的边界框中时,根据该顶点的候选坐标确定文本区域的对应顶点。其中,在判断候选坐标是否位于文本区域二值图的边界框中时,可将候选坐标与边界框对应的像素点的坐标集合中的坐标进行比对,若在该坐标集合中,则认为候选坐标位于文本区域二值图的边界框中。
如前述某个文本区域X的中心区域的原始坐标包括一个像素点S的坐标为例进行说明,像素点S的坐标与四个顶点偏移量相加之后,得到四个候选点的坐标(A+X1,B+Y1)、(A+X2,B+Y2)(A+X3,B+Y3)和(A+X4,B+Y4),分别表示为候选点S1、S2、S3、S4,文本区域的候选坐标包括四个候选点的候选横纵坐标,文本区域的一个顶点对应一个候选点,若文本区域的每个顶点对应的每个候选点的坐标均在文本区域二值图的边界框中,则该候选点的坐标作为文本区域的一个顶点坐标,也就是说,以候选点S1为例,若候选点S1在文本区域二值图的文本区域X的边界框中,则候选点S1是文本区域X的一个顶点,按照上述判断方法,可以得到文本区域的其余三个顶点坐标。需要说明的是,若某个候选点不在的文本区域X的边界框中,则可放弃该候选点,依靠其它三个在文本区域X的边界框中的候选点确定文本区域。此种以一个像素点表征中心区域的方式,减轻了后续数据处理的负担,提高了数据处理速度。
第二个示例,针对四个顶点中的每个顶点,若多个像素点对应的该顶点的候选坐标均位于文本区域二值图的边界框中,并且,各个候选坐标之间的距离小于预设距离时,根据该顶点的候选坐标确定文本区域的对应顶点;根据确定的文本区域的各个顶点,获得待检测文本图像的文本检测结果。
如前述某个文本区域X的中心区域的原始坐标包括四个像素点S1、S2、S3、S4的坐标为例进行说明,像素点S1、S2、S3、S4分别与四个顶点偏移量相加之后,得到文本区域的四个顶点的十六个候选点的坐标,其中文本区域左上顶点的候选坐标为{(A1+X1,B1+Y1)、(A2+X5,B2+Y5)、(A3+X9,B3+Y9)、(A4+X13,B4+Y13)};文本区域右上顶点的候选坐标为{(A1+X2,B1+Y2)、(A2+X6,B2+Y6)、(A3+X10,B3+Y10)、(A4+X14,B4+Y14)};文本区域左下顶点的候选坐标为{(A1+X3,B1+Y3)、(A2+X7,B2+Y7)、(A3+X11,B3+Y11)、(A4+X15,B4+Y15)};文本区域右下顶点的候选坐标为{(A1+X4,B1+Y4)、(A2+X8,B2+Y8)、(A3+X12,B3+Y12)、(A4+X16,B4+Y16)},以像素点S11、S21、S31、S41表示左上顶点的四个候选点,以像素点S12、S22、S32、S42表示右上顶点的四个候选点,以像素点S13、S23、S33、S43左下顶点的四个候选点,以像素点S14、S24、S34、S44表示右下顶点的四个候选点,文本区域的候选坐标包括十六个候选点的候选横纵坐标,文本区域的一个顶点对应四个候选点,如果判断出表示文本区域的一个可能的顶点的四个候选点的候选坐标之间的距离小于预设距离,表示该四个候选点的候选坐标相互接近,那么接着判断文本区域的每个顶点对应的四个候选点的候选坐标是否在文本区域二值图的边界框中,若文本区域的每个顶点对应的四个候选点的候选坐标落在文本区域二值图的边界框中,则根据该四个候选点坐标确定文本区域的一个顶点,以左上顶点对应的四个候选点,即像素点S11、S21、S31、S41为例,先判断像素点S11、S21、S31、S41之间的距离是否小于预设距离,若像素点S11、S21、S31、S41之间的距离小于预设距离,接着判断候像素点S11、S21、S31、S41是否落在文本区域二值图的文本区域X的的边界框中,如果像素点S11、S21、S31、S41落在文本区域二值图的文本区域X的的边界框,则根据像素点S11、S21、S31、S41确定文本区域X的一个顶点,示例的,可以将像素点S11、S21、S31、S41中横纵坐标的平均值作为文本区域X的一个顶点坐标。按照上述判断方法,可以得到文本区域的其余三个顶点坐标。需要说明的是,若某四个候选点不在的文本区域X的边界框中,则可放弃该四个候选点,依靠其它十二个在文本区域X的边界框中的候选点确定文本区域。本申请实施例中对这两个判断条件的执行步骤没有先后顺序的限制,在第二个示例中,仅是以第一个条件在前,第二个条件在后进行示例性说明,并不代表本申请实施例局限于此。此种以四个顶点表征中心区域的方式,并且加入了两个判断条件,从而提高了得到文本区域的顶点坐标的准确性。
可见,在第二个示例中,加入了两个判断条件,第一个条件中首先判断表示文本区域的一个可能的顶点的四个候选点的候选坐标之间的距离是否小于预设距离,也即是否足够接近;进而,第二个条件中又判断了文本区域的每个顶点对应的四个候选点的候选坐标是否在文本区域二值图的边界框中,当两个条件同时满足时,才将四个候选点的候选坐标为文本框的一个顶点,从而提高了得到文本区域的顶点坐标的准确性。
其中,在根据该四个候选点确定文本区域的一个顶点时,本申请实施例中将四个候选点的候选坐标的平均值作为该文本区域的一个顶点坐标,按照上述判断方法,可以得到文本区域的四个顶点坐标。在得到待检测文本图像中每个文本区域的顶点坐标之后,可以根据每个文本区域的顶点坐标对文本图像中的文本区域进行复制或剪切等处理,获得待检测文本图像的文本检测结果。
本申请实施例中基于待检测文本图像及其梯度图像分别提取文本特征,其中的梯度图像可以强化待检测文本图像中文本所在部分的特征,使得提取的文本特征更加准确的表征待检测文本图像,进而根据中心区域的原始坐标和预测的中心区域的顶点偏移量确定文本区域的候选坐标,再基于候选坐标与文本区域二值图之间的关系对候选坐标进行验证,从而获得文本检测结果,通过本申请实施例的方案,强化了文本特征,提高了文本检测的准确性,且无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
实施例二、
如图2所示,本申请实施例二基于实施例一的方案,其中的步骤101还可以实现为下述步骤101a-101e。
步骤101a、获取待检测文本图像和待检测文本图像的梯度图像。
步骤101b、将待检测文本图像和梯度图像输入文本检测模型。
本实施例中,文本检测模型包括第一分支和第二分支。其中,第一分支包括第一残差网络和第一注意力层,第二分支包括第二残差网络和第二注意力层。第一分支用于对待检测文本图像进行特征提取,第二分支用于对梯度图像进行特征提取。文本检测模型还包括后处理部分,该后处理部分基于提取到的特征进行后续处理,包括如实施例一中步骤102-104中所述的处理等,并最终获得文本检测结果。
其中,第一分支进行特征提取的处理如步骤101c所示,第二分支进行特征提取的处理如步骤101d所示。
步骤101c、通过第一分支,对待检测文本图像进行特征提取得到第一文本特征。
如前所述,第一分支包括第一残差网络和第一注意力层。在本申请的一种实施例中,通过第一残差网络对待检测文本图像进行特征提取,并通过第一注意力层对特征提取获得的特征进行注意力计算,获得第一文本特征。
在一种具体实现中,可以将待检测文本图像输入第一残差网络,进行第一特征图提取,获得第一特征图;将第一特征图上采样至原始的待检测文本图像的1/4大小并串联,然后经过第一注意力层进行注意力计算,得到带权重的一组特征,即第一文本特征。
步骤101d、通过第二分支,对梯度图像进行特征提取得到第二文本特征。
本实施例中,第二分支包括第二残差网络和第二注意力层。在本申请的一种实施例中,通过第二残差网络对梯度图像进行特征提取,并通过第二注意力层对特征提取获得的特征进行注意力计算,获得第二文本特征。
在一种具体实现中,可以将梯度图像输入第二残差网络,进行第二特征提取,获得第二特征图;将第二特征图上采样至原始的待检测文本图像1/4大小并串联,然后经过第二注意力层进行注意力计算,得到带权重的一组特征,即第二文本特征。
本申请中,残差网络可以是Resnet18网络,第一残差网络和第二残差网络共享参数,诸如模型的各种常规参数、权重、超参数等。
本申请实施例在每个Resnet18网络之后使用一个注意力(Attention)层,引入注意力机制,使得文本检测模型能够更好地关联上下文,提取出对文本检测最有用的特征。通过注意力层进行注意力计算,对每个特征赋予一个权重。因注意力机制通过对输入的特征向量进行线性变换,得到特征向量对应的Query、Key、Value,后文中分别以Q、K、V表示。示例的,权重值可以通过以下方式获取:假设a是输入的待检测文本图像,Q、K、V是a经过线性变换之后的3个特征向量,一种注意力计算处理,就是a分别和Q、K、V做一次点乘操作,得到3个结果Q1、K1、V1,3个结果经过softmax函数(也就是归一化函数),得到Q、K、V的权重信息分别为:Q1/(Q1+K1+V1)、K1/(Q1+K1+V1)、V1/(Q1+K1+V1)。
需要说明的是,上述步骤101c和步骤101d的执行可以不分先后顺序,也可以并行执行。
步骤101e、对第一文本特征和第二文本特征进行特征融合,获得与待检测文本图像和所梯度图像对应的文本特征。
例如,可将第一文本特征和第二文本特征进行串联,将串联后的特征进行一次卷积操作,两次反卷积操作,获得与待检测文本图像和所梯度图像对应的文本特征。
可选的,本实施例中包括的两个Resnet18网络分别称为第一Resnet18网络和第二Resnet18网络。每个Resnet18网络包括4个串联的block块,每个block块包括若干层卷积操作,第一个block块输出的特征图大小为原始的待检测文本图像的1/4,第二个为原始的待检测文本图像1/8,第三个为原始的待检测文本图像1/16,第四个为原始的待检测文本图像1/32,为了平衡计算量,本申请实施例中每个block块输出的特征图数量都为64,然后将每个block块输出的特征图全部上采样至原始的待检测文本图像1/4大小,接着将第一Resnet18输出的4组特征图的特征串联起来,得到一组数量为256的特征,同理,将第二Resnet18输出的4组特征图的特征串联起来,得到一组数量为256的特征。然后,在每个Resnet18模型之后使用一个注意力层,通过注意力层为每个特征赋予权重,然后将经过注意力层后的两组带权重的特征串联在一起,得到一组512维的特征,对这组512维的特征做一次卷积,两次反卷积操作,获得与待检测文本图像和所梯度图像对应的文本特征,以便进一步根据文本特征输出一组跟原始的待检测文本图像大小一样特征,其通道数量为11。
进而,基于获得的文本特征进行后续如实施例一中的步骤102-104中所述的处理,在此不再赘述。
通过本实施例,以两个Resnet18网络作为基础网络模型,其中第一Resnet18网络的输入为待检测文本图像,第二Resnet18网络的输入为基于待检测文本图像生成的梯度图像。在提取文本图像特征时,基于对待检测文本图像和基于待检测文本图像生成的梯度图像分别提取特征,并进行特征融合,可以强化对文本检测任务有用的特征,也就是强化比背景信息重要的特征,例如边缘、角点信息,可以提高提取特征的准确性。进一步的,在每个Resnet18网络之后使用注意力层,提高了提取特征的有效性。
实施例三、
本实施例中,基于实施例二提供的文本检测方法,在将待检测文本图像和梯度图像输入文本检测模型之前,该文本检测方法还包括对文本检测模型的训练过程。可选的,可获取文本图像样本及文本图像样本对应的梯度图像样本;通过文本图像样本和梯度图像样本对文本检测模型进行训练。
在根据文本图像样本和梯度图像样本对文本检测模型进行训练时,将文本图像样本和梯度图像样本输入文本检测模型,通过文本检测模型对文本图像样本和梯度图像样本进行特征提取和融合,得到与文本图像样本对应的文本区域预测概率图、文本区域预测阈值图、文本区域的预测中心区域图、中心区域的顶点预测偏移量特征图;根据文本区域预测概率图和预设的二分类交叉熵损失函数,获得第一损失值;根据文本区域预测阈值图和预设的L1范数损失函数,获得第二损失值;根据文本区域的预测中心区域图和预设的交并比损失函数,获得第三损失值;以及根据顶点预测偏移量特征图和预设的L1平滑损失函数,获得第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对文本检测模型进行训练。
在一种具体实现中,将文本图像样本和文本图像样本对应的梯度图像样本输入文本检测模型,输出11通道特征,使用二分类交叉熵损失函数对第一个通道表示的文本区域预测概率图进行训练,获得第一损失值;使用L1范数损失函数对第二个通道表示的文本区域预测阈值图进行训练,获得第二损失值;使用交并比(DiceLoss)损失函数对第三个通道表示的整个文本区域的预测中心区域图进行训练,获得第三损失值;使用L1平滑损失函数对第四和第十一个通道表示中心区域的顶点预测偏移向量特征图进行训练,获得第四损失值。需要说明的是,通过训练,使得在第四和第十一个通道的特征图中,与中心区域的像素点在同一位置的像素点为非0值,其他与中心区域的像素点不在同一位置的像素点的值为0。也就是说,在处理训练数据的时候,只让一个中心区域的像素点对应的坐标位置用非零8位向量表征,其他不是中心区域的像素点的坐标位置都是全0向量,也就是不对其他与中心区域的像素点不在同一位置的像素点进行计算,有针对性的对中心区域的像素点进行训练,以便提高训练效率及训练结果的准确性。然后,根据第一损失值、第二损失值、第三损失值和第四损失值对文本检测模型进行训练。
进一步的,列举一个具体的示例对本申请实施例中对文本图像的文本检测进行说明,如图3所示,图3为本申请实施例提供的再一种文本检测方法的流程图,可以包括以下步骤:
步骤301、对待检测文本图像求梯度,得到梯度图像。
步骤302、将待检测文本图像输入第一残差网络(Resnet18网络),进行第一特征提取,获得第一特征图。
步骤303、将梯度图像输入第二残差网络(Resnet18网络),进行第二特征提取,获得第二特征图。
其中,步骤302和步骤303中的Resnet18网络的参数共享。
步骤304、将第一特征图上采样至待检测文本图像1/4大小并串联,然后通过第一注意力层对特征提取获得的特征进行注意力计算,获得第一文本特征。
步骤305、将提取到的第二特征图上采样至待检测文本图像1/4大小并串联,然后通过第二注意力层对特征提取获得的特征进行注意力计算,获得第一文本特征。
需要说明的是,本申请实施例中在根据待检测图像获得第一文本特征以及根据梯度图像获得第二文本特征时,没有先后顺序,可以同时执行,也可以按照步骤顺序执行,即,可以先执行步骤301、步骤303、步骤305,再执行步骤302、步骤304,也可以同时执行,对此本申请实施例不做限制。
步骤306、将步骤304得到的第一文本特征和步骤305得到的第二文本特征进行串联,也就是进行特征融合,得到串联后的特征。
步骤307、将串联后的特征进行一次卷积操作,两次反卷积操作,获得与待检测文本图像和所梯度图像对应的文本特征,根据文本特征预测得到11通道特征,第一个通道的特征图表示文本区域概率图,第二个通道的特征图表示文本区域阈值图,第三个通道的特征图表示整个文本区域的中心区域图,第四和第五个通道的特征图表示中心区域内的点相对于左上顶点的偏移向量(第四通道表示x轴偏移量,第五通道表示y轴偏移量),第六和第七个通道的特征图表示中心区域内的点相对于左下顶点的偏移向量(第六通道表示x轴偏移量,第七通道表示y轴偏移量),第八和第九个通道的特征图表示中心区域内的点相对于右上顶点的偏移向量(第八通道表示x轴偏移量,第九通道表示y轴偏移量),第十和第十一个通道的特征图表示中心区域内的点相对于右下顶点的偏移向量(第十通道表示x轴偏移量,第十一通道表示y轴偏移量)。
其中,根据文本特征预测得到的文本区域概率图表示待检测文本图像中的像素点属于文本或背景的概率;文本区域阈值图表示每个像素点距离真实的文本区域框的距离,若进行了归一化操作,则其表现为距离是0到1之间的数值;文本区域的中心区域可以采用像素点表示,例如,可以为采用正方形排列的四个像素点,可以理解的是,也可以用其他数量的像素点表征一个中心区域,如仅用一个像素点表征中心区域,或者用多个像素点表征中心区域。如果用一个像素点表征中心区域,那么在训练阶段和应用阶段中,该中心区域均是用一个像素点表征,并且在文本检测模型的应用阶段中不需要后面的步骤312和步骤313的误差矫正过程,此种方式中,以一个像素点表征中心区域,减轻了后续数据处理的负担,提高了数据处理速度。本申请实施例是以四个像素点表征中心区域为例进行说明,即提高了后续数据处理速度,也提高了中心区域确定的准确度。
此处需要说明的是,第四至第十一通道的特征,表征某像素点到其对应的标注文本框左上顶点、左下顶点、右上顶点和右下顶点的距离。在训练过程中,对第四至第十一通道的特征值都进行取对数操作。一个像素点对应的8维向量表征该像素点到其对应的标注文本框左上顶点、左下顶点、右上顶点和右下顶点的距离,这个距离的距离值可能是几个像素值、几十个像素值,但是文本区域概率图和文本区域阈值图中每个像素点的值都是0到1之间的数,因此可以对第四至第十一通道的特征值都进行取对数操作,可以使得在文本检测模型训练时,便于数据的统一处理,提高文本检测模型训练结果的准确性。
步骤308、根据设定值分别对第二通道特征表征的文本区域阈值图和第三通道特征表征的文本区域的中心区域图进行二值化,得到文本区域二值图和中心区域二值图。
如前所述,所述设定值可由本领域技术人员根据实际情况适当设置。
步骤309、对中心区域二值图求连通域,得到中心区域的原始坐标。
对中心区域二值图求连通域,得到中心区域的每个像素点位置,在此取4个像素点坐标表征该中心区域的原始坐标,这4个像素点可以是中心区域对应的正方形的四个顶点,可以理解的是,也可以用其他数量的像素点表征一个中心区域。通过求取连通域获得中心区域的原始坐标的方式,既保证了中心区域的原始坐标的准确性,也提高了中心区域的原始坐标获取的速度和效率。
步骤310、针对每个中心区域,将中心区域的原始坐标中每个像素点坐标分别与第四到第十一通道特征对应位置的坐标偏移量相加,得到每个中心区域对应的文本区域的十六个候选点的候选坐标,每四个候选点对应一个文本框顶点,其中文本框顶点可以包括文本框左上顶点、左下顶点、右上顶点和右下顶点。
需要说明的是,在步骤307中,因为在训练过程中,对第四至第十一通道的特征值都进行取对数操作,所以在训练阶段,步骤310中,还需要对第四至第十一通道的特征值进行反对数操作,即指数操作,将顶点偏移量还原到原始顶点偏移量,然后中心区域的每个像素点对应的坐标分别与第四到第十一通道对应位置的原始顶点偏移量相加,得到文本区域的十六个候选点的候选坐标。
步骤311、步骤310中每四个候选点表示一个文本框顶点,根据一定的误差范围,判断表示一个可能文本框顶点的四个候选点的候选坐标是否相互接近。
在判断表示一个可能文本框顶点的四个候选点的候选坐标是否相互接近时,也就是判断这四个候选点的候选坐标之间的距离是否在预设距离内,可选的,可以设置2个像素值为预设距离,若这四个候选点的候选坐标之间的距离为3个像素值,则这四个候选点的候选坐标相互不接近,说明这四个候选点的候选坐标不属于同一个文本区域,直接丢弃这个可能的文本区域;若这四个候选点的候选坐标之间的距离为1个像素值,则四个候选点的候选坐标相互接近,当四个候选点的候选坐标相互接近时,执行步骤312,可以理解的是,也可以以4个像素值为预设距离,对此本申请实施例不做限制。
步骤312、判断表示一个可能文本框顶点的四个候选点是否落在步骤308得到的文本区域二值图的边界框中。
步骤313、如果表示一个可能文本框顶点的四个候选点落在文本区域二值图的边界框中,那么取这四个候选点的候选坐标的平均值作为该文本框的一个顶点坐标,如果表示一个可能文本框顶点的四个候选点没有落在文本区域二值图的边界框中,则可放弃该四个候选点,依靠其它十二个在边界框中的候选点确定文本框。同理,得到该文本框的其余三个顶点坐标,从而得到一个文本框坐标。由此,即可获得文本检测结果。
通过本实施例,提升文本检测速度,实现了完全去掉基于分割的文本检测方法后处理操作,在对文本图像提取特征时,是基于两个Resnet18模型对待检测文本图像和基于待检测文本图像生成的梯度图像分别提取特征,其中的梯度图像可以强化待检测文本图像中文本所在部分的特征,使得提取的文本特征更加准确的表征待检测文本图像,并将待检测文本图像和梯度图像提取的特征通过注意力层,给每个特征赋予一个权重,挑选出对文本检测最有用的特征,并对赋予权重后的特征进行融合,使得提取的特征更加准确,能够准确表征输入的待检测文本图像;进而根据候选坐标点的候选坐标是否相互接近,以及,候选坐标点的候选坐标是否落在文本区域二值图的边界框中,确定最终文本区域;通过本申请实施例的方案,强化了文本特征,提高了文本检测的准确性,且无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
实施例四、
本申请实施例提供了一种文本检测装置,如图4所示,图4为本申请实施例提供的一种文本检测装置,装置40包括:特征提取模块401,获取模块402,候选坐标确定模块403,结果获取模块404;
特征提取模块401用于对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征,根据文本特征预测得到文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;
获取模块402用于获取文本区域阈值图对应的文本区域二值图和中心区域图对应的中心区域的原始坐标;
候选坐标确定模块403用于根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,获得文本区域的候选坐标;
结果获取模块404用于根据文本区域的候选坐标和文本区域二值图,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,特征提取模块401还用于获取待检测文本图像和待检测文本图像的梯度图像;将待检测文本图像和梯度图像输入文本检测模型,文本检测模型包括第一分支和第二分支;通过第一分支对待检测文本图像进行特征提取得到第一文本特征;通过第二分支对梯度图像进行特征提取得到第二文本特征;对第一文本特征和第二文本特征进行特征融合,获得与待检测文本图像和所梯度图像对应的文本特征。
可选的,在本申请的一种实施例中,第一分支包括第一残差网络和第一注意力层,第二分支包括第二残差网络和第二注意力层,特征提取模块401还用于通过第一残差网络对待检测文本图像进行特征提取,并通过第一注意力层对特征提取获得的特征进行注意力计算,获得第一文本特征;通过第二残差网络对梯度图像进行特征提取,并通过第二注意力层对特征提取获得的特征进行注意力计算,获得第二文本特征。
可选的,在本申请的一种实施例中,获取模块402还用于对中心区域图进行二值化,得到中心区域二值图;对中心区域二值图求连通域,得到中心区域的原始坐标。
可选的,在本申请的一种实施例中,候选坐标确定模块403还用于当中心区域的原始坐标包括一个像素点的坐标时,将一个像素点的坐标,分别与顶点偏移量特征图指示的四个顶点偏移量相加,得到文本区域的四个顶点的候选坐标;或者,当中心区域的原始坐标包括多个像素点的坐标时,将多个像素点中的每个像素点的坐标,分别与每个像素点对应的偏移量特征图所指示的四个顶点偏移量相加,得到每个像素点对应的四个顶点的候选坐标。
可选的,在本申请的一种实施例中,结果获取模块404还用于针对四个顶点中的每个顶点,若多个像素点对应的该顶点的候选坐标均位于文本区域二值图的边界框中,并且,各个候选坐标之间的距离小于预设距离时,根据该顶点的候选坐标确定文本区域的对应顶点;根据确定的文本区域的各个顶点,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,特征提取模块401还用于根据文本特征得到待检测文本图像的中心区域的原始顶点偏移量特征;对原始顶点偏移量特征进行取对数操作,根据取对数操作结果获得待检测文本图像的中心区域的顶点偏移量特征图。
可选的,在本申请的一种实施例中,候选坐标确定模块403还用于对偏移量特征图对应的偏移量特征进行反对数操作,获得原始顶点偏移量特征;根据中心区域的原始坐标和原始顶点偏移量特征所指示的偏移量,确定文本区域的候选坐标。
可选的,在本申请的一种实施例中,文本检测装置还包括训练模块,训练模块用于获取文本图像样本及文本图像样本对应的梯度图像样本;通过文本图像样本和梯度图像样本对文本检测模型进行训练。
可选的,在本申请的一种实施例中,训练模块还用于将文本图像样本和梯度图像样本输入文本检测模型,通过文本检测模型对文本图像样本和梯度图像样本进行特征提取和融合,得到与文本图像样本对应的文本区域预测概率图、文本区域预测阈值图、文本区域的预测中心区域图、中心区域的顶点预测偏移量特征图;根据文本区域预测概率图和预设的二分类交叉熵损失函数,获得第一损失值;根据文本区域预测阈值图和预设的L1范数损失函数,获得第二损失值;根据文本区域的预测中心区域图和预设的交并比损失函数,获得第三损失值;以及根据顶点预测偏移量特征图和预设的L1平滑损失函数,获得第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对文本检测模型进行训练。
本实施例的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例五、
基于上述实施例一至实施例三描述的任一项文本检测方法,本申请实施例提供了一种电子设备,需要说明的,本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图5所示,图5为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备50可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行计算机程序510,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,计算机程序510可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放计算机程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
计算机程序510具体可以用于使得处理器502执行以下操作:
对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征,根据文本特征预测得到待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;
获取文本区域阈值图对应的文本区域二值图和中心区域图对应的中心区域的原始坐标;
根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标;
根据文本区域的候选坐标和文本区域二值图,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在对待检测文本图像和待检测文本图像的梯度图像进行特征提取获得文本特征时,获取待检测文本图像和待检测文本图像的梯度图像;将待检测文本图像和梯度图像输入文本检测模型,文本检测模型包括第一分支和第二分支;通过第一分支,对待检测文本图像进行特征提取得到第一文本特征;通过第二分支,对梯度图像进行特征提取得到第二文本特征;对第一文本特征和第二文本特征进行特征融合,获得与待检测文本图像和所梯度图像对应的文本特征。
在一种可选的实施方式中,第一分支包括第一残差网络和第一注意力层,第二分支包括第二残差网络和第二注意力层,计算机程序510还可以用于使得处理器502在通过第一分支,对待检测文本图像进行特征提取得到第一文本特征时,通过第一残差网络对待检测文本图像进行特征提取,并通过第一注意力层对特征提取获得的特征进行注意力计算,获得第一文本特征;计算机程序510还可以用于使得处理器502在通过第二分支,对梯度图像进行特征提取得到第二文本特征时,通过第二残差网络对梯度图像进行特征提取,并通过第二注意力层对特征提取获得的特征进行注意力计算,获得第二文本特征。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在获取中心区域图对应的中心区域的原始坐标时,对中心区域图进行二值化,得到中心区域二值图;对中心区域二值图求连通域,得到中心区域的原始坐标。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标时,当中心区域的原始坐标包括一个像素点的坐标时,将一个像素点的坐标,分别与顶点偏移量特征图指示的四个顶点偏移量相加,得到文本区域的四个顶点的候选坐标;或者,当中心区域的原始坐标包括多个像素点的坐标时,将多个像素点中的每个像素点的坐标,分别与每个像素点对应的偏移量特征图所指示的四个顶点偏移量相加,得到每个像素点对应的文本区域的四个顶点的候选坐标。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在当中心区域的原始坐标包括多个像素点的坐标时,根据文本区域的候选坐标和文本区域二值图,获得待检测文本图像的文本检测结果时,针对四个顶点中的每个顶点,若多个像素点对应的该顶点的候选坐标均位于文本区域二值图的边界框中,并且,各个候选坐标之间的距离小于预设距离时,根据该顶点的候选坐标确定文本区域的对应顶点;根据确定的文本区域的各个顶点,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据文本特征预测得到待检测文本图像的中心区域的顶点偏移量特征图时,根据文本特征得到待检测文本图像的中心区域的原始顶点偏移量特征;对原始顶点偏移量特征进行取对数操作,根据取对数操作结果获得待检测文本图像的中心区域的顶点偏移量特征图。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据中心区域的原始坐标和偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标时,对偏移量特征图对应的偏移量特征进行反对数操作,获得原始顶点偏移量特征;根据中心区域的原始坐标和原始顶点偏移量特征所指示的偏移量,确定文本区域的候选坐标。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在将待检测文本图像和梯度图像输入文本检测模型之前,获取文本图像样本及文本图像样本对应的梯度图像样本;通过文本图像样本和梯度图像样本对文本检测模型进行训练。
可选的,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在通过文本图像样本和梯度图像样本对文本检测模型进行训练时,将文本图像样本和梯度图像样本输入文本检测模型;通过文本检测模型对文本图像样本和梯度图像样本进行特征提取和融合,得到与文本图像样本对应的文本区域预测概率图、文本区域预测阈值图、文本区域的预测中心区域图、中心区域的顶点预测偏移量特征图;根据文本区域预测概率图和预设的二分类交叉熵损失函数,获得第一损失值;根据文本区域预测阈值图和预设的L1范数损失函数,获得第二损失值;根据文本区域的预测中心区域图和预设的交并比损失函数,获得第三损失值;以及根据顶点预测偏移量特征图和预设的L1平滑损失函数,获得第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对文本检测模型进行训练。
可以理解的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例六、
基于上述实施例一至实施例三所描述的文本检测方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例三所描述的文本检测方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本检测方法。此外,当通用计算机访问用于实现在此示出的文本检测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (11)
1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像和所述待检测文本图像的梯度图像进行特征提取获得文本特征,根据所述文本特征预测得到所述待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图,所述偏移量特征图通过预估的偏移量特征生成,用于预估中心区域内的像素点相对于可能的文本区域对应顶点的距离;
获取所述文本区域阈值图对应的文本区域二值图和所述中心区域图对应的中心区域的原始坐标,其中,通过选取属于中心区域的至少一个像素点的坐标表征所述中心区域的原始坐标;
根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标;
根据所述文本区域的候选坐标和所述文本区域二值图,确定至少一个文本区域的对应顶点,根据所述确定的至少一个文本区域的各个顶点,获得所述待检测文本图像的文本检测结果;
其中,对待检测文本图像和所述待检测文本图像的梯度图像进行特征提取获得文本特征,根据所述文本特征预测得到所述待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图,包括:
将所述待检测文本图像输入第一残差网络,进行第一特征提取,获得第一特征图;将所述待检测文本图像的梯度图像输入第二残差网络,进行第二特征提取,获得第二特征图;将所述第一特征图上采样并串联,通过第一注意力层对上采样并串联后的特征进行注意力计算,获得第一文本特征;将所述第二特征图上采样并串联,通过第二注意力层对上采样并串联后的特征进行注意力计算,获得第二文本特征;将所述第一文本特征和所述第二文本特征进行串联,得到串联后的特征;将所述串联后的特征进行一次卷积操作,两次反卷积操作,获得与所述待检测文本图像和所述待检测文本图像的梯度图像对应的文本特征;根据所述文本特征预测得到待检测图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;其中,中心区域的顶点偏移量特征图包括中心区域内的点相对于文本框顶点的横坐标偏移量和纵坐标偏移量的特征图,所述文本框顶点包括文本框左上顶点、右上顶点、左下顶点和右下顶点。
2.根据权利要求1所述的方法,其特征在于,获取所述中心区域图对应的中心区域的原始坐标,包括:
对所述中心区域图进行二值化,得到中心区域二值图;
对所述中心区域二值图求连通域,得到所述中心区域的原始坐标。
3.根据权利要求1或2所述的方法,其特征在于,根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标,包括:
当所述中心区域的原始坐标包括一个像素点的坐标时,将所述一个像素点的坐标,分别与所述顶点偏移量特征图指示的四个顶点偏移量相加,得到所述文本区域的四个顶点的候选坐标;
或者,
当所述中心区域的原始坐标包括多个像素点的坐标时,将所述多个像素点中的每个像素点的坐标,分别与每个像素点对应的偏移量特征图所指示的四个顶点偏移量相加,得到每个像素点对应的文本区域的四个顶点的候选坐标。
4.根据权利要求3所述的方法,其特征在于,当所述中心区域的原始坐标包括多个像素点的坐标时,所述根据所述文本区域的候选坐标和所述文本区域二值图,获得所述待检测文本图像的文本检测结果,包括:
针对所述四个顶点中的每个顶点,若多个像素点对应的该顶点的候选坐标均位于所述文本区域二值图的边界框中,并且,各个候选坐标之间的距离小于预设距离时,根据该顶点的候选坐标确定所述文本区域的对应顶点;
根据确定的所述文本区域的各个顶点,获得所述待检测文本图像的文本检测结果。
5.根据权利要求1或2所述的方法,其特征在于,根据所述文本特征预测得到所述待检测文本图像的中心区域的顶点偏移量特征图,包括:
根据所述文本特征得到所述待检测文本图像的中心区域的原始顶点偏移量特征;
对所述原始顶点偏移量特征进行取对数操作,根据取对数操作结果获得所述待检测文本图像的中心区域的顶点偏移量特征图。
6.根据权利要求5所述的方法,其特征在于,根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,确定文本区域的候选坐标,包括:
对所述偏移量特征图对应的偏移量特征进行反对数操作,获得原始顶点偏移量特征;
根据所述中心区域的原始坐标和所述原始顶点偏移量特征所指示的偏移量,确定文本区域的候选坐标。
7.根据权利要求1所述的方法,其特征在于,在将所述待检测文本图像和所述梯度图像输入文本检测模型之前,所述方法还包括:
获取文本图像样本及所述文本图像样本对应的梯度图像样本;
通过所述文本图像样本和所述梯度图像样本对所述文本检测模型进行训练。
8.根据权利要求7所述的方法,其特征在于,通过所述文本图像样本和所述梯度图像样本对所述文本检测模型进行训练,包括:
将所述文本图像样本和所述梯度图像样本输入所述文本检测模型;
通过所述文本检测模型对所述文本图像样本和所述梯度图像样本进行特征提取和融合,得到与所述文本图像样本对应的文本区域预测概率图、文本区域预测阈值图、文本区域的预测中心区域图、中心区域的顶点预测偏移量特征图;
根据所述文本区域预测概率图和预设的二分类交叉熵损失函数,获得第一损失值;根据所述文本区域预测阈值图和预设的L1范数损失函数,获得第二损失值;根据所述文本区域的预测中心区域图和预设的交并比损失函数,获得第三损失值;以及根据所述顶点预测偏移量特征图和预设的L1平滑损失函数,获得第四损失值;
根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述文本检测模型进行训练。
9.一种文本检测装置,其特征在于,所述装置包括特征提取模块,获取模块,候选坐标确定模块,结果获取模块;
所述特征提取模块用于对待检测文本图像和所述待检测文本图像的梯度图像进行特征提取获得文本特征,根据所述文本特征预测得到所述待检测文本图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图,所述偏移量特征图通过预估的偏移量特征生成,用于预估中心区域内的像素点相对于可能的文本区域对应顶点的距离;
所述获取模块用于获取所述文本区域阈值图对应的文本区域二值图和所述中心区域图对应的中心区域的原始坐标,其中,通过选取属于中心区域的至少一个像素点的坐标表征所述中心区域的原始坐标;
所述候选坐标确定模块用于根据所述中心区域的原始坐标和所述偏移量特征图所指示的顶点偏移量,获得文本区域的候选坐标;
所述结果获取模块用于根据所述文本区域的候选坐标和所述文本区域二值图,确定至少一个文本区域的对应顶点,根据所述确定的至少一个文本区域的各个顶点,获得所述待检测文本图像的文本检测结果;
其中所述特征提取模块还用于将所述待检测文本图像输入第一残差网络,进行第一特征提取,获得第一特征图;将所述待检测文本图像的梯度图像输入第二残差网络,进行第二特征提取,获得第二特征图;将所述第一特征图上采样并串联,通过第一注意力层对上采样并串联后的特征进行注意力计算,获得第一文本特征;将所述第二特征图上采样并串联,通过第二注意力层对上采样并串联后的特征进行注意力计算,获得第二文本特征;将所述第一文本特征和所述第二文本特征进行串联,得到串联后的特征;将所述串联后的特征进行一次卷积操作,两次反卷积操作,获得与所述待检测文本图像和所述待检测文本图像的梯度图像对应的文本特征;根据所述文本特征预测得到待检测图像的文本区域阈值图、文本区域的中心区域图、中心区域的顶点偏移量特征图;其中,中心区域的顶点偏移量特征图包括中心区域内的点相对于文本框顶点的横坐标偏移量和纵坐标偏移量的特征图,所述文本框顶点包括文本框左上顶点、右上顶点、左下顶点和右下顶点。
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的文本检测方法对应的操作。
11.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010942864.0A CN111797821B (zh) | 2020-09-09 | 2020-09-09 | 文本检测方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010942864.0A CN111797821B (zh) | 2020-09-09 | 2020-09-09 | 文本检测方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797821A CN111797821A (zh) | 2020-10-20 |
CN111797821B true CN111797821B (zh) | 2021-02-05 |
Family
ID=72834136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010942864.0A Active CN111797821B (zh) | 2020-09-09 | 2020-09-09 | 文本检测方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797821B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232315B (zh) * | 2020-12-11 | 2021-03-19 | 北京易真学思教育科技有限公司 | 文本框检测方法、装置、电子设备和计算机存储介质 |
CN112287924B (zh) * | 2020-12-24 | 2021-03-16 | 北京易真学思教育科技有限公司 | 文本区域检测方法、装置、电子设备和计算机存储介质 |
CN112800954A (zh) * | 2021-01-27 | 2021-05-14 | 北京市商汤科技开发有限公司 | 文本检测方法及装置、电子设备和存储介质 |
CN113076814B (zh) * | 2021-03-15 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
CN112801045B (zh) * | 2021-03-18 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN113673523B (zh) * | 2021-10-22 | 2022-01-21 | 北京世纪好未来教育科技有限公司 | 文本检测方法、装置、设备及存储介质 |
WO2023092296A1 (zh) * | 2021-11-23 | 2023-06-01 | 京东方科技集团股份有限公司 | 文本识别方法和装置、存储介质及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205700A1 (en) * | 2017-12-29 | 2019-07-04 | Uber Technologies, Inc. | Multiscale analysis of areas of interest in an image |
CN110135424B (zh) * | 2019-05-23 | 2021-06-11 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN111507353B (zh) * | 2020-04-17 | 2023-10-03 | 新分享科技服务(深圳)有限公司 | 一种基于文字识别的中文字段检测方法及系统 |
CN111507333B (zh) * | 2020-04-21 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
-
2020
- 2020-09-09 CN CN202010942864.0A patent/CN111797821B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111797821A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797821B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111709420B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN108648169B (zh) | 高压输电塔绝缘子缺陷自动识别的方法及装置 | |
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN112016551B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN109343920B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN111652218A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN109961446B (zh) | Ct/mr三维图像分割处理方法、装置、设备及介质 | |
CN114419570B (zh) | 一种点云数据识别方法、装置、电子设备及存储介质 | |
CN111967545B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN113378969B (zh) | 一种目标检测结果的融合方法、装置、设备及介质 | |
CN114511041A (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN115100659B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN110969641A (zh) | 图像处理方法和装置 | |
CN111967449A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN114283343B (zh) | 基于遥感卫星图像的地图更新方法、训练方法和设备 | |
CN113223011B (zh) | 基于引导网络和全连接条件随机场的小样本图像分割方法 | |
CN113011409A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN115393868B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN115270841A (zh) | 条码检测方法、装置、存储介质及计算机设备 | |
CN116188361A (zh) | 一种基于深度学习的铝型材表面缺陷分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |