CN111967449B - 文本检测方法、电子设备及计算机可读介质 - Google Patents
文本检测方法、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN111967449B CN111967449B CN202011126657.4A CN202011126657A CN111967449B CN 111967449 B CN111967449 B CN 111967449B CN 202011126657 A CN202011126657 A CN 202011126657A CN 111967449 B CN111967449 B CN 111967449B
- Authority
- CN
- China
- Prior art keywords
- text
- text region
- probability
- center point
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种检测方法、电子设备及计算机可读介质:文本区域中心点概率图可以指示文本区域中心点的位置,多个锚点框概率图可以指示像素点属于多个不同尺寸的锚点框的概率,本方案中指示各锚点框概率图中对应文本区域中心点位置的概率值,可以表示该文本中心点属于各锚点框的概率,因此可以通过所述概率值确定与所述文本区域中心点对应的真实文本区域,从而得到待检测文本图像对应的文本检测结果。相比于相关技术中需要在图像上进行遍历搜索,本方案计算量小且耗时短,文本检测效率得到了提高。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本检测方法、电子设备及计算机可读介质。
背景技术
随着计算机技术的飞速发展,文本检测的应用范围也更广泛,成为了很多计算机视觉任务的前置步骤,例如图像搜索任务、文字识别任务,身份认证任务和视觉导航任务等。
文本检测的主要目的是定位文本行或字符在图像中的位置。目前比较流行的一种文本检测方法是基于滑动窗口的文本检测方法,它主要是基于通用目标检测的思想,以设置的滑动窗口,在待检测图像上或者在从待检测图像上进行过卷积操作得到的特征映射图上进行遍历搜索,从而判断是否是文本区域,这种方法的缺点是计算量过大,不仅需要耗费大量计算资源,而且耗时较长。
发明内容
本发明提供了一种文本检测方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种文本检测方法,所述方法包括:对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本检测方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本检测方法。
根据本发明实施例提供的方案:首先对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;然后基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,最后根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。本方案的文本区域中心点概率图可以指示文本区域中心点的位置,多个锚点框概率图可以指示像素点属于多个不同尺寸的锚点框的概率,本方案中指示各锚点框概率图中对应文本区域中心点位置的概率值,可以表示该文本中心点属于各锚点框的概率,因此可以通过所述概率值确定与所述文本区域中心点对应的真实文本区域,从而得到待检测文本图像对应的文本检测结果。相比于相关技术中需要在图像上进行遍历搜索,本方案计算量小且耗时短,文本检测效率得到了提高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例提供的一种文本检测方法的步骤流程图;
图2为根据本发明实施例提供的一种文本检测模型训练流程图;
图3为根据本发明实施例提供的文本检测方法的另一步骤流程图;
图4为根据本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种文本检测方法的步骤流程图。
本实施例的文本检测方法包括以下步骤:
步骤101、对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图。
需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
在本实施例中,待检测文本图像可以为包含上述密集密度文本的图像,其中,文本区域中心点概率图可以表示像素点是文本区域的中心的概率;多个锚点框概率图对应预设的多个锚点框,可以表示各个锚点框的得分(概率值),其中,每个锚点框代表该一类锚点框。上述多个锚点框可以根据文本的分布规则进行设置,可以是固定长宽比例的锚点框(例如矩形框),示例性地,如果文本区域是长窄形,则可以设置长宽比例较大的锚点框,如果文本区域是短宽形,则可以设置长宽比例较小的锚点框。锚点框的数量可以根据实际需求进行设置,优选地,可以设置36-72个锚点框,以满足密集密度文本的检测。
可选地,可以通过训练完成的文本检测模型对待检测文本图像进行特征提取,得到文本区域中心点概率图,和与预设的多个锚点框对应的多个锚点框概率图。
在本实施例中,示例性地,所述文本检测模型可以是EAST模型(An Efficient andAccurate Scene Text Detector,基于回归的文本检测模型),可以使用Resnet18网络模型作为基础网络模型。
上述通过训练完成的文本检测模型对待检测文本图像进行特征提取,可以获得更加准确且有针对性的文本特征。
在本实施例中,所述文本检测模型通过以下方式进行训练:
获取训练图像样本,所述训练图像样本包括:包含文本的图像,及,所述文本的锚点框标注信息、文本区域的中心点标注信息;使用所述训练图像样本对所述文本检测模型进行训练。
其中,包含文本的图像可以是密集密度文本的图像,锚点框标注信息表示锚点框的大小和/或长宽比以及锚点框数量,文本区域的中心点标注信息指示每个文本区域的中心点(这里的中心点可以是文本区域中心的一个像素点,也可以是文本区域中心的一片像素区域)。
具体地,如图2所示,在使用所述训练图像样本对所述文本检测模型进行训练时,包括以下步骤:
步骤1011、对所述训练图像样本进行特征提取,将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联,得到串联后的特征图。
示例性地,上述Resnet18网络可以由4个block块串联构建,每个block块包括若干层卷积操作。将训练图像输入后,第一个block块输出的特征映射图大小为原图的1/4,第二个block块输出的特征映射图为原图1/8,第三个block块输出的特征映射图为原图1/16,第四个block块输出的特征映射图为原图1/32,每个block块输出的特征映射数量都可以为128,然后将四组特征映射通过插值的方式将其大小变为原图的1/4大小并串联。
步骤1012、对所述串联后的特征图进行卷积操作,得到预测文本区域中心点概率图,和预测多个锚点框概率图。
在本步骤中,可以对所述串联后的特征图进行一次卷积操作,两次反卷积操作,得到与输入图像大小一致的1通道输出,即预测文本区域中心点概率图。假设锚点框标注信息中的锚点框数量为36,即设置了36个不同长宽,比例和倾斜角的锚点框,则可以对所述串联后的特征图进行一次卷积操作,两次反卷积操作,得到与输入图像大小一致的36通道输出,即多个预测锚点框概率图,其中每个通道上的像素点的值可以是0-1之间的数值,表示像素点属于这个锚点框的概率。
步骤1013、使用二分类交叉熵损失函数,基于所述预测文本区域中心点概率图进行损失计算,得到第一损失值;并且,使用多分类交叉熵损失函数,基于所述多个预测锚点框概率图进行损失计算,得到第二损失值。
其中,二分类交叉熵损失函数可以是Dice Loss损失函数,公式如下:
上述公式中,Ptex(i)指待检测图像中第i个像素点的预测概率值,Gtex(i)指待检测图像中第i个像素点的真实概率值,从而得到第一损失值Ltex。
使用多分类交叉熵损失函数对36通道输出进行训练优化,计算36通道输出对应的第二损失值。
步骤1014、根据第一损失值和第二损失值对文本检测模型进行训练。
本步骤中,可以根据上述计算得到的第一损失值Ltex和第二损失值,对文本检测模型进行训练,直至达到训练终止条件,如,训练次数满足预设次数,或者,损失值满足预设阈值等。训练完成的文本检测模型即可对包含文本的图像进行文本区域中心点以及锚点框检测。
上述通过训练文本检测模型,使得后续利用训练完成的文本检测模型对待检测文本图像进行特征提取时,可以获得更加准确且有针对性的文本特征。
步骤102、基于所述文本区域中心点概率图,得到每个文本区域中心点。
在本实施例中,具体地,可以将所述文本区域中心点概率图二值化,得到文本区域中心点二值图;然后对所述文本区域中心点二值图求取连通域,得到每个文本区域中心点的坐标。
其中,文本区域中心点可以是文本区域中心的一个像素点,也可以是文本区域中心的一片像素区域(例如圆形区域或者方形区域),本实施例不做限制。
上述通过计算得到每个文本区域中心点的坐标,使得后续可以基于坐标进行每个文本区域中心点对应的锚点框确定。
在一可选的实施方式中,文本区域中心点是文本区域中心的一片像素区域,具体地,在基于文本区域中心点概率图,得到每个文本区域中心点时,可以基于文本区域中心点概率图,得到每个文本区域中心点区域,所述中心点区域包括多个像素点;然后获得每个文本区域中心点区域中的各像素点的坐标。
在本实施例中,可以将所述文本区域中心点概率图二值化,得到文本区域的中心点区域二值图;然后对该二值图求取连通域,得到每个文本区域的中心点区域的坐标,即得到每个文本区域中心点区域中的各像素点的坐标。
上述通过将每个文本区域中心点区域(即文本区域中心的一片像素区域)作为检测对象,使得后续确定的真实文本区域更加准确。
步骤103、根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。
在本实施例中,每个文本区域中心点与各个锚点框概率图中的像素点存在对应关系,例如:若锚点框概率图为36个,即表示设置了36个不同大小的锚点框,若文本区域中心点一共有10个,则通过文本区域中心点概率图可以得到该10个中心点的坐标分别为(x1,y1)、(x2,y2)、(x3,y3)……(x10,y10)。那么,在36个锚点框概率图中,每个锚点框概率图的(x1,y1)位置对应的概率值,表示(x1,y1)中心点属于当前锚点框的概率大小;每个锚点框概率图的(x2,y2)位置对应的概率值,表示(x2,y2)中心点属于当前锚点框的概率大小;每个锚点框概率图的(x3,y3)位置对应的概率值,表示(x3,y3)中心点属于当前锚点框的概率大小;……每个锚点框概率图的(x10,y10)位置对应的概率值,表示(x10,y10)中心点属于当前锚点框的概率大小。
具体地,在根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域时,可以从所述多个锚点框概率图中,获取每个所述文本区域中心点的坐标对应位置的概率值,得到每个所述文本区域中心点对应的多个概率值;然后从所述多个概率值中确定所述文本区域中心点对应的最大概率值;接着根据所述文本区域中心点对应的最大概率值表示的锚点框,确定所述文本区域中心点对应的真实文本区域。
在上述36个锚点框概率图中,每个锚点框概率图的(x1,y1)位置对应的概率值,表示(x1,y1)中心点属于当前锚点框的概率大小;36个锚点框概率图即可得到(x1,y1)中心点对应的36个概率值。同样,也可以得到(x2,y2)中心点对应的36个概率值,(x3,y3)中心点对应的36个概率值,……(x10,y10)中心点对应的36个概率值。然后可以针对每个中心点,获取36个概率值中最大的概率值,例如,(x1,y1)中心点的最大的概率值所在的锚点框概率图为第9个图,则表示第9个锚点框概率图指示的锚点框即为(x1,y1)中心点对应的锚点框。接着可以根据第9个锚点框概率图指示的锚点框,以及其他9个中心点的最大概率值所指示的锚点框,确定每个文本区域中心点对应的真实文本区域。
上述针对每个文本区域中心点,从多个锚点框中选择最大概率值对应的锚点框,使得确定的锚点框是最适合当前文本区域的锚点框,对后续文本检测的准确度有很大的保障。
在一可选的实施方式中,若一个文本区域中心点为一个区域,包括多个像素点,则,在根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域时,可以针对每个文本区域中心点区域,从所述多个锚点框概率图中,获取当前文本区域中心点区域中的各像素点的坐标对应位置的最大概率值;然后根据各像素点对应的最大概率值,得到当前文本区域中心点区域对应的多个锚点框;其次对所述多个锚点框进行非极大值抑制,根据非极大值抑制的结果确定当前文本区域中心点区域对应的真实文本区域。
在本实施例中,若某个文本区域中心点中包含4个像素点,同样以锚点框概率图为36个为例,则通过文本区域中心点概率图可以得到该4个像素点点的坐标分别为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)。那么,在36个锚点框概率图中,每个锚点框概率图的(x1,y1)位置对应的概率值,表示(x1,y1)像素点属于当前锚点框的概率大小;每个锚点框概率图的(x2,y2)位置对应的概率值,表示(x2,y2)像素点属于当前锚点框的概率大小;每个锚点框概率图的(x3,y3)位置对应的概率值,表示(x3,y3)像素点属于当前锚点框的概率大小;每个锚点框概率图的(x4,y4)位置对应的概率值,表示(x4,y4)像素点属于当前锚点框的概率大小。每个锚点框概率图的(x1,y1)位置对应1个概率值,36个锚点框概率图即可得到(x1,y1)像素点对应的36个概率值。同样,也可以得到(x2,y2)像素点对应的36个概率值,(x3,y3)像素点对应的36个概率值,(x4,y4)像素点对应的36个概率值。然后对该4个像素点分别从对应的36个概率值中获取最大概率值,得到当前文本区域中心点区域对应的4个锚点框,然后对这4个锚点框进行非极大值抑制,最后得到一个最终的文本框,根据该最终的文本框确定当前文本区域中心点区域对应的真实文本区域。
上述通过检测每个文本区域中心点区域(中心点区域包括多个像素点),使得确定的每个文本区域中心点区域的锚点框更加准确,进而使得文本检测结果更加准确。
本实施例提供的文本检测方法,首先对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;然后基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,最后根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。本方案的文本区域中心点概率图可以指示文本区域中心点的位置,多个锚点框概率图可以指示像素点属于多个不同尺寸的锚点框的概率,本方案中指示各锚点框概率图中对应文本区域中心点位置的概率值,可以表示该文本中心点属于各锚点框的概率,因此可以通过所述概率值确定与所述文本区域中心点对应的真实文本区域,从而得到待检测文本图像对应的文本检测结果。相比于相关技术中需要在图像上进行遍历搜索,本方案计算量小且耗时短,文本检测效率得到了提高。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
下面提供本方案的另一种文本检测方法,如图3所示,包括:
步骤311、将密集密度文本图像输入Resnet18网络,进行特征提取,得到特征图1。
步骤321、将特征图1经过两个FPEM模块进行特征提取,得到特征图2,并得到该特征图2对应的4组特征映射。
步骤331、将上述4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起。
步骤341、将步骤331串联后的特征图进行一次卷积操作,两次反卷积操作,输出特征映射通道为1,特征映射大小与原图大小一致的特征映射图,其第一个通道表示文本区域中心点概率图。
步骤351、将步骤331串联后的特征图进行一次卷积操作,两次反卷积操作,输出特征映射通道为36,特征映射大小与原图大小一致的特征映射图,其表示锚点框概率图(锚点框指36个不同长宽,比例和倾斜角的框)。
在训练阶段,使用Dice Loss对步骤341输出进行训练,使用多分类交叉熵损失函数对步骤351输出进行训练。在预测阶段,进入步骤361。
步骤361、将步骤341得到的文本区域中心点概率图二值化,得到文本区域中心点二值图。
步骤371、对文本区域中心点二值图求取连通域,得到每个中心点坐标。
步骤381、针对每个中心点坐标,选出其在步骤351的输出中对应的36个值中的最大概率值,以此得到这个中心点对应的锚点框信息,从而得到中心点对应的真实文本区域。需要说明得是,如果中心点是一个小型区域,那么拿到锚点框信息之后,可以通过非极大值抑制进行滤框,从而得到中心点对应的最终的锚点框信息,进而获得真实文本区域。
本实施例种,文本区域中心点概率图可以指示文本区域中心点的坐标,多个锚点框概率图可以指示像素点属于多个不同尺寸的锚点框的概率,本方案中指示各锚点框概率图中对应文本区域中心点坐标的概率值,可以表示该文本中心点属于各锚点框的概率,因此可以通过所述概率值确定与所述文本区域中心点对应的真实文本区域,从而得到待检测文本图像对应的文本检测结果。相比于相关技术中需要在图像上进行遍历搜索,本方案计算量小且耗时短,文本检测效率得到了提高。
实施例三
图4为本发明实施例三中电子设备的硬件结构;如图4所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。
在一种可选的实施方式中,程序305还用于使得处理器301在根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域时:从所述多个锚点框概率图中,获取每个所述文本区域中心点的坐标对应位置的概率值,得到每个所述文本区域中心点对应的多个概率值;从所述多个概率值中确定所述文本区域中心点对应的最大概率值;根据所述文本区域中心点对应的最大概率值表示的锚点框,确定所述文本区域中心点对应的真实文本区域。
在一种可选的实施方式中,程序305还用于使得处理器301在基于所述文本区域中心点概率图,得到每个文本区域中心点时:基于所述文本区域中心点概率图,得到每个文本区域中心点区域,所述中心点区域包括多个像素点;获得每个文本区域中心点区域中的各像素点的坐标。
在一种可选的实施方式中,程序305还用于使得处理器301在根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域时:针对每个文本区域中心点区域,从所述多个锚点框概率图中,获取当前文本区域中心点区域中的各像素点的坐标对应位置的最大概率值;根据各像素点对应的最大概率值,得到当前文本区域中心点区域对应的多个锚点框;对所述多个锚点框进行非极大值抑制,根据非极大值抑制的结果确定当前文本区域中心点区域对应的真实文本区域。
在一种可选的实施方式中,程序305还用于使得处理器301在基于所述文本区域中心点概率图,得到每个文本区域中心点时:将所述文本区域中心点概率图二值化,得到文本区域中心点二值图;对所述文本区域中心点二值图求取连通域,得到每个文本区域中心点的坐标。
在一种可选的实施方式中,程序305还用于使得处理器301在对待检测文本图像进行特征提取,得到文本区域中心点概率图,和与预设的多个锚点框对应的多个锚点框概率图时:通过训练完成的文本检测模型对待检测文本图像进行特征提取,得到文本区域中心点概率图,和与预设的多个锚点框对应的多个锚点框概率图。
在一种可选的实施方式中,程序305还用于使得处理器301在训练文本检测模型时:获取训练图像样本,所述训练图像样本包括:包含文本的图像,及,所述文本的锚点框标注信息、文本区域的中心点标注信息;使用所述训练图像样本对所述文本检测模型进行训练。
在一种可选的实施方式中,程序305还用于使得处理器301在使用所述训练图像样本对所述文本检测模型进行训练时:对所述训练图像样本进行特征提取,将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联,得到串联后的特征图;
对所述串联后的特征图进行卷积操作,得到预测文本区域中心点概率图,和多个预测锚点框概率图;使用二分类交叉熵损失函数,基于所述预测文本区域中心点概率图进行损失计算,得到第一损失值;并且,使用多分类交叉熵损失函数,基于所述多个预测锚点框概率图进行损失计算,得到第二损失值;根据所述第一损失值和所述第二损失值对所述文本检测模型进行训练。
程序305中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,首先对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;然后基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,最后根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。本方案的文本区域中心点概率图可以指示文本区域中心点的位置,多个锚点框概率图可以指示像素点属于多个不同尺寸的锚点框的概率,本方案中指示各锚点框概率图中对应文本区域中心点位置的概率值,可以表示该文本中心点属于各锚点框的概率,因此可以通过所述概率值确定与所述文本区域中心点对应的真实文本区域,从而得到待检测文本图像对应的文本检测结果。相比于相关技术中需要在图像上进行遍历搜索,本方案计算量小且耗时短,文本检测效率得到了提高。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的文本检测方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;基于所述文本区域中心点概率图,得到每个文本区域中心点;根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像进行特征提取,得到文本区域中心点概率图、和与预设的多个锚点框对应的多个锚点框概率图;
基于所述文本区域中心点概率图,得到每个文本区域中心点;
根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,根据所述真实文本区域获得所述待检测文本图像对应的文本检测结果;
其中,所述根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,包括:从所述多个锚点框概率图中,获取每个所述文本区域中心点的坐标对应位置的概率值,得到每个所述文本区域中心点对应的多个概率值;从所述多个概率值中确定所述文本区域中心点对应的最大概率值;根据所述文本区域中心点对应的最大概率值表示的锚点框,确定所述文本区域中心点对应的真实文本区域。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本区域中心点概率图,得到每个文本区域中心点,包括:
基于所述文本区域中心点概率图,得到每个文本区域中心点区域,所述中心点区域包括多个像素点;
获得每个文本区域中心点区域中的各像素点的坐标。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本区域中心点在所述多个锚点框概率图中对应的概率值,确定与每个所述文本区域中心点对应的真实文本区域,包括:
针对每个文本区域中心点区域,从所述多个锚点框概率图中,获取当前文本区域中心点区域中的各像素点的坐标对应位置的最大概率值;
根据各像素点对应的最大概率值,得到当前文本区域中心点区域对应的多个锚点框;
对所述多个锚点框进行非极大值抑制,根据非极大值抑制的结果确定当前文本区域中心点区域对应的真实文本区域。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述基于所述文本区域中心点概率图,得到每个文本区域中心点,包括:
将所述文本区域中心点概率图二值化,得到文本区域中心点二值图;
对所述文本区域中心点二值图求取连通域,得到每个文本区域中心点的坐标。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到文本区域中心点概率图,和与预设的多个锚点框对应的多个锚点框概率图,包括:
通过训练完成的文本检测模型对待检测文本图像进行特征提取,得到文本区域中心点概率图,和与预设的多个锚点框对应的多个锚点框概率图。
6.根据权利要求5所述的方法,其特征在于,所述文本检测模型通过以下方式进行训练:
获取训练图像样本,所述训练图像样本包括:包含文本的图像,及,所述文本的锚点框标注信息、文本区域的中心点标注信息;
使用所述训练图像样本对所述文本检测模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述使用所述训练图像样本对所述文本检测模型进行训练,包括:
对所述训练图像样本进行特征提取,将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联,得到串联后的特征图;
对所述串联后的特征图进行卷积操作,得到预测文本区域中心点概率图,和多个预测锚点框概率图;
使用二分类交叉熵损失函数,基于所述预测文本区域中心点概率图进行损失计算,得到第一损失值;并且,使用多分类交叉熵损失函数,基于所述多个预测锚点框概率图进行损失计算,得到第二损失值;
根据所述第一损失值和所述第二损失值对所述文本检测模型进行训练。
8.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的文本检测方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126657.4A CN111967449B (zh) | 2020-10-20 | 2020-10-20 | 文本检测方法、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126657.4A CN111967449B (zh) | 2020-10-20 | 2020-10-20 | 文本检测方法、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967449A CN111967449A (zh) | 2020-11-20 |
CN111967449B true CN111967449B (zh) | 2021-02-02 |
Family
ID=73387051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011126657.4A Active CN111967449B (zh) | 2020-10-20 | 2020-10-20 | 文本检测方法、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967449B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232341B (zh) * | 2020-12-10 | 2021-04-09 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN112232315B (zh) * | 2020-12-11 | 2021-03-19 | 北京易真学思教育科技有限公司 | 文本框检测方法、装置、电子设备和计算机存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2181421A2 (en) * | 2007-07-17 | 2010-05-05 | von Sydow, Momme | System for inductive determination of pattern probabilities of logical connectors |
CN106570500B (zh) * | 2016-11-11 | 2018-01-23 | 北京三快在线科技有限公司 | 文本行的识别方法及装置、计算设备 |
CN110472539B (zh) * | 2019-08-01 | 2022-09-30 | 上海海事大学 | 一种文本检测方法、装置及计算机存储介质 |
CN111652217B (zh) * | 2020-06-03 | 2022-05-03 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111709420B (zh) * | 2020-06-18 | 2022-06-24 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
-
2020
- 2020-10-20 CN CN202011126657.4A patent/CN111967449B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111967449A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709420B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
US10650236B2 (en) | Road detecting method and apparatus | |
CN111652218A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN112016551B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN112132143B (zh) | 数据处理方法、电子设备及计算机可读介质 | |
CN112232341B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111967449B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN109118456B (zh) | 图像处理方法和装置 | |
CN109285181B (zh) | 用于识别图像的方法和装置 | |
CN110211195B (zh) | 生成图像集合的方法、装置、电子设备和计算机可读存储介质 | |
CN110969641A (zh) | 图像处理方法和装置 | |
CN111340831A (zh) | 点云边缘检测方法和装置 | |
CN112712036A (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN111767889A (zh) | 公式识别方法、电子设备及计算机可读介质 | |
CN115393868B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN115082598B (zh) | 文本图像生成、训练、文本图像处理方法以及电子设备 | |
CN110852242A (zh) | 基于多尺度网络的水印识别方法、装置、设备及存储介质 | |
CN111967460B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN112101347B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN113128470B (zh) | 笔划识别方法、装置、可读介质及电子设备 | |
CN111783572B (zh) | 一种文本检测方法和装置 | |
CN114140427A (zh) | 一种物体检测方法及装置 | |
CN111915703B (zh) | 一种图像生成方法和装置 | |
CN111784709A (zh) | 图像处理方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |