CN110674804A - 文本图像的检测方法、装置、计算机设备和存储介质 - Google Patents
文本图像的检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110674804A CN110674804A CN201910905231.XA CN201910905231A CN110674804A CN 110674804 A CN110674804 A CN 110674804A CN 201910905231 A CN201910905231 A CN 201910905231A CN 110674804 A CN110674804 A CN 110674804A
- Authority
- CN
- China
- Prior art keywords
- text
- box
- matched
- feature map
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000013135 deep learning Methods 0.000 claims abstract description 42
- 230000005764 inhibitory process Effects 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种文本图像的检测方法、装置、计算机设备和存储介质,通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,以提高后续预测不同尺度文本位置的能力,并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,使其更加贴合目标,进而将具有可偏移的文本候选框映射回待进行检测的文本图像上,并采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框,从而可以根据最后的文本预测框进行文本特征的提取,以解决文本特征与背景难以区分的问题。
Description
技术领域
本申请涉及文本检测技术领域,特别是涉及一种文本图像的检测方法、装置、计算机设备和存储介质。
背景技术
随着现代人工智能技术的发展,越来越多的繁琐工作被机器或电脑所取代。比如一些文本的识别录入,如果仅仅依靠人工来完成,不仅耗时费力,而且会因为操作人员的疲劳疏忽等原因导致问题的产生。因此,可以利用光学字符识别技术,从而通过计算机自动完成文本字符的识别和录入。
而作为光学字符识别的基础,首先必然需要在各个场景中定位到文本区域,即文本定位技术是根本。目前使用较多的方法都是采用类似目标检测的定位分类方法,但是由于文本大多为长矩形,宽高比分布较为极端,与普通的目标检测中的物体不一样,普通物体宽高比基本在1左右,且存在明显的闭合边缘轮廓,而文本并没有这种明显的闭合边缘轮廓,从而导致直接提取文本的图像特征极容易和背景区分不开。
发明内容
基于此,有必要针对上述难以直接提取文本的图像特征的问题,提供一种文本图像的检测方法、装置、计算机设备和存储介质。
为了实现上述目的,一方面,本申请实施例提供了一种文本图像的检测方法,所述方法包括:
将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
在其中一个实施例中,具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;则将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,包括:将待进行检测的文本图像输入至金字塔特征提取网络;由金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
在其中一个实施例中,基于深度学习的文本检测模型的构建方法包括:获取带有文本框的样本图像数据集,其中,文本框包括标注了文本框的坐标信息的训练标签;采用包括训练标签的样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
在其中一个实施例中,利用反向传播算法训练深度学习网络模型,采用的损失函数为多任务损失函数:其中, L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率,取值0或1,c表示匹配的文本框属于正样本的置信度。
在其中一个实施例中,采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,包括:对多层特征图中的各层特征图经由卷积核后输出调整后的特征图;在调整后的特征图上滑窗,得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息,并计算文本框的文本置信度;根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量;根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
在其中一个实施例中,预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置,预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/或五分之一。
在其中一个实施例中,文本框的坐标信息包括文本框的四个顶点的坐标;则学习得到对应预设锚点框相对于匹配的文本框的偏移量,包括:根据预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移,学习得到预设锚点框相对于匹配的文本框的偏移量。
另一方面,本申请实施例还提供了一种文本图像的检测装置,所述装置包括:
特征提取模块,用于将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
候选框生成模块,用于采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
文本框预测模块,用于将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
又一方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述文本图像的检测方法、装置、计算机设备和存储介质,通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,以提高后续预测不同尺度文本位置的能力,并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,使其更加贴合目标,进而将具有可偏移的文本候选框映射回待进行检测的文本图像上,并采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框,从而可以根据最后的文本预测框进行文本特征的提取,以解决文本特征与背景难以区分的问题。
附图说明
图1为一个实施例中文本图像的检测方法的流程示意图;
图2为一个实施例中文本图像的检测方法网络结构示意图;
图3为一个实施例中得到多层特征图的步骤的流程示意图;
图4为另一个实施例中文本检测模型的获取方法的流程示意图;
图5为一个实施例中文本框的标注示意图;
图6为一个实施例中获得文本候选框的流程示意图;
图7为一个实施例中文本框的匹配示意图;
图8为一个具体实施例中文本图像的检测方法的流程示意图;
图9为一个实施例中文本图像的检测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供了一种文本图像的检测方法,如图1所示,包括以下步骤:
步骤102,将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图。
其中,待进行检测的文本图像是指待通过机器进行文本特征提取的文本图像。特征提取网络模型则可以是由多个卷积层组成的金字塔特征提取网络,其具有多层输出。具体的,特征提取网络模型可以是基于基本的特征提取网络框架实现的,其中,基本的特征提取网络框架不限于VGG(Visual Geometry Group Network,神经网络)、hourglass network(沙漏网络)或者resnet(分类网络) 等网络。在本实施例中,待进行检测的文本图像可以存储在服务器中,当要对服务器中的文本图像进行文本特征提取时,首先需要获取服务器中的待进行检测的文本图像,并将待进行检测的文本图像输入至特征提取网络模型中,从而通过特征提取网络模型的多个输出层输出各层对应的特征图,以提高后续预测不同尺度文本位置的能力。
步骤104,采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框。
其中,基于深度学习的文本检测模型可以是对深度学习网络模型进行训练后得到的。匹配的具有可偏移的文本候选框是指与扫描时预设的锚点框匹配的非固定位置的文本框。在本实施例中,通过基于深度学习的文本检测模型扫描上述步骤得到的多层特征图中的各层特征图,即可得到匹配的具有可偏移的文本候选框,使其更加贴合目标。
步骤106,将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
在本实施例中,通过将上述得到匹配的具有可偏移的文本候选框映射回原图(即待进行检测的文本图像)上,并采用非极大值抑制的方法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像最后的文本预测框,从而可以根据最后的文本预测框进行文本特征的提取,以解决文本特征与背景难以区分的问题。
上述文本图像的检测方法,通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,以提高后续预测不同尺度文本位置的能力,并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,使其更加贴合目标,进而将具有可偏移的文本候选框映射回待进行检测的文本图像上,并采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框,从而可以根据最后的文本预测框进行文本特征的提取,以解决文本特征与背景难以区分的问题。
在一个实施例中,如图2所示,具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络,其具有多层输出。其中,特征提取网络模型可以是基于基本的特征提取网络框架实现的,而基本的特征提取网络框架不限于VGG、hourglass network或者resnet等网络。在本实施例中,通过在基本的特征提取网络框架后接上特征金字塔模块即可得到金字塔特征提取网络。具体的,以基本的特征提取网络框架为VGG16为例进行说明,具体的,通过保留VGG16的conv1_1到conv5_3的卷积层,并将最后两层由全连接层替换成卷积层,再继续添加8个卷积层,其中,每两个卷积层取一层输出,加上VGG 网络中的conv4_3和conv7的输出,一共6层输出,即可以输出6层特征图,从而得到本实施例中的金字塔特征提取网络,提高网络预测不同尺度文本位置的能力。
在本实施例中,如图3所示,将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,具体包括如下步骤:
步骤302,将待进行检测的文本图像输入至金字塔特征提取网络。
具体的,在获取到待进行检测的文本图像后,将其通过输入层输入至金字塔特征提取网络,由金字塔特征提取网络提取多尺度的特征图。
步骤304,由金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
在本实施例中,金字塔特征提取网络逐级提取输入的待进行检测的文本图像的特征图,具体的,金字塔特征提取网络利用一系列卷积和池化操作得到输入的文本图像的高层语义特征(如纹理结构和语义信息等),即通过不同的卷积层不断做下采样操作,从而得到输入的文本图像的高层语义特征,并输出多尺度的特征图,即输出不同层次的特征图。由于在每个卷积层,数据都是以三维形式存在的,也可以将三维形式的数据看成许多个叠在一起的二维图片,其中每一个二维图片可以称为一个特征图。在输入层,如果是灰度图片,那就只有一个特征图;如果是彩色图片,一般有3个特征图(如红、绿、蓝)。而层与层之间会有若干个卷积核(kernel),上一层的每个特征图跟每个卷积核做卷积,都会产生下一层的一个特征图。
在一个实施例中,如图4所示,基于深度学习的文本检测模型的构建方法可以包括如下步骤:
步骤402,获取带有文本框的样本图像数据集。
其中,带有文本框的样本图像数据集是指对每一个样本图像进行了文本框标注的样本图像的集合。在本实施例中,文本框还包括标注了文本框的坐标信息的训练标签。训练标签不仅可以包括文本框的四个顶点的坐标,还可以包括文本框的类别,其表示形式为:(class,x1,y1,x2,y2,x3,y3,x4,y4)。其中,第一个元素“class”表示对应文本框的类别信息,如是“文本区域”则为1,不是则为0;后8个元素表征对应文本框的四个顶点的坐标,如图5所示,通常以正方向的文本左上角的顶点为第一个顶点,顺时针方向标注,如第一个顶点的坐标为“x1,y1”、第二个顶点的坐标为“x2,y2”、第三个顶点的坐标为“x3,y3”以及第四个顶点的坐标为“x4,y4”。其中x、y分别表示顶点对应的x轴坐标值和y轴坐标值。
步骤404,采用包括训练标签的样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
在本实施例中,通过上述包括训练标签的样本图像数据集,并利用反向传播算法训练深度学习网络模型,从而得到训练好的文本检测模型。具体的,通过训练标签中文本框的四个顶点的坐标可以获知样本图像中文本框的方向性,也即文本框的角度,基于此,对深度学习网络模型进行训练后,即可得到训练好的多方向文本检测模型。
具体的,在对深度学习网络模型进行训练时,其采用的损失函数为多任务损失函数,表示为:其中,L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率(即是否属于文本区域的概率),取值0或1,c表示匹配的文本框属于正样本的置信度。在本实施例中,通过上述损失函数对深度学习网络模型进行训练,从而使得训练后的文本检测模型可以学习到预设锚点框的每个顶点相对于匹配的样本图像中文本框的每个顶点的偏移量,并通过该偏移量即可得到可偏移的文本候选框,即非固定位置的文本候选框。
在一个实施例中,如图6所示,采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,具体包括如下步骤:
步骤602,对多层特征图中的各层特征图经由卷积核后输出调整后的特征图。
由于文本通常的形状为长条形,因此,普通的3×3卷积不太适合,基于此,在本实施例中,采用更加适合文本形状的3×5的卷积核输出(如图2所示)。具体的,将上述得到的多层特征图通过3×5的卷积核进行卷积运算后,输出调整后的多尺度特征图,以期更加适合文本检测。
步骤604,在调整后的特征图上滑窗,得到与每个锚点的预设锚点框的大小和尺度匹配的文本框的坐标信息,并计算文本框的文本置信度。
其中,预设锚点框的大小可以根据样本图像数据集中标注的文本框的尺寸统计进行设置,但是,预设的锚点框的长宽比一般为1、2、3、5、二分之一、三分之一和/或五分之一,从而更加适合长条文本的检测。预设锚点框的尺度则可以是指预设锚点框的方向或角度,对于每个锚点可以具有不同大小和角度的多个预设锚点框。文本框的坐标信息则包括文本框的四个顶点的坐标。
具体的,根据每个锚点的预设锚点框在调整后的特征图上进行滑窗,从而分别得到与每个锚点的预设锚点框大小和尺度匹配的文本框,并根据匹配的文本框的坐标信息采用Softmax计算对应文本框的置信度。
步骤606,根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量。
在本实施例中,计算出匹配的每个文本框的置信度后,将其与预设文本置信度进行比较,并筛选出文本置信度大于预设文本置信度的文本框,进而根据筛选出的文本框的坐标信息以及匹配的锚点框,学习得到两者间的偏移量。如图7所示,外部的黑色虚线框为预设锚点框,内部的黑色实线框为与该预设锚点框匹配的标注的文本框,经过学习训练即可得到两者间的偏移量(如图中的箭头)。具体的,两者间的偏移量可以根据预设锚点框的各顶点坐标相对于匹配的文本框的四个顶点的坐标的偏移,通过学习得到预设锚点框相对于匹配的文本框的偏移量。
步骤608,根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
其中,可偏移的文本候选框具有非固定的位置。基于上述得到的偏移量在预设锚点框与匹配的文本框之间可以生成任意的文本候选框(如图7所示),即得到具有可偏移的文本候选框,其具有多样性,且更加贴合目标检测。
在一个实施例中,上述具有多层输出的特征提取网络模型与基于深度学习的文本检测模型可以分开单独设置,也可以集成设置在一个模型中。如图8所示,以两者集成设置在一个模型中为例进一步说明本申请的方法,其可以包括如下步骤:
1)利用样本图像数据集对模型进行反向训练,训练时采用多任务损失函数;
2)其中,样本图像数据集中的样本图像需要进行标注,以生成训练标签,包括标注文本框、标注文本框的类别以及标注文本框的坐标;
3)向训练后的模型输入待进行检测的文本图像;
4)得到模型进行卷积计算后输出的多层特征图;
5)通过卷积核调整特征图后,采用预设锚点框在调整后的特征图上滑窗以得到匹配的文本框;
6)得到匹配的文本框的坐标信息并计算对应文本框的文本置信度,从而得到文本候选框;
7)采用非极大值抑制法去掉冗余的文本候选框,得到得分最高的文本候选框;
8)将得分最高的文本候选框作为待进行检测的文本图像的文本预测框并输出,以完成文本图像中文本特征的检测。
应该理解的是,虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种文本图像的检测装置,包括:特征提取模块901、候选框生成模块902和文本框预测模块903,其中:
特征提取模块901,用于将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
候选框生成模块902,用于采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
文本框预测模块903,用于将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
在一个实施例中,具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;则特征提取模块901具体用于:将待进行检测的文本图像输入至金字塔特征提取网络;由金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
在一个实施例中,基于深度学习的文本检测模型包括:样本图像数据集获取单元,用于获取带有文本框的样本图像数据集,其中,文本框包括标注了文本框的坐标信息的训练标签;训练单元,用于采用包括训练标签的样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
在一个实施例中,利用反向传播算法训练深度学习网络模型,采用的损失函数为多任务损失函数:其中, L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率,取值0或1,c表示匹配的文本框属于正样本的置信度。
在一个实施例中,候选框生成模块902具体用于:对多层特征图中的各层特征图经由卷积核后输出调整后的特征图;在调整后的特征图上滑窗,得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息,并计算文本框的文本置信度;根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量;根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
在一个实施例中,预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置,预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/ 或五分之一。
在一个实施例中,文本框的坐标信息包括文本框的四个顶点的坐标;则学习得到对应预设锚点框相对于匹配的文本框的偏移量,包括:根据预设锚点框的各顶点坐标相对于匹配的文本框的四个顶点的坐标的偏移,学习得到预设锚点框相对于匹配的文本框的偏移量。
关于文本图像的检测装置的具体限定可以参见上文中对于文本图像的检测方法的限定,在此不再赘述。上述文本图像的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待进行检测的文本图像数据以及样本图像数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的检测方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10、图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
在一个实施例中,具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;则将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,包括:将待进行检测的文本图像输入至金字塔特征提取网络;由金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
在一个实施例中,基于深度学习的文本检测模型的构建方法包括:获取带有文本框的样本图像数据集,其中,文本框包括标注了文本框的坐标信息的训练标签;采用包括训练标签的样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
在一个实施例中,利用反向传播算法训练深度学习网络模型,采用的损失函数为多任务损失函数:其中, L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率,取值0或1,c表示匹配的文本框属于正样本的置信度。
在一个实施例中,采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,包括:对多层特征图中的各层特征图经由卷积核后输出调整后的特征图;在调整后的特征图上滑窗,得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息,并计算文本框的文本置信度;根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量;根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
在一个实施例中,预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置,预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/ 或五分之一。
在一个实施例中,文本框的坐标信息包括文本框的四个顶点的坐标;则学习得到对应预设锚点框相对于匹配的文本框的偏移量,包括:根据预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移,学习得到预设锚点框相对于匹配的文本框的偏移量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
将具有可偏移的文本候选框映射回待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。
在一个实施例中,具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;则将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,包括:将待进行检测的文本图像输入至金字塔特征提取网络;由金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
在一个实施例中,基于深度学习的文本检测模型的构建方法包括:获取带有文本框的样本图像数据集,其中,文本框包括标注了文本框的坐标信息的训练标签;采用包括训练标签的样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
在一个实施例中,利用反向传播算法训练深度学习网络模型,采用的损失函数为多任务损失函数:其中, L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率,取值0或1,c表示匹配的文本框属于正样本的置信度。
在一个实施例中,采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,包括:对多层特征图中的各层特征图经由卷积核后输出调整后的特征图;在调整后的特征图上滑窗,得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息,并计算文本框的文本置信度;根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量;根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
在一个实施例中,预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置,预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/ 或五分之一。
在一个实施例中,文本框的坐标信息包括文本框的四个顶点的坐标;则学习得到对应预设锚点框相对于匹配的文本框的偏移量,包括:根据预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移,学习得到预设锚点框相对于匹配的文本框的偏移量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本图像的检测方法,其特征在于,所述方法包括:
将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。
2.根据权利要求1所述的文本图像的检测方法,其特征在于,所述具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;所述将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,包括:
将待进行检测的文本图像输入至所述金字塔特征提取网络;
由所述金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
3.根据权利要求1所述的文本图像的检测方法,其特征在于,所述基于深度学习的文本检测模型的构建方法包括:
获取带有文本框的样本图像数据集,所述文本框包括标注了所述文本框的坐标信息的训练标签;
采用包括所述训练标签的所述样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
5.根据权利要求3所述的文本图像的检测方法,其特征在于,所述采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框,包括:
对所述多层特征图中的各层特征图经由卷积核后输出调整后的特征图;
在所述调整后的特征图上滑窗,得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息,并计算所述文本框的文本置信度;
根据得到的文本置信度大于预设文本置信度的文本框的坐标信息,学习得到对应预设锚点框相对于匹配的文本框的偏移量;
根据所述预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。
6.根据权利要求5所述的文本图像的检测方法,其特征在于,所述预设锚点框的大小根据所述样本图像数据集中所述文本框的尺寸统计进行设置,所述预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/或五分之一。
7.根据权利要求5所述的文本图像的检测方法,其特征在于,所述文本框的坐标信息包括所述文本框的四个顶点的坐标;所述学习得到对应预设锚点框相对于匹配的文本框的偏移量,包括:
根据所述预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移,学习得到所述预设锚点框相对于匹配的文本框的偏移量。
8.一种文本图像的检测装置,其特征在于,所述装置包括:
特征提取模块,用于将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
候选框生成模块,用于采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
文本框预测模块,用于将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905231.XA CN110674804A (zh) | 2019-09-24 | 2019-09-24 | 文本图像的检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905231.XA CN110674804A (zh) | 2019-09-24 | 2019-09-24 | 文本图像的检测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674804A true CN110674804A (zh) | 2020-01-10 |
Family
ID=69077492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910905231.XA Pending CN110674804A (zh) | 2019-09-24 | 2019-09-24 | 文本图像的检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674804A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259846A (zh) * | 2020-01-21 | 2020-06-09 | 第四范式(北京)技术有限公司 | 文本定位方法和系统以及文本定位模型训练方法和系统 |
CN111291754A (zh) * | 2020-01-22 | 2020-06-16 | 广州图匠数据科技有限公司 | 一种文本级联检测方法、装置及存储介质 |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN111368831A (zh) * | 2020-03-03 | 2020-07-03 | 开放智能机器(上海)有限公司 | 一种竖排文字的定位系统及方法 |
CN111967391A (zh) * | 2020-08-18 | 2020-11-20 | 清华大学 | 医学化验单的文本识别方法和计算机可读存储介质 |
CN112001331A (zh) * | 2020-08-26 | 2020-11-27 | 上海高德威智能交通系统有限公司 | 图像识别方法、装置、设备及存储介质 |
CN112085022A (zh) * | 2020-09-09 | 2020-12-15 | 上海蜜度信息技术有限公司 | 一种用于识别文字的方法、系统及设备 |
CN112183307A (zh) * | 2020-09-25 | 2021-01-05 | 上海眼控科技股份有限公司 | 文本识别方法、计算机设备和存储介质 |
CN112329765A (zh) * | 2020-10-09 | 2021-02-05 | 中保车服科技服务股份有限公司 | 文本检测的方法及装置、存储介质及计算机设备 |
CN112529390A (zh) * | 2020-12-02 | 2021-03-19 | 平安医疗健康管理股份有限公司 | 任务分配方法、装置、计算机设备和存储介质 |
CN112650868A (zh) * | 2020-12-29 | 2021-04-13 | 苏州科达科技股份有限公司 | 图像检索方法、装置及存储介质 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN113011441A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 一种目标检测方法、系统、装置及存储介质 |
CN113065423A (zh) * | 2021-03-19 | 2021-07-02 | 国网电子商务有限公司 | 一种基于深度学习的票证关键信息提取方法和装置 |
CN113326887A (zh) * | 2021-06-16 | 2021-08-31 | 深圳思谋信息科技有限公司 | 文本检测方法、装置、计算机设备 |
CN113326766A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN113496225A (zh) * | 2021-09-07 | 2021-10-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN113673497A (zh) * | 2021-07-21 | 2021-11-19 | 浙江大华技术股份有限公司 | 文本检测方法、终端及其计算机可读存储介质 |
CN113762259A (zh) * | 2020-09-02 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 文本定位方法、装置、计算机系统和可读存储介质 |
CN113762109A (zh) * | 2021-08-23 | 2021-12-07 | 北京百度网讯科技有限公司 | 一种文字定位模型的训练方法及文字定位方法 |
CN113836977A (zh) * | 2020-06-24 | 2021-12-24 | 顺丰科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108734169A (zh) * | 2018-05-21 | 2018-11-02 | 南京邮电大学 | 一种基于全卷积网络改进的场景文本提取方法 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
-
2019
- 2019-09-24 CN CN201910905231.XA patent/CN110674804A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108734169A (zh) * | 2018-05-21 | 2018-11-02 | 南京邮电大学 | 一种基于全卷积网络改进的场景文本提取方法 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
Non-Patent Citations (1)
Title |
---|
YULIANG LIU ET AL: "Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection", 《ARXIV》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259846B (zh) * | 2020-01-21 | 2024-04-02 | 第四范式(北京)技术有限公司 | 文本定位方法和系统以及文本定位模型训练方法和系统 |
CN111259846A (zh) * | 2020-01-21 | 2020-06-09 | 第四范式(北京)技术有限公司 | 文本定位方法和系统以及文本定位模型训练方法和系统 |
CN111291754A (zh) * | 2020-01-22 | 2020-06-16 | 广州图匠数据科技有限公司 | 一种文本级联检测方法、装置及存储介质 |
CN111291754B (zh) * | 2020-01-22 | 2023-05-12 | 广州图匠数据科技有限公司 | 一种文本级联检测方法、装置及存储介质 |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN111368831A (zh) * | 2020-03-03 | 2020-07-03 | 开放智能机器(上海)有限公司 | 一种竖排文字的定位系统及方法 |
CN111368831B (zh) * | 2020-03-03 | 2023-05-23 | 开放智能机器(上海)有限公司 | 一种竖排文字的定位系统及方法 |
CN113836977A (zh) * | 2020-06-24 | 2021-12-24 | 顺丰科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113836977B (zh) * | 2020-06-24 | 2024-02-23 | 顺丰科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN111967391A (zh) * | 2020-08-18 | 2020-11-20 | 清华大学 | 医学化验单的文本识别方法和计算机可读存储介质 |
CN112001331A (zh) * | 2020-08-26 | 2020-11-27 | 上海高德威智能交通系统有限公司 | 图像识别方法、装置、设备及存储介质 |
CN113762259A (zh) * | 2020-09-02 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 文本定位方法、装置、计算机系统和可读存储介质 |
CN112085022B (zh) * | 2020-09-09 | 2024-02-13 | 上海蜜度科技股份有限公司 | 一种用于识别文字的方法、系统及设备 |
CN112085022A (zh) * | 2020-09-09 | 2020-12-15 | 上海蜜度信息技术有限公司 | 一种用于识别文字的方法、系统及设备 |
CN112183307A (zh) * | 2020-09-25 | 2021-01-05 | 上海眼控科技股份有限公司 | 文本识别方法、计算机设备和存储介质 |
CN112329765B (zh) * | 2020-10-09 | 2024-05-24 | 中保车服科技服务股份有限公司 | 文本检测的方法及装置、存储介质及计算机设备 |
CN112329765A (zh) * | 2020-10-09 | 2021-02-05 | 中保车服科技服务股份有限公司 | 文本检测的方法及装置、存储介质及计算机设备 |
CN112529390A (zh) * | 2020-12-02 | 2021-03-19 | 平安医疗健康管理股份有限公司 | 任务分配方法、装置、计算机设备和存储介质 |
CN112650868A (zh) * | 2020-12-29 | 2021-04-13 | 苏州科达科技股份有限公司 | 图像检索方法、装置及存储介质 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN113065423A (zh) * | 2021-03-19 | 2021-07-02 | 国网电子商务有限公司 | 一种基于深度学习的票证关键信息提取方法和装置 |
CN113011441B (zh) * | 2021-03-23 | 2023-10-24 | 华南理工大学 | 一种目标检测方法、系统、装置及存储介质 |
CN113011441A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 一种目标检测方法、系统、装置及存储介质 |
CN113326766B (zh) * | 2021-05-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN113326766A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
CN113326887B (zh) * | 2021-06-16 | 2024-03-29 | 深圳思谋信息科技有限公司 | 文本检测方法、装置、计算机设备 |
CN113326887A (zh) * | 2021-06-16 | 2021-08-31 | 深圳思谋信息科技有限公司 | 文本检测方法、装置、计算机设备 |
CN113673497A (zh) * | 2021-07-21 | 2021-11-19 | 浙江大华技术股份有限公司 | 文本检测方法、终端及其计算机可读存储介质 |
CN113762109A (zh) * | 2021-08-23 | 2021-12-07 | 北京百度网讯科技有限公司 | 一种文字定位模型的训练方法及文字定位方法 |
CN113762109B (zh) * | 2021-08-23 | 2023-11-07 | 北京百度网讯科技有限公司 | 一种文字定位模型的训练方法及文字定位方法 |
CN113496225A (zh) * | 2021-09-07 | 2021-10-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
CN117315702B (zh) * | 2023-11-28 | 2024-02-23 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674804A (zh) | 文本图像的检测方法、装置、计算机设备和存储介质 | |
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
US11915514B2 (en) | Method and apparatus for detecting facial key points, computer device, and storage medium | |
US9349076B1 (en) | Template-based target object detection in an image | |
CN111079632A (zh) | 文本检测模型的训练方法、装置、计算机设备和存储介质 | |
CN110619330A (zh) | 识别模型的训练方法、装置、计算机设备及识别方法 | |
CN111353512B (zh) | 障碍物分类方法、装置、存储介质和计算机设备 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN111242852A (zh) | 边界感知对象移除和内容填充 | |
CN111615702A (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
CN110163864B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN113469092B (zh) | 字符识别模型生成方法、装置、计算机设备和存储介质 | |
CN114155365A (zh) | 模型训练方法、图像处理方法及相关装置 | |
CN112287730A (zh) | 姿态识别方法、装置、系统、存储介质及设备 | |
CN113378897A (zh) | 基于神经网络的遥感图像分类方法、计算设备及存储介质 | |
CN113936287A (zh) | 基于人工智能的表格检测方法、装置、电子设备及介质 | |
JP5704909B2 (ja) | 注目領域検出方法、注目領域検出装置、及びプログラム | |
US20200160090A1 (en) | Method and system for determining physical characteristics of objects | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN108876713B (zh) | 二维模板图像的映射方法、装置、终端设备和存储介质 | |
CN112541902A (zh) | 相似区域搜索方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |