CN111783572B - 一种文本检测方法和装置 - Google Patents
一种文本检测方法和装置 Download PDFInfo
- Publication number
- CN111783572B CN111783572B CN202010555316.2A CN202010555316A CN111783572B CN 111783572 B CN111783572 B CN 111783572B CN 202010555316 A CN202010555316 A CN 202010555316A CN 111783572 B CN111783572 B CN 111783572B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- scale
- confidence
- minimum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 230000004927 fusion Effects 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000000750 progressive effect Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种文本检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;对融合尺度图进行第一二值化,以及对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;根据各文本尺度的二值化图检测文本图像中的文本。该实施方式能够准确有效地定位复杂场景中的文本信息,避免同一文本区域分隔开、文本两端定位不全等情况出现,使得文本检测准确全面。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本检测方法和装置。
背景技术
随着计算机视觉技术和深度学习算法的快速发展,图像目标检测任务获得了更多卓越的效果。但是图像中的文本信息具有多样的形式和复杂的角度等特点,传统的检测模型往往无法在文本检测识别任务中取得理想的效果,因此自然场景下的文本检测在计算机视觉以及机器学习领域仍然是一项具有挑战性的问题和未来的热点研究方向。文本检测任务是各类图像OCR识别(Optical Character Recognition,光学字符识别)的核心部分,检测效果的好坏直接影响后续文本图像识别的精度。
目前有较多效果不错的深度学习文本检测模型,例如基于候选框的EAST(高效、准确的场景文本检测)模型,或者基于图像分割的PSEnet(渐进式扩展网络)模型等。基于候选框的模型通常存在定位不精确等问题,于是大部分OCR项目通常采用基于图像分割的文本检测模型。PSEnet模型的输出结果会经过一定的后处理阶段,得到最终的文本检测结果,但是该后处理过程存在较多的阈值二值化过程,固定的阈值会导致后续的文本定位不准确,同一文本定位分隔开等情况,因此后处理过程仍待优化。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
存在文本定位不准确、同一文本区域分隔开、文本两端定位不全等缺陷。
发明内容
有鉴于此,本发明实施例提供一种文本检测方法和装置,能够准确有效地定位复杂场景中的文本信息,避免同一文本区域分隔开、文本两端定位不全等情况出现,使得文本检测准确全面。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本检测方法。
一种文本检测方法,包括:将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;对所述融合尺度图进行第一二值化,以及对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;根据所述各文本尺度的二值化图检测所述文本图像中的文本。
可选地,所述根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图,包括:利用所述最大文本尺度的文本置信度图像过滤所述最小文本尺度的文本置信度图像中的背景信息,从而得到所述融合尺度图。
可选地,通过将所述最大文本尺度的文本置信度图像和所述最小文本尺度的文本置信度图像进行点乘,来过滤所述最小文本尺度的文本置信度图像中的背景信息。
可选地,所述对所述融合尺度图进行第一二值化,包括:利用接近0的极小阈值对所述融合尺度图进行所述第一二值化,其中,所述接近0的极小阈值的取值范围为大于0且小于第一设定值。
可选地,所述文本检测网络为渐进式扩展网络;所述对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,包括:利用所述渐进式扩展网络的固定阈值,对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,所述固定阈值用于所述渐进式扩展网络执行文本置信度图像二值化操作。
可选地,所述根据所述各文本尺度的二值化图检测所述文本图像中的文本,包括:将所述各文本尺度的二值化图像输入所述渐进式扩展网络的渐进式尺度扩展算法,以定位所述文本图像中的文本。
可选地,通过将待检测的图像的尺寸进行标准化,得到长度和宽度均为预设值的整数倍的所述文本图像;在训练所述文本检测网络时,通过对图像样本的文本区域缩小来设定所述多个文本尺度对应的尺度标签,且在训练阶段,所述文本检测网络的分类器用于学习在所述最大文本尺度上文本和非文本的分类信息,以及在除所述最大文本尺度之外的其他文本尺度上文本核心区域和文本非核心区域的分类信息。
根据本发明实施例的另一方面,提供了一种文本检测装置。
一种文本检测装置,包括:置信度图生成模块,用于将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;图像融合模块,用于根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;图像二值化模块,用于对所述融合尺度图进行第一二值化,以及对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;文本检测模块,用于根据所述各文本尺度的二值化图检测所述文本图像中的文本。
可选地,所述图像融合模块还用于:利用所述最大文本尺度的文本置信度图像过滤所述最小文本尺度的文本置信度图像中的背景信息,从而得到所述融合尺度图。
可选地,所述图像融合模块还用于:通过将所述最大文本尺度的文本置信度图像和所述最小文本尺度的文本置信度图像进行点乘,来过滤所述最小文本尺度的文本置信度图像中的背景信息。
可选地,所述图像二值化模块还用于:利用接近0的极小阈值对所述融合尺度图进行所述第一二值化,其中,所述接近0的极小阈值的取值范围为大于0且小于第一设定值。
可选地,所述文本检测网络为渐进式扩展网络;所述图像二值化模块还用于:利用所述渐进式扩展网络的固定阈值,对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,所述固定阈值用于所述渐进式扩展网络执行文本置信度图像二值化操作。
可选地,所述文本检测模块还用于:将所述各文本尺度的二值化图像输入所述渐进式扩展网络的渐进式尺度扩展算法,以定位所述文本图像中的文本。
可选地,还包括图像尺寸标准化模块,用于通过将待检测的图像的尺寸进行标准化,得到长度和宽度均为预设值的整数倍的所述文本图像;所述装置还包括训练模块,用于在训练所述文本检测网络时,通过对图像样本的文本区域缩小来设定所述多个文本尺度对应的尺度标签,且在训练阶段,所述文本检测网络的分类器用于学习在所述最大文本尺度上文本和非文本的分类信息,以及在除所述最大文本尺度之外的其他文本尺度上文本核心区域和文本非核心区域的分类信息。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明实施例所提供的文本检测方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的文本检测方法。
上述发明中的一个实施例具有如下优点或有益效果:将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;对融合尺度图进行第一二值化,以及对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;根据各文本尺度的二值化图检测文本图像中的文本。能够准确有效地定位复杂场景中的文本信息,避免同一文本区域分隔开、文本两端定位不全等情况出现,使得文本检测准确全面。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明一个实施例的文本检测方法的主要步骤示意图;
图2是根据本发明一个实施例的文本检测流程的示意图;
图3是根据本发明一个实施例的票据图像示意图;
图4是根据本发明一个实施例的不同文本尺度的文本置信度图像的示意图;
图5是根据本发明一个实施例的融合尺度图的示意图;
图6是医疗门急诊收费票据的PSEnet模型优化前后的检测对比示意图;
图7是根据本发明一个实施例的文本检测装置的主要模块示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明一个实施例的文本检测方法的主要步骤示意图。
如图1所示,本发明一个实施例的文本检测方法主要包括如下的步骤S101至步骤S104。
步骤S101:将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像。
步骤S102:根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图。
步骤S103:对融合尺度图进行第一二值化,以及对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像。
其中,各文本尺度包括融合尺度图的文本尺度以及文本置信度图像的多个文本尺度中除最小文本尺度之外的其他文本尺度。
步骤S104:根据各文本尺度的二值化图检测文本图像中的文本。
作为优选实施方式,上述多个文本尺度的文本置信度图像中,该多个文本置信度图像的文本尺度完全不同。文本置信度图像即文本的置信度图。
在一个实施例中,根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图,包括:利用最大文本尺度的文本置信度图像过滤最小文本尺度的文本置信度图像中的背景信息,从而得到融合尺度图。
具体地,可以通过将最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像进行点乘,来过滤最小文本尺度的文本置信度图像中的背景信息。
在一个实施例中,对融合尺度图进行第一二值化,包括:利用接近0的极小阈值对融合尺度图进行第一二值化,其中,接近0的极小阈值的取值范围为大于0且小于第一设定值。第一设定值根据需要设定,例如0.02。
在一个实施例中,文本检测网络为渐进式扩展网络。
在一个实施例中,对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,包括:利用渐进式扩展网络的固定阈值,对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,固定阈值用于渐进式扩展网络执行文本置信度图像二值化操作,该固定阈值的取值范围通常为[0.5,1]。
在一个实施例中,根据各文本尺度的二值化图检测文本图像中的文本,包括:将各文本尺度的二值化图像输入渐进式扩展网络的渐进扩充函数,以定位文本图像中的文本。渐进扩充函数也可以称为渐进分割函数或渐进式尺度扩展算法。
在一个实施例中,将文本图像输入文本检测网络之前,可以先通过将待检测的图像的尺寸进行标准化,得到长度和宽度均为预设值的整数倍的文本图像。
本发明实施例的文本检测网络需要先经过训练,在训练文本检测网络时,通过对图像样本的文本区域缩小来设定多个文本尺度对应的尺度标签,且在训练阶段,文本检测网络的分类器用于学习在最大文本尺度上文本和非文本的分类信息,以及在除最大文本尺度之外的其他文本尺度上文本核心区域和文本非核心区域的分类信息。
本发明实施例的文本检测方法可以解决票据图像OCR识别项目中使用PSEnet模型,导致文本定位不准确和同一文本区域分隔开等情况。导致该问题的主要原因是需要设置较高的阈值来过滤文本置信度图像中的背景信息,但是文本周围和中间存在标点的情况时,该部分位置信度也很低,因此会被较高的阈值过滤掉。本发明实施例利用一种简单的融合方式首先过滤掉文本置信度图中的背景信息,然后设置一个接近0的极小阈值进行二值化,即可在过滤背景的同时保留文本的全部区域信息。从而,可以有效地定位复杂场景中的文本信息,且对比现有PSEnet模型的文本检测结果,本发明实施例的文本检测结果更加准确全面,并可以应用于票据图像以及其他多种类型图像文本的OCR识别项目的文本检测阶段中。
以下以票据图像为例详细介绍本发明实施例的文本检测方法。图2是本发明一个实施例的文本检测流程示意图。
如图2所示,本发明一个实施例的文本检测流程包括如下的步骤S201至步骤S205。
步骤S201:将票据图像输入PSEnet模型,PSEnet模型将输出6个不同文本尺度的文本置信度图像。
本实施例中,票据图像如图3所示,PSEnet模型模型将输出6个不同文本尺度的文本置信度图像如图4所示。
步骤S202:将最大文本尺度的文本置信度图像(记作k6)与最小文本尺度的文本置信度图像(记作k1)进行点乘,得到削弱背景的最小文本尺度的混合图像(记作k0)。
该削弱背景的最小文本尺度的混合图像k0即融合尺度图。
本实施例的融合尺度图的示意图如图5所示,融合尺度图是利用最大文本尺度的文本置信度图像去除了最小文本尺度的文本置信度图像中的背景信息而得到的,融合尺度图的文本尺度与最小文本尺度相同。
步骤S203:利用一个接近0的极小阈值对混合图像k0进行二值化。
步骤S204:利用PSEnet模型中的固定阈值,对除最小文本尺度的文本置信度图像以外的其他5个文本尺度的文本置信度图像进行二值化。
步骤S205:将通过S203和S204得到的上述6个文本尺度的二值化图像输入PSEnet模型原有的渐进式尺度扩展算法中,得到最终的文本定位结果。
根据本发明实施例,首先将网络(PSEnet模型)输出的最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像进行点乘,过滤掉小文本尺度的文本置信度图像中的背景信息,然后设置一个接近0的极小阈值对融合尺度图进行二值化,从而保留文本区域内置信度较低的部分,确保用于渐进扩充的最小尺度图的完整性。本发明实施例根据PSEnet模型的输出结果规律,设置了一种简单的融合过滤的机制,取代了原本的固定阈值二值化网络输出置信度图的方式,有效地解决了PSEnet模型文本检测不全面和容易检测断裂的情况。
下面以医疗门(急)诊收费票据图像为例介绍本发明实施例的具体实施流程。
首先,将待检测的图像(即医疗门(急)诊收费票据图像)的尺寸进行标准化,按照以下公式对图像的长或宽进行放缩:
其中w为原始图像(即上述待检测的图像)的长或者宽,w*为放缩之后的图像长或宽,N为正整数,上述放缩公式表达的是将图像的长和宽分别转换成32的倍数,“//”表示求整除结果,即上述w//32表示将w与32相除,并取其商的整数部分。
将放缩后的图像(即上述标准化之后的待检测的图像)输入PSEnet模型中,PSEnet模型将通过卷积神经网络输出n个文本尺度的文本置信度图像。
PSEnet模型在训练的过程中设置的n个尺度标签是由图像样本的原始文本区域逐渐缩小而得到的,图像样本可以是对作为训练样本的待检测图像进行标准化之后得到的图像,图像样本的原始文本区域是作为训练样本的待检测图像进行标准化之后得到的图像中的文本区域。向内缩小的范围di计算如下:
其中i表示第i个文本尺度的文本置信度图像,pn表示最大的第n个文本尺度的文本区域,即图像样本的原始文本区域,Area(·)和Perimeter(·)(即上式的Area函数和Perimeter函数)分别表示求该文本区域的面积和周长,ri表示的是缩小的文本尺度与原始的文本尺度的比例。
PSEnet模型训练时,分类器学习的是第n个文本尺度上文本和非文本的分类,以及其他n-1个文本尺度上原始文本区域内核心区域与非核心区域的分类,因此PSEnet模型输出的第n个文本尺度的文本置信度图像中文本区域置信度较高,而非文本区域置信度较低。但是在其他文本尺度的文本置信度图像中,文本核心区域置信度高,而文本非核心区域置信度较低,其他非文本区域置信度普遍集中在0.5左右,即PSEnet模型以0.5的概率判断该像素是文本区域。
通过PSEnet模型利用其固定阈值二值化所有文本尺度的文本置信度图像,然后从小文本尺度的文本置信度图像逐渐扩充到大文本尺度的文本置信度图像,从而解决大文本尺度的文本置信度图像中相近文本连接在一起的问题。PSEnet模型的固定阈值通常会设置在0.8以上,从而分割过滤掉最小文本尺度的文本置信度图像上的背景信息,但是文本区域中可能存在字符间隔较远或者存在标点的情况,此时该固定阈值会将同一文本实例分割成两个部分,特别是包含小数点的数字信息,会降低后续识别结果的精度。为了解决上述问题,以提高后续识别结果的精度,本发明实施例进一步提出计算如下的融合尺度图k0:
其中k1和kn分别表示网络(即PSEnet模型)输出的最小文本尺度的文本置信度图像和最大文本尺度的文本置信度图像,α表示一个接近0的数,本发明实施例可以取0.01(不限于该数值),表示混合图(即融合尺度图k0)上的矩阵位置。通过首先用最大文本尺度的文本置信度图像来过滤最小文本尺度的文本置信度图像中的背景信息,然后用极小的阈值α二值化,可以在去除背景信息的同时,有效地保存文本区域中置信度较低的部分。
再利用PSEnet模型的固定阈值二值化其他n-1个文本尺度(除最小文本尺度之外的文本尺度)的文本置信度图像。
然后将上述这些二值化结果图输入PSEnet模型提出的渐进式尺度扩展算法,得到最终的文本定位结果。
本发明实施例可以通过简单的融合方式和极小的阈值优化传统PSEnet模型的输出二值化过程,确保在消除图像背景信息的同时,保存文本区域中置信度较低的部分,提升的文本检测结果的完整性和准确性。
一个示例的医疗门急诊收费票据的PSEnet模型优化前后的检测对比示意图如图6所示,其中图像601a是医疗门急诊收费票据的第一局部图像通过PSEnet模型优化前的检测结果,图像601b是本发明实施例中该第一局部图像通过PSEnet模型优化后的检测结果;图像602a是医疗门急诊收费票据的第二局部图像通过PSEnet模型优化前的检测结果,图像602b是本发明实施例中该第二局部图像通过PSEnet模型优化后的检测结果。如上述检测对比示意图所示,PSEnet模型优化前的检测结果中,导致“33.60”这种包含小数点的文本出现检测断裂,即将“33.60”检测为“33.”和“60”,还可导致检测到的文本两端不完整,例如将“保险编号”检测为“呆险编号”。而本发明实施例通过PSEnet模型优化后的检测结果(即通过本发明实施例的文本检测流程得到的检测结果)则避免出现文本检测断裂、文本两端不完整等情况,大幅度增加了后续文字识别精度,改善票据图像中关键字信息检测效果。
本发明实施例通过PSEnet模型输出的文本尺度的文本置信度图像进行融合,利用简单的极小阈值替换需要先验知识的固定阈值,从而提高文本区域部分的检测全面性和完整性,更有利于OCR项目后续文本信息的匹配过程,并且,利用PSEnet模型输出结果的特性,对文本位置进行精细定位,可以有效地提高OCR项目中后续的文本识别结果,另外,融合图像(融合尺度图)的二值化过程不需要过多的先验知识,可以广泛应用到不同场景下的文本检测项目。
图7是根据本发明一个实施例的文本检测装置的主要模块示意图。
如图7所示,本发明一个实施例的文本检测装置700主要包括:置信度图生成模块701、图像融合模块702、图像二值化模块703、文本检测模块704。
置信度图生成模块701,用于将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像。
图像融合模块702,用于根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图。
图像二值化模块703,用于对融合尺度图进行第一二值化,以及对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像。
文本检测模块704,用于根据各文本尺度的二值化图检测文本图像中的文本。
在一个实施例中,图像融合模块702具体用于:利用最大文本尺度的文本置信度图像过滤最小文本尺度的文本置信度图像中的背景信息,从而得到融合尺度图。
图像融合模块具体可以通过将最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像进行点乘,来过滤最小文本尺度的文本置信度图像中的背景信息。
在一个实施例中,图像二值化模块703具体用于:利用接近0的极小阈值对融合尺度图进行第一二值化,其中,接近0的极小阈值的取值范围为大于0且小于第一设定值。
在一个实施例中,文本检测网络为渐进式扩展网络。
图像二值化模块703具体用于:利用渐进式扩展网络的固定阈值,对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,固定阈值用于渐进式扩展网络执行文本置信度图像二值化操作。
文本检测模块704可以用于:将各文本尺度的二值化图像输入渐进式扩展网络的渐进式尺度扩展算法,以定位文本图像中的文本。
文本检测装置700还可以包括训练模块,用于在训练文本检测网络时,通过对图像样本的文本区域缩小来设定多个文本尺度对应的尺度标签,且在训练阶段,文本检测网络的分类器用于学习在最大文本尺度上文本和非文本的分类信息,以及在除最大文本尺度之外的其他文本尺度上文本核心区域和文本非核心区域的分类信息。
另外,在本发明实施例中所述文本检测装置的具体实施内容,在上面所述文本检测方法中已经详细说明了,故在此重复内容不再说明。
本发明实施例根据PSEnet模型的网络输出特性,将最大文本尺度的输出图(最大文本尺度的文本置信度图像)与最小文本尺度的输出图(最大文本尺度的文本置信度图像)进行融合,利用网络的特性自动剔除文本置信度图中的非文本区域,使文本检测效果更佳完整;利用一个接近0的极小阈值来二值化融合置信度图像,可以减少整个检测过程对人工先验知识的依赖程度。
图8示出了可以应用本发明实施例的文本检测方法或文本检测装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的文本检测请求等数据进行分析等处理,并将处理结果(例如检测结果--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本检测方法一般由服务器805执行,相应地,文本检测装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统900的结构示意图。图9示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括置信度图生成模块、图像融合模块、图像二值化模块、文本检测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,置信度图生成模块还可以被描述为“用于将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;对所述融合尺度图进行第一二值化,以及对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;根据所述各文本尺度的二值化图检测所述文本图像中的文本。
根据本发明实施例的技术方案,将文本图像的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;对融合尺度图进行第一二值化,以及对各文本置信度图像中除最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;根据各文本尺度的二值化图检测文本图像中的文本。能够准确有效地定位复杂场景中的文本信息,避免同一文本区域分隔开、文本两端定位不全等情况出现,使得文本检测准确全面。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (7)
1.一种文本检测方法,其特征在于,包括:
将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;
根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;
对所述融合尺度图进行第一二值化,以及对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;
根据所述各文本尺度的二值化图检测所述文本图像中的文本;
所述根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图,包括:通过将所述最大文本尺度的文本置信度图像和所述最小文本尺度的文本置信度图像进行点乘,来过滤所述最小文本尺度的文本置信度图像中的背景信息,从而得到所述融合尺度图;
所述对所述融合尺度图进行第一二值化,包括:利用接近0的极小阈值对所述融合尺度图进行所述第一二值化,其中,所述接近0的极小阈值的取值范围为大于0且小于第一设定值。
2.根据权利要求1所述的方法,其特征在于,所述文本检测网络为渐进式扩展网络;
所述对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,包括:
利用所述渐进式扩展网络的固定阈值,对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,所述固定阈值用于所述渐进式扩展网络执行文本置信度图像二值化操作。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各文本尺度的二值化图检测所述文本图像中的文本,包括:
将所述各文本尺度的二值化图像输入所述渐进式扩展网络的渐进式尺度扩展算法,以定位所述文本图像中的文本。
4.根据权利要求1所述的方法,其特征在于,在训练所述文本检测网络时,通过对图像样本的文本区域缩小来设定所述多个文本尺度对应的尺度标签,且在训练阶段,所述文本检测网络的分类器用于学习在所述最大文本尺度上文本和非文本的分类信息,以及在除所述最大文本尺度之外的其他文本尺度上文本核心区域和文本非核心区域的分类信息。
5.一种文本检测装置,其特征在于,包括:
置信度图生成模块,用于将文本图像输入文本检测网络,得到多个文本尺度的文本置信度图像;
图像融合模块,用于根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图;
图像二值化模块,用于对所述融合尺度图进行第一二值化,以及对所述各文本置信度图像中除所述最小文本尺度的文本置信度图像之外的其他文本置信度图像进行第二二值化,得到各文本尺度的二值化图像;
文本检测模块,用于根据所述各文本尺度的二值化图检测所述文本图像中的文本;
所述根据得到的各文本置信度图像中最大文本尺度的文本置信度图像和最小文本尺度的文本置信度图像生成融合尺度图,包括:通过将所述最大文本尺度的文本置信度图像和所述最小文本尺度的文本置信度图像进行点乘,来过滤所述最小文本尺度的文本置信度图像中的背景信息,从而得到所述融合尺度图;
所述对所述融合尺度图进行第一二值化,包括:利用接近0的极小阈值对所述融合尺度图进行所述第一二值化,其中,所述接近0的极小阈值的取值范围为大于0且小于第一设定值。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555316.2A CN111783572B (zh) | 2020-06-17 | 2020-06-17 | 一种文本检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555316.2A CN111783572B (zh) | 2020-06-17 | 2020-06-17 | 一种文本检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783572A CN111783572A (zh) | 2020-10-16 |
CN111783572B true CN111783572B (zh) | 2023-11-14 |
Family
ID=72756712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010555316.2A Active CN111783572B (zh) | 2020-06-17 | 2020-06-17 | 一种文本检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783572B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677691B (zh) * | 2022-04-06 | 2023-10-03 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110427946A (zh) * | 2019-07-04 | 2019-11-08 | 天津车之家数据信息技术有限公司 | 一种文档图像二值化方法、装置和计算设备 |
CN110880000A (zh) * | 2019-11-27 | 2020-03-13 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN111062389A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置、计算机可读介质及电子设备 |
-
2020
- 2020-06-17 CN CN202010555316.2A patent/CN111783572B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110427946A (zh) * | 2019-07-04 | 2019-11-08 | 天津车之家数据信息技术有限公司 | 一种文档图像二值化方法、装置和计算设备 |
CN110880000A (zh) * | 2019-11-27 | 2020-03-13 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN111062389A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置、计算机可读介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Shape Robust Text Detection with Progressive Scale Expansion Network;Xiang Li et al.;《arXiv》;全文 * |
自然场景图像中的文本检测综述;王润民 等;《自动化学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783572A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886326B (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
US20170039193A1 (en) | Language generation from flow diagrams | |
CN109993749B (zh) | 提取目标图像的方法和装置 | |
US20170039192A1 (en) | Language generation from flow diagrams | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN111967449B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN114429633A (zh) | 文本识别方法、模型的训练方法、装置、电子设备及介质 | |
CN111160410B (zh) | 一种物体检测方法和装置 | |
CN112148841A (zh) | 一种对象分类以及分类模型构建方法和装置 | |
CN111881943A (zh) | 图像分类的方法、装置、设备和计算机可读介质 | |
CN113408507B (zh) | 基于履历文件的命名实体识别方法、装置和电子设备 | |
CN106611148B (zh) | 基于图像的离线公式识别方法和装置 | |
CN111783572B (zh) | 一种文本检测方法和装置 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN112148865B (zh) | 信息推送方法和装置 | |
CN111353039B (zh) | 文件类别检测方法和装置 | |
CN114860667B (zh) | 文件分类方法、装置、电子设备及计算机可读存储介质 | |
CN111881778B (zh) | 文本检测的方法、装置、设备和计算机可读介质 | |
CN113051400B (zh) | 标注数据确定方法、装置、可读介质及电子设备 | |
CN111339776B (zh) | 简历解析方法、装置、电子设备和计算机可读存储介质 | |
CN114820484A (zh) | 页面的检测方法、装置、设备及介质 | |
CN113807056A (zh) | 一种文档名称序号纠错方法、装置和设备 | |
CN111274383B (zh) | 一种应用于报价的分类对象方法和装置 | |
CN113742485A (zh) | 一种处理文本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |