CN117746433A - 文本检测方法和装置、电子设备和存储介质 - Google Patents
文本检测方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117746433A CN117746433A CN202311723912.7A CN202311723912A CN117746433A CN 117746433 A CN117746433 A CN 117746433A CN 202311723912 A CN202311723912 A CN 202311723912A CN 117746433 A CN117746433 A CN 117746433A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- detected
- initial
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 74
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本公开实施例公开了一种文本检测方法和装置、电子设备和存储介质,其中,方法包括:对待检测图像进行划分处理,得到多个子图像;对多个子图像进行文本检测,得到第一初始文本框和第一初始文本框在对应子图像中的位置信息;根据第一初始文本框在对应子图像中的位置信息,确定第一初始文本框在待检测图像中对应的第二初始文本框和第二初始文本框在待检测图像中的位置信息;当待检测图像中的图像区域对应的第二初始文本框之间具有重叠区域,对该具有重叠区域的第二初始文本框进行去重或合并处理,得到待检测图像中的待识别文本框;对待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
Description
技术领域
本公开涉及图像识别技术领域、文本检测技术领域,尤其是一种文本检测方法和装置、电子设备和存储介质。
背景技术
在多种应用场景中需要对图像进行文本检测。在实际应用中,由于高分辨率图像具有清晰度、承载信息量大等优点,已被广泛应用在多个领域。由于科技的进步,通常一张高分辨图像的像素可以达到上亿级别,图像中也可能包括数百行文本,这对文本检测的性能提出了很大挑战。如果直接将亿级别像素的高分辨率图像按照原始尺寸进行文本检测,需要具有较高配置显存,价格较为高昂。
为了解决上述问题,相关技术中,在对高分辨率图像进行文本检测前,先调低图像的分辨率,再对低分辨率的图像进行文本检测,然而,调低图像的分辨率可能丢失高分辨图像中的小文本信息,从而导致文本漏检,从而导致对图像中文本信息提取不全的问题。
发明内容
为了解决上述技术问题,本公开实施例提供了一种文本检测方法和装置、电子设备和存储介质。
本公开实施例的一个方面,提供了一种文本检测方法,包括:对待检测图像进行划分处理,得到多个子图像;对所述多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;根据各第一初始文本框在对应子图像中的位置信息,确定所述至少一个第一初始文本框在所述待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在所述待检测图像中的位置信息;分别针对所述待检测图像中的各图像区域,响应于所述图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,得到所述待检测图像中的待识别文本框,其中,所述待检测图像预先被划分为多个图像区域;对所述待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
本公开实施例的另一个方面,提供了一种文本检测装置,其特征在于,包括:图像划分模块,用于对待检测图像进行划分处理,得到多个子图像;文本检测模块,用于对所述多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;第一文本框映射模块,用于根据各第一初始文本框在对应子图像中的位置信息,确定所述至少一个第一初始文本框在所述待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在所述待检测图像中的位置信息;去重合并模块,用于分别针对所述待检测图像中的各图像区域,响应于所述图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,得到所述待检测图像中的待识别文本框,其中,所述待检测图像预先被划分为多个图像区域;文本识别模块,用于对所述待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
本公开实施例的又一个方面,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现文本检测方法。
本公开实施例的又一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现的文本检测方法。
本公开实施例中,通过将待检测图像划分成多个子图像,然后对多个子图像进行文本检测,并根据多个子目标图像中的第一初始文本框,确定待检测图像中的第二初始文本框,之后通过对对应同一图像区域且具有重叠的第二初始文本进行去重或合并处理,得到目标图像的待识别文本框,由此能够在保证待检测图像的分辨率不变的情况下,实现对待检测图像文本检测,全面、准确、有效的检测出待检测图像中的文本信息,避免了相关技术中由于降低待检测图像分辨率所导致的小文本信息的丢失情况,进而解决了文本漏检的问题,提高了文本召回率。
另外,本公开实施例中,通过单独对各待图像区域中的具有重叠区域的第二初始文本框进行去重或合并处理,能够实现对需要去重和合并处理的第二初始文本框的快速定位,提高了对第二初始文本框的去重和合并的效率,而且由于去重和合并处理是针对位于同一图像区域中的第二初始文本框进行的,无需将每个第二初始文本框与待检测图像的其他第二初始文本框进行比较确定是否进行去重或合并,从而有效的减少了文本框去重和合并时需要处理的文本框的数量,降低了文本框去重和合并的难度,提高了对文本框的去除和合并的效率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是本公开一示例性实施例提供的文本检测方法的流程示意图;
图2是本公开另一示例性实施例提供的文本检测方法的流程示意图;
图3是本公开一示例性实施例提供的步骤S210的流程示意图;
图4是本公开一示例性实施例提供的步骤S140的流程示意图;
图5A示出了本公开一示例性实施例提供的相邻子图在长度维度上具有重叠区域的示意图;
图5B示出了本公开一示例性实施例提供的相邻子图在宽度维度上具有重叠区域的示意图;
图6示出本公开实施例中文本检测方法一个应用实施例的流程示意图;
图7是本公开又一示例性实施例提供的文本检测方法的流程示意图;
图8是本公开一示例性实施例提供的步骤S310的流程示意图;
图9是本公开一示例性实施例提供的文本检测装置的结构框图;
图10为本公开电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在实现本公开的过程中,发明人发现,在对高分辨率包括密集文本的图像进行文本检测时,需要先通过对图像进行缩放处理,以降低图像分辨率,之后再对低分率图像进行文本检测。但是降低图像的分辨率会导致图像中所包括的文本变的模糊不清晰,使得高分辨图像中的小文本信息丢失,这就导致后续在对图像文本检测时,出现文本漏检的现象,从而导致图像中的文本信息未被全部提取。
图1是本公开一示例性实施例提供的文本检测方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤S110,对待检测图像进行划分处理,得到多个子图像。
其中,可以预先设置图像划分方式,之后根据预设的图像划分方式对待检测图像进行划分处理,以得到多个子图像。示例性的,可以根据待检测图像的尺寸、分辨率等,利用预设尺寸或分辨率与图像划分数量之间的对应关系,确定待检测图像的图像划分数量,之后将待检测图像划分成该图像划分数量的子图像。或者,也可以预设图像划分数量,将待检测图像划分为预设图像划分数量的子图像。
多个子图像中的每个子图像的尺寸和形状均可以相同。多个子图像中的相邻两个子图像之间可以具有重叠区域。例如,相邻两个子图像可以是在宽维度和/或高维度上具有重叠区域。其中,上述的相邻两子图像是指在待检测图像中具有相邻位置关系的两个子图像。
步骤S120,对多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息。
其中,可以利用文本检测(Text Detection)技术对每个子图像进行文本检测,确定第一初始文本框。示例性的,可以使用预先训练好的用于文本检测的神经网络对每个子图像进行文本检测,得到第一初始文本框。其中的神经网络可以为ABCNet(AdaptiveBezier Curve Network,自适应贝塞尔曲线网络)、DBNet(Differentiable BinarizationNetwork,可微分二值化网络)、CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)等。
第一初始文本框在对应子图像中的位置信息可以理解为该第一初始文本框在检测到该第一初始文本框的子图像中的位置信息。第一初始文本框在对应子图像中的位置信息可以包括该第一初始文本框在对应子图像中的坐标值。示例性的,第一初始文本框在对应子图像中的位置信息包括该第一初始文本框的四个顶点在对应子图像中的坐标值。
在本实施例中,坐标值对应的坐标系可以是像素坐标系或是图像坐标系等,此处不做限定。
步骤S130,根据各第一初始文本框在对应子图像中的位置信息,确定至少一个第一初始文本框在待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在待检测图像中的位置信息。
其中,第二初始文本框在待检测图像中的位置信息可以包括第二初始文本框在待检测图像中的坐标值。示例性的,第二初始文本框在待检测图像中的位置信息该第二初始文本框的四个顶点在待检测图像中的坐标值。
在一个可选实施方式中,可以通过坐标系转换的方式,将各第一初始文本框映射到待检测图像中,以得到每个第一初始文本框在待检测图像中对应的第二初始文本文本框。
步骤S140,分别针对待检测图像中的各图像区域,响应于该图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在待检测图像中的位置信息,对该具有重叠区域的第二初始文本框进行去重或合并处理,得到该待检测图像中的待识别文本框。
其中,该待检测图像预先被划分为多个图像区域。
在一个具体实现方式中,可以预先设置图像区域的预设尺寸,之后按照预设尺寸将待检测图像划分成多个图像区域。先确定每个图像区域在待检测图像中对应的坐标值,之后根据各第二初始文本框在待检测图像中的位置信息和各图像区域在待检测图像中对应的坐标值,确定每个第二初始文本框对应的图像区域。
可以根据第二初始文本框在待检测图像中的位置信息,确定对应同一图像区域的第二初始文本框之间是否具有重叠区域,如果具有重叠区域,可以根据具有重叠区域的第二初始文本框在待检测图像中的位置信息,确定该具有重叠区域的第二初始文本框之间的位置关系,当该具有重叠区域的第二初始文本框之间的位置关系是包含位置关系时,即一个第二初始文本框全部位于另一第二初始文本框内部,则将被包含的第二初始文本框删除,保留尺寸最大的第二初始文本框作为待识别文本框,即对该具有重叠区域的第二初始文本框进行去重处理,当该具有重叠区域的第二初始文本框位置之间的位置关系是交叉位置关系时,即两个第二初始文本框部分区域重叠,则对该具有重叠区域的第二初始文本框进行合并处理,得到待识别文本框。
步骤S150,对待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
其中,该文本识别结果包括识别出的、待检测图像中记载的文本信息。
在一个具体实现方式中,可以利用文本提取技术,例如OCR(Optical CharacterRecognition,光学字符识别)等,识别出每个待识别文本框中的文本信息。
本公开实施例中,通过将待检测图像划分成多个子图像,然后对多个子图像进行文本检测,并根据多个子目标图像中的第一初始文本框,确定待检测图像中的第二初始文本框,之后通过对对应同一图像区域且具有重叠的第二初始文本进行去重或合并处理,得到目标图像的待识别文本框,由此能够在保证待检测图像的分辨率不变的情况下,实现对待检测图像文本检测,全面、准确、有效的检测出待检测图像中的文本信息,避免了相关技术中由于降低待检测图像分辨率所导致的小文本信息的丢失情况,进而解决了文本漏检的问题,提高了文本召回率。
另外,本公开实施例中,通过单独对各待图像区域中的具有重叠区域的第二初始文本框进行去重或合并处理,能够实现对需要去重和合并处理的第二初始文本框的快速定位,提高了对第二初始文本框的去重和合并的效率,而且由于去重和合并处理是针对位于同一图像区域中的第二初始文本框进行的,无需将每个第二初始文本框与待检测图像的其他第二初始文本框进行比较确定是否进行去重或合并,从而有效的减少了文本框去重和合并时需要处理的文本框的数量,降低了文本框去重和合并的难度,提高了对文本框的去除和合并的效率。
在一些可选实施方式中,可以通过如下方式确定第一初始文本框在待检测图像中对应第二初始文本框,具体包括:
对于各子图像,获取该子图像在该待检测图像中的位置信息,之后根据子图像在该待检测图像中的位置信息和该子图像中的第一初始文本框映在该子图像中的位置信息,将该第一初始文本框映射到待检测图像中,得到该第一初始文本框在待检测图像中对应的第二初始文本框,以及该第二初始文本框在待检测图像中的位置信息。
例如,假设待检测图像和所有子图像的坐标系均是像素坐标系,将该子图像的坐标系的原点在待检测图像中的坐标值确定为该子图像的在该待检测图像中的位置信息,之后利用式(1)计算得到该子图像中的第一初始文本框的各顶点在待检测图像中分别对应的点,将这些分别对应的点确定为该第二初始文本框的各顶点,并由该第二初始文本框的各顶点生成与第一初始文本框对应的第二初始文本块,以完成该第一初始文本框的映射,得到该第一初始文本框在待检测图像中对应的第二初始文本框。
其中,X和Y为第二初始文本框的一个顶点在待检测图像中的坐标值,x和y为该顶点(对应于第一初始文本框的一个顶点)在对应子图像中的坐标值,xo和yo为子图像的坐标系的原点在待检测图像中的坐标值。
图2是本公开另一示例性实施例提供的文本检测方法的流程示意图。在一些可选实施方式中,如图2所示,在步骤S140之前还可以包括如下步骤:
步骤S210,根据各第二初始文本框在待检测图像中的位置信息和各图像区域在待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域。
其中,每个图像区域的位置范围信息包括该图像区域在待检测图像中对应的所有坐标值。
在一个具体实现方式中,对于每个图像区域,先确定该图像区域在待检测图像中的位置范围信息,之后对于每个第二初始文本框,当该第二初始文本框在待检测图像中的坐标值(位置信息)属于一个图像区域在待检测图像中对应的坐标值集合(位置范围信息),则可以确定该第二初始文本框与该图像区域对应。
步骤S220,分别针对待检测图像中的各图像区域,根据该图像区域对应的第二初始文本框在待检测图像中的位置信息,确定图像区域对应的第二初始文本框之间是否具有重叠区域。
其中,对于对应同一图像区域的两个第二初始文本框,可以根据该两个第二初始文本框中的每个文本框的至少两个顶点的在待检测图像中的坐标值,利用重叠区域确定算法或工具,确定该两个第二初始文本框是否具有重叠区域。
示例性的,可以将每个第二初始文本框的左上角顶点的坐标值和右下角的顶点坐标值输入textbox中的check_overlap(检查重叠)中,根据check_overlap反馈的布尔值,确定该两个第二初始文本框是否具有重叠区域。其中的textbox是Python中一个用于处理文本框边界框的库,其具体用于计算和操作文本框的位置、大小和形状等的相关函数。或者,可以通过NMS(Non Maximum Suppression,非极大值抑制)方法确定该两个第二初始文本框是否具有重叠区域。
本公开实施例中,先通过各第二初始文本框在待检测图像中的位置信息和各图像区域在待检测图像中的位置范围信息,确定出每个第二初始文本框分别对应的图像区域,之后再利用每个图像区域对应的第二初始文本框在待检测图像中的位置信息,确定出每个图像区域对应的第二初始文本框是否具有重叠区域,由此实现了高效准确的确定每个图像区域对应的第二初始文本框是否具有重叠区域,不仅为后续对第二初始文本框去除或合并提高了可靠的数据基础,而且进一步提高了文本检测效率。
图3是本公开一示例性实施例提供的步骤S210的流程示意图。在一些可选实施方式中,如图3所示,在步骤S210可以包括如下步骤:
步骤S211,根据预先设定的图像分辨率与区域数量之间的对应关系,确定待检测图像的图像分辨率对应的目标区域数量。
其中,可以先获取待检测图像的图像分辨率,之后在预先设定的图像分辨率与区域数量之间的对应关系中查询与待检测图像的图像分辨率对应的区域数量,并将该区域数量确定为目标区域数量。
步骤S212,根据待检测图像的尺寸信息,将待检测图像划分为目标区域数量的多个图像区域(也可以称为离散点),并获取各图像区域在待检测图像中的位置范围信息。
其中,待检测图像的尺寸信息可以包括待检测图像的高度信息和长度信息。
在一个具体实现方式中,可以根据待检测图像的高度信息和目标区域数量,确定每个图像区域在待检测图像中的位置范围信息。
示例性的,假设待检测图像的高度为H,目标区域数量为L,将待检测图像划分成L个离散点,每个离散点对应一个图像区域,根据图像区域(离散点)位于待检测图像中的位置,按照由上至下的顺序,向各图像区域(离散点)分配的编号依次为n1、n2…nL。
图像区域n1对应待检测图像中0~H/L的区域,其在待检测图像中对应的位置范围信息即为0~H/L的区域中包括的全部坐标值,图像区域n2对应待检测图像中((H/L)+1)~2H/L的区域,其在待检测图像中对应的位置范围信息即为((H/L)+1)~2H/L的区域中包括的全部坐标值,以此类推,图像区域nL对应待检测图像中(((L-1)H/L)+1)~LH/L的区域,其在待检测图像中对应的位置范围信息即为(((L-1)H/L)+1)~LH/L的区域中包括的全部坐标值。
步骤S213,根据各第二初始文本框的关键点在待检测图像中的位置信息和各图像区域在待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域。
其中,任一第二初始文本框的关键点位于该任一第二初始文本框的框边上。第二初始文本框的关键点在待检测图像中的位置信息包括该关键点在待检测图像中的坐标值。
在一种具体实现方式中,对于每个第二初始文本框,可以将该第二初始文本的四个框边的中点确定为该第二初始文本框的关键点,即该第二初始文本框具有四个关键点。为每个图像区域分配左框边桶、右框边桶、上框边桶和下框边桶,每个图像区域中的第二初始文本框的左框边上的关键点可以位于该图像区域的左框边桶中,每个图像区域中的第二初始文本框的右框边上的关键点可以位于该图像区域的右框边桶中,每个图像区域中的第二初始文本框的上框边上的关键点可以位于该图像区域的上框边桶中,每个图像区域中的第二初始文本框的下框边上的关键点可以位于该图像区域的下框边桶中。
各框边桶分别对应一个位置范围信息,且每个框边桶对应的位置范围信息与该框边桶对应的图像区域对应的位置范围信息相同。
可以根据每个第二初始文本框的每个关键点在待检测图像中的位置信息和每个关键点所位于的框边,以及各框边桶对应的位置范围信息,确定每个第二初始文本框的每个关键点对应的框边桶,当任一第二初始文本框的各关键点均对应一个图像区域的框边桶时,确定该任一第二初始文本框与该图像区域对应。
本公开实施例中,可以通过预先设定的图像分辨率与区域数量之间的对应关系,确定待检测图像的目标区域数量,之后将待检测图像划分为目标区域数量的多个图像区域,以及获取各图像区域在待检测图像中的位置范围信息,由此实现了可以根据待检测图像的实际图像分辨率确定待检测图像需要被划分的目标区域数量,优化了图像区域的分配;另外通过各第二初始文本框的关键点在待检测图像中的位置信息,确定各第二初始文本框分别对应的图像区域,有效提高了确定第二初始文本框分别对应的图像区域效率。
图4是本公开一示例性实施例提供的步骤S140的流程示意图。在一些可选实施方式中,如图4所示,在步骤S140可以包括如下步骤:
步骤S141,根据对应同一图像区域的且具有重叠区域的第二初始文本框的关键点在待检测图像中的位置信息,确定该具有重叠区域的第二初始文本框的框边在待检测图像中的位置关系。
在一个具体实现方式中,对于每个图像区域,当该图像区域对应的两个第二初始文本框具有重叠区域时,可以根据该图像区域的左框边桶中包括的该两个第二初始文本框的左框边的关键点在待检测图像中的位置信息,确定该两个第二初始文本框的左框边在待检测图像中的位置关系;根据该图像区域的右框边桶中包括的该两个第二初始文本框的右框边的关键点在待检测图像中的位置信息,确定该两个第二初始文本框的右框边在待检测图像中的位置关系;根据该图像区域的上框边桶中包括的该两个第二初始文本框的上框边的关键点在待检测图像中的位置信息,确定该两个第二初始文本框的上框边在待检测图像中的位置关系;根据该图像区域的下框边桶中包括的该两个第二初始文本框的下框边的关键点在待检测图像中的位置信息,确定该两个第二初始文本框的下框边在待检测图像中的位置关系。
步骤S142,根据该具有重叠区域的第二初始文本框的框边在待检测图像中的位置关系,对该具有重叠区域的第二初始文本框进行去重或合并处理。
在一个具体实现方式中,根据该两个第二初始文本框的左框边在待检测图像中的位置关系,将处于最左边的左框边确定为目标左框边,根据该两个第二初始文本框的右框边在待检测图像中的位置关系,并将处于最右边的右框边确定为目标右框边,根据该两个第二初始文本框的上框边在待检测图像中的位置关系,将处于最上边的上框边确定为目标上框边,根据该两个第二初始文本框的下框边在待检测图像中的位置关系,将处于最下边的下框边确定为目标下框边,将目标上框边、目标下框边、目标左框边和目标右框边进行连接,以形成封闭的矩形的文本框,由此完成对具有重叠区域的第二初始文本框的去重或合并处理,得到待识别文本框。
本公开实施例中,先根据具有重叠区域的第二初始文本框的关键点在待检测图像中的位置信息,确定具有重叠区域的第二初始文本框的各框边在待检测图像中的位置关系;之后根据各框边在待检测图像中的位置关系,对具有重叠区域的第二初始文本框进行去重或合并处理。由此在保证了文本框去重和合并的准确性的前提下,降低文本框的去重和合并的难度,提高了文本框去重和合并的效率。
在一个应用实例中,在本应实例中,以步骤S212、步骤S213、步骤S141和步骤S142中的具体实现方式为例,对具有重叠区域的第二初始文本框的去重或合并的方式进行说明。
具体包括:
第一,对第二初始文本框的左框边和右框边进行合并或去重,具有方法包括:
按照由上至下的顺序,对于图像区域n1至图像区域nL中的每个图像区域,先检测该图像区域的左边框桶和右边框桶是否均包括关键点,当该左边框桶和该右边框桶均包括关键点,确定该图像区域对应的第二初始文本框之间是否具有重叠区域,当该图像区域对应的第二初始文本框之间具有重叠区域,确定该具有重叠区域的第二初始文本框的左框边之间的位置关系,以及确定该具有重叠区域的第二初始文本框的右框边之间的位置关系,之后根据该具有重叠区域的第二初始文本框的左框边之间的位置关系,以及该具有重叠区域的第二初始文本框的右框边之间的位置关系,确定该具有重叠区域的第二初始文本框的目标左框边和目标右框边,具体确定左框边之间的位置关系的方法,以及确定右框边之间的位置关系的方法可以参见步骤S141,以及确定目标左框边和目标右框边的方法可以参见步骤S142,此处不做赘述;
当该左边框桶和/或该右边框桶不包括关键点,或者,当该图像区域对应的第二初始文本框之间不具有重叠区域,对该图像区域的下一个图像区域重复上述的对第二初始文本框的左框边和右框边进行合并或去重的操作,直至图像区域nL。
第二,对第二初始文本框的上框边和下框边进行合并或去重,具有方法包括:
按照由上至下的顺序,对于图像区域n1至图像区域nL中的每个图像区域,先检测该图像区域的上边框桶和下边框桶是否均包括关键点,当该上边框桶和该下边框桶均包括关键点,确定该图像区域对应的第二初始文本框之间是否具有重叠区域,当该图像区域对应的第二初始文本框之间具有重叠区域,确定该具有重叠区域的第二初始文本框的上框边之间的位置关系,以及确定该具有重叠区域的第二初始文本框的下框边之间的位置关系,之后根据该具有重叠区域的第二初始文本框的上框边之间的位置关系,以及该具有重叠区域的第二初始文本框的下框边之间的位置关系,确定目标上框边和目标下框边,具体确定上框边之间的位置关系、以及确定下框边之间的位置关系的方法可以参见步骤S141,确定目标上框边和目标下框边的方法可以参见步骤S142,此处不做赘述;
当该上边框桶和/或该下边框桶不包括关键点,或者,当该图像区域对应的第二初始文本框之间不具有重叠区域,对该图像区域的下一个图像区域重复上述的对第二初始文本框的上框边和下框边进行合并或去重的操作,直至图像区域nL。
第三,将每个具有重叠区域的第二初始文本框的目标上框边、目标下框边、目标左框边和目标右框边进行连接,形成封闭矩形文本框,由此完成待检测图像上具有重叠区域的第二初始文本框的去重或合并处理,得到待识别文本框。
在一些可选实施方式中,本公开实施例中的步骤S110中可以具体包括:基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对待检测图像进行拆分,得到多个子图像。在本实施例中,可以将在待检测图像中位置相邻的两个子图像称为相邻子图像。
其中,该多个子图像中的相邻子图像之间具有重叠区域。
在一个具体实现方式中,该多个子图像中的相邻子图像之间可以在长度维度和/或宽度维度上具有重叠区域,且多个子图像的形状和尺寸相同。
示例性的,图5A示出了本公开一示例性实施例提供的相邻子图在长度维度上具有重叠区域的示意图。如图5A所示,子图1和子图2在长度维度上的重叠区域为区域a。图5B示出了本公开一示例性实施例提供的相邻子图在宽度维度上具有重叠区域的示意图。如图5B所示,子图3和子图4在宽度维度的重叠区域为区域b。
预设滑动窗口的尺寸可以包括预设滑动窗口的高度和长度。预设方向可以包括左右方向和/或上下方向,重叠比例可以理解为在预设方向上相邻子图像的重叠区域的面积与该相邻子图像中任一子图像的面积比。
在一个可选实施方式中,可以先根据预设滑动窗口的尺寸和预设方向上的重叠比例,确定出预设滑动窗口在预设方向上的滑动步长。之后将待检测图像的左上角确定为图像划分的起始位置,按照由左至右,由上至下的顺序,滑动预设滑动窗口,即由图像划分的起始位置开始滑动预设滑动窗口,先将预设滑动窗口按照左右方向(预设方向)上的滑动步长向右(预设方向)滑动,直至滑动到待检测图像的最右侧,之后将预设滑动窗口按照上下方向(预设方向)上的滑动步长向下(预设方向)滑动,之后再将预设滑动窗口按照左右方向上的滑动步长向左(预设方向)滑动,直至滑动到待检测图像的最左侧,对预设滑动窗口重复上述滑动操作,直至预设滑动窗口覆盖过全部待检测图像。其中,预设滑动窗口每次所覆盖的待检测图像上的区域即为一个子图像。
本公开实施例中,利用预设滑动窗口,根据预设滑动窗口的尺寸和预设方向上的重叠,可以实现快速准确的对待检测图像的图像划分,以得到多个子图像。另外,将相邻子图像设置成具有重叠区域,使得在对子图像文本检测时,可以有效避免对子图边缘处的文本信息的漏检情况的出现,提高文本召回率。
在一些可选实施方式中,本公开实施例中的步骤S120中可以具体包括:利用预先训练得到的文本检测模型对各子图像进行文本检测,得到各第一初始文本框和各第一初始文本框在对应子图像中的位置信息。
其中,文本检测模型可以为预先训练好的用于文本检测的模型。例如,文本检测模型例如可以包括但不限于:ABCNet、DBNet、CRNN等。
在一个具体实现方式中,可以将多个子图像输入文本检测模型中,当多个子图像的尺寸和形状相同时,文本检测模型可以批量(batch)处理子图像,输出各第一初始文本框和各第一初始文本框在对应子图像中的位置信息。
本公开实施例中,利用文本检测模型强大的学习能力,实现了对不同待检测图像中的多个子图像中文本信息的高效检测,从而可以实现了高效的从待检测图像提取文本信息。
图6示出本公开实施例中文本检测方法一个应用实施例的流程示意图。其中,各步骤具体操作已在前述内容中进行了详细描述,在此处不再赘述。如图6所述,该文本检测方法包括如下步骤:
S1,基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对待检测图像进行拆分,得到多个子图像;
S2,利用文本检测模型对各子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;
S3,根据各第一初始文本框在对应子图像中的位置信息,确定至少一个第一初始文本框在待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在待检测图像中的位置信息;
S4,根据预先设定的图像分辨率与区域数量之间的对应关系,确定待检测图像的图像分辨率对应的目标区域数量;
S5,根据待检测图像的尺寸信息,将待检测图像划分为目标区域数量的多个图像区域;
S6,获取各图像区域在待检测图像中的位置范围信息;
S7,根据各第二初始文本框的关键点在待检测图像中的位置信息和各图像区域在待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域;
S8,分别针对待检测图像中的各图像区域,响应于该图像区域对应的第二初始文本框之间具有重叠区域,根据该具有重叠区域的第二初始文本框的关键点在待检测图像中的位置信息,确定该具有重叠区域的第二初始文本框的框边在待检测图像中的位置关系;
S9,根据该具有重叠区域的第二初始文本框的框边在待检测图像中的位置关系,对该具有重叠区域的第二初始文本框进行去重或合并处理,得到待检测图像中的待识别文本框;
S10,对待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
图7是本公开又一示例性实施例提供的文本检测方法的流程示意图。在一些可选实施方式中,如图7所示,可以通过如下方式训练得到文本检测模型,具体包括如下步骤:
步骤S310,获取训练数据集。
其中,该训练数据集包括多组训练图像,任一组训练图像包括多个训练图像,任一训练图像中的相邻训练图像具有重叠区域,任一训练图像包括标注文本框和该标注文本框在该任一训练图像中的位置信息。其中的相邻训练图像的重叠区域可以为相邻训练图像在长度维度和/或宽度维度上重叠的区域。该标注文本框在对应训练图像中的位置信息可以包括该标注文本框在对应训练图像中的坐标值。例如,该标注文本框在对应训练图像中的位置信息可以包括(x0,x1,x2,x3,y0,y1,y2,y3),其中,x0,x1,x2,x3分别为该标注文本框的各顶点在对应训练图像中的横坐标值,y0,y1,y2,y3分别为该标注文本框的各顶点在对应训练图像中的纵坐标值。待训练模型可以为DBNet。
步骤S320,基于训练数据集中的多组训练图像,训练待训练模型,直至满足训练结束条件,由待训练模型得到文本检测模型。
其中,可以将各训练图像输入待训练模型,由待训练模型输出各训练图像的预测文本框和预测文本框在对应训练图像中的位置信息。
可以以预设的损失函数,例如交叉熵损失函数、均方误差函数等,作为待训练模型的损失函数。基于各训练图像的预测文本框在对应训练图像中的位置信息和对应的标注文本框在对应训练图像中的位置信息之间的差异,利用预设损失函数,确定待训练模型的损失函数值。
在一种可选实施方式中,可以采用参数优化器调整待训练模型的各参数。其中,参数优化器可以包括但不限于SGD(Stochastic Gradient Descent,随机梯度下降),Adagrad(自适应梯度算法)、Adam(Adaptive Moment Estimation,自适应矩估计)、RMSprop(RootMean Square Prop,均方根)、LBFGS算法(Limited-memory Broyden–Fletcher–Goldfarb–Shanno,有限内存中进行BFGS)等。具体的,可以利用参数优化器计算待训练模型中的各参数的梯度,将各参数沿梯度的方向进行调整,其中的梯度表示损失函数值减小最多的方向,迭代执行上述将各训练图像输入待训练模型、计算待训练模型的损失函数值、调整待训练模型中的参数的操作,直至待训练模型的损失函数值不再下降,确定满足训练结束条件,对待训练模型训练完成,由训练后的待训练模型获得文本识别模型。
本公开实施例中,先获取相邻训练图像具有重叠区域的多个训练图像,之后利用各训练图像的标注文本框在对应训练图像中的位置信息,训练待训练模型,直至满足训练结束条件,由待训练模型得到文本检测模型。由此通过训练待训练模型所得到的文本检测模型不仅可以高效的对图像中的文本进行检测,而且可以有效解决文本检测模型对图像边缘处文本信息漏检的问题,进而提高了文本召回率。
图8是本公开一示例性实施例提供的步骤S310的流程示意图。在一些可选实施方式中,如图8所示,步骤S310可以包括如下步骤:
步骤S311,获取多个文本图像。
其中,任一文本图像包括初始标注文本框和初始标注文本框在该任一文本图像中的位置信息。
每个文本图像中包括至少一行文本。可以利用标注工具,例如Labelimg、LabelMe、ImgLab等,对该文本图像中文本信息进行标注,得到该文本图像的初始标注文本框和该初始标注文本框在该文本图像中的位置信息。
步骤S312,分别针对多个文本图像,基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对该文本图像进行拆分,得到多个子文本图像,以及各子文本图像在对应文本图像中的位置信息。
其中,由文本图像划分得到的子文本图像是该文本图像对应的子文本图像。子文本图像在对应文本图像中的位置信息可以是该子文本图像的坐标系的原点在对应的文本图像中的坐标值。
对各文本图像进行划分方式可以参见上述对待检测图像的划分,此处不再赘述。
步骤S313,根据该文本图像中的初始标注文本框和该初始标注文本框在该文本图像中的位置信息,以及该文本图像对应的各子文本图像在该文本图像中的位置信息,确定该文本图像对应的各子文本图像中的标注文本框和该标注文本框在该子文本图像中的位置信息。
其中,该文本图像中的初始标注文本框和该初始标注文本框在该文本图像中的位置信息,以及该文本图像对应的每个子文本图像在该文本图像中的位置信息,利用通过式(1),确定该文本图像对应的每个子文本图像中的标注文本框和该标注文本框在该子文本图像中的位置信息。
步骤S314,由该文本图像对应的各子文本图像构建得到该文本图像对应的一组训练图像。
其中,分别由每个文本图像对应的多个子文本图像构成该文本图像对应的一组训练图像。
步骤S315,基于多个文本图像分别对应的多组训练图像构建得到训练数据集。
在本公开实施例中,通过对文本图像进行划分,以及将文本图像包括的初始标注文本框映射到对应的子文本图像中,以完成对子文图像的标注,进而得到训练数据集。由此实现了快速得到批量具有重叠区域的训练图像,进而为后续训练待训练模型提高了可靠的数据基础。
图9是本公开一示例性实施例提供的文本检测装置的结构框图。如图9所示文本检测装置包括:图像划分模块400、文本检测模块410、第一文本框映射模块420、去重合并模块430和文本识别模块440。
图像划分模块400,用于对待检测图像进行划分处理,得到多个子图像;
文本检测模块410,用于对所述多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;
第一文本框映射模块420,用于根据各第一初始文本框在对应子图像中的位置信息,确定所述至少一个第一初始文本框在所述待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在所述待检测图像中的位置信息;
去重合并模块430,用于分别针对所述待检测图像中的各图像区域,响应于所述图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,得到所述待检测图像中的待识别文本框,其中,所述待检测图像预先被划分为多个图像区域;
文本识别模块440,用于对所述待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
在本公开的一个实施例中,本公开实施例中的文本检测装置还包括:
第一确定模块,用于根据各第二初始文本框在所述待检测图像中的位置信息和各图像区域在所述待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域;
第二确定模块,用于分别针对所述待检测图像中的各图像区域,根据所述图像区域对应的第二初始文本框在所述待检测图像中的位置信息,确定所述图像区域对应的第二初始文本框之间是否具有重叠区域。
在本公开的一个实施例中,本公开实施例中的第一确定模块包括:
第一确定单元,用于根据预先设定的图像分辨率与区域数量之间的对应关系,确定所述待检测图像的图像分辨率对应的目标区域数量;
图像划分单元,用于根据所述待检测图像的尺寸信息,将所述待检测图像划分为所述目标区域数量的所述多个图像区域,并获取各图像区域在所述待检测图像中的位置范围信息;
第二确定单元,用于根据各第二初始文本框的关键点在所述待检测图像中的位置信息和各图像区域在所述待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域,其中,任一第二初始文本框的关键点位于所述任一第二初始文本框的框边上。
在本公开的一个实施例中,本公开实施例中的去重合并模块430包括:
确定子模块,用于根据所述具有重叠区域的第二初始文本框的关键点在所述待检测图像中的位置信息,确定所述具有重叠区域的第二初始文本框的框边在所述待检测图像中的位置关系;
去重合并子模块,用于根据所述具有重叠区域的第二初始文本框的框边在所述待检测图像中的位置关系,对所述具有重叠区域的第二初始文本框进行去重或合并处理。
在本公开的一个实施例中,本公开实施例中的图像划分模块400具体用于:基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对所述待检测图像进行拆分,得到所述多个子图像,其中,所述多个子图像中的相邻子图像之间具有重叠区域。
在本公开的一个实施例中,本公开实施例中的文本检测模块410具体用于:利用预先训练得到的文本检测模型对各子图像进行文本检测,得到各第一初始文本框和各第一初始文本框在对应子图像中的位置信息。
在本公开的一个实施例中,本公开实施例中的文本检测装置还包括:
图像获取模块,用于获取训练数据集,其中,所述训练数据集包括多组训练图像,任一组训练图像中的相邻训练图像具有重叠区域,任一训练图像包括标注文本框和所述标注文本框在所述任一训练图像中的位置信息;
训练模块,用于基于所述多组训练图像,训练所述待训练模型,直至满足训练结束条件,由所述待训练模型得到所述文本检测模型。
在本公开的一个实施例中,本公开实施例中的图像获取模块,包括:
图像获取子模块,用于获取多个文本图像,其中,任一文本图像包括初始标注文本框和所述初始标注文本框在所述任一文本图像中的位置信息;
图像划分子模块,用于分别针对所述多个文本图像,基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对所述文本图像进行拆分,得到多个子文本图像,以及各子文本图像在对应文本图像中的位置信息;
文本框映射子模块,用于根据所述文本图像中的初始标注文本框和所述初始标注文本框在所述文本图像中的位置信息,以及所述文本图像对应的子文本图像在所述文本图像中的位置信息,确定所述文本图像对应的子文本图像中的标注文本框和所述标注文本框在所述子文本图像中的位置信息;
第一构建子模块,用于由所述文本图像对应的各子文本图像构建得到所述文本图像对应的一组训练图像;
第二构建子模块,用于基于所述多个文本图像分别对应的多组训练图像构建得到所述训练数据集。
本公开实施例的文本检测装置与本公开上述文本检测方法的实施例之间相互对应,相关内容可以相互参考,此处不再赘述。
本公开实施例的文本检测装置的示例性实施例对应的有益技术效果可以参见上述对应的示例性方法部分的相应有益技术效果,此处不再赘述。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的文本检测方法。
图10为本公开电子设备一个应用实施例的结构示意图。下面,参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
如图10所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的文本检测装置以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的文本检测装置中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的文本检测装置中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (11)
1.一种文本检测方法,其特征在于,包括:
对待检测图像进行划分处理,得到多个子图像;
对所述多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;
根据各第一初始文本框在对应子图像中的位置信息,确定所述至少一个第一初始文本框在所述待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在所述待检测图像中的位置信息;
分别针对所述待检测图像中的各图像区域,响应于所述图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,得到所述待检测图像中的待识别文本框,其中,所述待检测图像预先被划分为多个图像区域;
对所述待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述响应于所述图像区域对应的第二初始文本框之间具有重叠区域之前,还包括:
根据各第二初始文本框在所述待检测图像中的位置信息和各图像区域在所述待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域;
分别针对所述待检测图像中的各图像区域,根据所述图像区域对应的第二初始文本框在所述待检测图像中的位置信息,确定所述图像区域对应的第二初始文本框之间是否具有重叠区域。
3.根据权利要求2所述的方法,其特征在于,所述根据各第二初始文本框在所述待检测图像中的位置信息和各图像区域在所述待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域,包括:
根据预先设定的图像分辨率与区域数量之间的对应关系,确定所述待检测图像的图像分辨率对应的目标区域数量;
根据所述待检测图像的尺寸信息,将所述待检测图像划分为所述目标区域数量的所述多个图像区域,并获取各图像区域在所述待检测图像中的位置范围信息;
根据各第二初始文本框的关键点在所述待检测图像中的位置信息和各图像区域在所述待检测图像中的位置范围信息,确定各第二初始文本框分别对应的图像区域,其中,任一第二初始文本框的关键点位于所述任一第二初始文本框的框边上。
4.根据权利要求3所述的方法,其特征在于,所述根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,包括:
根据所述具有重叠区域的第二初始文本框的关键点在所述待检测图像中的位置信息,确定所述具有重叠区域的第二初始文本框的框边在所述待检测图像中的位置关系;
根据所述具有重叠区域的第二初始文本框的框边在所述待检测图像中的位置关系,对所述具有重叠区域的第二初始文本框进行去重或合并处理。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对待检测图像进行划分处理,得到多个子图像,包括:
基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对所述待检测图像进行拆分,得到所述多个子图像,其中,所述多个子图像中的相邻子图像之间具有重叠区域。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述多个子图像进行文本检测,包括:
利用预先训练得到的文本检测模型,对各子图像进行文本检测,得到各第一初始文本框和各第一初始文本框在对应子图像中的位置信息。
7.根据权利要求6所述的方法,其特征在于,所述文本检测模型通过如下方式训练得到:
获取训练数据集,其中,所述训练数据集包括多组训练图像,任一组训练图像中的相邻训练图像具有重叠区域,任一训练图像包括标注文本框和所述标注文本框在所述任一训练图像中的位置信息;
基于所述多组训练图像,训练待训练模型,直至满足训练结束条件,由所述待训练模型得到所述文本检测模型。
8.根据权利要求7所述的方法,其特征在于,获取训练数据集,包括:
获取多个文本图像,其中,任一文本图像包括初始标注文本框和所述初始标注文本框在所述任一文本图像中的位置信息;
分别针对所述多个文本图像,基于预设滑动窗口的尺寸和预设方向上的重叠比例,按照滑动窗口的方式对所述文本图像进行拆分,得到多个子文本图像,以及各子文本图像在对应文本图像中的位置信息;
根据所述文本图像中的初始标注文本框和所述初始标注文本框在所述文本图像中的位置信息,以及所述文本图像对应的各子文本图像在所述文本图像中的位置信息,确定所述文本图像对应的各子文本图像中的标注文本框和所述标注文本框在所述子文本图像中的位置信息;
由所述文本图像对应的各子文本图像构建得到所述文本图像对应的一组训练图像;
基于所述多个文本图像分别对应的多组训练图像构建得到所述训练数据集。
9.一种文本检测装置,其特征在于,包括:
图像划分模块,用于对待检测图像进行划分处理,得到多个子图像;
文本检测模块,用于对所述多个子图像进行文本检测,得到至少一个第一初始文本框和各第一初始文本框在对应子图像中的位置信息;
第一文本框映射模块,用于根据各第一初始文本框在对应子图像中的位置信息,确定所述至少一个第一初始文本框在所述待检测图像中对应的至少一个第二初始文本框和各第二初始文本框在所述待检测图像中的位置信息;
去重合并模块,用于分别针对所述待检测图像中的各图像区域,响应于所述图像区域对应的第二初始文本框之间具有重叠区域,根据具有重叠区域的第二初始文本框在所述待检测图像中的位置信息,对所述具有重叠区域的第二初始文本框进行去重或合并处理,得到所述待检测图像中的待识别文本框,其中,所述待检测图像预先被划分为多个图像区域;
文本识别模块,用于对所述待检测图像中的待识别文本框进行文本识别,得到文本识别结果。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-8中任一所述的文本检测方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-8中任一所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723912.7A CN117746433A (zh) | 2023-12-14 | 2023-12-14 | 文本检测方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723912.7A CN117746433A (zh) | 2023-12-14 | 2023-12-14 | 文本检测方法和装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746433A true CN117746433A (zh) | 2024-03-22 |
Family
ID=90250178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311723912.7A Pending CN117746433A (zh) | 2023-12-14 | 2023-12-14 | 文本检测方法和装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746433A (zh) |
-
2023
- 2023-12-14 CN CN202311723912.7A patent/CN117746433A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697423B1 (en) | Identifying the lines of a table | |
US10248884B2 (en) | Systems and methods for providing an image classifier | |
CN110956171A (zh) | 铭牌自动识别方法、装置、计算机设备和存储介质 | |
US9842251B2 (en) | Bulleted lists | |
WO2017059576A1 (en) | Apparatus and method for pedestrian detection | |
US8340433B2 (en) | Image processing apparatus, electronic medium, and image processing method | |
JP7132050B2 (ja) | テキスト行の区分化方法 | |
RU2697649C1 (ru) | Способы и системы сегментации документа | |
CN107038441B (zh) | 书写板检测和校正 | |
US9934431B2 (en) | Producing a flowchart object from an image | |
CN112184799B (zh) | 车道线空间坐标确定方法、装置、存储介质和电子设备 | |
CN109783680B (zh) | 图像推送方法、图像获取方法、装置及图像处理系统 | |
JP2021135993A (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN110956131A (zh) | 单目标追踪方法、装置及系统 | |
CN114495147B (zh) | 识别方法、装置、设备以及存储介质 | |
CN115082935A (zh) | 用于对文档图像进行矫正的方法、设备及存储介质 | |
CN113688261B (zh) | 图像数据清理方法、装置、电子设备及可读存储介质 | |
CN112507938A (zh) | 一种文本图元的几何特征计算方法及识别方法、装置 | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 | |
CN117746433A (zh) | 文本检测方法和装置、电子设备和存储介质 | |
WO2015114021A1 (en) | Image capture using client device | |
JP5083162B2 (ja) | 画像データ判定装置、画像データ判定システム、及びプログラム | |
CN112288759A (zh) | 一种边界提取方法、装置、设备及存储介质 | |
KR20240082614A (ko) | 문서 분리 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
CN118314595A (zh) | 版式文档中公式的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |