CN115937843A - 图像的文本检测方法、装置、存储介质和电子设备 - Google Patents

图像的文本检测方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN115937843A
CN115937843A CN202310029736.0A CN202310029736A CN115937843A CN 115937843 A CN115937843 A CN 115937843A CN 202310029736 A CN202310029736 A CN 202310029736A CN 115937843 A CN115937843 A CN 115937843A
Authority
CN
China
Prior art keywords
character
area
current
edge
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310029736.0A
Other languages
English (en)
Other versions
CN115937843B (zh
Inventor
李晓川
郭振华
赵雅倩
李仁刚
范宝余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310029736.0A priority Critical patent/CN115937843B/zh
Publication of CN115937843A publication Critical patent/CN115937843A/zh
Application granted granted Critical
Publication of CN115937843B publication Critical patent/CN115937843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本申请实施例提供了一种图像的文本检测方法、装置、存储介质和电子设备,涉及图像处理领域,其中,该方法包括:对目标图像进行字符检测,得到多个字符区域,其中,多个字符区域中每个字符区域展示了目标图像上的一个字符;从多个字符区域中识别出多个边缘字符区域,其中,多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;根据字符区域之间的位置关系分别使用每个边缘字符区域对多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。通过本申请,解决了图像的文本检测的鲁棒性较差的问题,进而达到了提高了图像的文本检测的鲁棒性的效果。

Description

图像的文本检测方法、装置、存储介质和电子设备
技术领域
本申请实施例涉及图像处理领域,具体而言,涉及一种图像的文本检测方法、装置、存储介质和电子设备。
背景技术
近年来,随着多模态人工智能的快速发展,对OCR(optical characterrecognition,文字识别)的应用也随之深入,光学字符检测OCR提供了一种从图像中提取语义信息的新方式,将光学字符检测应用在TextVQA(Text Visual Question Answering,文本视觉问答任务)、STVQA(Scene Text Visual Question Answering,场景文本视觉问答)、VizWiz-VQA(回答盲人的视觉问题的图像数据集)等多模态领域中,可有效提高多模态任务本身的精度。光学字符检测主要分为两个研究方向,第一是文本检测,旨在将图像中的所有文本(即字符串)框定出来;第二是字符识别,旨在将框定出的区域中存在的字符识别出来。此外还有一些额外的研究领域,如字符串的排序,等等。
在现有的光学文本检测领域中,有PixelLink(基于文本实例分割的文本检测算法),CRAFT(Character Region Awareness for Text Detection,自然场景文本检测),PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)等等算法。但是,这些算法对于字符较密集的图像检测场景都可能会出现由于所有的注意力框相邻太近导致处理过程中很难将注意力框重新分开,或者对于训练样本过于依赖等问题,导致算法在检测密集文本时要么会失效,要么只能检测与训练样本相似的图像。这些算法的检测方式鲁棒性都较差。
发明内容
本申请实施例提供了一种图像的文本检测方法、装置、存储介质和电子设备,以至少解决相关技术中图像的文本检测的鲁棒性较差的问题。
根据本申请的一个实施例,提供了一种图像的文本检测方法,包括:
对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
在一个示例性实施例中,所述从所述多个字符区域中识别出多个边缘字符区域,包括:
根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;
从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域。
在一个示例性实施例中,所述根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,包括:
识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;
将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。
在一个示例性实施例中,所述识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:
遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;
将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;
遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;
根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。
在一个示例性实施例中,所述对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域,包括:
获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;
将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
在一个示例性实施例中,所述将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域,包括:
将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;
在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。
在一个示例性实施例中,所述将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,包括:
计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;
将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。
在一个示例性实施例中,所述计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,包括:
其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。
在一个示例性实施例中,所述根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:
计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;
将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;
在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;
在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。
在一个示例性实施例中,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:
从边缘字符图像中提取所述目标边缘特征;
将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;
在所述目标相似度大于或者等于相似度阈值的情况下,将所述候选字符区域确定为边缘字符区域。
在一个示例性实施例中,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:
将所述候选字符区域输入目标分类模型,其中,所述目标分类模型是使用标注了边缘字符标签的字符样本对初始分类模型进行训练得到的,所述边缘字符标签用于指示所述字符样本是否属于边缘字符;
获取所述目标分类模型输出的所述候选字符区域对应的分类结果;
根据所述分类结果确定所述候选字符区域是否为边缘字符区域,得到所述多个边缘字符区域。
在一个示例性实施例中,所述根据所述分类结果确定所述候选字符区域是否为边缘字符区域,包括:
在所述分类结果为所述候选字符区域是边缘字符区域的概率的情况下,将所述概率大于或者等于目标概率的所述候选字符区域确定为边缘字符区域;
在所述分类结果为所述边缘字符标签的情况下,将所述边缘字符标签用于指示所述候选字符区域属于边缘字符的所述候选字符区域确定为边缘字符区域。
在一个示例性实施例中,所述根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,包括:
遍历所述每个边缘字符区域,将当前边缘字符区域作为初始的当前文本检测行,重复执行以下步骤,直至得到的下一个当前文本检测行满足终止条件得到所述目标文本行:
遍历每个字符区域,检测所述当前文本检测行与当前字符区域之间的空间参数,并检测所述当前文本检测行与当前字符区域之间的位置参数,其中,所述位置关系包括所述空间参数和所述位置参数,所述空间参数用于表示所述当前文本检测行与所述当前字符区域之间在空间上的相交关系,所述位置参数用于表示所述当前字符区域与所述当前文本检测行预测的下一个字符位置之间的关系;
根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度;
将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,得到下一个当前文本检测行;
判断所述下一个当前文本检测行是否满足终止条件。
在一个示例性实施例中,所述检测所述当前文本检测行与当前字符区域之间的空间参数,包括:
确定所述当前文本检测行与所述当前字符区域的交集像素数量得到第一像素数,并确定所述当前字符区域的像素数量得到第二像素数;
将所述第一像素数与所述第二像素数的比值确定为所述空间参数。
在一个示例性实施例中,所述检测所述当前文本检测行与当前字符区域之间的位置参数,包括:
预测所述当前文本检测行的下一个字符位置;
确定所述下一个字符位置与所述当前字符区域的交集像素数量得到第三像素数,并确定所述下一个字符位置与所述当前字符区域的并集像素数量得到第四像素数;
将所述第三像素数与所述第四像素数的比值确定为所述位置参数。
在一个示例性实施例中,所述预测所述当前文本检测行的下一个字符位置,包括:
获取所述当前文本检测行中字符的宽度平均值和长度平均值,以及所述当前文本检测行中字符在所述目标图像中的坐标序列;
根据所述宽度平均值和所述长度平均值对所述坐标序列进行最小二乘法拟合,得到所述下一个字符位置。
在一个示例性实施例中,所述根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度,包括:
获取所述空间参数对应的权重和所述位置参数对应的权重,其中,参数对应的权重用于指示参数对于关联度的重要程度;
将所述空间参数和所述位置参数的加权和确定为所述目标关联度。
在一个示例性实施例中,所述将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,包括:
将所述新增字符区域添加为所述当前文本检测行中的下一个字符;
将所述新增字符区域从所述多个字符区域中删除。
在一个示例性实施例中,所述判断所述下一个当前文本检测行是否满足终止条件,包括:
在添加至所述当前文本检测行中的当前字符区域属于边缘字符区域的情况下,确定所述下一个当前文本检测行满足终止条件;
在所述目标关联度小于或者等于关联度阈值的情况下,确定所述下一个当前文本检测行满足终止条件。
根据本申请的另一个实施例,提供了一种图像的文本检测装置,包括:
检测模块,用于对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
识别模块,用于从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
聚类模块,用于根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,首先对目标图像进行字符检测,得到多个字符区域,多个字符区域中每个字符区域展示了目标图像上的一个字符;再从多个字符区域中识别出多个边缘字符区域,多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;根据字符区域之间的位置关系分别使用每个边缘字符区域对多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。也就是说,首先找到位于边缘位置的边缘字符所在的区域,再利用字符之间的位置关系从边缘字符开始聚类出属于同个文本行的字符,依据字符之间的位置关系和具有位置特点的字符来检测出图像中的文本行,过程中不再依赖于训练样本的质量和注意力框的检测质量,能够适用于各种检测场景,因此,可以解决图像的文本检测的鲁棒性较差问题,达到提高了图像的文本检测的鲁棒性效果。
附图说明
图1是本申请实施例的一种图像的文本检测方法的移动终端的硬件结构框图;
图2是根据本申请实施例的图像的文本检测方法的流程图;
图3是根据本申请可选的实施方式的一种边缘字符区域确定的过程的示意图;
图4是根据本发明可选的实施方式的一种区域划分过程的示意图;
图5是根据本申请可选的实施方式的一种目标文本行的聚类过程的示意图;
图6是根据本申请可选的实施方式的一种图像的文本检测的过程的示意图;
图7是根据本申请实施例的图像的文本检测装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种图像的文本检测方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的图像的文本检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的图像的文本检测方法,图2是根据本申请实施例的图像的文本检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
步骤S204,从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
步骤S206,根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
通过上述步骤,首先对目标图像进行字符检测,得到多个字符区域,多个字符区域中每个字符区域展示了目标图像上的一个字符;再从多个字符区域中识别出多个边缘字符区域,多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;其次根据字符区域之间的位置关系分别使用每个边缘字符区域对多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。也就是说,首先找到位于边缘位置的边缘字符所在的区域,再利用字符之间的位置关系从边缘字符开始聚类出属于同个文本行的字符,依据字符之间的位置关系和具有位置特点的字符来检测出图像中的文本行,过程中不再依赖于训练样本的质量和注意力框的检测质量,能够适用于各种检测场景,因此,可以解决图像的文本检测的鲁棒性较差问题,达到提高了图像的文本检测的鲁棒性效果。
其中,上述步骤的执行主体可以为服务器、终端等,但不限于此。
在上述步骤S202提供的技术方案中,上述目标图像可以但不限于是任何有字符的图像,比如:横幅,广告牌,标语牌,海报等等。
可选的,在本实施例中,上述字符可以但不限于是任何能够识别的文字,比如:多种语言(英文,中文,法文,日文,拉丁文等等),数字,拼音等等。或能够识别的符号,比如:罗马符号,标点符号,环形码,条形码等等。
可选的,在本实施例中,可以但不限于采用任何具有从图像中检测字符所在区域功能的算法或者模型对目标图像进行字符检测。
可选的,在本实施例中,上述字符区域可以但不限于是在目标图像中检测到的一个字符在目标图像中的最小矩形包围框,比如:每个字符在目标图像中的最小矩形包围框可以但不限于通过4个顶点的坐标表示,每个坐标包含横、纵坐标2个值,共8个坐标值。
可选的,在本实施例中,上述目标图像中全部的字符区域可以但不限于组成集合C,比如:集合C中包括N个检测到的字符区域,一个字符区域即为目标图像中的单个字符。
可选的,在本实施例中,上述检测目标图像上的字符区域可以但不限于是单次检测目标图像上的多个字符,比如:将目标图像输入至具有字符检测功能的字符检测器中进行单字符的检测,从字符检测器输出得到单字符检测集合。
在上述步骤S204提供的技术方案中,上述边缘字符可以但不限于是单次从全部的字符中识别到的,比如:将目标图像中检测到的全部的字符输入具有边缘字符识别功能的边缘字符识别器中进行判断,边缘字符识别器将字符分为两类,并将边缘字符储存到边缘字符池,将非边缘字符储存到非边缘字符池中。
在一个示例性实施例中,可以但不限于通过以下方式从所述多个字符区域中识别出多个边缘字符区域:根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域。
可选的,在本实施例中,上述字符区域之间的衔接关系可以但不限于通过字符区域之间是否具有重叠的部分或者重叠的像素来表示。字符区域之间的衔接关系指示了任意两个字符区域是否是衔接的。
可选的,在本实施例中,边缘字符的识别可以但不限于通过两个阶段来进行,首先依据字符区域之间的衔接关系初步筛选出有方向未衔接其他字符的字符区域作为候选字符区域,再依据作为边缘字符所一般具有的目标边缘特征来精细筛选出边缘字符区域。从而使得边缘字符区域的识别更加准确。
在一个示例性实施例中,可以但不限于通过以下方式根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域:识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。
可选的,在本实施例中,上述衔接方向可以但不限于划分为上方向,下方向,左方向和右方向四个方向。上述四个方向还可以继续划分,比如:每个方向再平均分成两个或者三个子方向等等。
可选的,在本实施例中,当字符区域的上方向,下方向,左方向和右方向有任一方向未有与其衔接的字符区域,即可确定此字符区域为候选字符区域。
在一个示例性实施例中,可以但不限于通过以下方式识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域:遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。
可选的,在本实施例中,可以但不限于通过将获取到的字符区域顶点的坐标值加上设定的扩张参数得到扩张后的坐标值,再根据扩张后的坐标值获取目标图像中字符区域扩张后的区域,实现对字符区域在全部衔接方向进行图像扩张。
可选的,在本实施例中,首先将被识别的当前字符区域扩张,使其在各个方向上都能够扩张至其他字符区域,如果其在某个方向上与其他字符区域能够匹配上,则认为当前字符区域在该方向上衔接了其他字符。匹配过程可以但不限于通过图像相似度的计算实现,或者也可以但不限于通过像素的交并比计算来实现。
在一个示例性实施例中,可以但不限于通过以下方式对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域:获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
可选的,在本实施例中,上述目标扩充像素可以但不限于是设定的数值,其可以但不限于用于指示对字符区域进行扩张的值。比如:在对目标图像进行文本检测之前,获取目标图像包括大小等基本属性,根据目标图像的图像属性确定上述目标扩充像素。
可选的,在本实施例中,可以但不限于通过获取字符区域扩大了目标扩充像素后在目标图像上的图像,得到上下文区域。
在一个可选的实施方式中,提供了一种获取上下文区域的方法,首先,将全部的字符区域的集合记为,并求得字符区域的中心点位置以及在横、纵轴方向的像素宽、高,之后按照设定的目标扩充像素pad进行图像扩张,对其上方向,下方向,左方向和右方向四个方向分别扩充pad个像素,即可得到上下文区域
在一个示例性实施例中,可以但不限于通过以下方式将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域:将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。
可选的,在本实施例中,为了使得匹配过程更加精准,还可以在上述衔接方向的基础上继续对每个衔接方向进行划分,比如:上方向划分为左上和右上,下方向划分为左下和右下,左方向划分为上左和下左,右方向划分为上右和下右,共得到8个子方向的子区域。
在一个示例性实施例中,可以但不限于通过以下方式将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配:计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。
可选的,在本实施例中,可以但不限于通过对除此字符区域之外的其他字符区域进行匹配,并计算其像素交并比的最大值,并与设定的目标阈值进行比较,在像素交并比的最大值大于目标阈值时,记结果为真,像素交并比的最大值小于或等于目标阈值时,记结果为假,表示该字符区域是否包含衔接的字符。
在一个示例性实施例中,可以但不限于通过以下方式计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值:;其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。
可选的,在本实施例中可以但不限于通过求交集像素数与并集像素数的比值,再求解比值与其他字符区域的重合度的最大值,得到像素交并比的最大值。
在一个示例性实施例中,可以但不限于通过以下方式根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域:计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。
可选的,在本实施例中,可以但不限于将N个衔接方向合并为N/2个方向对,求互为中心对称的两个区域的异或值,该值用来判断当前字符是否在相反方向都有字符与它衔接,最终,将N/2个判断值进行或运算并输出。
在一个示例性实施例中,可以但不限于通过以下方式从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域:从边缘字符图像中提取所述目标边缘特征;将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;在所述目标相似度大于或者等于相似度阈值的情况下,将所述候选字符区域确定为边缘字符区域。
可选的,在本实施例中,从确定为边缘字符的边缘字符图像中提取出边缘字符所应具有的目标边缘特征,通过特征的相似度运算来确定候选字符区域是否为边缘字符区域。
在一个示例性实施例中,可以但不限于通过以下方式从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域:将所述候选字符区域输入目标分类模型,其中,所述目标分类模型是使用标注了边缘字符标签的字符样本对初始分类模型进行训练得到的,所述边缘字符标签用于指示所述字符样本是否属于边缘字符;获取所述目标分类模型输出的所述候选字符区域对应的分类结果;根据所述分类结果确定所述候选字符区域是否为边缘字符区域,得到所述多个边缘字符区域。
可选的,在本实施例中,上述目标分类模型可以但不限于是卷积神经网络,其可以但不限于用于将候选字符区域进行二分类输出分类结果,该分类结果用于表示候选字符区域是否为边缘字符区域。
在一个示例性实施例中,可以但不限于通过以下方式根据所述分类结果确定所述候选字符区域是否为边缘字符区域:在所述分类结果为所述候选字符区域是边缘字符区域的概率的情况下,将所述概率大于或者等于目标概率的所述候选字符区域确定为边缘字符区域;在所述分类结果为所述边缘字符标签的情况下,将所述边缘字符标签用于指示所述候选字符区域属于边缘字符的所述候选字符区域确定为边缘字符区域。
可选的,在本实施例中,目标分类模型输出的分类结果可以但不限于为两种形式,一种是目标分类模型可以输出概率,再根据概率所落入的范围确定候选字符区域是否为边缘字符区域,另一种目标分类模型可以直接输出分类标签,即边缘字符标签,用来指示候选字符区域是否为边缘字符区域。
在一个可选的实施方式中,提供了一种边缘字符区域确定的过程,图3是根据本申请可选的实施方式的一种边缘字符区域确定的过程的示意图,如图3所示,该过程包括如下步骤:
首先,将全部的字符区域的集合C,C中的每一个框被裁剪出来记为,并求得字符区域的中心点位置以及在横、纵轴方向的像素宽、高,之后按照设定的目标扩充像素pad进行图像扩张,对其上方向,下方向,左方向和右方向四个方向分别扩充pad个像素,即可得到上下文区域
其次,将该上下文区域划分为中心对称的8个区域,图4是根据本发明可选的实施方式的一种区域划分过程的示意图,如图4所示,将4a的上下文区域划分为4b所示的左上和右上,左下和右下,上左和下左,上右和下右,共得到8个子方向的子区域,然后计算所有其他字符区域与每个区域的交并比,并获取最大上下文交并比IoUmax。其中IoUmax的计算公式为:
(1);
其中ar表示当前正在计算的某个区域,公式(1)表示对C中所有字符(除外)进行遍历,并将其中最大的值输出,之后将其和可设定参数(即目标阈值)进行比对,如4c所示,将大于该阈值的子区域置为真,否则为假,记该值为,表示该区域是否包含衔接的字符。
然后,将8个子方向合并为4个方向对,求互为中心对称的两个子区域的异或值,该值用来判断当前字符是否在相反方向都有字符与它衔接,最终,将4个判断值进行或运算并输出。上述过程作用是对字符区域是否为边缘字符区域进行初筛,对于上述操作,若输出结果为真,则输入到“边缘判断网络(即上述目标分类模型)”中。
目标分类模型为卷积神经网络,将候选字符区域输入到卷积神经网络中进行二分类,输出该候选字符区域属于边缘字符的概率,并将该概率高于设定阈值(比如0.8)的字符存入边缘字符池中;并将其余所有字符存储进非边缘字符池中。
在上述步骤S206提供的技术方案中,上述字符区域之间的位置关系可以但不限于包括:字符区域之间在空间上的关系以及字符区域之间在图像位置上的关系等等。
在一个示例性实施例中,可以但不限于通过以下方式根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类:遍历所述每个边缘字符区域,将当前边缘字符区域作为初始的当前文本检测行,重复执行以下步骤,直至得到的下一个当前文本检测行满足终止条件得到所述目标文本行:遍历每个字符区域,检测所述当前文本检测行与当前字符区域之间的空间参数,并检测所述当前文本检测行与当前字符区域之间的位置参数,其中,所述位置关系包括所述空间参数和所述位置参数,所述空间参数用于表示所述当前文本检测行与所述当前字符区域之间在空间上的相交关系,所述位置参数用于表示所述当前字符区域与所述当前文本检测行预测的下一个字符位置之间的关系;根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度;将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,得到下一个当前文本检测行;判断所述下一个当前文本检测行是否满足终止条件。
可选的,在本实施例中,上述遍历每个边缘字符区域可以但不限于是依次对每个边缘字符区域作为初始的当前文本检测行。
可选的,在本实施例中,依次对每个边缘字符区域作为初始的当前文本检测行后,再在全部字符区域中确定与当前文本检测行关联的字符区域,即获取当前文本检测行后的文本,直到组合为目标文本行。
可选的,在本实施例中,上述目标文本行为目标图像中检测完成的完整的文本。
在一个示例性实施例中,可以但不限于通过以下方式检测所述当前文本检测行与当前字符区域之间的空间参数:确定所述当前文本检测行与所述当前字符区域的交集像素数量得到第一像素数,并确定所述当前字符区域的像素数量得到第二像素数;将所述第一像素数与所述第二像素数的比值确定为所述空间参数。
可选的,在本实施例中,提供了一种空间参数计算的方法,以空间参数为为例,表示当前文本检测行str与当前字符区域ch的相交关系,可以但不限于通过公式:计算空间参数,首先确定当前文本检测行str与当前字符区域ch的交集像素数量得到第一像素数,并确定当前字符区域ch的像素数量得到第二像素数;将第一像素数与第二像素数的比值确定为空间参数即
在一个示例性实施例中,可以但不限于通过以下方式检测所述当前文本检测行与当前字符区域之间的位置参数:预测所述当前文本检测行的下一个字符位置;确定所述下一个字符位置与所述当前字符区域的交集像素数量得到第三像素数,并确定所述下一个字符位置与所述当前字符区域的并集像素数量得到第四像素数;将所述第三像素数与所述第四像素数的比值确定为所述位置参数。
可选的,在本实施例中,提供了一种位置参数计算的方法,以位置参数为为例,表示当前字符区域ch和当前文本检测行str预测的下一个文本检测行位置上的关系,可以但不限于通过公式:计算位置参数,确定下一个字符位置与当前字符区域的交集像素数量得到第三像素数,并确定下一个字符位置与当前字符区域的并集像素数量得到第四像素数;将第三像素数与第四像素数的比值确定为位置参数
在一个示例性实施例中,可以但不限于通过以下方式预测所述当前文本检测行的下一个字符位置:获取所述当前文本检测行中字符的宽度平均值和长度平均值,以及所述当前文本检测行中字符在所述目标图像中的坐标序列;根据所述宽度平均值和所述长度平均值对所述坐标序列进行最小二乘法拟合,得到所述下一个字符位置。
可选的,在本实施例中,提供了一种下一个字符位置计算的方法,可以但不限于通过最小二乘法计算,描述字符是否符合整体当前文本检测行的走向:获取所述当前文本检测行str中字符的宽度平均值和长度平均值,以及所述当前文本检测行中字符在所述目标图像中的坐标序列;根据所述宽度平均值和所述长度平均值对所述坐标序列进行最小二乘法拟合,得到所述下一个字符位置:
其中,表示对当前文本检测行str中所有已检测字符的宽度的平均值,类似的,表示这些字符高度的平均值;表示对当前文本检测行str位置的最小二乘法运算(最小二乘法),具体的,针对每个字符在图像中横纵轴的坐标序列,最小二乘法公式可以通过多项式拟合的方式推理出下一个字符的横纵轴坐标。
在一个示例性实施例中,可以但不限于通过以下方式根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度:获取所述空间参数对应的权重和所述位置参数对应的权重,其中,参数对应的权重用于指示参数对于关联度的重要程度;将所述空间参数和所述位置参数的加权和确定为所述目标关联度。
可选的,在本实施例中,提供了一种目标关联度计算的方法,可以但不限于以目标关联度为为例,通过目标关联度描述预测未知和真实字符之间的相似度,可以但不限于通过位置参数和空间参数加权和表示每个与当前文本检测行的打分情况即目标关联度:
其中,表示某字符和当前文本检测行str的耦合打分,是两个的加权和,ɑ是0-1的小数。
获取空间参数对应的权重ɑ和位置参数对应的权重,其中,参数对应的权重用于指示参数对于关联度的重要程度;将空间参数和位置参数的加权和确定为目标关联度。
在一个示例性实施例中,可以但不限于通过以下方式将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中:将所述新增字符区域添加为所述当前文本检测行中的下一个字符;将所述新增字符区域从所述多个字符区域中删除。
可选的,在本实施例中,将目标关联度大于关联度阈值的当前字符区域添加至当前文本检测行中,并在相应的字符库中删除。如果低于阈值,则不进行额外操作。
在一个示例性实施例中,可以但不限于通过以下方式判断所述下一个当前文本检测行是否满足终止条件:在添加至所述当前文本检测行中的当前字符区域属于边缘字符区域的情况下,确定所述下一个当前文本检测行满足终止条件;在所述目标关联度小于或者等于关联度阈值的情况下,确定所述下一个当前文本检测行满足终止条件。
可选的,在本实施例中,可以但不限于通过设置终止符来表示上述终止条件是否达成,对str进行终止判断。若新增字符ch来源为,则将终止符置为真;若目标关联度最高打分低于阈值,则终止符为真;否则终止符为假。
在一个可选的实施方式中,提供了一种目标文本行的聚类过程,图5是根据本申请可选的实施方式的一种目标文本行的聚类过程的示意图,如图5所示,该过程包括如下步骤:
可以但不限于通过字符召回器对字符区域中的字符进行聚类,组成目标文本行,以全部字符区域C,边缘字符区域,非边缘字符区域为例,对中的每个字符,构建一个新的字符串str,称为当前文本检测行,然后对其在当前两个库中进行检索,检索公式为:
表示某字符和当前文本检测行str的耦合打分,是两个打分的加权和,ɑ是0-1之间的小数。表示当前文本检测行str与当前字符区域ch的相交关系,用来描述它们在空间上的关系;
表示这个ch和当前字符串预测的下一个字符位置上的关系,该预测位置通过公式:,最小二乘法计算,描述字符是否符合整体字符串的走向;其中,表示对当前文本检测行str中所有已检测字符的宽度的平均值,类似的,表示这些字符高度的平均值;表示对当前文本检测行str位置的最小二乘法运算(最小二乘法),具体的,针对每个字符在图像中横纵轴的坐标序列,最小二乘法公式可以通过多项式拟合的方式推理出下一个字符的横纵轴坐标;最终,上述两个iou加权和就可以表示每个ch与当前文本检测行str的打分情况;
检测之后,确定分数最高的字符,如果该字符的打分高于预先设定的阈值,则将其增加到文本检测行str中,并在相应的字符库中删除。如果低于阈值,则不进行额外操作;之后对str进行终止判断。若新增字符ch来源为,则将终止符置为真;若上一步最高打分低于阈值,则终止符为真;否则终止符为假;若终止符为真,则将str存入文本检测行集中;否则重复字符召回的过程;最终,直到所有中的字符得以遍历一遍,结束这个过程。字符召回器的结果被输出出来,里边包含若干字符串的检测结果。
在一个可选的实施方式中,提供了一种图像的文本检测的过程,图6是根据本申请可选的实施方式的一种图像的文本检测的过程的示意图,如图6所示,该过程包括如下步骤:
首先,将包含文本的图像被输入到到字符检测器中进行单字符的检测,得到单字符检测集合,称为字符池。
之后,字符池中的所有字符被输入到边缘字符识别器中进行判断,并将其分为两类,并分别储存进边缘字符池和非边缘字符池。二者被用于字符召回器中进行下一步运算。
最终由字符召回器输出所有检测文本的位置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种图像的文本检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本申请实施例的图像的文本检测装置的结构框图,如图7所示,该装置包括:
检测模块72,用于对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
识别模块74,用于从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
聚类模块76,用于根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
通过上述装置,首先对目标图像进行字符检测,得到多个字符区域,多个字符区域中每个字符区域展示了目标图像上的一个字符;再从多个字符区域中识别出多个边缘字符区域,多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;其次根据字符区域之间的位置关系分别使用每个边缘字符区域对多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。也就是说,首先找到位于边缘位置的边缘字符所在的区域,再利用字符之间的位置关系从边缘字符开始聚类出属于同个文本行的字符,依据字符之间的位置关系和具有位置特点的字符来检测出图像中的文本行,过程中不再依赖于训练样本的质量和注意力框的检测质量,能够适用于各种检测场景,因此,可以解决图像的文本检测的鲁棒性较差问题,达到提高了图像的文本检测的鲁棒性效果。
在一个示例性实施例中,所述识别模块,包括:
第一识别单元,用于根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;
第二识别单元,用于从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域。
在一个示例性实施例中,所述第一识别单元,用于:识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。
在一个示例性实施例中,所述第一识别单元,还用于:遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。
在一个示例性实施例中,所述第一识别单元,还用于:获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
在一个示例性实施例中,所述第一识别单元,还用于:将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。
在一个示例性实施例中,所述第一识别单元,还用于:计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。
在一个示例性实施例中,所述第一识别单元,还用于:;其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。
在一个示例性实施例中,所述第一识别单元,还用于:计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。
在一个示例性实施例中,所述第二识别单元,用于:从边缘字符图像中提取所述目标边缘特征;将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;在所述目标相似度大于或者等于相似度阈值的情况下,将所述候选字符区域确定为边缘字符区域。
在一个示例性实施例中,所述第二识别单元,还用于:将所述候选字符区域输入目标分类模型,其中,所述目标分类模型是使用标注了边缘字符标签的字符样本对初始分类模型进行训练得到的,所述边缘字符标签用于指示所述字符样本是否属于边缘字符;获取所述目标分类模型输出的所述候选字符区域对应的分类结果;根据所述分类结果确定所述候选字符区域是否为边缘字符区域,得到所述多个边缘字符区域。
在一个示例性实施例中,所述第二识别单元,还用于:在所述分类结果为所述候选字符区域是边缘字符区域的概率的情况下,将所述概率大于或者等于目标概率的所述候选字符区域确定为边缘字符区域;在所述分类结果为所述边缘字符标签的情况下,将所述边缘字符标签用于指示所述候选字符区域属于边缘字符的所述候选字符区域确定为边缘字符区域。
在一个示例性实施例中,所述聚类模块,包括:
执行单元,用于遍历所述每个边缘字符区域,将当前边缘字符区域作为初始的当前文本检测行,重复执行以下步骤,直至得到的下一个当前文本检测行满足终止条件得到所述目标文本行:
检测单元,用于遍历每个字符区域,检测所述当前文本检测行与当前字符区域之间的空间参数,并检测所述当前文本检测行与当前字符区域之间的位置参数,其中,所述位置关系包括所述空间参数和所述位置参数,所述空间参数用于表示所述当前文本检测行与所述当前字符区域之间在空间上的相交关系,所述位置参数用于表示所述当前字符区域与所述当前文本检测行预测的下一个字符位置之间的关系;
确定单元,用于根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度;
添加单元,用于将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,得到下一个当前文本检测行;
判断单元,用于判断所述下一个当前文本检测行是否满足终止条件。
在一个示例性实施例中,所述检测单元,用于:确定所述当前文本检测行与所述当前字符区域的交集像素数量得到第一像素数,并确定所述当前字符区域的像素数量得到第二像素数;将所述第一像素数与所述第二像素数的比值确定为所述空间参数。
在一个示例性实施例中,所述检测单元,还用于:预测所述当前文本检测行的下一个字符位置;确定所述下一个字符位置与所述当前字符区域的交集像素数量得到第三像素数,并确定所述下一个字符位置与所述当前字符区域的并集像素数量得到第四像素数;将所述第三像素数与所述第四像素数的比值确定为所述位置参数。
在一个示例性实施例中,所述检测单元,还用于:获取所述当前文本检测行中字符的宽度平均值和长度平均值,以及所述当前文本检测行中字符在所述目标图像中的坐标序列;根据所述宽度平均值和所述长度平均值对所述坐标序列进行最小二乘法拟合,得到所述下一个字符位置。
在一个示例性实施例中,所述确定单元,用于:获取所述空间参数对应的权重和所述位置参数对应的权重,其中,参数对应的权重用于指示参数对于关联度的重要程度;将所述空间参数和所述位置参数的加权和确定为所述目标关联度。
在一个示例性实施例中,所述添加单元,用于:将所述新增字符区域添加为所述当前文本检测行中的下一个字符;将所述新增字符区域从所述多个字符区域中删除。
在一个示例性实施例中,所述判断单元,用于:在添加至所述当前文本检测行中的当前字符区域属于边缘字符区域的情况下,确定所述下一个当前文本检测行满足终止条件;在所述目标关联度小于或者等于关联度阈值的情况下,确定所述下一个当前文本检测行满足终止条件。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (22)

1.一种图像的文本检测方法,其特征在于,包括:
对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个字符区域中识别出多个边缘字符区域,包括:
根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;
从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域。
3.根据权利要求2所述的方法,其特征在于,所述根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,包括:
识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;
将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。
4.根据权利要求3所述的方法,其特征在于,所述识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:
遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;
将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;
遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;
根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。
5.根据权利要求4所述的方法,其特征在于,所述对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域,包括:
获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;
将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
6.根据权利要求4所述的方法,其特征在于,所述将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域,包括:
将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;
在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。
7.根据权利要求4所述的方法,其特征在于,所述将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,包括:
计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;
将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。
8.根据权利要求7所述的方法,其特征在于,所述计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,包括:
其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。
9.根据权利要求7所述的方法,其特征在于,所述根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:
计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;
将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;
在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;
在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。
10.根据权利要求2所述的方法,其特征在于,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:
从边缘字符图像中提取所述目标边缘特征;
将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;
在所述目标相似度大于或者等于相似度阈值的情况下,将所述候选字符区域确定为边缘字符区域。
11.根据权利要求2所述的方法,其特征在于,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:
将所述候选字符区域输入目标分类模型,其中,所述目标分类模型是使用标注了边缘字符标签的字符样本对初始分类模型进行训练得到的,所述边缘字符标签用于指示所述字符样本是否属于边缘字符;
获取所述目标分类模型输出的所述候选字符区域对应的分类结果;
根据所述分类结果确定所述候选字符区域是否为边缘字符区域,得到所述多个边缘字符区域。
12.根据权利要求11所述的方法,其特征在于,所述根据所述分类结果确定所述候选字符区域是否为边缘字符区域,包括:
在所述分类结果为所述候选字符区域是边缘字符区域的概率的情况下,将所述概率大于或者等于目标概率的所述候选字符区域确定为边缘字符区域;
在所述分类结果为所述边缘字符标签的情况下,将所述边缘字符标签用于指示所述候选字符区域属于边缘字符的所述候选字符区域确定为边缘字符区域。
13.根据权利要求1所述的方法,其特征在于,所述根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,包括:
遍历所述每个边缘字符区域,将当前边缘字符区域作为初始的当前文本检测行,重复执行以下步骤,直至得到的下一个当前文本检测行满足终止条件得到所述目标文本行:
遍历每个字符区域,检测所述当前文本检测行与当前字符区域之间的空间参数,并检测所述当前文本检测行与当前字符区域之间的位置参数,其中,所述位置关系包括所述空间参数和所述位置参数,所述空间参数用于表示所述当前文本检测行与所述当前字符区域之间在空间上的相交关系,所述位置参数用于表示所述当前字符区域与所述当前文本检测行预测的下一个字符位置之间的关系;
根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度;
将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,得到下一个当前文本检测行;
判断所述下一个当前文本检测行是否满足终止条件。
14.根据权利要求13所述的方法,其特征在于,所述检测所述当前文本检测行与当前字符区域之间的空间参数,包括:
确定所述当前文本检测行与所述当前字符区域的交集像素数量得到第一像素数,并确定所述当前字符区域的像素数量得到第二像素数;
将所述第一像素数与所述第二像素数的比值确定为所述空间参数。
15.根据权利要求13所述的方法,其特征在于,所述检测所述当前文本检测行与当前字符区域之间的位置参数,包括:
预测所述当前文本检测行的下一个字符位置;
确定所述下一个字符位置与所述当前字符区域的交集像素数量得到第三像素数,并确定所述下一个字符位置与所述当前字符区域的并集像素数量得到第四像素数;
将所述第三像素数与所述第四像素数的比值确定为所述位置参数。
16.根据权利要求15所述的方法,其特征在于,所述预测所述当前文本检测行的下一个字符位置,包括:
获取所述当前文本检测行中字符的宽度平均值和长度平均值,以及所述当前文本检测行中字符在所述目标图像中的坐标序列;
根据所述宽度平均值和所述长度平均值对所述坐标序列进行最小二乘法拟合,得到所述下一个字符位置。
17.根据权利要求13所述的方法,其特征在于,所述根据所述空间参数和所述位置参数确定所述当前文本检测行与当前字符区域之间的目标关联度,包括:
获取所述空间参数对应的权重和所述位置参数对应的权重,其中,参数对应的权重用于指示参数对于关联度的重要程度;
将所述空间参数和所述位置参数的加权和确定为所述目标关联度。
18.根据权利要求13所述的方法,其特征在于,所述将所述目标关联度最高且所述目标关联度大于关联度阈值的当前字符区域作为新增字符区域添加至所述当前文本检测行中,包括:
将所述新增字符区域添加为所述当前文本检测行中的下一个字符;
将所述新增字符区域从所述多个字符区域中删除。
19.根据权利要求13所述的方法,其特征在于,所述判断所述下一个当前文本检测行是否满足终止条件,包括:
在添加至所述当前文本检测行中的当前字符区域属于边缘字符区域的情况下,确定所述下一个当前文本检测行满足终止条件;
在所述目标关联度小于或者等于关联度阈值的情况下,确定所述下一个当前文本检测行满足终止条件。
20.一种图像的文本检测装置,其特征在于,包括:
检测模块,用于对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;
识别模块,用于从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;
聚类模块,用于根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至19任一项中所述的方法的步骤。
22.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至19任一项中所述的方法的步骤。
CN202310029736.0A 2023-01-09 2023-01-09 图像的文本检测方法、装置、存储介质和电子设备 Active CN115937843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310029736.0A CN115937843B (zh) 2023-01-09 2023-01-09 图像的文本检测方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310029736.0A CN115937843B (zh) 2023-01-09 2023-01-09 图像的文本检测方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN115937843A true CN115937843A (zh) 2023-04-07
CN115937843B CN115937843B (zh) 2023-05-26

Family

ID=85830554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310029736.0A Active CN115937843B (zh) 2023-01-09 2023-01-09 图像的文本检测方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN115937843B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294460A1 (en) * 2005-06-24 2006-12-28 Hui Chao Generating a text layout boundary from a text block in an electronic document
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN106845475A (zh) * 2016-12-15 2017-06-13 西安电子科技大学 基于连通域的自然场景文字检测方法
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法
CN113537222A (zh) * 2020-04-17 2021-10-22 阿里巴巴集团控股有限公司 一种数据处理方法、设备及存储介质
CN113850258A (zh) * 2021-09-25 2021-12-28 深圳爱莫科技有限公司 一种提取文档中文本行的方法、系统、设备及存储介质
CN113971792A (zh) * 2020-07-06 2022-01-25 长沙智能驾驶研究院有限公司 交通标志牌的字符识别方法、装置、设备和存储介质
CN115063825A (zh) * 2022-05-12 2022-09-16 吉林省吉林祥云信息技术有限公司 一种基于多语言bert模型的多分支证照关键字段及内容分割提取方法
CN115130464A (zh) * 2022-06-28 2022-09-30 腾讯音乐娱乐科技(深圳)有限公司 实体检测模型训练方法、实体检测方法和计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294460A1 (en) * 2005-06-24 2006-12-28 Hui Chao Generating a text layout boundary from a text block in an electronic document
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN106845475A (zh) * 2016-12-15 2017-06-13 西安电子科技大学 基于连通域的自然场景文字检测方法
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN113537222A (zh) * 2020-04-17 2021-10-22 阿里巴巴集团控股有限公司 一种数据处理方法、设备及存储介质
CN113971792A (zh) * 2020-07-06 2022-01-25 长沙智能驾驶研究院有限公司 交通标志牌的字符识别方法、装置、设备和存储介质
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法
CN113850258A (zh) * 2021-09-25 2021-12-28 深圳爱莫科技有限公司 一种提取文档中文本行的方法、系统、设备及存储介质
CN115063825A (zh) * 2022-05-12 2022-09-16 吉林省吉林祥云信息技术有限公司 一种基于多语言bert模型的多分支证照关键字段及内容分割提取方法
CN115130464A (zh) * 2022-06-28 2022-09-30 腾讯音乐娱乐科技(深圳)有限公司 实体检测模型训练方法、实体检测方法和计算机设备

Also Published As

Publication number Publication date
CN115937843B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN108304835B (zh) 文字检测方法和装置
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
US20190019052A1 (en) Text Region Detection in Digital Images using Image Tag Filtering
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN110516259B (zh) 一种技术关键词的识别方法、装置、计算机设备和存储介质
Ravagli et al. Text recognition and classification in floor plan images
CN112070076A (zh) 文本段落结构还原方法、装置、设备及计算机存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113723330A (zh) 一种图表文档信息理解的方法及系统
CN113312899A (zh) 文本分类方法、装置和电子设备
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN113408323A (zh) 表格信息的提取方法、装置、设备及存储介质
CN115147846A (zh) 多语言票据识别方法、装置、设备及存储介质
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN113705559B (zh) 基于人工智能的文字识别方法及装置、电子设备
CN110147516A (zh) 页面设计中前端代码的智能识别方法及相关设备
CN116416640A (zh) 文档元素确定的方法、装置、设备以及存储介质
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质
CN115937843B (zh) 图像的文本检测方法、装置、存储介质和电子设备
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant