CN113537222A - 一种数据处理方法、设备及存储介质 - Google Patents

一种数据处理方法、设备及存储介质 Download PDF

Info

Publication number
CN113537222A
CN113537222A CN202010307591.2A CN202010307591A CN113537222A CN 113537222 A CN113537222 A CN 113537222A CN 202010307591 A CN202010307591 A CN 202010307591A CN 113537222 A CN113537222 A CN 113537222A
Authority
CN
China
Prior art keywords
target
sample
text
character
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010307591.2A
Other languages
English (en)
Inventor
汤俊
杨志博
王永攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010307591.2A priority Critical patent/CN113537222A/zh
Publication of CN113537222A publication Critical patent/CN113537222A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种数据处理方法、设备及存储介质,其中,所述方法包括:一种数据处理方法,其特征在于,包括:获取待处理图像;在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;基于所述至少一个文字区域集合中的文字区域,获得文本行。据此,本申请实施例中,可在图像中存在密集文字和/或扭曲画面的情况下,快速、准确地检测出文本行。

Description

一种数据处理方法、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、设备及存储介质。
背景技术
随着OCR(Optical Character Recognition,光学字符识别)应用的普及,越来越多的场景开始应用OCR技术进行文字识别。
在进行文字识别之前,通常需要对图像进行文字检测,以确定出图像中的文本行区域。目前,大多采用基于语义分割或基于候选框的文字检测方案,但这些方案仅适应于文本行比较规整且文字间距比较大的情况,在其它情况下的检测结果的准确性比较低,这大大局限了OCR技术的应用范围。
发明内容
本申请的多个方面提供一种数据处理方法、设备及存储介质,用以提高文本行检测的准确度。
本申请实施例提供一种数据处理方法,包括:
获取待处理图像;在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;
根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;
基于所述至少一个文字区域集合中的文字区域,获得文本行。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
获取待处理图像;在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;
根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;
基于所述至少一个文字区域集合中的文字区域,获得文本行。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的数据处理方法。
在本申请实施例中,可在待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;基于所述至少一个文字区域集合中的文字区域,可获得文本行。据此,可快速、准确地检测出文本行,尤其是在图像中存在密集文字和/或扭曲画面的情况下,可快速、准确地检测出文本行。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请一示例性实施例提供的一种数据处理方法的流程示意图;
图1b为本申请一示例实施例提供的一种数据处理方案的逻辑示意图;
图2为本申请一示例性实施例提供的一种检测模型的逻辑示意图;
图3为本申请一示例性实施例提供的一种文字区域的几何参数的标注方案的逻辑示意图;
图4为本申请一示例性实施例提供的一种应用场景的示意图;
图5为本申请另一示例性实施例提供的一种计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前的文字检测方案存在局限性,无法应对密集文字或扭曲画面的情况。为改善这些技术问题,本申请的一些实施例中:可在待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;基于所述至少一个文字区域集合中的文字区域,可获得文本行。据此,可快速、准确地检测出文本行,尤其是在图像中存在密集文字和/或扭曲画面的情况下,可快速、准确地检测出文本行。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1a为本申请一示例性实施例提供的一种数据处理方法的流程示意图。图1b为本申请一示例性实施例提供的一种数据处理方案的逻辑示意图。本实施例提供的数据处理方法可以由一数据处理装置来执行,该数据处理装置可以实现为软件或实现为软件和硬件的组合,该数据处理装置可集成设置在计算设备中。如图1a和1b所示,该数据处理方法包括:
步骤100、获取待处理图像;
步骤101、在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系;
步骤102、根据多个文字区域之间的耦合关系,将多个文字区域划分为至少一个文字区域集合;
步骤103、基于至少一个文字区域集合中的文字区域,获得文本行。
本实施例提供的数据处理方法,可应用于各种需要进行文本行检测的场景,例如,OCR识别场景、辅助设计场景等。本实施例对应用场景不做限定。例如,在OCR识别场景中,可对OCR识别对象进行文本行检测,以为OCR识别提供更加准确的基础;在辅助设计场景中,可对素材进行文本行检测,以辅助设计师进行设计工作。
本实施例提供的数据处理方法可对应用场景中的待处理图像进行文本检测,尤其适用于图像中存在密集文字或扭曲画面的情况,例如,产品包装、文件卡证等。当然,本实施例提供的数据处理方法也适用于普通文字间距及正常画面的情况,本实施例并不限于此。
在步骤100中,可获取待处理图像。在不同的应用场景中,待处理图像的类型可能不完全相同,例如待处理图像可以是产品外包装或者文件卡证等,本实施例对此不作限定。另外,待处理图像的尺寸或格式等属性也可以是多种多样的,本实施例对待处理图像的这些属性也不作限定。
在步骤101中,可在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系。
本实施例中,文字区域可以是指图像中存在文字的区域。本实施例对文字区域的规格、角度等属性不作限定,多个文字区域之间可存在重叠区域。
其中,耦合关系可包括文字区域之间的吸引和/或排斥关系。吸引关系用于表征文字区域属于同一文本行的可能性,排斥关系用于表征文字区域位于不同文本行的可能性。
本实施例中,无需进行文字分割,输出的文字区域并不以文字为单位。例如,文字区域可以是一个文字的一部分,文字区域也可以是一个文字加另一个文字的一部分等等。因此,可适用于密集文字的情况,不再受到文字间距的限制。
另外,文字区域的形状和角度也非常灵活,因此,可适用于扭曲画面的情况,能够准确地确定出存在倾斜角度的文字区域。
实际应用中,可利用预训练的检测模型,在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系。其中,检测模型可采用VGG16、ResNet、DenseNet等网络架构,本实施例对此不作限定。当然,还可采用其它方式在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系,本实施例并不限于此。
在此基础上,步骤102中,可根据多个文字区域之间的耦合关系,将多个文字区域划分为至少一个文字区域集合。
据此,同一文字区域集合中的文字区域将属于同一文本行。
步骤103中,可根据至少一个文字区域集合,分别确定出至少一个文本行。
以目标文字区域集合为例,本实施例中,可构建目标文字区域集合中的文字区域对应的最小外接多边形;将最小外接多边形确定出的区域,作为目标文字区域集合对应的文本行,其中,目标文字区域集合为至少一个文字区域集合中的任意一个。
当然,本实施例中,还可采用其它方式将文字区域集合中的文字区域组合为文本行,例如,基于文字区域的上下边缘进行文本行的边界描绘等等,本实施例并不限于此。
这样,可确定出待处理图像中的至少一个文本行。
本实施例中,可利用检测模型,确定待处理图像中的文字区域以及文字区域之间的耦合关系。据此,可基于文字区域,更加关注文字行的上下边缘,同时可基于文字区域之间的耦合关系,更加关注行与行之间的关系,这两种表征有机结合在一起,可以达到很好的检测效果,同时后处理复杂度也不高。
在上述或下述实施例中,可利用预训练的检测模型,在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系。
参考图2为本申请一示例性实施例提供的一种检测模型的逻辑示意图。
参考图2,本实施例中,检测模型可包括至少一个卷积层和输出层。至少一个卷积层用于从待处理图像中提取特征;输出层可用于输出结果。
本实施例中,在检测模型中,可基于为至少一个卷积层分别训练出的用于提取特征的卷积参数,进行特征提取。
在检测模型中,还可基于为至少一个卷积层分别训练出的用于确定输出结果的卷积参数,对卷积层提取到的特征进行卷积处理,以在输出层输出结果。
其中,检测模型的输出结果至少可包括多个文字区域的几何参数、多个文字区域之间吸引度和/或排斥度,来表征多个文字区域以及多个文字区域之间的耦合关系。
其中,吸引度可表示文字区域位于同一文本行中的概率,排斥度可表示文字区域位于不同文本行中的概率。
另外,不同卷积层中用于提取特征的卷积参数不同,不同卷积层对应的用于确定输出结果的卷积参数也不同。
参考图2,检测模型中,每个卷积层中可包括多个特征点。
实际应用中,卷积层包含的特征点的数量可按比例减少。例如,待处理图像的尺寸为512*512,则经第一个卷积层处理后,第一个卷积层可包含256*256个特征点,也即是,与待处理图像的比例为1/2。第二个卷积层则可包含128*128个特征点,也即是,与待处理图像的比例为1/4。依次类推。
另外,不同卷积层可适配不同的文本行高度,也即,卷积层对其适配的文本行高度的处理结果更加准确。
实际应用中,可将文本行的常见高度划分为多个高度规格。不同卷积层可适配不同高度规格。
本实施例中,可越深的卷积层可适配更高的高度规格,也即用于处理高度(字号)更高的文本行。
其中,本实施例中,可使用像素坐标系来表征高度、宽度、中心点坐标等几何参数,且待处理图像中的空间信息可传递至卷积层中。这样,对于卷积层中的一个特征点,可根据卷积层与待处理图像之间的比例,确定出该特征点在待处理图像中的映射点。
例如,一特征点在卷积层中的坐标为(1,1),前述的比例为1/2,则该特征点在待处理图中的映射点的坐标即为(2,2)。而高度规格则可表征为6-8像素、9-12像素等。
在此基础上,可在检测模型的至少一个卷积层中,选取与待处理图像适配的多个目标特征点。
其中,待处理图像中可能包含多种高度规格,对于不同的高度规格,可采用不同的卷积层进行处理。这样,多个目标特征点所属的卷积层可能不完全相同。
例如,若待处理图像中包含两处文字,两处文字的文本行的高度规格不同,分别为6-8像素和9-12像素,则选取出的多个目标特征点中,可能一部分属于适配6-8像素这一高度规格的卷积层,另一部分属于适配9-12像素这一高度规格的卷积层。
为了选取出多个目标特征点,本实施例中,可在检测模型的至少一个卷积层包含的多个特征点下,分别从待处理图像中提取第二类特征;基于多个特征点各自对应的第二类特征,分别确定多个特征点各自对应的文字置信度;将文字置信度满足预设条件的特征点,确定为与待处理图像适配的目标特征点。
其中,文字置信度表征特征点在待处理图像中所感受到的像素点(即感受野内的像素点)为文字的概率。在与待处理图像中的文本行的高度规格适配的卷积层中,与文本行相关的特征点上的文字置信度将高于预设阈值。基于此,本实施例中,可根据多个特征点的文字置信度,选出与待处理图像中的文本行的高度规格适配的多个目标特征点。
其中,第二类特征为能够反映像素点是否为文字的特征。
另外,至少一个卷积层可按照预训练出的用于提取第二类特征的卷积参数,从待处理图像中提取第二类特征。检测模型中,还可按照预训练出的用于确定文字置信度的卷积参数,输出多个特征点各自对应的文字置信度。
至此,可选取出与待处理图像适配的至少一个目标特征点。
本实施例中,在检测模型中,还可在多个目标特征点下,分别从待处理图像中提取第一类特征;基于多个目标特征点下提取到的第一类特征,分别确定多个目标特征点各自对应的文字区域的几何参数;根据多个目标特征点各自对应的文字区域的几何参数,在待处理图像中定位多个文字区域。
在检测模型中,可按照为目标特征点所属的卷积层预训练出的用于提取第一类特征的卷积参数,从待处理图像中提取第一类特征。检测模型中,还可按照为目标特征点所属的卷积层预训练出的用于确定文字区域的几何参数的卷积参数,输出多个目标特征点各自对应的文字区域的几何参数。
其中,几何参数包括但不限于文字区域的高度、宽度、中心点横坐标及纵坐标、倾斜角度正弦值及余弦值等等。几何参数可以待处理图像中的像素坐标系为参考基准。
以下将以多个目标特征点中的第一特征点为例,对确定第一特征点对应的文字区域的几何参数的过程进行说明。应当理解的是,第一特征点可以是多个目标特征点中的任意一个。
在检测模型中,可首先确定第一特征点所属的目标卷积层。并获取为目标卷积层预训练出的用于确定输出结果的卷积参数。用于确定输出结果的卷积参数中包括用于确定文字区域的几何参数的卷积参数。
在此基础上,可利用目标卷积层对应的用于确定文字区域的几何参数的卷积参数,对第一特征点下提取到的第一类特征进行卷积处理,以输出第一特征点对应的文字区域的几何参数。
据此,检测模型可分别确定出多个目标特征点各自对应的文字区域的几何参数。且目标特征点与文字区域一一对应。
本实施例中,在检测模型中,还可在多个目标特征点下,分别从待处理图像中提取第三类特征;基于多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度,作为多个目标特征点各自对应的文字区域之间的耦合关系。
本实施例中,由于目标特征点与文字区域一一对应,因此,目标特征点之间的吸引度和/或排斥度,可作为目标特征点对应的文字区域之间的吸引度和/或排斥度,以表征文字区域之间的耦合关系。
其中,互为邻域是指在同一卷积层中互为领域。实际应用中,可将邻域确定为8邻域,当然,本实施例并不限于此。
还是以第一特征点为例,在检测模型中,可按照为第一特征点所属的卷积层预训练出的用于提取第三类特征的卷积参数,从待处理图像中提取第三类特征。检测模型中,还可按照为第一特征点所属的卷积层预训练出的用于确定文字区域之间的吸引度和/或排斥度的卷积参数,输出第一特征点与位于其邻域内的其它目标特征点之间的吸引度和/或排斥度,作为第一特征点与位于其邻域内的其它目标特征点各自对应的文字区域之间的耦合关系。
据此,检测模型可分别确定出多个目标特征点各自对应的文字区域之间的耦合关系。
值得说明的是,本实施例中,检测模型可在选取出多个目标特征点的基础上,仅针对多个目标特征点执行文字区域及文字区域之间的耦合关系的确定处理。当然,检测模型可也针对至少一个卷积层中的所有特征点,均执行文字区域及文字区域之间的耦合关系的确定处理,并在输出层中,按照文字置信度,筛选出多个目标特征点对应的输出结果进行输出,而不再输出其它特征点的输出结果。本实施例对此不作限定。
另外,由于本实施例中的输出结果的类型众多,因此,为单个卷积层预训练出的用于确定输出结果的卷积参数可以采用一个多通道的卷积核,不同类型的输出结果可对应该卷积核中的不同通道。当然,为单个卷积层预训练出的用于确定输出结果的卷积参数也可采用多个卷积核,不同类型的输出结果可分别对应不同的卷积核。同样,由于本实施例中所需提取的特征类型众多,因此,为单个卷积层预训练出的用于提取特征的卷积参数可以采用一个多通道的卷积核,不同类型的特征可对应该卷积核中的不同通道。当然,为单个卷积层预训练出的用于确定提取特征的卷积参数也可采用多个卷积核,不同类型的特征可分别对应不同的卷积核,本实施例对此也不作限定。
据此,本实施例中,可从卷积层中特征点的维度,在待处理图像中确定文字区域及文字区域之间的耦合关系。这使得确定出的文字区域不仅能够准确覆盖待处理图像中的文字,而且不受文字边缘的限制,使得检测模型可更加关注文本行的上下边缘及行与行之间关系,而不再需要去进行文字切割。因此,可有效提高密集文字或扭曲画面下的检测效率和准确度。
在上述或下述实施例中,可对检测模型进行预训练。
本实施例中,可获取多个样本图像;在多个样本图像中分别标注文本行的几何参数、像素点的文字置信标识或非文字置信标识、文字区域的几何参数、文字区域之间的耦合关系以及文字区域与卷积层中的特征点之间的对应关系;将经标注后的多个样本图像输入检测模型,以训练检测模型。
其中,文本行的几何参数可由人工进行标注,且可根据文本行的几何形状,在文本行中标注出多个子区域。实际应用中,文本行的上下边缘中可能存在的多处拐角,可人工将上下边缘中相对距离符合要求的多对拐角进行连线,以构建多个子区域。
基于文本行的几何参数,可确定样本图像中各像素点是否位于文本行内,并据此为像素点标注文字置信标识或非文字置信标识。其中,文字置信标识表征像素点位于文本行内,非文字置信标识表征像素点位于文本行之外。
实际应用中,文字置信标识可以标注为1,而非文字置信标识可标注为0。
正如前文提及的,文字区域是与卷积层中的特征点对应的。因此,可从特征点的维度对文字区域的几何参数及文字区域之间的耦合关系进行标注。
以目标样本图像为例,可基于目标样本图像中标注的文本行的高度规格,在检测模型的至少一个卷积层中,确定与目标样本图像适配的样本卷积层。其中,目标样本图像为多个样本图像中的任意一个。
其中,可从标注的几何参数中确定文本行的高度,进而确定文本行所属的高度规格。
实际应用中,为了便于训练,单个样本图像中通常仅包含一种高度规格的文本行,当然,本实施例并不限于此。
正如前文提及的,不同卷积层可适配不同的高度规格。因此,可基于目标样本图像中的文本行的高度规格,确定与目标样本图像适配的样本卷积层。
在此基础上,本实施例中,可从样本卷积层包含的多个特征点中,选取在目标样本图像中的映射点具有文字置信标识的至少一个样本特征点;在目标样本图像中,分别标注至少一个样本特征点对应的文字区域的几何参数。
以第一样本特征点为例,本实施例中,可以第一样本特征点在目标样本图像中的目标映射点为中心,按照样本卷积层对应的映射框的尺寸,在目标样本图像中确定映射区域;基于映射区域,在目标映射点所属的文本行上确定一目标区域,作为第一样本特征点对应的文字区域。
其中,卷积层对应的映射框的尺寸是预置的,且越深的卷积层对应的映射框的尺寸可越大,以处理更大字号的文本行。
在一种示例性实现方式中,可在目标映射点所属的文本行包含的至少一个子区域中,确定目标映射点所处的目标子区域;以目标映射点为旋转中心,从初始位置旋转文本行,至目标子区域与映射区域平行;按照目标子区域的高度以及映射区域的宽度,确定一与映射区域中轴重合的标注区域;将文本行与标注区域同步旋转,至文本行返回初始位置;将旋转后的标注区域,作为目标区域。
图3为本申请一示例性实施例提供的一种文字区域的几何参数的标注方案的逻辑示意图。
参考图3,其中的灰色虚线框即为多个子区域,多个子区域连接为文本行ground-truth。图3中还示出了第一样本特征点对应的映射区域default box以及第一样本特征点在目标样本图像中的目标映射点P,坐标为(xp,yp)。图3中还示出了目标子区域Rectp。其中,目标子区域Rectp与映射区域default box之间的夹角为θg(最终作为文本区域的倾斜角度),目标子区域Rectp的高度为hg。另外,映射区域default box的宽度wd和高度hd与为样本卷积层预置的映射框的尺寸一致,为预设值。
其中,目标子区域Rectp的高度hg可等于目标子区域Rectp的中心点到上下边之间的距离之和。
参考图3中的(b)阶段,可以点p为旋转中心,旋转文本行ground-truth或者旋转映射区域default box,使目标子区域Rectp和映射区域default box平行,这里的平行可以是两者的底边平行。
在两者的平行状态下,可参考图3中的(c)阶段,按照目标子区域Rectp的高度hg以及映射区域default box的宽度wd,确定一与映射区域default box中轴重合的标注区域。
确定出标注区域后,可在(d)阶段执行与(b)阶段相反的选择操作,保证文本行恢复至初始位置,且标注区域与文本行同步运动。至此,可将处于最终状态的标注区域,作为第一样本特征点对应的文字区域。
据此,可确定出第一样本特征点在目标样本图像中对应的文字区域的几何参数:高度、宽度、中心点横坐标及纵坐标、倾斜角度正弦值及余弦值等。
当然,这种文字区域的几何参数的标注方式仅是示例性,本实施例还可采用对映射区域进行拉伸的方式,确定出第一特征点对应的文字区域的几何参数等等。本实施例并不限于此。
本实施例中,可采用同样的方式,在目标样本图像中标注其它样本特征点对应的文字区域的几何参数。
在此基础上,可继续在目标样本图像中标注文字区域之间的耦合关系。
若样本卷积层中的第一样本特征点与第二样本特征点互为邻域,且两者在目标样本图像中对应的文字区域属于同一文本行,则标注第一样本特征点和第二样本特征点各自对应的文字区域之间存在吸引关系;
若第一样本特征点与第二样本特征点互为邻域,且两者在目标样本图像中对应的文字区域属于不同文本行,则标注第一样本特征点和第二样本特征点各自对应的文字区域之间存在排斥关系。
实际应用中,可仅标注第一样本特征点与8邻域范围内的其它样本特征点各自对应的文字区域之间的耦合关系。
另外,可使用0和1来分别标注吸引关系和排斥关系。例如,在吸引关系下,若存在吸引关系,可标注为1,不存在吸引关系可标注为0;在排斥关系下,若存在排斥关系,可标注为1,不存在排斥关系可标注为0。
优选地,可同时标注吸引关系和排斥关系。当然,也可单独标注吸引关系或单独标注排斥关系。
至此,完成了目标样本图像的标注,并建立了目标样本图像中标注的信息与样本卷积层中的特征点之间的关联。
本实施例中,可将经标注后的目标样本图像输入检测模型,以训练样本卷积层中用于提取特征的卷积参数以及样本卷积层对应的用于确定输出结果的卷积参数。
本实施例中,基于目标样本图像中标注的信息,检测模型可学习到样本卷积层中用于提取不同类型特征的卷积参数,还可学习到样本卷积层对应的用于确定不同类型的输出结果的卷积参数。
例如,样本卷积层的特征图谱为128*128*256的情况下,其中,128*128为特征图谱的尺寸,也即是特征点的数量,256为特征图谱的通道数;在输出结果为24类的情况下,检测模型可学习到样本卷积层对应的用于确定24类输出结果的256*3*3*24的卷积核,其中,3*3为卷积核的尺寸,24为卷积核的通道数,256为卷积核需要处理的卷积层的通道数。当然,这仅是示例性的。
本实施例中,可采用上述方式,对多个样本图像进行标注,并基于标注后的多个样本图像对检测模型中的至少一个卷积层进行训练,以分别训练出至少一个卷积层中用于提取特征的卷积参数和至少一个卷积层各自对应的用于确定输出结果的卷积参数。另外,为了保证至少一个卷积层得到充分训练,多个样本图像中包含的文本行的高度规格可尽量全面,且数量足够多。
本实施例中,可结合检测模型中的特征点,对样本图像进行标注,并按照文本行的高度规格,分别训练检测模型中的至少一个卷积层,使得至少一个卷积层可学习到确定文字区域所需的知识以及确定文字区域之间的耦合关系所需的知识,也即卷积参数。从而,可保证检测模型可在待处理图像中快速、准确地确定多个文字区域以及多个文字区域之间的耦合关系,进而实现文本行的检测。
在上述或下述实施例中,可采用多种实现方式确定至少一个文字区域集合。
在一种示例性实现方式中,若两个文字区域之间的耦合关系满足符合预设要求,则可将两个文字区域划分至同一文字区域集合中,以获得至少一个文字区域集合。
在一些情况下,检测模型可能只输出多个文字区域之间的吸引度,这种情下,可将吸引度大于第一阈值的文字区域划分到同一文字区域集合中。
在另一些情况下,检测模型可能只输出多个文字区域之间的排斥度,这种情下,可将排斥度小于第二阈值的文字区域划分到同一文字区域集合中。
在又一些情况下,检测模型可能同时输出多个文字区域之间的吸引度和排斥度。这种情况下,若两个文字区域之间的吸引度大于排斥度,则可将两个文字区域划分至同一文字区域集合中。
这种情况下,可按照从高到低的顺序,对多个文字区域之间的吸引度和排斥度进行排序;从最高值开始,若当前值关联的两个文字区域之间的吸引度大于排斥度,则将两个文字区域划分至同一文字区域集合中;继续确定在后值关联的文字区域是否划分至同一文字区域集合,直至确定出所有文字区域所属的文字区域集合。
该方案承袭了最小生成树的方式,逐步确定出至少一个文字区域集合。
当然,本实施例中,确定文字区域集合的方式并不限于此。
本实施例中,可基于检测模型输出的文字区域之间的耦合关系,将多个文字区域划分为至少一个文字区域集合,以使属于同一文本行的文字区域聚集。另外,基于文本行的几何参数,可在待处理图像中定位单个文字区域集合中的文字区域,进而将单个文字区域集合中的文字区域组合为一文本行。
图4为本申请一示例性实施例提供的一种应用场景的示意图。
如图4所示,待处理图像为一产品的外包装图,该外包装图中的文字密集,且画面存在扭曲。
可将该外包装图输入预训练的检测模型中,图4中,检测模型采用VGG16的网络架构。
在检测模型中,不同的卷积层用于适配不同的文本行的高度规格。
据此,可基于为不同卷积层中预训练的用于提取特征的卷积参数,在各卷积层中,分别从该外包装图中提取多种特征,这些特征将分别用于确定文字置信度、文本区域的几何参数以及文本区域之间的耦合关系。在一个卷积层中,提取到的多种特征可实现为多通道的特征图谱。
在检测模型中,还可基于为不同卷积层预训练的用于确定输出结果的卷积参数,分别对各卷积层提取到的多种特征进行卷积处理,以在输出层中生成输出结果。
其中,单个特征点对应的输出结果包括文字置信度,非文字置信度,文本区域的高度、宽度、中心点横坐标、中心点纵坐标、倾斜角度正弦值及倾斜角度余弦值,当前特征点与8邻域特征点各自对应的文本区域之间的吸引关系及排斥关系。
基于此,前述的用于确定输出结果的卷积参数可设置为24通道的3*3规格的卷积核。对于不同的卷积层,用于确定输出结果的卷积核的规格相同,但卷积核中的权重不同。
据此,在输出层中,可获得各卷积层中各特征点各自对应的一组输出结果。
在此基础上,可基于特征点对应的文字置信度,从中选取出文字置信度大于预设阈值的多个目标特征点,并输出多个目标特征点对应的输出结果。
基于检测模型输出的多个目标特征点对应的输出结果,可在外包装图中定位出多个文字区域,并确定出多个文字区域之间的耦合关系。
之后,可对定位出的多个文字区域进行后处理。
后处理的过程为,以文字区域为节点,以文字区域之间的耦合关系为边的权重,执行最小生成树的操作,以将在外包装图中定位出的多个文字区域划分为多个文字区域集合。
如图4中,示出了两组示例性的文字区域集合。
根据文字区域集合中的文字区域,可确定出文字行。如图4中,两组文字区域集合,可确定出两个文本行。
参考图4,根据本实施例确定出的文本行,可在文字密集且画面扭曲的情况下,快速且准确地检测出文本行。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如100、101等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的图像、特征点等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图5为本申请另一示例性实施例提供的一种计算设备的结构示意图。如图5所示,该计算设备包括存储器50和处理器51;
存储器50用于存储一条或多条计算机指令;
处理器51与存储器51耦合,用于执行一条或多条计算机指令,以用于:
获取待处理图像;在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系;
根据多个文字区域之间的耦合关系,将多个文字区域划分为至少一个文字区域集合;
基于至少一个文字区域集合中的文字区域,获得文本行。
在一可选实施例中,处理器51可利用预训练的检测模型,在待处理图像中确定多个文字区域以及多个文字区域之间的耦合关系。
在一可选实施例中,处理器51在利用检测模型,在待处理图像中确定多个文字区域时,用于:
在检测模型的至少一个卷积层中,选取与待处理图像适配的多个目标特征点;
在多个目标特征点下,分别从待处理图像中提取第一类特征;
基于多个目标特征点下提取到的第一类特征,分别确定多个目标特征点各自对应的文字区域的几何参数;
根据多个目标特征点各自对应的文字区域的几何参数,在待处理图像中定位多个文字区域。
在一可选实施例中,处理器51在检测模型的至少一个卷积层中,选取与待处理图像适配的多个目标特征点时,用于:
在检测模型的至少一个卷积层包含的多个特征点下,分别从待处理图像中提取第二类特征;
基于多个特征点各自对应的第二类特征,分别确定多个特征点各自对应的文字置信度;
将文字置信度满足预设条件的特征点,确定为与待处理图像适配的目标特征点。
在一可选实施例中,处理器51在基于多个目标特征点下提取到的第一类特征,分别确定多个目标特征点各自对应的文字区域的几何参数时,用于:
确定第一特征点所属的目标卷积层;
利用目标卷积层对应的用于确定输出结果的卷积参数,对第一特征点下提取到的第一类特征进行卷积处理,以输出第一特征点对应的文字区域的几何参数;
其中,第一特征点为多个目标特征点中的任意一个。
在一可选实施例中,处理器51在利用检测模型,在待处理图像中确定多个文字区域之间的耦合关系时,用于:
在多个目标特征点下,分别从待处理图像中提取第三类特征;
基于多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度,作为多个目标特征点各自对应的文字区域之间的耦合关系。
在一可选实施例中,处理器51在基于多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度时,用于:
确定第一特征点所属的目标卷积层;
利用目标卷积层对应的用于确定输出结果的卷积参数,对第一特征点下提取到的第三类特征进行卷积处理,以输出第一特征点与其领域特征点之间的吸引度和/或排斥度;
其中,第一特征点为多个目标特征点中的任意一个。
在一可选实施例中,处理器51在预训练检测模型的过程中,用于:
获取多个样本图像;
在多个样本图像中分别标注文本行的几何参数、像素点的文字置信标识或非文字置信标识、文字区域的几何参数、文字区域之间的耦合关系以及文字区域与卷积层中的特征点之间的对应关系;
将经标注后的多个样本图像输入检测模型,以训练检测模型。
在一可选实施例中,处理器51在将经标注后的多个样本图像输入检测模型,以训练检测模型时,用于:
基于目标样本图像中标注的文本行的高度规格,在检测模型的至少一个卷积层中,确定与目标样本图像适配的样本卷积层,其中,不同卷积层适配不同的高度规格;
将经标注后的目标样本图像输入检测模型,以训练样本卷积层中用于提取特征的卷积参数以及样本卷积层对应的用于确定输出结果的卷积参数;
其中,目标样本图像为多个样本图像中的任意一个。
在一可选实施例中,处理器51在多个样本图像中分别标注文字区域的几何参数以及文字区域与卷积层中的特征点之间的对应关系时,用于:
从样本卷积层包含的多个特征点中,选取在目标样本图像中的映射点具有文字置信标识的至少一个样本特征点;
在目标样本图像中,分别标注至少一个样本特征点对应的文字区域的几何参数;
其中,目标样本图像为多个样本图像中的任意一个。
在一可选实施例中,处理器51在目标样本图像中,分别标注至少一个样本特征点对应的文字区域时,用于:
以第一样本特征点在目标样本图像中的目标映射点为中心,按照样本卷积层对应的映射框的尺寸,在目标样本图像中确定映射区域;
基于映射区域,在目标映射点所属的文本行上确定一目标区域,作为第一样本特征点对应的文字区域。
在一可选实施例中,处理器51在基于映射区域,在目标映射点所属的文本行上确定一目标区域时,用于:
在目标映射点所属的文本行包含的至少一个子区域中,确定目标映射点所处的目标子区域;
以目标映射点为旋转中心,从初始位置旋转文本行,至目标子区域与映射区域平行;
按照目标子区域的高度以及映射区域的宽度,确定一与映射区域中轴重合的标注区域;
将文本行与标注区域同步旋转,至文本行返回初始位置;
将旋转后的标注区域,作为目标区域。
在一可选实施例中,处理器51在多个样本图像中标注文字区域之间的耦合关系时,用于:
若样本卷积层中的第一样本特征点与第二样本特征点互为邻域,且两者在目标样本图像中对应的文字区域属于同一文本行,则标注第一样本特征点和第二样本特征点各自对应的文字区域之间存在吸引关系;
若第一样本特征点与第二样本特征点互为邻域,且两者在目标样本图像中对应的文字区域属于不同文本行,则标注第一样本特征点和第二样本特征点各自对应的文字区域之间存在排斥关系;
其中,第一样本特征点和第二样本特征点为至少一个样本特征点中的任意一个。
在一可选实施例中,处理器51在根据多个文字区域之间的耦合关系,将多个文字区域划分为至少一个文字区域集合时,用于:
若两个文字区域之间的耦合关系符合预设要求,则将两个文字区域划分至同一文字区域集合中,以获得至少一个文字区域集合。
在一可选实施例中,若两个文字区域之间的吸引关系强于排斥关系,则处理器51在将两个文字区域划分至同一文字区域集合中时,用于:
从检测模型中获取多个文字区域之间的吸引度和排斥度;
按照从高到低的顺序,对多个文字区域之间的吸引度和排斥度进行排序;
从最高值开始,若当前值关联的两个文字区域之间的吸引度大于排斥度,则将两个文字区域划分至同一文字区域集合中;
继续确定在后值关联的文字区域是否划分至同一文字区域集合,直至确定出所有文字区域所属的文字区域集合。
在一可选实施例中,处理器51在将至少一个文字区域集合中的文字区域,分别组合为文本行时,用于:
构建目标文字区域集合中的文字区域对应的最小外接多边形;
将最小外接多边形确定出的区域,作为目标文字区域集合对应的文本行;
其中,目标文字区域集合为至少一个文字区域集合中的任意一个。
值得说明的是,上述关于计算设备的各实施例中的技术细节,可参考前述的数据处理方法相关实施例中的描述,为节省篇幅,在此不再赘述,但这不应造成对本申请保护范围的损失。
进一步,如图5所示,该计算设备还包括:通信组件52、电源组件53、显示器54等其它组件。图5中仅示意性给出部分组件,并不意味着计算设备只包括图5所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由机器人执行的各步骤。
其中,存储器50,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图像,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
其中,通信组件52,被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
其中,电源组件53,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
其中,显示器54,包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (33)

1.一种数据处理方法,其特征在于,包括:
获取待处理图像;
在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;
根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;
基于所述至少一个文字区域集合中的文字区域,获得文本行。
2.根据权利要求1所述的方法,其特征在于,所述在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系,包括:
利用预训练的检测模型,在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系。
3.根据权利要求2所述的方法,其特征在于,所述利用预训练的检测模型,在所述待处理图像中确定多个文字区域,包括:
在所述检测模型的至少一个卷积层中,选取与所述待处理图像适配的多个目标特征点;
在所述多个目标特征点下,分别从所述待处理图像中提取第一类特征;
基于所述多个目标特征点下提取到的第一类特征,分别确定所述多个目标特征点各自对应的文字区域的几何参数;
根据所述多个目标特征点各自对应的文字区域的几何参数,在所述待处理图像中定位所述多个文字区域。
4.根据权利要求3所述的方法,其特征在于,所述在所述检测模型的至少一个卷积层中,选取与所述待处理图像适配的多个目标特征点,包括:
在所述检测模型的至少一个卷积层包含的多个特征点下,分别从所述待处理图像中提取第二类特征;
基于所述多个特征点各自对应的第二类特征,分别确定所述多个特征点各自对应的文字置信度;
将文字置信度满足预设条件的特征点,确定为与所述待处理图像适配的目标特征点。
5.根据权利要求3所述的方法,其特征在于,所述基于所述多个目标特征点下提取到的第一类特征,分别确定所述多个目标特征点各自对应的文字区域的几何参数,包括:
确定第一特征点所属的目标卷积层;
利用所述目标卷积层对应的用于确定输出结果的卷积参数,对所述第一特征点下提取到的第一类特征进行卷积处理,以输出所述第一特征点对应的文字区域的几何参数;
其中,所述第一特征点为所述多个目标特征点中的任意一个。
6.根据权利要求3所述的方法,其特征在于,所述利用所述检测模型,在所述待处理图像中确定所述多个文字区域之间的耦合关系,包括:
在所述多个目标特征点下,分别从所述待处理图像中提取第三类特征;
基于所述多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度,作为所述多个目标特征点各自对应的文字区域之间的耦合关系。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度,包括:
确定第一特征点所属的目标卷积层;
利用所述目标卷积层对应的用于确定输出结果的卷积参数,对所述第一特征点下提取到的第三类特征进行卷积处理,以输出所述第一特征点与其领域特征点之间的吸引度和/或排斥度;
其中,所述第一特征点为所述多个目标特征点中的任意一个。
8.根据权利要求2所述的方法,其特征在于,所述检测模型的预训练过程包括:
获取多个样本图像;
在所述多个样本图像中分别标注文本行的几何参数、像素点的文字置信标识或非文字置信标识、文字区域的几何参数、文字区域之间的耦合关系以及文字区域与卷积层中的特征点之间的对应关系;
将经标注后的所述多个样本图像输入所述检测模型,以训练所述检测模型。
9.根据权利要求8所述的方法,其特征在于,所述将经标注后的所述多个样本图像输入所述检测模型,以训练所述检测模型,包括:
基于目标样本图像中标注的文本行的高度规格,在所述检测模型的至少一个卷积层中,确定与所述目标样本图像适配的样本卷积层,其中,不同卷积层适配不同的高度规格;
将经标注后的所述目标样本图像输入所述检测模型,以训练所述样本卷积层中用于提取特征的卷积参数以及样本卷积层对应的用于确定输出结果的卷积参数;
其中,所述目标样本图像为所述多个样本图像中的任意一个。
10.根据权利要求9所述的方法,其特征在于,所述在所述多个样本图像中分别标注文字区域的几何参数以及文字区域与卷积层中的特征点之间的对应关系,包括:
从所述样本卷积层包含的多个特征点中,选取在所述目标样本图像中的映射点具有文字置信标识的至少一个样本特征点;
在所述目标样本图像中,分别标注所述至少一个样本特征点对应的文字区域的几何参数;
其中,所述目标样本图像为所述多个样本图像中的任意一个。
11.根据权利要求10所述的方法,其特征在于,所述在所述目标样本图像中,分别标注所述至少一个样本特征点对应的文字区域,包括:
以第一样本特征点在所述目标样本图像中的目标映射点为中心,按照所述样本卷积层对应的映射框的尺寸,在所述目标样本图像中确定映射区域;
基于所述映射区域,在所述目标映射点所属的文本行上确定一目标区域,作为所述第一样本特征点对应的文字区域。
12.根据权利要求11所述的方法,其特征在于,所述基于所述映射区域,在所述目标映射点所属的文本行上确定一目标区域,包括:
在所述目标映射点所属的文本行包含的至少一个子区域中,确定所述目标映射点所处的目标子区域;
以所述目标映射点为旋转中心,从初始位置旋转所述文本行,至所述目标子区域与所述映射区域平行;
按照所述目标子区域的高度以及所述映射区域的宽度,确定一与所述映射区域中轴重合的标注区域;
将所述文本行与所述标注区域同步旋转,至所述文本行返回所述初始位置;
将旋转后的所述标注区域,作为所述目标区域。
13.根据权利要求10所述的方法,其特征在于,所述在所述多个样本图像中标注文字区域之间的耦合关系,包括:
若样本卷积层中的第一样本特征点与第二样本特征点互为邻域,且两者在所述目标样本图像中对应的文字区域属于同一文本行,则标注所述第一样本特征点和所述第二样本特征点各自对应的文字区域之间存在吸引关系;
若所述第一样本特征点与所述第二样本特征点互为邻域,且两者在所述目标样本图像中对应的文字区域属于不同文本行,则标注所述第一样本特征点和所述第二样本特征点各自对应的文字区域之间存在排斥关系;
其中,所述第一样本特征点和所述第二样本特征点为所述至少一个样本特征点中的任意一个。
14.根据权利要求1所述的方法,其特征在于,所述根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合,包括:
若两个文字区域之间的耦合关系符合预设要求,则将所述两个文字区域划分至同一文字区域集合中,以获得所述至少一个文字区域集合。
15.根据权利要求14所述的方法,其特征在于,所述若两个文字区域之间的耦合关系符合预设要求,则将所述两个文字区域划分至同一文字区域集合中,包括:
从所述检测模型中获取所述多个文字区域之间的吸引度和排斥度;
按照从高到低的顺序,对所述多个文字区域之间的吸引度和排斥度进行排序;
从最高值开始,若当前值关联的两个文字区域之间的吸引度大于排斥度,则将所述两个文字区域划分至同一文字区域集合中;
继续确定在后值关联的文字区域是否划分至同一文字区域集合,直至确定出所有文字区域所属的文字区域集合。
16.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个文字区域集合中的文字区域,获得文本行,包括:
构建目标文字区域集合中的文字区域对应的最小外接多边形;
将所述最小外接多边形确定出的区域,作为所述目标文字区域集合对应的文本行;
其中,所述目标文字区域集合为所述至少一个文字区域集合中的任意一个。
17.一种计算设备,其特征在于,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
获取待处理图像;
在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系;
根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合;
基于所述至少一个文字区域集合中的文字区域,获得文本行。
18.根据权利要求17所述的设备,其特征在于,所述处理器在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系时,用于:
利用预训练的检测模型,在所述待处理图像中确定多个文字区域以及所述多个文字区域之间的耦合关系。
19.根据权利要求18所述的计算设备,其特征在于,所述处理器在利用预训练的检测模型,在所述待处理图像中确定多个文字区域时,用于:
在所述检测模型的至少一个卷积层中,选取与所述待处理图像适配的多个目标特征点;
在所述多个目标特征点下,分别从所述待处理图像中提取第一类特征;
基于所述多个目标特征点下提取到的第一类特征,分别确定所述多个目标特征点各自对应的文字区域的几何参数;
根据所述多个目标特征点各自对应的文字区域的几何参数,在所述待处理图像中定位所述多个文字区域。
20.根据权利要求19所述的计算设备,其特征在于,所述处理器在所述检测模型的至少一个卷积层中,选取与所述待处理图像适配的多个目标特征点时,用于:
在所述检测模型的至少一个卷积层包含的多个特征点下,分别从所述待处理图像中提取第二类特征;
基于所述多个特征点各自对应的第二类特征,分别确定所述多个特征点各自对应的文字置信度;
将文字置信度满足预设条件的特征点,确定为与所述待处理图像适配的目标特征点。
21.根据权利要求19所述的计算设备,其特征在于,所述处理器在基于所述多个目标特征点下提取到的第一类特征,分别确定所述多个目标特征点各自对应的文字区域的几何参数时,用于:
确定第一特征点所属的目标卷积层;
利用所述目标卷积层对应的用于确定输出结果的卷积参数,对所述第一特征点下提取到的第一类特征进行卷积处理,以输出所述第一特征点对应的文字区域的几何参数;
其中,所述第一特征点为所述多个目标特征点中的任意一个。
22.根据权利要求19所述的计算设备,其特征在于,所述处理器在利用所述检测模型,在所述待处理图像中确定所述多个文字区域之间的耦合关系时,用于:
在所述多个目标特征点下,分别从所述待处理图像中提取第三类特征;
基于所述多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度,作为所述多个目标特征点各自对应的文字区域之间的耦合关系。
23.根据权利要求21所述的计算设备,其特征在于,所述处理器在基于所述多个目标特征点各自对应的第三类特征,确定互为邻域的目标特征点之间的吸引度和/或排斥度时,用于:
确定第一特征点所属的目标卷积层;
利用所述目标卷积层对应的用于确定输出结果的卷积参数,对所述第一特征点下提取到的第三类特征进行卷积处理,以输出所述第一特征点与其领域特征点之间的吸引度和/或排斥度;
其中,所述第一特征点为所述多个目标特征点中的任意一个。
24.根据权利要求18所述的计算设备,其特征在于,所述处理器在预训练所述检测模型的过程,用于:
获取多个样本图像;
在所述多个样本图像中分别标注文本行的几何参数、像素点的文字置信标识或非文字置信标识、文字区域的几何参数、文字区域之间的耦合关系以及文字区域与卷积层中的特征点之间的对应关系;
将经标注后的所述多个样本图像输入所述检测模型,以训练所述检测模型。
25.根据权利要求24所述的计算设备,其特征在于,所述处理器在将经标注后的所述多个样本图像输入所述检测模型,以训练所述检测模型时,用于:
基于目标样本图像中标注的文本行的高度规格,在所述检测模型的至少一个卷积层中,确定与所述目标样本图像适配的样本卷积层,其中,不同卷积层适配不同的高度规格;
将经标注后的所述目标样本图像输入所述检测模型,以训练所述样本卷积层中用于提取特征的卷积参数以及样本卷积层对应的用于确定输出结果的卷积参数;
其中,所述目标样本图像为所述多个样本图像中的任意一个。
26.根据权利要求25所述的计算设备,其特征在于,所述处理器在所述多个样本图像中分别标注文字区域的几何参数以及文字区域与卷积层中的特征点之间的对应关系时,用于:
从所述样本卷积层包含的多个特征点中,选取在所述目标样本图像中的映射点具有文字置信标识的至少一个样本特征点;
在所述目标样本图像中,分别标注所述至少一个样本特征点对应的文字区域的几何参数;
其中,所述目标样本图像为所述多个样本图像中的任意一个。
27.根据权利要求26所述的计算设备,其特征在于,所述处理器在所述目标样本图像中,分别标注所述至少一个样本特征点对应的文字区域时,用于:
以第一样本特征点在所述目标样本图像中的目标映射点为中心,按照所述样本卷积层对应的映射框的尺寸,在所述目标样本图像中确定映射区域;
基于所述映射区域,在所述目标映射点所属的文本行上确定一目标区域,作为所述第一样本特征点对应的文字区域。
28.根据权利要求27所述的计算设备,其特征在于,所述处理器在基于所述映射区域,在所述目标映射点所属的文本行上确定一目标区域时,用于:
在所述目标映射点所属的文本行包含的至少一个子区域中,确定所述目标映射点所处的目标子区域;
以所述目标映射点为旋转中心,从初始位置旋转所述文本行,至所述目标子区域与所述映射区域平行;
按照所述目标子区域的高度以及所述映射区域的宽度,确定一与所述映射区域中轴重合的标注区域;
将所述文本行与所述标注区域同步旋转,至所述文本行返回所述初始位置;
将旋转后的所述标注区域,作为所述目标区域。
29.根据权利要求26所述的计算设备,其特征在于,所述处理器在所述多个样本图像中标注文字区域之间的耦合关系时,用于:
若样本卷积层中的第一样本特征点与第二样本特征点互为邻域,且两者在所述目标样本图像中对应的文字区域属于同一文本行,则标注所述第一样本特征点和所述第二样本特征点各自对应的文字区域之间存在吸引关系;
若所述第一样本特征点与所述第二样本特征点互为邻域,且两者在所述目标样本图像中对应的文字区域属于不同文本行,则标注所述第一样本特征点和所述第二样本特征点各自对应的文字区域之间存在排斥关系;
其中,所述第一样本特征点和所述第二样本特征点为所述至少一个样本特征点中的任意一个。
30.根据权利要求17所述的计算设备,其特征在于,所述处理器在根据所述多个文字区域之间的耦合关系,将所述多个文字区域划分为至少一个文字区域集合时,用于:
若两个文字区域之间的耦合关系符合预设要求,则将所述两个文字区域划分至同一文字区域集合中,以获得所述至少一个文字区域集合。
31.根据权利要求30所述的计算设备,其特征在于,所述若两个文字区域之间的耦合关系符合预设要求,则所述处理器在将所述两个文字区域划分至同一文字区域集合中时,用于:
从所述检测模型中获取所述多个文字区域之间的吸引度和排斥度;
按照从高到低的顺序,对所述多个文字区域之间的吸引度和排斥度进行排序;
从最高值开始,若当前值关联的两个文字区域之间的吸引度大于排斥度,则将所述两个文字区域划分至同一文字区域集合中;
继续确定在后值关联的文字区域是否划分至同一文字区域集合,直至确定出所有文字区域所属的文字区域集合。
32.根据权利要求17所述的计算设备,其特征在于,所述处理器在基于所述至少一个文字区域集合中的文字区域,获得文本行时,用于:
构建目标文字区域集合中的文字区域对应的最小外接多边形;
将所述最小外接多边形确定出的区域,作为所述目标文字区域集合对应的文本行;
其中,所述目标文字区域集合为所述至少一个文字区域集合中的任意一个。
33.一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-16任一项所述的数据处理方法。
CN202010307591.2A 2020-04-17 2020-04-17 一种数据处理方法、设备及存储介质 Withdrawn CN113537222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010307591.2A CN113537222A (zh) 2020-04-17 2020-04-17 一种数据处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010307591.2A CN113537222A (zh) 2020-04-17 2020-04-17 一种数据处理方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113537222A true CN113537222A (zh) 2021-10-22

Family

ID=78123451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010307591.2A Withdrawn CN113537222A (zh) 2020-04-17 2020-04-17 一种数据处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113537222A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110781885A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 基于图像处理的文本检测方法、装置、介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110781885A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 基于图像处理的文本检测方法、装置、介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUN TANG ET AL.: "SegLink ++ : Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping", 《PATTERN RECOGNITION》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN108304835B (zh) 文字检测方法和装置
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN107016387B (zh) 一种识别标签的方法及装置
CN111178355B (zh) 印章识别方法、装置和存储介质
US20140023271A1 (en) Identifying A Maximally Stable Extremal Region (MSER) In An Image By Skipping Comparison Of Pixels In The Region
CN105046254A (zh) 字符识别方法及装置
CN111950355A (zh) 印章识别方法、装置及电子设备
CN105701489A (zh) 一种新型的数字提取和识别的方法及系统
CN110827301B (zh) 用于处理图像的方法和装置
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN112070037B (zh) 基于遥感影像的道路提取方法、装置、介质及设备
CN109919149A (zh) 基于物体检测模型的物体标注方法及相关设备
CN110796145B (zh) 基于智能决策的多证件分割关联方法及相关设备
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN111598076A (zh) 一种标签图像中日期检测处理方法及装置
CN112036304A (zh) 医疗票据版面识别的方法、装置及计算机设备
CN113537222A (zh) 一种数据处理方法、设备及存储介质
US10055668B2 (en) Method for the optical detection of symbols
US20210407047A1 (en) Automatic Artifact Removal in a Digital Image
KR20220006642A (ko) 타이어 측벽 이미징 방법
CN115205113A (zh) 一种图像拼接方法、装置、设备及存储介质
Khosravi et al. Presenting an object-based approach using image edges to detect building boundaries from high spatial resolution images
CN114494678A (zh) 文字识别方法和电子设备
CN114445807A (zh) 一种文本区域检测方法及装置
CN113936288A (zh) 倾斜文本方向分类方法、装置、终端设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211022