CN108520254A

CN108520254A - 一种基于格式化图像的文本检测方法、装置以及相关设备

Info

Publication number: CN108520254A
Application number: CN201810172653.6A
Authority: CN
Inventors: 余三思; 王斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-09-11
Anticipated expiration: 2038-03-01
Also published as: CN108520254B

Abstract

本发明实施例公开了一种基于格式化图像的文本检测方法、装置以及相关设备，所述方法包括：获取基于格式化的目标图像和与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；按照与目标图像相关的格式显示目标图像中的文本信息。采用本发明，可以提高检测文本区域的准确率。

Description

一种基于格式化图像的文本检测方法、装置以及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于格式化图像的文本检测方法、装置以及相关设备。

背景技术

文字信息是人们传递知识、获取知识的重要载体，在人们的物质生活和精神生活中，文字都发挥着及其重要的作用。但是，文字的传统载体---纸质文档，有着占用空间大、不易保存、不易查找等缺点，因此利用OCR(Optical Character Recognition，光学文字识别)技术，将纸质文档中的文字数字化，可以节约经济成本和减少物理空间的占用。

现有的对自然图像进行光学文字识别技术主要分为两部分，首先是将自然图像中包含文字的图像区域提取出来，然后将包含文字的图像区域进行文字识别。但是由于自然图像的质量低下，图像畸变较大，同时图像中背景及版式结构比较复杂，就会造成提取出来的文字区域杂乱且区域之间部分重叠，或者丢失图像中的重要字段的情况，进而导致后续文字识别的准确率低下，甚至不能识别图像中的文字。

上述可见，对复杂版式结构的自然图像而言，现有的文本区域检测方法不能准确检测出正确的自然图像中的文字区域。

发明内容

本发明实施例提供一种基于格式化图像的文本检测方法、装置以及相关设备，可以提高检测文本区域的准确率。

本发明一方面提供了一种基于格式化图像的文本检测方法，包括：

获取基于格式化的目标图像；

获取与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；

根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；每个单位目标图像包括至少一个目标关键点区域；

将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；

按照与所述目标图像相关的格式显示所述目标图像中的文本信息。

其中，所述检测模板包括多个模板图像，每个模板图像均包含一个关键信息；

所述在所述目标图像中提取所述每个关键信息所在的区域，包括：

计算所述模板图像与所述目标图像中的所有图像区域之间的相似性；

在所述目标图像中提取相似性最高的图像区域。

其中，所述确定目标关键点区域，包括：

将提取到的所述相似性最高的图像区域确定为初始关键点区域；

根据形状修正模型，计算所述初始关键点区域的调整参数，并根据所述调整参数调整所述初始关键点区域的尺寸和位置，得到目标关键点区域，并将所述目标关键点区域确定为所述初始关键点区域，重复执行本步骤，直至所述初始关键点区域和所述目标关键点区域之间的变化量小于变化量阈值。

其中，所述根据形状修正模型，计算所述初始关键点区域的调整参数，包括：

在所述初始关键点区域的邻域范围内，查找所述初始关键点区域与所述形状修正模型匹配度最高的图像区域，作为参考关键点区域，根据所述参考关键点区域的尺寸和位置、所述初始关键点区域的尺寸和位置，生成所述初始关键点区域的调整参数；所述形状修正模型根据所述模板图像在所述目标图像中的位置参数和各模板图像之间的位置关系训练生成的。

其中，所述根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像，包括：

在所述目标关键点区域对应的起始点位置中确定参考起始点位置；

在所述参考起始点位置中，选择待处理起始点位置，确定与所述待处理起始点位置对应的目标起始点位置；

根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度；

根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度；

根据所述目标起始点位置、所述目标长度、所述目标宽度，在所述目标图像中确定目标图像区域，作为与所述待处理起始点位置对应的单位目标图像；

当所有参考起始点位置均被确定为所述待处理起始点位置，则得到所述目标图像中的所述多个单位目标图像；每个单位目标图像均包含一个参考起始点位置。

其中，所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度，包括：

若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第一长度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置水平相邻的参考起始点位置之间的水平距离，确定所述目标长度；

若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第二长度参考位置关系，则根据所述待处理起始点位置和所述目标图像的垂直边界之间的水平距离，确定所述目标长度。

其中，所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度，包括：

若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第一宽度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置垂直相邻的参考起始点位置之间的垂直距离，确定所述目标宽度；

若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第二宽度参考位置关系，则根据所述待处理起始点位置和所述目标图像的水平边界之间的垂直距离，确定所述目标宽度。

其中，所述将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息，包括：

提取所述单位目标图像中的特征信息，根据所述特征信息在所述单位目标图像中确定文本候选区域；

调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息。

其中，在所述调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息之前，还包括：

检测所述文本候选区域中的文本字体；

若所述文本候选区域中的文本包括印刷字体文本，则过滤所述印刷字体文本；

若所述文本候选区域中的文本不包括印刷字体文本，则执行调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息的步骤。

其中，还包括：

根据所述单位目标图像所包含的所述目标关键点区域中的关键信息，为所述单位目标图像中的文本信息设置关键字标签。

本发明另一方面提供了一种基于格式化图像的文本检测装置，包括：

获取模块，用于获取基于格式化的目标图像；

提取模块，用于获取与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域；

确定模块，用于根据所提取的区域确定目标关键点区域；

分割模块，用于根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；每个单位目标图像包括至少一个目标关键点区域；

识别模块，用于将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；

显示模块，按照与所述目标图像相关的格式显示所述目标图像中的文本信息。

其中，所述提取模块，包括：

获取单元，用于获取与所述目标图像相关联的检测模板；所述检测模板包括多个模板图像，每个模板图像均包含一个关键信息；

计算单元，用于计算所述模板图像与所述目标图像中的所有图像区域之间的相似性；

第一提取单元，用于在所述目标图像中提取相似性最高的图像区域。

其中，所述确定模块，包括：

第一确定单元，用于将提取到的所述相似性最高的图像区域确定为初始关键点区域；

调整单元，用于根据形状修正模型，计算所述初始关键点区域的调整参数，并根据所述调整参数调整所述初始关键点区域的尺寸和位置，得到目标关键点区域；

第一通知单元，用于将所述目标关键点区域确定为所述初始关键点区域，并通知所述调整单元执行相应操作，直至所述初始关键点区域和所述目标关键点区域之间的变化量小于变化量阈值。

其中，所述调整单元，具体用于：

其中，所述分割模块，包括：

第二确定单元，用于在所述目标关键点区域对应的起始点位置中确定参考起始点位置；

第三确定单元，用于在所述参考起始点位置中，选择待处理起始点位置，确定与所述待处理起始点位置对应的目标起始点位置；

第四确定单元，根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度；

第五确定单元，用于根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度；

第六确定单元，根据所述目标起始点位置、所述目标长度、所述目标宽度，在所述目标图像中确定目标图像区域，作为与所述待处理起始点位置对应的单位目标图像；

第七确定单元，用于当所有参考起始点位置均被确定为所述待处理起始点位置，则得到所述目标图像中的所述多个单位目标图像；每个单位目标图像均包含一个参考起始点位置。

其中，所述第四确定单元，包括：

第一确定子单元，用于若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第一长度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置水平相邻的参考起始点位置之间的水平距离，确定所述目标长度；

第二确定子单元，若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第二长度参考位置关系，则根据所述待处理起始点位置和所述目标图像的垂直边界之间的水平距离，确定所述目标长度。

其中，所述第五确定单元，包括：

第三确定子单元，用于若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第一宽度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置垂直相邻的参考起始点位置之间的垂直距离，确定所述目标宽度；

第四确定子单元，用于若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第二宽度参考位置关系，则根据所述待处理起始点位置和所述目标图像的水平边界之间的垂直距离，确定所述目标宽度。

其中，所述识别模块，包括：

第二提取单元，用于提取所述单位目标图像中的特征信息，根据所述特征信息在所述单位目标图像中确定文本候选区域；

识别单元，用于调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息。

其中，所述识别模块，还包括：

检测单元，用于检测所述文本候选区域中的文本字体；

过滤单元，用于若所述文本候选区域中的文本包括印刷字体文本，则过滤所述印刷字体文本；

第二通知单元，用于若所述文本候选区域中的文本不包括印刷字体文本，则通知所述识别单元执行调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息。

其中，还包括：

设置模块，用于根据所述单位目标图像所包含的所述目标关键点区域中的关键信息，为所述单位目标图像中的文本信息设置关键字标签。

本发明另一方面提供了一种终端设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例通过获取格式化的目标图像和与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；按照与目标图像相关的格式显示目标图像中的文本信息。由于可以根据检测模板，确定目标图像中的关键信息所在的区域，进而将目标图像分割为多个单位目标图像，再识别多个单位目标图像中的文本区域以及文本区域中的文本信息。因此，通过提取关键信息所在的区域，可以将版式结构复杂的目标图像划分为多个版式结构简单的单位目标图像，从而可以提高在结构复杂的目标图像中检测文本区域的准确率，进而提高后续文本识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a-图1b是本发明实施例提供的一种基于格式化图像的文本检测方法的场景示意图；

图2是本发明实施例提供的一种基于格式化图像的文本检测方法的流程示意图；

图2a-图2b是本发明实施例提供的一种确定目标起始点位置的示意图；

图3是本发明实施例提供的一种确定目标关键点区域的流程示意图；

图3a-图3d是本发明实施例提供的一种确定初始关键点区域的示意图；

图4是本发明实施例提供的另一种基于格式化图像的文本检测方法的流程示意图；

图5是本发明实施例提供的一种基于格式化图像的文本检测装置的结构示意图；

图6是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1a-图1b，是本发明实施例提供的一种基于格式化图像的文本检测方法的场景示意图。如图1a-图1b所示，以图像内容是快递运单为例进行说明，首先获取图像100a以及模板图像100b、模板图像100c、模板图像100d、模板图像100e、模板图像100f。模板图像100b中的关键信息为：寄件人姓名；模板图像100c中的关键信息为：收件人姓名；模板图像100d中的关键信息为：托寄物品；模板图像100e中的关键信息为：产品服务；模板图像100f中的关键信息为：增值服务。其中模板图像的数量、每个模板图像的尺寸、每个检测模板中的关键信息是根据图像100a中的图像内容提前设置好的。对模板图像100b而言，模板图像100b依次滑过图像100a中的所有图像区域，比较模板图像100b中的像素值和图像100a中各图像区域中的像素值之间的差值，如图1b所示，将图像100a中差值最小的图像区域作为模板图像100b中的关键信息“寄件人姓名”所在的区域，关键信息“寄件人姓名”在图像100a中所在的图像区域为图像区域10a；对模板图像100c而言，模板图像100c依次滑过图像100a中的所有图像区域，比较模板图像100c中的像素值和图像100a中各图像区域中的像素值之间的差值，将图像100a中差值最小的图像区域作为模板图像100c中的关键信息“收件人姓名”所在的区域，关键信息“收件人姓名”在图像100a中所在的图像区域为图像区域10b；对模板图像100d而言，模板图像100d依次滑过图像100a中的所有图像区域，比较模板图像100d中的像素值和图像100a中各图像区域中的像素值之间的差值，将图像100a中差值最小的图像区域作为模板图像100d中的关键信息“托寄物品”所在的区域，关键信息“托寄物品”在图像100a中所在的图像区域为图像区域10c；对模板图像100e而言，模板图像100e依次滑过图像100a中的所有图像区域，比较模板图像100e中的像素值和图像100a中各图像区域中的像素值之间的差值，将图像100a中差值最小的图像区域作为模板图像100e中的关键信息“产品服务”所在的区域，关键信息“产品服务”在图像100a中所在的图像区域为图像区域10d；对模板图像100f而言，模板图像100f依次滑过图像100a中的所有图像区域，比较模板图像100f中的像素值和图像100a中各图像区域中的像素值之间的差值，将图像100a中差值最小的图像区域作为模板图像100f中的关键信息“增值服务”所在的区域，关键信息“增值服务”在图像100a中所在的图像区域为图像区域10e。

如图1b所示，对图像区域10a而言，根据图像区域10a在图像100a中的起始点位置(该起始点位置为图像区域10a的左上角第一个像素点的位置坐标)、关于图像100a的先验知识，确定目标起始点位置；将图像区域10a和图像区域10b之间的水平距离，作为目标长度；将图像区域10a和图像区域10c之间的垂直距离，作为目标宽度，进而由目标起始点位置、目标长度、目标宽度，确定与图像区域10a对应的单位图像10f。对图像区域10b而言，根据图像区域10b在图像100a中的起始点位置(该起始点位置为图像区域10b的左上角第一个像素点的位置坐标)、关于图像100a的先验知识，确定目标起始点位置；将图像区域10b和图像100a的垂直边界之间水平距离，作为目标长度；将图像区域10b和图像区域10d之间的垂直距离，作为目标宽度，进而由目标起始点位置、目标长度、目标宽度，确定与图像区域10b对应的单位图像10g。对图像区域10c而言，根据图像区域10c在图像100a中的起始点位置(该起始点位置为图像区域10c的左上角第一个像素点的位置坐标)、关于图像100a的先验知识，确定目标起始点位置；将图像区域10c和图像区域10d之间水平距离，作为目标长度；将图像区域10c和图像100a的水平边界之间的垂直距离，作为目标宽度，进而由目标起始点位置、目标长度、目标宽度，确定与图像区域10c对应的单位图像10h。对图像区域10d而言，根据图像区域10d在图像100a中的起始点位置(该起始点位置为图像区域10d的左上角第一个像素点的位置坐标)、关于图像100a的先验知识，确定目标起始点位置；将图像区域10d和图像100a的垂直边界之间水平距离，作为目标长度；将图像区域10d和图像区域10e之间的垂直距离，作为目标宽度，进而由目标起始点位置、目标长度、目标宽度，确定与图像区域10d对应的单位图像10i。对图像区域10e而言，根据图像区域10e在图像100a中的起始点位置(该起始点位置为图像区域10e的左上角第一个像素点的位置坐标)、关于图像100a的先验知识，确定目标起始点位置；将图像区域10e和图像100a的垂直边界之间水平距离，作为目标长度；将图像区域10e和图像100a的水平边界之间的垂直距离，作为目标宽度，进而由目标起始点位置、目标长度、目标宽度，确定与图像区域10e对应的单位图像10j。将单位图像10f、单位图像10g、单位图像10h、单位图像10i、单位图像10j，依次输入至文本识别模型中，文本识别模型分别识别单位图像10f中的文本信息、单位图像10g中的文本信息、单位图像10h中的文本信息、单位图像10i中的文本信息、单位图像10j中的文本信息。按照快递单的格式显示从目标图像100a中识别出来的文本信息。

其中，确定关键点区域、将目标图像分割为多个单位目标图像的具体过程可以参见以下图2至图4所对应的实施例。

进一步地，请参见图2，是本发明实施例提供的一种基于格式化图像的文本检测方法的流程示意图。如图2所示，所述基于格式化图像的文本检测方法可以包括：

步骤S101，获取基于格式化的目标图像；

具体的，获取格式固定的图像，作为目标图像(如上述图1b对应实施例中的图像100a)。例如，快递单格式的图像、信封格式的图像、明信片格式的图像等均为格式固定的图像。

步骤S102，获取与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；

具体的，获取与目标图像相关联的检测模板，检测模板包含多个模板图像(如上述图1a对应实施例中的模板图像100b、模板图像100c、模板图像100d、模板图像100e、模板图像100f)和每个模板图像的图像参数，例如每个模板图像的尺寸，模板图像中每一个像素点的像素值等。每个模板图像包含一个关键信息，即模板图像是包含目标图像中关键信息的图像块，一个关键信息对应一个模板图像，模板图像包含的关键信息、模板图像的数量是根据目标图像中的图像内容而提前确定的。按照从左至右，从上到下的顺序遍历目标图像中的所有区域，根据检测模板包含的关键信息，在目标图像中的所有区域中提取与检测模板最相似的区域，也即是检测模板所对应的关键信息在目标图像中所在的区域，该最相似的区域即为目标关键点区域。

步骤S103，根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；

具体的，在所有目标关键点区域的起始点位置中，选择至少一个目标关键点区域的起始点位置作为参考起始点位置，目标关键点区域的起始点位置可以是目标关键点区域的左上角第一个像素点所在的位置，或者也可以是目标关键点区域的重心所在的位置。值得注意的是，并不是每一个目标关键点区域的起始位置都会被选择为参考起始点位置，这是因为一些目标关键点区域只是用来修正其余目标关键点区域在目标图像中的位置，而不必用于后续确定单位目标图像对应的目标起始点位置，至于一个目标关键点区域的起始点位置是否能够被选择为参考起始点位置也是提前设置的。以确定一个单位目标图像为例，进行说明，在所有的参考起始点位置中选择用于当前处理的参考起始点位置，作为待处理起始点位置，根据目标图像的先验知识，确定与待处理起始点位置对应的目标起始点位置。根据待处理起始点位置与该待处理起始点位置相邻的参考起始点位置、目标图像的垂直边界、目标图像的水平边界之间关系，确定目标长度和目标宽度。由目标起始点位置、目标长度和目标宽度就可以在目标图像中确定目标图像区域，该目标图像区域包含对应的参考起始点位置，该目标图像区域即是与上述参考起始点位置对应的单位目标图像。通过多次地将不同的参考起始点位置确定为待处理起始点位置，进而确定多个单位目标图像，当所有的参考起始点位置均被确定为待处理起始点位置后，则得到多个单位目标图像，其中每一个单位目标图像均包含一个参考起始点位置。

请参见图2a-图2b，是本发明实施例提供的一种确定目标起始点位置的示意图。如图2a所示，在目标图像300a中存在5个目标关键点区域，分别为目标关键点区域30a、目标关键点区域30b、目标关键点区域30c、目标关键点区域30d、目标关键点区域30e，在上述5个目标关键点区域中选择目标关键点区域30a的起始点位置P1为参考起始点位置P1、选择目标关键点区域30b的起始点位置P2为参考起始点位置P2、选择目标关键点区域30c的起始点位置P3为参考起始点位置P3、选择目标关键点区域30d的起始点位置P4为参考起始点位置P4，但目标关键点区域30e的起始点位置P5没有被选择为参考起始点位置。如图2b所示，目标关键点区域30a的起始点位置P1，且该起始点位置P1被选择为参考起始点位置P1，将参考起始点位置P1作为待处理起始点位置P1，由目标图像的先验知识，待处理起始点位置P1左移2个像素点再上移2个像素点(或者先上移2个像素点再左移2个像素点)后所在的位置，即为待处理起始点位置P1对应的目标起始点位置P11。图2a中的其余的参考起始点位置均可以根据先验知识确定对应的目标起始点位置。

根据待处理起始点位置与该待处理起始点位置相邻的参考起始点位置、目标图像的垂直边界、目标图像的水平边界之间关系，确定目标长度和目标宽度的具体过程为：若待处理起始点位置与目标图像的垂直边界之间的距离大于第一距离阈值，则确定待处理起始点位置与目标图像的垂直边界之间的关系属于第一长度参考位置关系，确定第一长度参考位置关系后，检测与该待处理起始点位置水平相邻的参考起始点位置，将该待处理起始点位置和上述水平相邻的参考起始点位置之间的水平距离，作为目标长度；对应地，若待处理起始点位置与目标图像的垂直边界之间的距离小于或等于上述第一距离阈值，则确定待处理起始点位置与目标图像的垂直边界之间的关系属于第二长度参考位置关系，确定第一长度参考位置关系后，检测该待处理起始点位置和目标图像的垂直边界之间的水平距离，将检测出的与垂直边界之间的水平距离确定为目标长度。若待处理起始点位置与目标图像的水平边界之间的距离大于第二距离阈值，则确定待处理起始点位置与目标图像的水平边界之间的关系属于第一宽度参考位置关系，确定第一宽度参考位置关系后，检测与该待处理起始点位置垂直相邻的参考起始点位置，将该待处理起始点位置和上述垂直相邻的参考起始点位置之间的垂直距离，作为目标宽度；对应的，若待处理起始点位置与目标图像的水平边界之间的距离小于或者等于第二距离阈值，则确定待处理起始点位置与目标图像的水平边界之间的关系属于第二宽度参考位置关系，确定第二宽度参考位置关系后，检测该待处理起始点位置与目标图像水平边界之间的垂直距离，将检测出的与水平边界之间的垂直距离确定为目标宽度。由此可见，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第一长度参考位置关系又属于第一宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第二长度参考位置关系又属于第一宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第一长度参考位置关系又属于第二宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第二长度参考位置关系又属于第二宽度参考位置关系。

例如，如图2a所示，将目标关键点区域30a的起始点位置P1作为待处理起始点位置P1，根据先验知识确定待处理起始点位置P1对应目标起始点位置P11，由于待处理起始点位置P1与垂直边界30k之间的距离大于第一距离阈值(即待处理起始点位置P1与目标图像的垂直边界30k之间的关系属于第一长度参考位置关系)，所以将待处理起始点位置P1与目标关键点区域30b的参考起始点位置P2之间的水平距离，作为目标长度；由于待处理起始点位置P1与目标图像的水平边界30i之间的距离大于第二距离阈值(即待处理起始点位置P1与目标图像的垂直边界30i之间的关系属于第一宽度参考位置关系，也就是待处理起始点位置P1与目标图像300a的边界之间的关系既属于第一长度参考位置关系又属于第一宽度参考位置关系)，所以将待处理起始点位置P1与目标关键点区域30c的参考起始点位置P3之间的垂直距离，作为目标宽度；由目标起始点位置P11、目标长度、目标宽度确定与目标关键点区域30a对应的单位目标图像为单位目标图像300d。将目标关键点区域30b的起始点位置P2作为待处理起始点位置P2，根据先验知识确定待处理起始点位置P2对应目标起始点位置P22，由于待处理起始点位置P2与垂直边界30k之间的距离小于第一距离阈值(即待处理起始点位置P2与目标图像的垂直边界30k之间的关系属于第二长度参考位置关系)，所以将待处理起始点位置P2与垂直边界30k之间的水平距离，作为目标长度；由于待处理起始点位置P2与目标图像的水平边界30i之间的距离大于第二距离阈值(即待处理起始点位置P2与目标图像的垂直边界30i之间的关系属于第一宽度参考位置关系，也就是待处理起始点位置P2与目标图像300a的边界之间的关系既属于第二长度参考位置关系又属于第一宽度参考位置关系)，所以将待处理起始点位置P2与目标关键点区域30d的参考起始点位置P4之间的垂直距离，作为目标宽度；由目标起始点位置P22、目标长度、目标宽度确定与目标关键点区域30b对应的单位目标图像是单位目标图像300e。将目标关键点区域30c的起始点位置P3作为待处理起始点位置P3，根据先验知识确定待处理起始点位置P3对应目标起始点位置P33，由于待处理起始点位置P3与垂直边界30k之间的距离大于第一距离阈值(即待处理起始点位置P3与目标图像的垂直边界30k之间的关系属于第一长度参考位置关系)，所以将待处理起始点位置P3与目标关键点区域30d的参考起始点位置P4之间的水平距离，作为目标长度；由于待处理起始点位置P3与目标图像的水平边界30i之间的距离小于第二距离阈值(即待处理起始点位置P3与目标图像的垂直边界30i之间的关系属于第二宽度参考位置关系，也就就是待处理起始点位置P3与目标图像300a的边界之间的关系既属于第一长度参考位置关系又属于第二宽度参考位置关系)，所以将待处理起始点位置P3与水平边界30i之间的垂直距离，作为目标宽度；由目标起始点位置P33、目标长度、目标宽度确定与目标关键点区域30c对应的单位目标图像是单位目标图像300f。将目标关键点区域30d的起始点位置P4作为待处理起始点位置P4，根据先验知识确定待处理起始点位置P4对应目标起始点位置P44，由于待处理起始点位置P4与垂直边界30k之间的距离小于第一距离阈值(即待处理起始点位置P4与目标图像的垂直边界30k之间的关系属于第二长度参考位置关系)，所以将待处理起始点位置P4与水平边界30k之间的水平距离，作为目标长度；由于待处理起始点位置P4与目标图像的水平边界30i之间的距离小于第二距离阈值(待处理起始点位置P4与目标图像的垂直边界30i之间的关系属于第二宽度参考位置关系，也就就是待处理起始点位置P4与目标图像300a的边界之间的关系既属于第二长度参考位置关系又属于第二宽度参考位置关系)，所以将待处理起始点位置P4与水平边界30i之间的垂直距离，作为目标宽度；由目标起始点位置P44、目标长度、目标宽度确定与目标关键点区域30d对应的单位目标图像是单位目标图像300g。

步骤S104，将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；

具体的，将多个单位目标图像分别输入至文本识别模型中，利用文本识别模型的文本识别功能，分别识别该单位目标图像中的文本信息。该文本识别模型是提前训练完成的，文本识别模型识别文本信息主要分为两个部分，首先检测单位目标图像中的文本区域，将准确的文本区域图像提取出来，以便于后续的文本识别。为了提高后续文本识别的准确率，可以将文本区域图像中的文本图像信息进行增强，去除文本区域中污点、空白等噪声。并根据一定的规则去除一些非本质信号，对文本区域中的文字的大小、位置、笔画粗细等进行规范化，以降低识别时的复杂性。然后根据文本区域中字符与字符之间的间距或者使用投影法(Project Profile Histogram，PPH)，可以将检测出的文本区域划分为多个字符，根据字符的形态(可以是根据字符的上下结构、字符的偏旁部首、文字线条的端点、交点和折点等)，分别识别每一个字符，将得到的单个字符进行组合即得到单位目标图像中的文本信息。投影法的具体过程为：通过统计图像中每一列(行)黑像素的个数得到投影直方图，在直方图中字符区域对应于波峰，字符间隔对应于波谷。

步骤S105，按照与所述目标图像相关的格式显示所述目标图像中的文本信息。

具体的，根据目标图像的固定格式，模拟一张与目标图像的格式相同的虚拟图，在虚拟图中的空白部分显示识别出的目标图像中的文本信息。如图1b所示，文本识别模型识别图像100a中的文本信息后，模拟一张空白快递单的虚拟图，在虚拟图的空白处显示对应的文本信息。

请一并参见图3，是本发明实施例提供的一种确定目标关键点区域的流程示意图。如图3所示，确定目标关键点区域的具体过程包括如下步骤S201-步骤S204，且步骤S201-步骤S204为图2所对应实施例中步骤S102的一个具体实施例。

步骤S201，获取与所述目标图像相关联的检测模板；

具体的，获取与目标图像相关联的检测模板，检测模板包含多个模板图像和每个模板图像的图像参数，例如每个模板图像的尺寸，模板图像中每一个像素点的像素值等。每个模板图像包含一个关键信息，即模板图像是包含目标图像中关键信息的图像块，一个关键信息对应一个模板图像，模板图像包含的关键信息、模板图像的数量是根据目标图像中的图像内容而提前确定的。

步骤S202，计算所述模板图像与所述目标图像中的所有图像区域之间的相似性；

具体的，从目标图像的左上角开始，模板图像按照从左到右，从上至下的顺序依次滑过目标图像的所有区域，每次滑动一个像素点。对每一个图像区域，计算每一个图像区域与模板图像之间的相似性，计算出来的相似性就作为滑动像素点的相似性(或者图像区域左上角第一个像素点的相似性)，若该滑动像素点的相似性越大，说明此图像区域是正确匹配图像区域的可能性越大。该相似性可以用平均绝对差算法(Mean AbsoluteDifferences，MAD)、绝对误差和算法(Sum of Absolute Differences，SAD)、误差平方和算法(Sum of Squared Differences，SSD)、平均误差平方和算法(Mean SquareDifferences，MSD)度量等，上述相似性度量方法都是计算该图像区域内每一个像素点与模板图像对应像素点之间的相似性。其中，平均绝对差的计算方式如公式(1)所示：

其中，M，N表示检测模板的长度和宽度，S表示目标图像中的各区域，T表示检测模板。

绝对误差的计算方式如公式(2)所示：

误差平方和的计算方式如公式(3)所示：

平均误差平方和的计算方式如公式(4)所示：

步骤S203，在所述目标图像中提取相似性最高的图像区域，并将提取到的所述相似性最高的图像区域确定为初始关键点区域；

具体的，将相似性最高的像素点所对应的图像区域作为初始关键点区域。

步骤S204，根据形状修正模型，计算所述初始关键点区域的调整参数，并根据所述调整参数调整所述初始关键点区域的尺寸和位置，得到目标关键点区域，并将所述目标关键点区域确定为所述初始关键点区域，重复执行本步骤，直至所述初始关键点区域和所述目标关键点区域之间的变化量小于变化量阈值。

具体的，以一个初始关键点为例进行说明。根据提前训练完成的形状修正模型，在初始关键点区域的邻域范围内且满足形状修正模型的约束条件下，查找该初始关键点区域与形状修正模型最匹配的图像区域，作为参考关键点区域，根据参考关键点区域的尺寸和位置、初始关键点区域的尺寸和位置，生成该初始关键点区域对应的调整参数，根据调整参数，调整初始关键点区域的尺寸和位置，其中调整参数具体包括：尺度缩放(可以用s表示)、旋转角度(可以用θ表示)、平移变化(可以用t表示)。将调整后的初始关键点区域作为目标关键点区域，可以看出，本轮执行完毕得到的目标关键点区域就是本轮中间过程得到的参考关键点区域。将目标关键点区域作为初始关键点区域，再次根据形状修正模型，在邻域范围内且满足形状修正模型的约束条件下，查找初始关键点区域与形状修正模型最匹配的图像区域，再次将最匹配的区域作为参考关键点区域，根据参考关键点区域的尺寸和位置、初始关键点区域的尺寸和位置，再次生成对应的调整参数，并再次调整初始关键点区域的尺寸和位置，将调整后的初始关键点区域作为目标关键点区域，并将目标关键点区域确定为初始关键点区域，不断地进行迭代，直至本轮得到的调整后得到的目标关键点区域和本轮的初始关键点区域之间的变化量小于变化量阈值，该变化量可以是指本轮得到的调整参数的变化量，也可以是指目标关键点区域和初始关键点区域之间交叉面积的变化量，或者是指迭代次数达到提前设置的次数阈值。形状修正模型是根据多个模板图像分别在目标图像中的位置参数和各检测模板之间的位置关系训练而成的，即形状修正模型可以为主观形状模型(Active Shape Models，ASM)。上述通过ASM模型调整初始关键点区域得到目标关键点区域，也可以通过主动外观模型(Active Appearance Model，AAM)得到目标关键点区域。

ASM是一个参数化的模型，形如：ASM的具体构造过程如下：将多张和目标图像有相同图像内容的图像作为训练图像，在多张训练图像中随机选择一张训练图像的形状作为基准形状，将所有训练图像中的形状通过平移、伸缩、旋转向基准形状进行对准，计算对准后的均值形状，其中均值形状的计算方式如公式(5)所示：

再通过平移、伸缩、旋转将所有训练图像中的形状和均值形状对准，再计算均值形状，重复地计算均值形状以及训练图像的形状向均值形状对准，估计本轮均值形状和上一轮均值形状之间的差异，直到差异结果收敛或者迭代次数达到次数阈值，得到的均值形状即为主观形状模型其中b的变化不能太大，否则会使计算得到的主观形状模型与原始训练图像的形状产生较大偏差，通常b的限制为：

其中，λ_i是根据分解训练图像的形状的协方差所得到的特征值。ASM中的参数b的限制即为约束条件。

请一并参见图3a-图3d，是本发明实施例提供的一种确定初始关键点区域的示意图。如图3a所示，计算模板图像200b与目标图像200a中和模板图像200b重叠图像区域之间的相似性D1；模板图像200b向右滑动一个像素点，如图3b所示，计算模板图像200b与目标图像200a中和模板图像200b重叠图像区域之间的相似性D2；模板图像200b再向右滑动一个像素点，如图3c所示，计算模板图像200b与目标图像200a中和模板图像200b重叠图像区域之间的相似性D3；模板图像200b向右滑动一个像素点，如图3d所示，计算模板图像200b与目标图像200a中和模板图像200b重叠图像区域之间的相似性D4；通过滑动模板图像200b，计算模板图像200b和目标图像200a中的所有图像区域之间的相似性，将相似性最高的图像区域作为与模板图像200b对应的初始关键点区域。

本发明实施例通过获取格式化的目标图像和与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；按照与目标图像相关的格式显示目标图像中的文本信息。由于可以根据检测模板，确定目标图像中的关键信息所在的区域，进而将目标图像分割为多个单位目标图像，再识别多个单位目标图像中的文本区域以及文本区域中的文本。因此，通过提取关键信息所在的区域，可以将版式结构复杂的目标图像划分为多个版式结构简单的单位目标图像，从而可以提高在结构复杂的目标图像中检测文本区域的准确率，进而提高后续文本识别的准确率。

进一步的，请参见图4，是本发明实施例提供的另一种基于格式化图像的文本检测方法的流程示意图。如图4所示，上述基于格式化图像的文本检测方法可以包括：

步骤S301，获取基于格式化的目标图像；

步骤S302，获取与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域，并根据所提取的区域确定目标关键点区域；

步骤S303，根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；

其中，步骤S301-步骤S303的具体实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S103，此处不再赘述。

步骤S304，提取所述单位目标图像中的特征信息，根据所述特征信息在所述单位目标图像中确定文本候选区域；

具体的，将单位目标图像输入训练好的卷积神经网络模型中，通过多个卷基层和多个池化层得到卷积特征映射图(convolution feature map)，将得到的卷积特征输入至RPN(Region Proposal Network，区域方案网络)中，得到多个候选区域以及候选区域对应的特征信息，对每个候选区域的特征信息，使用分类器判别该候选区域为文本候选区域或者背景候选区域。可以看出，该分类器为二分类器，单位目标图像中候选区域或者是文本候选区域，或者是背景候选区域，本文候选区域就是该图像区域中的图像内容主要包含文本，包含除文本以外的其余图像内容的图像区域均为背景候选区域。上述根据单位目标图像中的特征信息确定文本候选区域是利用Faster-RNN(Recurrent neural Network、循环神经网络)算法，也可以利用RNN(Recurrent neural Network、循环神经网络)、DPM(DeformableParts Model，可变形部件模型)、YOLO(You Only Look Once，实时目标检测)等算法用于检测单位目标图像中的文本候选区域。检测文本候选区域后，可以将文本候选区域中的文本图像信息进行增强，去除文本候选区域中污点、空白等噪声。并根据一定的规则去除一些非本质信号，并对文本候选区域中的文字的大小、位置、笔画粗细等进行规范化，以降低后续文本识别时的复杂性。

步骤S305，检测所述文本候选区域中的文本字体；

具体的，检测文本候选区域中文本的文本字体，该文本字体是指文字的外在形式特征，文本字体主要包括手写字体和印刷字体。

步骤S306，若所述文本候选区域中的文本包括印刷字体文本，则过滤所述印刷字体文本；

具体的，若文本候选区域包含印刷字体文本，则过滤该印刷字体文本，即印刷字体文本不执行后续的文本识别步骤。

步骤S307，若所述文本候选区域中的文本不包括印刷字体文本，则调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息；

具体的，对文本候选区域，使用回归器进一步调整该区域在目标图像中的位置和尺寸，调整文本候选区域是为后续可视化文本识别结果时，增强识别结果的说服力以及降低后续文本识别的难度。将调整后的文本候选区域中的文本根据字符与字符之间的间距或者使用投影法，将检测出的文本候选区域划分为多个字符，根据字符的形态(可以是根据字符的上下结构、字符的偏旁部首、文字线条的端点、交点和折点等)，分别识别每一个字符，将得到的单个字符进行组合即得到单位目标图像中的文本信息。

可选的，识别单位目标图像中的文本信息后，根据单位目标图像所包含的目标关键点区域中的关键信息，为单位目标图像中的文本信息设置关键字标签，该关键字标签可以与关键信息相同，也可以与关键信息不同。例如，关键信息是“寄件人姓名”，则设置的关键字标签可以是“寄件人姓名”也可以是“寄件人”。

步骤S308，按照与所述目标图像相关的格式显示所述目标图像中的文本信息。

其中，步骤S308的具体实现方式可以参见上述图2所对应实施例中的步骤S104，此处不再赘述。

进一步的，请参见图5，是本发明实施例提供的一种基于格式化图像的文本检测装置的结构示意图。如图5所示，所述基于格式化图像的文本检测装置1可以包括：获取模块11、提取模块12、确定模块13、分割模块14、识别模块15、显示模块16；

获取模块11，用于获取基于格式化的目标图像；

提取模块12，用于获取与所述目标图像相关联的检测模板，根据所述检测模板中的每个关键信息，在所述目标图像中提取所述每个关键信息所在的区域；

确定模块13，用于根据所提取的区域确定目标关键点区域；

分割模块14，用于根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像；每个单位目标图像包括至少一个目标关键点区域；

识别模块15，用于将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息；

显示模块16，按照与所述目标图像相关的格式显示所述目标图像中的文本信息。

其中，获取模块11、提取模块12、确定模块13、分割模块14、识别模块15、显示模块16的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

请一并参见图5，提取模块12可以包括：获取单元121、计算单元122、第一提取单元123；

获取单元121，用于获取与所述目标图像相关联的检测模板；所述检测模板包括多个模板图像，每个模板图像均包含一个关键信息；

计算单元122，用于计算所述模板图像与所述目标图像中的所有图像区域之间的相似性；

第一提取单元123，用于在所述目标图像中提取相似性最高的图像区域；

其中，获取单元121、计算单元122、第一提取单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S201-步骤S203，这里不再进行赘述。

请一并参见图5，确定模块13可以包括：第一确定单元131、调整单元132、第一通知单元133；

第一确定单元131，用于将提取到的所述相似性最高的图像区域确定为初始关键点区域；

调整单元132，用于根据形状修正模型，计算所述初始关键点区域的调整参数，并根据所述调整参数调整所述初始关键点区域的尺寸和位置，得到目标关键点区域；

第一通知单元133，用于将所述目标关键点区域确定为所述初始关键点区域，并通知所述调整单元执行相应操作，直至所述初始关键点区域和所述目标关键点区域之间的变化量小于变化量阈值。

其中，第一确定单元131、调整单元132、第一通知单元133的具体功能实现方式可以参见上述图3对应实施例中的步骤S203-步骤S204，这里不再进行赘述。

请一并参见图5，调整单元132具体用于：在所述初始关键点区域的邻域范围内，查找所述初始关键点区域与所述形状修正模型匹配度最高的图像区域，作为参考关键点区域，根据所述参考关键点区域的尺寸和位置、所述初始关键点区域的尺寸和位置，生成所述初始关键点区域的调整参数；所述形状修正模型根据所述模板图像在所述目标图像中的位置参数和各模板图像之间的位置关系训练生成的。

进一步地，请参见图5，分割模块14可以包括：第二确定单元141，第三确定单元142，第四确定单元143，第五确定单元144，第六确定单元145，第七确定单元146；

第二确定单元141，用于在所述目标关键点区域对应的起始点位置中确定参考起始点位置；

第三确定单元142，用于在所述参考起始点位置中，选择待处理起始点位置，确定与所述待处理起始点位置对应的目标起始点位置；

第四确定单元143，根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度；

第五确定单元144，用于根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度；

第六确定单元145，根据所述目标起始点位置、所述目标长度、所述目标宽度，在所述目标图像中确定目标图像区域，作为与所述待处理起始点位置对应的单位目标图像；

第七确定单元146，用于当所有参考起始点位置均被确定为所述待处理起始点位置，则得到所述目标图像中的所述多个单位目标图像；每个单位目标图像均包含一个参考起始点位置。

其中，第二确定单元141，第三确定单元142，第四确定单元143，第五确定单元144，第六确定单元145，第七确定单元146的具体功能实现方式可以参见上述图2对应实施例中的步骤S103，这里不再进行赘述。

进一步地，请参见图5，第四确定单元143可以包括：第一确定子单元1431，第二确定子单元1432，

第一确定子单元1431，用于若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第一长度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置水平相邻的参考起始点位置之间的水平距离，确定所述目标长度；

第二确定子单元1432，若所述待处理起始点位置与所述目标图像的垂直边界之间的关系属于第二长度参考位置关系，则根据所述待处理起始点位置和所述目标图像的垂直边界之间的水平距离，确定所述目标长度。

其中，第一确定子单元1431，第二确定子单元1432的具体功能实现方式可以参见上述图2对应实施例中的步骤S102，这里不再进行赘述。

进一步地，请参见图5，第五确定单元144可以包括：第三确定子单元1441，第四确定子单元1442，

第三确定子单元1441，用于若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第一宽度参考位置关系，则根据所述待处理起始点位置和与所述待处理起始点位置垂直相邻的参考起始点位置之间的垂直距离，确定所述目标宽度；

第四确定子单元1442，用于若所述待处理起始点位置与所述目标图像的水平边界之间的关系属于第二宽度参考位置关系，则根据所述待处理起始点位置和所述目标图像的水平边界之间的垂直距离，确定所述目标宽度。

其中，第第三确定子单元1441，第四确定子单元1442的具体功能实现方式可以参见上述图2对应实施例中的步骤S102，这里不再进行赘述。

请参见图5，识别模块15可以包括：第二提取单元151，识别单元152；

第二提取单元151，用于提取所述单位目标图像中的特征信息，根据所述特征信息在所述单位目标图像中确定文本候选区域；

识别单元152，用于调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息。

其中，第二提取单元151的具体功能实现方式可以参见上述图4对应实施例中的步骤S304，识别单元152的具体功能实现方式可以参见上述图4对应实施例中的步骤S307，这里不再进行赘述。

请参见图5，识别模块15可以包括：第二提取单元151，识别单元152；识别模块15还可以包括：检测单元153，过滤单元154，第二通知单元155；

检测单元153，用于检测所述文本候选区域中的文本字体；

过滤单元154，用于若所述文本候选区域中的文本包括印刷字体文本，则过滤所述印刷字体文本；

第二通知单元155，用于若所述文本候选区域中的文本不包括印刷字体文本，则通知所述识别单元执行调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息。

其中，检测单元153，过滤单元154，第二通知单元155的具体功能实现方式可以参见上述图4对应实施例中的步骤S305-步骤S306，这里不再进行赘述。

进一步地，请参见图5，基于格式化图像的文本检测装置1还可以包括：设置模块17。

设置模块17，用于根据所述单位目标图像所包含的所述目标关键点区域中的关键信息，为所述单位目标图像中的文本信息设置关键字标签。

其中，设置模块17的具体功能实现方式可以参见上述图4对应实施例中的步骤S307，这里不再进行赘述。

进一步地，请参见图6，是本发明实施例提供的一种终端设备的结构示意图。如图6所示，上述图5中的基于格式化图像的文本检测装置可以应用于所述终端设备1000，所述终端设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述终端设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图6所示的终端设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1004中存储的设备控制应用程序，以实现：

获取基于格式化的目标图像；

其中，检测模板包含多个模板图像(如上述图1a对应实施例中的模板图像100b、模板图像100c、模板图像100d、模板图像100e、模板图像100f)和每个模板图像的图像参数，例如每个模板图像的尺寸，模板图像中每一个像素点的像素值等。每个模板图像包含一个关键信息，即模板图像是包含目标图像中关键信息的图像块，一个关键信息对应一个模板图像，模板图像包含的关键信息、模板图像的数量是根据目标图像中的图像内容而提前确定的。按照从左至右，从上到下的顺序遍历目标图像中的所有区域，根据检测模板包含的关键信息，在目标图像中的所有区域中提取与检测模板最相似的区域，也即是检测模板所对应的关键信息在目标图像中所在的区域，该最相似的区域即为目标关键点区域。

在一个实施例中，所述检测模板包括多个模板图像，每个模板图像均包含一个关键信息；

所述处理器1001在执行所述在所述目标图像中提取所述每个关键信息所在的区域时，具体执行以下步骤：

在所述目标图像中提取相似性最高的图像区域。

在一个实施例中，所述处理器1001在执行所述确定目标关键点区域时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据形状修正模型，计算所述初始关键点区域的调整参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度时，具体执行以下步骤：

其中，根据待处理起始点位置与该待处理起始点位置相邻的参考起始点位置、目标图像的垂直边界、目标图像的水平边界之间关系，确定目标长度和目标宽度的具体过程为：若待处理起始点位置与目标图像的垂直边界之间的距离大于第一距离阈值，则确定待处理起始点位置与目标图像的垂直边界之间的关系属于第一长度参考位置关系，确定第一长度参考位置关系后，检测与该待处理起始点位置水平相邻的参考起始点位置，将该待处理起始点位置和上述水平相邻的参考起始点位置之间的水平距离，作为目标长度；对应地，若待处理起始点位置与目标图像的垂直边界之间的距离小于或等于上述第一距离阈值，则确定待处理起始点位置与目标图像的垂直边界之间的关系属于第二长度参考位置关系，确定第一长度参考位置关系后，检测该待处理起始点位置和目标图像的垂直边界之间的水平距离，将检测出的与垂直边界之间的水平距离确定为目标长度。若待处理起始点位置与目标图像的水平边界之间的距离大于第二距离阈值，则确定待处理起始点位置与目标图像的水平边界之间的关系属于第一宽度参考位置关系，确定第一宽度参考位置关系后，检测与该待处理起始点位置垂直相邻的参考起始点位置，将该待处理起始点位置和上述垂直相邻的参考起始点位置之间的垂直距离，作为目标宽度；对应的，若待处理起始点位置与目标图像的水平边界之间的距离小于或者等于第二距离阈值，则确定待处理起始点位置与目标图像的水平边界之间的关系属于第二宽度参考位置关系，确定第二宽度参考位置关系后，检测该待处理起始点位置与目标图像水平边界之间的垂直距离，将检测出的与水平边界之间的垂直距离确定为目标宽度。由此可见，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第一长度参考位置关系又属于第一宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第二长度参考位置关系又属于第一宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第一长度参考位置关系又属于第二宽度参考位置关系；或者，待处理起始点位置与目标图像的边界(水平边界和垂直边界)之间的关系可以既属于第二长度参考位置关系又属于第二宽度参考位置关系。

在一个实施例中，所述处理器1001在执行所述将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息之前，还执行以下步骤：

检测所述文本候选区域中的文本字体；

在一个实施例中，所述处理器1001还执行以下步骤：

应当理解，本发明实施例中所描述的终端设备1000可执行前文图2到图4所对应实施例中对所述基于格式化图像的文本检测方法的描述，也可执行前文图5所对应实施例中对所述基于格式化图像的文本检测装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的基于格式化图像的文本检测装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2到图4所对应实施例中对所述基于格式化图像的文本检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于格式化图像的文本检测方法，其特征在于，包括：

获取基于格式化的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述检测模板包括多个模板图像，每个模板图像均包含一个关键信息；

在所述目标图像中提取相似性最高的图像区域。

3.根据权利要求2所述的方法，其特征在于，所述根据所提取的区域确定目标关键点区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据形状修正模型，计算所述初始关键点区域的调整参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标关键点区域对应的起始点位置，将所述目标图像分割为多个单位目标图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的垂直边界，确定目标长度，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述待处理起始点位置、与所述待处理起始点位置相邻的参考起始点位置、所述目标图像的水平边界，确定目标宽度，包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述单位目标图像输入至文本识别模型中，在所述文本识别模型中识别所述单位目标图像中的文本信息，包括：

9.根据权利要求8所述的方法，其特征在于，在所述调整所述文本候选区域的位置和尺寸，并将调整后的文本候选区域输入至所述文本识别模型中，在所述文本模型识别中识别所述文本候选区域中的文本信息之前，还包括：

检测所述文本候选区域中的文本字体；

10.根据权利要求1所述的方法，其特征在于，还包括：

11.一种基于格式化图像的文本检测装置，其特征在于，包括：

获取模块，用于获取基于格式化的目标图像；

确定模块，用于根据所提取的区域确定目标关键点区域；

12.根据权利要求11所述的装置，其特征在于，所述提取模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述确定模块，包括：

14.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-10任一项所述的方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-10任一项所述的方法。