CN110135424B

CN110135424B - 倾斜文本检测模型训练方法和票证图像文本检测方法

Info

Publication number: CN110135424B
Application number: CN201910435630.4A
Authority: CN
Inventors: 田强; 邓冠群; 李树凯
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-06-11
Anticipated expiration: 2039-05-23
Also published as: CN110135424A

Abstract

本发明公开了一种倾斜文本检测模型训练方法和票证图像文本检测方法，该训练方法应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型，其中，所述倾斜文本检测模型的文本训练，包括：将已标注的票证图像通过第一网络单元进行特征提取以获取特征图，并获取所述特征图中各像素点的水平候选框；对各水平候选框进行第一阶段回归并通过第二网络单元输出最小水平外接矩形建议框；将各最小水平外接建议框进行第二阶段回归。根据本发明的技术方案，可以实现对票证图像中的倾斜文本进行文本区域的检测，并且能在真实样本量不足时也能达到较高准确率，鲁棒性强等。

Description

倾斜文本检测模型训练方法和票证图像文本检测方法

技术领域

本发明涉及文本检测技术领域，尤其涉及一种倾斜文本检测模型训练方法和票证图像文本检测方法。

背景技术

随着智能手机技术的发展，用户在办理金融保险业务时使用手机拍摄各类票据、证照(如房产证等)上传作为业务凭证越来越流行，通过OCR技术识别所拍摄图片中的文字信息用于信息录入或信息审核比对可以提高效率降低成本，提升用户体验。在现有OCR技术框架中，文本检测是关键一环。

然而由于手机拍摄图片容易出现倾斜、透视变换、模糊等问题，票证图片中的倾斜文本检测具有较大挑战。传统的倾斜文本检测方法一方面需要复杂的多步骤处理，比如基于图像处理的方法，由于图片情况各异，需要反复调整参数阈值，鲁棒性差；另一方面则需要较大的训练样本量，比如基于深度学习的某些方法，当真实样本不足时采用基于图像变换的数据增广策略扩充训练样本，然而在如房产证等实际票证场景中识别效果并不好。

发明内容

鉴于上述问题，本发明提出一种倾斜文本检测模型训练方法和票证图像文本检测方法，可解决现有文本检测模型的准确率不高及真实样本较少时需要进行样本扩充处理等难题。

本发明一实施例提出一种倾斜文本检测模型训练方法，应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型，其中，所述倾斜文本检测模型的文本训练，包括：

将已标注的票证图像通过所述第一网络单元进行特征提取以获取特征图，并对所述特征图中每一像素点生成初始水平候选框，将各像素点的初始水平候选框经过筛选处理后得到水平候选框；

对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签，并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的类别预测和对应的第一预测偏移量，根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框；

对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签，并将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量；

根据所述第一标签和所述第二标签设计目标损失函数，并利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练。

进一步地，所述第一标签包括水平候选框的类别标签和第一偏移量标签，所述“对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签”包括：

获取所述已标注的票证图像中各文本区域的人工标注旋转矩形框并计算每一旋转矩形框对应的最小水平外接矩形框；

分别计算当前的水平候选框与各最小水平外接矩形框的第一重叠系数，并根据所述第一重叠系数和第一组预设阈值的大小确定所述当前的水平候选框的类别标签，所述类别标签包括前景类和背景类；

将与所述当前的水平候选框的第一重叠系数最大的最小水平外接矩形框作为第一参考候选框，并计算所述当前的水平候选框与所述第一参考候选框的第一偏移量标签。

进一步地，所述第二标签包括最小水平外接建议框的类别标签、第二偏移量标签和第三偏移量标签，所述“对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签”包括：

分别计算当前的最小水平外接建议框与各最小水平外接矩形框的第二重叠系数，并根据所述第二重叠系数和第二组预设阈值的大小确定所述当前的最小水平外接建议框的类别标签；

将与所述当前的最小水平外接建议框的第二重叠系数最大的最小水平外接矩形框作为第二参考候选框，并计算所述当前的最小水平外接建议框与所述第二参考候选框的第二偏移量标签；

计算所述当前的最小水平外接建议框和与所述第二参考候选框对应的旋转矩形框的第三偏移量标签。

进一步地，所述第一网络单元包括至少一卷积层，所述至少一卷积层用于对所述已标注的票证图像进行特征提取；

所述第二网络单元包括第一卷积层、第二卷积层和第三卷积层，各个所述水平候选框依次输入所述第一卷积层后输出第一分支和第二分支，所述第一分支经过所述第二卷积层后输出所述水平候选框的预测类别；所述第二分支经过所述第三卷积层后输出所述水平候选框对应的第一预测偏移量。

进一步地，所述第三网络单元包括最大池化层、第四卷积层、平均池化层、第一全连接层和第二全连接层；

所述特征图和所述最小水平外接建议框依次输入所述最大池化层、第四卷积层和平均池化层后输出第一支路和第二支路，所述第一支路经过所述第一全连接层后输出所述最小水平外接建议框的预测类别；所述第二支路经过所述第二全连接层后输出所述最小水平外接建议框对应的第二预测偏移量和第三预测偏移量。

进一步地，所述“利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练”包括：

根据第一预设训练步数和第一预设学习率对所述倾斜文本检测模型进行第一阶段训练；

根据第二预设训练步数和第二预设学习率对所述倾斜文本检测模型进行第二阶段训练。

本发明另一实施例提出一种票证图像文本检测方法，采用上述的倾斜文本检测模型对目标票证图像进行文本检测，以获取所述目标票证图像的最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量；

根据所述最小水平外接建议框的预测类别和所述第二预测偏移量及第三预测偏移量计算及输出所述目标票证图像的最小水平外接预测框和旋转矩形预测框；

根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框。

进一步地，若所述最终旋转矩形预测框的标签为(x，y，w，h，α)，其中，x和y分别为中心点横坐标和纵坐标，w为宽，h为高，α为相对于预设方向上的倾斜角，则所述“根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框”包括：

x：取所述最小水平外接预测框的中心点横坐标；

y：取所述最小水平外接预测框的中心点纵坐标；

w：取所述旋转矩形预测框的宽度方向上的位于同一边框线上的两个顶点之间的距离；

h：取所述旋转矩形预测框的高度方向上的位于同一边框线上的两个顶点之间的距离；

α：取所述旋转矩形预测框的位于同一边框线上的两个顶点所确定的直线与横坐标方向的夹角或所述直线与纵坐标方向的夹角。

进一步地，在上述的票证图像文本检测方法，还包括：

采用非极大值抑制算法对所述最终旋转矩形预测框进行过滤，以得到所述目标票证图像的旋转矩形检测框。

本发明又一实施例还提出一种计算机设备，所述计算机设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行上述的倾斜文本检测模型训练方法。

本发明的技术方案采用两阶段回归处理来实现文本检测，可以实现对票证图像中的倾斜文本进行文本区域的检测，并且能在真实样本量不足时也能达到较高准确率，鲁棒性强等。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。

图1为本发明实施例的倾斜文本检测模型训练方法的流程示意图；

图2为本发明实施例的倾斜文本检测模型训练方法的第一阶段处理流程示意图；

图3为本发明实施例的倾斜文本检测模型训练方法的第二阶段处理流程示意图；

图4为本发明实施例的倾斜文本检测模型训练方法的应用示意图；

图5为本发明实施例的倾斜文本检测模型训练装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合具体的实施例对本发明进行详细说明。

实施例1

请参照图1，本实施例提出一种倾斜文本检测模型训练方法，可应用于票证图像的倾斜文本检测，尤其是针对一些出现倾斜、透视变换情况的票证图片，可在真实样本不足时不用进行训练样本扩充而能够实现较好的文本检测结果，准确率较高等。如图1所示，下面对该倾斜文本检测模型训练方法进行详细说明。

步骤S10，将已标注的票证图像通过倾斜文本模型中的第一网络单元进行特征提取以获取特征图，并对所述特征图中每一像素点生成初始水平候选框，将各像素点的初始水平候选框经过筛选处理后得到水平候选框。

其中，在上述步骤S10之前，该倾斜文本检测模型训练方法还包括：获取待训练票证图像中各文本区域的人工标注旋转矩形框，并计算每一人工标注旋转矩形框对应的最小水平外接矩形框。

本实施例中，对于待训练的票证图像中的各文本区域先进行人工标注，通过对该票证图像进行图像坐标取值以获取各文本区域的旋转矩形框的框图信息。示范性地，该旋转矩形框的标签可表示为(x_c，y_c，w，h，α)，其中，x_c和y_c分别为旋转矩形框的中心点横坐标和纵坐标，w为旋转矩形框的宽，h为旋转矩形框的高，α为旋转矩形框与预设方向上的夹角，例如，该预设方向可为水平方向或竖直方向等等。

随后，将人工标注的旋转矩形框的标签(x_c，y_c，w，h，α)先转换为坐标顶点表示形式ROT-GT(x_top1，y_top1，x_top2，y_top2，h)，其中，x_top1和y_top1分别为该旋转矩形框左上顶点的横坐标和纵坐标，x_top2和y_top2分别为该旋转矩形框右上顶点的横坐标和纵坐标，h为该旋转矩形框的高。于是，根据最小外接矩形MER的原理计算该旋转矩形框对应的最小水平外接矩形框，即该旋转矩形框在90度范围内旋转到其主轴方向与水平方向平行，此时所对应的包围该旋转矩形的最小水平矩形框。

示范性地，该最小水平外接矩形框GT的标签可表示为(x₁，y₁，x₂，y₂，c)，其中，x₁和y₁分别为该最小水平外接矩形框的左上顶点的横坐标和纵坐标，x₂和y₂分别为该最小水平外接矩形框的右下顶点的横坐标和纵坐标，c为该最小水平外接矩形框包围文本区域的类别。于是，将所有文本区域的旋转矩形框对应的最小水平外接矩形框生成一最小水平外接矩形框集合。

进一步地，在将该已标注的票证图像输入该倾斜文本检测模型之前，还包括对该票证图像进行缩放。示范性地，可对该票证图像在保持长宽比的条件下按照预设比例进行缩放，从而得到长为M宽为N的缩放票证图像。优选地，该预设比例可优先考虑图像尺寸长边的限制，例如，缩放票证图像的长边不应超过1000，短边可大于600。

可以理解，对于缩放后的票证图像，其中标注的旋转矩形框和最小水平外接矩形框的标签也应相应地进行尺寸缩放。

于是，对于提取的特征图中的每一像素点，生成以该像素点的中心为中心点的多个初始水平候选框。示范性地，各初始水平候选框的矩形边长由第一预设数组ratios和第二预设数组scales共同决定，而且每个像素点位置生成的初始水平候选框的个数为该第一预设数组的长度乘以该第二预设数组的长度。例如，若该第一预设数组ratios为[0.5，1，2]，该第二预设数组scales为[8，16，32]，则每个像素点生成的初始水平候选框的个数为9个(即3x3)。

考虑到一些初始水平候选框可能过大而不适合作为回归对象等，可进一步地对于各像素点的初始水平候选框经过如超过边界或预设范围内的尺寸大小等筛选处理，从而得到适合的水平候选框以作为所述第二网络单元的输入对象。

步骤S20，将各水平候选框通过所述第二网络单元进行第一阶段回归以获取每一水平候选框的第一标签，并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量，根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框。

对于上述步骤S20，具体可包括子步骤S210～步骤S220，如图2所示。

子步骤S210，对各水平候选框进行第一阶段回归，计算得到每一水平候选框的第一标签，其中，所述第一标签包括水平候选框的类别标签和第一偏移量标签。

本实施例中，通过将筛选后的各水平候选框进行第一阶段回归，即将水平候选框回归至人工标注的旋转矩形框对应的最小水平外接矩形框，从而计算得到第一阶段回归偏差。如图2所示，该子步骤S210主要包括以下子步骤：

子步骤S211，分别计算当前的水平候选框与各最小水平外接矩形框的第一重叠系数，并根据所述第一重叠系数和第一组预设阈值的大小确定所述当前的水平候选框的类别，该类别包括前景类和背景类。

示范性地，对于各水平候选框所形成的水平候选框集合D，若第i个水平候选框为Di，i＝[1，2，…，M]，对于最小水平外接矩形框集合GT，若第j个最小水平外接矩形框为GTj，j＝[1，2，…，N]，其中，i和j均为大于等于1的自然数，M和N分别为水平候选框和最小水平外接矩形框的总数，若第一组预设阈值包括第一预设阈值和第二预设阈值，于是类别标签的计算方法有：

对于水平候选框集合D中的一元素Di，若其与集合GT中所有的最小水平外接矩形框的重叠系数均小于第一预设阈值，则该元素Di被标记为背景类。反之，若集合GT中存在一个元素GTj与该元素Di的重叠系数大于第二预设阈值，则该元素Di被标记为前景类。例如，该第一预设阈值可设为0.1或0.3,而该第二预设阈值可设为0.9或0.7。当然，该第一组预设阈值也可以设为0～1之间的其他值，具体可根据实际需要来选定。

进一步地，对于最小水平外接矩形框集合GT中的每一元素GTj，将与其重叠系数最大的水平候选框Dk(k∈[1，M])标记为前景类。可以理解，该类别标签用于判断各水平候选框内是否包含文本区域内容。由于该集合GT中的元素均对应于一文本区域所在的旋转矩形框，这样可以保证最小水平外接矩形框集合GT中的每一元素GTj至少有与之对应的一水平候选框。

子步骤S222，将与所述当前的水平候选框的第一重叠系数最大的最小水平外接矩形框作为第一参考候选框，并计算所述当前的水平候选框与所述第一参考候选框的第一偏移量。

示范性地，对于集合D中的一元素Di，将与该元素Di有最大重叠系数的GTp作为参考候选框，即作为该水平候选框Di的回归对象，于是计算该元素Di与该最小水平外接矩形框GTp之间的偏移量标签。例如，若该水平候选框Di的标签为(x′，y′，w′，h′)，其中x′和y′为Di的中心点坐标，w′和h′分别为Di的宽和高。若该最小水平外接矩形框GTp的标签为(x，y，w，h)，其中x和y为GTp的中心点坐标，w和h分别为GTp的宽和高，则所述第一偏移量标签的计算公式为：

Δx_i＝(x-x′)/w′；Δy_i＝(y-y′)/h′；

Δw_i＝log(w/w′)；Δh_i＝log(h/h′)。

其中，Δx_i和Δy_i分别为Di与GTp的中心点坐标的偏差值，Δw_i和Δh_i分别为Di与GTp的宽和高的偏差值。可以理解，根据上述偏移量计算公式，可计算得到每一水平候选框Di与对应的最小水平外接矩形框GTp之间的几何偏移量，即得到所述第一偏移量标签。

子步骤S220，将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量，并根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框。

本实施例中，为对该倾斜文本检测模型进行训练，将设计相应的损失函数并利用反向传播方法对该倾斜文本检测模型中的各网络进行学习。对于上述子步骤S220，将各水平候选框输入到所述第二网络单元中进行预测，以输出水平候选框的预测类别和对应的第一预测偏移量。可以理解，该第一预测偏移量可包括该水平候选框的预测偏移量信息(Δx1，Δy1，Δw1，Δh1)等，其中Δx1和Δy1分别为中心点横坐标和纵坐标的偏移量，Δw1和Δh1分别为宽和高的偏移量。

随后，可根据获取的各水平候选框的预测类别和对应的第一预测偏移量计算并输出该水平候选框对应的最小水平外接建议框。

示范性地，若一水平候选框对应的第一预测偏移量为(Δx1，Δy1，Δw1，Δh1)，可通过下面的公式可计算其对应的最小水平外接建议框，若该最小水平外接建议框表示为(x″，y″，w″，h″)，则有：

x″＝x′+w′*Δx1；y″＝y′+h′*Δy1；

w″＝w′*e^Δw1；h″＝h′*e^Δh1。

于是，通过上述公式可计算得到所述票证图像的多个最小水平外接建议框。随后，对各最小水平外接建议框进行第二阶段回归，并将各最小水平外接建议框与特征图输入到所述第三网络单元以进行区域预测，即步骤S30。

步骤S30，对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签，并将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量。

在上述步骤S30中，如图3所示，该步骤S30主要包括以下子步骤S310～步骤S320。

子步骤S310，对各最小水平外接建议框进行第二阶段回归，计算得到每一最小水平外接建议框的第二标签，其中，该第二标签包括最小水平外接建议框的类别标签、第二偏移量标签和第三偏移量标签。

本实施例中，所述第二阶段回归，即将最小水平外接建议框分别回归至人工标注的旋转矩形框和最小水平外接矩形框，从而计算得到第二阶段回归偏差。如图3所示，该子步骤S310主要包括以下子步骤：

子步骤S311，分别计算当前的最小水平外接建议框与各最小水平外接矩形框的第二重叠系数，并根据所述第二重叠系数和第二组预设阈值的大小确定所述当前的最小水平外接建议框的类别标签。

本实施例中，各最小水平外接建议框的类别标签的计算方式与上述的水平候选框的类别标签计算方式类似。示范性地，对于最小水平外接建议框形成的最小水平外接建议框集合ROI，有各最小水平外接建议框ROIt，其中，t＝[1，2，...，L],L为最小水平外接建议框的总数。本实施例中，第二组预设阈值包括第三预设阈值。示范性地，若集合ROI中的一元素ROIt与集合GT中的一元素的最大重叠系数大于第三预设阈值，则该最小水平外接建议框ROIt被标记为前景类，否则为背景类。本实施例中，该第三预设阈值可设为0.5。

子步骤S312，将与所述当前的最小水平外接建议框的第二重叠系数最大的最小水平外接矩形框作为第二参考候选框，并计算所述当前的最小水平外接建议框与所述第二参考候选框的第二偏移量标签。

示范性地，对于集合ROI中的一元素ROIt，将与该元素ROIt有最大重叠系数的GTq作为参考候选框，即作为该最小水平外接建议框ROIt的回归对象，于是计算该最小水平外接建议框ROIt与该最小水平外接矩形框GTq之间的偏移量标签。若该最小水平外接矩形框GTp的标签为(x，y，w，h)，其中x和y为GTp的中心点坐标，w和h分别为GTp的宽和高，最小水平外接建议框ROIt的标签为(x″，y″，w″，h″)，则所述第二偏移量标签的计算公式为：

ΔX_t＝(x-x″)/w″；ΔY_t＝(y-y″)/h″；

ΔW_t＝log(w/w″)；ΔH_t＝log(h/h″)。

其中，ΔX_t和ΔY_t分别为ROIt与GTp的中心点坐标的偏差值，ΔW_t和ΔH_t分别为ROIt与GTp的宽和高的偏差值。可以理解，根据上述偏移量计算公式，可计算得到每一最小水平外接建议框与对应的最小水平外接矩形框GTp之间的几何偏移量，即得到所述第二偏移量标签。

子步骤S313，计算所述当前的最小水平外接建议框和与所述第二参考候选框对应的旋转矩形框的第三偏移量标签。

同理，可计算该最小水平外接建议框与对应的旋转矩形框的偏移量，若旋转矩形框对应的顶点坐标的标签为(x_top1，y_top1，x_top2，y_top2，h_rot)，该最小水平外接建议框的左上顶点和右上顶点的坐标为(x_top1″，y_top1″)和(x_top2″，y_top2″)，宽和高分别为w″和h″，于是所述第三偏移量标签的计算公式为：

ΔX_top1＝(x_top1-x_top1″)/w″；ΔY_top1＝(y_top1-y_top1″)/h″；

ΔX_top2＝(x_top2-x_top2″)/w″；ΔY_top2＝(y_top2-y_top2″)/h″；

Δh_rot＝log(h_rot/h″)。

其中，ΔX_top1和ΔY_top1为ROIt与GTp对应的旋转矩形框ROTp的左上顶点的坐标偏差值，ΔX_top2和ΔY_top2为右上顶点的坐标偏差值，Δh_rot为两框图之间的高的偏差值。

步骤S320，将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量。

在上述步骤S320中，将各最小水平外接建议框和特征图输入到第三网络单元中进行预测，以输出最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量。同理有，该第二预测偏移量包括该最小水平外接建议框的预测偏移量(Δx2，Δy2，Δw2，Δh2)，其中，Δx2和Δy2分别为中心点横坐标和纵坐标的偏移量，Δw2和Δh2分别为宽和高的偏移量。而该第三预测偏移量包括该最小水平外接建议框的预测坐标偏移量(Δx_top1，Δy_top1，Δx_top2，Δy_top2，Δh_rot)，其中，(Δx_top1，Δy_top1)和(Δx_top2，Δy_top2)分别为该最小水平外接建议框的左上顶点和右上顶点的坐标的偏移量，Δh_rot为高的偏移量。

步骤S40，根据所述第一标签和所述第二标签设计目标损失函数，并利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练。

在上述步骤S40中，可根据第一阶段回归得到的各水平候选框的第一标签设计该第一阶段回归的第一损失函数。示范性地，根据各水平候选框的类别标签和通过第二网络单元预测输出的预测类别计算各水平候选框的类别交叉熵损失，而根据第一偏移量标签和对应的第一预测偏移量计算各水平候选框的第一偏移量smooth L1损失。于是，该第一损失函数由水平候选框的类别交叉熵损失和第一偏移量smooth L1损失组成。

同理，对于第二阶段回归的第二损失函数，根据各最小水平外接建立框的类别标签和通过第三网络单元预测输出的预测类别计算各最小水平外接建立框的类别交叉熵损失，而根据第二偏移量标签和对应的第二预测偏移量计算各最小水平外接建立框的第二偏移量smooth L1损失，以及根据第三偏移量标签和对应的第三预测偏移量计算第三偏移量smooth L1损失。于是，该第二损失函数由最小水平外接建立框的类别交叉熵损失、第二偏移量smooth L1损失和第三偏移量smooth L1损失组成。本实施例中，该目标损失函数可表示为：

其中，L1_cls为第一阶段回归的水平候选框的类别交叉熵损失；L1_reg为第一阶段回归中水平候选框的偏移量smooth L1损失；L2_cls为第二阶段回归中最小水平外接建议框的类别交叉熵损失；L2_reg为第二阶段回归中最小水平外接建议框的偏移量smooth L1损失，其中包括第二偏移量smooth L1损失和第三偏移量smooth L1损失。

本实施例中，在对该倾斜文本检测模型进行迭代训练时，对于第一阶段回归可采用第一预设数量的样本进行训练，而第二阶段回归可采用第二预设数量的样本进行训练。可选地，对于第一预设数量的样本，其前景类样本与背景类的样本数量之比应小于等于1。对于第二预设数量的样本，其前景类样本与背景类的样本数量之比应小于等于0.25。进一步地，可根据第一预设训练步数和第一预设学习率对所述倾斜文本检测模型进行第一次训练。随后，再根据第二预设训练步数和第二预设学习率对所述倾斜文本检测模型进行第二次训练。可以理解，该第一预设训练步数和第一预设学习率以及第二预设训练步数和第二预设学习率可以根据实际需求进行相应设定，故在此并不作限定。

可以理解，经过上述第一阶段与第二阶段训练后的倾斜文本检测模型可用于对待检测的目标票证图像进行文本检测，并得到该目标票证图像中各文本区域的最终旋转预测框。

本实施例中，该倾斜文本检测模型的第一网络单元包括至少一卷积层，所述至少一卷积层用于对输入的已标注的票证图像进行特征提取。示范性地，该第一网络单元可基于残差网络进行构建，例如，该第一网络单元可由ResNet50网络的conv1_x、conv2_x、conv3_x和conv4_x构成，其中，由conv4_x作为输出层，用于输出该票证图像对应的特征图。

示范性地，该第二网络单元可包括第一卷积层、第二卷积层和第三卷积层，其中，该第二卷积层和第三卷积层分别与第一卷积层连接。例如，该第一卷积层可采用卷积内核为3*3的卷积层，该第二卷积层和第三卷积层均可采用卷积内核为1*1的卷积层。于是有，各个水平候选框依次输入该3*3的卷积层后分别通过上述的1*1的卷积层输出两个分支，其中，该第一分支用于输出该水平候选框的预测类别，该第二分支用于输出所述水平候选框对应的第一预测偏移量。

示范性地，该第三网络单元主要包括最大池化层、第四卷积层、平均池化层、第一全连接层和第二全连接层，其中，最大池化层、第四卷积层和平均池化层依次连接，而第一全连接层和第二全连接层则分别与平均池化层连接。具体地，输入的特征图和最小水平外接建议框依次输入该最大池化层、第四卷积层和平均池化层后分成两个支路，其中，所述第一支路用于输出所述最小水平外接建议框的预测类别；所述第二支路用于输出所述最小水平外接建议框对应的第二预测偏移量和第三预测偏移量。

本实施例提出的倾斜文本检测模型训练方法采用两阶段回归处理，如图4所示，以某训练票证图像中的一文本区域“不动产单元号”为例，第一阶段①由水平候选框D1回归至人工标注的旋转矩形框rot-GT1对应的最小水平外接矩形框GT1，第二阶段②由第二网络单元预测输出得到的最小水平外接建议框ROI1回归至旋转矩形框rot-GT1。由于经过两次回归，最小水平外接预测框的中心点将更为准确。同时可满足在不需要对真实样本数据进行扩充或增广的情况下，实现较准确的检测，步骤简洁，工程易实现等。

实施例2

本实施例提出一种票证图像文本检测方法，可通过采用上述实施例1的倾斜文本检测模型对目标票证图像进行文本检测，以获取所述目标票证图像的最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量。

随后，根据获取的各最小水平外接建议框的预测类别和第二预测偏移量及第三预测偏移量可计算得到所述目标票证图像的最小水平外接预测框和旋转矩形预测框。具体地，根据各最小水平外接建议框的预测类别和对应的第二预测偏移量计算对应的最小水平外接预测框，以及根据第三预测偏移量计算对应的旋转矩形预测框。

示范性地，若一最小水平外接建议框表示为(x″，y″，w″，h″)，其对应的第二预测偏移量为(Δx2，Δy2，Δw2，Δh2)，可通过下面的公式可计算该最小水平外接建议框对应的最小水平外接预测框，若该最小水平外接预测框表示为(X，Y，W，H)，则有：

X＝x″+w″*Δx2；Y＝y″+h″*Δy2；

W＝w″*e^Δw2；H＝h″*e^Δh2。

示范性地，若该最小水平外接建议框对应的第三预测偏移量为(ΔX_top1，ΔY_top1，ΔX_top2，ΔY_top2，Δh_rot)，可通过下面的公式可计算该最小水平外接建议框对应的旋转矩形预测框，若该旋转矩形预测框表示为(X_top1，Y_top1，X_top2，Y_top2，H_rot)，则有：

X_top1＝x_top1″+ΔX_top1*w″；Y_top1＝y_top1″+ΔY_top1*h″；

X_top2＝x_top2″+ΔX_top2*w″；Y_top2＝y_top2″+ΔY_top2*h″；

H_rot＝h″*e^Δhrot。

于是，根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框。

示范性地，若所述最终旋转矩形预测框为(x，y，w，h，α)，其中，x和y为中心点横坐标和纵坐标，w为宽，h为高，α为相对于预设方向上的倾斜角，则所述“根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框”包括：则有：

x：取所述最小水平外接预测框的中心点横坐标；

y：取所述最小水平外接预测框的中心点纵坐标；

示范性地，若一最小水平外接预测框为(X，Y，W，H)，对应的旋转矩形预测框为(X_top1，Y_top1，X_top2，Y_top2，H_rot)，其中，(Δx_top1，Δy_top1)和(Δx_top2，Δy_top2)分别为该最小水平外接建议框的左上顶点和右上顶点的坐标，则该最终旋转矩形预测框为：

x＝X；y＝Y；

w为该左上顶点和右上顶点之间的距离；h＝H_rot；

α为该左上顶点和右上顶点所在的直线与横坐标方向或纵坐标方向的夹角。

进一步地，对于输出的目标票证图像的最终旋转预测框，该票证图像文本检测方法还包括：采用非极大值抑制算法对所述最终旋转矩形预测框进行过滤，以得到所述目标票证图像各文本区域的旋转矩形检测框。

实施例3

请参照图5，基于上述实施例1的倾斜文本检测模型训练方法，本实施例提出一种倾斜文本检测模型训练装置1，应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型，其中，所述倾斜文本检测模型的文本训练，该装置1包括：

特征提取模块10，用于将已标注的票证图像通过所述第一网络单元进行特征提取以获取特征图，并对所述特征图中每一像素点生成初始水平候选框，将各像素点的初始水平候选框经过筛选处理后得到水平候选框。

第一阶段处理模块20，用于对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签，并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量，根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框。

第二阶段处理模块30，用于对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签，并将所述特征图与各最小水平外接建议框输入所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量。

损失函数获取模块40，用于根据第一标签和所述第二标签设计目标损失函数，并利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练。

本实施例的各模块对应于上述实施例1的倾斜文本检测模型训练方法，实施例1中的任何可选项也适用于本实施例，在此不再详述。

本发明实施例还提供一种计算机设备，所述计算机设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行进一步的倾斜文本检测模型训练方法和票证图像文本检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明实施例各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种倾斜文本检测模型训练方法，其特征在于，应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型，其中，所述倾斜文本检测模型的文本训练，包括：

对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签，并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量，根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框；

根据所述第一标签和所述第二标签设计目标损失函数，并利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练；

其中，所述第一标签包括水平候选框的类别标签和第一偏移量标签，所述“对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签”包括：

将与所述当前的水平候选框的第一重叠系数最大的最小水平外接矩形框作为第一参考候选框，并计算所述当前的水平候选框与所述第一参考候选框的第一偏移量标签；

其中，所述第一网络单元包括至少一卷积层，所述第二网络单元包括第一卷积层、第二卷积层和第三卷积层，各个所述水平候选框依次输入所述第一卷积层后输出第一分支和第二分支，所述第一分支经过所述第二卷积层后输出所述水平候选框的预测类别；所述第二分支经过所述第三卷积层后输出所述水平候选框对应的第一预测偏移量。

2.根据权利要求1所述的倾斜文本检测模型训练方法，其特征在于，所述第二标签包括最小水平外接建议框的类别标签、第二偏移量标签和第三偏移量标签，所述“对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签”包括：

3.根据权利要求2所述的倾斜文本检测模型训练方法，其特征在于，所述第三网络单元包括最大池化层、第四卷积层、平均池化层、第一全连接层和第二全连接层，

4.根据权利要求1所述的倾斜文本检测模型训练方法，其特征在于，所述“利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练”包括：

5.一种票证图像文本检测方法，其特征在于，采用如权利要求1至4任一项所述的倾斜文本检测模型对目标票证图像进行文本检测，以获取所述目标票证图像的最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量；

6.根据权利要求5所述的票证图像文本检测方法，其特征在于，若所述最终旋转矩形预测框表示为(x，y，w，h，α)，其中，x和y分别为中心点横坐标和纵坐标，w为宽，h为高，α为相对于预设方向上的倾斜角，则所述“根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框”包括：

x：取所述最小水平外接预测框的中心点横坐标；

y：取所述最小水平外接预测框的中心点纵坐标；

7.根据权利要求5所述的票证图像文本检测方法，其特征在于，还包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行如权利要求1-4任一项所述的倾斜文本检测模型训练方法。