CN110866871A

CN110866871A - 文本图像矫正方法、装置、计算机设备及存储介质

Info

Publication number: CN110866871A
Application number: CN201911117254.0A
Authority: CN
Inventors: 王鑫; 温凯雯; 吕仲琪; 顾正
Original assignee: Shenzhen Huayun Zhongsheng Technology Co Ltd
Current assignee: Shenzhen Huayun Zhongsheng Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-06

Abstract

本发明涉及文本图像矫正方法、装置、计算机设备及存储介质，该方法包括获取需要矫正的文本图像；将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的；对二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标；根据文本边界框的顶点坐标计算透视变换矩阵；根据透视变换矩阵对文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像；将矫正后的文本图像发送至终端，以供终端查阅和调用。本发明实现不同场景下的文档边缘提取精度，减少非文档区域噪声边缘的干扰，并细化文档坐标位置。

Description

文本图像矫正方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像处理方法，更具体地说是指文本图像矫正方法、装置、计算机设备及存储介质。

背景技术

文档数字化对于实现文档内容智能分析处理和珍贵文献材料保存具有重要作用，是数字化政务建设的基础手段。传统的文档数字化操作主要利用专门的扫描仪扫描，其通常存在不易携带，成本较高等缺点。近年来，随着智能手机的不断普及，越来越多的人开始使用手机摄像头扫描生活中常见的文档如书籍、票据等，然后通过光学字符识别技术和自然语言处理技术自动完成文档的数字化扫描和分析。然而，当使用便捷式摄像头拍摄文本图像时，由于拍摄场景的多样性和复杂性，容易出现扭曲、弯曲、褶皱或者含有复杂的背景等问题，这些问题通常会严重影响光学字符识别技术的准确度。因此，良好的文档图像矫正技术是OCR的一项重要的预处理技术。

当前，文本图像矫正的技术框架主要由文档边缘定位和透视矫正两部分构成。传统的技术手段主要是使用传统的Canny边缘检测算子提取图像的边缘信息，并设计一系列规则判定算法以获取符合文档图像特性的边界框，由于Canny算法得到的边缘信息存在各种问题，包括长短不一的边缘线段和复杂的背景边缘噪声等，现有方法主要是不断调整canny算子的检测阈值以适应不同场景下的文档图像，但基于人工经验的参数调整方法会存在鲁棒性较弱的问题，不同场景可能需要设置不同的参数，随着深度学习在目标检测、分割等视觉领域取得的较大进展，基于YOLO的目标检测算法被广泛应用于实际场景，然而，YOLO算法的输出通常是一个表示目标位置区域的非旋转矩形框，无法对含有角度的文档区域定位。

因此，有必要设计一种新的方法，实现不同场景下的文档边缘提取精度，减少非文档区域噪声边缘的干扰，并细化文档坐标位置。

发明内容

本发明的目的在于克服现有技术的缺陷，提供文本图像矫正方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：文本图像矫正方法，包括：

获取需要矫正的文本图像；

将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的；

对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标；

根据所述文本边界框的顶点坐标计算透视变换矩阵；

根据透视变换矩阵对所述文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像；

将矫正后的文本图像发送至终端，以供终端查阅和调用。

其进一步技术方案为：所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的，包括：

构建深度学习网络及损失函数，其中，所述深度学习网络包括顺次连接的第一层网络、第二层网络、第三层网络、第四层网络以及三层空洞卷积层，第一层网络、第二层网络、第三层网络以及第四层网络的参数分别与VGG16网络对应层参数一致；

获取若干带有边缘信息的文本图像，以得到样本集；

将样本集输入深度学习网络内进行卷积处理，以得到处理结果；

采用损失函数计算处理结果与边缘信息计算损失值；

判断所述损失值是否满足预设条件；

若所述损失值满足预设条件，则将当前的深度学习网络作为边缘检测模型；

若所述损失值不满足预设条件，则调整深度学习网络各个层对应的参数，并返回所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果。

其进一步技术方案为：所述损失函数为加权的交叉熵分类损失函数。

其进一步技术方案为：所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果，包括：

将样本集输入深度学习网络内，并从自底向上方向以及自顶向下方向对第二层网络至第五层网络输出的特征图进行逐层融合形成融合结果，将两路的融合结果进行融合，并输入最后一个的空洞卷积层进行卷积，以得到处理结果。

其进一步技术方案为：所述特征图是通过对深度学习网络的各层进行上采样操作所得的。

其进一步技术方案为：所述对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标，包括：

对所述二值化边缘图像进行二值化处理，并采用形态学操作消除二值化处理后的图像中的边缘，以得到二值边缘掩模图像；

采用直线检测算法对所述二值边缘掩模图像提取水平近似直线以及垂直近似直线，并消除所述水平近似直线以及所述垂直近似直线中靠近所述二值化边缘掩模图像的边界区域的直线和长度较短的线段，以形成水平直线集合以及垂直直线集合；

计算水平直线集合以及垂直直线集合中两个直线的交点，以得到线段交点集合；

过滤所述线段交点集合中在二值化边缘掩模图像的边界区域外的加点和距离不满足预设要求的交点，以得到顶点集合；

对顶点集合进行遍历，以得到多边形集合；

计算多边形集合对应的多边形面积，并提取多边形面积最大的多边形作为文本边界框，以得到文本边界框及文本边界框的顶点坐标。

其进一步技术方案为：所述根据所述文本边界框的顶点坐标计算透视变换矩阵，包括：

根据所述文本边界框的顶点坐标计算文本区域的长和宽；

根据文本区域的长和宽生成目标平面的四个坐标点；

根据所述文本边界框的顶点坐标以及所述目标平面的四个坐标点求解透视变换矩阵。

本发明还提供了文本图像矫正装置，包括：

图像获取单元，用于获取需要矫正的文本图像；

图像处理单元，用于将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的；

文本定位单元，用于对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标；

矩阵计算单元，用于根据所述文本边界框的顶点坐标计算透视变换矩阵；

矫正单元，用于根据透视变换矩阵对所述文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像；

图像发送单元，用于将矫正后的文本图像发送至终端，以供终端查阅和调用。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过多方向多尺度特征进行融合且基于数据驱动的边缘检测模型进行需要矫正的文本图像提取二值化边缘图像，以提升边缘检测的鲁棒性和准确度，并从二值化边缘图像中精准定位出文本的四个顶点，根据这四个顶点计算原图和目标图中对应坐标的透视矩阵，并利用透视矩阵进行文本图像的校正，实现不同场景下的文档边缘提取精度，减少非文档区域噪声边缘的干扰，并细化文档坐标位置。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本图像矫正方法的应用场景示意图；

图2为本发明实施例提供的文本图像矫正方法的流程示意图；

图3为本发明实施例提供的文本图像矫正方法的子流程示意图；

图4为本发明实施例提供的文本图像矫正方法的子流程示意图；

图5为本发明实施例提供的文本图像矫正方法的子流程示意图；

图6为本发明实施例提供的边缘检测模型的架构示意图；

图7为本发明实施例提供的文本图像矫正前后的示意图一；

图8为本发明实施例提供的文本图像矫正前后的示意图二；

图9为本发明实施例提供的文本图像矫正装置的示意性框图；

图10为本发明实施例提供的文本图像矫正装置的文本定位单元的示意性框图；

图11为本发明实施例提供的文本图像矫正装置的矩阵计算单元单元的示意性框图；

图12为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的文本图像矫正方法的应用场景示意图。图2为本发明实施例提供的文本图像矫正方法的示意性流程图。该文本图像矫正方法应用于服务器中，该服务器与终端进行数据交互，从终端获取到需要矫正的文本图像后，采用边缘检测模型对需要矫正的文本图像进行边缘检测，并进行文本精细定位和透视变换，进行完成对需要矫正的文本图像的矫正，并将矫正后的文本图像发送至终端，可以运用在网络产品以及文本分析的过程中。

图2是本发明实施例提供的文本图像矫正方法的流程示意图。如图2所示，该方法包括以下步骤S110至S150。

S110、获取需要矫正的文本图像。

在本实施例中，需要矫正的文本图像是指便捷式摄像头或者摄像机等可拍摄设备拍摄所形成的文本图像。

在本实施例中，该需要矫正的文本图像通过终端输入，并由服务器从终端获取。

S120、将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的。

在本实施例中，二值边缘图像是指二值化后且带有边缘信息的图像，该边缘信息是指区别背景与文本图像的边界信息，一般是一个矩形框等。

在一实施例中，请参阅图3，上述的边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的，包括步骤S121～S127。

S121、构建深度学习网络及损失函数。

其中，请参阅图6，所述深度学习网络包括顺次连接的第一层网络、第二层网络、第三层网络、第四层网络以及三层空洞卷积层，第一层网络、第二层网络、第三层网络以及第四层网络的参数分别与VGG16网络对应层参数一致。

深度学习网络训练后所得的边缘检测模型的前4层网络Conv1、Conv2、Conv3、Conv4与VGG16网络对应层参数一致，为了防止过多的丢失特征图的空间信息，去掉了第4层网络后的池化层，并且跟随了3层空洞卷积，在确保模型的多尺度感受野同时，尽可能加深模型的深度，提高模型的非线性拟合能力，以提高整个边缘检测的准确率。

上述的损失函数为加权的交叉熵分类损失函数。当然，于其他实施例，上述的损失函数还可以其他可计算分类损失的函数。

通常将边缘检测模型的优化目标转化为像素点的二分类问题即边缘/背景，由于边缘信息中80％的像素点是背景，物体边缘像素点只占有20％，在训练时会存在正负样本不平衡的问题，若对正负样本施加同等损失权重，将会导致模型对负样本即背景点过拟合，从而丢失较多的边缘像素。因此，我们采用加权的交叉熵分类损失函数。

具体地，模型损失函数和模型优化目标分别定义为如下：

W^*＝argmin(l)；K_n为第n张边缘信息的像素点个数，

代表第n张图片正样本即边缘点的损失权重系数，

表示满足某一条件的元素个数。边缘信息是指文本图像的二值化边缘后所形成的图像信息。

S122、获取若干带有边缘信息的文本图像，以得到样本集。

在本实施例中，样本集是指若干个文本图像，且这些文本图像已标注好二值化边缘所形成的图像信息。

在本实施例中，样本集的输入图片大小为400×400；由于现有边缘数据集中的图像是通用目标如汽车、飞机、建筑物等，使用这类数据集训练出来的模型不太适合文本检测任务，比如文本边缘响应强度较低。因此，对于样本集的生成，在本实施例中，是将单张带有边缘信息的文本图像进行各种形状扭曲，以增强文本图像数据的多样性，然后将文本与背景图像进行随机叠加，生成了6000张图片，基于数据合成的数据集扩充方法既可以大幅度增加训练样本数据，又可减少人工标注，在合成图像时便以得知文本的边缘信息，减少成本。

S123、将样本集输入深度学习网络内进行卷积处理，以得到处理结果。

在本实施例中，处理结果是指由样本集进行卷积处理后形成的二值化边缘的图像信息。

最初始的深度学习网络的各个层的参数的确定如下：直接将VGG16网络在ImageNet数据集上训练好的前四层权重迁移到该深度学习网络的对应层，其余层采用高斯初始化，

参数由样本集中边缘像素点数目和背景点数目的比值决定。

在本实施例中，将样本集输入深度学习网络内，并从自底向上方向以及自顶向下方向对第二层网络至第五层网络输出的特征图进行逐层融合形成融合结果，将两路的融合结果进行融合，并输入最后一个的空洞卷积层进行卷积，以得到处理结果。

一般来说，越靠近网络输入的网络层即底层包含有更加丰富的空间信息，适合定位文档的边缘像素，而越靠近网络顶层的特征图包含中高层语义信息，其适合抑制图像中的背景噪声。为了充分利用不同层的特征信息，主流思想是将不同层的特征进行融合后再实现特定任务回归，或者是在不同层的特征层进行回归，然后对各层回归结果进行融合。然而，不同于目标检测识别等常见的多特征融合模型中即单向特征融合；对此本实施例采用了多方向特征融合，在网络的输出端融合自底向上特征融合结果与自顶向下特征融合结果，从而实现多方向的特征融合。自底向上的特征融合方式在将底层的细粒度空间信息传递到输出层的同时，也会将背景噪声传到输出层，使得最终的边缘检测含有很多噪声干扰；而自顶层到底层的特征融合方式能够利用高层语义信息去抑制底层的一些噪声信息。同时将两种特征融合的结果再进行融合，将会使网络能够学习出更加鲁棒的特征，进而提高整个边缘检测模型的检测准确率。

另外，所述特征图是通过对深度学习网络的各层进行上采样操作所得的。为了确保不同层之间融合时的特征图尺寸的一致性，对各层进行了上采样操作以匹配特征图尺寸。

S124、采用损失函数计算处理结果与边缘信息计算损失值；

S125、判断所述损失值是否满足预设条件；

S126、若所述损失值满足预设条件，则将当前的深度学习网络作为边缘检测模型；

S127、若所述损失值不满足预设条件，则调整深度学习网络各个层对应的参数，并返回步骤S123。

损失函数是为了校验深度学习网络训练所得到的处理结果与实际的边缘信息的差距，以此计算结果作为验证深度学习网络的准确率，当损失值在预先设定好的阈值内，则表明该深度学习网络对文本图像进行卷积处理后所得的处理结果可以认为准确的检测结果；当所述损失值不满足预设条件，则表明当前的深度学习网络对文本图像进行卷积处理后所得的处理结果不能认为准确的检测结果，需要进一步调整深度学习网络各层的参数，以进行下一次训练，直至深度学习网络所卷积处理出来的处理结果与实际的边缘信息之间的差距也就是损失值满足预设定的阈值，才可以停止训练。

另外，在训练完毕后，一般还会利用测试集对最终确定的深度学习网络进行测试，以确保整个深度学习网络可以在实际应用过程中起到较高准确率的边缘检测，而测试集可以来源于样本集，也就是对样本集按需划分成两部分，包括测试集以及训练集，其中训练集用于训练深度学习网络，而测试集用于测试最终形成的深度学习网络在实际应用过程中的边缘检测情况。

边缘检测模型的输入为需要矫正的文本图像，输出为二值边缘图像，且尽可能抑制图像背景噪声的细小边缘。该模型的训练学习过程的可定义为如下：

假定一张M×N图像

该图像对应的边缘二值图像为

F(·|W)为边缘检测模型，W为各卷积层权重参数；模型的前向推理过程可表示为Y_n＝F(X_n|W)。在样本集中，需要标定出每一张文本图像的边缘作为边缘信息，边缘点被标记为1，背景像素被标记为0，以用于与深度学习网络卷积处理所得的处理结果进行比对，进而确定边缘检测模型的各层参数。

S130、对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标。

在本实施例中，文本边界框是指仅包括文档的最大矩形框；文本边界框的顶点坐标是指文本边界框的四个顶点的坐标。

基于深度学习的边缘提取模型能够初步得到图像中的边缘检测结果，也就是二值化边缘图像，但是所提取的边缘信息同时包含背景和其他物体，使得无法直接定位文本边界，因此需要对二值化边缘图像进行文本精细定位，以消除除文本区域外的背景边缘信息，提高整个图像矫正的准确率。

根据二值化边缘图像可以知道文本边界框可看作是多条直线端的组合，此外，大部分文档图像的边界是矩形形状的，因此，可按照先直线检测后交点定位的思路，定位文本的四个顶点坐标，在本实施例中，假定文本中心位置与图像中心位置距离较近，且文档边界框可近似为矩形框。结合专家经验规则，实现从文档边缘检测二值图像中定位出文档的四个顶点。

在一实施例中，请参阅图4，上述的步骤S130可包括步骤S131～S136。

S131、对所述二值化边缘图像进行二值化处理，并采用形态学操作消除二值化处理后的图像中的边缘，以得到二值边缘掩模图像。

在本实施例中，二值边缘掩模图像是指进行二值化处理且消除细小边缘的图像。

在本实施例中，具体是采用形态学操作对二值化处理后的图像进行消除细小边缘，一般是对二值化处理后的图像进行腐蚀和/或膨胀处理以消除细小边缘，形态学操作用于连接相邻的元素或分离成独立的元素；腐蚀的原理是在原图的小区域内取局部最小值；腐蚀的原理是在原图的小区域内取局部最大值。

S132、采用直线检测算法对所述二值边缘掩模图像提取水平近似直线以及垂直近似直线，并消除所述水平近似直线以及所述垂直近似直线中靠近所述二值化边缘掩模图像的边界区域的直线和长度较短的线段，以形成水平直线集合以及垂直直线集合。

在本实施例中，水平近似直线是指曲度满足一定要求的近似于水平线的直线；垂直近似直线是指曲度满足一定要求的近似于垂直线的直线。

水平直线集合是指消除所述水平近似直线所述二值化边缘掩模图像的边界区域的直线和长度较短的线段所剩下的直线集合；垂直直线集合是指消除所述垂直近似直线所述二值化边缘掩模图像的边界区域的直线和长度较短的线段所剩下的直线集合。

具体地，假定L＝{l₁,l₂,…,l_N}为LD(·)检测出的直线段集合，根据每一条线段的方向，将集合L划分为水平直线集合L_h和垂直直线集合L_v。

整个执行过程如下：先对直线段进行划分水平直线和垂直直线，此过程中，在直线段属于设定的二值边缘掩模图像区域内，且直线段属于水平直线范围，则将其划分至水平直线集合；否则划分至垂直直线集合，采用多项式拟合每一条直解析式，并将各直线延长，合并距离较近的直线，然后删除原有集合中重复的直线。

S133、计算水平直线集合以及垂直直线集合中两个直线的交点，以得到线段交点集合。

在本实施例中，线段交点集合是指水平直线与垂直直线的交点的集合。

S134、过滤所述线段交点集合中在二值化边缘掩模图像的边界区域外的加点和距离不满足预设要求的交点，以得到顶点集合；

在本实施例中，顶点集合是指在二值化边缘掩模图像的边界区域内且距离满足要求的所有的交点集合。

分别计算水平直线集合L_h和垂直直线集合L_v中两两直线的交点，得到线段交点集合，并且过滤掉那些在二值化边缘掩模图像的边界区域外的交点以及距离较近的交点，最后得到可能是文档的顶点集合C＝{c₁,c₂,…c_n}。

S135、对顶点集合进行遍历，以得到多边形集合。

在本实施例中，多边形集合是指能构成多边形的区域集合。

具体地，遍历顶点集合C，从顶点集合C中挑选4个顶点构建一个多边形，根据多边形四个角的角度差异判定该多边形是否与矩形相似，以排除掉那些不规则的多边形，假设文档边界满足矩形的先验知识，从而得到可能是文档边界的多边形集合D。

S136、计算多边形集合对应的多边形面积，并提取多边形面积最大的多边形作为文本边界框，以得到文本边界框及文本边界框的顶点坐标。

具体地，提取多边形集合D中面积最大的多边形作为最终的文档边界框，最终输出多边形的四个顶点坐标tl、tr、br、bl。

S140、根据所述文本边界框的顶点坐标计算透视变换矩阵；

在本实施例中，透视变换矩阵是用于表示文本边界框与矫正后文本图像的映射关系的矩阵。

由于拍摄镜头光心的光轴与文本图像平面不是垂直，所拍摄的文本图像会出现透视失真，即与摄像头不同距离的区域的尺度大小不一致，一般来说，可用一个矩阵去表示观察平面与标准图像平面中各位置的映射关系，通用的透射变换模型即投影变换模型的定义如下：

假定原图某个点位置为[u,v,1]^T，经过变换后的目标图像对应点位置为[x,y,1]^T，则透视变换即投影变换的过程可以表示如下：

[x,y,1]^T＝H[u,v,1]^T；将上式表示为笛卡尔坐标：

由于将笛卡尔坐标的分子与分母同时乘以一个常数k不影响等式的成立。因此，我们可以令a₃₃＝1，使得透视矩阵的未知参数降为8个。因为每一对坐标可建立2个等式，故自由度为8的参数方程求解至少需要4对坐标。基于上述分析，将获取到的文本边界框框映射到标准矩形框上，即文本边界框的左上角坐标映射到(0,0)坐标点，其余坐标点依次映射，该标准矩形框也就是标准平面。

在一实施例中，请参阅图5，上述的步骤S140可包括步骤S141～S143。

S141、根据所述文本边界框的顶点坐标计算文本区域的长和宽。

在本实施例中，文本边界框的四个顶点坐标：

计算出文本区域的长W和宽H：

S142、根据文本区域的长和宽生成目标平面的四个坐标点。

标准平面的四个坐标点为：

S143、根据所述文本边界框的顶点坐标以及所述目标平面的四个坐标点求解透视变换矩阵。

接着根据初始平面的四个坐标点和目标平面四个坐标点求解透视变换矩阵H，其中H∈R^3×3。

S150、根据透视变换矩阵对所述文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像。

在实际实现中，OpenCV已经提供了getPerspectiveTransform函数来获取由四对点间的转换矩阵，输出矩阵为3*3，同时也提供了warpPerspective函数来对通过变换矩阵来对图像进行透视变换的操作，同时还提供了perspectiveTransform来提供对点的转换。

S160、将矫正后的文本图像发送至终端，以供终端查阅和调用。

请参阅图7与图8，图中第一列为手机拍摄的原始图像，第二列为经本实施例的方法矫正后的文本图像。从图中可知，当原始图像中含有较为复杂的背景时，本实施例的方法能够较好地提取出文本的边界，从而可以得到较好地透视变换效果，可较好在复杂环境下进行文档的自动定位与矫正。

上述的文本图像矫正方法，不同于传统的基于Canny边缘算法来定位文档边界，本方法通过多方向多尺度特征进行融合且基于数据驱动的边缘检测模型进行需要矫正的文本图像提取二值化边缘图像，以提升边缘检测的鲁棒性和准确度，并从二值化边缘图像中精准定位出文本的四个顶点，根据这四个顶点计算原图和目标图中对应坐标的透视矩阵，并利用透视矩阵进行文本图像的校正，实现不同场景下的文档边缘提取精度，减少非文档区域噪声边缘的干扰，并细化文档坐标位置。

图9是本发明实施例提供的一种文本图像矫正装置300的示意性框图。如图9所示，对应于以上文本图像矫正方法，本发明还提供一种文本图像矫正装置300。该文本图像矫正装置300包括用于执行上述文本图像矫正方法的单元，该装置可以被配置服务器中。具体地，请参阅图9，该文本图像矫正装置300包括图像获取单元301、图像处理单元302、文本定位单元303、矩阵计算单元304、矫正单元305以及图像发送单元306。

图像获取单元301，用于获取需要矫正的文本图像；图像处理单元302，用于将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的；文本定位单元303，用于对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标；矩阵计算单元304，用于根据所述文本边界框的顶点坐标计算透视变换矩阵；矫正单元305，用于根据透视变换矩阵对所述文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像；图像发送单元306，用于将矫正后的文本图像发送至终端，以供终端查阅和调用。

在一实施例中，还包括模型获取单元，模型获取单元用于通过若干带有边缘信息的文本图像对深度学习网络进行训练，以得到边缘检测模型。

在一实施例中，所述模型获取单元包括构建子单元、样本集获取子单元、处理子单元、损失值计算子单元、判断子单元、模型形成子单元以及调整子单元。

构建子单元，用于构建深度学习网络及损失函数，其中，所述深度学习网络包括顺次连接的第一层网络、第二层网络、第三层网络、第四层网络以及三层空洞卷积层，第一层网络、第二层网络、第三层网络以及第四层网络的参数分别与VGG16网络对应层参数一致；样本集获取子单元，用于获取若干带有边缘信息的文本图像，以得到样本集；处理子单元，用于将样本集输入深度学习网络内进行卷积处理，以得到处理结果；损失值计算子单元，用于采用损失函数计算处理结果与边缘信息计算损失值；判断子单元，用于判断所述损失值是否满足预设条件；模型形成子单元，用于若所述损失值满足预设条件，则将当前的深度学习网络作为边缘检测模型；调整子单元，用于若所述损失值不满足预设条件，则调整深度学习网络各个层对应的参数，并返回所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果。

在一实施例中，如图10所示，所述文本定位单元303包括图像处理子单元3031、直线集合获取子单元3032、交点计算子单元3033、过滤子单元3034、遍历子单元3035以及边界框信息确认子单元3036。

图像处理子单元3031，用于对所述二值化边缘图像进行二值化处理，并采用形态学操作消除二值化处理后的图像中的边缘，以得到二值边缘掩模图像；直线集合获取子单元3032，用于采用直线检测算法对所述二值边缘掩模图像提取水平近似直线以及垂直近似直线，并消除所述水平近似直线以及所述垂直近似直线中靠近所述二值化边缘掩模图像的边界区域的直线和长度较短的线段，以形成水平直线集合以及垂直直线集合；交点计算子单元3033，用于计算水平直线集合以及垂直直线集合中两个直线的交点，以得到线段交点集合；过滤子单元3034，用于过滤所述线段交点集合中在二值化边缘掩模图像的边界区域外的加点和距离不满足预设要求的交点，以得到顶点集合；遍历子单元3035，用于对顶点集合进行遍历，以得到多边形集合；边界框信息确认子单元3036，用于计算多边形集合对应的多边形面积，并提取多边形面积最大的多边形作为文本边界框，以得到文本边界框及文本边界框的顶点坐标。

在一实施例中，如图11所示，上述的矩阵计算单元304包括长宽计算子单元3041、坐标点确定子单元3042以及矩阵求解子单元3043。

长宽计算子单元3041，用于根据所述文本边界框的顶点坐标计算文本区域的长和宽；坐标点确定子单元3042，用于根据文本区域的长和宽生成目标平面的四个坐标点；矩阵求解子单元3043，用于根据所述文本边界框的顶点坐标以及所述目标平面的四个坐标点求解透视变换矩阵。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本图像矫正装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述文本图像矫正装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图12，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种文本图像矫正方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种文本图像矫正方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取需要矫正的文本图像；将需要矫正的文本图像输入至边缘检测模型进行深度学习，以得到二值边缘图像；其中，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的；对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标；根据所述文本边界框的顶点坐标计算透视变换矩阵；根据透视变换矩阵对所述文本边界框内的图像及文本边界框的顶点坐标进行透视变换，以得到矫正后的文本图像；将矫正后的文本图像发送至终端，以供终端查阅和调用。

在一实施例中，处理器502在实现所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的步骤时，具体实现如下步骤：

构建深度学习网络及损失函数，其中，所述深度学习网络包括顺次连接的第一层网络、第二层网络、第三层网络、第四层网络以及三层空洞卷积层，第一层网络、第二层网络、第三层网络以及第四层网络的参数分别与VGG16网络对应层参数一致；获取若干带有边缘信息的文本图像，以得到样本集；将样本集输入深度学习网络内进行卷积处理，以得到处理结果；采用损失函数计算处理结果与边缘信息计算损失值；判断所述损失值是否满足预设条件；若所述损失值满足预设条件，则将当前的深度学习网络作为边缘检测模型；若所述损失值不满足预设条件，则调整深度学习网络各个层对应的参数，并返回所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果。

其中，所述损失函数为加权的交叉熵分类损失函数。

在一实施例中，处理器502在实现所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果步骤时，具体实现如下步骤：

其中，所述特征图是通过对深度学习网络的各层进行上采样操作所得的。

在一实施例中，处理器502在实现所述对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标步骤时，具体实现如下步骤：

对所述二值化边缘图像进行二值化处理，并采用形态学操作消除二值化处理后的图像中的边缘，以得到二值边缘掩模图像；采用直线检测算法对所述二值边缘掩模图像提取水平近似直线以及垂直近似直线，并消除所述水平近似直线以及所述垂直近似直线中靠近所述二值化边缘掩模图像的边界区域的直线和长度较短的线段，以形成水平直线集合以及垂直直线集合；计算水平直线集合以及垂直直线集合中两个直线的交点，以得到线段交点集合；过滤所述线段交点集合中在二值化边缘掩模图像的边界区域外的加点和距离不满足预设要求的交点，以得到顶点集合；对顶点集合进行遍历，以得到多边形集合；计算多边形集合对应的多边形面积，并提取多边形面积最大的多边形作为文本边界框，以得到文本边界框及文本边界框的顶点坐标。

在一实施例中，处理器502在实现所述根据所述文本边界框的顶点坐标计算透视变换矩阵步骤时，具体实现如下步骤：

根据所述文本边界框的顶点坐标计算文本区域的长和宽；根据文本区域的长和宽生成目标平面的四个坐标点；根据所述文本边界框的顶点坐标以及所述目标平面的四个坐标点求解透视变换矩阵。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的步骤时，具体实现如下步骤：

其中，所述损失函数为加权的交叉熵分类损失函数。

在一实施例中，所述处理器在执行所述计算机程序而实现所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标步骤时，具体实现如下步骤：

采用直线检测算法对所述二值边缘掩模图像提取水平近似直线以及垂直近似直线，并消除所述水平近似直线以及所述垂直近似直线中靠近所述二值化边缘掩模图像的边界区域的直线和长度较短的线段，以形成水平直线集合以及垂直直线集合；计算水平直线集合以及垂直直线集合中两个直线的交点，以得到线段交点集合；过滤所述线段交点集合中在二值化边缘掩模图像的边界区域外的加点和距离不满足预设要求的交点，以得到顶点集合；对顶点集合进行遍历，以得到多边形集合；计算多边形集合对应的多边形面积，并提取多边形面积最大的多边形作为文本边界框，以得到文本边界框及文本边界框的顶点坐标。

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述文本边界框的顶点坐标计算透视变换矩阵步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.文本图像矫正方法，其特征在于，包括：

获取需要矫正的文本图像；

根据所述文本边界框的顶点坐标计算透视变换矩阵；

将矫正后的文本图像发送至终端，以供终端查阅和调用。

2.根据权利要求1所述的文本图像矫正方法，其特征在于，所述边缘检测模型是通过若干带有边缘信息的文本图像对深度学习网络进行训练所得的，包括：

获取若干带有边缘信息的文本图像，以得到样本集；

采用损失函数计算处理结果与边缘信息计算损失值；

判断所述损失值是否满足预设条件；

3.根据权利要求2所述的文本图像矫正方法，其特征在于，所述损失函数为加权的交叉熵分类损失函数。

4.根据权利要求2所述的文本图像矫正方法，其特征在于，所述将样本集输入深度学习网络内进行卷积处理，以得到处理结果，包括：

5.根据权利要求4所述的文本图像矫正方法，其特征在于，所述特征图是通过对深度学习网络的各层进行上采样操作所得的。

6.根据权利要求1至5任一项所述的文本图像矫正方法，其特征在于，所述对所述二值边缘图像进行文本精细定位，以得到文本边界框及文本边界框的顶点坐标，包括：

对顶点集合进行遍历，以得到多边形集合；

7.根据权利要求6所述的文本图像矫正方法，其特征在于，所述根据所述文本边界框的顶点坐标计算透视变换矩阵，包括：

根据所述文本边界框的顶点坐标计算文本区域的长和宽；

根据文本区域的长和宽生成目标平面的四个坐标点；

8.文本图像矫正装置，其特征在于，包括：

图像获取单元，用于获取需要矫正的文本图像；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。