CN112613402A

CN112613402A - 文本区域检测方法、装置、计算机设备和存储介质

Info

Publication number: CN112613402A
Application number: CN202011533689.6A
Authority: CN
Inventors: 胡志成; 宁可; 闵江松
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-06

Abstract

本申请涉及一种文本区域检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测图像、与所述待检测图像的内容类型相匹配的参考图像以及与所述参考图像所对应的模板图像；所述模板图像中标注所述参考图像所对应的文本所在区域；将所述待检测图像、所述参考图像和所述模板图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域；所述文本区域检测模型是根据样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成的。采用本方法能够提高文本检测的准确性。

Description

文本区域检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本区域检测方法、装置、计算机设备和存储介质。

背景技术

在公司运营中，通常会将各种单据或者证件等录入系统，当数量较庞大时，手工录入会消耗大量的人力资源，同时会降低公司效率。而图像识别可以将这些信息自动录入系统，提高公司财务报销等的效率。要识别一种数据，我们首先需要提取该图像中的目标文本区域，然后进行文本识别。传统方式如通过CTPN(Connectionist Text Proposal Network，连接文本提议网络)、pixel-link(像素连接)等文本检测方法，能够检测图像中的文本区域。然而，目前的文本区域检测方式，存在当图像形变严重时，文本区域检测不准确的问题，例如在实际中有图像中会出现纹理，图像扭曲，文本错位等情形。

发明内容

基于此，有必要针对上述技术问题，提供一种文本区域检测方法、装置、计算机设备和存储介质。

一种文本区域检测方法，所述方法包括：

获取待检测图像、与所述待检测图像的内容类型相匹配的参考图像以及与所述参考图像所对应的模板图像；所述模板图像中标注所述参考图像所对应的文本所在区域；

将所述待检测图像、所述参考图像和所述模板图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域；所述文本区域检测模型是根据样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成的。

一种文本区域检测模型的训练方法，所述方法包括：

获取样本待检测图像、与所述样本待检测图像的内容类型相匹配的样本参考图像以及所述样本参考图像所对应的样本模板图像；所述样本模板图像中标注所述样本参考图像所对应的文本所在区域；

将所述样本待检测图像、所述样本参考图像和所述样本模板图像输入至待训练文本区域检测模型中进行训练，根据所述样本待检测图像所对应的文本定位结果以及所对应的标签值调整所述待训练文本区域检测模型中的模型参数，直至获得训练完成的文本区域检测模型。

一种文本区域检测装置，所述装置包括：

图像获取模块，用于获取待检测图像、与所述待检测图像的内容类型相匹配的参考图像以及与所述参考图像所对应的模板图像；所述模板图像中标注所述参考图像所对应的文本所在区域；

图像检测模块，用于将所述待检测图像、所述参考图像和所述模板图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域；所述文本区域检测模型是根据样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成的。

一种文本区域检测模型的训练装置，所述装置包括：

样本图像获取模块，用于获取样本待检测图像、与所述样本待检测图像的内容类型相匹配的样本参考图像以及所述样本参考图像所对应的样本模板图像；所述样本模板图像中标注所述样本参考图像所对应的文本所在区域；

样本图像检测模块，用于将所述样本待检测图像、所述样本参考图像和所述样本模板图像输入至待训练文本区域检测模型中进行训练，根据所述待检测图像所对应的文本定位结果以及所对应的标签值调整所述待训练文本区域检测模型中的模型参数，直至获得训练完成的文本区域检测模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现各方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现各方法实施例中的步骤。

上述文本区域检测方法、装置、计算机设备和存储介质，由于待检测图像一般是用户拍摄的图像，并且待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像，模板图像标注参考图像所对应的文本所在区域；将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的参考图像和所对应的模板图像与待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的待检测图像也可以准确提取出目标文本区域。

附图说明

图1为一个实施例中文本区域检测方法的应用环境图；

图2为一个实施例中文本区域检测方法的流程示意图；

图3为一个实施例中待检测图像的示意图；

图4为一个实施例中参考图像的示意图；

图5为一个实施例中模板图像的示意图；

图6为一个实施例中包含目标文本区域的待检测图像的示意图；

图7为一个实施例中获得目标文本区域的流程示意图；

图8为一个实施例中第一特征提取单元的结构示意图；

图9为一个实施例中第二特征提取单元的结构示意图；

图10为一个实施例中文本区域检测模型的架构图；

图11为另一个实施例中文本区域检测方法的流程示意图；

图12为一个实施例中文本区域检测模型的训练方法的流程示意图；

图13为一个实施例中文本区域检测装置的结构框图；

图14为一个实施例中文本区域检测模型的训练装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本区域检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102用于获取待检测图像。与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像可以是由终端102获取的，也可以直接由服务器104获取。服务器104从终端102获取待检测图像，获取与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像，将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本区域检测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于服务器，包括以下步骤：

步骤202，获取待检测图像、与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像；模板图像中标注参考图像所对应的文本所在区域。

其中，待检测图像可以是具有特定结构的图像，如票据图像、证件图像、卡片图像等。票据图像例如可以是发票图像、车票图像等。证件图像例如可以是身份证图像、港澳通行证图像等。卡片图像具体可以是银行卡图像等。如图3所示，为一个实施例中待检测图像的示意图。图3中的待检测图像为高铁票据图像。其中包括标识“J054196”、检票口“2”、始发站“新乡东站Xinxiangdong”、车次“G1234”、目标站“武汉站”、日期“2019年05月30日14：09开”、车次“10车06D”、价格“￥272.0元”、网签、身份证号码“5432112345****1234”、姓名“李四”、二维码、标语“买票请到12345发货请到5432铁路祝您旅途愉快”。

内容类型相匹配是指如待检测图像为发票图像，那么参考图像也为发票图像；当待检测图像为车票图像，那么参考图像也为车票图像。参考图像是一张满足处理大小要求、并且相对于待检测图像更加清晰规范的图像。如图4所示，为一个实施例中参考图像的示意图。参考图像也为车票图像。其中包括标识“J054196”、检票口“2”、始发站“德州东站Dezhoudong”、车次“G1267”、目标站“济南西站Jinanxi”、日期“2019年05月23日17：09开”、车次“02车17C”、价格“￥39.5元”、网签、身份证号码“12345612345****1234”、姓名“张三”、二维码、标语“买票请到12345发货请到5432铁路祝您旅途愉快”。

模板图像用于标注参考图像所对应的文本所在区域。具体标注方式可以是将参考图像所对应的文本所在区域所对应的区域像素值设为1，其他像素值设为0。模板图像用于表征待检测图像所需提取的字段。如图5所示，为一个实施例中模板图像的示意图。并且图5中的模板图像可根据需要调整文本所在区域的标注。如图5中标注了图4中的目标站“济南西站”、日期“2019年05月23日17：09开”、座位号“02车17C号”、座次“二等座”。可以理解的是，图5还可以标注身份证号、姓名、高铁车次、始发站等信息。

具体地，服务器可从终端获取待检测图像，并获取与该待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像。模板图像中标注参考图像所对应的文本所在区域。

步骤204，将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；文本区域检测模型是根据样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成的。

其中，文本区域检测模型可以是基于卷积神经网络模型训练而成的。具体可以是将样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成。目标文本区域检测可以是提取待检测图像中文字的最小外接矩形框。目标文本区域可以是以文本框的形式显示，也可以以目标文本区域在待检测图像中的坐标的形式呈现。

具体地，服务器将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域。目标文本区域与参考图像所对应的文本所在区域相匹配。如图6所示，为一个实施例中包含目标文本区域的待检测图像的示意图。图6中文本框所对应的区域即为目标文本区域。并且，图5标注了终点站“济南西站”、日期“2019年05月23日”、座位号“32车17C号”、座次“二等座”，那么图6所得到的文本框也是终点站“武汉站”、日期“2018年5月30日14：09开”、座位号“10车06D号”和座次“二等座”分别对应的文本框。

本实施例中，服务器将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像中各像素点的像素值，基于各像素点的像素值获得待检测图像所对应的目标文本区域。

上述文本区域检测方法，由于待检测图像一般是用户拍摄的图像，并且待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像，模板图像标注参考图像所对应的文本所在区域；将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的参考图像和所对应的模板图像与待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的待检测图像也可以准确提取出目标文本区域。

在一个实施例中，将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域，包括：将参考图像灰度化，将灰度化后的参考图像和模板图像合并为二通道图像，将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域。

其中，二通道图像是指一个像素点具有两个通道的图像。例如，在像素点(0，0)的位置，(0，0)在待检测图像中的像素值为0.2，(0，0)在模板图像中的像素值为0，那么在二通道图像中(0，0)的值为[0.2,0]。

具体地，服务器将参考图像灰度化，并将灰度化的参考图像和模板图像合并为二通道图像。服务器将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域。

本实施例中，服务器将二通道图像和尺度调整后的待检测图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；尺度调整用于将待检测图像和二通道图像调整到相匹配的尺寸。

本实施例中，当检测到待检测图像的方向与参考图像不一致时，对待检测图像进行方向校正，将方向校正后的待检测图像和二通道图像输入至文本区域检测模型中进行检测处理。

本实施例中的文本区域检测方法，将参考图像灰度化，并将灰度化后的参考图像和模板图像合并为二通道图像，能够充分融合参考图像和模板图像的像素信息；将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域，相对于直接将标注和待检测图像输入至模型中进行检测的方式，能够提高待检测图像的文本区域检测的正确性。

在一个实施例中，如图7所示，为一个实施例中获得目标文本区域的流程示意图。将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域，包括：

步骤702，对二通道图像进行特征提取处理，获得第一特征图。

具体地，服务器采用卷积层和池化层等对二通道图像进行特征提取处理，获得第一特征图。特征图是指多维的矩阵，多维是指多于一维。

步骤704，对待检测图像进行特征提取处理，获得第二特征图。

具体地，服务器对待检测图像进行对二通道图像相同的特征提取处理，获得第二特征图。

步骤706，基于第一特征图和第二特征图进行合并处理，对合并所得的特征图进行矩阵计算，获得空间变换矩阵。

具体地，服务器获取矩阵计算参数；基于第一特征图和第二特征图进行合并处理，按照矩阵计算参数对合并所得的特征图进行矩阵计算，获得空间变换矩阵。例如，第一特征图和第二特征图合并得到特征图F，对其进行F*M+B计算，从而得到空间变换矩阵。其中M,B为可训练矩阵参数，M为二维矩阵其初始参数为高斯分布，B的初始参数为[1,0,0；0,1,0；0,0,1]。

步骤708，按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和进行空间变换后的第一特征图进行合并，得到第三特征图。

具体地，服务器按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和进行空间变换后的第一特征图进行合并，得到第三特征图。

步骤710，对第三特征图进行特征提取处理，获得待检测图像所对应的目标文本区域。

具体地，服务器对第三特征图进行一系列的特征提取并合并处理，获得待检测图像所对应的目标文本区域。

本实施例中的文本区域检测方法，对二通道图像和待检测图像分别进行特征提取处理，得到第一特征图和第二特征图，并基于第一特征图和第二特征图进行合并处理，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和空间变换后的第一特征图进行合并，得到第三特征图，再对第三特征图进行一系列的特征提取处理，获得待检测图像所对应的目标文本区域，即对二通道图像和待检测图像先进行特征提取处理，再进行空间变换处理，即进行空间映射等，将所得的结果进行特征提取处理，充分利用文本区域检测模型的结构获得待检测图像所对应的目标文本区域。

在一个实施例中，对二通道图像进行特征提取处理，获得第一特征图，包括：将二通道图像输入至第一特征提取单元中，获得第一特征图；第一特征提取单元包括依次相连的卷积层和池化层。

对待检测图像进行特征提取处理，获得第二特征图，包括：将待检测图像输入至第一特征提取单元中，获得第二特征图。

基于第一特征图和第二特征图进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，包括：将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元后的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；第二特征提取单元包括依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层。

其中，如图8所示，为一个实施例中第一特征提取单元的结构示意图。卷积层的数量和池化层的数量不限。图8以两层卷积层、一层池化层为例进行说明，第一特征提取单元包括依次相连的卷积层和最大池化层。其中卷积层的卷积核大小为3*3，最大池化层的卷积层大小为2*2且步长为2。

如图9所示，为一个实施例中第二特征提取单元的结构示意图。第二特征提取单元包括依次相连的特征图大小调整层(Resize)、卷积层(conv)、池化层(Maxpool，卷积层大小为2*2，步长为2)、向量展平层(flatten)和全连接层(Fc)。特征图大小调整层用于将特征图的大小进行改变。卷积层和池化层用于进行特征提取。向量展平层用于将多维的特征一维化。全连接层的作用是将学到的特征映射到样本标记空间。

具体地，服务器将二通道图像输入至依次相连的卷积层和池化层中，输出第一特征图，且第一特征图是思维的特征图(b,h,w,c)。服务器将待检测图像输入至依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层后输出，同样地，将第二特征图输入至依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层后输出，这两个输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；合并所得的特征图是二维特征图。

本实施例中的文本区域检测方法，将二通道图像输入至第一特征提取单元中，获得了四维的第一特征图，将待检测图像输入至第一特征提取单元中，获得相同维度的第二特征图，将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，从而能够将二通道图像和待检测图像映射，从而准确提取得到目标文本区域。

在一个实施例中，对第三特征图进行特征提取处理，获得待检测图像所对应的目标文本区域，包括：将第三特征图输入至第一特征提取单元，获得第四特征图；将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图；将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域。

其中，上采样层(upsample)用于将图像采样至像素较高的尺寸。

具体地，服务器将第三特征图输入至第一特征提取单元，获得第四特征图。服务器将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图。服务器将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域。

本实施例中的文本区域检测方法，将第三特征图输入至第一特征提取单元，获得第四特征图，将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图，将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域，即卷积池化过程中图像的尺寸经过压缩，后再经过卷积层和上采样层能够扩大感受野。

在一个实施例中，该文本区域检测方法还包括：对目标文本区域中的文本图像进行文本识别，得到各目标文本区域中的文字。

在一个实施例中，目标文本区域与模板图像中标注的文本所在区域相匹配。该文本区域检测方法还包括：基于各目标文本区域对待检测图像进行图像分割，获得文本图像集；对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字。

其中，文本图像是指仅包含部分文本的图像。文本图像集中包含至少一个文本图像。目标文本区域与模板图像中标注的文本所在区域相匹配是指，当模板图像中标注的文本所在区域为“日期所在区域”时，那么所输出的目标文本区域也为“日期所在区域”。

具体地，服务器基于各目标文本区域对待检测图像进行图像分割，获得文本图像集。服务器对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字。以图6中的图像为例，图6中文本框所对应的区域即为目标文本区域。图6所得到的文本框也是终点站、日期、座位号和座次分别对应的文本框。那么文本图像集即包括“武汉站”文本图像、“2019年05月30日14：09开”文本图像、“10车06D号”文本图像和“二等座”文本图像。那么基于各文本图像进行文本识别，则得到文字“武汉站”、2019年05月30日14：09开”、“10车06D号”和“二等座”。

本实施例中的文本区域检测方法，由于目标文本区域与模板图像中标注的文本所在区域相匹配，因此，可通过设置模板图像中标注的文本所在区域检测不同的目标文本区域，并基于各目标文本区域对待检测图像进行图像分割，获得文本图像集；对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字，能够提取不同的目标文本区域中的文字，提高模型的可用性。

在一个实施例中，如图10所示，为一个实施例中文本区域检测模型的架构图。其中，conv即卷积层，7*7表示卷积核大小，S：2表示步长为2，d表示空间卷积的空洞系数。

将待检测图像输入图像经过一次卷积(卷积核大小(7*7)，步长为2)后经过3次第一特征提取单元的特征处理，将特征图尺寸大小变为原来的1/16，二通道图像经过相同的操作。

空间变换模块：图像经过一系列卷积采样操作后，将特征图的大小改变到固定大小，后进行卷积与下采样操作，将得到的特征图拉伸为一维向量，输入全连接层，同样对模板分支进行如此操作，将两特征图合并(concat)得到特征图F。对其进行F*M+B计算，其中M,B为可训练矩阵参数，M为二维矩阵其初始参数为高斯分布，B的初始参数为[1,0,0；0,1,0；0,0,1]，得到空间变换矩阵。上述即将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元后的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵。将Feature_1(即第一特征图)利用空间变换矩阵进行空间变换后与特征图Feature_0(即第二特征图)合并，得到第三特征图。

文本检测模块：经过空间转换与拼接后的特征图经过一系列卷积池化得到特征图feature1,feature2,feature3。为了扩大特征图感受野，在feature3后引入两层空洞卷积层，卷积核间隔数量(dilation rate)为2，3记录输出特征图为feature4。将feature4特征图经过卷积操作(卷积核大小为1*1)，然后对其经过上采样层(步长为2)与卷积层(卷积核大小为3*3))设得到特征图为feature，将feature与feature3进行concat操作，记录该层特征图为de_feature。对de_feature进行卷积操作后进行上采样(UpSampling步长为2)与卷积操作(卷积核大小3*3)，并将得到的特征图与feature2进行concat操作。重复该操作并与feature1特征图concat。考虑计算量问题，我们没有上采样到与原始图像相同尺寸大小，输出特征图尺寸为原始图像宽高的1/4，对输出特征图进行卷积操作，像素分类分支卷积核数量为3，文本框边界分支卷积核数量为2，激活函数采用softmax。输出结果是根据待检测图像所预测得到的图像像素分类与文本框边界输出结果。图像像素分类即为每个像素点是属于文本所在区域的像素点还是属于背景区域的像素点。

在一个实施例中，如图11所示，为另一个实施例中文本区域检测方法的流程示意图，包括：

步骤1102，输入待检测图像。

步骤1104，对检测图像进行预处理，获得预处理后的待检测图像。

步骤1106，对预处理后的待检测图像进行方向判断。

步骤1108，当预处理后的待检测图像的方向不正确时，对预处理后的待检测图像进行方向校正。

步骤1110，输入参考图像和模板图像。

步骤1112，将参考图像、模板图像和方向正确的待检测图像输入文本区域检测模型中。

本发明为定向模板定位，可针对多种类型的图像，按照定义的目标文本进行定位。首先针对每一种图像，创建目标文本模板。以增值发票为例，如果我们不需要图像的全部信息，只需要提取其金额，发票号码，发票代码，日期信息，选一张标准图像，创建一张与标准图相同大小的空白图像即模板，将模板与标准图目标文本相应位置像素值设为1，其它像素点值为0。由于扫描或拍照图像方向不确定，发票可能是侧立或倒立的，因此需要对其进行旋转校正。

步骤1114，获得待检测图像中的目标文本框。

步骤1116，输出文本框中的文字。

本实施例中的文本区域检测方法，

在一个实施例中，传统方式如通过CTPN(Connectionist Text ProposalNetwork，连接文本提议网络)、pixel-link(像素连接)等文本检测方法，能够检测图像中的文本区域。但是上述方法，存在以下问题：

1)针对每一类图像数据单独开发，开发周期长。

2)字段缺失时容易将其他文本误认为该字段。

3)图像文字打印偏移时容易将相邻文字作为该字段。

4)图像形变严重时，目标文本框位置定位不精确。

因此提出了本申请实施例中的一种文本区域检测方法，包括：

步骤(a1)，获取待检测图像、与所述待检测图像的内容类型相匹配的参考图像以及与所述参考图像所对应的模板图像；所述模板图像中标注所述参考图像所对应的文本所在区域。

步骤(a2)，将参考图像灰度化，将灰度化后的参考图像和模板图像合并为二通道图像。

步骤(a3)，将二通道图像输入至第一特征提取单元中，获得第一特征图、第一特征提取单元包括依次相连的卷积层和池化层、

步骤(a4)，将待检测图像输入至第一特征提取单元中，获得第二特征图、

步骤(a5)，将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元后的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵、第二特征提取单元包括依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层。

步骤(a6)，按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和进行空间变换后的第一特征图进行合并，得到第三特征图、

步骤(a7)，将第三特征图输入至第一特征提取单元，获得第四特征图、第一特征提取单元包括依次相连的卷积层和池化层、

步骤(a8)，将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图、

步骤(a9)，将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域。

步骤(a10)，基于各目标文本区域对待检测图像进行图像分割，获得文本图像集。

步骤(a11)，对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字。

在一个实施例中，如图12所示，为一个实施例中文本区域检测模型的训练方法的流程示意图，一种文本区域检测模型的训练方法，包括：

步骤1202，获取样本待检测图像、与样本待检测图像的内容类型相匹配的样本参考图像以及样本参考图像所对应的样本模板图像；样本模板图像中标注样本参考图像所对应的文本所在区域。

其中，样本待检测图像可以是具有特定结构的样本图像，如样本票据图像、样本证件图像、样本卡片图像中至少一种但不限于此。样本票据图像例如可以是样本发票图像、样本车票图像等。样本证件图像例如可以是样本身份证图像、样本港澳通行证图像等。样本卡片图像具体可以是样本银行卡图像等。采用多种类的样本待检测图像进行训练可以使得训练完成的文本区域检测模型具有多中待检测图像的文本区域检测能力。

内容类型相匹配是指如样本待检测图像为样本发票图像，那么样本参考图像也为发票图像；当样本待检测图像为样本车票图像，那么样本参考图像也为车票图像。样本参考图像是一张满足处理大小要求、并且相对于样本待检测图像更加清晰规范。

样本模板图像用于标注样本参考图像所对应的文本所在区域。具体标注方式可以是将样本参考图像所对应的文本所在区域所对应的区域像素值设为1，其他像素值设为0。样本模板图像用于表征样本待检测图像所需提取的字段。

具体地，服务器可从终端获取样本待检测图像，并获取与该样本待检测图像的内容类型相匹配的样本参考图像以及与样本参考图像所对应的样本模板图像。样本模板图像中标注样本参考图像所对应的文本所在区域。

步骤1204，将样本待检测图像、样本参考图像和样本模板图像输入至待训练文本区域检测模型中进行训练，根据样本待检测图像所对应的文本定位结果以及所对应的标签值调整待训练文本区域检测模型中的模型参数，直至获得训练完成的文本区域检测模型。

其中，文本定位结果可以是以文本框的形式显示，也可以以在样本待检测图像中的坐标的形式呈现，还可以以像素点的类型体现。那么标签值可以是文本框标签，也可以是坐标标签，还可以是像素点的类型标签值。

具体地，服务器将样本待检测图像、样本参考图像和样本模板图像输入至待训练文本区域检测模型中进行训练，根据样本待检测图像所对应的文本定位结果以及对应的标签值调整待训练文本区域检测模型中的模型参数，直至达到模型收敛条件，获得训练完成的文本区域检测模型。模型收敛条件可以是损失值小于预设损失值、模型两次迭代之间的模型参数变化小于预设变化值、或者迭代次数达到预设次数。

上述文本区域检测模型的训练方法，由于样本待检测图像一般是用户拍摄的图像，并且样本待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与样本待检测图像的内容类型相匹配的样本参考图像以及与样本参考图像所对应的样本模板图像，样本模板图像标注样本参考图像所对应的文本所在区域；将样本待检测图像、样本参考图像和样本模板图像输入至待训练的文本区域检测模型进行检测处理，获得样本待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的样本参考图像和所对应的样本模板图像与样本待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的样本待检测图像也可以准确提取出目标文本区域。

在一个实施例中，标签值为样本待检测图像中像素点的类型标签值；文本定位结果包括样本待检测图像中像素点的类型预测值。

根据待检测图像所对应的文本定位结果以及所对应的标签值调整待训练文本区域检测模型中的模型参数，包括：获取待训练文本区域检测模型输出的像素点的类型预测值；基于像素点的类型预测值和对应的类型标签值确定像素点的损失值；基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

其中，类型预测值包括正样本类型预测值和负样本类型预测值。正样本类型预测值用于表征该像素点为目标文本区域中的像素点。负样本类型预测值用于表征该像素点为背景区域中的像素点。

具体地，服务器获取待训练文本区域检测模型输出的像素点的类型预测值。服务器基于像素点的类型预测值和对应的类型标签值确定像素点的损失值。服务器基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。其中损失值的计算方式可以采用损失函数进行计算，具体可采用sparse_categorical_crossentropy(交叉熵损失函数)进行计算。

本实施例中，文本区域检测模型的训练方式是有监督学习方式，有监督学习方式的训练集由输入向量与输入向量相关联的目标向量组成，通过目标向量指导权重的调整从而降低整体误差。

本实施例中的文本区域检测模型的训练方法，将像素点的类型预测值作为输出结果，并基于像素点的类型预测值和对应的类型标签值确定像素点的损失值，基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整带训的文本区域检测模型中的模型参数，基于像素点的方式能够训练出更加准确的文本区域检测模型。

在一个实施例中，该文本区域检测模型的训练方法还包括以下步骤：

步骤(b1)，获取标记为正样本标签值的第一像素点的第一数量；正样本标签值用于标注样本待检测图像的文本所在区域。

其中，正样本标签值用于标注样本待检测图像的文本所在区域。例如，正样本标签值可以为1。

具体地，服务器获取标记为正样本标签值的第一像素点的第一数量；正样本标签值用于标注样本待检测图像的文本所在区域。例如，样本待检测图像中一共有1000个像素点，其中标记为正样本标签值的第一像素点的第一数量为100个。即，样本待检测图像中文本所在区域所占的像素点的数量是100个。

基于像素点的类型预测值和对应的类型标签值确定像素点的损失值，包括：

步骤(b2)，基于样本待检测图像中各像素点的类型预测值和对应的类型标签值，确定样本待检测图像的各像素点的损失值。

具体地，服务器基于样本待检测图像中各像素点的类型预测值和对应的类型标签值，确定样本待检测图像的各像素点的损失值。以样本待检测图像中像素点数量为1000为例，那么服务器需要确定1000个像素点中各个像素点的损失值，得到1000个损失值。

步骤(b3)，从样本待检测图像的各像素点的损失值中，确定第一像素点的第一损失值。

具体地，服务器从样本待检测图像的各像素点的损失值中，确定标记为正样本标签值的第一像素点的第一损失值。例如，有100个第一像素点，那么从这1000个损失值中确定这100个第一像素点的损失值。

步骤(b4)，基于样本待检测图像的各像素点的损失值，从标记为负样本标签值的第二像素点的损失值中，按照从高到低的顺序选取第二数量的第二损失值；第二数量基于第一数量确定；负样本标签用于标注样本待检测图像的背景所在区域。

其中，第二像素点是指标记为负样本标签值的像素点。并且，某一像素点A被标记为负样本标签值，但像素点A的类型预测值为正样本类型预测值，该像素点仍为第二像素点。第二数量可以是第一数量的预设倍数等。例如第一数量与第二数量的比例为1：3，那么当第一数量为100时，第二数量为300。

具体地，服务器基于各样本待检测像素点的损失值，确定标记为负样本标签值的第二像素点的损失值；再从第二像素点的损失值中，按照从高到低选取第二数量的第二损失值。例如，以样本待检测图像中像素点数量为1000、第一像素点的数量为100、第二数量为300为例，那么第二数量为900，那么按照从高到低的顺序从这900个损失值中选取300个损失值。

基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数，包括：

步骤(b5)，将第一数量的第一损失值和第二数量的第二损失值求和处理，获得目标损失值。

其中，目标损失值是指最终用于进行反向传播的损失值。

具体地，服务器将第一数量的第一损失值和第二数量的第二损失值求和处理，获得目标损失值。以第一数量为100、第二数量为300为例进行说明，将这100个第一损失值和300个第二损失值相加，获得目标损失值。

步骤(b6)，基于目标损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

具体地，服务器基于目标损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练方法，基于标记为正样本标签值的第一像素点的第一损失值和标记为负样本标签值的第二数量的第二损失值所得到的目标损失值，即按正负样本的一定数量关系选取了一部分损失值进行反向传播，能够提高训练完成的文本区域检测模型的准确性。

在一个实施例中，类型预测值包括负样本类型预测值和正样本类型预测值。基于所述像素点的所述类型预测值和对应的类型标签值确定所述像素点的损失值，包括：当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，基于目标像素点的类型预测值和对应的类型标签值确定目标像素点的损失值；目标像素点是指负样本预测值所对应的像素点；

对目标像素点所对应的损失值求和，基于求和后的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

其中，负样本类型预测值表示预测为背景区域类型。正样本类型预测值用于表示预测为文本所在区域。预设比值可以根据需求设定。预设比值是指第二数量和第一数量之间的比值，例如为3：1。

具体地，当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，说明负样本类型的像素点数量较少，基于目标像素点的类型预测值和对应的类型标签值确定目标像素点的损失值。服务器对目标像素点所对应的损失值求和，基于求和后的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。以预设比值为3：1、样本待检测图像中有1000个像素点、目标像素点的数量为700个、正样本预测值所对应的像素点的数量为300个为例进行说明，那么700：300小于3：1，基于这700个目标像素点的类型预测值和对应的类型标签值确定这700个目标像素点中每个目标像素点的损失值。对这700个损失值求和，得到求和后的损失值，并基于求和后的损失值在待训练文本区域检测模型中进行反向传播。

本实施例中的文本区域检测模型的训练方法，当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，说明目标像素点的数量较少，结果可能存在错误，并且该错误可能比较严重；因此对目标像素点的损失值求和进行反向传播，以调整模型参数，能够高训练完成的文本区域检测模型的准确性。

在一个实施例中，基于像素点的类型预测值和对应的类型标签值确定像素点的损失值，包括：基于样本待检测图像中每个像素点的类型预测值和对应的类型标签值确定每个像素点的损失值。

从标记为正样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第三数量的像素点的损失值；

从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第四数量的像素点的损失值；

基于对第三数量的损失值和第四数量的损失值进行求和所获得的损失值，在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

其中，第三数量可以是按照一定比例从标记为正样本标签值的像素点中选取的。同样的，第四数量可以是按照一定比例从标记为负样本标签值的像素点中选取的。并且第三数量和第四数量的选取比例可以相同。

具体地，服务器基于样本待检测图像中每个像素点的类型预测值和对应的类型标签值确定每个像素点的损失值。服务器从每个像素点的损失值，确定标记为正样本标签值的像素点的损失值；并从标记为正样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第三数量的像素点的损失值。服务器从每个像素点的损失值，确定标记为负样本标签值的像素点的损失值；并从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第四数量的像素点的损失值。服务器基于对第三数量的损失值和第四数量的损失值进行求和所获得的损失值，在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

例如，样本待检测图像中包含1000个像素点，其中100个像素点被标记为正样本标签值，900个像素点被标记为负样本标签值，那么从100个里面选100*0.7(第三数量)个损失值，从900个里面选出300*0.7(第四数量)个损失值，进行求和，求和后在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练方法，从标记为正样本标签值的像素点的损失值中，按照从高到低选取第三数量的像素点的损失值；从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第四数量的像素点的损失值，并基于第三数量的损失值和第四数量的损失值进行求和后进行反向传播，以调整模型参数，能够对模型进行强化训练，将有些分类容易出错的困难样本进行训练，提高训练完成的模型的准确性。

在一个实施例中，在获得训练完成的文本区域检测模型之后，该方法还包括：对样本待检测图像进行变换处理，获得变换处理后的样本待检测图像；将变换处理后的样本待检测图像、样本参考图像和样本模板图像输入至训练完成的文本区域检测模型中进行强化训练，根据变换处理后的样本待检测图像所对应的文本定位结果以及所对应的标签值调整训练完成的文本区域检测模型中的模型参数，直至获得强化的文本区域检测模型。

其中，变换处理是指不改变待检测图像的实质内容的处理。例如，待检测图像为票据图像，那么变换处理不是将这个票据图像替换成卡片图像等。变换处理可以是滤波处理、图像亮度变换处理、灰度变换处理、腐蚀膨胀处理、加躁处理、添加阴影处理等不限于此。

具体地，对样本待检测图像进行变换处理，获得变换处理后的样本待检测图像；将变换处理后的样本待检测图像、样本参考图像和样本模板图像输入至训练完成的文本区域检测模型中进行强化训练，根据变换处理后的样本待检测图像所对应的文本定位结果以及所对应的标签值调整训练完成的文本区域检测模型中的模型参数，直至获得强化的文本区域检测模型。

本实施例中的文本区域检测模型的训练方法，基于变换处理后的样本待检测图像对训练完成的文本区域检测模型进行强化训练，能够在不增加样本收集工作量的情况下增加样本，扩充数据集，提高模型的准确性。

在一个实施例中，一种文本区域检测模型的训练方法，包括：

步骤(c1)，获取样本待检测图像、与样本待检测图像的内容类型相匹配的样本参考图像以及样本参考图像所对应的样本模板图像。样本模板图像中标注样本参考图像所对应的文本所在区域。

步骤(c2)，将样本待检测图像、样本参考图像和样本模板图像输入至待训练文本区域检测模型中进行训练。

步骤(c3)，获取标记为正样本标签值的第一像素点的第一数量。正样本标签值用于标注样本待检测图像的文本所在区域。

步骤(c4)，基于样本待检测图像中各像素点的类型预测值和对应的类型标签值，确定样本待检测图像的各像素点的损失值。

步骤(c5)，当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比大于或等于预设比值时，从样本待检测图像的各像素点的损失值中，确定第一像素点的第一损失值。

步骤(c6)，基于样本待检测图像的各像素点的损失值，从标记为负样本标签值的第二像素点的损失值中，按照从高到低的顺序选取第二数量的第二损失值。第二数量基于第一数量确定。负样本标签用于标注样本待检测图像的背景所在区域。

步骤(c7)，将第一数量的第一损失值和第二数量的第二损失值求和处理，获得目标损失值。

步骤(c8)，基于目标损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

步骤(c9)，当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，基于目标像素点的类型预测值和对应的类型标签值确定目标像素点的损失值。目标像素点是指负样本预测值所对应的像素点。

步骤(c10)，对各目标像素点所对应的损失值求和，基于求和后的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

步骤(c11)，根据样本待检测图像所对应的文本定位结果以及所对应的标签值调整待训练文本区域检测模型中的模型参数，直至获得训练完成的文本区域检测模型。

步骤(c12)，基于样本待检测图像中每个像素点的类型预测值和对应的类型标签值确定每个像素点的损失值。

步骤(c13)，从标记为正样本标签值的像素点的损失值中，按照从高到低的顺序选取第三数量的像素点的损失值。

步骤(c14)，从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取第四数量的像素点的损失值。

步骤(c15)，基于对第三数量的损失值和第四数量的损失值进行求和所获得的损失值，在训练完成的文本区域检测模型中进行反向传播，以调整训练完成的文本区域检测模型中的模型参数。

步骤(c16)，对样本待检测图像进行变换处理，获得变换处理后的样本待检测图像。

步骤(c17)，将变换处理后的样本待检测图像、样本参考图像和样本模板图像输入至训练完成的文本区域检测模型中进行强化训练，根据变换处理后的样本待检测图像所对应的文本定位结果以及所对应的标签值调整训练完成的文本区域检测模型中的模型参数，直至获得强化的文本区域检测模型。

上述文本区域检测模型的训练方法，由于样本待检测图像一般是用户拍摄的图像，并且样本待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与样本待检测图像的内容类型相匹配的样本参考图像以及与样本参考图像所对应的样本模板图像，样本模板图像标注样本参考图像所对应的文本所在区域；将样本待检测图像、样本参考图像和样本模板图像输入至待训练的文本区域检测模型进行检测处理，获得样本待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的样本参考图像和所对应的样本模板图像与样本待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的待检测图像也可以准确提取出目标文本区域。

应该理解的是，虽然图2、7至12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、7至12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，为一个实施例中文本区域检测装置的结构框图，提供了一种文本区域检测装置，包括：图像获取模块1302和图像检测模块1304，其中：

图像获取模块1302，用于获取待检测图像、与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像；模板图像中标注参考图像所对应的文本所在区域；

图像检测模块1304，用于将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；文本区域检测模型是根据样本参考图像、样本模板图像和样本待检测图像以及对应的样本标签训练而成的。

上述文本区域检测装置，由于待检测图像一般是用户拍摄的图像，并且待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与待检测图像的内容类型相匹配的参考图像以及与参考图像所对应的模板图像，模板图像标注参考图像所对应的文本所在区域；将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的参考图像和所对应的模板图像与待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的待检测图像也可以准确提取出目标文本区域。

在一个实施例中，图像检测模块1304用于将待检测图像、参考图像和模板图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域，包括：将参考图像灰度化，将灰度化后的参考图像和模板图像合并为二通道图像，将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域。

本实施例中的文本区域检测装置，将参考图像灰度化，并将灰度化后的参考图像和模板图像合并为二通道图像，能够充分融合参考图像和模板图像的像素信息；将待检测图像和二通道图像输入至文本区域检测模型进行检测处理，获得待检测图像所对应的目标文本区域，相对于直接将标注和待检测图像输入至模型中进行检测的方式，能够提高待检测图像的文本区域检测的正确性。

在一个实施例中，图像检测模块1304用于对二通道图像进行特征提取处理，获得第一特征图；对待检测图像进行特征提取处理，获得第二特征图；基于第一特征图和第二特征图进行合并处理，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和进行空间变换后的第一特征图进行合并，得到第三特征图；对第三特征图进行特征提取处理，获得待检测图像所对应的目标文本区域。

本实施例中的文本区域检测装置，对二通道图像和待检测图像分别进行特征提取处理，得到第一特征图和第二特征图，并基于第一特征图和第二特征图进行合并处理，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，按照空间变换矩阵对第一特征图进行空间变换，将第二特征图和空间变换后的第一特征图进行合并，得到第三特征图，再对第三特征图进行一系列的特征提取处理，获得待检测图像所对应的目标文本区域，即对二通道图像和待检测图像先进行特征提取处理，再进行空间变换处理，即进行空间映射等，将所得的结果进行特征提取处理，充分利用文本区域检测模型的结构获得待检测图像所对应的目标文本区域。

在一个实施例中，图像检测模块1304用于将二通道图像输入至第一特征提取单元中，获得第一特征图；第一特征提取单元包括依次相连的卷积层和池化层；将待检测图像输入至第一特征提取单元中，获得第二特征图；将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元后的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；第二特征提取单元包括依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层。

本实施例中的文本区域检测装置，将二通道图像输入至第一特征提取单元中，获得了四维的第一特征图，将待检测图像输入至第一特征提取单元中，获得相同维度的第二特征图，将第一特征图输入至第二特征提取单元后的输出与将第二特征图输入至第二特征提取单元的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，从而能够将二通道图像和待检测图像映射，从而准确提取得到目标文本区域。

在一个实施例中，图像检测模块1304用于将第三特征图输入至第一特征提取单元，获得第四特征图；将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图；将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域。

本实施例中的文本区域检测装置，将第三特征图输入至第一特征提取单元，获得第四特征图，将第四特征图输入卷积层，将卷积层的输出作为上采样层的输入，获得上采样层所输出的第五特征图，将第四特征图和第五特征图进行合并，获得待检测图像所对应的目标文本区域，即卷积池化过程中图像的尺寸经过压缩，后再经过卷积层和上采样层能够扩大感受野。

在一个实施例中，目标文本区域与模板图像中标注的文本所在区域相匹配。文本区域检测装置还包括文本识别模块，文本识别模块用于基于各目标文本区域对待检测图像进行图像分割，获得文本图像集；对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字。

本实施例中的文本区域检测装置，由于目标文本区域与模板图像中标注的文本所在区域相匹配，因此，可通过设置模板图像中标注的文本所在区域检测不同的目标文本区域，并基于各目标文本区域对待检测图像进行图像分割，获得文本图像集；对文本图像集中各文本图像进行文本识别，得到各目标文本区域中的文字，能够提取不同的目标文本区域中的文字，提高模型的可用性。

在一个实施例中，如图14所示，为一个实施例中文本区域检测模型的训练装置的结构框图，提供了一种文本区域检测模型的训练装置，装置包括样本图像获取模块1402和样本图像检测模块1404，其中：

样本图像获取模块1402，用于获取样本待检测图像、与样本待检测图像的内容类型相匹配的样本参考图像以及样本参考图像所对应的样本模板图像；样本模板图像中标注样本参考图像所对应的文本所在区域；

样本图像检测模块1404，用于将样本待检测图像、样本参考图像和样本模板图像输入至待训练文本区域检测模型中进行训练，根据待检测图像所对应的文本定位结果以及所对应的标签值调整待训练文本区域检测模型中的模型参数，直至获得训练完成的文本区域检测模型。

上述文本区域检测模型的训练模块，由于样本待检测图像一般是用户拍摄的图像，并且样本待检测图像可能会存在形变、模糊、错位等问题，因此需要获取与样本待检测图像的内容类型相匹配的样本参考图像以及与样本参考图像所对应的样本模板图像，样本模板图像标注样本参考图像所对应的文本所在区域；将样本待检测图像、样本参考图像和样本模板图像输入至待训练的文本区域检测模型进行检测处理，获得样本待检测图像所对应的目标文本区域；即基于更加规范的内容类型相匹配的样本参考图像和所对应的样本模板图像与样本待检测图像进行文本区域的定位，能够定位目标文本区域，无关文本区域不需要检测，能够有效避免将相邻文字误认为所需提取的字段，对于存在形变、模糊、错位等问题的样本待检测图像也可以准确提取出目标文本区域。

在一个实施例中，标签值为样本待检测图像中像素点的类型标签值；文本定位结果包括样本待检测图像中像素点的类型预测值。样本图像检测模块1404，用于获取待训练文本区域检测模型输出的像素点的类型预测值；基于像素点的类型预测值和对应的类型标签值确定像素点的损失值；基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练装置，将像素点的类型预测值作为输出结果，并基于像素点的类型预测值和对应的类型标签值确定像素点的损失值，基于像素点的损失值在待训练文本区域检测模型中进行反向传播，以调整带训的文本区域检测模型中的模型参数，基于像素点的方式能够训练出更加准确的文本区域检测模型。

在一个实施例中，样本图像检测模块1404用于获取标记为正样本标签值的第一像素点的第一数量；正样本标签值用于标注样本待检测图像的文本所在区域；基于样本待检测图像中各像素点的类型预测值和对应的类型标签值，确定样本待检测图像的各像素点的损失值；从样本待检测图像的各像素点的损失值中，确定第一像素点的第一损失值；基于样本待检测图像的各像素点的损失值，从标记为负样本标签值的第二像素点的损失值中，按照从高到低的顺序选取第二数量的第二损失值；第二数量基于第一数量确定；负样本标签用于标注样本待检测图像的背景所在区域；将第一数量的第一损失值和第二数量的第二损失值求和处理，获得目标损失值；基于目标损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练装置，基于标记为正样本标签值的第一像素点的第一损失值和标记为负样本标签值的第二数量的第二损失值所得到的目标损失值，即按正负样本的一定数量关系选取了一部分损失值进行反向传播，能够提高训练完成的文本区域检测模型的准确性。

在一个实施例中，类型预测值包括负样本类型预测值和正样本类型预测值。样本图像检测模块1404，用于当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，基于目标像素点的类型预测值和对应的类型标签值确定目标像素点的损失值；目标像素点是指负样本预测值所对应的像素点；对目标像素点所对应的损失值求和，基于求和后的损失值在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练装置，当基于像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，说明目标像素点的数量较少，结果可能存在错误，并且该错误可能比较严重；因此对目标像素点的损失值求和进行反向传播，以调整模型参数，能够高训练完成的文本区域检测模型的准确性。

在一个实施例中，样本图像检测模块1404用于基于样本待检测图像中每个像素点的类型预测值和对应的类型标签值确定每个像素点的损失值；从标记为正样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第三数量的像素点的损失值；从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第四数量的像素点的损失值；基于对第三数量的损失值和第四数量的损失值进行求和所获得的损失值，在待训练文本区域检测模型中进行反向传播，以调整待训练文本区域检测模型中的模型参数。

本实施例中的文本区域检测模型的训练装置，从标记为正样本标签值的像素点的损失值中，按照从高到低选取第三数量的像素点的损失值；从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取损失值最高的第四数量的像素点的损失值，并基于第三数量的损失值和第四数量的损失值进行求和后进行反向传播，以调整模型参数，能够对模型进行强化训练，将有些分类容易出错的困难样本进行训练，提高训练完成的模型的准确性。

在一个实施例中，样本图像检测模块1404还用于对样本待检测图像进行变换处理，获得变换处理后的样本待检测图像；将变换处理后的样本待检测图像、样本参考图像和样本模板图像输入至训练完成的文本区域检测模型中进行强化训练，根据变换处理后的样本待检测图像所对应的文本定位结果以及所对应的标签值调整训练完成的文本区域检测模型中的模型参数，直至获得强化的文本区域检测模型。

本实施例中的文本区域检测模型的训练装置，基于变换处理后的样本待检测图像对训练完成的文本区域检测模型进行强化训练，能够在不增加样本收集工作量的情况下增加样本，扩充数据集，提高模型的准确性。

关于文本区域检测装置的具体限定可以参见上文中对于文本区域检测方法的限定，在此不再赘述。上述文本区域检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本区域检测方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本区域检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待检测图像、所述参考图像和所述模板图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域，包括：

将所述参考图像灰度化，将灰度化后的参考图像和所述模板图像合并为二通道图像，将所述待检测图像和所述二通道图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域。

3.根据权利要求2所述的方法，其特征在于，将所述待检测图像和所述二通道图像输入至文本区域检测模型进行检测处理，获得所述待检测图像所对应的目标文本区域，包括：

对所述二通道图像进行特征提取处理，获得第一特征图；

对所述待检测图像进行特征提取处理，获得第二特征图；

基于所述第一特征图和所述第二特征图进行合并处理，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；

按照所述空间变换矩阵对所述第一特征图进行空间变换，将所述第二特征图和进行空间变换后的第一特征图进行合并，得到第三特征图；

对所述第三特征图进行特征提取处理，获得所述待检测图像所对应的目标文本区域。

4.根据权利要求3所述的方法，其特征在于，所述对所述二通道图像进行特征提取处理，获得第一特征图，包括：

将所述二通道图像输入至第一特征提取单元中，获得第一特征图；所述第一特征提取单元包括依次相连的卷积层和池化层；

所述对所述待检测图像进行特征提取处理，获得第二特征图，包括：

将所述待检测图像输入至所述第一特征提取单元中，获得第二特征图；

所述基于所述第一特征图和所述第二特征图进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵，包括：

将所述第一特征图输入至第二特征提取单元后的输出与将所述第二特征图输入至所述第二特征提取单元后的输出进行合并，对合并所得的特征图进行矩阵计算，获得空间变换矩阵；所述第二特征提取单元包括依次相连的特征图大小调整层、卷积层、池化层、向量展平层和全连接层。

5.根据权利要求3所述的方法，其特征在于，所述对所述第三特征图进行特征提取处理，获得所述待检测图像所对应的目标文本区域，包括：

将所述第三特征图输入至第一特征提取单元，获得第四特征图；所述第一特征提取单元包括依次相连的卷积层和池化层；

将所述第四特征图输入卷积层，将所述卷积层的输出作为上采样层的输入，获得所述上采样层所输出的第五特征图；

将所述第四特征图和所述第五特征图进行合并，获得所述待检测图像所对应的目标文本区域。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述目标文本区域与所述模板图像中标注的文本所在区域相匹配；

所述方法还包括：

基于各所述目标文本区域对所述待检测图像进行图像分割，获得文本图像集；

对所述文本图像集中各文本图像进行文本识别，得到各所述目标文本区域中的文字。

7.一种文本区域检测模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述标签值为所述样本待检测图像中像素点的类型标签值；所述文本定位结果包括所述样本待检测图像中像素点的类型预测值；

所述根据所述待检测图像所对应的文本定位结果以及所对应的标签值调整所述待训练文本区域检测模型中的模型参数，包括：

获取所述待训练文本区域检测模型输出的像素点的类型预测值；

基于所述像素点的所述类型预测值和对应的类型标签值确定所述像素点的损失值；

基于所述像素点的损失值在所述待训练文本区域检测模型中进行反向传播，以调整所述待训练文本区域检测模型中的模型参数。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取标记为正样本标签值的第一像素点的第一数量；所述正样本标签值用于标注所述样本待检测图像的文本所在区域；

所述基于所述像素点的所述类型预测值和对应的类型标签值确定所述像素点的损失值，包括：

基于所述样本待检测图像中各像素点的类型预测值和对应的类型标签值，确定所述样本待检测图像的各像素点的损失值；

从所述样本待检测图像的各像素点的损失值中，确定所述第一像素点的第一损失值；

基于所述样本待检测图像的各像素点的损失值，从标记为负样本标签值的第二像素点的损失值中，按照从高到低的顺序选取第二数量的第二损失值；所述第二数量基于所述第一数量确定；所述负样本标签用于标注所述样本待检测图像的背景所在区域；

所述基于所述像素点的损失值在所述待训练文本区域检测模型中进行反向传播，以调整所述待训练文本区域检测模型中的模型参数，包括：

将第一数量的第一损失值和第二数量的第二损失值求和处理，获得目标损失值；

基于所述目标损失值在所述待训练文本区域检测模型中进行反向传播，以调整所述待训练文本区域检测模型中的模型参数。

10.根据权利要求8所述的方法，其特征在于，所述类型预测值包括负样本类型预测值和正样本类型预测值；

当基于所述像素点的类型预测值确定负样本类型预测值与正样本类型预测值之比小于预设比值时，基于目标像素点的所述类型预测值和对应的类型标签值确定所述目标像素点的损失值；所述目标像素点是指负样本预测值所对应的像素点；

对所述各目标像素点所对应的损失值求和，基于求和后的损失值在所述待训练文本区域检测模型中进行反向传播，以调整所述待训练文本区域检测模型中的模型参数。

11.根据权利要求8所述的方法，其特征在于，所述基于所述像素点的所述类型预测值和对应的类型标签值确定所述像素点的损失值，包括：

基于所述样本待检测图像中每个像素点的类型预测值和对应的类型标签值确定每个像素点的损失值；

从标记为正样本标签值的像素点的损失值中，按照从高到低的顺序选取第三数量的像素点的损失值；

从标记为负样本标签值的像素点的损失值中，按照从高到低的顺序选取第四数量的像素点的损失值；

基于对所述第三数量的损失值和第四数量的损失值进行求和所获得的损失值，在所述待训练文本区域检测模型中进行反向传播，以调整所述待训练文本区域检测模型中的模型参数。

12.根据权利要求7至11任一项所述的方法，其特征在于，在获得训练完成的文本区域检测模型之后，所述方法还包括：

对所述样本待检测图像进行变换处理，获得变换处理后的样本待检测图像；

将所述变换处理后的样本待检测图像、所述样本参考图像和所述样本模板图像输入至所述训练完成的文本区域检测模型中进行强化训练，根据所述变换处理后的样本待检测图像所对应的文本定位结果以及所对应的标签值调整所述训练完成的文本区域检测模型中的模型参数，直至获得强化的文本区域检测模型。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。