CN111325205B

CN111325205B - 文档图像方向识别方法、装置及模型的训练方法、装置

Info

Publication number: CN111325205B
Application number: CN202010136041.9A
Authority: CN
Inventors: 周锴; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2023-10-10
Anticipated expiration: 2040-03-02
Also published as: CN111325205A; WO2021174962A1

Abstract

本申请公开了文档图像方向识别方法、装置及模型的训练方法、装置。文档图像识别模型的训练方法包括：根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像，以及分别确定训练图像、注意力裁剪图像以及注意力抹除图像各自的注意力融合特征；根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化或停止训练。利用注意力裁剪和注意力抹除，让文档图像方向识别模型更容易聚焦至文档图像中有区分度的文字部分特征，并且通过减少类内距离，达到了更好的通用文档图像方向判断效果。

Description

文档图像方向识别方法、装置及模型的训练方法、装置

技术领域

本申请涉计算机视觉领域，具体涉及文档图像方向识别方法、装置及模型的训练方法、装置。

背景技术

业务中经常会涉及到证照、文档图像的自动识别，但在识别之前必须保证图像方向是正的才可以进行文本的检测和识别。由于实际业务数据中很多是用户直接拍摄上传的(有可能有0°，90°，180°，270°的情况，其中0°为正向)，无法保证图像方向是正的，所以不论是对存量数据或者线上数据进行识别，都需要人工或者算法将图像旋转为正向才可以进行识别，但人工的方式效率过于低下。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文档图像方向识别方法、装置及模型的训练方法、装置。

依据本申请的第一方面，提供了一种文档图像方向识别模型的训练方法，包括：根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像；根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像各自的注意力融合特征；根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练。

可选地，所述根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像包括：提取训练图像的原始特征；根据注意力机制和所述原始特征生成注意力特征，根据所述注意力特征和所述训练图像生成注意力裁剪图像和注意力抹除图像。

可选地，所述根据所述注意力特征和所述训练图像生成注意力裁剪图像和注意力抹除图像包括：调整注意力特征的特征矩阵至与所述训练图像的大小相适应；从调整后的特征矩阵中确定注意力响应区域；根据所述注意力响应区域的最小包围框从所述训练图像中裁剪出所述注意力裁剪图像；从所述注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框和/或掩模在所述训练图像中抹除相应部分的图像区域，得到注意力抹除图像。

可选地，所述根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像的注意力融合特征包括：分别提取所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像的原始特征；通过注意力机制和各图像的原始特征，分别生成各图像的注意力特征；对每个图像，将该图像的原始特征与注意力特征进行融合，得到该图像的注意力融合特征。

可选地，所述根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练包括：将注意力融合特征通过softmax输出识别结果，根据识别结果和真实值计算交叉熵损失值；根据各注意力融合特征与各图像方向的中心特征计算中心损失值；当各交叉熵损失值和所述中心损失值均小于相应的预设值时停止训练，否则，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化。

可选地，所述注意力机制为注意力扰动机制。

依据本申请的第二方面，提供了一种文档图像方向识别方法，包括：获取待进行方向识别的文档图像；利用通过如上述任一项所述的文档图像方向识别模型的训练方法训练得到的文档图像方向识别模型确定所述文档图像的注意力融合特征，并基于所述注意力融合特征确定所述文档图像的方向。

依据本申请的第三方面，提供了一种文档图像方向识别模型的训练装置，包括：注意力图像单元，用于根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像；特征单元，用于根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像各自的注意力融合特征；控制单元，用于根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练。

可选地，所述注意力图像单元，用于提取训练图像的原始特征；根据注意力机制和所述原始特征生成注意力特征，根据所述注意力特征和所述训练图像生成注意力裁剪图像和注意力抹除图像。

可选地，所述注意力图像单元，用于调整注意力特征的特征矩阵至与所述训练图像的大小相适应；从调整后的特征矩阵中确定注意力响应区域；根据所述注意力响应区域的最小包围框从所述训练图像中裁剪出所述注意力裁剪图像；从所述注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框和/或掩模在所述训练图像中抹除相应部分的图像区域，得到注意力抹除图像。

可选地，所述特征单元，用于分别提取所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像的原始特征；通过注意力机制和各图像的原始特征，分别生成各图像的注意力特征；对每个图像，将该图像的原始特征与注意力特征进行融合，得到该图像的注意力融合特征。

可选地，所述控制单元，用于将注意力融合特征通过softmax输出识别结果，根据识别结果和真实值计算交叉熵损失值；根据各注意力融合特征与各图像方向的中心特征计算中心损失值；当各交叉熵损失值和所述中心损失值均小于相应的预设值时停止训练，否则，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化。

可选地，所述注意力机制为注意力扰动机制。

依据本申请的第四方面，提供了一种文档图像方向识别装置，包括：获取单元，用于获取待进行方向识别的文档图像；识别单元，用于利用通过如上所述的文档图像方向识别模型的训练装置训练得到的文档图像方向识别模型确定所述文档图像的注意力融合特征，并基于所述注意力融合特征确定所述文档图像的方向。

依据本申请的第五方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的文档图像方向识别模型的训练方法或执行如上任一所述的文档图像方向识别方法。

依据本申请的第六方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的文档图像方向识别模型的训练方法或实现如上任一所述的文档图像方向识别方法。

由上述可知，本申请的技术方案，利用注意力机制生成训练图像的注意力裁剪图像和注意力抹除图像，并进一步利用注意力机制分别确定训练图像、注意力裁剪图像以及注意力抹除图像各自的注意力融合特征，根据各注意力融合特征分别识别相应图像的方向，根据各识别结果计算交叉熵损失值和中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练。该技术方案的有益效果在于，利用注意力裁剪和注意力抹除，让训练得到的文档图像方向识别模型更容易聚焦至文档图像中有区分度的文字部分特征，并且通过减少类内距离，达到了更好的通用文档图像方向判断效果，不需要按照文档图像的类型分别训练相应的模型，更适合实际业务场景下的使用，成本更低。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的文档图像方向识别模型的训练方法的流程示意图；

图2示出了根据本申请一个实施例的文档图像方向识别模型的训练流程图；

图3示出了根据本申请一个实施例的文档图像方向识别方法的流程示意图；

图4示出了根据本申请一个实施例的文档图像方向识别模型的训练装置的结构示意图；

图5示出了根据本申请一个实施例的文档图像方向识别装置的结构示意图；

图6示出了根据本申请一个实施例的电子设备的结构示意图；

图7示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

利用算法对图像方向进行自动识别，深度学习是一种非常好的手段。图像方向识别场景下涉及的多是文档图像，如驾驶证、发票等，同一类文档的格式具有一致性，例如，营业执照的格式是由工商行政管理机关统一制定。考虑到这一点，针对每一类文档分别训练文档图像方向识别模型，识别效果可以达到预期。

然而这种方式的局限性也十分明显，就是需要训练的文档图像方向识别模型数量多，资源消耗大，而且每新增一类文档图像，都需要重新训练文档图像方向识别模型，非常的不方便。

因此本申请的设计思路在于，通过合理地利用注意力机制，并通过中心损失函数减少类内距离，训练得到通用性强的文档图像方向识别模型。

图1示出了根据本申请一个实施例的文档图像方向识别模型的训练方法的流程示意图。如图1所示，文档图像方向识别模型的训练方法包括：

步骤S110，根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像。

注意力机制是深度学习发展过程中出现的一项重要技术，例如，在计算机视觉深度学习任务上，由于有些任务较为复杂，往往会加入注意力机制，指导文档图像方向识别模型关注应该关注的图像区域。

本申请的实施例中，使用的注意力算法可以参照现有算法实现。这里以挤压-激励网络(Squeeze-and-Excitation Networks，SENet)为例简单进行介绍。

给定一个输入x，其特征通道数为c_1，通过一系列卷积等一般变换后得到一个特征通道数为c_2的特征。与传统的CNN(卷积神经网络)不一样的是，接下来通过三个操作来重标定前面得到的特征。

首先是Squeeze(挤压)操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

其次是Excitation(激励)操作，它是一个类似于循环神经网络中门的机制。通过参数w来为每个特征通道生成权重，其中参数w被学习用来显式地建模特征通道间的相关性。

最后是一个Reweight(重新加权)的操作，将Excitation的输出的权重看作是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

上述示例是以SENet作为注意力机制的举例说明，当然实际应用中可以不限于使用SENet，例如还可以使用CBAM(Convolutional Block Attention Module，卷积阻滞注意模块)、GCNet(Global Context Network，全局上下文网络)等。

在本步骤中，不同于现有技术对注意力模块的利用方式(现有技术通常直接将注意力模块与图像的特征图直接叠加，以实现重点区域的关注)，而是通过注意力模块对训练图像进行处理，得到注意力裁剪图像和注意力抹除图像。

注意力裁剪图像是用于使文档图像方向识别模型重点关注某些区域。而注意力抹除则是“强迫”文档图像方向识别模型在关注这些区域时，也要关注其他区域，这一点与通常对注意力机制的利用完全不同。

实际上，这样做是考虑到图像的共性与差异性。训练图像可以包括各类文档图像，如驾驶证图像、营业执照图像等等，而如前面所言，同一类文档图像的格式规范性非常强，如果仅以通常的注意力机制的利用方法，就容易产生对特定类别图像的过拟合，无法实现足够的通用性。因此，本申请的方案采用了注意力抹除机制，在既关注重点区域的同时，也要求文档图像方向识别模型在一定程度上关注其他区域，从而达到了更好的效果。

步骤S120，根据注意力机制，分别确定训练图像、注意力裁剪图像以及注意力抹除图像各自的注意力融合特征。

这里的注意力融合特征生成方式，可以与现有技术中的注意力机制利用方式相同，例如将注意力模块的掩模(mask)叠加到图像的特征图上，得到注意力融合特征。

步骤S130，根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果。

这里，图像的方向就是指图像中内容的朝向，例如营业执照的图像，正常阅读的方向设为0°向，0°向依顺时针旋转90°得到的是90°向，再旋转得到180°向、再旋转得到270°向。由于方向的种类可以预先知道，因此该方向识别问题可以化为一个分类问题。

步骤S140，根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化或停止训练。

在分类问题中，使用交叉熵作为损失函数是一种较为常用的做法，本申请的方案可以理解为判断图像方向属于0°向、90°向、180°向以及270°向中的哪一种，因此也可以视为分类问题，选用交叉熵作为损失函数的效果很好。

但是交叉熵是用于提升类间距离，本申请还提出了采用中心损失函数(centerloss)的组合方案，中心损失函数可以计算一个batch(一批训练图像)的注意力融合特征的center loss，减小类内距离，有利于分类准确性的提升。

可见，图1所示的文档图像方向识别模型的训练方法，利用注意力裁剪和注意力抹除，让训练得到的文档图像方向识别模型更容易聚焦至文档图像中有区分度的文字部分特征，并且通过减少类内距离，达到了更好的通用文档图像方向判断效果，不需要按照文档图像的类型分别训练相应的文档图像方向识别模型，更适合实际业务场景下的使用，成本更低。

在本申请的一个实施例中，上述文档图像方向识别模型的训练方法中，根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像包括：提取训练图像的原始特征；根据注意力机制和原始特征生成注意力特征，根据注意力特征和训练图像生成注意力裁剪图像和注意力抹除图像。

具体实现时，可以是先通过特征提取网络提取训练图像的原始特征(特征提取网络主干不做限制，目前常用的ResNet、Inception、ShuffleNet等均可，原始特征即提取出的高层图像特征)，再利用注意力机制对原始特征进行处理，得到注意力特征，注意力特征也可以叫做注意力模块。

注意力特征是一个特征矩阵(也即张量，多维数组)，通常表现为一个mask，可以与图像的特征图(feature map)进行加减乘除等运算。注意力特征中的值的大小表征文档图像方向识别模型是否应该关注原始特征中的对应位置的特征。也就是值越大，关注度越高。

因此，注意力裁剪就是需要从训练图像中裁剪出关注度高的区域，而注意力抹除则是要从通过抹除某些区域，使文档图像方向识别模型也会对其他区域具有足够高的关注度。

在本申请的一个实施例中，上述文档图像方向识别模型的训练方法中，根据注意力特征和训练图像生成注意力裁剪图像和注意力抹除图像包括：调整注意力特征的特征矩阵至与训练图像的大小相适应；从调整后的特征矩阵中确定注意力响应区域；根据注意力响应区域的最小包围框从训练图像中裁剪出注意力裁剪图像；从注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框和/或掩模在训练图像中抹除相应部分的图像区域，得到注意力抹除图像。

注意力裁剪图像、注意力抹除图像以及训练图像都需要在后续进行注意力特征融合，为保证一致性要进行缩放处理，因此要调整注意力特征的特征矩阵至与训练图像的大小相适应，也就是进行resize操作，具体可以通过双线性插值来实现。

注意力响应区域的确定可以通过响应阈值来实现。例如，设置一个响应阈值T，从注意力特征的特征矩阵中筛选出值大于T的元素，从而就确定了注意力响应区域，实际上也就是高响应区域，意味着通常情况下，文档图像方向识别模型应当更关注原始特征中的这部分特征。因此可以根据注意力响应区域的最小包围框从训练图像中裁剪出注意力裁剪图像。

然而，训练是一个持续的过程，几乎很难在开始时就使得文档图像方向识别模型学习到较好的参数，也就是说，很可能因为注意力机制导致某些区域没有得到重点关注。举例而言，注意力响应区域中的某些部分可能被关注到从而被学习，但是其余部分就没有被得到较好的学习。因此，从注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框(由于是进行抹除，因此也可以使用mask)在训练图像中抹除相应部分的图像区域，得到注意力抹除图像，这样就强迫文档图像方向识别模型必须不关注某些区域(很大概率是学习过的区域)，也就能进一步提高训练效果。

在本申请的一个实施例中，上述文档图像方向识别模型的训练方法中，根据注意力机制，分别确定训练图像、注意力裁剪图像以及注意力抹除图像的注意力融合特征包括：分别提取训练图像、注意力裁剪图像以及注意力抹除图像的原始特征；通过注意力机制和各图像的原始特征，分别生成各图像的注意力特征；对每个图像，将该图像的原始特征与注意力特征进行融合，得到该图像的注意力融合特征。

这里，原始特征的提取依然可以先通过特征提取网络提取训练图像的原始特征，特征提取网络主干同样不做限制，目前常用的ResNet、Inception、ShuffleNet等均可。原始特征即提取出的高层图像特征。后续对注意力机制的利用也可以参照现有技术实现，例如选用SENe、CBAM、GCNet等，对原始特征按照相应的注意力算法得到注意力特征，例如为一个注意力mask，再将注意力mask与原始特征分别进行叠加，即矩阵对应位置相加，得到相应的注意力融合特征。

可见，最终得到的注意力融合特征包括三种：训练图像的注意力融合特征、注意力裁剪图像的注意力融合特征以及注意力抹除图像的注意力融合特征。

在本申请的一个实施例中，上述文档图像方向识别模型的训练方法中，根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化或停止训练包括：将注意力融合特征通过softmax输出识别结果，根据识别结果和真实值计算交叉熵损失值；根据各注意力融合特征与各图像方向的中心特征计算中心损失值；当各交叉熵损失值和中心损失值均小于相应的预设值时停止训练，否则，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化。

训练图像的注意力融合特征、注意力裁剪图像的注意力融合特征以及注意力抹除图像的注意力融合特征，分别通过softmax都能得到一个识别结果(logits)，即图像对应各方向的概率。由图像的标签(label)，也就是真实值可以根据交叉熵损失函数计算出交叉熵损失值。其中，根据一训练图像得到的注意力抹除图像和注意力裁剪图像的label均与该训练图像的label相同。Softmax是以分类为目标的神经网络中常用的分类器，与交叉熵损失函数结合具有不错的效果，能够提升类间距离。

并且，本申请利用中心损失函数，使得相同类别的图像的注意力融合特征的类内距离减少，进一步提升了分类效果。具体来说，如果两个图像的方向相同，那么就是同一类(无论具体是训练图像、注意力裁剪图像还是注意力抹除图像)，为每个类确定一个中心特征。在得到每个图像的注意力融合特征后，根据该图像的标签所指示的方向，即真实值，确定计算中心损失值所使用的中心特征，然后根据该图像的注意力融合特征和该中心特征的差，计算中心损失值。这样中心损失值越小，就要求注意力融合特征与相应类的中心特征越接近，从而减小了类内距离。

在每次参数优化时，可以对各类的中心特征进行更新。具体的文档图像方向识别模型参数优化方式包括但不限于梯度更新。更新后的文档图像方向识别模型可以进行迭代训练，直至损失函数收敛。

在本申请的一个实施例中，上述文档图像方向识别模型的训练方法中，注意力机制为注意力扰动机制。

这里的注意力扰动是指对注意力的特征矩阵进行随机扰动，以避免过拟合。下面对注意力扰动进行简单的介绍，这部分中提到的“模型”泛指各类机器学习模型。

首先，获取原始注意力模块；原始注意力模块是根据注意力算法和图像的特征图生成的。其次，将原始注意力模块分离为多个子模块。可知，各子模块分别保留了原始注意力模块的一部分特性，但又各自不完全相同。最后，根据多个子模块对原始注意力模块进行随机扰动，得到注意力扰动模块。

举一个简化的例子来说，原始注意力模块可以指导模型更关注黑色字体，但是这样也会使得模型对黑色稍浅的字体有忽略。而通过随机扰动，使得模型关注的颜色区间变大，但仍符合黑色这一主要特点，因此泛用性也就更强，鲁棒性更好。

由于加入的随机扰动因素，能够使得模型在注意力机制的指导下仍能够关注到图像的重点区域，同时鲁棒性有了显著提升，例如希望模型更关注黑色字体，那么使用注意力扰动模块的模型，对于黑色稍浅的字体也能够有着足够的关注度，因此识别效果会更好，更贴近于实际的应用场景，泛用性强。同时注意力扰动模块的使用方式与原始注意力模块的使用方式相同，便于进行对照实验，有助于比较各类方式的有效性。

在本申请的一个实施例中，上述方法中，将原始注意力模块分离为多个子模块包括：根据原始注意力模块包含的指定维度，将原始注意力模块分离为多个子模块。

前面提到，原始注意力模块是一个张量，包含多个维度，因此按指定维度进行子模块的分类，可以使得其他维度保持不变，在增加随机扰动的同时也保证了稳定性。具体地，在本申请的一个实施例中，上述方法中，指定维度为批尺寸维度。

批尺寸(batchsize)是指模型训练时，一次训练所选取的样本数。

举例而言，原始注意力模块包含的维度为[batchsize，height，width，channel]，其中height指图像高度，width指图像宽度，channel指通道数。一个原始注意力模块的维度为[16，64，64，128]，则将此原始注意力模块分离为16个[1，64，64，128]的张量，得到的每一个张量即为一个子模块。

在本申请的一个实施例中，上述方法中，根据多个子模块对原始注意力模块进行随机扰动包括：对多个子模块进行预设的统计计算，根据统计计算结果对原始注意力模块进行随机扰动。

统计计算可以有多种方式，例如求均值、求方差、求标准差等，这些值均在一定程度上反映出数据的特点，因此以统计计算的结果实现随机扰动，能够进一步保证扰动的效果。

在本申请的一个实施例中，上述方法中，对多个子模块进行预设的统计计算包括：计算多个子模块的标准差。具体地，在本申请的一个实施例中，上述方法中，根据统计计算结果对原始注意力模块进行随机扰动包括：根据预设的扰动比率和标准差生成多个扰动区间；以均匀分布的方式随机形成与各扰动区间对应的注意力扰动基础掩模；对生成的各注意力扰动基础掩模进行链接，得到与原始注意力模块维度相同的注意力扰动掩模；将注意力扰动掩模与原始注意力模块进行叠加。

例如，从0.5～1之间选择扰动比disturb_ratio(实验表明两个端点值的效果均较好)，将该disturb_ratio与得到的标准差S_i进行计算得到扰动区间[-disturb_ratio*S_i,disturb_ratio*S_i]。以原始注意力模块的维度为[16，64，64，128]，那么标准差S_i有16个值，相应地，能够计算出16个扰动区间，也就是以均匀分布的方式随机形成16个[1，64，64，128]维度的注意力扰动基础掩模mask。之后将这16个注意力扰动基础掩模进行链接，也就形成了一个与原始注意力模块维度相同(即[16，64，64，128])的注意力扰动掩模。

可见，得到的注意力扰动掩模与原始注意力模块维度相同，因此可以按位置对应叠加，得到注意力扰动模块。如上述注意力扰动掩模维度为[16，64，64，128]，原始注意力模块维度也为[16，64，64，128]，故可以直接对应位置相加，获得一个新的扰动注意力模块，维度也为[16，64，64，128]。

注意力扰动模块的利用方式与现有方案类似，将注意力扰动模块加到原始的特征图上，然后继续之后的各种卷积操作。

在本申请的一个实施例中，上述方法还包括：将注意力扰动模块与批标准化网络进行结合，以避免深度学习模型的过拟合。

现在的大部分深度学习模型都存在批标准化网络(batch normalization，BN)层，它的优势包括(1)可以加快训练速度，可以使用较大的学习率来训练网络；(2)提高网络的泛化能力；等等。

2012年，Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了Dropout。其中指出，当一个复杂的前馈神经网络被训练在小的数据集时，容易造成过拟合。为了防止过拟合，可以通过阻止特征检测器的共同作用来提高神经网络的性能。同一年，Alex、Hinton在其论文《ImageNetClassification with Deep Convolutional Neural Networks》中用到了Dropout算法，用于防止过拟合。

但直接使用Dropout配合BN来避免神经网络过拟合的效果是非常差的，究其核心原因即是Dropout在网络测试的时候神经元会产生“variance shift”，即方差偏移。

由于本申请的方案在训练时并不丢弃某些神经元，而是基于统计量进行扰动，基本不会产生太大的方差偏移，所以可自由结合BN使用。

经过实验，注意力扰动模块相比于单纯的注意力模块而言效果更好。因此在本申请的实施例中，可以选用注意力扰动模块来得到注意力特征的特征矩阵。

在针对发票图像和驾驶证图像的测试集上，本申请技术方案与几种其他方案的对照效果如表1所示。其中，训练过程采用的训练图像包括：营业执照图像3356张，许可证图像3568张，菜单图像4320张，身份证图像4320张，每个方向各占四分之一。测试集中的测试图像包括：驾驶证1496张，发票1396张，每个方向各占四分之一。

表1

算法方案	发票测试集	驾驶证测试集
			方案一	86.70％	44.24
方案二	86.60	90.08
			方案三	93.12	92.98
方案四	98.86	97.19

其中，方案一为简单的图像分类网络，可见其泛化性能较差；方案二的模型采用ShuffleNetV2+CBAM注意力的架构训练得到；方案二的模型采用ShuffleNetV2+CBAM注意力+注意力扰动的架构训练得到；方案四为采用注意力裁剪、注意力抹除、中心损失函数的本申请方案。可见本申请方案的效果显著优于其他方案。

图2示出了根据本申请一个实施例的文档图像方向识别模型的训练流程图，具体为迭代训练中的一个训练阶段。

如图2所示，在获取到该训练阶段使用的训练图像后，对训练图像通过特征提取网络进行特征提取，得到训练图像的原始特征。利用注意力机制和训练图像的原始特征，生成训练图像的注意力特征，并基于训练图像的注意力特征，对训练图像进行注意力裁剪和注意力抹除，得到注意力裁剪图像和注意力抹除图像。令注意力裁剪图像和注意力抹除图像的标签均与训练图像相同。

然后，对注意力裁剪图像和注意力抹除图像也分别通过特征提取网络进行特征提取，得到注意力裁剪图像的原始特征和注意力抹除图像的原始特征。再通过注意力机制，生成注意力裁剪图像的注意力特征和注意力抹除图像的注意力特征。

对训练图像的原始特征和注意力特征、注意力裁剪图像的原始特征和注意力特征、以及注意力抹除图像的原始特征和注意力特征分别进行融合，得到训练图像的注意力融合特征、注意力裁剪图像的注意力融合特征以及注意力抹除图像的注意力融合特征。

再将三个注意力融合特征分别输入softmax，得到softmax输出的识别结果logits1、logits 2和logits 3。

对该训练阶段使用的batch中的每张训练图像都进行如上述的处理，最终可以按照识别结果，得到一个图像在各方向上的预测分布，而根据batch中训练的标签也可以得到图像在各方向上的真实分布。根据预测分布和真实分布，通过KL散度可以计算交叉熵损失值。最终三个交叉熵损失值分别对应训练图像、注意力裁剪图像和注意力抹除图像。

对得到的所有注意力融合特征，可以按照原图像的标签进行归类，将每个类下的所有注意力融合特征分别与该类的中心特征作比较，通过求差的平方和均值等方式，最终计算出一个中心损失值。

根据三个交叉熵损失值以及一个中心损失值，对文档图像方向识别模型的效果进行评估。如果认为文档图像方向识别模型达到预期，就停止训练，如果未到达预期，可以根据这三个交叉熵损失值以及一个中心损失值对文档图像方向识别模型的参数进行梯度更新。其中还可以更新类的中心特征。

图3示出了根据本申请一个实施例的文档图像方向识别方法的流程示意图。如图3所示，该文档图像方向识别方法包括：

步骤S310，获取待进行方向识别的文档图像。

步骤S320，利用文档图像方向识别模型确定文档图像的注意力融合特征，并基于注意力融合特征确定文档图像的方向。其中，文档图像方向识别模型是通过如上任一实施例的文档图像方向识别模型的训练方法训练得到的。

这里需要说明的是，注意力裁剪和注意力抹除仅在训练阶段使用，而训练好的文档图像方向识别模型可以直接根据输入的文档图像进行特征提取和分类。进一步地，可以根据识别出的文档图像方向，对文档图像进行调整，使其为正向，即0°向。

图4示出了根据本申请一个实施例的图像方向识别模型的训练装置的结构示意图。如图4所示，图像方向识别模型的训练装置400包括：

注意力图像单元410，用于根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像。

上述示例是以SENet作为注意力机制的举例说明，当然实际应用中可以不限于使用SENet，例如还可以使用CBAM(Convolutional Block Attention Module，卷积阻滞注意模块)、GCNet(暂无中文名)等。

特征单元420，用于根据注意力机制，分别确定训练图像、注意力裁剪图像以及注意力抹除图像各自的注意力融合特征。

控制单元430，用于根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值和中心损失值，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化或停止训练。

这里，图像的方向就是指图像中内容的朝向，例如营业执照的图像，正常阅读的方向设为0°向，0°向依顺时针旋转90°得到的是90°向，再旋转得到180°向、再旋转得到270°向。

由于方向的种类可以预先知道，因此该方向识别问题可以化为一个分类问题。

可见，图4所示的文档图像方向识别模型的训练装置，利用注意力裁剪和注意力抹除，让训练得到的文档图像方向识别模型更容易聚焦至文档图像中有区分度的文字部分特征，并且通过减少类内距离，达到了更好的通用文档图像方向判断效果，不需要按照文档图像的类型分别训练相应的文档图像方向识别模型，更适合实际业务场景下的使用，成本更低。

在本申请的一个实施例中，上述文档图像方向识别模型的训练装置中，注意力图像单元410，用于提取训练图像的原始特征；根据注意力机制和原始特征生成注意力特征，根据注意力特征和训练图像生成注意力裁剪图像和注意力抹除图像。

在本申请的一个实施例中，上述文档图像方向识别模型的训练装置中，注意力图像单元410，用于调整注意力特征的特征矩阵至与训练图像的大小相适应；从调整后的特征矩阵中确定注意力响应区域；根据注意力响应区域的最小包围框从训练图像中裁剪出注意力裁剪图像；从注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框和/或掩模在训练图像中抹除相应部分的图像区域，得到注意力抹除图像。

在本申请的一个实施例中，上述文档图像方向识别模型的训练装置中，特征单元420，用于分别提取训练图像、注意力裁剪图像以及注意力抹除图像的原始特征；通过注意力机制和各图像的原始特征，分别生成各图像的注意力特征；对每个图像，将该图像的原始特征与注意力特征进行融合，得到该图像的注意力融合特征。

在本申请的一个实施例中，上述文档图像方向识别模型的训练装置中，控制单元430，用于将注意力融合特征通过softmax输出识别结果，根据识别结果和真实值计算交叉熵损失值；根据各注意力融合特征与各图像方向的中心特征计算中心损失值；当各交叉熵损失值和中心损失值均小于相应的预设值时停止训练，否则，根据交叉熵损失值和中心损失值对文档图像方向识别模型进行参数优化。

在本申请的一个实施例中，上述文档图像方向识别模型的训练装置中，注意力机制为注意力扰动机制。

图5示出了根据本申请一个实施例的文档图像方向识别装置的结构示意图。如图5所示，文档图像方向识别装置500包括：

获取单元510，用于获取待进行方向识别的文档图像；

识别单元520，用于利用文档图像方向识别模型确定文档图像的注意力融合特征，并基于注意力融合特征确定文档图像的方向。其中，文档图像方向识别模型是通过如上任一实施例的文档图像方向识别模型的训练装置训练得到的

注意力裁剪和注意力抹除仅在训练阶段使用，而训练好的文档图像方向识别模型可以直接根据输入的文档图像进行特征提取和分类。进一步地，可以根据识别出的文档图像方向，对文档图像进行调整，使其为正向，即0°向。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的技术方案，利用注意力机制生成训练图像的注意力裁剪图像和注意力抹除图像，并进一步利用注意力机制分别确定训练图像、注意力裁剪图像以及注意力抹除图像各自的注意力融合特征，根据各注意力融合特征分别识别相应图像的方向，根据各识别结果计算交叉熵损失值和中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练。该技术方案的有益效果在于，利用注意力裁剪和注意力抹除，让训练得到的文档图像方向识别模型更容易聚焦至文档图像中有区分度的文字部分特征，并且通过减少类内距离，达到了更好的通用文档图像方向判断效果，不需要按照文档图像的类型分别训练相应的文档图像方向识别模型，更适合实际业务场景下的使用，成本更低。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的文档图像识别模型的训练装置和文档图像识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图6示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备600包括处理器610和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器620。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码631的存储空间630。例如，用于存储计算机可读程序代码的存储空间630可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码631。计算机可读程序代码631可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所述的计算机可读存储介质。图7示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质700存储有用于执行根据本申请的方法步骤的计算机可读程序代码631，可以被电子设备600的处理器610读取，当计算机可读程序代码631由电子设备600运行时，导致该电子设备600执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码631可以执行上述任一实施例中示出的文档图像方向识别模型的训练方法或者文档图像方向识别方法。计算机可读程序代码631可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文档图像方向识别模型的训练方法，包括：根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像；根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像各自的注意力融合特征；根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练；

所述根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像包括：提取训练图像的原始特征；根据注意力机制和所述原始特征生成注意力特征，根据所述注意力特征和所述训练图像生成注意力裁剪图像和注意力抹除图像；

所述根据所述注意力特征和所述训练图像生成注意力裁剪图像和注意力抹除图像包括：调整注意力特征的特征矩阵至与所述训练图像的大小相适应；从调整后的特征矩阵中确定注意力响应区域；根据所述注意力响应区域的最小包围框从所述训练图像中裁剪出所述注意力裁剪图像；从所述注意力响应区域中随机选取部分元素，根据该部分元素的最小包围框和/或掩模在所述训练图像中抹除相应部分的图像区域，得到注意力抹除图像。

2.如权利要求1所述的文档图像方向识别模型的训练方法，其特征在于，所述根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像的注意力融合特征包括：分别提取所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像的原始特征；通过注意力机制和各图像的原始特征，分别生成各图像的注意力特征；对每个图像，将该图像的原始特征与注意力特征进行融合，得到该图像的注意力融合特征。

3.如权利要求1所述的文档图像方向识别模型的训练方法，其特征在于，所述根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练包括：将注意力融合特征通过softmax输出识别结果，根据识别结果和真实值计算交叉熵损失值；根据各注意力融合特征与各图像方向的中心特征计算中心损失值；当各交叉熵损失值和所述中心损失值均小于相应的预设值时停止训练，否则，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化。

4.如权利要求1-3中任一项所述的文档图像方向识别模型的训练方法，其特征在于，所述注意力机制为注意力扰动机制。

5.一种文档图像方向识别方法，包括：获取待进行方向识别的文档图像；利用通过权利要求1-4中任一项所述的方法训练得到的文档图像方向识别模型确定所述文档图像的注意力融合特征，并基于所述注意力融合特征确定所述文档图像的方向。

6.一种文档图像方向识别模型的训练装置，包括：注意力图像单元，用于根据注意力机制，生成训练图像的注意力裁剪图像和注意力抹除图像；特征单元，用于根据注意力机制，分别确定所述训练图像、所述注意力裁剪图像以及所述注意力抹除图像各自的注意力融合特征；控制单元，用于根据各注意力融合特征分别识别相应图像的方向，得到相应的识别结果；根据各识别结果计算交叉熵损失值，以及根据各注意力融合特征计算中心损失值，根据交叉熵损失值和中心损失值对所述文档图像方向识别模型进行参数优化或停止训练；

7.一种文档图像方向识别装置，包括：获取单元，用于获取待进行方向识别的图像；识别单元，用于利用通过权利要求6所述的装置训练得到的图像方向识别模型确定所述图像的注意力融合特征，并基于所述注意力融合特征确定所述图像的方向。

8.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-4中任一项所述的方法，或者，执行如权利要求5所述的方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-4中任一项所述的方法，或者，实现如权利要求5所述的方法。