CN110807455A

CN110807455A - 基于深度学习的票据检测方法、装置、设备及存储介质

Info

Publication number: CN110807455A
Application number: CN201910884908.6A
Authority: CN
Inventors: 洪振厚; 王健宗; 朱星华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18

Abstract

本发明涉及人工智能领域，公开了一种基于深度学习的票据检测方法、装置、设备及存储介质，本发明将识别票据后提取的文字输入到STN网络中，并对文字进行细致的矫正，提高了文字识别的准确性以及票据检测的效率。本发明方法包括：获取需要检测的票据图片；将票据图片进行归一化处理，获取到归一化后的图片；根据卷积神经网络模型，将归一化后的图片进行角度矫正，获取到调整后的图片；根据预置网络模型，在调整后的图片中提取需要的文本信息，获取到带有文本信息的文本图片；根据空间变换网络STN模型，在文本图片中矫正文本信息，获取到输出图片，输出图片上带有矫正文字。

Description

基于深度学习的票据检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于深度学习的票据检测方法、装置、设备及存储介质。

背景技术

票据是依据法律按照规定形式制成的并显示有支付金钱义务的凭证，现各大企业将票据作为结算费用的统计信息，因此需要将这些信息进行入库保存，当进行相对应的票据数据录入工作时，票据检测系统能够正确地将票据当中的文本信息提取出来，其重要性不言而喻。

现有的票据检测往往会在检测之前对票据进行预处理，将票据进行预处理后再进行票据的检测，待检测后再对票据中的文本进行矫正。

然而，在对票据文本矫正的过程中，不能兼顾整个票据上的文本，这就导致了文字识别准确性不高，票据检测的效率低下。

发明内容

本发明提供了一种基于深度学习的票据检测方法、装置、设备及存储介质，用于解决票据文本检测时中文字识别准确性不高的问题，提高了票据文本检测的准确率以及效率。

本发明实施例的第一方面提供一种基于深度学习的票据检测方法，包括：获取需要检测的票据图片；将所述票据图片进行归一化处理，获取到归一化后的图片；根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

可选的，在本申请实施例第一方面的第一种实现方式中，获取所述文本信息的第一文字坐标；获取变换参数，所述变换参数映射所述第一文字坐标与预置文字坐标之间的坐标关系，所述预置文字坐标限定矫正文字的大小方向以及位置；根据所述预置文字坐标以及所述变换参数，计算第二文字坐标，所述第二文字坐标与所述第一文字坐标的坐标位置相互对应；根据所述第一文字坐标与所述第二文字坐标，得到带有矫正文字的所述输出图片。

可选的，在本发明实施例第一方面的第二种实现方式中，获取所述第一文字坐标上的第一像素值；获取所述第二文字坐标上的第二像素值；根据预置规则将所述第一像素值填充到所述第二像素值上，获取到带有矫正文字的所述输出图片。

可选的，在本发明实施例第一方面的第三种实现方式中，获取所述票据图片上的像素值；将所述像素值进行归一化，获取到归一化后的图片。

可选的，在本发明实施例第一方面的第四种实现方式中，获取所述归一化后的图片四个边缘的目标位置坐标以及目标坐标次序；获取所述目标位置坐标与预置标准坐标之间的旋转角度，所述预置标准坐标为标准票据图片四个边缘的位置坐标；获取所述目标坐标次序与预置标准次序之间的旋转方向，所述预置标准次序为从所述标准票据图片的左上角位置开始依次顺时针获取；根据所述旋转角度与所述旋转方向，对所述归一化后的图片进行旋转调整，获取到调整后的图片。

可选的，在本发明实施例第一方面的第五种实现方式中，在所述调整后的图片中提取所述文本信息的文本特征；将所述文本特征循环连接，得到文本框；将所述文本框输出，得到文本行，并获取到带有所述文本行的文本图片。

可选的，在本发明实施例第一方面的第六种实现方式中，根据均方根RMS函数计算所述调整后的图片的损失值；利用优化器对所述损失值进行优化，优化所述调整后的图片。

本发明的第二方面提供了一种基于深度学习的票据检测装置，包括：获取单元，用于获取需要检测的票据图片；处理单元，用于将所述票据图片进行归一化处理，获取到归一化后的图片；调整单元，用于根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；提取单元，用于根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；矫正单元，用于根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

可选的，在本申请实施例第二方面的第一种实现方式中，矫正单元包括：第一获取模块，用于获取所述文本信息的第一文字坐标；第二获取模块，用于获取变换参数，所述变换参数映射所述第一文字坐标与预置文字坐标之间的坐标关系，所述预置文字坐标限定矫正文字的大小方向以及位置；计算模块，用于根据所述预置文字坐标以及所述变换参数，计算第二文字坐标，所述第二文字坐标与所述第一文字坐标的坐标位置相互对应；输出模块，用于根据所述第一文字坐标与所述第二文字坐标，得到带有矫正文字的所述输出图片。

可选的，在本申请实施例第二方面的第二种实现方式中，输出模块具体用于：获取所述第一文字坐标上的第一像素值；获取所述第二文字坐标上的第二像素值；根据预置规则将所述第一像素值填充到所述第二像素值上，获取到带有矫正文字的所述输出图片。

可选的，在本申请实施例第二方面的第三种实现方式中，处理单元具体用于：获取所述票据图片上的像素值；将所述像素值进行归一化，获取到归一化后的图片。

可选的，在本申请实施例第二方面的第四种实现方式中，调整单元具体用于：获取所述归一化后的图片四个边缘的目标位置坐标以及目标坐标次序；获取所述目标位置坐标与预置标准坐标之间的旋转角度，所述预置标准坐标为标准票据图片四个边缘的位置坐标；获取所述目标坐标次序与预置标准次序之间的旋转方向，所述预置标准次序为从所述标准票据图片的左上角位置开始依次顺时针获取；根据所述旋转角度与所述旋转方向，对所述归一化后的图片进行旋转调整，获取到调整后的图片。

可选的，在本申请实施例第二方面的第五种实现方式中，提取单元具体用于：在所述调整后的图片中提取所述文本信息的文本特征；将所述文本特征循环连接，得到文本框；将所述文本框输出，得到文本行，并获取到带有所述文本行的文本图片。

可选的，在本申请实施例第二方面的第六种实现方式中，基于深度学习的票据检测装置还包括：计算单元，用于根据均方根RMS函数计算所述调整后的图片的损失值；优化单元，用于利用优化器对所述损失值进行优化，优化所述调整后的图片。

本发明第三方面提供了一种基于深度学习的票据检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于深度学习的票据检测设备执行上述第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明将识别票据后提取的文字输入到STN网络中，并对文字进行细致的矫正，提高了文字识别的准确性以及票据检测的效率。

附图说明

图1为本发明实施例中基于深度学习的票据检测方法的一个实施例示意图；

图2为本发明实施例中基于深度学习的票据检测方法的另一个实施例示意图；

图3为本发明实施例中基于深度学习的票据检测装置的一个实施例示意图；

图4为本发明实施例中基于深度学习的票据检测装置的另一个实施例示意图；

图5为本发明实施例中基于深度学习的票据检测设备的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例中的具体流程进行描述，请参阅图1，本发明实施例基于深度学习的票据检测方法一个实施例包括：

101、获取需要检测的票据图片。

服务器获取需要检测的票据图片。服务器获取需要进行处理的票据图片，此处并不对票据图片的格式进行限定，票据图片的大小为常规大小(长为24CM，宽为14CM)，此处对票据图片的大小不做限定。

需要说明的是，可以识别票据图片中的字符包括：印刷体，例如：中文印刷体(简繁体)、英文印刷体、数字印刷体；手写体，例如：中文手写体(简繁体)、英文手写体、数字手写体；符号类，例如：标识码、条码、CheckBox、╳、▇、○、●；可定制符号与可定制字符，例如：日文、韩文、蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文。在此处并不对所识别的字符进行限定。

可以理解的是，本发明的执行主体可以为基于深度学习的票据检测装置或者服务器，还可以是其他具有深度学习网络模型的票据检测装置，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、将票据图片进行归一化处理，获取到归一化后的图片。

服务器将票据图片进行归一化处理，获取到归一化后的图片。服务器获取票据图片上的像素值；服务器将像素值进行归一化，获取到归一化后的图片。

服务器对获取到的票据图片进行归一化处理。具体的，将票据图片归一化即像素归一化，归一化并没有改变图像的对比度，同时保证了归一化后的所有图片像素值在[0，1]范围内。所用公式如下：

式中：a'为票据图片归一化后的像素值，a为票据图片的原始像素值。

可以理解的是，对票据图片进行归一化处理主要是为了数据处理方便，把数据映射到0～1范围之内处理，再将处理后的图片或数据输入到网络模型中，服务器计算更加便捷快速。

103、根据卷积神经网络模型，将归一化后的图片进行角度矫正，获取到调整后的图片。

服务器根据卷积神经网络模型，将归一化后的图片进行角度矫正，获取到调整后的图片。服务器获取归一化后的图片四个边缘的目标位置坐标以及目标坐标次序；服务器获取目标位置坐标与预置标准坐标之间的旋转角度，预置标准坐标为标准票据图片四个边缘的位置坐标；服务器获取目标坐标次序与预置标准次序之间的旋转方向，预置标准次序的获取次序为从标准票据图片的左上角位置开始依次顺时针获取；服务器根据旋转角度与旋转方向，对归一化后的图片进行旋转调整，获取到调整后的图片。

服务器是通过获取票据图片四个边缘的坐标以及坐标次序来进行角度矫正的，票据四个边缘的位置坐标以及坐标次序是利用卷积神经网络(convolutional neuralnetwork，CNN)获取的，CNN是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks)，是深度学习的代表算法之一。CNN具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此CNN能使的输入图像和网络的拓扑结构更吻合。CNN包括VGGNet结构、GoogleNet结构以及ResNet结构，服务器利用CNN网络模型获取到的结果准确度更高。

进一步的解释说明，服务器利用目标位置坐标和预置标准坐标计算出旋转矩阵，再计算出欧拉角，明确图片需要旋转的角度；服务器利用目标坐标次序以及预置标准次序，计算出图片需要旋转的方向，确定旋转的方向为顺时针或逆时针。

104、根据预置网络模型，在调整后的图片中提取需要的文本信息，获取到带有文本信息的文本图片。

服务器根据预置网络模型，在调整后的图片中提取需要的文本信息，获取到带有文本信息的文本图片。服务器在调整后的图片中提取文本信息的文本特征；服务器将文本特征循环连接，得到文本框；服务器将文本框输出，得到文本行，并获取到带有文本行的文本图片。这里的预置网络模型为场景文本检测(detecting text in natural image withconnectionist text proposal network，CTPN)，CTPN网络模型中主要包括文字检测与文字识别，文字检测的主要功能为：从图像中找到文字区域，并将文字区域从原始图像中分离出来；文字识别的主要功能为：从分离出来的图像上，进行文字识别。文字识别的主要流程为：预处理，进行图像去噪(滤波算法)、图像增强、缩放，目的是去除背景或者噪点，突出文字部分，并缩放图片为适于处理的大小；特征抽取，常被抽取的特征为：边缘特征、笔画特征、结构特征；识别，常利用的识别方法有：分类器、随机森林。

需要说明的是，在本申请中利用CTPN进行文本信息的提取，CTPN模型是本领域的现有技术，本申请中并没有对其进行改进，并不将其作为本申请的发明点。

可以理解的是，服务器利用CTPN模型提取文本信息后，所显示的文本信息是有误差的，与实际的文本不相符，所以需要进一步的文字矫正。

105、根据空间变换网络STN模型，在文本图片中矫正文本信息，获取到输出图片，输出图片上带有矫正文字。

服务器根据空间变换网络(spatial transform network，STN)模型，在文本图片中矫正文本信息，获取到输出图片，输出图片上带有矫正文字。

这里服务器利用的是STN网络模型，STN网络模型是对输入图像进行空间变换，对输入图像进行矫正，从而输出一张新的图像，举例来说：将一张倾斜的图片输入STN网络模型中，经过STN网络模型将图片调整到标准方向，并将图片进行放大占满整个屏幕。因此服务器利用STN网络模型，对文本信息进行矫正。STN网络模型包含三个部分：输入模块，是以变换矩阵的元素作为输出的网络结构，变换矩阵可以为任意形式，例如仿射变换矩阵为一个参数为6的变换矩阵，网络结构可以是以回归层为终止的多种网络结构，可以采用全连接结构或卷积结构；仿射模块，是根据输入模块的参数，产生一个对输入模块做特定变换的规则，这里利用到仿射变换的公式为：

仿射模块同时将输入横纵坐标范围和输出横纵坐标范围归一化为[-1，+1]。由此对图像进行裁剪、平移、旋转、拉伸及扭曲变换形成输出的特征图；采集模块，在获得相应的规则和变换矩阵后，需要对原特征图进行采样从而得到新的特征图，即为变换后的图片。

请参阅图2，本发明实施例基于深度学习的票据检测方法另一个实施例包括：

201、获取需要检测的票据图片。

服务器获取需要检测的票据图片。服务器获取需要进行处理的票据图片。此处并不对票据图片的格式进行限定，票据图片的大小为常规大小(长为24CM，宽为14CM)，此处对票据图片的大小不做限定。

可以理解的是，本发明的执行主体可以为服务器或者服务器，还可以是具有深度学习网络模型的装置，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

202、将票据图片进行归一化处理，获取到归一化后的图片。

203、根据卷积神经网络模型，将归一化后的图片进行角度矫正，获取到调整后的图片。

服务器根据卷积神经网络模型，将归一化后的图片进行角度矫正，获取到调整后的图片。具体的，服务器获取归一化后的图片四个边缘的目标位置坐标以及目标坐标次序；服务器获取目标位置坐标与预置标准坐标之间的旋转角度，预置标准坐标为标准票据图片四个边缘的位置坐标；服务器获取目标坐标次序与预置标准次序之间的旋转方向，预置标准次序的获取次序为从标准票据图片的左上角位置开始依次顺时针获取；服务器根据旋转角度与旋转方向，对归一化后的图片进行旋转调整，获取到调整后的图片。

204、根据均方根RMS函数计算调整后的图片的损失值。

服务器根据均方根RMS函数计算调整后的图片的损失值。

具体的，服务器根据均方根RMS函数计算调整后的图片的损失值，所采用的公式如下：

式中，RMS表示均方根，min表示符号函数，y是指目标位置坐标，y'是指预置标准坐标。

可以理解的是，服务器在对调整后的图片进行调整时，图片坐标的预测值与真实值在一定程度上会有偏差，而损失函数是用来估量预测值与真实值的不一致程度，它是一个非负实值函数，损失函数越小鲁棒性就越好。

205、利用优化器对损失值进行优化，优化调整后的图片。

服务器利用优化器对损失值进行优化，优化调整后的图片。

服务器根据前向传播求得损失函数后，再利用优化器对模型参数进行优化，这样优化调整后的图片，使得调整后的图片准确度更高。

需要说明的是，常用的优化器：批量梯度下降(batch gradient descent，BGD)优化器，BGD优化器利用现有参数对训练集中的每一个输入生成一个估计输出y'，然后跟实际输出y比较，统计所有误差，求平均以后得到平均误差，以此来作为更新参数的依据；随机梯度下降(stochastic gradient descent，SGD)优化器，SGD优化器随机抽取一批样本，以此为依据来更新数据参数进行优化，服务器利用SGD优化器对于很大的数据集进行优化时，也能够以较快的速度进行收敛优化；自适应矩估计(adaptive moment estimation，Adam)优化器，Adam优化器利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，服务器利用Adam优化器的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。这里并不对使用的优化器进行限定。

206、根据预置网络模型，在调整后的图片中提取需要的文本信息，获取到带有文本信息的文本图片。

需要说明的是，在本申请中利用CTPN网络模型进行文本信息的提取，CTPN网络模型是本领域的现有技术，本申请中并没有对其进行改进，并不将其作为本申请的发明点。

可以理解的是，服务器利用CTPN网络模型提取文本信息后，所显示的文本信息是有误差的，与实际的文本不相符，所以需要进一步的文字矫正。

207、根据空间变换网络STN模型，在文本图片中矫正文本信息，获取到输出图片，输出图片上带有矫正文字。

服务器根据空间变换网络STN模型，在文本图片中矫正文本信息，获取到输出图片，输出图片上带有矫正文字。具体的，服务器获取文本信息的第一文字坐标；服务器获取变换参数，变换参数映射第一文字坐标与预置文字坐标之间的坐标关系，预置文字坐标限定矫正文字的大小方向以及位置；服务器根据预置文字坐标以及变换参数，计算第二文字坐标，第二文字坐标与第一文字坐标的坐标位置相互对应；服务器根据第一文字坐标与第二文字坐标，得到带有矫正文字的输出图片。

需要说明的是，服务器通过将第一文字坐标上的像素值填充到第二文字坐标的像素值上，达到矫正文字的目的。具体的，服务器获取第一文字坐标上的第一像素值；服务器获取第二文字坐标上的第二像素值；服务器根据预置规则将第一像素值填充到第二像素值上，获取到带有矫正文字的输出图片。

需要说明的是，预置文字坐标限定矫正文字的大小方向以及位置，变换参数映射第一文字坐标与预置文字坐标之间的坐标关系，变换参数的作用即是将调整图片进行平移、旋转和缩放，将调整图片变换成所需要的状态。在线性代数中，平移、旋转和缩放都可以用矩阵运算来实现，在本申请中的变换参数一般为矩阵的形式。

第二文字坐标与第一文字坐标的坐标位置相互对应，服务器根据变换参数与预置文字坐标计算第二文字坐标(所需放置文字的位置)，将变换参数与获取的第一文字坐标相乘，生成理想票据图片的位置坐标。具体利用到下式：

式中：

为第i个预置坐标，

为第i个第二文字坐标(与预置文字坐标对应)，θ为预置的变换参数(一般为矩阵)。

可以理解的是，待计算出理想调整图片的位置坐标后，其上的像素值与实际第一文字坐标上的像素值是并不相同的，因此需要采取像素值填充法，获取第一文字坐标上的像素值，根据预置规则将其填充给所对应的第二文字坐标的像素值上，完成像素值的填充，生成带有矫正文字的输出图片。在进行填充的过程中，并不需要进行矩阵运算，这里的预置规则往往会采用双线性差值，通过此算法计算填充坐标。具体利用到下式：

式中：n和m会遍历第一文字中的所有坐标，U_nm为第i个第一文字坐标上的像素值，V_i为第二文字坐标上的像素值，max为符号函数，

为第i个第二文字坐标。

举例来说，预置文字坐标为(2，2)，变换参数为

所计算出来的第二文字坐标即为(1.6，2.4)根据公式计算：

根据双线性差值的填充规则，利用第一文字坐标中的(1.6，2.4)周围的四个坐标点(1，2)、(1，3)、(2，2)、(2，3)的像素值来填充第二文字坐标中(1.6，2.4)上的像素值，通过公式得到需要填充的像素值，V＝U₂₁(1-0.6)(1-0.4)+U₂₂(1-0.4)(1-0.4)+U₃₁(1-0.6)(1-0.6)+U₃₂(1-0.4)(1-0.6)需要注意的是，上式中U的下标，第一个下标是纵坐标，第二个下标才是横坐标。这样就完成了对应坐标上像素值的填充，实现了文本信息的矫正。

请参阅图3，本发明实施例中基于深度学习的票据检测装置的一个实施例，包括：

获取单元301，用于获取需要检测的票据图片；

处理单元302，用于将所述票据图片进行归一化处理，获取到归一化后的图片；

调整单元303，用于根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；

提取单元304，用于根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；

矫正单元305，用于根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

本发明实施例中，获取单元301获取需要检测的票据图片；处理单元302将所述票据图片进行归一化处理，获取到归一化后的图片；调整单元303根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；提取单元304根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；矫正单元305根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

请参阅图4，本发明实施例中基于深度学习的票据检测装置的另一个实施例，包括：

获取单元301，用于获取需要检测的票据图片；

可选的，矫正单元305包括：

第一获取模块3051，用于获取所述文本信息的第一文字坐标；

第二获取模块3052，用于获取变换参数，所述变换参数映射所述第一文字坐标与预置文字坐标之间的坐标关系，所述预置文字坐标限定矫正文字的大小方向以及位置；

计算模块3053，用于根据所述预置文字坐标以及所述变换参数，计算第二文字坐标，所述第二文字坐标与所述第一文字坐标的坐标位置相互对应；

输出模块3054，用于根据所述第一文字坐标与所述第二文字坐标，得到带有矫正文字的所述输出图片。

可选的，输出模块3054具体用于：

获取所述第一文字坐标上的第一像素值；

获取所述第二文字坐标上的第二像素值；

根据预置规则将所述第一像素值填充到所述第二像素值上，获取到带有矫正文字的所述输出图片。

可选的，处理单元302具体用于：

获取所述票据图片上的像素值；

将所述像素值进行归一化，获取到归一化后的图片。

可选的，调整单元303具体用于：

获取所述归一化后的图片四个边缘的目标位置坐标以及目标坐标次序；

获取所述目标位置坐标与预置标准坐标之间的旋转角度，所述预置标准坐标为标准票据图片四个边缘的位置坐标；

获取所述目标坐标次序与预置标准次序之间的旋转方向，所述预置标准次序为从所述标准票据图片的左上角位置开始依次顺时针获取；

根据所述旋转角度与所述旋转方向，对所述归一化后的图片进行旋转调整，获取到调整后的图片。

可选的，提取单元304具体用于：

在所述调整后的图片中提取所述文本信息的文本特征；

将所述文本特征循环连接，得到文本框；

将所述文本框输出，得到文本行，并获取到带有所述文本行的文本图片。

可选的，基于深度学习的票据检测装置还包括：

计算单元306，用于根据均方根RMS函数计算所述调整后的图片的损失值；

优化单元307，用于利用优化器对所述损失值进行优化，优化所述调整后的图片。

本发明实施例中，获取单元301，用于获取需要检测的票据图片；处理单元302，用于将所述票据图片进行归一化处理，获取到归一化后的图片；调整单元303，用于根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；提取单元304，用于根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；矫正单元305，用于根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字；计算单元306，用于根据均方根RMS函数计算调整后的图片的损失值；优化单元307，用于利用优化器对所述损失值进行优化，优化所述调整后的图片。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于深度学习检测票据装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于深度学习检测票据设备进行详细描述。

图5是本发明实施例提供的一种基于深度学习检测票据设备的结构示意图，该基于深度学习的票据检测设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括基于深度学习检测票据设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于深度学习的票据检测设备500上执行存储介质508中的一系列指令操作。

基于深度学习的票据检测设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于深度学习的票据检测设备结构并不构成对基于深度学习的票据检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对基于深度学习的票据检测设备的各个构成部件进行具体的介绍：

处理器501是基于深度学习的票据检测设备的控制中心，可以按照基于深度学习的票据检测方法进行处理。处理器501利用各种接口和线路连接整个基于深度学习的票据检测设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，解决票据文本检测时中文字识别准确性不高的问题，提高了票据文本检测的准确率以及效率。存储介质508和存储器509都是存储数据的载体，本发明实施例中，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行基于深度学习的票据检测设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据基于深度学习检测票据设备的使用所创建的数据等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本发明实施例中提供的基于深度学习的票据检测程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的票据检测方法，其特征在于，包括：

获取需要检测的票据图片；

将所述票据图片进行归一化处理，获取到归一化后的图片；

根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；

根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；

根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

2.根据权利要求1所述的票据检测方法，其特征在于，所述根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字包括：

获取所述文本信息的第一文字坐标；

获取变换参数，所述变换参数映射所述第一文字坐标与预置文字坐标之间的坐标关系，所述预置文字坐标限定矫正文字的大小方向以及位置；

根据所述预置文字坐标以及所述变换参数，计算第二文字坐标，所述第二文字坐标与所述第一文字坐标的坐标位置相互对应；

根据所述第一文字坐标与所述第二文字坐标，得到带有矫正文字的所述输出图片。

3.根据权利要求2所述的票据检测方法，其特征在于，所述根据所述第一文字坐标与所述第二文字坐标，得到带有矫正文字的所述输出图片包括：

获取所述第一文字坐标上的第一像素值；

获取所述第二文字坐标上的第二像素值；

4.根据权利要求1所述的票据检测方法，其特征在于，所述将所述票据图片进行归一化处理，获取到归一化后的图片包括：

获取所述票据图片上的像素值；

将所述像素值进行归一化，获取到归一化后的图片。

5.根据权利要求1所述的票据检测方法，其特征在于，所述根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片包括：

6.根据权利要求1所述的票据检测方法，其特征在于，所述根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片包括：

在所述调整后的图片中提取所述文本信息的文本特征；

将所述文本特征循环连接，得到文本框；

7.根据权利要求1-6中任一项所述的票据检测方法，其特征在于，所述根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片之后，所述根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片之前，所述方法还包括：

根据均方根RMS函数计算所述调整后的图片的损失值；

利用优化器对所述损失值进行优化，优化所述调整后的图片。

8.一种基于深度学习的票据检测装置，其特征在于，包括：

获取单元，用于获取需要检测的票据图片；

处理单元，用于将所述票据图片进行归一化处理，获取到归一化后的图片；

调整单元，用于根据卷积神经网络模型，将所述归一化后的图片进行角度矫正，获取到调整后的图片；

提取单元，用于根据预置网络模型，在所述调整后的图片中提取需要的文本信息，获取到带有所述文本信息的文本图片；

矫正单元，用于根据空间变换网络STN模型，在所述文本图片中矫正所述文本信息，获取到输出图片，所述输出图片上带有矫正文字。

9.一种基于深度学习的票据检测设备，其特征在于，包括：

存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于深度学习的票据检测设备执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。