CN110378249B

CN110378249B - 文本图像倾斜角度识别方法、装置及设备

Info

Publication number: CN110378249B
Application number: CN201910568629.9A
Authority: CN
Inventors: 唐景群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2024-01-12
Anticipated expiration: 2039-06-27
Also published as: CN110378249A

Abstract

本申请公开了一种文本图像倾斜角度识别方法、装置及设备，所述方法包括：获取目标文本图像；基于图像倾斜角度识别模型对所述目标文本图像进行倾斜角度识别，得到初始倾斜角度，初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度；根据所述初始倾斜角度对所述目标文本图像进行倾斜纠正处理；基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度；根据所述走向倾斜角度和所述初始倾斜角度确定所述目标文本图像的倾斜角度。利用本申请提供的技术方案可以准确的识别出文本图像的倾斜角度。

Description

文本图像倾斜角度识别方法、装置及设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种文本图像倾斜角度识别方法、装置及设备。

背景技术

近年来，图像处理技术的应用越来越广泛。其中，比较常见的一个应用就是从相关图像中提取文本信息。例如，在一些办公服务中，往往需要将用户的一些证件信息等输入到计算机的数据库中，可以直接从文本图像中提取出有效的信息，进而提高业务办理的效率。

目前，在文本图像的采集过程中，由于拍摄角度的原因存在图像倾斜的问题，导致无法对图像中的文本信息进行有效的识别。因此，需要准确的识别出文本图像的倾斜角度。现有技术中，常常结合深度学习模型进行文本图像的倾斜角度识别，但现有技术中往往是基于一个卷积神经网络来实现的，单个卷积神经网络提取的特征有限，往往无法提取文字的走向信息，导致无法准确的识别出实际的倾斜角度。因此，需要提供更有效的方案，以准确的识别出文本图像的倾斜角度。

发明内容

本申请提供了一种文本图像倾斜角度识别方法、装置及设备，可以准确的识别出文本图像的倾斜角度。

一方面，本申请提供了一种文本图像倾斜角度识别方法，所述方法包括：

获取目标文本图像；

基于图像倾斜角度识别模型对所述目标文本图像进行倾斜角度识别，得到初始倾斜角度，所述初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度；

根据所述初始倾斜角度对所述目标文本图像进行倾斜纠正处理；

基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度；

根据所述走向倾斜角度和所述初始倾斜角度确定所述目标文本图像的倾斜角度。

另一方面提供了一种文本图像倾斜角度识别装置，所述装置包括：

目标文本图像获取模块，用于获取目标文本图像；

初始倾斜角度识别模块，用于基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，得到初始倾斜角度，所述初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度；

倾斜纠正处理模块，用于根据所述初始倾斜角度对预处理后的文本图像进行倾斜纠正处理；

文本信息走向识别模块，用于基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度；

倾斜角度确定模块，用于根据所述走向倾斜角度和所述初始倾斜角度确定所述目标文本图像的倾斜角度。

另一方面提供了一种文本图像倾斜角度识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、或代码集，所述至少一条指令、所述至少一段程序、或所述代码集由所述处理器加载并执行以实现如上述的文本图像倾斜角度识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、或代码集，所述至少一条指令、所述至少一段程序、或所述代码集由处理器加载并执行以实现如上述的文本图像倾斜角度识别方法。

本申请提供的文本图像倾斜角度识别方法、装置及设备，具有如下技术效果：

本申请基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，可以准确的识别出表征文本图像中文本信息的文本行倾斜情况的初始倾斜角度；然后，基于文本信息走向识别模型对进行文本行倾斜纠正后的文本图像进行文本信息走向识别，得到文本图像中文本信息的走向倾斜角度；最后，根据走向倾斜角度和初始倾斜角度可以准确的确定所述目标文本图像的倾斜角度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种获取第一训练文本图像方法的流程示意图；

图3是本申请实施例提供的一种第一深度学习模型的结构示意图；

图4是本申请实施例提供的一种倾斜的文本图像的示意图；

图5是本申请实施例提供的一种第二深度学习模型的结构示意图；

图6是本申请实施例提供的一种文本图像倾斜角度识别方法的流程示意图；

图7是本申请实施例提供的一种获取目标文本图像方法的流程示意图；

图8是本申请实施例提供的一种对目标文本图像进行倾斜纠正处理的示意图；

图9是本申请实施例提供的一种文本图像倾斜角度识别装置的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境至少包括服务器01和客户端02。

具体的，服务器01可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器01可以用于进行图像倾斜角度识别模型的训练处理，以及文本信息走向识别模型的训练处理。

具体的，客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。客户端02可以用于基于服务器01训练得到的图像倾斜角度识别模型和文本信息走向识别模型识别文本图像的倾斜角度。

此外，需要说明的是，本说明书实施例中客户端02也可以实现图像倾斜角度识别模型的训练处理，以及文本信息走向识别模型的训练处理。本说明书实施例中通过在服务器中实现模型的训练可以降低客户端侧训练数据等存储损耗，提高客户端的识别速率。

以下介绍本申请一种图像倾斜角度识别模型训练的实施例，具体的，可以包括：

1)获取第一训练文本图像。

2)基于所述第一训练文本图像对第一深度学习模型进行图像倾斜角度识别训练，得到图像倾斜角度识别模型。

本说明书实施例中，第一训练文本图像可以包括多倾斜角度的文本图像。

具体的，如图2所示，获取第一训练文本图像可以包括：

S201：获取预设数量的采集文本图像。

本说明书实施例中，采集文本图像可以包括倾斜角度为0(即不倾斜)的文本图像。具体的，本说明书实施例中，文本图像可以包括具有文本信息的图像，具体的，文本信息可以包括但不限于汉字，英语、数字等文本字符。具体的，采集文本图像的数量(预设数量)可以集合实际应用需求确定。

S203：对所述采集文本图像进行随机旋转处理，得到随机旋转处理后的文本图像。

本说明书实施例中，为了保证训练数据的全面性，可以对采集的大量不倾斜的文本图像进行随机旋转处理，以获取多种倾斜角度的文本图像。具体的，可以对每一采集文本图像进行多角度的旋转处理。

S205：基于第一预设像素值对所述随机旋转处理后的文本图像进行边界填充处理，得到正方形的文本图像。

本说明书实施例中，可以对随机旋转处理后的文本图像进行边界填充处理，具体的，可以确定随机旋转处理后的文本图像的最长边，将随机旋转处理后的文本图像填充成以该最长边的长度为边长的正方形的文本图像。

具体的，在对文本图像进行填充时，填充的像素值(第一预设像素值)可以至少包括下述之一：文本图像的边界的像素值，文本图像的镜像对应的像素值，像素值0，像素值255。

本说明书实施例中，通过设置多种边界填充处理的方式，从而可以获取到更多类型的训练数据。

S207：基于第一预设裁剪比例对所述正方形的文本图像进行中心裁剪处理。

本说明书实施例中，第一预设裁剪比例可以结合实际应用中文本信息的占比设定。一般的，所述第一预设裁剪比例可以设置为文本图像的尺寸的三分之二至文本图像的尺寸。

本说明书实施例中，通过对图像进行裁剪，不仅保存了原始文本图像的大部分有效信息，也进一步缩小了文本图像的尺寸，提高了后续的训练速度；

S209：基于第二预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像。

具体的，当所述中心裁剪处理后的文本图像最短边与最长边的比例大于等于0.5时，可以基于所述第二预设像素值对所述中心裁剪处理后的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像；

或，

当所述中心裁剪处理后的文本图像最短边与最长边的比例小于0.5，对所述中心裁剪处理后的文本图像正进行中心裁剪处理，得到最短边与最长边的比例为0.5的文本图像；

基于所述第二预设像素值对所述最短边与最长边的比例为0.5的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像。

本说明书实施例中，第二预设像素值可以至少包括下述之一：文本图像的边界的像素值，文本图像的镜像对应的像素值，像素值0，像素值255。

S211：基于所述第一深度学习模型的图像输入尺寸对所述正方形的文本图像进行尺寸归一化处理，得到所述第一训练文本图像。

本说明书实施例中，通过先对图像进行边界填充，再进行图像的尺寸的归一化，避免了因直接对其尺寸归一化，而损坏文本图像的形状比例的问题。且裁剪后的图像进行归一化到指定的尺寸大小，由于裁剪的区域相对与原始图像来说，尺寸较小，因此，在对其进行尺寸归一化之后，有效信息的占比较大，有利于后续的深度学习模块提取图像的特征信息。

本说明书实施例中，所述第一深度学习模型可以包括但不限于卷积神经网络。在一个具体的实施例中，如图3所示，第一深度学习模型可以包括：7*7卷积核的卷积层、第一池化层、多个3*3卷积核的卷积层、第一全局平均池化层和具有360个神经元全连接层；

其中，多个3*3卷积核的卷积层可以包括6个具有32个通道的3*3卷积核组成的卷积层、8个具有64个通道的3*3卷积核组成的卷积层、12个具有128个通道的3*3卷积核组成的卷积层和6个具有256个通道的3*3卷积核组成的卷积层。

本说明书实施例中卷积层可以用于提取文本图像的特征信息；

本说明书实施例中池化层可以用于对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。

本说明书实施例中全局平均池化层可以用于对整个网路在结构上做正则化防止过拟合。

本说明书实施例中全连接层可以用于对特征信息进行信息整合，确定输入的文本图像具有0到359度的倾斜角度的概率。

本说明书实施例中，多个3*3卷积核的卷积层的输出包括恒等映射输出和残差映射输出。具体的，结合图3所示，以前两个具有32个通道的3*3卷积核组成的卷积层的输出为例，可以包括第一池化层的输出经过两个卷积层的输出(恒等映射输出)，以及第一池化层的输出(残差映射输出)；依次类推，每两层卷积层的输出，包括这两层卷积层中前一个卷积层的输入(残差映射输出)和该前一个卷积层的输入经过两个卷积层的处理后的输出(恒等映射输出)。

本说明书实施例中，通过引入残差映射，使得当前网络层可以利用前面网络层所提取到的特征信息，从而较大程度上实现了特征的复用，便于提取更多的特征信息。

本说明书实施例中，在训练过程中，对输入的第一训练文本图像进行卷积、池化等操作来提取文本图像的特征信息；然后，通过全连接层对提取到的特征信息进行信息整合，具体的，在全连接层中损失函数可以包括分类损失函数和回归损失函数。所述分类损失函数表征训练过程中输出的最大概率值与一之间的误差；所述回归损失函数表征训练过程中输出最大概率值所对应的预测倾斜角度与真实倾斜角度的绝对误差。

具体的，在进行图像倾斜角度识别训练过程中，将第一训练文本图像输入到第一深度学习模型中，第一深度学习模型中全连接层的输出为输入的文本图像的倾斜角度为0度至359度的概率p(p为0-1之间的数字)，假设该输入的文本图像的倾斜角度为X度，相应的，使X度的样本标签为1，相应的，训练过程中将样本标签1与输出的最高概率p间误差作为分类损失函数的值；同时，将输出最大概率值所对应的预测倾斜角度x与真实倾斜角度X的绝对误差作为回归损失函数的值，使用梯度下降法，更新每个阈值，再次训练第一深度学习模型。修改完的阈值会使得下一次模型输出的概率p和样本标签1之间的误差变得更小，且输出最大概率值所对应的预测倾斜角度x与真实倾斜角度X的绝对误差也变得更小；当p和1间的误差小于一定值时，且x与X间的绝对误差也小于一定值时，可以将当前的模型作行为图像倾斜角度识别模型。

本说明书实施例中，以多倾斜角度的文本图像为训练数据，对第一深度学习模型进行图像倾斜角度识别训练，在训练过程中，结合分类损失函数和回归损失函数，实现将分类任务和回归任务相结合，可以有效提高训练出图像倾斜角度识别模型对文本图像的图像倾斜角度的识别准确率。具体的，提取的特征信息往往仅仅只能准确的识别出文本行的倾斜角度，具体的，本说明书实施例中，图像倾斜角度识别模型识别出的倾斜角度可以为文本图像中文本信息的文本行倾斜角度。具体的，文本行倾斜角度可以包括文本图像中文本信息的文本行相对于水平方向的顺时针或逆时针倾斜角度。

在实际应用中，结合图4所示，假设文本行倾斜角度为文本图像中文本信息的文本行相对于水平方向的顺时针倾斜角度。图4中文本图像100和200的文本行倾斜角度均为45度。

本说明书实施例中，考虑到文本图像中包含了文本信息，仅仅进行图像的文本行的倾斜校正(文本行的倾斜校正)，往往无法满足文本图像对文本信息走向的需求，以图4为例，从文本信息的走向来说，文本图像100的倾斜角度为45度，而文本图像200的倾斜角度为45+180度。相应的，本说明书实施例中还提供一种可以识别文本信息走向的文本信息走向识别模型，具体的，以下介绍本申请一种文本信息走向识别模型训练的实施例，具体的，可以包括：

1)获取第二训练文本图像。

本说明书实施例中，第二训练文本图像可以包括具有0度、90度、180度和270度倾斜角度的文本图像。具体的，本说明书实施例中，第二训练文本图像的获取方式可以参见上述关于获取第一训练文本图像的相关实施例中，在此不再赘述。

此外，在获取第一训练文本图像时采用的随机旋转处理替换为指定0度、90度、180度和270度的旋转处理。

2)基于所述第二训练文本图像对第二深度学习模型进行文本信息走向识别训练，得到文本信息走向识别模型。

本说明书实施例中，文本信息走向识别模型可以用于对文本图像中文本信息的走向倾斜角度进行识别。具体的，文本信息的走向倾斜角度可以包括文本图像中文本信息的方向相对于水平方向的顺时针或逆时针倾斜角度。本说明书实施例中，文本信息的走向倾斜角度可以包括顺时针或逆时针0度、90度、180度和270度。

本说明书实施例中，所述第二深度学习模型可以包括但不限于卷积神经网络。在一个具体的实施例中，如图5所示，所述第二深度学习模型可以包括：

7*7卷积核的卷积层、第二池化层、第一降维层、第三池化层、第二降维层、第四池化层、第三降维层、1*1卷积核的卷积层、第二全局平均池化层和分类层。

本说明书实施例中，以包括降维层的轻量级的第二深度学习模型来训练文本信息走向识别模型，可以有效降低训练和后续预测过程中的计算量，提高处理速度。

具体的，7*7卷积核的卷积层的通道个数是96；1*1卷积核的卷积层的通道个数是4。

具体的，第一降维层可以包括3个降维层、第二降维层可以包括4个降维层、第三降维层可以包括一个降维层。降维层可以包括压缩层和扩展层。具体的，压缩层可以包括通道数96的1*1卷积核；扩展层可以包括通道数96的1*1卷积核和通道数96的3*3卷积核；具体的，压缩层可以用于对输入的特征向量(特征信息)进行降维处理；将压缩层的输出作为扩展层的输入，并分别利用扩展层的两个卷积和进行特征信息的扩展，以提取更多的特征信息。

具体的，分类层可以用于对输入的文本图像的倾斜角度进行0度、90度、180度以及270度的倾斜分类，在一个具体的实施例中，所述分类层可以为softmax层。

本说明书实施例中，以具有0度、90度、180度或者270度倾斜角度的文本图像为训练数据，对轻量级的深度学习模型进行文本信息走向识别训练，得到文本信息走向识别模型，后续，利用该文本信息走向识别模型可以对文本图像中文本信息进行0度、90度、180度或者270度的走向倾斜角度的识别，准确对应文本图像中文本信息的走向，进而提高文本图像中文本信息的识别准确率，且轻量级的深度学习模块，可以满足后续应用识别过程中对时效性的要求。

以下介绍本申请一种文本图像倾斜角度识别方法，图6是本申请实施例提供的一种文本图像倾斜角度识别方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图6所示，所述方法可以包括：

S601：获取目标文本图像。

本说明书实施例中，目标文本图像可以包括需要进行倾斜角度识别的文本图像。具体的，例如，包括车牌信息的图像，包括票据信息的图像等。

在一个具体的实施例中，如图7所示，获取目标文本图像可以包括：

S6011：获取初始文本图像。

本说明书实施例中，所述初始文本图像可以为通过摄像机拍摄等方式采集的文本图像。

S6013：基于第三预设裁剪比例对所述初始文本图像进行中心裁剪处理。

本说明书实施例中，第三预设裁剪比例可以结合实际图像中文本信息的占比设定，一般的，需要满足保留初始文本图像中的全部文本信息。

S6015：基于第三预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像。

本说明书实施例中，第三预设像素值可以包括下述任一：中心裁剪处理后的文本图像的边界的像素值，中心裁剪处理后的文本图像的镜像对应的像素值，像素值0，像素值255。具体的，可以确定中心裁剪处理后的文本图像的最长边，利用上述任意一种像素值将中心裁剪处理后的文本图像填充成以该最长边的长度为边长的正方形的文本图像。

S6017：基于所述图像倾斜角度识别模型的图像输入尺寸将所述正方形的文本图像进行尺寸归一化处理，得到所述目标文本图像。

本说明书实施例中，在将通过对图像进行中心裁剪，不仅保存了原始文本图像的大部分有效信息，也进一步缩小了文本图像的尺寸，提高了后续的识别速度；且通过先对图像进行边界填充，在进行图像的尺寸的归一化，避免了因直接对其尺寸归一化，而损坏原始文本图像的形状比例的问题。

此外，需要说明书的是，采集的初始文本图像的尺寸与图像倾斜角度识别模型的图像输入尺寸一致时，可以直接将该采集的初始文本图像作为目标文本图像。

S603：基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，得到初始倾斜角度。

本说明书实施例中，在得到需要进行倾斜角度识别的目标文本图像之后，可以基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，得到初始倾斜角度。

具体的，初始倾斜角度可以为文本图像中文本信息的文本行倾斜角度。具体的，文本行倾斜角度可以包括文本图像中文本信息的文本行相对于水平方向的顺时针/或逆时针倾斜角度。

S605：根据所述初始倾斜角度对目标文本图像进行倾斜纠正处理。

本说明书实施例中，对文本图像进行倾斜纠正处理可以包括将文本图像往倾斜方向的反方向旋转倾斜的角度。具体的，如图8所示，810为目标文本图像，基于图像倾斜角度识别模型识别出的初始倾斜角度为45度(顺时针)，相应的，对目标文本图像进行逆时针45度的旋转处理，得到倾斜纠正处理后的文本图像820。

S607：基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度。

本说明书实施例中，通过图像倾斜角度识别模型识别出的目标文本图像的文本行倾斜角度对目标文本图像进行倾斜纠正处理后，再基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到目标文本图像中文本信息的走向倾斜角度。

具体的，文本信息的走向倾斜角度可以包括文本图像中文本信息的方向相对于水平方向的顺时针或逆时针倾斜角度。具体的，以文本信息的走向倾斜角度为文本图像中文本信息的方向相对于水平方向的顺时针倾斜角度为例，结合图8，倾斜纠正处理后的文本图像820中文本信息的走向倾斜角度为180度。

此外，需要说明的是，本说明书实施例中文本图像中文本信息的文本行倾斜角度和文本信息的走向倾斜角度为相对于水平方向的同一方向的倾斜角度，例如均相对于水平方向的顺时针倾斜角度。

S609：根据所述走向倾斜角度和所述初始倾斜角度确定所述目标文本图像的倾斜角度。

本说明书实施例中，可以将走向倾斜角度与初始倾斜角度相加作为目标文本图像的倾斜角度。后续，可以基于该倾斜角度对文本图像进行倾斜校正，进而准确的识别文本图像中的文本信息。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，可以准确的识别出表征文本图像中文本信息的文本行倾斜情况的初始倾斜角度；然后，基于文本信息走向识别模型对进行文本行倾斜纠正后的文本图像进行文本信息走向识别，得到文本图像中文本信息的走向倾斜角度；最后，根据走向倾斜角度和初始倾斜角度可以准确的确定所述目标文本图像的倾斜角度。

本申请实施例还提供了一种文本图像倾斜角度识别装置，如图9所示，所述装置包括：

目标文本图像获取模块910，用于获取目标文本图像；

初始倾斜角度识别模块920，用于基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，得到初始倾斜角度，所述初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度；

倾斜纠正处理模块930，用于根据所述初始倾斜角度对预处理后的文本图像进行倾斜纠正处理；

文本信息走向识别模块940，用于基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度；

倾斜角度确定模块950，用于根据所述走向倾斜角度和所述初始倾斜角度确定所述目标文本图像的倾斜角度。

在一些实施例中，所述图像倾斜角度识别模型包括采用下述单元确定：

第一训练文本图像获取单元，用于获取第一训练文本图像，所述第一训练文本图像包括多倾斜角度的文本图像；

图像倾斜角度识别训练单元，用于基于所述第一训练文本图像对第一深度学习模型进行图像倾斜角度识别训练，得到图像倾斜角度识别模型；

其中，图像倾斜角度识别训练过程中的损失函数包括分类损失函数和回归损失函数，所述分类损失函数表征训练过程中输出的最大概率值与一之间的误差；所述回归损失函数表征训练过程中输出最大概率值所对应的预测倾斜角度与真实倾斜角度的绝对误差。

在一些实施例中，所述第一深度学习模型包括：

7*7卷积核的卷积层、第一池化层、多个3*3卷积核的卷积层、第一全局平均池化层和具有360个神经元全连接层；

其中，所述多个3*3卷积核的卷积层的输出包括恒等映射输出和残差映射输出。

在一些实施例中，所述第一训练文本图像获取模块包括：

采集文本图像获取单元，用于获取预设数量的采集文本图像；

随机旋转处理单元，用于对所述采集文本图像进行随机旋转处理，得到随机旋转处理后的文本图像；

第一边界填充处理单元，用于基于第一预设像素值对所述随机旋转处理后的文本图像进行边界填充处理，得到正方形的文本图像；

第一中心裁剪处理单元，用于基于第一预设裁剪比例对所述正方形的文本图像进行中心裁剪处理；

第二边界填充处理单元，用于基于第二预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像；

第一尺寸归一化处理单元，用于基于所述第一深度学习模型的图像输入尺寸对所述正方形的文本图像进行尺寸归一化处理，得到所述第一训练文本图像。

在一些实施例中，所述第二边界填充处理单元具体用于当所述中心裁剪处理后的文本图像最短边与最长边的比例大于等于0.5时，基于所述第二预设像素值对所述中心裁剪处理后的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像；

在一些实施例中，所述第二边界填充处理单元具体用于当所述中心裁剪处理后的文本图像最短边与最长边的比例小于0.5，对所述中心裁剪处理后的文本图像正进行中心裁剪处理，得到最短边与最长边的比例为0.5的文本图像；以及基于所述第二预设像素值对所述最短边与最长边的比例为0.5的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像。

在一些实施例中，所述文本信息走向识别模型包括采用下述单元确定：

第二训练文本图像获取单元，用于获取第二训练文本图像，所述第二训练文本图像包括具有0度、90度、180度和270度的倾斜角度的文本图像；

文本信息走向识别训练单元，用于基于所述第二训练文本图像对第二深度学习模型进行文本信息走向识别训练，得到文本信息走向识别模型。

在一些实施例中，所述第二深度学习模型包括：7*7卷积核的卷积层、第二池化层、第一降维层、第三池化层、第二降维层、第四池化层、第三降维层、1*1卷积核的卷积层、第二全局平均池化层和分类层。

在一些实施例中，所述目标文本图像获取模块包括：

初始文本图像获取单元，用于获取初始文本图像；

第二中心裁剪处理单元，用于基于第三预设裁剪比例对所述初始文本图像进行中心裁剪处理；

第三边界填充处理单元，用于基于第三预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像；

第二尺寸归一化处理单元，用于基于所述图像倾斜角度识别模型的图像输入尺寸将所述正方形的文本图像进行尺寸归一化处理，得到所述目标文本图像。

所述的装置实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例提供了一种文本图像倾斜角度识别设备，该文本图像倾斜角度识别设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、或代码集，该至少一条指令、该至少一段程序、或该代码集由该处理器加载并执行以实现如上述方法实施例所提供的文本图像倾斜角度识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图10是本申请实施例提供的一种文本图像倾斜角度识别方法的服务器的硬件结构框图。如图10所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnits，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统1021，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1040可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种文本图像倾斜角度识别方法相关的至少一条指令、至少一段程序、或代码集，该至少一条指令、该至少一段程序、或该代码集由该处理器加载并执行以实现上述方法实施例提供的文本图像倾斜角度识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的文本图像倾斜角度识别方法、装置、设备或存储介质的实施例可见，本申请中基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，可以准确的识别出表征文本图像中文本信息的文本行倾斜情况的初始倾斜角度；然后，基于文本信息走向识别模型对进行文本行倾斜纠正后的文本图像进行文本信息走向识别，得到文本图像中文本信息的走向倾斜角度；最后，根据走向倾斜角度和初始倾斜角度可以准确的确定所述目标文本图像的倾斜角度。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本图像倾斜角度识别方法，其特征在于，所述方法包括：

获取目标文本图像；

基于图像倾斜角度识别模型对所述目标文本图像进行倾斜角度识别，得到初始倾斜角度，所述初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度，所述图像倾斜角度识别模型是基于第一训练文本图像对第一深度学习模型进行图像倾斜角度识别训练得到的，所述第一训练文本图像包括多倾斜角度的文本图像，图像倾斜角度识别训练过程中的损失函数包括分类损失函数和回归损失函数，所述分类损失函数表征训练过程中输出的最大概率值与一之间的误差；所述回归损失函数表征训练过程中输出最大概率值所对应的预测倾斜角度与真实倾斜角度的绝对误差；

基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度，所述文本信息走向识别模型是基于第二训练文本图像对第二深度学习模型进行文本信息走向识别训练得到的文本信息走向识别模型，所述第二训练文本图像包括具有0度、90度、180度和270度的倾斜角度的文本图像；

2.根据权利要求1所述的方法，其特征在于，所述第一深度学习模型包括：

3.根据权利要求1所述的方法，其特征在于，所述第一训练文本图像采用下述方式获取：

获取预设数量的采集文本图像；

对所述采集文本图像进行随机旋转处理，得到随机旋转处理后的文本图像；

基于第一预设像素值对所述随机旋转处理后的文本图像进行边界填充处理，得到正方形的文本图像；

基于第一预设裁剪比例对所述正方形的文本图像进行中心裁剪处理；

基于第二预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像；

基于所述第一深度学习模型的图像输入尺寸对所述正方形的文本图像进行尺寸归一化处理，得到所述第一训练文本图像。

4.根据权利要求3所述的方法，其特征在于，所述基于第二预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像包括：

当所述中心裁剪处理后的文本图像最短边与最长边的比例大于等于0.5时，基于所述第二预设像素值对所述中心裁剪处理后的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像；

或，

5.根据权利要求1所述的方法，其特征在于，所述第二深度学习模型包括：

6.根据权利要求1所述的方法，其特征在于，所述获取目标文本图像包括：

获取初始文本图像；

基于第三预设裁剪比例对所述初始文本图像进行中心裁剪处理；

基于第三预设像素值对中心裁剪处理后的文本图像进行边界填充处理，得到正方形的文本图像；

基于所述图像倾斜角度识别模型的图像输入尺寸将所述正方形的文本图像进行尺寸归一化处理，得到所述目标文本图像。

7.一种文本图像倾斜角度识别装置，其特征在于，所述装置包括：

目标文本图像获取模块，用于获取目标文本图像；

初始倾斜角度识别模块，用于基于图像倾斜角度识别模型对目标文本图像进行倾斜角度识别，得到初始倾斜角度，所述初始倾斜角度表征目标文本图像中文本信息的文本行倾斜角度，所述图像倾斜角度识别模型是基于第一训练文本图像对第一深度学习模型进行图像倾斜角度识别训练得到的，所述第一训练文本图像包括多倾斜角度的文本图像，图像倾斜角度识别训练过程中的损失函数包括分类损失函数和回归损失函数，所述分类损失函数表征训练过程中输出的最大概率值与一之间的误差；所述回归损失函数表征训练过程中输出最大概率值所对应的预测倾斜角度与真实倾斜角度的绝对误差；

文本信息走向识别模块，用于基于文本信息走向识别模型对倾斜纠正处理后的文本图像进行文本信息走向识别，得到所述目标文本图像中文本信息的走向倾斜角度，所述文本信息走向识别模型是基于第二训练文本图像对第二深度学习模型进行文本信息走向识别训练得到的文本信息走向识别模型，所述第二训练文本图像包括具有0度、90度、180度和270度的倾斜角度的文本图像；

8.根据权利要求7所述的装置，其特征在于，所述第一深度学习模型包括：

9.根据权利要求7所述的装置，其特征在于，所述第一训练文本图像采用下述单元获取包括：

10.根据权利要求9所述的装置，其特征在于，所述第二边界填充处理单元具体用于当所述中心裁剪处理后的文本图像最短边与最长边的比例大于等于0.5时，基于所述第二预设像素值对所述中心裁剪处理后的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像；

或，

所述第二边界填充处理单元具体用于当所述中心裁剪处理后的文本图像最短边与最长边的比例小于0.5，对所述中心裁剪处理后的文本图像正进行中心裁剪处理，得到最短边与最长边的比例为0.5的文本图像；以及基于所述第二预设像素值对所述最短边与最长边的比例为0.5的文本图像进行填充处理，得到以所述最长边的长度为边长的正方形的文本图像。

11.根据权利要求7所述的装置，其特征在于，所述第二深度学习模型包括：7*7卷积核的卷积层、第二池化层、第一降维层、第三池化层、第二降维层、第四池化层、第三降维层、1*1卷积核的卷积层、第二全局平均池化层和分类层。

12.根据权利要求7所述的装置，其特征在于，所述目标文本图像获取模块包括：

初始文本图像获取单元，用于获取初始文本图像；

13.一种文本图像倾斜角度识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、或代码集，所述至少一条指令、所述至少一段程序、或所述代码集由所述处理器加载并执行以实现如权利要求1至6任一所述的文本图像倾斜角度识别方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、或代码集，所述至少一条指令、所述至少一段程序、或所述代码集由处理器加载并执行以实现如权利要求1至6任一所述的文本图像倾斜角度识别方法。