CN110490198A

CN110490198A - 文本方向校正方法、装置、计算机设备和存储介质

Info

Publication number: CN110490198A
Application number: CN201910740224.9A
Authority: CN
Inventors: 周康明
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-22

Abstract

本申请涉及一种文本方向校正方法、装置、计算机设备和存储介质。其中方法包括：获取待识别文本图像；将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到待识别文本图像中每个文本定位框分别对应的坐标信息；根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向；若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及转换后每个文本定位框对应的坐标信息。采用本方法能够避免因待识别文本图像的方向错误而导致机器误识别的问题，提高了机器识别的正确率。

Description

文本方向校正方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本图像处理技术领域，特别是涉及一种文本方向校正方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，越来越多的繁琐工作被机器或电脑取代。比如一些文本图像的识别录入，如果仅仅依靠人工来完成，不仅耗时费力，而且会因为疲劳疏忽等原因导致问题的产生。因此，可通过机器自动完成对文本图像中文本的识别和录入。

而文档图像中的文本通常具有方向性，例如图像中的文本方向相对于正常文本倒置(即旋转180度)、向左或向右旋转90度等。对于这种非正常方向的文本图像，若直接对其进行机器识别，会造成误识别，从而无法获取正确的识别结果。

发明内容

基于此，有必要针对上述因文档图像的方向而导致机器误识别的问题，提供一种能够对文档图像的方向进行校正的文本方向校正方法、装置、计算机设备和存储介质。

为了实现上述目的，一方面，本申请实施例提供了一种文本方向校正方法，包括：

获取待识别文本图像；

将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到待识别文本图像中每个文本定位框分别对应的坐标信息；

根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向；

若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及转换后每个文本定位框对应的坐标信息。

在其中一个实施例中，文本方向定位检测模型的获取方法包括：获取若干个标准方向的样本图像；通过矩形框标注样本图像的文本区域，并记录文本区域的坐标信息以及对应的类别标签；对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息；使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，以获得文本方向定位检测模型。

在其中一个实施例中，使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，获得文本方向定位检测模型，包括：利用通过COCO训练好的VGG基础模型，将不同方向的样本图像数据集输入到TextBox++框架中，在基础模型上进行微调，并训练深度神经网络文本定位检测模型，获得文本方向定位检测模型。

在其中一个实施例中，在基础模型上进行微调，包括：加载基础模型；计算样本图像数据集的均值文件；修改TextBox++框架的输出类别数；调整基础模型的学习率，将基本学习率调整为0.0001，weight_decay调整为0.0005，gamma设置为0.1，学习率策略设定为“multistep”，优化算法选用Adam。

在其中一个实施例中，标准方向的样本图像的角度为0度，则不同角度包括顺时针旋转90度、顺时针旋转180以及顺时针旋转270度；则对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息，包括：对样本图像进行顺时针90度的旋转，得到对应方向的样本图像以及顺时针90度旋转后的文本区域的坐标信息；对样本图像进行顺时针180度的旋转，得到对应方向的样本图像以及顺时针180度旋转后的文本区域的坐标信息；对样本图像进行顺时针270度的旋转，得到对应方向的样本图像以及顺时针270度旋转后的文本区域的坐标信息。

在其中一个实施例中，文本区域的坐标信息包括文本区域四个顶点的坐标，且旋转后的文本区域的每一个顶点与旋转前的文本区域的每一个顶点相对应。

在其中一个实施例中，根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向，包括：根据文本定位框的坐标信息确定对应的角度；遍历待识别文本图像中的每个文本定位框，利用与角度对应的统计变量统计待识别文本图像中相应角度的文本定位框的个数；将统计的文本定位框的个数最多的角度确定为待识别文本图像的方向。

在其中一个实施例中，若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，包括：若待识别文本图像的方向不是标准方向，则根据待识别文本图像的方向相对于标准方向的角度，对待识别文本图像进行所述角度的逆时针旋转，得到转换为标准方向的文本图像；根据旋转的角度和方向计算旋转后的每个文本定位框分别对应的坐标信息。

另一方面，本申请实施例提供了一种文本方向校正装置，包括：

待识别文本图像获取模块，用于获取待识别文本图像；

文本方向检测模块，用于将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到待识别文本图像中每个文本定位框分别对应的坐标信息；

文本方向确定模块，用于根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向；

文本方向转换模块，用于若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及每个文本定位框对应转换后的坐标信息。

又一方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，其中，存储器存储有计算机程序，处理器执行所述计算机程序时实现如上所述方法的步骤。

再一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述文本方向校正方法、装置、计算机设备和存储介质，通过将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，从而得到待识别文本图像中每个文本定位框分别对应的坐标信息，并根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向，并在判断待识别文本图像的方向不是标准方向时，对待识别文本图像的方向进行校正，从而避免因待识别文本图像的方向错误而导致机器误识别的问题，提高了机器识别的正确率。

附图说明

图1为一个实施例中文本方向校正方法的流程示意图；

图2为一个实施例中文本方向校正方法的应用示意图；

图3为一个实施例中文本方向定位检测模型的获取方法的流程示意图；

图4为一个实施例中对样本图像中矩形框进行旋转及标注的示意图；

图5为一个实施例中确定待识别文本图像的方向的流程示意图；

图6(A)为一个实施例中对待识别文本图像进行校正的示意图；

图6(B)为另一个实施例中对待识别文本图像进行校正的示意图；

图6(C)为又一个实施例中对待识别文本图像进行校正的示意图；

图7为一个实施例中文本方向校正装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种文本方向校正方法，如图1所示，可以包括如下步骤：

步骤102，获取待识别文本图像。

其中，待识别文本图像是指待通过机器进行文本识别的文本图像。具体的，在本实施例中，待识别文本图像可以是存储在服务器中的文本图像，当要对服务器中的文本图像进行机器识别时，首先需要获取服务器中的待识别文本图像，并通过本申请的方法对待识别文本图像的方向进行识别，以判断待识别文本图像的方向是否为标准方向，当待识别文本图像的方向不是标准方向时，则对待识别文本图像的方向进行校正后再进行机器识别，从而避免因待识别文本图像的方向错误而导致机器误识别的问题。

步骤104，将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到待识别文本图像中每个文本定位框分别对应的坐标信息。

其中，基于深度学习的文本方向定位检测模型可以是基于深度学习对深度神经网络文本定位检测模型进行训练后得到的，具体的，其可以是基于文本定位框架实现的，例如，文本定位框架可以是TextBoxes++(文本框组件)框架，当然，也可以采用其他的任意文本定位框架，在本实施例中并不对此进行限定。

在本实施例中，将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，使用Softmax得到识别的文本定位框的类别信息，使用bounding box regression得到识别的文本定位框的坐标信息。即可得到待识别文本图像中的所有文本定位框以及每个文本定位框分别对应的类别信息和坐标信息。在本实施例中，每一个文本定位框对应的坐标信息可以通过一个一维数组来表示，因此，当检测到待识别文本图像中存在N个文本定位框时，则可得到对应于待识别文本图像的N个一维数组。具体的，如图2所示，将待识别文本图像输入到基于深度学习的文本方向定位检测模型中，得到N个一维数组，数组表示形式为：(class,x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)，其中，数组中第一个元素“class”表示对应文本定位框的类别信息，如是“文本区域”则为1，不是则为0；数组后8个元素表征对应文本定位框的四个顶点的坐标，依次为文本定位框第一个顶点的坐标“x₁,y₁”、第二个顶点的坐标“x₂,y₂”、第三个顶点的坐标“x₃,y₃”以及第四个顶点的坐标“x₄,y₄”。其中x、y分别表示顶点对应的x轴坐标值和y轴坐标值。

步骤106，根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向。

其中，待识别文本图像的方向可以是指待识别文本图像的角度，其可以通过待识别文本图像中每个文本定位框的角度投票产生。在本实施例中，可以根据每个文本定位框分别对应的坐标信息以及标注的样本图像数据集而确定每一个文本定位框的角度，从而将同一角度下文本定位框的个数最多的角度作为待识别文本图像的方向。

步骤108，若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及转换后每个文本定位框对应的坐标信息。

其中，标准方向是指机器能够正确识别文本时文本图像的方向。在本实施例中，通过定义标准方向，从而判断待识别文本图像的方向是否为标准方向，当待识别文本图像的方向是标准方向时，则表示机器能够正确识别文本，因此不需要对其进行校正。而当待识别文本图像的方向不是标准方向时，则表示机器不能够正确识别文本，因此需要对其进行校正。

具体的，在本实施例中，根据待识别文本图像的方向以及标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，以将每个文本定位框转换为标准方向的角度，并得到转换后的每个文本定位框对应的坐标信息以及转换后的文本图像，从而完成对待识别文本图像的方向校正。

上述文本方向校正方法，通过将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，从而得到待识别文本图像中每个文本定位框分别对应的坐标信息，并根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向，并在判断待识别文本图像的方向不是标准方向时，对待识别文本图像的方向进行校正，从而避免因待识别文本图像的方向错误而导致机器误识别的问题，提高了机器识别的正确率。

在一个实施例中，如图3所示，文本方向定位检测模型的获取方法包括以下步骤：

步骤302，获取若干个标准方向的样本图像。

为了获得文本方向定位检测模型，首先需要准备对基础模型进行训练的多方向的样本图像数据集。在本实施例中，以若干个标准方向的样本图像为基础，从而生成多方向的样本图像数据集。

步骤304，通过矩形框标注样本图像的文本区域，并记录文本区域的坐标信息以及对应的类别标签。

其中，类别标签用于区分矩形框为文本区域还是背景。在本实施例中，可以通过矩形框标注样本图像中的文本区域，并记录文本区域矩形框的类别标签以及对应的坐标信息。其中，文本区域矩形框的坐标信息包括文本区域矩形框四个顶点的坐标，其可以通过一个一维数组来表示。具体的，若设定标准方向的样本图像的宽为w，高为h，则其中一个文本区域矩形框R的四个顶点(P1、P2、P3以及P4)的坐标信息包括(x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)，如图4所示，P1点的坐标为x₁,y₁、P2点的坐标为x₂,y₂、P3点的坐标为x₃,y₃、P4点的坐标为x₄,y₄。

步骤306，对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息。

在本实施例中，若标准方向的样本图像的角度为0度，则可以对0度的样本图像进行不同角度的旋转，如进行顺时针90度的旋转、顺时针180的旋转以及顺时针270度的旋转等，需要说明的是，本申请中并不对具体的旋转角度进行限定。

具体的，如图4所示，以对0度的样本图像进行顺时针90度的旋转为例进行说明，从而可以得到对应方向的样本图像以及顺时针90度旋转后的文本区域的坐标信息。其中，以上述文本区域矩形框R为例进行说明，在对其进行顺时针90度旋转后的文本区域矩形框R90中的四个顶点的位置发生了改变，如第一个顶点P1的位置由左上角(标准方向时)旋转至右上角，即P1、P2、P3以及P4的坐标信息为(h-y₁,x₁,h-y₂,x₂,h-y₃,x₃,h-y₄,x₄)，其中h为样本图像为标准方向(即0度)时样本图像的高，并依次对样本图像中其他矩形框进行相应的旋转，从而得到顺时针90度旋转后的每一个矩形框的坐标信息，并保存旋转后的每一个矩形框的坐标信息以及对应的样本图像。

以对0度的样本图像进行顺时针180度的旋转为例进行说明，从而得到对应方向的样本图像以及顺时针180度旋转后的文本区域的坐标信息。还是以上述文本区域矩形框R为例进行说明，在对其进行顺时针180度旋转后的文本区域矩形框R180中的四个顶点的位置发生了改变，如第一个顶点P1的位置则由左上角(标准方向时)旋转至右下角，即P1、P2、P3以及P4的坐标信息为(w-x₁,h-y₁,w-x₂,h-y₂,w-x₃,h-y₃,w-x₄,h-y₄)，其中h为样本图像为标准方向(即0度)时样本图像的高，w为样本图像为标准方向(即0度)时样本图像的宽。并依次对样本图像中其他矩形框进行相应的旋转，从而得到顺时针180度旋转后的每一个矩形框的坐标信息，并保存旋转后的每一个矩形框的坐标信息以及对应的样本图像。

以对0度的样本图像进行顺时针270度的旋转为例进行说明，从而得到对应方向的样本图像以及顺时针270度旋转后的文本区域的坐标信息。还是以上述文本区域矩形框R为例进行说明，在对其进行顺时针270度旋转后的文本区域矩形框R270中的四个顶点的位置发生了改变，如第一个顶点P1的位置则由左上角(标准方向时)旋转至左下角，即P1、P2、P3以及P4的坐标信息为(y₁,w-x₁,y₂,w-x₂,y₃,w-x₃,y₄,w-x₄)，并依次对样本图像中其他矩形框进行相应的旋转，从而得到顺时针270度旋转后的每一个矩形框的坐标信息，并保存旋转后的每一个矩形框的坐标信息以及对应的样本图像。

采用本实施例的方法对每一个标准方向的样本图像进行上述处理，即得到多方向的样本图像数据集以及对应的坐标信息，从而在后续对模型进行训练时可以让模型学习到样本图像的方向信息。需要说明的是，每次旋转后的文本区域矩形框的第一个顶点与旋转前的文本区域矩形框的第一个顶点相对应，并通过顺时针的顺序依次确定第二个顶点、第三个顶点以及第四个顶点。如图4所示，不管对样本图像进行何种旋转，样本图像中文本区域矩形框的四个顶点的坐标顺序始终与样本图像为标准方向时文本区域矩形框的四个顶点的坐标顺序一致。也即旋转后的文本区域矩形框的每一个顶点与旋转前的文本区域矩形框的每一个顶点相对应。

步骤308，使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，以获得文本方向定位检测模型。

具体的，深度神经网络文本定位检测模型可以是基于文本定位框架实现的，在本实施例中，以文本定位框架基于TextBoxes++框架实现为例进行说明。该框架使用VGG网络为骨干网络，将VGG16的两层全连接层替换成卷积层，在其后增加8个卷积层，这8个卷积层具有不同的分辨率，可以提取不同尺度的特征，在多个特征图上同时进行分类和回归，可以加快模型的运行速度，与SSD(Single Shot MultiBox Detector，目标检测框架)使用3*3卷积核提取特征不同，在提取特征时使用3*5的卷积核，从而更合适有更大宽高比的文本。

本实施例中可以利用通过COCO(为微软发布的COCO数据库，其是一个大型图像数据集)训练好的VGG(Visual Geometry Group Network，神经网络)基础模型，将上述不同方向的样本图像数据集输入到TextBox++框架中，并在基础模型上进行微调，以训练深度神经网络文本定位检测模型，从而得到文本方向定位检测模型。

其中，在基础模型上进行微调，具体可以包括：加载基础模型，计算样本图像数据集的均值文件，并将均值文件中的数据修改为计算后的值。修改TextBox++框架的输出类别数，由于COCO数据集的类别数是91，而本申请中只需要用到2类，即背景和文本区域，因此将TextBox++框架的输出类别数修改为2。并根据实验得到的较好的效果调整基础模型的学习率，如将基本学习率调整为0.0001，weight_decay(权重衰减)调整为0.0005，gamma设置为0.1，学习率策略设定为“multistep”，优化算法选用Adam。

由于重新架构一个新的网络模型是比较复杂的，而且需要极大的数据量，参数调节也比较困难，因此，使用微调在已经训练好的模型上，加入自己的数据，训练合适的模型。微调的好处在于不用重新架构模型，从而大大提高效率。同时，在本身数据量不大的情况下，微调能使模型学习到的特征更具有鲁棒性。

在一个实施例中，如图5所示，根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向，具体可以包括如下步骤：

步骤502，根据文本定位框的坐标信息确定对应的角度。

在本实施例中，当通过基于深度学习的文本方向定位检测模型得到待识别文本图像中每个文本定位框以及分别对应的坐标信息后，根据文本定位框对应的坐标信息中第一个顶点的坐标确定该文本定位框的角度。具体的，当文本定位框的第一个顶点为左上角顶点时，则确定该文本定位框的角度为0度；当文本定位框的第一个顶点为右上角顶点时，则确定该文本定位框的角度为90度；当文本定位框的第一个顶点为右下角顶点时，则确定该文本定位框的角度为180度；当文本定位框的第一个顶点为左下角顶点时，则确定该文本定位框的角度为270度。

步骤504，遍历待识别文本图像中的每个文本定位框，利用与角度对应的统计变量统计待识别文本图像中相应角度的文本定位框的个数。

其中，与角度对应的统计变量是用于统计待识别文本图像中相应角度的文本定位框的个数。在本实施例中，可以设置多个不同角度的统计变量，从而对待识别文本图像中不同角度的文本定位框的个数进行分别统计。具体的，以统计变量包括统计0度的文本定位框的个数f0、统计90度的文本定位框的个数f90、统计180度的文本定位框的个数f180以及统计270度的文本定位框的个数f270为例进行说明，在统计开始前，对各统计变量进行初始化，即将各统计变量的初始值设置为0。遍历待识别文本图像中的每一个文本定位框，若文本定位框的角度为0度，则f0加1，若文本定位框的角度为90度，则f90加1，若文本定位框的角度为180度，则f180加1，若文本定位框的角度为270度，则f270加1，从而得到待识别文本图像中相应角度的文本定位框的个数。

步骤506，将统计的文本定位框的个数最多的角度确定为待识别文本图像的方向。

具体的，以上述实施例中的统计变量f0、f90、f180以及f270为例进行说明，在本实施例中，将统计的f0、f90、f180以及f270中的最大值对应的角度确定为待识别文本图像的方向。例如，如果f0、f90、f180以及f270中的最大值为f90，则表示待识别文本图像中90度的文本定位框的个数最多，因此，可以确定该待识别文本图像的方向为90度，从而根据待识别文本图像的方向进行方向校正。

在一个实施例中，当确定待识别文本图像的方向后，则进一步判断待识别文本图像的方向是否为标准方向。在本实施例中，假设将角度为0度设定为标准方向。则判断待识别文本图像的方向是否为0度，若为0度，则表示待识别文本图像的方向是标准方向，否则表示待识别文本图像的方向不是标准方向。因此，需要对不是标准方向的待识别文本图像的方向进行校正。

具体的，若待识别文本图像的方向不是标准方向，则在通过上述方法确定待识别文本图像的方向即角度后，设定该待识别文本图像的宽和高，假设其宽为w、高为h，且其中一个文本定位框R1的四个顶点(P1、P2、P3以及P4)坐标为(x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)。如图6(A)所示，以识别到待识别文本图像的角度为90度为例进行说明，则对该待识别文本图像的方向进行校正的过程包括：对该待识别文本图像进行逆时针旋转90度，从而得到旋转后的待识别文本图像以及逆时针旋转90度后的文本定位框R1的四个顶点(P1、P2、P3以及P4)的坐标信息(y₁,w-x₁,y₂,w-x₂,y₃,w-x₃,y₄,w-x₄)，并依次对该待识别文本图像中其他文本定位框进行相应的旋转，从而得到逆时针旋转90度后的每一个文本定位框的坐标信息，并保存旋转后的每一个文本定位框的坐标信息以及对应的待识别文本图像，从而完成对待识别文本图像的方向校正。

以该待识别文本图像的角度为180度为例进行说明，如图6(B)所示，则对该待识别文本图像的方向进行校正的过程包括：对该待识别文本图像进行逆时针旋转180度，从而得到旋转后的待识别文本图像以及逆时针旋转180度后的文本定位框R1的四个顶点(P1、P2、P3以及P4)的坐标信息(w-x₁,h-y₁,w-x₂,h-y₂,w-x₃,h-y₃,w-x₄,h-y₄)，并依次对该待识别文本图像中其他文本定位框进行相应的旋转，从而得到逆时针旋转180度后的每一个文本定位框的坐标信息，并保存旋转后的每一个文本定位框的坐标信息以及对应的待识别文本图像，从而完成对待识别文本图像的方向校正。

以该待识别文本图像的角度为270度为例进行说明，如图6(C)所示，则对该待识别文本图像的方向进行校正的过程包括：对该待识别文本图像进行逆时针旋转270度，从而得到旋转后的待识别文本图像以及逆时针旋转270度后的文本定位框R1的四个顶点(P1、P2、P3以及P4)的坐标信息(h-y₁,x₁,h-y₂,x₂,h-y₃,x₃,h-y₄,x₄)，并依次对该待识别文本图像中其他文本定位框进行相应的旋转，从而得到逆时针旋转270度后的每一个文本定位框的坐标信息，并保存旋转后的每一个文本定位框的坐标信息以及对应的待识别文本图像，从而完成对待识别文本图像的方向校正。

采用本实施例的方法对服务器中每一个待识别文本图像进行上述处理，即可完成对每一个待识别文本图像的方向的校正，通过对进行方向校正后的待识别文本图像进行机器识别，从而避免了因待识别文本图像的方向错误而导致机器误识别的问题，提高了机器识别的正确率。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本方向校正装置，包括：待识别文本图像获取模块701、文本方向检测模块702、文本方向确定模块703以及文本方向转换模块704，其中，

待识别文本图像获取模块701，用于获取待识别文本图像；

文本方向检测模块702，用于将待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到待识别文本图像中每个文本定位框分别对应的坐标信息；

文本方向确定模块703，用于根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向；

文本方向转换模块704，用于若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及每个文本定位框对应转换后的坐标信息。

在一个实施例中，文本方向定位检测模型包括：样本图像获取单元，用于获取若干个标准方向的样本图像；标注单元，用于通过矩形框标注样本图像的文本区域，并记录文本区域的坐标信息以及对应的类别标签；旋转单元，用于对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息；模型训练单元，用于使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，以获得文本方向定位检测模型。

在一个实施例中，模型训练单元具体用于：利用通过COCO训练好的VGG基础模型，将不同方向的样本图像数据集输入到TextBox++框架中，在基础模型上进行微调，并训练深度神经网络文本定位检测模型，获得文本方向定位检测模型。

在一个实施例中，在基础模型上进行微调，包括：加载基础模型；计算样本图像数据集的均值文件；修改TextBox++框架的输出类别数；调整基础模型的学习率，将基本学习率调整为0.0001，weight_decay调整为0.0005，gamma设置为0.1，学习率策略设定为“multistep”，优化算法选用Adam。

在一个实施例中，标准方向的样本图像的角度为0度，则不同角度包括顺时针旋转90度、顺时针旋转180以及顺时针旋转270度；则旋转单元具体用于，对样本图像进行顺时针90度的旋转，得到对应方向的样本图像以及顺时针90度旋转后的文本区域的坐标信息；对样本图像进行顺时针180度的旋转，得到对应方向的样本图像以及顺时针180度旋转后的文本区域的坐标信息；对样本图像进行顺时针270度的旋转，得到对应方向的样本图像以及顺时针270度旋转后的文本区域的坐标信息。

在一个实施例中，文本区域的坐标信息包括文本区域四个顶点的坐标，且旋转后的文本区域的每一个顶点与旋转前的文本区域的每一个顶点相对应。

在一个实施例中，文本方向确定模块703具体用于：根据文本定位框的坐标信息确定对应的角度；遍历待识别文本图像中的每个文本定位框，利用与角度对应的统计变量统计待识别文本图像中相应角度的文本定位框的个数；将统计的文本定位框的个数最多的角度确定为待识别文本图像的方向。

在一个实施例中，文本方向转换模块704具体用于：若待识别文本图像的方向不是标准方向，则根据待识别文本图像的方向相对于标准方向的角度，对待识别文本图像进行所述角度的逆时针旋转，得到转换为标准方向的文本图像；根据旋转的角度和方向计算旋转后的每个文本定位框分别对应的坐标信息。

关于文本方向校正装置的具体限定可以参见上文中对于文本方向校正方法的限定，在此不再赘述。上述文本方向校正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储不同方向的样本图像数据集、待识别文本图像以及进行方向校正后的文本图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本方向校正方法方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本方向校正方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8、图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别文本图像；

在一个实施例中，文本方向定位检测模型的获取方法包括：获取若干个标准方向的样本图像；通过矩形框标注样本图像的文本区域，并记录文本区域的坐标信息以及对应的类别标签；对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息；使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，以获得文本方向定位检测模型。

在一个实施例中，使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，获得文本方向定位检测模型，包括：利用通过COCO训练好的VGG基础模型，将不同方向的样本图像数据集输入到TextBox++框架中，在基础模型上进行微调，并训练深度神经网络文本定位检测模型，获得文本方向定位检测模型。

在一个实施例中，标准方向的样本图像的角度为0度，则不同角度包括顺时针旋转90度、顺时针旋转180以及顺时针旋转270度；则对样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息，包括：对样本图像进行顺时针90度的旋转，得到对应方向的样本图像以及顺时针90度旋转后的文本区域的坐标信息；对样本图像进行顺时针180度的旋转，得到对应方向的样本图像以及顺时针180度旋转后的文本区域的坐标信息；对样本图像进行顺时针270度的旋转，得到对应方向的样本图像以及顺时针270度旋转后的文本区域的坐标信息。

在一个实施例中，根据每个文本定位框分别对应的坐标信息确定待识别文本图像的方向，包括：根据文本定位框的坐标信息确定对应的角度；遍历待识别文本图像中的每个文本定位框，利用与角度对应的统计变量统计待识别文本图像中相应角度的文本定位框的个数；将统计的文本定位框的个数最多的角度确定为待识别文本图像的方向。

在一个实施例中，若待识别文本图像的方向不是标准方向，则根据标准方向对待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，包括：若待识别文本图像的方向不是标准方向，则根据待识别文本图像的方向相对于标准方向的角度，对待识别文本图像进行所述角度的逆时针旋转，得到转换为标准方向的文本图像；根据旋转的角度和方向计算旋转后的每个文本定位框分别对应的坐标信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别文本图像；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本方向校正方法，其特征在于，所述方法包括：

获取待识别文本图像；

将所述待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到所述待识别文本图像中每个文本定位框分别对应的坐标信息；

根据所述每个文本定位框分别对应的坐标信息确定所述待识别文本图像的方向；

若所述待识别文本图像的方向不是标准方向，则根据所述标准方向对所述待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及转换后每个文本定位框对应的坐标信息。

2.根据权利要求1所述的文本方向校正方法，其特征在于，所述文本方向定位检测模型的获取方法包括：

获取若干个标准方向的样本图像；

通过矩形框标注所述样本图像的文本区域，并记录所述文本区域的坐标信息以及对应的类别标签；

对所述样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息；

使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，以获得文本方向定位检测模型。

3.根据权利要求2所述的文本方向校正方法，其特征在于，所述使用不同方向的样本图像数据集训练深度神经网络文本定位检测模型，获得文本方向定位检测模型，包括：

利用通过COCO训练好的VGG基础模型，将不同方向的样本图像数据集输入到TextBox++框架中，在所述基础模型上进行微调，并训练深度神经网络文本定位检测模型，获得文本方向定位检测模型。

4.根据权利要求2所述的文本方向校正方法，其特征在于，所述标准方向的样本图像的角度为0度，则所述不同角度包括顺时针旋转90度、顺时针旋转180以及顺时针旋转270度；所述对所述样本图像进行不同角度的旋转，分别得到与旋转角度对应方向的样本图像以及旋转后的文本区域的坐标信息，包括：

对所述样本图像进行顺时针90度的旋转，得到对应方向的样本图像以及顺时针90度旋转后的文本区域的坐标信息；

对所述样本图像进行顺时针180度的旋转，得到对应方向的样本图像以及顺时针180度旋转后的文本区域的坐标信息；

对所述样本图像进行顺时针270度的旋转，得到对应方向的样本图像以及顺时针270度旋转后的文本区域的坐标信息。

5.根据权利要求2所述的文本方向校正方法，其特征在于，所述文本区域的坐标信息包括文本区域四个顶点的坐标，且旋转后的文本区域的每一个顶点与旋转前的文本区域的每一个顶点相对应。

6.根据权利要求1所述的文本方向校正方法，其特征在于，所述根据所述每个文本定位框分别对应的坐标信息确定所述待识别文本图像的方向，包括：

根据所述文本定位框的坐标信息确定对应的角度；

遍历所述待识别文本图像中的每个文本定位框，利用与角度对应的统计变量统计所述待识别文本图像中相应角度的文本定位框的个数；

将统计的文本定位框的个数最多的角度确定为所述待识别文本图像的方向。

7.根据权利要求1所述的文本方向校正方法，其特征在于，所述若所述待识别文本图像的方向不是标准方向，则根据所述标准方向对所述待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，包括：

若所述待识别文本图像的方向不是标准方向，则根据所述待识别文本图像的方向相对于所述标准方向的角度，对所述待识别文本图像进行所述角度的逆时针旋转，得到转换为标准方向的文本图像；

根据旋转的角度和方向计算旋转后的每个文本定位框分别对应的坐标信息。

8.一种文本方向校正装置，其特征在于，所述装置包括：

待识别文本图像获取模块，用于获取待识别文本图像；

文本方向检测模块，用于将所述待识别文本图像输入至基于深度学习的文本方向定位检测模型中，得到所述待识别文本图像中每个文本定位框分别对应的坐标信息；

文本方向确定模块，用于根据所述每个文本定位框分别对应的坐标信息确定所述待识别文本图像的方向；

文本方向转换模块，用于若所述待识别文本图像的方向不是标准方向，则根据所述标准方向对所述待识别文本图像中每个文本定位框分别对应的坐标信息进行转换，得到转换为标准方向后的文本图像以及每个文本定位框对应转换后的坐标信息。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。