CN112766418A

CN112766418A - 图像文本方向分类方法、装置、设备及存储介质

Info

Publication number: CN112766418A
Application number: CN202110232357.2A
Authority: CN
Inventors: 杨帆; 杨兆斌; 车成富
Original assignee: Sunshine Property And Casuality Insurance Co ltd
Current assignee: Sunshine Property And Casuality Insurance Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-05-07

Abstract

本申请提供一种图像文本方向分类方法、装置、设备及存储介质，方法包括：获取已标注文本图像样本集合；根据已标注文本图像样本集合生成文本检测模型；根据已标注文本图像样本集合生成图像文本方向二分类模型；将输入图像输入文本检测模型，得到文本字段外接矩形框集合；从文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据外接矩形框的宽高比获取输入图像中的文本的初步方向；初步方向为横向或纵向；根据外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；将预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合；根据预测文本串图像二分类方向集合和初步方向获取输入图像的文本方向。

Description

图像文本方向分类方法、装置、设备及存储介质

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种图像文本方向分类方法、装置、设备及存储介质。

背景技术

目前，随着图像识别技术的发展，自动识别文本已经成为可能，文本利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。自动识别文本技术使得人们在生产和生活中需要处理大量的文字、报表和文本等场景下减轻人们的劳动，提高处理效率。

在各种实际的应用场景中，需要对大量的文本图像文件进行内容核验，而相当一部分文本图像文件并非水平方向，而是存在各个方向的旋转，主要包还含90度，180度，270度等方向，目前大量的机器学习算法在识别文本内容时都需要文本图像按照预定角度范围输入，因此在进行文本识别前需要首先对图像文本进行矫正，而已有的文本方向自动矫正算法都存在一定的精度损失，精度提升存在瓶颈，需要一定的人工介入矫正，浪费大量时间。

发明内容

本申请实施例的目的在于提供一种图像文本方向分类方法、装置、设备及存储介质。

第一方面，本申请实施例提供了一种图像文本方向分类方法，所述方法包括：

获取已标注文本图像样本集合；

根据所述已标注文本图像样本集合生成文本检测模型；

根据所述已标注文本图像样本集合生成图像文本方向二分类模型；

将输入图像输入所述文本检测模型，得到文本字段外接矩形框集合；

从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的宽高比获取所述输入图像中的文本的初步方向；

所述初步方向为横向或纵向；

根据所述外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；

将所述预测文本串图像集合中的图像输入所述图像文本方向二分类模型，得到预测文本串图像二分类方向集合；

根据所述预测文本串图像二分类方向集合和所述初步方向获取所述输入图像的文本方向。

在上述实现过程中，分别建立了文本检测模型和图像文本方向二分类模型，所述文本检测模型和所述图像文本方向二分类模型是整个算法的关键。所述文本检测模型能对四个方向(0度，90度，180度，270度)的文本进行有效检测，所述图像文本方向二分类模型的输出结果准确率高，使整个模型的性能提升。将输入图像输入到所述文本检测模型之后得到文本字段外接矩形框集合，根据所述外接矩形框的宽高比，初步判定输入图像为横向或者纵向。所述外接矩形框集合还能有效地从输入图像中进一步获取所需要的预测文本串图像集合，最后将预测文本串图像输入所述图像文本方向二分类模型，通过图像文本方向二分类模型的二分类作用能得到预测文本串图像二分类方向集合，结合对所述输入图像的初步判定的结果，最终通过分析能判断出输入图像文本方向。

进一步地，在第一方面的一种可能的实施方式中，所述已标注文本图像样本集合中每张图像文本方向均为0度，且对应标注信息，所述标注信息包括文本字段外接矩形框位置坐标；

所述根据所述已标注文本图像样本集合生成文本检测模型包括：

将所述已标注文本图像样本集合中每张图像依次进行90度，180度，270度旋转操作，得到新文本图像集合；

根据所述已标注文本图像样本集合中每张图像的所述标注信息和旋转角度，计算生成得到转换后所述新文本图像集合中每张图像对应的标注信息；

将所述新文本图像集合与所述已标注文本图像样本集合合并，得到文本图像集合；

根据所述文本图像集合生成所述文本检测模型。

在上述实现过程中，为了获取文本检测模型，需获取具有标注信息的图像，所述标注信息保存在一个文本文件中，标注信息包括外接矩形框位置坐标和目标类别。示例性地，所标注格式可以是‘左上角x坐标，左上角y坐标，右下角x坐标，右下角y坐标，类别’。为了文本检测模型能对0度、90度、180度、270度4个方向的图像文本进行检测，对已标注文本图像样本集合中的每张图像进行旋转，旋转之后计算出新的图像标注信息。

进一步地，在第一方面的一种可能的实施方式中，

所述根据所述已标注文本图像样本集合生成所述图像文本方向二分类模型的步骤，包括：

获取所述已标注文本图像样本集合对应的标注信息，根据所述标注信息筛选得到预设数量宽高比大于预设值的文本标注框集合；

根据所述文本标注框集合从所述文本标注框所属的所述已标注文本图像样本集合中的文本图像对应位置进行裁剪，得到第一训练文本串图像样本集合；

对所述第一训练文本串图像样本集合中每个文本串图像进行逆时针180度旋转操作得到第二训练文本串图像样本集合；

根据所述第一训练文本串图像样本集合和第二训练文本串图像样本集合，生成图像文本方向二分类模型。

在上述实现过程中，标注文件存储有所述文本标注框的坐标信息，基于标注框的坐标信息可以挑选出符合要求的文本标注框集合。基于所述文本标注框集合对原始图像进行裁剪，得到第一训练文本串图像样本集合。接着将第一训练文本串图像样本集合中的每张图像进行旋转，得到第二训练文本串图像样本集合，最终得到两个类别的训练数据，符合图像文本方向二分类模型对输入数据的要求。

进一步地，在第一方面的一种可能的实施方式中，所述根据所述第一训练文本串图像样本集合和所述第二训练文本串图像样本集合，生成所述图像文本方向二分类模型的具体步骤包括：

将所述第一训练文本串图像样本集合和所述第二训练文本串图像样本集合中每个文本串图像进行预处理；

将所述第一训练文本串图像样本集合中每张文本串图像的文本方向标记为0度，第二训练文本串图像样本集合中每张文本串图像的文本方向标记为180度方向；

根据标记后的所述第一训练文本串图像样本集合和所述第二训练文本串图像样本集合，通过预设图像分类算法得到图像文本方向二分类模型。

在上述实现过程中，将所述第一训练文本串图像样本集合和第二训练文本串图像样本集合进行预处理有利于加快计算效率。同时，将所述第一训练文本串图像样本集合中的文本串图像标记为0度，将第二训练文本串图像样本集合中的文本串图像标记为180度。最终得到两个类别的训练数据，符合图像文本方向二分类模型对输入数据的要求，根据预设图像分类算法，最终得到图像文本方向二分类模型。

进一步地，在第一方面的一种可能的方式中，从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的宽高比获取所述输入图像中的文本的初步方向的步骤，包括：

遍历所述文本字段外接矩形框集合，根据所述文本字段外接矩形框集合中每个外接矩形框的坐标计算每个外接矩形框的宽和高；

从所述文本字段外接矩形框集合筛选得到预设数量个宽高比大于第一预设值的外接矩形框，得到第一文本字段外接矩形框集合；

从所述文本字段外接矩形框集合筛选得到预设数量个宽高比小于第二预设值的外接矩形框，得到第二文本字段外接矩形框集合；

分别统计所述第一文本字段外接矩形框集合的外接矩形框的数量N₁和所述第二文本字段外接矩形框集合的外接矩形框的数量N₂；

判断N₁与N₂的大小关系；

若N₁大于N₂，判断所述输入图像的文本方向为横向；

若N₁小于N₂，判断所述输入图像的文本的方向为纵向。

在上述实现过程中，对不同宽高比的文本字段外接矩形框进行分类统计，判断输入图像的文本方向为横向(即0度或180度)还是纵向(即90度或270)，增加对输入图像识别的准确性。

进一步地，在第一方面的一种可能的实施方式中，所述判断所述输入图像的文本的初步方向为横向之后，还包括：

根据所述第一文本字段外接矩形框集合中的外接矩形框的坐标从所述输入图像对应位置进行裁剪得到第一预测文本串图像集合；

所述判断所述输入图像的文本的初步方向为纵向之后，还包括：

根据所述第二文本字段外接矩形框集合中的外接矩形框的坐标从输入图像对应位置进行裁剪并进行逆时针90度旋转操作得到所述第二预测文本串图像集合；

所述预测文本串图像集合包括所述第一预测文本串图像集合和所述第二预测文本串图像集合。

在上述实现过程中，在根据所述文本字段外接矩形框的宽高比判断输入图像文本方向为横向(0度或180度)还是纵向(90度或270度)基础上，从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合。有利于后续的计算，增加整个算法对图像中的文本方向识别的准确性。

进一步地，在第一方面的一种可能的实施方式中，

所述预测文本串图像二分类方向集合包括第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合；

将所述预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合，根据所述预测文本串图像二分类方向集合和初步方向获取所述输入图像的文本方向的具体步骤还包括：

将第一预测文本串图像集合和第二预测文本串图像集合中每张图像进行预处理后输入图像文本方向二分类模型，得到第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合；

对第一预测文本串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₁₀，和180度方向的图像的数量DN₁₁，

如果DN₁₀＞DN_11，则判定所述输入图像文本方向为0度方向；

如果DN₁₀＜DN_11，则判断所述输入图像文本方向为180度方向；

对第二预测文本串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₂₀，和180度方向的图像的数量DN₂₁，

如果DN₂₀＞DN_21，则判定所述输入图像文本方向为270度方向；

如果DN₂₀＜DN_21，则判定所述输入图像文本方向为90度方向。

在上述实现过程中，将所述第一预测文本串图像集合输入所述图像文本方向二分类模型之后得到第一预测文本串图像二分类方向集合，将所述第二预测文本串图像集合输入所述图像文本方向二分类模型之后得到第二预测文本串图像二分类方向集合_。通过对所述第一预测文本串图像二分类方向集合和所述第二预测文本串图像二分类方向集合中的数量统计，并结合上述实施过程中对所述输入图像的文本方向的初步判断，可以准确地识别输入图像的最终方向，识别准确率高。

第二方面，本申请提供了一种文本方向分类装置，包括：

获取模块，用于获取已标注文本图像样本集合；

生成模块，根据所述已标注文本图像样本集合生成文本检测模型，根据所述已标注文本图像样本集合生成图像文本方向二分类模型；

检测模块，用于将输入图像输入所述文本检测模型，得到文本字段外接矩形框集合；

筛选模块，用于从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的宽高比判断所述输入图像为横向或者纵向；

判断模块，用于根据所述外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；将所述预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合；根据所述预测文本串图像二分类方向集合和初步方向获取所述输入图像的文本方向。

在上述实现过程中，分别建立文本检测模型和图像文本方向二分类模型，所述文本检测模型和所述图像文本方向二分类模型是整个算法的关键。所述文本检测模型能对四个方向(0度，90度，180度，270度)的文本进行有效检测，所述图像文本方向二分类模型的输出结果具有准确率高，使整个算法的效率提升。将输入图像输入到所述文本检测模型之后得到文本字段外接矩形框集合，根据所述外接矩形框的宽高比，初步判定输入图像为横向或者纵向。所述外接矩形框集合还能有效地从输入图像中进一步获取所需要的预测文本串图像集合，最后将预测文本串图像输入文本方向二分类模型，能得到预测文本串图像二分类方向集合，结合对所述输入图像的初步判定的结果，最终通过分析能判断出输入图像文本方向。

第三方面，本申请提供了一种电子设备，所述电子设备机包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行第一方面所述的方法。

在上述实现过程中，所述电子设备能自动识别文本方向，加快工作效率。

第四方面，一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行第一方面所述的方法。

在上述实现过程中，所述计算机存储介质能安装在电子设备中，执行第一方面所述的方法，提高工作效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的图像文本方向分类方法的流程图；

图2为本申请实施例提供的生成文本检测模型的流程示意图；

图3为本申请实施例提供的生成图像文本方向二分类模型的流程示意图；

图4为本申请实施例提供的生成图像文本方向二分类模型的另一流程示意图；

图5为本申请实施例提供的判断输入图像的初步方向的流程示意图；

图6为本申请实施例提供的文本图像中文本方向分类装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在各种日常生活场景中，需要对大量的文本影像文件进行内容核验，而相当一部分文本影像文件并非水平方向，而是存在各个方向的旋转，主要包还含90度，180度，270度等方向，文本的图像是能否正确识别文本的内容的重要因素，目前大量的机器学习算法在识别文本内容时都需要文本图像按照预定角度范围输入，因此在进行文本识别前需要首先对图像文本进行矫正，而已有的文本方向自动矫正算法都存在一定的精度损失，精度提升存在瓶颈，需要一定的人工介入矫正，浪费大量时间。

为了解决上述问题，提供一种文本方向分类方法、装置、设备及存储介质。

实施例1

参见图1，为本申请实施例提供的一种文本方向分类方法，方法包括：

S1：获取已标注文本图像样本集合；

S2：根据已标注文本图像样本集合生成文本检测模型；

S3：根据已标注文本图像样本集合生成图像文本方向二分类模型；

S4：将输入图像输入文本检测模型，得到文本字段外接矩形框集合；

S5：从文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据外接矩形框的宽高比判断输入图像为横向或者纵向；

S6：根据外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；

S7：将预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合；

S8：根据预测文本串图像二分类方向集合和初步方向获取输入图像的文本方向。

上述实现过程中分别了建立文本检测模型和图像文本方向二分类模型，文本检测模型和图像文本方向二分类模型是整个算法的关键。文本检测模型能对四个方向(0度，90度，180度，270度)的文本进行有效检测，图像文本方向二分类模型输出结果准确性高，使整个算法的性能提升。将输入图像输入到文本检测模型之后得到文本字段外接矩形框集合，根据外接矩形框的宽高比初步判定输入图像为横向或者纵向。外接矩形框集合还能有效地从输入图像中进一步获取所需要的预测文本串图像集合，最后将预测文本串图像集合中的图像输入图像文本方向二分类模型，通过图像文本方向二分类模型的二分类效果能得到预测文本串图像二分类方向集合，结合对输入图像的方向初步判定的结果，最终通过分析能判断出输入图像文本方向。

示例性地，文本检测模型经过文本检测算法生成，文本检测算法为基于深度学习的文本检测或目标检测算法，可选的有FasterR－CNN，DBNet，PSENet等。本申请不对文本检测算法做限定，在本申请的构思的基础上改变文本检测算法形成的方案仍然属于本申请的保护范围。

在一种可能的实施方式中，文本图像集合中每张图像文本方向均为0度，且对应标注信息，标注信息包括文本字段外接矩形框位置坐标，参见图2，S2可以通过以下步骤实现：

S21：将已标注文本图像样本集合中每张图像分别依次进行逆时针90度，180度，270度旋转操作，得到新文本图像集合；

S22：根据已标注文本图像样本集合中每张图像的标注信息和旋转角度，计算生成得到转换后新文本图像集合每张图像对应的标注信息；

S23：将新文本图像集合与标注文本图像集合合并，得到文本图像集合；

S24：根据文本图像集合生成文本检测模型。

为了获取文本检测模型，需获取具有标注信息的图像，标注信息保存在一个文本文件中，标注信息包括外接矩形框位置坐标和目标类别。示例性地，所标注格式可以是‘左上角x坐标，左上角y坐标，右下角x坐标，右下角y坐标，类别’。为了文本检测模型能对0度、90度、180度、270度4个方向的图像文本进行检测，对已标注文本图像样本集合中的每张图像进行旋转，旋转之后计算出新的图像标注信息。

参见图3，在一种可能的实施方式中，S3可以通过以下步骤实现：

S31：获取已标注文本图像样本集合对应的标注信息，根据标注信息筛选得到预设数量宽高比大于预设值的文本标注框集合；

S32：根据文本标注框集合从文本标注框所属的已标注文本图像样本集合中的文本图像对应位置进行裁剪，得到第一训练文本串图像样本集合；

S33：对第一训练文本串图像样本集合中每个文本串图像进行逆时针180度旋转操作得到第二训练文本串图像样本集合；

S34：根据第一训练文本串图像样本集合和第二训练文本串图像样本集合，生成图像文本方向二分类模型。

标注文件存储有文本标注框的坐标信息，基于标注框的坐标信息可以挑选出符合要求的文本标注框集合。基于文本标注框集合，对原始图像进行裁剪，从而得到第一训练文本串图像样本集合。接着将第一图像样本集合中的每张图像进行旋转，得到第二训练文本串图像样本集合，最终得到两个类别的训练数据，符合图像文本方向二分类模型对输入数据的要求。

示例性地，基于对文本特征分析，一般情况下字符数大于等于2的水平字符串，宽大于高，即宽高比大于某一大于1的值，进一步地，为了排除只有一个字符的文本的干扰，可以将该值设为1.5，预设数量一般取已标注文本图像样本集合中的标注框数量的百分之六十。需要说明的是，百分之六十只是一个较佳实施例，在本申请的基础上改变该预设数量的大小形成的新方案仍属于本申请的保护范围。

参见图4，在一种可能的实施方式中，S34可以通过以下子步骤实现：

S341：将第一训练文本串图像样本集合和第二训练文本串图像样本集合中每个文本串图像进行预处理；

S342：将第一训练文本串图像样本集合中每张文本串图像的文本方向标记为0度，第二训练文本串图像样本集合中每张文本串图像的文本方向标记为180度；

S343：根据标记后的第一训练文本串图像样本集合和第二训练文本串图像样本集合，通过预设图像分类算法得到图像文本方向二分类模型。

预设图像分类算法为基于深度学习的图像分类算法，可选的算法有ResNet18，ResNet50，MobileNet等。

将第一训练文本串图像样本集合和第二训练文本串图像样本集合中的图片进行预处理有利于加快计算效率。同时，将第一训练文本串图像样本集合中的文本串图像标记为0度，将第二训练文本串图像样本集合中的文本串图像标记为180度。最终得到两个类别的训练数据，符合图像文本方向二分类模型对输入数据的要求，根据预设图像分类算法最终得到图像文本方向二分类模型。

参见图5，在一种可能的实施方式中，S5通过以下子实现：

S51：遍历文本字段外接矩形框集合，根据文本字段外接矩形框集合中每个外接矩形框的坐标计算每个外接矩形框的宽和高；

S52：从文本字段外接矩形框集合筛选得到预设数量个宽高比大于第一预设值的外接矩形框，得到第一文本字段外接矩形框集合；

S53：从文本字段外接矩形框集合筛选得到预设数量个宽高比小于第二预设值的外接矩形框，得到第二文本字段外接矩形框集合；

S54分别统计第一文本字段外接矩形框集合的外接矩形框的数量N₁和第二文本字段外接矩形框集合的外接矩形框的数量N₂；

S55：判断N₁是否大于N₂，若N₁大于N₂，执行S56，若N₁小于N₂，执行S57；

S56：判断输入图像的文本的初步方向为横向；

S57：判断输入图像的文本的初步方向为纵向。

示例性地，输入一张文本图像到文本检测模型，得到每个图像外接矩形框坐标集合，假设该集合中有11个矩形坐标，很容易计算得到每个矩形的宽和高，假设宽高比大于2的数量为9，宽高比小于1/2的数量为0，那么可以判断输入图像文本方向为横向(0度或180度)。其次，从这个9个矩形中选择5个得到文本字段外接矩形框集合，同理假设宽高比大于2的数量为0，宽高比小于1/2的数量为9，则可以判断输入图像文本方向为纵向(90度或270度)，并得到第二文本字段外接矩形框集合。第一预设值通常大于1，第二预设值为第一预设值的倒数。

输入图像文本方向存在四种可能，分别为0度方向，90度方向，180度方向，270度方向，一般情况下0度方向，180度方向的图像的大部分文本字段外接矩形框宽比高大，而90度方向，270度方向的图像则好相反，因此基于这种特征，根据上述对第一文本字段外接矩形框集合和第二文本字段外接矩形框集合统计结果，可以方便的识别文本串图像方向属于[0度，180度]或属于[90度，270度]，如果属于[90度，270度]，则将文本串图像逆时针旋转90度，转换为[0度，180度]，如此，将四分类问题转化为二分类问题，能有效提升图像分类效果。

参见图5，在一种可能的实施方式中，为了方便后续识别以及提高识别的准确性，判断输入图像的文本的初步方向为横向之后，方法还包括：

S561：根据第一文本字段外接矩形框集合中的外接矩形框的坐标从输入图像进行裁剪得到第一预测文本串图像集合；

判断输入图像的文本的初步方向为纵向之后，还包括：

S571：根据第二文本字段外接矩形框集合中的外接矩形框的坐标从输入图像进行裁剪并进行逆时针90度旋转操作得到第二预测文本串图像集合；

需要说明的是，这里预测文本串图像集合包括第一预测文本串图像集合和第二预测文本串图像集合。

在根据文本字段外接矩形框的宽高比判断输入图像文本方向为横向(0度或180度)还是纵向(90度或270度)基础上，从文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据外接矩形框的坐标从输入图像中裁剪得到对应的第一预测文本串图像集合或第二预测文本串图像集合。

基于上述生成第一预测文本串图像集合和第二预测文本串图像集合的实施方式，将预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合，根据预测文本串图像二分类方向集合获取输入图像文本方向可以通过以下步骤实现：

对第一预测文本串图像二分类方向进行统计，得出0度方向的图像的数量DN₁₀和180度方向的图像的数量DN₁₁，

如果DN₁₀＞DN_11，则判定输入图像文本方向为0度方向；

如果DN₁₀＜DN_11，则判定输入图像文本方向为180度方向；

对第二预测串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₂₀，和180度方向的图像的数量DN₂₁，

如果DN₂₀＞DN_21，则判定输入图像文本方向为270度方向；

如果DN₂₀＜DN_21，则判定输入图像文本方向为90度方向。

将第一预测文本串图像集合输入图像文本方向二分类模型之后得到第一预测文本串图像二分类方向集合，将第二预测文本串图像集合输入图像文本方向二分类模型之后得到第二预测文本串图像二分类方向集合_，通过对第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合中的数量统计，并结合上述实施过程中对输入图像的文本方向的初步判断，可以确定输入图像的最终方向，识别准确率高。

示例性的，基于本实施例的模型，预处理方式可以是将所有图片处理到相同尺寸。具体做法是先将文本串图像的高缩放至预设固定大小，再按其初始高宽比对其宽进行缩放，最后裁剪为固定大小图像，例如文本串图像p1高＊宽为18＊240，文本串图像p2高＊宽为24＊300，按方法，将p1，p2的高缩放至固定大小32，然后按各自高宽比将宽分别缩放至427和400，即缩放后的p1，p2高＊宽分别为32＊427，32＊400，最后将图像裁剪至固定大小32＊192得到p1，p2高＊宽分别为32＊192，32＊192，裁剪时宽度不足192时进行左右两边同等像素补白。

实施例2

参见图6，本申请提供一种文本分类装置，包括：

获取模块1，用于获取已标注文本图像样本集合；

生成模块2，根据已标注文本图像样本集合生成文本检测模型，根据已标注文本图像样本集合生成图像文本方向二分类模型；

检测模块3，用于将输入图像输入文本检测模型，得到文本字段外接矩形框集合；

筛选模块4，用于从文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据外接矩形框的宽高比判断输入图像为横向或者纵向；

判断模块5，用于根据外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；将预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合；根据预测文本串图像二分类方向集合和初步方向获取输入图像的文本方向。

通过各个模块配合，分别建立文本检测模型和图像文本方向二分类模型，文本检测模型和图像文本方向二分类模型是整个算法的关键。文本检测模型能对四个方向(0度，90度，180度，270度)的文本进行有效检测，图像文本方向二分类模型为二分类模型，二分类模型的输出结果准确率高，使整个算法的性能提升。将输入图像输入到文本检测模型之后得到文本字段外接矩形框集合，根据所外接矩形框的宽高比，初步判定输入图像为横向或者纵向。外接矩形框集合还能有效地从输入图像中进一步获取所需要的预测文本串图像集合，将文本串图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合，结合对输入图像的初步判定的结果，最终通过分析能判断出输入图像文本方向。

已标注文本图像样本集合中每张图像文本方向均为0度，且对应标注信息，标注信息包括文本字段外接矩形框位置坐标；生成模块2还用于将已标注文本图像样本集合中每张图像分别依次进行90度，180度，270度旋转操作，得到新文本图像集合；根据已标注文本图像样本集合中每张图像的标注信息和旋转角度，计算生成得到转换后新文本图像集合每张图像对应的标注信息；将新文本图像集合与已标注文本图像样本集合合并，得到文本图像集合；根据文本图像集合生成文本检测模型。

生成模块2还用于获取已标注文本图像样本集合对应的标注信息，根据标注信息筛选得到预设数量宽高比大于预设值的文本标注框集合；根据文本标注框集合从文本标注框所属的已标注文本图像样本集合中的文本图像对应位置进行裁剪，得到第一训练文本串图像样本集合；对第一训练文本串图像样本集合中每个文本串图像进行逆时针180度旋转操作得到第二训练文本串图像样本集合；根据第一训练文本串图像样本集合和第二训练文本串图像样本集合，生成图像文本方向二分类模型。

生成模块2还用于将第一训练文本串图像样本集合和第二训练文本串图像样本集合中每个文本串图像进行预处理；将第一训练文本串图像样本集合中每张图像文本方向标记为0度，第二训练文本串图像样本集合中每张文本串图像文本方向标记为180度方向；根据标记后的第一训练文本串图像样本集合和第二训练文本串图像样本集合，通过预设图像分类算法得到图像文本方向二分类模型。

检测模块3还用于遍历文本字段外接矩形框集合，根据文本字段外接矩形框集合中每个外接矩形框的坐标计算每个外接矩形框的宽和高；从文本字段外接矩形框集合筛选得到预设数量个宽高比大于第一预设值的第一文本字段外接矩形框集合；从文本字段外接矩形框集合筛选得到预设数量个宽高比小于第二预设值的第二文本字段外接矩形框集合；分别统计第一文本字段外接矩形框集合的外接矩形框的数量N₁和第二文本字段外接矩形框集合的外接矩形框的数量N₂；判断N₁与N₂的大小关系；若N₁大于N₂，判断输入图像的文本方向为横向；若N₁小于N₂，判断输入图像的文本的方向为纵向。

筛选模块4还用于根据第二文本字段外接矩形框集合中的外接矩形框的坐标从输入图像中裁剪并进行逆时针90度旋转操作得到第二预测文本串图像集合；预测文本串图像集合包括第一预测文本串图像集合和第二预测文本串图像集合。

预测文本串图像二分类方向集合包括第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合；判断模块5还用于将第一预测文本串图像集合和第二预测文本串图像集合中每张图像进行预处理后输入图像文本方向二分类模型，得到第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合；对第一预测文本串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₁₀，180度方向的图像的数量DN₁₁，如果DN₁₀＞DN_11，则判定输入图像文本方向为0度方向；如果DN₁₀＜DN_11，则判定输入图像文本方向为180度方向；对第二预测文本串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₂₀，和180度方向的图像的数量DN₂₁，如果DN₂₀＞DN_21，则判定输入图像文本方向为270度方向；如果DN₂₀＜DN_21，则判定输入图像文本方向为90度方向。

实施例3

本申请提供一种电子设备，电子设备机包括：存储器、处理器及存储在存储器上并可在处理器上运行的数据处理程序，数据处理程序被处理器执行第一方面的方法。

电子设备能自动识别文本方向，加快工作效率。

实施例4

一种计算机存储介质，计算机存储介质中存储有计算机程序指令，计算机程序指令被计算机的处理器读取并运行时，执行第一方面的方法。

计算机存储介质能安装在电子设备中，执行第实施例1中的方法，提高工作效率。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种图像文本方向分类方法，其特征在于，包括：

获取已标注文本图像样本集合；

根据所述已标注文本图像样本集合生成文本检测模型；

所述初步方向为横向或纵向；

根据所述外接矩形框的坐标从所述输入图像中裁剪得到对应的预测文本串图像集合；

2.根据权利要求1所述的图像文本方向分类方法，其特征在于，

所述已标注文本图像样本集合中每张图像文本方向均为0度，且对应标注信息，所述标注信息包括文本字段外接矩形框位置坐标；

将所述已标注文本图像样本集合中每张图像分别依次进行90度，180度，270度旋转操作，得到新文本图像集合；

根据所述文本图像集合生成所述文本检测模型。

3.根据权利要求2所述的图像文本方向分类方法，其特征在于，

根据所述第一训练文本串图像样本集合和所述第二训练文本串图像样本集合，生成所述图像文本方向二分类模型。

4.根据权利要求3所述的图像文本方向分类方法，其特征在于，所述根据所述第一训练文本串图像样本集合和所述第二训练文本串图像样本集合，生成所述图像文本方向二分类模型的具体步骤包括：

将所述第一训练文本串图像样本集合中每张文本串图像的文本方向标记为0度，第二训练文本串图像样本集合中每张文本串图像的文本方向标记为180度；

5.根据权利要求1所述的图像文本方向分类方法，其特征在于，

所述从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的宽高比获取所述输入图像中的文本的初步方向的步骤，包括：

判断N₁与N₂的大小关系；

若N₁大于N₂，判断所述输入图像的文本的初步方向为横向；

若N₁小于N₂，判断所述输入图像的文本的初步方向为纵向。

6.根据权利要求5所述的图像文本方向分类方法，其特征在于，

所述判断所述输入图像的文本的初步方向为横向之后，还包括：

根据所述第一文本字段外接矩形框集合中的外接矩形框的坐标从所述输入图像的对应位置进行裁剪得到第一预测文本串图像集合；

根据所述第二文本字段外接矩形框集合中的外接矩形框的坐标从所述输入图像的对应位置进行裁剪并进行逆时针90度旋转操作得到第二预测文本串图像集合；

7.根据权利要求6所述的图像文本方向分类方法，其特征在于，

将所述预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合，根据所述预测文本串图像二分类方向集合和所述初步方向获取所述输入图像的文本方向的步骤包括：

将所述第一预测文本串图像集合和所述第二预测文本串图像集合中每张图像进行预处理后输入所述图像文本方向二分类模型，得到第一预测文本串图像二分类方向集合和第二预测文本串图像二分类方向集合；

对第一预测文本串图像二分类方向集合进行统计，得出0度方向的图像的数量DN₁₀，180度方向的图像的数量DN₁₁，

如果DN₁₀＜DN_11，则判定所述输入图像文本方向为180度方向；

8.一种图像文本方向分类装置，其特征在于，包括：

获取模块，用于获取已标注文本图像样本集合；

筛选模块，用于从所述文本字段外接矩形框集合中筛选预设数量的外接矩形框，根据所述外接矩形框的宽高比判断所述输入图像的文本方向为横向或者纵向；

判断模块，用于根据所述外接矩形框的坐标从输入图像中裁剪得到对应的预测文本串图像集合；将预测文本串图像集合中的图像输入图像文本方向二分类模型，得到预测文本串图像二分类方向集合；根据所述预测文本串图像二分类方向集合和初步方向获取所述输入图像的文本方向。

9.一种电子设备，其特征在于，所述电子设备机包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行权利要求1－7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行权利要求1－7中任一项所述的方法。