CN116052181A

CN116052181A - 图像方向的确定方法、装置、电子设备和介质

Info

Publication number: CN116052181A
Application number: CN202211732802.2A
Authority: CN
Inventors: 范森; 刘珊珊; 吕鹏原; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-02

Abstract

本公开提供了一种图像方向的确定方法、装置、电子设备和介质，涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。实现方案为：从待识别图像中提取至少一个文本行区域，将各文本行区域旋转第一设定角度，并从旋转后的各文本行区域中提取设定个数的第一文本行区域；获取各第一文本行区域的字符识别的第一置信度；将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度；根据各第一置信度和各第二置信度，确定待识别图像的方向。由此，仅根据待识别图像中的部分文本行区域，确定待识别图像的方向，而无需根据待识别图像中的所有像素点，来预测待识别图像的方向，可以提升计算速度。

Description

图像方向的确定方法、装置、电子设备和介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR(Optical Character Recognition，光学字符识别)等场景，尤其涉及图像方向的确定方法、装置、电子设备和介质。

背景技术

OCR是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术可以应用于车牌识别、证件(身份证、驾驶证等)识别、印刷文档录入等场景。

OCR流程包括图像预处理、文本行检测和文本识别。其中，对文本图像(或文档图像)的方向进行识别，并基于方向识别结果对文本图像进行旋转矫正，是图像预处理中的一个必要环节，方向识别结果的准确性将影响到后续文本识别的结果。

发明内容

本公开提供了一种用于图像方向的确定方法、装置、电子设备和介质。

根据本公开的一方面，提供了一种图像方向的确定方法，包括：

获取待识别图像，并从所述待识别图像中提取至少一个文本行区域；

将所述至少一个文本行区域旋转第一设定角度，并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域；

获取各所述第一文本行区域的字符识别的第一置信度；

将各所述第一文本行区域旋转第二设定角度，并获取旋转后的各所述第一文本行区域的字符识别的第二置信度；

根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向。

根据本公开的另一方面，提供了一种图像方向的确定装置，包括：

第一获取模块，用于获取待识别图像；

第一提取模块，用于从所述待识别图像中提取至少一个文本行区域；

第一处理模块，用于将所述至少一个文本行区域旋转第一设定角度，并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域；

第二获取模块，用于获取各所述第一文本行区域的字符识别的第一置信度；

第二处理模块，用于将各所述第一文本行区域旋转第二设定角度，并获取旋转后的各所述第一文本行区域的字符识别的第二置信度；

第一确定模块，用于根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的图像方向的确定方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的图像方向的确定方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的图像方向的确定方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的图像方向的确定方法的流程示意图；

图2为本公开实施例二所提供的图像方向的确定方法的流程示意图；

图3为本公开实施例三所提供的图像方向的确定方法的流程示意图；

图4为本公开实施例四所提供的图像方向的确定方法的流程示意图；

图5为本公开实施例五所提供的图像方向的确定方法的流程示意图；

图6为本公开实施例六所提供的图像方向的确定方法的流程示意图；

图7为本公开实施例七所提供的图像方向的确定方法的流程示意图；

图8为本公开实施例八所提供的图像方向的确定装置的结构示意图；

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，可以采用深度学习技术，对文本图像进行OCR识别。具体的，可以在大量标注数据的驱动下，对用于检测或识别文本图像中的文本信息的深度学习模型进行训练，而后，将经过训练的深度学习模型部署到实际使用场景中。

常见的OCR系统除了包括文本检测模型和文本识别模型(或文本序列识别模型)之外，还包括方向判断模型，在文本检测模型之前，判断文本图像的方向，以对文本图像进行方向调正。然而，深度学习模型往往参数量和计算量巨大，多增加一个模型，就会多消耗计算资源，增加处理耗时。

其中，方向判断模型在判断文本图像的方向时，主要采用以下两种方案：基于整图的方向判断和基于文本行的方向判断。其中，基于整图的方向判断的方案相比于基于文本行的方向判断的方案的速度较慢，因为文本图像中所有的像素点都参与到方向的预测，而基于文本行的方向判断的方案，对每行文本行进行方向判断，在文档等多行的场景下，难免会存在某一行误判，体验较差。

其中，文本检测模型主要采用以下三种方案：

第一种，基于字符或部件组合方法：采用模型检测出各个字符或组成字符的笔画，然后通过预先设计好的规则，将属于同一个文字行的字符或笔画聚合成文字行。

然而，这类方法需要设计复杂的先验聚合规则，精度一般较低且不易维护。

第二种，基于文本行的检测方法：基于通用目标检测的思想，将文本行视作一种特殊类型的目标进行检测，文本图像经过一个深度卷积网络，直接得到所有文本行在文本图像中的位置。

虽然该类方法简单高效且具有较高的检测精度，可以较好地检测水平或带有一定倾斜角度的四边形文本行，但对于一些复杂场景中的任意形状文本则无法很好地表示。

第三种，基于语义分割的方法：将文本检测视为一个语义分割的问题，首先将文本图像中所有属于文本区域的像素与背景像素区分开来，然后基于分割结果，通过先验规则或是模型预测的方式，将各个文本行还原出来。

该类方法的优点是可以解决任意形状文本检测的问题，弱点是比较依赖于分割的精度，像素粘连、断裂均会导致最终检测结果的错误。其中，某些方法是基于掩码mask R-CNN(Region-Convolutional Neural Networks，区域卷积神经网络)结构的多阶段检测+分割的过程，计算量较大，预测速度较慢。

因此，目前常用的方案当中，既轻量高效、适用于CPU(Central Processing Unit，中央处理器)预测，又可以对各种形状的文本有比较精确表示的文本检测方法还是比较缺乏的。

其中，文本序列识别模型主要采用『特征提取-编码-解码』的深度模型结构，对输入的文本行图片通过卷积网络提取文本特征，基于文本特征对文本信息进行编码和解码，从而预测文本序列。在训练阶段，采用不同形式的损失函数，通过梯度反传机制更新模型参数，达到不断学习优化模型的效果。常用的方法包括CTC(Connectionist TemporalClassification，基于神经网络的时序类分类)和注意力机制Attention。

然而，无论是文本行检测还是文本识别，但凡基于深度学习技术进行预测的方法，通常包含通过深度卷积网络进行图像特征提取的步骤，而该步骤往往占据整个模型计算量的最大部分。在特征提取网络结构的选择上，现有方案一般倾向于选择一些人工设计的较为经典的网络结构，比如追求高精度的复杂结构，或追求计算速度而设计的轻量结构。

但是，在纯CPU预测的前提下，在如何通过选择使用更优的主体网络结构来达成速度和精度的权衡问题上，现有方案均仍存在优化的空间。

针对上述存在的至少一项问题，本公开提出一种图像方向的确定方法、装置、电子设备和介质。

下面参考附图描述本公开实施例的图像方向的确定方法、装置、电子设备和介质。

图1为本公开实施例一所提供的图像方向的确定方法的流程示意图。

本公开实施例可以应用于服务端，或者也可以应用于任一电子设备中，以使该电子设备可以执行图像方向的确定功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为PC(PersonalComputer，个人电脑)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该图像方向的确定方法可以包括以下步骤：

步骤101，获取待识别图像，并从待识别图像中提取至少一个文本行区域。

在本公开实施例中，待识别图像可以为需要进行文本识别或字符识别的图像。

其中，对待识别图像的获取方式不做限制，比如，待识别图像可以为在线采集的文本图像，比如可以通过网络爬虫技术，在线采集待识别图像，或者，待识别图像也可以为线下采集的文本图像，如用户可通过图像采集设备对纸质文档、证件照、车牌等进行拍摄，得到待识别图像，或者，待检测图像也可以为人工合成的文本图像，等等，本公开实施例对此并不作限制。

在本公开实施例中，可以对待识别图像进行文本行检测，以从待识别图像中提取至少一个文本行区域，其中，每个文本行区域中仅包括待识别图像中的一行文本。

步骤102，将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

在本公开实施例中，第一设定角度为预先设定的角度，比如可为90度。

在本公开实施例中，设定个数为预先设定的数量，比如可以为4个、5个、6个等。需要说明的是，当待识别图像中仅存在一行文本时，设定个数可以为1个。

在本公开实施例中，可以将至少一个文本行区域逆时针或顺时针旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。比如，可以从旋转后的至少一个文本行区域中，随机提取设定个数的第一文本行区域。

在本公开实施例的一种可能的实现方式中，为了提升方向识别的准确性，可以在文本行区域的高度大于宽度的情况下，将至少一个文本行区域逆时针或顺时针旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

步骤103，获取各第一文本行区域的字符识别的第一置信度。

其中，置信度还可以称为可靠度、可信度。

在本公开实施例中，第一置信度用于指示第一文本行区域中各字符被识别出的可能性，即第一文本行区域中的字符被识别出的可能性越高，第一置信度越大，例如，当第一文本行区域为正向时，第一文本行区域中的字符被识别出的可能性最高，第一置信度最大。或者，第一置信度还可以用于指示第一文本行区域中各字符被正确识别的概率，或各字符识别的准确率。

在本公开实施例中，可以获取每个第一文本行区域的字符识别的第一置信度。比如，针对任意一个第一文本行区域，可以对该第一文本行区域进行字符识别或OCR识别，以得到第一文本行区域的第一置信度。

举例而言，对第一文本行区域中的各字符进行OCR识别，识别得到10个字符，有9个字符识别正确，该第一文本行区域的置信度可为0.9。

步骤104，将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

在本公开实施例中，第二设定角度也为预先设定的角度，其中，第二设定角度大于第一设定角度，且第二设定角度是第一设定角度的设定倍数，比如2倍。

在本公开实施例中，第二置信度用于指示旋转后的第一文本行区域中各字符被识别出的可能性，或者，用于指示旋转后的第一文本行区域中各字符被正确识别的概率，或各字符识别的准确率。

在本公开实施例中，还可以将各第一文本行区域逆时针或顺时针旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。比如，针对任意一个旋转后的第一文本行区域，可以对该旋转后的第一文本行区域进行字符识别或OCR识别，以得到旋转后的第一文本行区域的第二置信度。

步骤105，根据各第一置信度和各第二置信度，确定待识别图像的方向。

在本公开实施例中，可以根据各第一置信度和各第二置信度，确定待识别图像的方向。

作为一种示例，在各第一置信度的趋势大于各第二置信度的趋势的情况下，可根据第一设定角度，确定待识别图像的方向，比如，待识别图像的方向为第一设定角度。

作为另一种示例，在各第一置信度的趋势小于各第二置信度的趋势的情况下，可根据第一设定角度和第二设定角度之和，确定待识别图像的方向。比如，第一设定角度为90°，第二设定角度为180°，待识别图像的方向可为270°。

本公开实施例的图像方向的确定方法，通过从待识别图像中提取至少一个文本行区域，将各文本行区域旋转第一设定角度，并从旋转后的各文本行区域中提取设定个数的第一文本行区域；获取各第一文本行区域的字符识别的第一置信度；将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度；根据各第一置信度和各第二置信度，确定待识别图像的方向。由此，仅根据待识别图像中的部分文本行区域，确定待识别图像的方向，而无需根据待识别图像中的所有像素点，来预测待识别图像的方向，可以提升计算速度。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开任一实施例中是如何根据各第一置信度和各第二置信度，确定待识别图像的方向的，本公开还提出一种图像方向的确定方法。

图2为本公开实施例二所提供的图像方向的确定方法的流程示意图。

如图2所示，该图像方向的确定方法可以包括以下步骤：

步骤201，获取待识别图像，并从待识别图像中提取至少一个文本行区域。

步骤202，将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

步骤203，获取各第一文本行区域的字符识别的第一置信度。

步骤204，将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

步骤201至204的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤205，根据各第一置信度的均值，确定第一目标得分。

在本公开实施例中，可以根据各第一置信度的均值，确定第一目标得分。其中，第一目标得分与各第一置信度的均值呈正相关关系。

作为一种示例，可以将各第一置信度的均值，作为第一目标得分。

步骤206，根据各第二置信度的均值，确定第二目标得分。

在本公开实施例中，可以根据各第二置信度的均值，确定第二目标得分。其中，第二目标得分与各第二置信度的均值呈正相关关系。

作为一种示例，可以将各第二置信度的均值，作为第二目标得分。

步骤207，在第一目标得分与第二目标得分之间的差异大于设定差异阈值的情况下，根据第一目标得分和第二目标得分的大小关系，确定待识别图像的方向。

在本公开实施例中，设定差异阈值为预先设定的差异阈值，比如，设定差异阈值可以为0.15、0.2、0.25等。

在本公开实施例中，可以确定第一目标得分与第二目标得分之间的差异(比如差值、差值的绝对值、差值的平方等)，并判断该差异是否大于设定差异阈值，在该差异大于设定差异阈值的情况下，可以根据第一目标得分和第二目标得分的大小关系，确定待识别图像的方向。

作为一种可能的实现方式，在第一目标得分与第二目标得分之间的差异大于设定差异阈值的情况下，可以判断第一目标得分是否大于第二目标得分，在第一目标得分大于第二目标得分的情况下，可以根据第一设定角度，确定待识别图像的方向，比如，待识别图像的方向可为第一设定角度。而在第二目标得分大于第一目标得分的情况下，可以根据第一设定角度和第二设定角度之和，确定待识别图像的方向，比如，第一设定角度为90°，第二设定角度为180°，待识别图像的方向可为270°。

由此，根据较大的置信度所对应的旋转角度，确定待识别图像的方向，可以提升确定结果的准确性。

本公开实施例的图像方向的确定方法，第一目标得分用于指示各第一置信度的趋势，第二目标得分用于指示各第二置信度的趋势，根据第一目标得分和第二目标得分确定待识别图像的方向，可以提升确定结果的可靠性。

图3为本公开实施例三所提供的图像方向的确定方法的流程示意图。

如图3所示，该图像方向的确定方法可以包括以下步骤：

步骤301，获取待识别图像，并从待识别图像中提取至少一个文本行区域。

步骤302，将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

步骤303，获取各第一文本行区域的字符识别的第一置信度。

步骤304，将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

步骤305，根据各第一置信度的均值，确定第一目标得分，并根据各第二置信度的均值，确定第二目标得分。

步骤301至305的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤306，在第一目标得分与第二目标得分之间的差异小于或等于设定差异阈值的情况下，获取对各第一文本行区域进行分类得到的第一概率。

其中，第一概率用于指示第一文本行区域属于设定类别的概率。

需要说明的是，前述实施例中对设定差异阈值的解释说明也适用于该实施例，在此不做赘述。

在本公开实施例中，设定类别为预先设定的类别，比如可以为正向类别，该正向类别用于指示第一文本行区域正向，即未存在倾斜。

在本公开实施例中，在第一目标得分与第二目标得分之间的差异小于或等于设定差异阈值的情况下，表明旋转后的第一文本行区域中的各字符被识别出的可能性与旋转前的第一文本行区域中的各字符被识别出的可能性接近，此时，根据第一目标得分和第二目标得分，无法准确地确定待识别图像的方向。因此，本公开中，还可以进一步获取对每个第一文本行区域进行分类得到的第一概率，以根据各第一概率，确定待识别图像的方向，其中，第一概率用于指示第一文本行区域属于设定类别的概率。

作为一种示例，以设定类别为正向类别进行示例，第一概率可以为第一文本行区域的正向分类得分。

步骤307，获取对旋转后的各第一文本行区域进行分类得到的第二概率。

其中，第二概率用于指示旋转后的第一文本行区域属于设定类别的概率。

在本公开实施例中，还可以获取对每个旋转后的第一文本行区域进行分类得到的第二概率，其中，第二概率用于指示旋转后的第一文本行区域属于设定类别的概率。

仍以设定类别为正向类别进行示例，第二概率可以为旋转后的第一文本行区域的正向分类得分。

步骤308，根据各第一概率和各第二概率，确定待识别图像的方向。

在本公开实施例中，可以根据各第一概率和各第二概率，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，可以根据各第一概率的均值，确定第一分类得分，并根据各第二概率的均值，确定第二分类得分，判断第一分类得分是否大于第二分类得分，在第一分类得分大于第二分类得分的情况下，可以根据第一设定角度，确定待识别图像的方向，而在第二分类得分大于第一分类得分的情况下，可以根据第一设定角度和第二设定角度之和，确定待识别图像的方向。

在本公开实施例的另一种可能的实现方式中，在各第一概率中存在第一目标概率的情况下，可以根据第一设定角度，确定待识别图像的方向，其中，第一目标概率大于每个第二概率；而在各第二概率中存在第二目标概率的情况下，可以根据第一设定角度和第二设定角度之和，确定待识别图像的方向，其中，第二目标概率大于每个第一概率。

由此，可以实现根据不同方式，确定待识别图像的方向，可以提升该方法的灵活性和适用性。此外，根据较大的分类概率所对应的旋转角度，确定待识别图像的方向，可以提升确定结果的准确性。

本公开实施例的图像方向的确定方法，不仅可以适用于第一目标得分和第二目标得分相差较大的场景，还可以适用于第一目标得分和第二目标得分相差较小的场景，可以提升该方法的适用性。此外，对于第一目标得分和第二目标得分相差较小的场景，结合设定类别(比如正向类别)的分类概率，来确定待识别图像的方向，可以提升确定结果的准确性和鲁棒性。

为了清楚说明本公开任一实施例中是如何从待识别图像中提取至少一个文本行区域的，本公开还提出一种图像方向的确定方法。

图4为本公开实施例四所提供的图像方向的确定方法的流程示意图。

如图4所示，该图像方向的确定方法可以包括以下步骤：

步骤401，获取待识别图像。

步骤401的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤402，对待识别图像进行特征提取，以得到图像特征。

在本公开实施例中，可以基于特征提取技术，对待识别图像进行特征提取，以得到图像特征。

作为一种可能的实现方式，可以将对轻量级的残差网络Resnet-18进行裁剪得到的Resnet-10，作为特征提取网络，以尽量将特征提取的计算量降到最低，并采用该特征提取网络对待识别图像进行特征提取，得到图像特征。

步骤403，基于图像特征，确定待识别图像中各像素点属于对应文本行的中心线的第三概率。

在本公开实施例中，可以基于待识别图像的图像特征，确定待识别图像中每个像素点属于其所属文本行的中心线的第三概率。

步骤404，基于图像特征，确定各像素点与对应文本行的至少一个边界的偏移量。

在本公开实施例中，可以基于待识别图像的图像特征，确定待识别图像中的每个像素点与其所属文本行的至少一个边界的偏移量。

作为一种示例，可以对SAST(Single-Shot Arbitrarily-Shaped Text Detector，一种自然场景下的文本检测算法)网络的四个预测分支简化为两个分支，只保留TCL(TextCenter Line，文字中心线响应)和TBO(Text Border Offset，文字边界区域偏移量)，其中，TCL分支用于根据图像特征，预测TCL特征图，其中，TCL特征图用于指示每个像素点属于文本行中心线或中心线区域的概率；TBO分支用于根据图像特征，预测TBO特征图，其中，TBO特征图用于指示每个像素点与其所属文本行的上、下边界的水平和垂直方向距离。

步骤405，根据各像素点对应的第三概率和偏移量，从待识别图像中提取至少一个文本行区域。

在本公开实施例中，可以根据各像素点对应的第三概率和偏移量，从待识别图像中提取至少一个文本行区域。

作为一种示例，可以通过连通域分析，对TCL特征图划分各个文本行的中心线，对于每一条中心线，通过采样中心点结合TBO特征图，计算出对应的文本框，从而可以将待识别图像中文本框内的区域，作为文本行区域。

步骤406，将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

步骤407，获取各第一文本行区域的字符识别的第一置信度。

步骤408，将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

步骤409，根据各第一置信度和各第二置信度，确定待识别图像的方向。

步骤406至409的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的图像方向的确定方法，可以实现根据待识别图像中各像素点属于对应文本行的中心线的概率，以及各像素点与对应文本行的至少一个边界的偏移量，从待识别图像中提取文本行区域，提升文本行区域提取的有效性和准确性。

为了清楚说明本公开任一实施例中是如何根据各像素点对应的第三概率和偏移量，从待识别图像中提取至少一个文本行区域的，本公开还提出一种图像方向的确定方法。

图5为本公开实施例五所提供的图像方向的确定方法的流程示意图。

如图5所示，该图像方向的确定方法可以包括以下步骤：

步骤501，获取待识别图像，并对待识别图像进行特征提取，以得到图像特征。

步骤502，基于图像特征，确定待识别图像中各像素点属于对应文本行的中心线的第三概率。

步骤503，基于图像特征，确定各像素点与对应文本行的至少一个边界的偏移量。

步骤501至503的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤504，根据各像素点对应的第三概率，确定待识别图像中各文本行区域的中心线。

在本公开实施例中，可以根据各像素点属于对应文本行的中心线的第三概率，确定待识别图像中各文本行区域的中心线。

作为一种示例，TCL特征图用于指示每个像素点属于文本行中心线或中心线区域的概率，可以通过连通域分析，对TCL特征图划分各个文本行或文本行区域的中心线。

步骤505，根据各文本行区域的中心线和各像素点的偏移量，确定至少一个文本框的位置信息。

其中，位置信息例如可以包括文本框的中心点坐标、宽度、高度，或者可以包括文本框的各顶点的坐标。

在本公开实施例中，可以根据各文本行区域的中心线和各像素点的偏移量和各像素点与对应文本行的至少一个边界的偏移量，确定至少一个文本框的位置信息。

作为一种示例，对于每一条中心线，可以通过采样中心点结合TBO特征图，确定该条中心线对应的文本框的位置信息。

步骤506，根据至少一个文本框的位置信息，从待识别图像中提取至少一个文本行区域。

在本公开实施例中，可以根据至少一个文本框的位置信息，从待识别图像中提取至少一个文本行区域。即针对任意一个文本框，可以将待识别图像中该文本框内的区域，作为一个文本行区域。

步骤507，将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

步骤507的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

在本公开实施例的一种可能的实现方式中，可以从至少一个文本框中确定第一文本框和/或第二文本框，其中，第一文本框的高度大于第一文本框的宽度，第二文本框的宽度大于第二文本框的高度，并统计第一文本框的数量和第二文本框的数量，在第一文本框的大量大于第二文本框的数量的情况下，待识别图像的方向可能为90°或270°，此时，可以将至少一个文本行区域旋转第一设定角度。

由此，只有在根据第一文本框和第二文本框的数量，确定待识别图像不为正向的情况下，才对至少一个文本行区域进行旋转，可以提升后续图像方向确定的准确性。

步骤508，获取各第一文本行区域的字符识别的第一置信度。

步骤509，将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

步骤510，根据各第一置信度和各第二置信度，确定待识别图像的方向。

步骤508至510的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的图像方向的确定方法，可以实现根据待识别图像中各像素点属于对应文本行的中心线的概率，确定各文本行区域的中心线，从而可以根据文本行区域的中心线和各像素点与对应文本行的至少一个边界的偏移量，从待识别图像中有效提取各文本行区域，提升文本行区域提取的有效性和准确性。

为了清楚说明本公开任一实施例中是如何确定待识别图像的方向的，本公开还提出一种图像方向的确定方法。

图6为本公开实施例六所提供的图像方向的确定方法的流程示意图。

如图6所示，该图像方向的确定方法可以包括以下步骤：

步骤601，获取待识别图像，并对待识别图像进行文本行检测，以得到至少一个文本框，其中，至少一个文本框中包括第一文本框和/或第二文本框。

步骤601的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤602，根据至少一个文本框的位置信息，从待识别图像中提取至少一个文本行区域。

步骤603，判断第一文本框的数量是否大于第二文本框的数量。

在本公开实施例中，可以判断第一文本框的数量是否大于第二文本框的数量，若是，则可以执行图1至图5中任一实施例，若否，则执行步骤604及后续步骤。

步骤604，从至少一个文本行区域中提取设定个数的第二文本行区域。

在本公开实施例中，在第一文本框的数量小于或等于第二文本框的数量的情况下，表明待识别图像可能为正向，也可能为反向，此时，可以无需对至少一个文本行区域旋转第一设定角度，直接从至少一个文本行区域中提取设定个数的第二文本行区域。比如，可以从至少一个文本行区域中，随机提取设定个数的第二文本行区域。

步骤605，获取各第二文本行区域的字符识别的第三置信度。

在本公开实施例中，第三置信度用于指示第二文本行区域中各字符被识别出的可能性，或者，用于指示第二文本行区域中各字符被正确识别的概率，或各字符识别的准确率。

在本公开实施例中，可以获取每个第二文本行区域的字符识别的第三置信度。比如，针对任意一个第二文本行区域，可以对该第二文本行区域进行字符识别或OCR识别，以得到第二文本行区域的第三置信度。

步骤606，将各第二文本行区域旋转第二设定角度，并获取旋转后的各第二行文本区域的字符识别的第四置信度。

在本公开实施例中，第四置信度用于指示旋转后的第二文本行区域中各字符被识别出的可能性，或者，用于指示旋转后的第二文本行区域中各字符被正确识别的概率，或各字符识别的准确率。

在本公开实施例中，还可以将各第二文本行区域逆时针或顺时针旋转第二设定角度，并获取旋转后的各第二文本行区域的字符识别的第四置信度。比如，针对任意一个旋转后的第二文本行区域，可以对该旋转后的第二文本行区域进行字符识别或OCR识别，以得到该旋转后的第二文本行区域的第四置信度。

步骤607，根据各第三置信度和各第四置信度，确定待识别图像的方向。

在本公开实施例中，可以根据各第三置信度和各第四置信度，确定待识别图像的方向。

作为一种示例，在各第三置信度的趋势大于各第四置信度的趋势的情况下，可根据第三设定角度，确定待识别图像的方向，比如，待识别图像的方向可为第三设定角度。其中，第三设定角度小于第一设定角度，比如，第三设定角度可为0°。

作为另一种示例，在各第三置信度的趋势小于各第四置信度的趋势的情况下，可根据第二设定角度，确定待识别图像的方向。比如，待识别图像的方向可为第二设定角度。

本公开实施例的图像方向的确定方法，可以实现根据第一文本框和第二文本框的数量，针对性地确定待识别图像的方向，提升确定结果的准确性。

为了清楚说明上述实施例中是如何根据各第三置信度和各第四置信度，确定待识别图像的方向的，本公开还提出一种图像方向的确定方法。

图7为本公开实施例七所提供的图像方向的确定方法的流程示意图。

如图7所示，该图像方向的确定方法可以包括以下步骤：

步骤701，获取待识别图像，并对待识别图像进行文本行检测，以得到至少一个文本框，其中，至少一个文本框中包括第一文本框和/或第二文本框。

步骤702，根据至少一个文本框的位置信息，从待识别图像中提取至少一个文本行区域。

步骤703，判断第一文本框的数量是否大于第二文本框的数量，若否，则执行步骤704。

步骤704，从至少一个文本行区域中提取设定个数的第二文本行区域。

步骤705，获取各第二文本行区域的字符识别的第三置信度。

步骤706，将各第二文本行区域旋转第二设定角度，并获取旋转后的各第二行文本区域的字符识别的第四置信度。

步骤701至706的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤707，根据各第三置信度的均值，确定第三目标得分，并根据各第四置信度的均值，确定第四目标得分。

在本公开实施例中，可以根据各第三置信度的均值，确定第三目标得分。其中，第三目标得分与各第三置信度的均值呈正相关关系。

作为一种示例，可以将各第三置信度的均值，作为第三目标得分。

在本公开实施例中，可以根据各第四置信度的均值，确定第四目标得分。其中，第四目标得分与各第四置信度的均值呈正相关关系。

作为一种示例，可以将各第四置信度的均值，作为第四目标得分。

步骤708，判断第三目标得分与第四目标得分之间的差异是否大于设定差异阈值，若是，则执行步骤709，若否，则执行步骤710至712。

步骤709，根据第三目标得分和第四目标得分的大小关系，确定待识别图像的方向。

在本公开实施例中，在第三目标得分与第四目标得分之间的差异大于设定差异阈值的情况下，可以根据第三目标得分和第四目标得分的大小关系，确定待识别图像的方向。

作为一种可能的实现方式，在第三目标得分大于第四目标得分的情况下，可以根据第三设定角度，确定待识别图像的方向，比如，待识别图像的方向为第三设定角度。而在第四目标得分大于第三目标得分的情况下，可以根据第二设定角度，确定待识别图像的方向，比如，待识别图像的方向可为第二设定角度。

综上，第三目标得分用于指示各第三置信度的趋势，第四目标得分用于指示各第四置信度的趋势，根据第三目标得分和第四目标得分确定待识别图像的方向，可以提升确定结果的可靠性。

步骤710，获取对各第二文本行区域进行分类得到的第四概率。

其中，第四概率用于指示第二文本行区域属于设定类别的概率。

需要说明的是，前述实施例中对设定类别的解释说明也适用于该实施例，在此不做赘述。

在本公开实施例中，在第三目标得分与第四目标得分之间的差异小于或等于设定差异阈值的情况下，表明旋转后的第二文本行区域中的各字符被识别出的可能性与旋转前的第二文本行区域中的各字符被识别出的可能性接近，此时，根据第三目标得分和第四目标得分，无法准确地确定待识别图像的方向。因此，本公开中，还可以进一步获取对每个第二文本行区域进行分类得到的第四概率，以根据各第四概率，确定待识别图像的方向，其中，第四概率用于指示第二文本行区域属于设定类别的概率。

作为一种示例，以设定类别为正向类别进行示例，第四概率可以为第二文本行区域的正向分类得分。

步骤711，获取对旋转后的各第二文本行区域进行分类得到的第五概率。

其中，第五概率用于指示旋转后的第二文本行区域属于设定类别的概率。

在本公开实施例中，还可以获取对每个旋转后的第二文本行区域进行分类得到的第五概率，其中，第五概率用于指示旋转后的第二文本行区域属于设定类别的概率。

步骤712，根据各第四概率和各第五概率，确定待识别图像的方向。

在本公开实施例中，可以根据各第四概率和各第五概率，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，可以根据各第四概率的均值，确定第三分类得分，并根据各第五概率的均值，确定第四分类得分，判断第三分类得分是否大于第四分类得分，在第三分类得分大于第四分类得分的情况下，可以根据第三设定角度，确定待识别图像的方向，而在第四分类得分大于第三分类得分的情况下，可以根据第二设定角度，确定待识别图像的方向。

在本公开实施例的另一种可能的实现方式中，在各第四概率中存在第三目标概率的情况下，可以根据第三设定角度，确定待识别图像的方向，其中，第三目标概率大于每个第五概率；而在各第五概率中存在第四目标概率的情况下，可以根据第二设定角度，确定待识别图像的方向，其中，第四目标概率大于每个第四概率。

在本公开的任意一个实施例之中，还可以根据待识别图像的方向，对待识别图像进行方向校正，以对校正后的待识别图像进行字符识别，以得到字符识别结果。

即本公开中，可以根据待识别图像的方向，对至少一个文本行区域进行旋转，以得到至少一个目标文本行区域，比如，当待识别图像的方向为90°时，可以将所有的文本行区域逆时针或顺时针旋转90°，以得到各个目标文本行区域。并且，可以对各目标文本行区域进行字符识别，以得到各目标文本行区域的文本序列，从而可以根据各目标文本行区域在待识别图像中的位置，对各目标文本行区域的文本序列进行拼接，以得到字符识别结果。

由此，可以实现根据待识别图像的方向，对各文本行区域进行方向校正或调整，从而对校正后的各文本行区域进行字符识别，可以提升识别结果的准确性。

本公开实施例的图像方向的确定方法，不仅可以适用于第三目标得分和第四目标得分相差较大的场景，也适用于第三目标得分和第四目标得分相差较小的场景，可以提升该方法的适用性。此外，对于第三目标得分和第四目标得分相差较小的场景，结合设定类别(比如正向类别)的分类概率，来确定待识别图像的方向，可以提升方向确定的准确性和鲁棒性。

作为一种示例，首先，可以通过一个轻量级的文本检测模型对待识别图像进行检测，得到所有的文本行的精确位置，然后从各文本行中选取设定个数的文本行进行方向判断，最后根据方向判断结果对所有的文本行进行方向调整，再对调整后的所有文本行进行字符识别，得到最终的字符识别结果或文字识别结果。其中，进行文本行方向判断和文本行识别的模型可为同一个模型(后续称为轻量级文本行识别-方向判断模型)。可以实现在保证较高识别精度的前提下，具有速度快、体积小、逻辑简单的优点，特别适合在CPU计算环境下的部署。

其中，轻量级的文本检测模型可以基于SAST文本检测方法，并针对CPU预测，在SAST结构的基础上进行适当简化。例如，可以采用轻量级的Resnet-18进行裁剪得到的Resnet-10作为特征提取主干网络，尽量将特征提取的计算量降到最低。然后，可对SAST的四个预测分支简化为两个分支，只保留TCL和TBO，每个分支仅包含3个卷积层。整个文本检测模型是一个全卷积模型，网络最终包含两个输出，一个是单通道的TCL，表示每个像素点属于文本行中心线区域的概率，另一个是4通道的TBO，表示该像素点与其所属文本行上、下边界的水平、垂直方向距离。

对于文本检测模型的训练阶段，可以沿用SAST的默认方法，TCL采用Dice损失函数(由Dice系数而得名，Dice系数是一种用于评估两个样本相似性的度量函数，其值越大意味着这两个样本越相似)进行监督，TBO采用Smooth-L1损失函数(光滑之后的L1损失函数)进行监督。

对于文本检测模型的预测阶段，对输入的文本图像，检测所有文本行的TCL，通过连通域分析将TCL划分各个文本行的中心线，对于每一条中心线，通过采样中心点结合TBO计算出对应的文本框，跳过NMS(Non-Maximum Suppression，非极大抑制)。

其中，轻量级的文本行识别-方向判断模型的输入可以为文本检测模型输出的文本行图像(本公开中记为文本行区域)。可以利用轻量级的文本行识别-方向判断模型中的特征提取卷积网络对文本行图像进行特征提取，得到文本行图像特征，之后，可对文本行图像特征进行以下两项操作：

1、将该文本行图像特征进行序列化成为若干列后，输入双向GRU(Gate RecurrentUnit，门控循环单元结构，是传统RNN(Recurrent Neural Network，循环神经网络)的变体)对每个序列进行文本行识别或文字识别，得到文本序列。

2、将该文本行图像特征进行分类，判断文本行图像是正向图像，还是180度旋转图像。

训练阶段：采用交叉熵(cross entropy)损失函数进行分类监督，采用经典的CTC损失函数来对文本序列识别进行监督，输入的样本图像同时包括横排排列的文本行图像，以及逆时针旋转90度的竖排排列的文本行图像。

推理阶段：由于上游的文本检测模块的输入图像方向未知，所以得到的文本行方向亦未知，此时，可以判断高度大于宽度的文本框数量是否大于宽度大于高度的文本框数量，若是，对文本框中的文本行图像逆时针旋转90度，再从旋转后的各文本行图像中随机选择5个文本行图像进行OCR识别，得到各文本行图像的置信度，并取各置信度的均值，作为第一目标得分rec_score_90，并且，可以对每个文本行图像进行分类，得到每个文本行图像属于正向分类的得分cls_score_90。之后，可以将选中的5个文本行图像再次逆时针旋转180度，再根据上述方式，确定第二目标得分rec_score_270和cls_score_270。如果|rec_score_270-rec_score_90|>0.2，则取得分较大的角度，作为输入图像的方向，比如，当rec_score_270大于rec_score_90时，可确定输入图像的方向为270°，将输入图像逆时针旋转270°，即可实现将图像转正；如果|rec_score_270-rec_score_90|≤0.2，则将cls_score_270和cls_score_90中的最大值所对应的角度，作为输入图像的方向。

若否，即高度大于宽度的文本框数量小于或等于宽度大于高度的文本框数量，则从各文本框内的文本行图像中随机选取5个文本行图像进行OCR识别，得到每个文本行图像的置信度rec_score_0，并对每个文本行图像进行分类，得到每个文本行图像属于正向分类的得分cls_score_0，同时对5个文本行图像逆时针旋转180度，再根据上述方式，确定rec_score_180和cls_score_180。

如果|rec_score_180-rec_score_0|>0.2，则取得分较大的角度，作为输入图像的方向，比如，若rec_score_0大于rec_score_180，则输入图像的方向为0度，此时，无需对输入图像中的文本行图像进行方向调整，可以直接对各文本行图像进行字符识别，以得到字符识别结果，再比如，若rec_score_180大于rec_score_0，则输入图像的方向为180度，此时，可对输入图像中未选中的其余文本行图像进行逆时针旋转180度，并对旋转后的各文本行图像进行字符识别，以得到字符识别结果；否则，则将cls_score_180和cls_score_0中的最大值所对应的角度，作为输入图像的方向。

综上，为了使得整个OCR识别方案可以在保证较高精度的同时，更轻量、更快速、更适用于CPU预测，可以使用轻量化改造后的整图拆分检测方案进行文本检测提速；摒弃整图方向判断分类，直接抽样文本行进行2种方向的识别，根据识别质量得分进行方向判断，相比于整图方向判断的计算方式而言，只需在检测识别任务上，多出几个文本行图像的识别用于方向判断，而不是整张图均参与计算，更好地平衡计算量和计算精度。同时，相比于先方向判断，再文字检测识别的方案而言，在无文本场景中，完全节省了方向判断的计算，尤其适合诸如视频审核等场景。

由此，可以显著提升OCR预测速度，具有较强的通用性。相比于基于整图的方向判断，仅基于文本行的方向判断，从计算上，参与到方向判断的只有图像中的文本行区域，剔除了干扰的同时减少了计算量，此外，合并方向判断和文本识别到一个统一的模型，同时采用识别结果(如置信度)辅助方向判断，增强了方向判断的鲁棒性。可以实现在保持较高精度的同时，提高整个系统的响应速度，能够在云端和移动端的OCR应用中带来更多流量与更好的用户体验。

与上述图1至图7实施例提供的图像方向的确定方法相对应，本公开还提供一种图像方向的确定装置，由于本公开实施例提供的图像方向的确定装置与上述图1至图7实施例提供的图像方向的确定方法相对应，因此在图像方向的确定方法的实施方式也适用于本公开实施例提供的图像方向的确定装置，在本公开实施例中不再详细描述。

图8为本公开实施例八所提供的图像方向的确定装置的结构示意图。

如图8所示，该图像方向的确定装置800可以包括：第一获取模块801、第一提取模块802、第一处理模块803、第二获取模块804、第二处理模块805以及第一确定模块806。

其中，第一获取模块801，用于获取待识别图像。

第一提取模块802，用于从待识别图像中提取至少一个文本行区域。

第一处理模块803，用于将至少一个文本行区域旋转第一设定角度，并从旋转后的至少一个文本行区域中提取设定个数的第一文本行区域。

第二获取模块804，用于获取各第一文本行区域的字符识别的第一置信度。

第二处理模块805，用于将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度。

第一确定模块806，用于根据各第一置信度和各第二置信度，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第一确定模块806，用于：根据各第一置信度的均值，确定第一目标得分；根据各第二置信度的均值，确定第二目标得分；在第一目标得分与第二目标得分之间的差异大于设定差异阈值的情况下，根据第一目标得分和第二目标得分的大小关系，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第一确定模块806，用于：在第一目标得分与第二目标得分的差异大于设定差异阈值的情况下，判断第一目标得分是否大于第二目标得分；在第一目标得分大于第二目标得分的情况下，根据第一设定角度，确定待识别图像的方向；在第一目标得分小于第二目标得分的情况下，则根据第一设定角度和第二设定角度之和，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第一确定模块806，用于：在第一目标得分与第二目标得分之间的差异小于或等于设定差异阈值的情况下，获取对各第一文本行区域进行分类得到的第一概率，其中，第一概率用于指示第一文本行区域属于设定类别的概率；获取对旋转后的各第一文本行区域进行分类得到的第二概率，其中，第二概率用于指示旋转后的第一文本行区域属于设定类别的概率；根据各第一概率和各第二概率，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第一确定模块806，用于：在各第一概率中存在第一目标概率的情况下，根据第一设定角度，确定待识别图像的方向；其中，第一目标概率大于各第二概率；在各第二概率中存在第二目标概率的情况下，根据第一设定角度和第二设定角度之和，确定待识别图像的方向；其中，第二目标概率大于各第一概率。

在本公开实施例的一种可能的实现方式中，第一提取模块802，用于：对待识别图像进行特征提取，以得到图像特征；基于图像特征，确定待识别图像中各像素点属于对应文本行的中心线的第三概率；基于图像特征，确定各像素点与对应文本行的至少一个边界的偏移量；根据各像素点对应的第三概率和偏移量，从待识别图像中提取至少一个文本行区域。

在本公开实施例的一种可能的实现方式中，第一提取模块802，用于：根据各像素点对应的第三概率，确定待识别图像中各文本行区域的中心线；根据各文本行区域的中心线和各像素点的偏移量，确定至少一个文本框的位置信息；根据至少一个文本框的位置信息，从待识别图像中提取至少一个文本行区域。

在本公开实施例的一种可能的实现方式中，第一处理模块803，用于：从至少一个文本框中确定第一文本框和/或第二文本框，其中，第一文本框的高度大于第一文本框的宽度，第二文本框的宽度大于第二文本框的高度；在第一文本框的数量大于第二文本框的数量的情况下，将至少一个文本行区域旋转第一设定角度。

在本公开实施例的一种可能的实现方式中，该图像方向的确定装置800还可以包括：

第二提取模块，用于在第一文本框的数量小于或等于第二文本框的数量的情况下，从至少一个文本行区域中提取设定个数的第二文本行区域。

第三获取模块，用于获取各第二文本行区域的字符识别的第三置信度。

第三处理模块，用于将各第二文本行区域旋转第二设定角度，并获取旋转后的各第二行文本区域的字符识别的第四置信度。

第二确定模块，用于根据各第三置信度和各第四置信度，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第二确定模块，用于：根据各第三置信度的均值，确定第三目标得分；根据各第四置信度的均值，确定第四目标得分；在第三目标得分与第四目标得分之间的差异大于设定差异阈值的情况下，根据第三目标得分和第四目标得分的大小关系，确定待识别图像的方向。

在本公开实施例的一种可能的实现方式中，第二确定模块，还用于：在第三目标得分与第四目标得分的差异小于或等于设定差异阈值的情况下，获取对各第二文本行区域进行分类得到的第四概率，其中，第四概率用于指示第二文本行区域属于设定类别的概率；获取对旋转后的各第二文本行区域进行分类得到的第五概率，其中，第五概率用于指示旋转后的第二文本行区域属于设定类别的概率；根据各第四概率和各第五概率，确定待识别图像的方向。

旋转模块，用于根据待识别图像的方向，对至少一个文本行区域进行旋转，以得到至少一个目标文本行区域。

识别模块，用于对各目标文本行区域进行字符识别，以得到各目标文本行区域的文本序列。

拼接模块，用于根据各目标文本行区域在待识别图像中的位置，对各目标文本行区域的文本序列进行拼接，以得到字符识别结果。

本公开实施例的图像方向的确定装置，通过从待识别图像中提取至少一个文本行区域，将各文本行区域旋转第一设定角度，并从旋转后的各文本行区域中提取设定个数的第一文本行区域；获取各第一文本行区域的字符识别的第一置信度；将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度；根据各第一置信度和各第二置信度，确定待识别图像的方向。由此，仅根据待识别图像中的部分文本行区域，确定待识别图像的方向，而无需根据待识别图像中的所有像素点，来预测待识别图像的方向，可以提升计算速度。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的图像方向的确定方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的图像方向的确定方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的图像方向的确定方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

其中，电子设备可以包括上述实施例中的服务端、客户端。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory，随机访问/存取存储器)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM903通过总线904彼此相连。I/O(Input/Output，输入/输出)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如上述图像方向的确定方法。例如，在一些实施例中，上述图像方向的确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像方向的确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述图像方向的确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

深度学习是机器学习领域中一个新的研究方向。它是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

根据本公开实施例的技术方案，通过从待识别图像中提取至少一个文本行区域，将各文本行区域旋转第一设定角度，并从旋转后的各文本行区域中提取设定个数的第一文本行区域；获取各第一文本行区域的字符识别的第一置信度；将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度；根据各第一置信度和各第二置信度，确定待识别图像的方向。由此，仅根据待识别图像中的部分文本行区域，确定待识别图像的方向，而无需根据待识别图像中的所有像素点，来预测待识别图像的方向，可以提升计算速度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像方向的确定方法，所述方法包括：

获取各所述第一文本行区域的字符识别的第一置信度；

2.根据权利要求1所述的方法，其中，所述根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向，包括：

根据各所述第一置信度的均值，确定第一目标得分；

根据各所述第二置信度的均值，确定第二目标得分；

在所述第一目标得分与所述第二目标得分之间的差异大于设定差异阈值的情况下，根据所述第一目标得分和所述第二目标得分的大小关系，确定所述待识别图像的方向。

3.根据权利要求2所述的方法，其中，所述在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下，根据所述第一目标得分和所述第二目标得分的大小关系，确定所述待识别图像的方向，包括：

在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下，判断所述第一目标得分是否大于所述第二目标得分；

在所述第一目标得分大于所述第二目标得分的情况下，根据所述第一设定角度，确定所述待识别图像的方向；

在所述第一目标得分小于所述第二目标得分的情况下，则根据所述第一设定角度和所述第二设定角度之和，确定所述待识别图像的方向。

4.根据权利要求2所述的方法，其中，所述根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向，还包括：

在所述第一目标得分与所述第二目标得分之间的差异小于或等于所述设定差异阈值的情况下，获取对各所述第一文本行区域进行分类得到的第一概率，其中，所述第一概率用于指示所述第一文本行区域属于设定类别的概率；

获取对旋转后的各所述第一文本行区域进行分类得到的第二概率，其中，所述第二概率用于指示旋转后的所述第一文本行区域属于所述设定类别的概率；

根据各所述第一概率和各所述第二概率，确定所述待识别图像的方向。

5.根据权利要求4所述的方法，其中，所述根据各所述第一概率和各所述第二概率，确定所述待识别图像的方向，包括：

在各所述第一概率中存在第一目标概率的情况下，根据所述第一设定角度，确定所述待识别图像的方向；其中，所述第一目标概率大于各所述第二概率；

在各所述第二概率中存在第二目标概率的情况下，根据所述第一设定角度和所述第二设定角度之和，确定所述待识别图像的方向；其中，所述第二目标概率大于各所述第一概率。

6.根据权利要求1所述的方法，其中，所述从所述待识别图像中提取至少一个文本行区域，包括：

对所述待识别图像进行特征提取，以得到图像特征；

基于所述图像特征，确定所述待识别图像中各像素点属于对应文本行的中心线的第三概率；

基于所述图像特征，确定各所述像素点与对应文本行的至少一个边界的偏移量；

根据各所述像素点对应的第三概率和偏移量，从所述待识别图像中提取所述至少一个文本行区域。

7.根据权利要求6所述的方法，其中，所述根据各像素点对应的第三概率和偏移量，从所述待识别图像中提取所述至少一个文本行区域，包括：

根据各所述像素点对应的第三概率，确定所述待识别图像中各所述文本行区域的中心线；

根据各所述文本行区域的中心线和各所述像素点的偏移量，确定至少一个文本框的位置信息；

根据所述至少一个文本框的位置信息，从所述待识别图像中提取所述至少一个所述文本行区域。

8.根据权利要求7所述的方法，其中，所述将所述至少一个文本行区域旋转第一设定角度，包括：

从所述至少一个文本框中确定第一文本框和/或第二文本框，其中，所述第一文本框的高度大于所述第一文本框的宽度，所述第二文本框的宽度大于所述第二文本框的高度；

在所述第一文本框的数量大于所述第二文本框的数量的情况下，将所述至少一个文本行区域旋转第一设定角度。

9.根据权利要求8所述的方法，其中，所述方法还包括：

在所述第一文本框的数量小于或等于所述第二文本框的数量的情况下，从所述至少一个文本行区域中提取所述设定个数的第二文本行区域；

获取各所述第二文本行区域的字符识别的第三置信度；

将各所述第二文本行区域旋转所述第二设定角度，并获取旋转后的各所述第二行文本区域的字符识别的第四置信度；

根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向。

10.根据权利要求9所述的方法，其中，所述根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向，包括：

根据各所述第三置信度的均值，确定第三目标得分；

根据各所述第四置信度的均值，确定第四目标得分；

在所述第三目标得分与所述第四目标得分之间的差异大于设定差异阈值的情况下，根据所述第三目标得分和所述第四目标得分的大小关系，确定所述待识别图像的方向。

11.根据权利要求10所述的方法，其中，所述根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向，还包括：

在所述第三目标得分与所述第四目标得分的差异小于或等于所述设定差异阈值的情况下，获取对各所述第二文本行区域进行分类得到的第四概率，其中，所述第四概率用于指示所述第二文本行区域属于设定类别的概率；

获取对旋转后的各所述第二文本行区域进行分类得到的第五概率，其中，所述第五概率用于指示旋转后的所述第二文本行区域属于所述设定类别的概率；

根据各所述第四概率和各所述第五概率，确定所述待识别图像的方向。

12.根据权利要求1-11中任一项所述的方法，其中，所述方法还包括：

根据所述待识别图像的方向，对所述至少一个文本行区域进行旋转，以得到至少一个目标文本行区域；

对各所述目标文本行区域进行字符识别，以得到各所述目标文本行区域的文本序列；

根据各所述目标文本行区域在所述待识别图像中的位置，对各所述目标文本行区域的文本序列进行拼接，以得到字符识别结果。

13.一种图像方向的确定装置，所述装置包括：

第一获取模块，用于获取待识别图像；

14.根据权利要求13所述的装置，其中，所述第一确定模块，用于：

根据各所述第一置信度的均值，确定第一目标得分；

根据各所述第二置信度的均值，确定第二目标得分；

15.根据权利要求14所述的装置，其中，所述第一确定模块，用于：

16.根据权利要求14所述的装置，其中，所述第一确定模块，用于：

17.根据权利要求16所述的装置，其中，所述第一确定模块，用于：

18.根据权利要求13所述的装置，其中，所述第一提取模块，用于：

对所述待识别图像进行特征提取，以得到图像特征；

19.根据权利要求18所述的装置，其中，所述第一提取模块，用于：

20.根据权利要求19所述的装置，其中，所述第一处理模块，用于：

21.根据权利要求20所述的装置，其中，所述装置还包括：

第二提取模块，用于在所述第一文本框的数量小于或等于所述第二文本框的数量的情况下，从所述至少一个文本行区域中提取所述设定个数的第二文本行区域；

第三获取模块，用于获取各所述第二文本行区域的字符识别的第三置信度；

第三处理模块，用于将各所述第二文本行区域旋转所述第二设定角度，并获取旋转后的各所述第二行文本区域的字符识别的第四置信度；

第二确定模块，用于根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向。

22.根据权利要求21所述的装置，其中，所述第二确定模块，用于：

根据各所述第三置信度的均值，确定第三目标得分；

根据各所述第四置信度的均值，确定第四目标得分；

23.根据权利要求22所述的装置，其中，所述第二确定模块，还用于：

24.根据权利要求13-23中任一项所述的装置，其中，所述装置还包括：

旋转模块，用于根据所述待识别图像的方向，对所述至少一个文本行区域进行旋转，以得到至少一个目标文本行区域；

识别模块，用于对各所述目标文本行区域进行字符识别，以得到各所述目标文本行区域的文本序列；

拼接模块，用于根据各所述目标文本行区域在所述待识别图像中的位置，对各所述目标文本行区域的文本序列进行拼接，以得到字符识别结果。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的图像方向的确定方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的图像方向的确定方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述图像方向的确定方法的步骤。