CN109934185A

CN109934185A - 数据处理方法及装置、介质和计算设备

Info

Publication number: CN109934185A
Application number: CN201910207766.XA
Authority: CN
Inventors: 王标; 林辉; 段亦涛
Original assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Current assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd; Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-25
Anticipated expiration: 2039-03-18
Also published as: CN109934185B

Abstract

本发明的实施方式提供了一种数据处理方法，包括：将图像输入神经网络，以提取用于对图像纠偏的目标特征，其中，图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；基于目标特征，获得每个指定对象的初始方向和初始偏移量；对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量；以及基于目标方向和目标偏移量，对图像纠偏。通过基于神经网络提取的目标特征，对图像包含的每个指定对象的初始方向和在该方向上的初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量，可以提高方向和偏移量的预测结果，提高文字识别的精度。此外，本发明的实施方式还提供了一种数据处理装置、介质和计算设备。

Description

数据处理方法及装置、介质和计算设备

技术领域

本发明的实施方式涉及图像处理领域，更具体地，本发明的实施方式涉及数据处理方法及装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在整个文字识别，如光学字符识别(Optical Character Recognition，简称为OCR)领域，用户拍摄图像中的文字角度对最终OCR效果的影响非常大，其中，在文字水平的情况下，文字识别系统的识别准确率最高。因此，为了保证系统对图像中文字识别的精度，需要根据用户输入图像中的文字方向对图像进行纠偏处理，使得纠偏后的图像中的文字角度对最终OCR效果的影响尽可能小。目前，也已经出现了一些对用户输入图像中的文字方向进行图像纠偏的方法。

发明内容

然而，在实现本发明构思的过程中，发明人发现相关技术提供的图像纠偏方法，受制于算法的局限性，使得对图像中文字最终预测方向和偏移量的估算准确度较低，直接影响最终OCR效果，导致图像中的文字识别精度不高。

为此，非常需要一种改进的数据处理方法，以克服相关技术的图像纠偏算法导致的上述技术问题，以提高对图像中文字最终预测方向和偏移量的估算准确度，使得纠偏后的图像中的文字角度对最终OCR效果的影响尽可能小，给用户提供更准确的文字识别结果。

在本上下文中，本发明的实施方式期望提供一种准确地预估图像的纠偏角度和偏移量的数据处理方法及装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种数据处理方法，包括：将图像输入神经网络，以提取用于对上述图像纠偏的目标特征，其中，上述图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；基于上述目标特征，获得上述每个指定对象的初始方向和初始偏移量；对上述每个指定对象的初始方向和初始偏移量进行数据处理，以确定上述图像的目标方向和目标偏移量；以及基于上述目标方向和目标偏移量，对上述图像纠偏。

在本发明的一个实施例中，上述对上述每个指定对象的初始方向和初始偏移量进行数据处理，以确定上述图像的目标方向和目标偏移量包括：对上述每个指定对象的初始方向进行数据处理，以统计出上述每个指定对象的初始方向中占比最大的初始方向；将上述占比最大的初始方向，确定为上述图像的目标方向；以及基于初始方向为上述目标方向的指定对象的初始偏移量，确定上述图像的目标偏移量。

在本发明的另一实施例中，上述基于初始方向为上述目标方向的指定对象的初始偏移量，确定上述图像的目标偏移量包括：按照预设步长，构建多个偏移量区间；将上述初始方向为上述目标方向的指定对象的初始偏移量离散化至上述多个偏移量区间，以统计每个偏移量区间对应的计数；以及基于计数最多的偏移量区间对应的初始偏移量的均值，确定上述图像的目标偏移量。

在本发明的又一个实施例中，上述目标特征具有特定大小，基于上述目标特征，获得上述每个指定对象的初始方向和初始偏移量包括：针对特定大小的上述目标特征的每个位置，获取上述每个位置对应的初始方向和初始偏移量；以及基于上述每个位置对应的初始方向和初始偏移量，确定上述每个指定对象的初始方向和初始偏移量。

在本发明的再一个实施例中，上述方法还包括：确定上述图像中多个对象中每个对象落在上述目标特征对应的上述图像中的置信度；以及将置信度大于或等于置信度阈值的对象确定为上述指定对象。

在本发明的再又一个实施例中，上述方法还包括：在将图像输入神经网络之前，预处理上述图像，以得到具有预定尺寸的目标图像；以及将图像输入神经网络包括：将上述具有预定尺寸的目标图像输入上述神经网络。

在本发明实施方式的第二方面中，提供了一种介质，存储有计算机可执行指令，上述指令在被处理单元执行时用于实现上述任一项上述的方法。

在本发明实施方式的第三方面中，提供了一种数据处理装置，包括：提取模块，配置为将图像输入神经网络，以提取用于对上述图像纠偏的目标特征，其中，上述图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；获得模块，配置为基于上述目标特征，获得上述每个指定对象的初始方向和初始偏移量；第一处理模块，配置为对上述每个指定对象的初始方向和初始偏移量进行数据处理，以确定上述图像的目标方向和目标偏移量；以及第二处理模块，配置为基于上述目标方向和目标偏移量，对上述图像纠偏。

在本发明的一个实施例中，上述第一处理模块包括：统计子模块，配置为对上述每个指定对象的初始方向进行数据处理，以统计出上述每个指定对象的初始方向中占比最大的初始方向；第一确定子模块，配置为将上述占比最大的初始方向，确定为上述图像的目标方向；以及第二确定子模块，配置为基于初始方向为上述目标方向的指定对象的初始偏移量，确定上述图像的目标偏移量。

在本发明的另一个实施例中，上述第二确定子模块包括：构建单元，配置为按照预设步长，构建多个偏移量区间；统计单元，配置为将上述初始方向为上述目标方向的指定对象的初始偏移量离散化至上述多个偏移量区间，以统计每个偏移量区间对应的计数；以及确定单元，配置为基于计数最多的偏移量区间对应的初始偏移量的均值，确定上述图像的目标偏移量。

在本发明的又一个实施例中，上述目标特征具有特定大小，上述获得模块包括：获取子模块，配置为针对特定大小的上述目标特征的每个位置，获取上述每个位置对应的初始方向和初始偏移量；以及第三确定子模块，配置为基于上述每个位置对应的初始方向和初始偏移量，确定上述每个指定对象的初始方向和初始偏移量。

在本发明的再一个实施例中，上述装置还包括：第一确定模块，配置为确定上述图像中多个对象中每个对象落在上述目标特征对应的上述图像中的置信度；以及第二确定模块，配置为将置信度大于或等于置信度阈值的对象确定为上述指定对象。

在本发明的再一个实施例中，上述装置还包括：第三处理模块，配置为在将图像输入神经网络之前，预处理上述图像，以得到具有预定尺寸的目标图像；以及提取模块，配置为将上述具有预定尺寸的目标图像输入上述神经网络，以提取用于对上述图像纠偏的目标特征。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：处理单元；以及存储单元，存储有计算机可执行指令，上述指令在被处理单元执行时用于实现上述任一项上述的方法。

本发明提供了一种基于深度学习(深层神经网络)和物体检测(图像中的指定对象)的图像纠偏框架，可以基于神经网络提取的目标特征，在目标特征上的每一个位置计算图像中包含的每个指定对象的初始方向和在该初始方向上对应的初始偏移量，对初始方向和在该初始方向上对应的初始偏移量进行数据处理分析，确定该图像的目标方向(也称预测方向)和在该目标方向上的目标偏移量(也称预测偏移量)，基于确定的目标方向和目标偏移量，确定对该图像进行纠偏任务所对应的图像偏移角度，可以提高对图像进行纠偏任务的方向和偏移量的预测精度。

此外，根据该偏移角度旋转图像以实现对该图像的纠偏，可以使得纠偏后图像中的指定对象对最终OCR效果的影响尽可能小，准确性和鲁棒性优于相关技术采用的图像纠偏方法，提高图像中指定对象的识别准确度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施例的应用场景示意图；

图2示意性地示出了根据本发明实施例的数据处理方法的流程图一；

图3示意性地示出了根据本发明实施例的对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量的流程图；

图4示意性地示出了根据本发明实施例的基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量的流程图；

图5示意性地示出了根据本发明实施例的基于目标特征，获得每个指定对象的初始方向和初始偏移量的流程图；

图6示意性地示出了根据本发明实施例的数据处理方法的流程图二；

图7示意性地示出了根据本发明实施例的数据处理方法的流程图三；

图8示意性地示出了根据本发明实施例的数据处理方法的流程图四；

图9示意性地示出了根据本发明实施例的数据处理装置的框图一；

图10示意性地示出了根据本发明实施例的数据处理装置的框图二；

图11示意性地示出了根据本发明实施例的用于实现数据处理方法的计算机可读存储介质产品的示意图；以及

图12示意性地示出了根据本发明实施例的用于实现数据处理方法的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种数据处理方法及装置、介质和计算设备。

在本文中，需要理解的是，本发明所涉及的术语包括如下。

光学字符识别，指电子设备(例如扫描仪或数码相机)检查纸上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，即针对字符，采用光学的方式将纸质文档中的文字转换成黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工。

特征组表示用户输入的图像通过神经网络进行特征提取之后，获得的用于具体计算任务的特征图。

共享特征组表示不同的任务使用同一组特征图，以此节省计算网络计算开销。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

在实现本发明构思的过程中，发明人发现，电子文档、扫描文档、拍照文档、街拍图像等各类型场景下以图像文字方向为参照的图像中，文字角度对文字识别效果影响较大。在文字方向处于水平的情况下，系统识别准确率最高，为了保证系统识别精度，需要根据用户输入图像中的文字方向进行图像纠偏。而现有的传统图像纠偏方法准确性和鲁棒性较低，导致文字识别精度不高，如何提高对图像中文字最终预测的方向和偏移量的估算准确度，向用户提供更准确的文字识别结果成为急需解决的问题。

本发明的实施方式提供了一种数据处理方法，包括：将图像输入神经网络，以提取用于对图像纠偏的目标特征，其中，图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；基于目标特征，获得每个指定对象的初始方向和初始偏移量；对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量；以及基于目标方向和目标偏移量，对图像纠偏。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的数据处理方法及其装置的应用场景。

图1示意性地示出了根据本发明实施例的应用场景示意图。需要注意的是，图1仅为可以应用本发明实施例的应用场景的示例，以帮助本领域技术人员理解本发明的技术内容，但并不意味着本发明实施方式不可以用于其他设备、系统、环境或场景。

本发明实施例提供的数据处理方法，基于深度学习和物体检测的图像纠偏框架，适用于电子文档、扫描文档、拍照文档、街拍图像等各类型场景下以图像文字方向为参照的图像纠偏。该数据处理方法能够用于各种字体、各种语言、各种光照条件、360度全方位角度的图像纠偏。

如图1所示，以图像100为例，该图像100中包括文本对象和图像对象，其中，文本对象包括对象101：“基于物体检测”、对象102：“的”、对象103：“图像”、对象104：“纠偏”、对象105：“框架”，图像对象包括对象106(扬声器)以及对象107(用户)，文本对象为本发明实施例中所指的指定对象。

如图1所示，上述5个指定对象的文字方向均不在水平方向上，若对该图像100未进行纠偏处理，直接在该图像100上对不在水平方向上的5个指定对象进行OCR识别，文字识别的准确率不高，甚至可能会出现识别错误。因此，需要对图像100进行纠偏处理，以使得图像中上述5个指定对象的文字方向尽可能多的均处于水平方向上，提高文字识别的精度。

应该理解，图1中的文本对象(指定对象)和图像对象(非指定对象)的内容和在图像中的布局位置仅仅是示意性的，且数目也仅仅是示意性的。根据图像本身的实际情况，可以具有任意数目和布局位置的文本对象(指定对象)和图像对象。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施例的数据处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

图2示意性地示出了根据本发明实施例的数据处理方法的流程图一。

如图2所示，该数据处理方法包括操作S210～操作S240。其中：

在操作S210，将图像输入神经网络，以提取用于对图像纠偏的目标特征。

根据本发明的示例性实施例，图像包括但不限于各类型场景下的电子文档、扫描文档、拍照文档、街拍图像。图像中可以包括多个指定对象，每个指定对象对应一个文字的中心点，具有对应的方向和偏移量。可以通过基础文字检测任务，检测图像中存在文字的中心点的多个位置。

可以理解的是，为了将图像转换成可编辑的文本，需要对图像中的指定对象(例如图1中所示的5个文字对象)进行识别，但是由于各种原因，图像中包含的每个指定对象的方向千差万别，在该方向上的偏移量也不尽相同，要想准确识别图像中的各指定对象，需要根据图像中各指定对象的真实方向和偏移量，预测目标方向和目标偏移量，对图像进行旋转操作，以将图像纠正到参照方向上，例如，水平方向。

根据本发明的示例性实施例，神经网络可以是预先训练得到的，训练过程可以包括先获取图像样本，其中，图像样本中的任一图像对应一个文字的中心点，具有对应的方向和偏移量，然后将图像样本中的图像输入到神经网络中，对神经网络进行训练。目标特征，即共享特征组，表示神经网络在执行不同的任务时使用的同一组特征图，可以通过深层神经网络的计算，抽象出图像纠偏任务所需要的目标特征，通过神经网络处理共享特征组可以节省计算机网络的计算开销。

具体地，可以将待识别文字所在的图像输入多层卷积神经网络并进行下采样处理，得到尺寸依次递减的多个特征图。还可以通过上采样的方式，得到尺寸依次递增的多个特征图，将下采样得到的特征图像与上采样得到的特征图像进行特征融合，作为共享特征组。

在操作S220，基于目标特征，获得每个指定对象的初始方向和初始偏移量。

根据本发明的示例性实施例，可以在共享特征组上的每一个位置进行文字方向分类任务计算，获得每个指定对象的初始方向，得到初始方向的分类结果，表示中心点落在该位置的文字的方向，该方向可以为上、下、左、右四个方向之一。

根据本发明的示例性实施例，可以在共享特征组上的每一个位置进行文字角度偏移量任务计算，获得每个指定对象的初始偏移量，表示中心点落在该位置的文字在文字方向分类任务确定初始方向上的左右偏移角度量，该左右偏移角度量为-45度到45度之间。

在操作S230，对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量。

在操作S240，基于目标方向和目标偏移量，对图像纠偏。

根据本发明的示例性实施例，通过对每个指定对象的初始方向和初始偏移量进行数据处理得到的目标方向和目标方向上的目标偏移量，可以计算图像的偏移角度量，根据计算得到的图像的偏移角度量，对图像进行旋转操作，以实现纠偏任务。

本发明提供一种基于深度学习(深层神经网络)和物体检测(图像中的指定对象)的图像纠偏框架，可以基于神经网络提取的目标特征，在目标特征上的每一个位置计算图像中包含的每个指定对象的初始方向和在该初始方向上对应的初始偏移量，对初始方向和在该初始方向上对应的初始偏移量进行数据处理分析，确定该图像的目标方向(也称预测方向)和在该目标方向上的目标偏移量(也称预测偏移量)，基于确定的目标方向和目标偏移量，确定对该图像进行纠偏任务所对应的图像偏移角度，可以提高对图像进行纠偏任务的方向和偏移量的预测精度。

下面参考图3～图8，结合具体实施例对图2所示的数据处理方法做进一步详细说明。

图3示意性地示出了根据本发明实施例的对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量的流程图。

如图3所示，前述操作S230(对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量)包括操作S310～操作S330，其中：

在操作S310，对每个指定对象的初始方向进行数据处理，以统计出每个指定对象的初始方向中占比最大的初始方向。

在操作S320，将占比最大的初始方向，确定为图像的目标方向。

根据本发明的示例性实施例，在指定对象方向分类任务的分类结果中，统计所有被判定存在文字中心点的位置即指定对象所对应的方向分类结果，取占比最大的方向分类结果作为图像的目标方向即最终预测方向。

例如，图1所示的5个指定对象的方向分类结果依次为：对象101为“上”、对象102为“左”、对象103为“上”、对象104为“上”、对象105为“上”，4个指定对象的方向分类结果为“上”，占比80％，1个指定对象的方向分类结果为“左”，占比20％。因此，占比最大的指定对象的方向分类结果为“上”，最终图像的目标方向确定为“上”。

在操作S330，基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量。

根据本发明的示例性实施例，在将占比最大的初始方向，确定为图像的目标方向后，可以获取文字方向为目标方向的文字中心位置所对应的初始偏移量，基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量。

通过本发明的示例性实施例，统计所有指定对象的方向分类结果，将图像中数量上占据优势的大多数指定对象的初始方向确定为图像的目标方向，使得纠偏方向符合主流的方向分类结果，基于初始方向为该目标方向的指定对象的初始偏移量，确定图像最终的目标偏移量，使得偏移量符合主流的偏移量分类结果，目标方向和目标偏移量的确定结果真实可信。

图4示意性地示出了根据本发明实施例的基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量的流程图。

如图4所示，在该实施例中，前述操作S330(基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量)包括操作S410～操作S430。其中：

在操作S410，按照预设步长，构建多个偏移量区间。

在操作S420，将初始方向为目标方向的指定对象的初始偏移量离散化至多个偏移量区间，以统计每个偏移量区间对应的计数。

在操作S430，基于计数最多的偏移量区间对应的初始偏移量的均值，确定图像的目标偏移量。

根据本发明的示例性实施例，可以根据左右偏移角度量，以一定角度间隔即预设步长，构建多个偏移量角度区间，形成“偏移量桶”，将初始方向为图像最终预测的目标方向的指定对象的初始偏移量，离散化到对应的桶中并增加该桶的计数，得到计数最多的“偏移量桶”所对应的偏移量角度区间，最后计算该区间内的所有角度偏移量的均值，即为图像在最终预测方向上的角度偏移量。

例如，若左右偏移角度量为[-45度，45度]，预设步长为15度，则可以构建多个偏移量区间，分别为区间1：[-45度，-30度]、区间2：[-30度、-15度]、区间3：[-15度、0度]、区间4：[0度、15度]、区间5：[15度、30度]以及区间6：[30度、45度]。

如图1所示，在前述操作确定出图像的目标方向为“上”的情况下，初始方向为“上”的4指定对象分别为对象101、对象103、对象104以及对象105所对应的初始角度偏移量分别是：对象101为12度、对象103为-10度、对象104为14度，对象105为28度。分析可知，对象101和对象104的初始角度偏移量落在区间4：[0度、15度]之内，区间4的计数为2，对象103的初始角度偏移量落在区间3：[-15度、0度]之内，区间3的计数为1，对象105的初始角度偏移量落在区间5：[15度、30度]之内，区间5的计数为1，计数最多的为区间4，且该区间内的所有角度偏移量的均值为13度，最终预测出图像的目标偏移量为13度。

通过本发明的示例性实施例，基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量，根据大多数指定对象的实际偏移量预测最终的目标偏移量，使得预测结果更加符合大多数指定对象的真实情况，给图像纠偏任务提供准确的数据参考。

图5示意性地示出了根据本发明实施例的基于目标特征，获得每个指定对象的初始方向和初始偏移量的流程图。

如图5所示，前述操作S220(基于目标特征，获得每个指定对象的初始方向和初始偏移量)包括操作S510和操作S520。其中：

在操作S510，针对特定大小的目标特征的每个位置，获取每个位置对应的初始方向和初始偏移量。

在操作S520，基于每个位置对应的初始方向和初始偏移量，确定每个指定对象的初始方向和初始偏移量。

根据本发明的示例性实施例，目标特征可以具有特定大小。

例如，可以将尺寸为512x512的图像输入多层卷积神经网络并进行下采样处理，得到第一阶段输出的尺寸为256x256的特征图，将256x256的特征图像经过多层卷积神经网络并进行下采样处理，得到第二阶段输出的尺寸为128x128的特征图，以此类推，依次可以得到尺寸为64x64的特征图、尺寸为32x32的特征图以及尺寸为16x16的特征图。然后对尺寸为16x16的特征图进行反卷积操作，通过上采样的方式，输出尺寸为32x32的特征图，对尺寸为32x32的特征图进行反卷积操作，通过上采样的方式，输出尺寸为64x64的特征图，将下采样得到的尺寸为64x64的特征图像与上采样得到的尺寸为64x64的特征图像进行特征融合，输出尺寸为64x64的特征图像，作为共享特征组。

根据本发明的示例性实施例，以特定大小为64x64的目标特征(共享特征组)为例，该共享特征组上有4096(64x64)个位置，可以对该共享特征组上的4096个位置分别进行对象方向分类任务计算，获得4096个位置各自对应的初始方向，将4096个位置中占比最大的初始方向确定为该指定对象在该目标特征上的初始方向，表示该指定对象在对象方向分类任务中确定的初始方向，该初始方向可以为上、下、左、右四个方向之一。

同理，可以对该共享特征组上的4096个位置分别进行对象角度偏移量任务计算，获得4096个位置各自对应的初始偏移量，将4096个位置中占比最大的初始偏移量确定为该指定对象在该目标特征上的初始偏移量，表示该指定对象在对象方向分类任务中确定的初始方向上的左右偏移角度量，该左右偏移角度量为-45度到45度之间。通过本发明的示例性实施例，通过神经网络处理共享特征组可以节省计算机网络的计算开销。

图6示意性地示出了根据本发明实施例的数据处理方法的流程图二。

如图6所示，该方法除了可以包括前述操作S210～S240之外，还可以包括操作S610和操作S620。其中：

在操作S610，确定图像中多个对象中每个对象落在目标特征对应的图像中的置信度。

在操作S620，将置信度大于或等于置信度阈值的对象确定为指定对象。

根据本发明的实施例，可以通过计算图像中每一个对象的中心落在目标特征上的某一个位置对应到原图区域中概率作为置信度。

根据本发明的示例性实施例，以尺寸为512x512的原图，特定大小为64x64的目标特征(共享特征组)为例，该共享特征组上有4096个位置，因此，目标特征(64x64)上的每个位置对应到原图(512x512)的原图区域均为8x8，可以分别计算对象的中心落在每一个位置对应到原图区域8x8中的概率作为置信度，将置信度大于或等于置信度阈值的对象确定为指定对象。

通过设置置信度阈值，得到分类结果，判断该位置是否存在一个文字的中心点。具体地，若某一结果的置信度大于或等于置信度阈值，则判定该位置存在一个文字的中心点，反之，若某一结果的置信度小于置信度阈值，则判定该位置不存在一个文字的中心点。例如，置信度阈值设置为0.5，若某一位置的置信度为0.8，那么可以确定该位置存在一个文字的中心点，若某一位置的置信度为0.3，那么可以确定该位置不存在一个文字的中心点。

通过本发明的示例性实施例，通过预设的置信度阈值，可以识别出图像中多个对象中的指定对象，对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量，可以降低计算设备的计算量，节约计算资源，同时避免非指定对象对文字识别结果的干扰。

图7示意性地示出了根据本发明实施例的数据处理方法的流程图三。

如图7所示，该方法除了可以包括前述操作S210～S240之外，在将图像输入神经网络之前，还可以包括操作S710和操作S720。其中：

在操作S710，预处理图像，以得到具有预定尺寸的目标图像。

前述操作S220为操作S720，将具有预定尺寸的目标图像输入神经网络，以提取用于对图像纠偏的目标特征。

根据本发明的示例性实施例，在将图像输入神经网络中之前，可以对图像进行预处理，改变图像尺寸以得到具有预定尺寸的目标图像，然后将具有预定尺寸的目标图像输入神经网络中。根据本发明的示例性实施例，可以将图像尺寸改变为神经网络处理时所需的图像尺寸，如处理时所需要的图像尺寸为512x512，同时，在对图像进行预处理时还可以减去各通道的指定均值。

通过本发明的示例性实施例，可以降低计算设备的计算量，节约了计算资源，从而提高识别效率。

图8示意性地示出了根据本发明实施例的数据处理方法的流程图四。

如图8所示，在输入图像后，可以对图像进行预处理。然后将预处理后得到的图像输入深层神经网络，通过深层神经网络可以执行基础文字检测任务，以检测图像中存在的指定对象，通过深层神经网络也可以执行文字方向分类任务，以获得每个指定对象的初始方向，通过深层神经网络还可以执行文字角度偏移量任务，以获得每个指定对象的初始偏移量。之后基于文字方向分类任务的分类结果，投票产生预测方向即目标方向，基于初始方向为目标方向的指定对象的初始偏移量，计算图像的目标偏移量。基于目标方向和目标偏移量，计算图像的偏移角度，旋转图像以对图像纠偏，最后输出经过纠偏处理的图像。

示例性装置

在介绍了本发明示例性实施例的示例性方式之后，接下来，参考图9对本发明示例性实施例的用于实现上述数据处理方法的点击率预估系统进行详细阐述。

图9示意性地示出了根据本发明实施例的数据处理装置的框图一。

如图9所示，该数据处理装置900包括提取模块910、获得模块920、第一处理模块930和第二处理模块940。

该数据处理装置900可以用来实现参考图2至图8所示的数据处理方法。

提取模块910，配置为将图像输入神经网络，以提取用于对图像纠偏的目标特征。

获得模块920，配置为基于目标特征，获得每个指定对象的初始方向和初始偏移量。

第一处理模块930，配置为对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量。

第二处理模块940，配置为基于目标方向和目标偏移量，对图像纠偏。

本发明提供了一种基于深度学习(深层神经网络)和物体检测(图像中的指定对象)的图像纠偏框架，可以基于神经网络提取的目标特征，对图像中包含的每个指定对象的初始方向和在该初始方向上的初始偏移量进行数据处理分析，确定该图像的目标方向(也称预测方向)和在该目标方向上的目标偏移量(也称预测偏移量)，基于确定的目标方向和目标偏移量，确定对该图像进行纠偏任务所对应的图像偏移角度，根据该偏移角度旋转图像以实现对该图像的纠偏，可以提高纠偏任务所对应的方向和偏移量的预测结果，使得纠偏后图像中的指定对象对最终OCR效果的影响尽可能小，准确性和鲁棒性远远优于相关技术采用的图像纠偏方法，大大提高图像中指定对象的识别精度。

作为一种可选的实施方式，第一处理模块包括：统计子模块，配置为对每个指定对象的初始方向进行数据处理，以统计出每个指定对象的初始方向中占比最大的初始方向；第一确定子模块，配置为将占比最大的初始方向，确定为图像的目标方向；以及第二确定子模块，配置为基于初始方向为目标方向的指定对象的初始偏移量，确定图像的目标偏移量。

作为一种可选的实施方式，第二确定子模块包括：构建单元，配置为按照预设步长，构建多个偏移量区间；统计单元，配置为将初始方向为目标方向的指定对象的初始偏移量离散化至多个偏移量区间，以统计每个偏移量区间对应的计数；以及确定单元，配置为基于计数最多的偏移量区间对应的初始偏移量的均值，确定图像的目标偏移量。

作为一种可选的实施方式，目标特征具有特定大小，获得模块包括：获取子模块，配置为针对特定大小的目标特征的每个位置，获取每个位置对应的初始方向和初始偏移量；以及第三确定子模块，配置为基于每个位置对应的初始方向和初始偏移量，确定每个指定对象的初始方向和初始偏移量。

通过本发明的示例性实施例，通过神经网络处理共享特征组可以节省计算机网络的计算开销。

图10示意性地示出了根据本发明实施例的数据处理装置的框图二。

如图10所示，该数据处理装置1000除了可以包括前述提取模块910、获得模块920、第一处理模块930和第二处理模块940之外，还可以包括第一确定模块1010、第二确定模块1020以及第三处理模块1030。其中：

第一确定模块1010，配置为确定图像中多个对象中每个对象落在目标特征对应的图像中的置信度。

第二确定模块1020，配置为将置信度大于或等于置信度阈值的对象确定为指定对象。

第三处理模块1030，配置为预处理图像，以得到具有预定尺寸的目标图像。

作为一种可选的实施方式，该数据处理装置1000除了可以包括前述提取模块910、获得模块920、第一处理模块930、第二处理模块940、第一确定模块1010、第二确定模块1020以及第三处理模块1030之外，还可以包括第三处理模块，配置为在将图像输入神经网络之前，预处理图像，以得到具有预定尺寸的目标图像。前述提取模块910，可选择性配置为将具有预定尺寸的目标图像输入神经网络，以提取用于对图像纠偏的目标特征。

根据本发明的示例性实施例，模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明示例性实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本发明示例性实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本发明示例性实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，提取模块910、获得模块920、第一处理模块930、第二处理模块940、第一确定模块1010、第二确定模块1020以及第三处理模块1030中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的示例性实施例，提取模块910、获得模块920、第一处理模块930、第二处理模块940、第一确定模块1010、第二确定模块1020以及第三处理模块1030中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，提取模块910、获得模块920、第一处理模块930、第二处理模块940、第一确定模块1010、第二确定模块1020以及第三处理模块1030中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块程序被计算机运行时，可以执行相应模块的功能。

需要说明的是，本发明实施例中的数据处理装置部分与本发明实施例中的数据处理方法部分是相对应的，数据处理装置部分的描述具体可参考数据处理方法部分，在此不再赘述。

示例性介质

在介绍了本发明示例性实施例的示例性装置之后，接下来，参考图11对本发明示例性实施例的、用于存储有计算机可执行指令，该指令在被处理单元执行时用于实现图2至图8中的数据处理方法的介质进行描述。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在设备上运行时，程序代码用于使设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的信息发送方法中的操作(或步骤)，例如，设备可以执行如图2中所示的操作S210，将图像输入神经网络，以提取用于对图像纠偏的目标特征。操作S220，基于目标特征，获得每个指定对象的初始方向和初始偏移量。操作S230，对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量。操作S240，基于目标方向和目标偏移量，对图像纠偏。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图11所示，描述了根据本发明的实施方式的信息处理的程序产品110，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java，C++等，还包括常规的过程式程序设计语言—诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施例的方法、介质和装置之后，接下来，参考图12对本发明示例性实施例的计算设备进行描述，该计算设备包括处理单元和存储单元，存储单元存储有计算机可执行指令，上述指令在被上述处理单元执行时用于实现图2至图8中的数据处理方法进行描述。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的信息呈现方法中的步骤。例如，所述处理单元可以执行如图2中所示的操作S210，将图像输入神经网络，以提取用于对图像纠偏的目标特征。操作S220，基于目标特征，获得每个指定对象的初始方向和初始偏移量。操作S230，对每个指定对象的初始方向和初始偏移量进行数据处理，以确定图像的目标方向和目标偏移量。操作S240，基于目标方向和目标偏移量，对图像纠偏。

下面参照图12来描述根据本发明的这种实施方式的用于信息处理的计算设备120。如图12所示的计算设备120仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算设备120以通用计算设备的形式表现。计算设备120的组件可以包括但不限于：上述至少一个处理单元1201、上述至少一个存储单元1202、连接不同系统组件(包括存储单元1202和处理单元1201)的总线1203。

总线1203包括地址总线、数据总线和控制总线。

存储单元1202可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)12021和/或高速缓存存储器12022，还可以进一步包括只读存储器(ROM)12023。

存储单元1202还可以包括具有一组(至少一个)程序模块12024的程序/实用工具12025，这样的程序模块12024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备120也可以与一个或多个外部设备1204(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/0)接口1205进行。并且，计算设备120还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1206通过总线1203与计算设备120的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备120使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种数据处理方法，包括：

将图像输入神经网络，以提取用于对所述图像纠偏的目标特征，其中，所述图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；

基于所述目标特征，获得所述每个指定对象的初始方向和初始偏移量；

对所述每个指定对象的初始方向和初始偏移量进行数据处理，以确定所述图像的目标方向和目标偏移量；以及

基于所述目标方向和目标偏移量，对所述图像纠偏。

2.根据权利要求1所述的方法，其中，所述对所述每个指定对象的初始方向和初始偏移量进行数据处理，以确定所述图像的目标方向和目标偏移量包括：

对所述每个指定对象的初始方向进行数据处理，以统计出所述每个指定对象的初始方向中占比最大的初始方向；

将所述占比最大的初始方向，确定为所述图像的目标方向；以及

基于初始方向为所述目标方向的指定对象的初始偏移量，确定所述图像的目标偏移量。

3.根据权利要求2所述的方法，其中，所述基于初始方向为所述目标方向的指定对象的初始偏移量，确定所述图像的目标偏移量包括：

按照预设步长，构建多个偏移量区间；

将所述初始方向为所述目标方向的指定对象的初始偏移量离散化至所述多个偏移量区间，以统计每个偏移量区间对应的计数；以及

基于计数最多的偏移量区间对应的初始偏移量的均值，确定所述图像的目标偏移量。

4.根据权利要求1所述的方法，其中，所述目标特征具有特定大小，基于所述目标特征，获得所述每个指定对象的初始方向和初始偏移量包括：

针对特定大小的所述目标特征的每个位置，获取所述每个位置对应的初始方向和初始偏移量；以及

基于所述每个位置对应的初始方向和初始偏移量，确定所述每个指定对象的初始方向和初始偏移量。

5.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述图像中多个对象中每个对象落在所述目标特征对应的所述图像中的置信度；以及

将置信度大于或等于置信度阈值的对象确定为所述指定对象。

6.根据权利要求1所述的方法，其中，所述方法还包括：

在将图像输入神经网络之前，预处理所述图像，以得到具有预定尺寸的目标图像；以及

将图像输入神经网络包括：将所述具有预定尺寸的目标图像输入所述神经网络。

7.一种数据处理装置，包括：

提取模块，配置为将图像输入神经网络，以提取用于对所述图像纠偏的目标特征，其中，所述图像包括多个指定对象，每个指定对象具有对应的方向和偏移量；

获得模块，配置为基于所述目标特征，获得所述每个指定对象的初始方向和初始偏移量；

第一处理模块，配置为对所述每个指定对象的初始方向和初始偏移量进行数据处理，以确定所述图像的目标方向和目标偏移量；以及

第二处理模块，配置为基于所述目标方向和目标偏移量，对所述图像纠偏。

8.根据权利要求7所述的装置，其中，所述第一处理模块包括：

统计子模块，配置为对所述每个指定对象的初始方向进行数据处理，以统计出所述每个指定对象的初始方向中占比最大的初始方向；

第一确定子模块，配置为将所述占比最大的初始方向，确定为所述图像的目标方向；以及

第二确定子模块，配置为基于初始方向为所述目标方向的指定对象的初始偏移量，确定所述图像的目标偏移量。

9.一种介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现权利要求1至6中任一项所述的方法。

10.一种计算设备，包括：

处理单元；以及

存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现权利要求1至6中任一项所述的方法。