CN109934229B

CN109934229B - 图像处理方法、装置、介质和计算设备

Info

Publication number: CN109934229B
Application number: CN201910247934.8A
Authority: CN
Inventors: 王标; 林辉; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-08-03
Anticipated expiration: 2039-03-28
Also published as: CN109934229A

Abstract

本发明的实施方式提供了一种图像处理方法。所述图像处理方法包括：将图像输入至神经网络，所述图像包括第一字符信息，通过所述神经网络确定所述第一字符信息的阅读方向，以及基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。本发明实施例的方法能够自动识别图像中的字符信息的阅读方向，然后按照该阅读方向对文本行候选中的字符信息进行识别，适用于各种排版布局等复杂场景下的图像中的文本识别。此外，本发明的实施方式提供了一种图像处理装置、介质和计算设备。

Description

图像处理方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及互联网技术领域，更具体地，本发明的实施方式涉及一种图像处理方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前比较常见的文字阅读方向是从左往右，但是在繁体、日文等语言中从上往下的阅读顺序却是常见的。而现有的对图像中的文本进行识别的方法(例如，OCR识别)基本仅仅解决从左往右的横排文本的识别，无法满足以其他方式排布(例如，从上往下)的文本的识别需求。

发明内容

因此在现有技术中，对于图像中包括非横排的文本的识别，是非常令人烦恼的过程。

为此，非常需要一种改进的可以根据文本的阅读方向来识别图像中的字符信息的方法，从而能够识别图像中各种阅读方向的文本，提升图像中的文本识别的整体性能和识别效率。

在本上下文中，本发明的实施方式期望提供一种能够自动识别图像中各种排布方向的字符信息的图像处理方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种图像处理方法，包括：将图像输入至神经网络，所述图像包括第一字符信息；通过所述神经网络确定所述第一字符信息的阅读方向；以及基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。

在本发明的一个实施例中，通过所述神经网络确定所述第一字符信息的阅读方向包括：对所述图像进行特征提取，得到共享特征组；对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置；以及对所述第一识别位置进行阅读方向分类，得到所述阅读方向。

在本发明的一个实施例中，所述对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置，包括获得对所述共享特征组中每个位置的分类结果的置信度，确定所述置信度大于等于阈值的位置为所述第一识别位置，以及确定所述置信度小于所述阈值的位置为与所述图像中的背景区域对应的第二识别位置。

在本发明的一个实施例中，所述基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，包括基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息，以及基于所述定位信息在所述图像中划分出所述文本行候选区域。

在本发明的一个实施例中，所述获得所述文本行候选区域在所述图像中的定位信息，包括获得所述第一识别位置映射至所述图像中的第一坐标，以及获得所述第一字符信息在垂直于所述阅读方向的第二尺寸，设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸，其中，所述第一坐标、所述第二尺寸以及所述固定尺寸组成所述定位信息。

在本发明的一个实施例中，所述设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸，包括基于所述共享特征组与所述图像的缩放比例，设置所述固定尺寸。

在本发明的一个实施例中，所述方法还包括过滤掉所述共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。

在本发明的一个实施例中，所述方法还包括通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一。

在本发明的一个实施例中，所述方法还包括按照所述阅读方向，对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段。

本发明实施方式的第二方面，提供了一种图像处理装置，包括输入模块、第一处理模块以及第二处理模块。输入模块用于将图像输入至神经网络，所述图像包括第一字符信息。第一处理模块用于通过所述神经网络确定所述第一字符信息的阅读方向。第二处理模块用于基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。

在本发明的一个实施例中，所述第一处理模块包括特征提取单元、第一分类单元以及第二分类单元。特征提取单元用于对所述图像进行特征提取，得到共享特征组。第一分类单元用于对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置，以及第二分类单元用于对所述第一识别位置进行阅读方向分类，得到所述阅读方向。

在本发明的一个实施例中，所述第一分类单元具体用于获得对所述共享特征组中每个位置的分类结果的置信度，确定所述置信度大于等于阈值的位置为所述第一识别位置，以及确定所述置信度小于所述阈值的位置为与所述图像中的背景区域对应的第二识别位置。

在本发明的一个实施例中，所述第二处理模块包括回归定位单元以及划分单元。回归定位单元用于基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息。划分单元用于基于所述定位信息在所述图像中划分出所述文本行候选区域。

在本发明的一个实施例中，回归定位单元，具体用于获得所述第一识别位置映射至所述图像中的第一坐标，获得所述第一字符信息在垂直于所述阅读方向的第二尺寸，以及设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸。其中，所述第一坐标、所述第二尺寸以及所述固定尺寸组成所述定位信息。

在本发明的一个实施例中，所述第一处理模块还包括背景过滤单元。所述背景过滤单元用于过滤掉所述共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。

在本发明的一个实施例中，所述装置还包括第三处理模块。所述第三处理模块用于通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一。

在本发明的一个实施例中，所述装置还包括第四处理模块。所述第四处理模块用于按照所述阅读方向，对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段。

本发明实施方式的第三方面，提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行如上所述的方法。

本发明实施方式的第四方面，提供了一种计算设备，包括存储有可执行指令的一个或多个存储器，以及一个或多个处理器。所述处理器执行所述可执行指令，用以实现如上所述的方法。

根据本发明实施方式的方法、装置、介质和计算设备，能够自动识别图像中的字符信息的阅读方向，然后再基于该阅读方向将图像划分为用于字符识别的一个或多个文本行候选区域，适用于各种排版布局等复杂场景下的图像中的文本识别，可以适用于电子文档、扫描文档、拍照文档、街拍图像等各类型的图像处理，满足各种字体、各种语言、或各种光照条件下的图像中的文本识别，提升了图像中文本行字符识别的整体性能和阅读体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的图像处理方法、装置、介质和计算设备的应用场景；

图2示意性地示出了根据本发明实施例的图像处理方法的流程图；

图3示意性的示出了根据本发明另一实施例的图像处理方法的流程图；

图4示意性地示出了根据本发明实施例的图像处理方法的构思示意图；

图5示意性地示出了根据本发明实施例的通过神经网络确定字符信息阅读方向的方法流程图；

图6示意性地示出了根据本发明实施例的提取共享特征组进行图像处理的流程示意；

图7示意性地示出了根据本发明实施例的文本行候选区域与背景分类任务的流程图；

图8示意性的示出了根据本发明实施例的将图像划分出文本行候选区域的流程图；

图9示意性地示出了根据本发明实施例的图像处理装置的框图；

图10示意性地示出了适于实现根据本发明实施例的图像处理方法的程序产品的示意图；

图11示意性地示出了适于实现根据本发明实施例的图像处理方法的计算设备的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像处理方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语解释如下：

共享特征组：是通过神经网络从该图像中提取的特征图。

文字阅读方向：包括横向和竖向。其中横向定义为左右方向；竖向定义为上下方向；

文本行候选区域的信息(score，class，x，y，w，h)中的各个参数：

score：为根据神经网络的分类结果，获得的共享特征组上的某一个位置属于图像中的一个文行候选区域的中心的置信度。其中，在共享特征组中置信度score大于等于阈值的位置在本文中被称为第一识别位置。该第一识别位置对应于图像中的一个文行候选区域的中心。

class：为对共享特征组中的第一识别位置的阅读方向进行分类，得到该第一识别位置对应的文本行候选区域是横向阅读或纵向阅读的分类类别；

x：为共享特征组中的第一识别位置在图像中的X坐标；

y：为共享特征组中的第一识别位置在图像中的Y坐标；

w：为共享特征组中的第一识别位置对应的文本行候选区域在该图像中的宽度；

h：为共享特征组中的第一识别位置对应的文本行候选区域在该图像中的高度；

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，可以将图像中文本行阅读方向的确定问题抽象为分类任务。例如通过神经网络构建分类器，通过分类器对图像中的字符信息的阅读方向进行分类，得到例如横向阅读方向、纵向阅读方向或者其他阅读方向等的分类类别，以此方式就可以通过神经网络得到图像中字符信息的阅读方向。另外，在阅读方向确定后，从图像中提取文本行时，将图像按照该阅读方向切割成一个一个文本行候选区域。这样，通过相邻文本行候选区域组行组段后，再进行文字识别(例如，OCR识别)，就能够更为准确获得符合文字语义的文本内容。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1

图1示意性地示出了根据本发明实施方式的图像处理方法、装置、介质和计算设备的应用场景。

如图1所示，该应用场景包括用户终端11、服务器12和网络13。网络13用以在用户终端11和服务器12之间提供通信链路的介质。网络13可以包括各种连接类型，例如无线通信链路或者光纤电缆等等。

用户终端11可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

用户可以使用用户终端11通过网络13与服务器12交互，以接收或发送消息等。例如，用户终端11上可以安装有图像处理应用程序(以下简称客户端)。用户通过用户终端11中安装的客户端向服务器12发送图像处理请求，例如请求识别图像中的字符信息。

服务器12可以是提供各种服务的服务器，例如对用户利用用户终端11发送的图像处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像处理请求等数据进行分析等处理，并将处理结果反馈给用户终端11。例如，服务器12可以提供用于图像处理的神经网络，通过该神经网络来识别图像中的字符信息。该神经网络可以包括执行多种任务的模型，例如执行文本行候选区域与背景分类任务的模型、执行文本行候选区域阅读方向分类任务的模型、以及文本行候选区域定位回归任务的模型。通过这些模型，可以对用户利用用户终端11发送的图像中的字符信息的阅读方向进行分类，并在确定了阅读方向后从图像中划分出一个或多个用于文字识别的文本行候选区域。

需要说明的是，本发明实施例所提供的图像处理方法可以由服务器12执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备一般可以设置于服务器12中。本发明实施例所提供的图像处理方法也可以由不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备也可以设置于不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群中。本发明实施例所提供的图像处理方法也可以部分由用户终端11执行，部分由服务器12执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备也可以部分设置于用户终端11中，部分设置于服务器12中。

应该理解，图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

下面结合图1的应用场景，参考图2～图8来描述根据本发明示例性实施方式的图像处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施例的图像处理方法的流程图。

如图2所示，根据本发明实施例的图像处理方法可以包括操作S210～操作S230。

首先在操作S210，将图像输入至神经网络，所述图像包括第一字符信息。该第一字符信息可以是一个或多个字符按照一定方向排布组合形成的文本内容。

然后在操作S220，通过所述神经网络确定所述第一字符信息的阅读方向。

接着在操作S230，基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。

根据本发明实施例，在从图像中提取文本行时，先通过神经网络识别图像中的字符信息的阅读方向，然后在阅读方向确定后可以基于阅读方向，将图像切割成一个一个文本行候选区域。这样得到的文本行候选区域中的字符是按照文本语义方向排序，从而当对文本行候选区域进行进一步文字识别时能够得到符合文本语义方向的文本内容。

图3示意性的示出了根据本发明另一实施例的图像处理方法的流程图。

如图3所示，根据本发明另一实施例的图像处理方法在操作S210～操作S230以后，还可以包括操作S340～操作S360中的部分或全部。

在操作S340，过滤掉共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。共享特征组为从图像中提取的特征图，具体在下文中会详细描述。该第二识别位置为共享特征组中与图像中的背景区域对应的位置。根据本发明实施例，过滤掉共享特征组中的该第二识别位置，可以快速过滤掉图像中的背景区域。

在操作S350，通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一。该重合阈值可以根据实际需要进行设置，例如可以设置为70％(仅为示例)。

在操作S360，对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段，这样可以得到完整的文本行语句或段落。

由此可见，根据本发明实施例的图像处理方法，能够自动识别图像中的字符信息的阅读方向，然后在基于该阅读方向从图像中划分出一个或多个文本行区域，这样得到的文本行候选区域中的字符是按照文本语义方向排序。然后，按照该阅读方向，对该一个或多个文本行候选区域按照在图像中位置进行组行和组段，为文字识别(例如，OCR识别)得到符合文本语义方向的文本内容提供了有利的技术基础。可见，根据本发明实施例的图像处理方法，适用于各种排版布局等复杂场景下的图像中的文本识别，提升了图像中文本识别的整体性能和阅读体验。

图4示意性地示出了根据本发明实施例的图像处理方法的构思示意图。

如图4所示，结合图2和图3根据本发明实施例的图像处理方法的算法流程包括如下。

首先，获取图像，对图像预处理。其中图像预处理可以包括改变图像的尺寸以适应神经网络对图像的输入尺寸的要求等。

然后，将预处理后的图像输入至神经网络。根据本发明的实施例，该神经网络可以包括特征提取单元、第一分类单元、第二分类单元以及回归定位单元。首先，特征提取单元在接收到图像后，可以从图像中抽象出特定大小的共享特征组，其中，关于共享特征组的提取过程可以参见如下图6中的相关描述。然后基于该共享特征组，第一分类单元可以执行文本行候选区域与背景分类任务，第二分类单元可以执行文本行候选区域阅读方向分类任务，回归定位单元可以执行文本行候选区域定位任务。这样，就可以得到文本行候选区域的信息(score，class，x，y，w，h)。

具体地，第一分类单元执行文本行候选区域与背景分类任务，可以得到共享特征组上的某一个位置属于图像中的文行候选区域的中心的置信度score，其中置信度score大于等于阈值的位置在本文中被称为第一识别位置。该第一识别位置对应于图像中的一个文行候选区域的中心。具体地，该第一分类单元可以是通过训练神经网络而得到的分类器。在训练阶段，通过大量从图像中提取出的共享特征组，训练第一分类单元来学习作为文本行候选中心的像素位置的特征，得到第一分类单元的模型参数。这样，在预测阶段第一分类单元可以预测每个位置对应于原图中一个文本行候选区域的中心的置信度，其中将置信度大于等于阈值的像素判定为第一识别位置，小于阈值的像素则判定为第二识别位置，其中该第二识别位置对应于图像中的背景区域。

根据本公开的实施例，以尺寸为512x512的原图，特定大小为64x64的共享特征组为例，该共享特征组上有4096个位置，因此，共享特征组(64x64)上的每个位置对应到原图(512x512)的原图区域均为8x8，可以分别计算原图中每个文本行候选区域的中心落在共享特征组每一个位置对应到原图区域8x8中的概率，得到置信度score，将置信度大于或等于阈值的位置确定为第一识别位置。

通过设置阈值，得到分类结果，判断共享特征组中该位置是否对应于原图中一个文本行候选区域的中心。具体地，若某一位置结果的置信度大于或等于阈值，则判定该位置对应于原图中一个文本行候选区域的中心，反之，若某一结果的置信度小于阈值，则判定该位置不是原图中一个文本行候选区域的中心。例如，该阈值设置为0.5，若某一位置的置信度为0.8，那么可以确定该位置对应于原图中一个文本行候选区域的中心，若某一位置的置信度为0.3，那么可以确定该位置不对应于原图中一个文本行候选区域的中心。根据本公开的实施例，可以将共享特征组中置信度小于阈值的位置判定为第二识别位置，其中该第二识别位置对应于图像中的背景区域。

第二分类单元执行文本行候选区域阅读方向分类任务，对于第一识别位置进行阅读方向分类，得到该第一识别位置对应的文行候选区域的阅读方向类别class。

回归定位单元执行文本行候选区域定位任务：首先对第一识别位置回归得到对应于该图像中的坐标(x，y)，其中(x，y)即为第一识别位置对应的文行候选区域的中心的坐标；接着，回归得到以(x，y)为中心的文本行候选区域在图像中的宽度w和高度h。根据本发明的实施例，在阅读方向确定后，可以设置在阅读方向的尺寸为固定尺寸。例如，可以基于所述共享特征组与所述图像的缩放比例，设置所述固定尺寸。具体地，例如若class为横向阅读时，可以设置宽度w为固定值。又或者，若class为纵向阅读时，可以设置宽度h为固定值。

另外，对于共享特征组中置信度score小于阈值的位置在本文中被称为第二识别位置。该第二识别位置可以被确定为是图像中背景区域对应的位置。从而，可以过滤掉共享特征组中该第二识别位置，以此方式快速过滤掉图像中的背景区域。

通过以上方式得到本行候选区域的信息(score，class，x，y，w，h)后，将score大于阈值的第一识别位置回归得到的区域(x，y，w，h)从图像中提取出来，就可以从图像中提取出文本行候选区域。

根据本发明的实施例，特征提取单元例如可以由深层神经网络构建而成。该第一分类单元可以是针对文本行候选区域与背景分类任务训练得到的分类器模型。该第二分类单元可以是针对文本行候选区域阅读方向分类任务训练得到的分类器模型。该回归定位单元可以是针对文本行候选区域定位训练得到的回归模型。

在从图像中划分出一个或多个文本行候选区域之后，还可以通过非极大值抑制算法，过滤掉冗余文本行候选区域。然后还可以对从图像中划分出的文本行候选区域进行组行或组段，然后输出以进行文字识别(例如，OCR识别)。

图5示意性地示出了根据本发明实施例的操作S220通过神经网络确定字符信息阅读方向的方法流程图。

如图5所示，根据本发明的实施例操作S220可以包括操作S501～操作S503。

首先在操作S501，对所述图像进行特征提取，得到共享特征组。例如，通过特征提取单元对图像进行计算得到该共享特征组，具体可以参考图6的示例性描述。

图6示意性地示出了根据本发明实施例在操作S501中提取共享特征组进行图像处理的流程示意。

如图6所示，例如用户输入的尺寸为512x512的图像可以经过多层卷积神经网络处理并进行下采样，得到第一阶段输出的尺寸为256x256的特征图，然后将256x256的特征图再经过多层卷积神经网络处理并进行下采样，得到第二阶段输出的尺寸为128x128的特征图，以此类推，可以得到尺寸为64x64的特征图、32x32的特征图、16x16的特征图。然后对尺寸为16x16的特征图进行反卷积操作，通过上采样的方式，输出尺寸为32x32的特征图。对尺寸为32x32的特征图进行反卷积操作，通过上采样的方式，输出尺寸为64x64的特征图。将下采样得到的尺寸为64x64的特征图与上采样得到的尺寸为64x64的特征图进行特征融合，输出尺寸为64x64的特征图，作为共享特征组。

根据本发明的实施例，基于该共享特征组可以执行不同的任务。其中该不同的任务包括但不限于如上所述的文本行候选区域与背景分类任务、文本行候选区域阅读方向分类任务以及文本行候选区域定位任务。

继续参考图5，在操作S501之后还包括操作S502和操作S503。

在操作S502，对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置。如前所述，可以根据第一分类单元执行文本行候选区域与背景分类任务的结果，得到第一识别位置。

接着在操作S503，对所述第一识别位置进行阅读方向分类，得到所述阅读方向。例如，可以通过第二分类单元执行文本行候选区域阅读方向分类任务，得到共享特征组中的第一识别位置的阅读方向。具体地，该第二分类单元是通过训练神经网络而得到的用于对阅读方向进行分类的分类器。例如，在训练阶段，利用大量已知阅读方向(包括横向、以及纵向等多种阅读方向)图像，从中提取出共享特征组，来训练神经网络来构建分类器模型，并基于神经网络输出的阅读方向与真实的阅读方向之间的损失，反复训练神经网络，从而让神经网络不断学习共享特征组中的每个位置(尤其是第一识别位置)的特征与阅读方向之间的关系，得到第二分类单元的模型参数。进而，在预测阶段，第二分类单元可以对第一识别位置进行阅读方向分类。

图7示意性地示出了根据本发明实施例的操作S502中文本行候选区域与背景分类任务的流程图。

如图7所示，操作S502可以包括操作S701～操作S703。

在操作S701，获得对所述共享特征组中每个位置的分类结果的置信度score。

在操作S702，确定所述置信度score大于等于阈值的位置为所述第一识别位置。所述第一识别位置对应于所述图像中一个文本行候选区域的中心位置。

在操作S703，确定置信度score小于所述阈值的位置为与所述图像中的背景区域对应的第二识别位置。根据本发明的实施例，可以将共享特征组中该第二识别位置过滤掉，从而可以快速过滤掉图像中的背景区域。

图8示意性的示出了根据本发明实施例的操作S230将图像划分出文本行候选区域的流程图。

如图8所示，操作S230具体可以包括操作S801和操作S802。

首先在操作S801，基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息。然后在操作S802，基于所述定位信息在所述图像中划分出所述文本行候选区域。

根据本发明实施例，操作S801具体可以包括：获得所述第一识别位置映射至所述图像中的第一坐标(x，y)，获得所述第一字符信息在垂直于所述阅读方向的第二尺寸w或h，以及设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸h或w。其中，所述第一坐标、所述第二尺寸以及所述固定尺寸组成一个文本行候选区域的定位信息(x，y，w，h)。

根据本发明的实施例，设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸，包括基于所述共享特征组与所述图像的缩放比例，设置所述固定尺寸。例如，图6中共享特征组的大小为64*64，用户输入图像的大小为512*512，共享特征组的大小为用户输入图像的1/8²。在这种情况下该固定尺寸可以设置为8像素。这样，例如横向阅读的文本候选行区域的定位信息为(x，y，8，h)，纵向阅读的文本行候选区域的定位信息为(x，y，w，8)。由于该固定尺寸与共享特征组和所述图像的缩放比例一致，共享特征组中的第一识别位置在映射回所述图像时，例如横向阅读的情况下第一识别位置对应于以(x，y)为中心、从左向右延伸8个像素的区域，相应地纵向阅读的情况下第一识别位置对应于以(x，y)为中心、从上往下延伸8个像素的区域。可见，在从图像中采样得到共享特征组时，是将横向和纵向各8个像素采样压缩到一个像素，而在对文本行候选区域进行定位时，是将共享特征组的一个像素(即，第一识别位置)还原到图像中该阅读方向上的8个像素(即，沿阅读方向上的尺寸固定为8像素)，从而，可以使得在阅读方向上的字符信息可以被完整获取到。

根据本发明的实施例，在阅读方向确定后，从图像中提取文本行候选区域时，以文本行候选区域中心的坐标为中心，在阅读方向按照固定尺寸扩展，并基于垂直于阅读方向的第二尺寸，将图像切割成一个一个矩形的文本行候选区域。这样之后，通过相邻文本行候选区域组行组段后，再进行文字识别(例如，OCR识别)，能够更为准确地从图像中获得符合文字语义方向的文本内容。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图9对本发明示例性实施方式的图像处理装置进行说明。

图9示意性地示出了根据本发明实施例的图像处理装置900的框图。

如图9所示，该装置900可以包括输入模块910、第一处理模块920以及第二处理模块930。

输入模块910用于将图像输入至神经网络，所述图像包括第一字符信息(操作S210)。第一处理模块920用于通过所述神经网络确定所述第一字符信息的阅读方向(操作S220)。第二处理模块930用于基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息(操作S230)。

在本发明的一个实施例中，所述装置900还包括第三处理模块940。所述第三处理模块940用于通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一(操作S350)。

在本发明的一个实施例中，所述装置900还包括第四处理模块950。所述第四处理模块950用于对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段(操作S360)。

在本发明的一个实施例中，所述第一处理模块920包括特征提取单元921、第一分类单元922以及第二分类单元923。特征提取单元921用于对所述图像进行特征提取，得到共享特征组(操作S501)。第一分类单元922用于对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置(操作S502)。第二分类单元923用于对所述第一识别位置进行阅读方向分类，得到所述阅读方向(操作S503)。在本发明的一个实施例中，所述第一处理模块920还包括背景过滤单元924。所述背景过滤单元924用于过滤掉所述共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。

在本发明的一个实施例中，所述第一分类单元922具体用于获得对所述共享特征组中每个位置的分类结果的置信度(操作S701)，确定所述置信度大于等于阈值的位置为所述第一识别位置(操作S702)，以及确定所述置信度小于所述阈值的位置为与所述图像中的背景区域对应的第二识别位置(操作S703)。

在本发明的一个实施例中，所述第二处理模块930包括回归定位单元931以及划分单元932。回归定位单元931用于基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息(操作S801)。划分单元932用于基于所述定位信息在所述图像中划分出所述文本行候选区域(操作S802)。

在本发明的一个实施例中，回归定位单元931具体用于获得所述第一识别位置映射至所述图像中的第一坐标，获得所述第一字符信息在垂直于所述阅读方向的第二尺寸，以及设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸。其中，所述第一坐标、所述第二尺寸以及所述固定尺寸组成所述定位信息。在本发明的一个实施例中，所述设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸，包括基于所述共享特征组与所述图像的缩放比例，设置所述固定尺寸。

根据本发明的实施例，装置900可以用于实现参考图2～图8所描述的图像处理方法，实现自动识别图像中的文本阅读方向，并基于该阅读方向将图像划分为一个或多个文本行候选区域，从而使得基于该文本行候选区域识别得到的文本内容符合文本语义方向，提高了图像中文本识别的整体性能。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图10对本发明示例性实施方式的计算机可读存储介质进行介绍。

本发明实施方式还提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行根据本发明实施方式的图像处理方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作，例如，所述计算设备可以执行如图2中所示的操作S210，将图像输入至神经网络，所述图像包括第一字符信息；操作S220，通过所述神经网络确定所述第一字符信息的阅读方向；以及操作S230，基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图10所示，描述了适于实现根据本发明实施例的图像处理方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图11对本发明示例性实施方式的计算设备进行介绍。

本发明实施方式还提供了一种计算设备，包括存储有可执行指令的一个或多个存储器，以及一个或多个处理器。所述处理器执行所述可执行指令，用以实现如上所述的图像处理方法。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作。例如，所述处理单元可以执行如图2中所示的操作S210，将图像输入至神经网络，所述图像包括第一字符信息；操作S220，通过所述神经网络确定所述第一字符信息的阅读方向；以及操作S230，基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息。

下面参照图11来描述适于实现根据本发明实施例的图像处理方法的计算设备1100。如图11所示的计算设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算设备11000以通用计算设备的形式表现。计算设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。

总线1130包括数据总线、控制总线和地址总线。

存储单元1120可以包括易失性存储器，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储单元1120还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1150进行。并且，计算设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与计算设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像处理方法，包括：

将图像输入至神经网络，所述图像包括第一字符信息；

通过所述神经网络确定所述第一字符信息的阅读方向，包括：

对所述图像进行特征提取，得到共享特征组，所述共享特征组为从图像中提取的特征图，其中，通过从所述图像中采样，将横向和纵向各N个像素采样压缩到一个像素得到所述共享特征组，其中所述共享特征组的大小为所述图像的1/N²，N为大于1的整数；

对所述共享特征组中每个位置是否为所述图像中的一个文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置；以及

对所述第一识别位置进行阅读方向分类，得到所述阅读方向；

以及

基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个所述文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息，包括通过将所述第一识别位置还原到所述图像中所述阅读方向上的N个像素来定位所述文本行候选区域。

2.根据权利要求1所述的方法，其中，所述对所述共享特征组中每个位置是否为所述文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置，包括：

获得对所述共享特征组中每个位置的分类结果的置信度；

确定所述置信度大于等于阈值的位置为所述第一识别位置；以及

确定所述置信度小于所述阈值的位置为与所述图像中的背景区域对应的第二识别位置。

3.根据权利要求1所述的方法，其中，所述基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个文本行候选区域，包括：

基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息；以及

基于所述定位信息在所述图像中划分出所述文本行候选区域。

4.根据权利要求3所述的方法，其中，所述获得所述文本行候选区域在所述图像中的定位信息包括：

获得所述第一识别位置映射至所述图像中的第一坐标；以及

获得所述第一字符信息在垂直于所述阅读方向的第二尺寸；

设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸；

其中，所述第一坐标、所述第二尺寸以及所述固定尺寸组成所述定位信息。

5.根据权利要求4所述的方法，其中，所述设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸包括：

基于所述共享特征组与所述图像的缩放比例，设置所述固定尺寸。

6.根据权利要求2所述的方法，其中，所述方法还包括：

过滤掉所述共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。

7.根据权利要求1所述的方法，其中，所述方法还包括：

通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一。

8.根据权利要求1所述的方法，其中，所述方法还包括：

按照所述阅读方向，对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段。

9.一种图像处理装置，包括：

输入模块，用于将图像输入至神经网络，所述图像包括第一字符信息；

第一处理模块，用于通过所述神经网络确定所述第一字符信息的阅读方向，其中，所述第一处理模块包括：

特征提取单元，用于对所述图像进行特征提取，得到共享特征组，所述共享特征组为从图像中提取的特征图，其中，通过从所述图像中采样，将横向和纵向各N个像素采样压缩到一个像素得到所述共享特征组，其中所述共享特征组的大小为所述图像的1/N²，N为大于1的整数；

第一分类单元，用于对所述共享特征组中每个位置是否为所述图像中的一个文本行候选区域的中心进行分类，获得属于所述文本行候选区域的中心的第一识别位置；以及

第二分类单元，用于对所述第一识别位置进行阅读方向分类，得到所述阅读方向；

以及

第二处理模块，用于基于所述阅读方向，通过所述神经网络将所述图像划分为一个或多个所述文本行候选区域，其中所述文本行候选区域用于识别所述第一字符信息，包括通过将所述第一识别位置还原到所述图像中所述阅读方向上的N个像素来定位所述文本行候选区域。

10.根据权利要求9所述的装置，其中，所述第一分类单元具体用于：

获得对所述共享特征组中每个位置的分类结果的置信度；

11.根据权利要求9所述的装置，其中，所述第二处理模块包括：

回归定位单元，用于基于所述共享特征组与所述图像的回归映射，获得所述文本行候选区域在所述图像中的定位信息；以及

划分单元，用于基于所述定位信息在所述图像中划分出所述文本行候选区域。

12.根据权利要求11所述的装置，其中，回归定位单元具体用于：

获得所述第一识别位置映射至所述图像中的第一坐标；

获得所述第一字符信息在垂直于所述阅读方向的第二尺寸；以及

13.根据权利要求12所述的装置，其中，所述设置所述第一字符信息在沿所述阅读方向的尺寸为固定尺寸包括：

14.根据权利要求10所述的装置，其中，所述第一处理模块还包括：

背景过滤单元，用于过滤掉所述共享特征组中的所述第二识别位置，以过滤掉所述图像中的背景区域。

15.根据权利要求9所述的装置，其中，所述装置还包括：

第三处理模块，用于通过非极大值抑制算法，过滤掉所述图像中面积重合程度达到重合阈值的两个所述文本行候选区域的其中之一。

16.根据权利要求9所述的装置，其中，所述装置还包括：

第四处理模块，用于按照所述阅读方向，对于所述图像中位置相邻的多个所述文本行候选区域进行组行或组段。

17.一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行根据权利要求1～8任意一项所述的方法。

18.一种计算设备，包括：

一个或多个存储器，存储有可执行指令；

一个或多个处理器，执行所述可执行指令，用以实现根据权利要求1～8任意一项所述的方法。