CN109726661A

CN109726661A - 图像处理方法及装置、介质和计算设备

Info

Publication number: CN109726661A
Application number: CN201811579380.3A
Authority: CN
Inventors: 王标; 林辉; 段亦涛
Original assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Current assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd; Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-05-07
Anticipated expiration: 2038-12-21
Also published as: CN109726661B

Abstract

本发明的实施方式提供了一种图像处理方法，包括将图像输入神经网络中，其中，图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；通过神经网络对图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；以及根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。通过神经网络对图像的候选区域进行分类和定位，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，使得显著地提高了识别图像中不同类型文本的识别效率，为用户带来了更好的体验。此外，本发明的实施方式还提供了一种图像处理装置、介质和计算设备。

Description

图像处理方法及装置、介质和计算设备

技术领域

本发明的实施方式涉及图像处理领域，更具体地，本发明的实施方式涉及图像处理方法及装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在图像中，一般可以包括不同类型的文本，例如，可以包括普通文字、数学公式和图表等。现有图像识别系统在识别不同类型的文本的时候，由于技术的限制，无法较快的识别出不同类型的文本，如普通文字和数学公式就很难识别，如何提高图像中不同类型文本的识别效率成为急需解决的问题。

发明内容

出于相关技术中识别技术的限制，现有技术中存在识别不同类型文本的效率低的问题。

为此，非常需要一种改进的图像处理方法及装置、介质和计算设备，以使提高识别图像中不同类型的文本的识别效率。

在本上下文中，本发明的实施方式期望提供一种图像处理方法及装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种图像处理方法，包括将图像输入神经网络中，其中，上述图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；通过上述神经网络对上述图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；以及根据上述每个候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

在本发明的一个实施例中，上述方法还包括确定上述一个或多个候选区域中类型信息为图像背景的候选区域；从所述一个或多个候选区域中滤除上述类型信息为图像背景的候选区域，得到一个或多个第一目标候选区域；以及根据上述一个或多个第一目标候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域。

在本发明的另一个实施例中，确定上述一个或多个候选区域中类型信息为图像背景的候选区域包括：确定上述一个或多个候选区域中每一候选区域的类型信息属于图像背景的置信度；以及将置信度大于或等于置信度阈值的候选区域确定为类型信息为图像背景的候选区域。

在本发明的又一个实施例中，上述方法还包括确定上述一个或多个候选区域中包含彼此重叠部分的第一候选区域和第二候选区域；确定上述第一候选区域为第二目标候选区域，并滤除上述第二候选区域；以及根据上述第二目标候选区域和与上述第二目标候选区域不包含重叠部分的候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域。

在本发明的再一个实施例中，根据上述每个候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域包括：根据上述每个候选区域的类型信息和位置信息确定位置相邻且类型相同的候选区域；以及将上述位置相邻且类型相同的候选区域组合为同一识别区域。

在本发明的再一个实施例中，在识别区域的类型信息为公式类型的情况下，将上述位置相邻且类型相同的候选区域组合为同一识别区域包括：根据上述识别区域中的候选区域的位置信息确定上述识别区域的左边界和右边界；以及根据上述识别区域的左边界和右边界确定上述识别区域。

在本发明的再一个实施例中，上述方法还包括在将图像输入神经网络中之前，对上述图像进行预处理，得到具有预定尺寸的目标图像；以及将图像输入神经网络中包括：将上述具有预定尺寸的目标图像输入上述神经网络中。

在本发明的再一个实施例中，通过上述神经网络对上述图像的一个或多个候选区域进行分类和定位包括：通过上述神经网络对上述图像进行特征提取，得到共享特征组；以及对上述共享特征组的一个或多个候选区域进行分类和定位。

在本发明的再一个实施例中，在将图像输入神经网络中之前，上述方法还包括训练得到上述神经网络，其中，训练过程包括：获取图像样本，其中，上述图像样本中的任一图像包括一个或多个标记区域，每个标记区域具有对应的类型信息，上述类型信息包括公式类型和/或普通文字类型；以及将上述图像样本中的图像输入到神经网络中，对上述神经网络进行训练。

在本发明实施方式的第二方面中，提供了一种图像处理装置，包括输入模块，用于将图像输入神经网络中，其中，上述图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；第一处理模块，用于通过上述神经网络对上述图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；以及第二处理模块，用于根据上述每个候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

在本发明的一个实施例中，上述装置还包括第一确定模块，用于确定上述一个或多个候选区域中类型信息为图像背景的候选区域；过滤模块，用于从所述一个或多个候选区域中滤除上述类型信息为图像背景的候选区域，得到一个或多个第一目标候选区域；以及上述第二处理模块还用于根据上述一个或多个第一目标候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域。

在本发明的又一个实施例中，上述第一确定模块包括第一确定单元，用于确定上述一个或多个候选区域中每一候选区域的类型信息属于图像背景的置信度；以及第二确定单元，用于将置信度大于或等于置信度阈值的候选区域确定为类型信息为图像背景的候选区域。

在本发明的再一个实施例中，上述装置还包括第二确定模块，用于确定上述一个或多个候选区域中包含彼此重叠部分的第一候选区域和第二候选区域；第三确定模块，用于确定上述第一候选区域为第二目标候选区域，并滤除上述第二候选区域；以及上述第二处理模块还用于根据上述第二目标候选区域和与上述第二目标候选区域不包含重叠部分的候选区域的类型信息和位置信息将上述图像划分为一个或多个识别区域。

在本发明的再一个实施例中，上述第二处理模块包括第三确定单元，用于根据上述每个候选区域的类型信息和位置信息确定位置相邻且类型相同的候选区域；以及组合单元，用于将上述位置相邻且类型相同的候选区域组合为同一识别区域。

在本发明的再一个实施例中，上述组合单元包括第一确定子单元，用于在识别区域的类型信息为公式类型的情况下，根据上述识别区域中的候选区域的位置信息确定上述识别区域的左边界和右边界；以及第二确定子单元，用于根据上述识别区域的左边界和右边界确定上述识别区域。

在本发明的再一个实施例中，上述装置还包括：第三处理模块，用于在将图像输入神经网络中之前，对上述图像进行预处理，得到具有预定尺寸的目标图像；以及上述输入模块用于将上述具有预定尺寸的目标图像输入上述神经网络中。

在本发明的再一个实施例中，上述第一处理模块包括：提取单元，用于通过上述神经网络对上述图像进行特征提取，得到共享特征组；以及分类定位单元，用于对上述共享特征组的一个或多个候选区域进行分类和定位。

在本发明的再一个实施例中，上述装置还包括训练模块，用于在将图像输入神经网络中之前，训练得到上述神经网络，其中，训练过程包括：获取图像样本，其中，上述图像样本中的任一图像包括一个或多个标记区域，每个标记区域具有对应的类型信息，上述类型信息包括公式类型和/或普通文字类型；以及将上述图像样本中的图像输入到神经网络中，对上述神经网络进行训练。

在本发明实施方式的第三方面中，提供了一种介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现如上所述的图像处理方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理单元；以及存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现如上所述的图像处理方法。

根据本发明实施方式的图像处理方法及装置、介质和计算设备，通过神经网络对图像的一个或多个候选区域进行分类和定位，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。由于将图像划分为一个或多个识别区域，在图像识别的时候，预先确定了识别区域的类型，可以针对性的采用相应技术对识别区域进行识别。例如，识别区域的类型为公式，可以采用识别公式的模块对公式区域进行识别，识别区域的类型为普通文字，可以采用识别普通文字的模块对普通文字区域进行识别，从而显著地提高了识别图像中不同类型的文本的识别效率，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景示意图；

图2示意性地示出了根据本发明实施例的图像处理方法的流程图；

图3示意性示出了根据本发明实施例的训练神经网络的流程图图；

图4示意性示出了根据本发明另一实施例的图像处理方法的流程图；

图5示意性地示出了根据本发明实施例的确定一个或多个候选区域中类型信息为图像背景的候选区域的流程图；

图6示意性示出了根据本发明另一实施例的图像处理方法的流程图；

图7示意性示出了根据本发明另一实施例的图像处理的流程图；

图8示意性地示出了根据本发明实施例的图像处理装置的框图；

图9示意性地示出了根据本发明另一实施例的图像处理装置的框图；

图10示意性地示出了根据本发明实施方式的用于实现图像处理方法的程序产品示意图；以及

图11示意性地示出了根据本发明实施例的用于实现图像处理方法的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像处理方法及装置、介质和计算设备。

在本文中，需要理解的是，所涉及的术语包括如下。

特征组表示用户输入的图像通过神经网络进行特征提取之后，获得的用于具体计算任务的特征图。

共享特征组表示不同的任务使用同一组特征图，以此节省计算网络计算开销。

行候选框表示把文本中的一行沿着竖直方向切成多部分，每一部分可以称之为一个行候选框，一个或多个行候选框可以视为一个候选区域。

组行操作表示由于文本中的一行可能包括多个行候选框，在确定了行候选框类别的情况下，直接得到的是某一行候选框的分类结果，那么某一行候选框的分类结果无法直接用来作为识别模块的输入，需要根据多个行候选框的位置信息和类别信息得到识别区域的区域范围和类别，即组行操作。

组段操作表示判定哪些行是属于同一段落，得到一整段的区域范围。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，在图像中一般可以包括不同类型的文本，例如，普通文字、数学公式、以及图表等。具体地，例如，在教育类产品中，用户输入图像往往包含了各科目公式。而现有图像识别系统无法利用同一个识别模块去识别不同类型的文本，如普通文字和数学公式就很难识别，如何提高图像中不同类型的文本的识别效率成为急需解决的问题。

基于以上分析，发明人构想到在调用识别模块识别图像中的文本的具体内容的时候，可以先分清哪些区域是文字，哪些区域是公式，或者哪些区域是图表等等。根据本发明的实施例，通过神经网络对图像的一个或多个候选区域进行分类和定位，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。由于将图像划分为一个或多个识别区域，在图像识别的时候，预先确定了识别区域的类型，可以针对性的采用相应技术对识别区域进行识别。例如，识别区域的类型为公式，可以采用识别公式的模块对公式区域进行识别，识别区域的类型为普通文字，可以采用识别普通文字的模块对普通文字区域进行识别，从而显著地提高了识别图像中不同类型的文本的识别效率，为用户带来了更好的体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的图像处理方法及其装置的应用场景。

图1示意性地示出了根据本发明实施方式的应用场景示意图。

如图1所示，在该图像中包括一文本，该文本中包括普通文字和数学公式。本发明可以将文本沿着竖直方向划分成多个部分，每一部分可以称之为一个行候选框，如图1示意地示出了两个行候选框，一个或多个行候选框可以视为一个候选区域。

根据本发明的实施例，每个行候选框可以具有相同的尺寸。为了能够将图像划分为一个或多个识别区域，需要确定行候选框的位置信息，本发明可以基于行候选框中心在图像中的坐标确定行候选框的位置信息。

如图1所示，行候选框中心的坐标为(x，y)，行候选框在图像中的坐标可以表示为(x，y，w，h，offset_left，offset_right)，其中，x对应行候选框中心的横坐标；y对应行候选框中心的纵坐标；w对应行候选框的宽度，具体地，可以根据网络结构，统一固定每一个行候选框的宽度为8；h对应行候选框的高度；offset_left对应公式文本类型的行候选框中心到该公式左边界的距离；offset_right对应公式文本类型的行候选框中心到该公式右边界的距离。需要说明的是，对于非公式文本，例如，对于普通文字文本而言，可以不确定普通文字文本区域的左边界和右边界，也即，对于普通文字文本而言，行候选框中心在图像中的坐标可以表示为(x，y，w，h)。

通过神经网络对图像的一个或多个候选区域进行分类和定位，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。例如，如图1中offset_left左边区域可以作为一个识别区域，offset_left和offset_right之间区域可以作为一个识别区域，offset_right右边区域可以作为一个识别区域。

由于将图像划分为一个或多个识别区域，在图像识别的时候，预先确定了识别区域的类型，可以针对性的采用相应技术对识别区域进行识别。例如，识别区域的类型为公式，可以采用识别公式的模块对公式区域进行识别，识别区域的类型为普通文字，可以采用识别普通文字的模块对普通文字区域进行识别，从而显著地提高了识别图像中不同类型的文本的识别效率，为用户带来了更好的体验。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的图像处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施例的图像处理方法的流程图。

如图2所示，根据本发明实施例的图像处理方法包括操作S201～操作S203。

在操作S201，将图像输入神经网络中，其中，图像包括一个或多个候选区域，每个候选区域具有对应的类型信息。

根据本发明的实施例，可以采用图1中所述的方法将图像划分为一个或多个行候选框，一个或多个行候选框可以视为一个候选区域，例如，一个行候选框可以作为一个候选区域，每个候选区域具有相应的坐标。候选区域的类型种类包括但不限于普通文字、公式、表格、背景等。例如，某一图像被划分为3个候选区域，候选区域1的类型为普通文字，候选区域2的类型为公式，候选区域3的类型为表格。

根据本发明的实施例，在将图像输入神经网络中之前，可以对图像进行预处理，得到具有预定尺寸的目标图像，然后将具有预定尺寸的目标图像输入神经网络中。根据本发明的实施例，可以将图像尺寸改变为神经网络处理时所需的图像尺寸，如处理时所需要的图像尺寸为512x512，同时，在对图像进行预处理时还可以减去各通道的指定均值。

在操作S202，通过神经网络对图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息。

根据本发明的实施例，神经网络在对图像的一个或多个候选区域进行分类和定位时，可以先对图像进行特征提取，得到共享特征组，然后对共享特征组的一个或多个候选区域进行分类和定位。

根据本发明的实施例，共享特征组表示神经网络执行不同的任务时使用的同一组特征图，其中，神经网络执行的任务可以包括但不限于：将候选区域分成文本候选区域和背景候选区域的分类任务、将候选区域分成普通文字候选区域和公式候选区域的分类任务、候选区域的定位任务等等。通过神经网络处理共享特征组可以节省计算机网络的计算开销。

根据本发明的实施例，本发明所采用的神经网络可以是预先训练得到的，训练过程可以包括先获取图像样本，其中，图像样本中的任一图像包括一个或多个标记区域，每个标记区域具有对应的类型信息，类型信息包括公式类型和/或普通文字类型；然后将图像样本中的图像输入到神经网络中，对神经网络进行训练。

图3示意性示出了根据本发明实施例的训练神经网络的流程图。

如图3所示，将用户输入的尺寸为512x512的图像经过多层卷积神经网络处理并进行下采样，得到第一阶段输出的尺寸为256x256的特征图，然后将256x256的特征图再经过多层卷积神经网络处理并进行下采样，得到第二阶段输出的尺寸为128x128的特征图，以此类推，可以得到尺寸为64x64的特征图、32x32的特征图、16x16的特征图。然后对尺寸为16x16的特征图进行反卷积操作，通过上采样的方式，输出尺寸为32x32的特征图。对尺寸为32x32的特征图进行反卷积操作，通过上采样的方式，输出尺寸为64x64的特征图。将下采样得到的尺寸为64x64的特征图与上采样得到的尺寸为64x64的特征图进行特征融合，输出尺寸为64x64的特征图，作为任务共享特征组。共享特征组可以包括一个或多个标记区域，每个标记区域具有对应的类型信息，类型信息包括公式类型、普通文字类型、背景类型等等。

根据本发明的实施例，可以对共享特征组执行不同的任务，执行的任务包括但不限于：文本与背景分类任务、普通文字或公式文本分类任务、文本行候选框定位任务、公式文本行候选框边界偏移计算任务。

其中，文本与背景分类任务的处理过程可以是先计算某一个行候选框中心落在特定大小的共享特征组上的某一个位置所对应的原图区域中的置信度，通过设置置信度阈值得到分类结果，从而可以判断该行候选框中心所对应的位置在背景区域还是在文本区域。普通文字或公式文本分类任务的处理过程可以是在特定大小的共享特征组上的每一个位置进行文本行候选框类别分类任务计算，得到分类结果，判定中心点落在该位置的文本行候选框的类别(普通或者公式)。文本行候选框定位任务的处理过程可以是在特定大小的共享特征组上的每一个位置执行文本行候选框位置的回归任务，计算得到的文本行候选框位置为(x，y，w，h)。公式文本行候选框边界偏移计算任务的处理过程可以是在特定大小的共享特征组上的每一个公式文本行位置执行边界偏移量的回归任务，计算得到的公式文本行候选框对于公式边界的偏移量为(offset_left，offset_right)。

根据本发明的实施例，神经网络通过处理大量的图像样本，并执行不同的任务，可以适应调整每一层网络的参数，进而达到具备确定每个候选区域的类型信息和位置信息的能力。

在操作S203，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

根据本发明的实施例，每个识别区域具有一种类型，例如多个类型为公式的候选区域组合为一个识别区域，组合方式可以采用组行操作和组段操作。

根据本发明的实施例，可以根据每个候选区域的类型信息和位置信息确定位置相邻且类型相同的候选区域，然后将位置相邻且类型相同的候选区域组合为同一识别区域。

例如，图像中的某一行包含4个候选区域，从左到右依次为候选区域1、候选区域2、候选区域3、候选区域4。每个候选区域的类型依次为普通文字、公式、公式、普通文字。由于候选区域2和候选区域3的类型都是公式，且位置相邻，因此，可以将候选区域2和候选区域3组合为同一识别区域，而候选区域1和候选区域4虽然类型相同，但是位置不相邻，因此为不同的识别区域。

根据本发明的实施例，可以根据候选区域的位置信息确定候选区域之间位置上是否相邻。例如，参考图1中行候选框中心在图像中的坐标(x，y，w，h，offset_left，offset_right)或者(x，y，w，h)确定候选区域之间位置上是否相邻。

通过本发明的实施例，将位置相邻且类型相同的候选区域组合为同一识别区域，可以提高图像识别效率。

根据本发明的实施例，在识别区域的类型信息为公式类型的情况下，将位置相邻且类型相同的候选区域组合为同一识别区域包括根据识别区域中的候选区域的位置信息确定识别区域的左边界和右边界，然后根据识别区域的左边界和右边界确定识别区域。

根据本发明的实施例，如图1所示，在识别区域的类型信息为公式类型的情况下，需要确定公式的左边界和右边界。通过对每一个公式文本行位置执行边界偏移量的回归任务，计算得到公式文本行候选框中关于公式边界的偏移量(offset_left，offset_right)。根据左边界和右边界可以较精确地确定公式区域的边界。

通过本发明的实施例，通过神经网络对图像的一个或多个候选区域进行分类和定位，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。由于将图像划分为一个或多个识别区域，在图像识别的时候，预先确定了识别区域的类型，可以针对性的采用相应技术对识别区域进行识别。例如，识别区域的类型为公式，可以采用识别公式的模块对公式区域进行识别，识别区域的类型为普通文字，可以采用识别普通文字的模块对普通文字区域进行识别，从而显著地提高了识别图像中不同类型的文本的识别效率，为用户带来了更好的体验。

下面参考图4～图8，结合具体实施例对图2所示的方法做进一步说明。

图4示意性示出了根据本发明另一实施例的图像处理方法的流程图。在该实施例中，除了包括上文参考图2描述的操作S201～S203之外，还包括操作S204～S206。为了描述的简洁起见，这里省略对操作S201～S203的描述。

如图4所示，图像处理方法还包括操作S204～S206。

在操作S204，确定一个或多个候选区域中类型信息为图像背景的候选区域。

根据本发明的实施例，图像的多个候选区域的类型信息可能包括普通文字，公式，背景等等。图像背景的种类不作限定，例如可以是图像模板中存在的内容，或是图像的非正文部分，如页眉页脚等等。在一般情况下，图像背景是不需要识别模块去识别图像背景的具体内容的，在识别普通文字或者公式等候选区域之前，可以先确定类型信息为图像背景的候选区域，并将其进行过滤。

图5示意性地示出了根据本发明实施例的确定一个或多个候选区域中类型信息为图像背景的候选区域的流程图。

如图5所示，根据本发明实施例的确定一个或多个候选区域中类型信息为图像背景的候选区域包括操作S2041～操作S2042。

在操作S2041，确定一个或多个候选区域中每一候选区域的类型信息属于图像背景的置信度。

根据本发明的实施例，可以通过计算每一候选区域的中心落在特定大小的共享特征组上的某一个位置对应到原图的图像背景区域中的概率作为置信度。

通过设置置信度阈值，如果某一结果的置信度大于或等于置信度阈值则判定为图像背景，小于置信度阈值则判定为文本候选区域。例如，置信度阈值设置为0.5，某一候选区域的置信度为0.8，那么可以确定候选区域的类型信息为图像背景。

在操作S2042，将置信度大于或等于置信度阈值的候选区域确定为类型信息为图像背景的候选区域。

在操作S205，从所述一个或多个候选区域中滤除类型信息为图像背景的候选区域，得到一个或多个第一目标候选区域。

根据本发明的实施例，由于一个或多个第一目标候选区域的类型不包括图像背景，因此，相比于过滤之前图像的候选区域的数量，在过滤类型为图像背景的候选区域之后，降低了需要识别的候选区域的数量。

在操作S206，根据一个或多个第一目标候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。

通过本发明的实施例，通过过滤掉图片背景的候选区域，可以降低计算设备的计算量，节约了计算资源，从而提高了识别效率。

图6示意性示出了根据本发明另一实施例的图像处理方法的流程图。在该实施例中，除了包括上文参考图2描述的操作S201～S203之外，还包括操作S207～S209。为了描述的简洁起见，这里省略对操作S201～S203的描述。

如图6所示，图像处理方法还包括操作S207～S209。

在操作S207，确定一个或多个候选区域中包含彼此重叠部分的第一候选区域和第二候选区域。

根据本发明的实施例，可以根据候选区域的位置信息确定候选区域之间是否包含重叠部分，位置信息的定义可以参考图1中的描述，在此不再赘述。例如，第一候选区域的位置信息为(3，4，8，8)，第二候选区域的位置信息为(6，4，8，8)。可见，第一候选区域和第二候选区域的纵坐标相同，横坐标相差3，也即，第一候选区域的中心和第二候选区域的中心距离相差3，宽度和高度相同，在第一候选区域和第二候选区域的宽度都为8的情况下，那么第一候选区域和第二候选区域之间包含重叠部分。

在操作S208，确定第一候选区域为第二目标候选区域，并滤除第二候选区域。

根据本发明的实施例，第一候选区域与第二候选区域的数量不做限定，例如，可以包括2个第一候选区域和2个第二候选区域。具体地，例如，存在4个包含重叠部分的候选区域，本发明可以从这4个包含重叠部分的候选区域中确定2个第一候选区域，将确定出的2个第一候选区域作为第二目标候选区域，并从4个包含重叠部分的候选区域中滤除除第二目标候选区域之外的其它候选区域，即滤除2个第二候选区域。

根据本发明的实施例，从包含重叠部分的候选区域中确定出多个第二目标候选区域，其中，确定的方式可以包括多种，例如，可以随机选择，可以按照位置信息选择相距较远的候选区域，或者选择重叠部分最少的候选区域。通过上述方式，过滤冗余候选区域，可以减少候选区域的数量。

在操作S209，根据第二目标候选区域和与第二目标候选区域不包含重叠部分的候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。

根据本发明的实施例，通过过滤掉重合度较大的冗余候选区域，可以降低计算量。

根据本发明的实施例，本领域技术人员可以理解的是，本发明实施例所提供的操作S207～S209也可以与图4中的操作S204～S206进行组合。

例如，图7示意性示出了根据本发明另一实施例的图像处理的流程图。

如图7所示，在输入图像后，可以对图像进行预处理。然后将预处理后得到的图像输入深层神经网络，深层神经网络可以执行文本和背景分类任务、文本候选区域类型分类任务、文本候选区域定位任务。之后对各个候选区域进行过滤，如背景类型候选区域过滤，冗余候选区域过滤。然后进行组合操作，对于公式类型的候选区域，还要计算公式边界。最后输出公式、普通文字等识别区域的检测结果。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的图像处理装置进行描述。

图8示意性地示出了根据本发明实施例的图像处理装置的框图。

如图8所示，图像处理装置300包括输入模块301、第一处理模块302和第二处理模块303。

输入模块301用于将图像输入神经网络中，其中，图像包括一个或多个候选区域，每个候选区域具有对应的类型信息。

第一处理模块302用于通过神经网络对图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息。

第二处理模块303用于根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

图9示意性地示出了根据本发明另一实施例的图像处理装置的框图。

如图9所示，图像处理装置300还包括第一确定模块304和过滤模块305。第一确定模块304用于确定一个或多个候选区域中类型信息为图像背景的候选区域。过滤模块305用于过滤类型信息为图像背景的候选区域，得到一个或多个第一目标候选区域。第二处理模块303还用于根据一个或多个第一目标候选区域的类型信息和位置信息将图像划分为一个或多个识别区域。

根据本发明的实施例，第一确定模块304包括第一确定单元和第二确定单元。第一确定单元用于确定一个或多个候选区域中每一候选区域的类型信息属于图像背景的置信度。第二确定单元用于将置信度大于或等于置信度阈值的候选区域确定为类型信息为图像背景的候选区域。

如图9所示，根据本发明的实施例，图像处理装置300还包括第二确定模块306和第三确定模块307。第二确定模块306用于确定所述一个或多个候选区域中包含彼此重叠部分的第一候选区域和第二候选区域。第三确定模块307用于确定所述第一候选区域为第二目标候选区域，并滤除所述第二候选区域。第二处理模块303还用于根据所述第二目标候选区域和与所述第二目标候选区域不包含重叠部分的候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域。

根据本发明的实施例，第二处理模块303包括第三确定单元和组合单元。第三确定单元用于根据每个候选区域的类型信息和位置信息确定位置相邻且类型相同的候选区域。组合单元用于将位置相邻且类型相同的候选区域组合为同一识别区域。

根据本发明的实施例，组合单元包括第一确定子单元和第二确定子单元。第一确定子单元用于在识别区域的类型信息为公式类型的情况下，根据识别区域中的候选区域的位置信息确定识别区域的左边界和右边界。第二确定子单元用于根据识别区域的左边界和右边界确定识别区域。

如图9所示，根据本发明的实施例，图像处理装置300还包括第三处理模块308，用于在将图像输入神经网络中之前，对图像进行预处理，得到具有预定尺寸的目标图像。输入模块301还用于将具有预定尺寸的目标图像输入神经网络中。

根据本发明的实施例，第一处理模块302包括提取单元和分类定位单元。提取单元用于通过神经网络对图像进行特征提取，得到共享特征组。分类定位单元用于对共享特征组的一个或多个候选区域进行分类和定位。

如图9所示，根据本发明的实施例，图像处理装置300还包括训练模块309，用于在将图像输入神经网络中之前，训练得到神经网络，其中，训练过程包括获取图像样本，其中，图像样本中的任一图像包括一个或多个标记区域，每个标记区域具有对应的类型信息，类型信息包括公式类型和/或普通文字类型；将图像样本中的图像输入到神经网络中，对神经网络进行训练。

需要说明的是，本公开实施例中的图像处理装置部分与本公开实施例中的图像处理方法部分是相对应的，图像处理装置部分的描述具体可参考图像处理方法部分，在此不再赘述。

示例性介质

在介绍了本发明示例性实施方式的装置之后，接下来，参考图10对本发明示例性实施方式的、用于存储计算机可执行指令，该指令在被处理单元执行时用于实现图2至图7中的图像处理方法的介质进行描述。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作，例如，所述计算设备可以执行如图2中所示的操作S201，将图像输入神经网络中，其中，图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；操作S202，通过神经网络对图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；操作S203，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

图10示意性地示出了根据本发明实施方式的用于实现图像处理方法的程序产品示意图。

如图10所示，描述了根据本发明的实施方式的用于图像处理的程序产品40，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图11对本发明示例性实施方式的计算设备进行描述，该计算设备包括处理单元和存储单元，存储单元存储有计算机可执行指令，上述指令在被上述处理单元执行时用于实现图2至图7中的图像处理方法。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作。例如，所述处理单元可以执行如图2中所示的图像处理方法中的操作S201，将图像输入神经网络中，其中，图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；操作S202，通过神经网络对图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；操作S203，根据每个候选区域的类型信息和位置信息将图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

下面参照图11来描述根据本发明的这种实施方式的用于图像处理的计算设备50。如图11所示的计算设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于：上述至少一个处理单元501、上述至少一个存储单元502、连接不同系统组件(包括存储单元502和处理单元501)的总线503。

总线503包括数据总线、地址总线和控制总线。

存储单元502可以包括易失性存储器，例如随机存取存储器(RAM)5021和/或高速缓存存储器5022，还可以进一步包括只读存储器(ROM)5023。

存储单元502还可以包括具有一组(至少一个)程序模块5024的程序/实用工具5025，这样的程序模块5024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备50也可以与一个或多个外部设备504(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口505进行。并且，计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器506通过总线503与计算设备50的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像处理方法，包括：

将图像输入神经网络中，其中，所述图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；

通过所述神经网络对所述图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；以及

根据所述每个候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

2.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述一个或多个候选区域中类型信息为图像背景的候选区域；

从所述一个或多个候选区域中滤除所述类型信息为图像背景的候选区域，得到一个或多个第一目标候选区域；以及

根据所述一个或多个第一目标候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域。

3.根据权利要求2所述的方法，其中，确定所述一个或多个候选区域中类型信息为图像背景的候选区域包括：

确定所述一个或多个候选区域中每一候选区域的类型信息属于图像背景的置信度；以及

将置信度大于或等于置信度阈值的候选区域确定为类型信息为图像背景的候选区域。

4.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述一个或多个候选区域中包含彼此重叠部分的第一候选区域和第二候选区域；

确定所述第一候选区域为第二目标候选区域，并滤除所述第二候选区域；以及

根据所述第二目标候选区域和与所述第二目标候选区域不包含重叠部分的候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域。

5.根据权利要求1所述的方法，其中，根据所述每个候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域包括：

根据所述每个候选区域的类型信息和位置信息确定位置相邻且类型相同的候选区域；以及

将所述位置相邻且类型相同的候选区域组合为同一识别区域。

6.根据权利要求5所述的方法，其中，在识别区域的类型信息为公式类型的情况下，将所述位置相邻且类型相同的候选区域组合为同一识别区域包括：

根据所述识别区域中的候选区域的位置信息确定所述识别区域的左边界和右边界；以及

根据所述识别区域的左边界和右边界确定所述识别区域。

7.根据权利要求1所述的方法，其中，所述方法还包括：

在将图像输入神经网络中之前，对所述图像进行预处理，得到具有预定尺寸的目标图像；以及

将图像输入神经网络中包括：将所述具有预定尺寸的目标图像输入所述神经网络中。

8.一种图像处理装置，包括：

输入模块，用于将图像输入神经网络中，其中，所述图像包括一个或多个候选区域，每个候选区域具有对应的类型信息；

第一处理模块，用于通过所述神经网络对所述图像的一个或多个候选区域进行分类和定位，输出每个候选区域的类型信息和位置信息；以及

第二处理模块，用于根据所述每个候选区域的类型信息和位置信息将所述图像划分为一个或多个识别区域，其中，每个识别区域包括一个或多个相同类型的候选区域。

9.一种介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现权利要求1至7中任一项所述的图像处理方法。

10.一种计算设备，包括：

处理单元；以及

存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现权利要求1至7中任一项所述的图像处理方法。