CN109977956A

CN109977956A - 一种图像处理方法、装置、电子设备以及存储介质

Info

Publication number: CN109977956A
Application number: CN201910356240.8A
Authority: CN
Inventors: 徐培; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-07-05
Anticipated expiration: 2039-04-29
Also published as: US20210271917A1; US11741688B2; WO2020221013A1; CN109977956B

Abstract

本发明实施例公开了一种图像处理方法、装置、电子设备以及存储介质，方法包括：获取包含文本对象的目标图像，确定所述文本对象在所述目标图像中的候选区域；获取所述候选区域的候选区域特征信息，根据所述候选区域特征信息生成初始掩模；将所述初始掩模还原为目标二值掩模，并确定所述目标二值掩模中的掩模联通区域，根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域。采用本发明，可以提高识别图像中文本位置的效率。

Description

一种图像处理方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像处理方法、装置以及电子设备。

背景技术

随着技术的发展，获得图像的方式越来越多样，录影机、相机、手机等设备可以以图像的方式记录生活中的方方面面。而图像中的文字信息可以反映图像的内容，因此识别图像中的文本的位置信息，对后续图像分割、图像检索等具有重要的意义。

现有的识别图像中文本的位置信息是通过人工识别，即由人工对图像中的文本位置进行判别、标注，后续再根据人工判别的结果对该图像进行图像分割，或者图像理解。

人工识别图像中的文本的位置信息需要经历人工判别、人工标注等过程，会耗费大量的时间，造成识别图像中的文本位置的效率低下。

发明内容

本发明实施例提供一种图像处理方法、装置、电子设备以及存储介质，可以提高识别图像中文本位置的效率。

本发明实施例一方面提供了一种图像处理方法，包括：

获取包含文本对象的目标图像，确定所述文本对象在所述目标图像中的候选区域；

获取所述候选区域的候选区域特征信息，根据所述候选区域特征信息生成初始掩模；

将所述初始掩模还原为目标二值掩模，并确定所述目标二值掩模中的掩模联通区域，根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域。

本发明实施例另一方面提供了一种图像处理装置，包括：

图像获取模块，用于获取包含文本对象的目标图像；

候选区域确定模块，用于确定所述文本对象在所述目标图像中的候选区域；

特征获取模块，还用于获取所述候选区域的候选区域特征信息；

识别模块，用于根据所述候选区域特征信息生成初始掩模；

还原模块，用于将所述初始掩模还原为目标二值掩模；

联通区域确定模块，用于确定所述目标二值掩模中的掩模联通区域；

目标区域确定模块，用于根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域。

本发明实施例另一方面提供了一种电子设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例确定文本对象在目标图像中的候选区域，获取候选区域的区域特征信息，根据该区域特征信息生成初始掩模，并将该初始掩模还原为目标二值掩模，确定目标二值掩模中的掩模联通区域，根据掩模联通区域在目标图像中确定与文本对象相关联的文本图像区域。上述可知，通过自动化的方式识别图像中文本所在的位置以及关键词所在的位置，相比人工识别，可以提高识别文本位置以及关键词位置的效率；进步一地，在同一个框架下同时完成识别文本位置以及关键词位置的任务，可以节约计算资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像处理的系统架构图；

图2a-图2b是本发明实施例提供的一种图像处理的场景示意图；

图3是本发明实施例提供的一种图像处理方法的流程示意图；

图4是本发明实施例提供的一种确定卷积特征信息的示意图；

图5是本发明实施例提供的一种生成初始掩模的示意图；

图6是本发明实施例提供的一种确定文本图像区域的示意图；

图7是本发明实施例提供的一种确定文本背景二值掩模的示意图；

图8是本发明实施例提供的一种图像处理的结构示意图；

图9是本发明实施例提供的另一种图像处理方法的流程示意图；

图10是本发明实施例提供的收缩策略示意图；

图11是本发明实施例提供的一种图像处理装置的结构示意图；

图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种图像处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接，用户终端集群可以包括：用户终端10a、用户终端10b、...、用户终端10c。

以用户终端10a为例，当用户终端10a接收到包含文本以及关键词的文本图像时，将上述文本图像通过交换机10e和通信总线10d至发送服务器10f。服务器10f可以识别该文本在文本图像中的位置区域，以及识别该该关键词在文本图像的位置区域。服务器可以将识别到的结果发送至用户终端10a，后续用户终端10a可以在屏幕上显示文本图像，并在屏幕上的文本图像中标记出文本所在的位置区域，以及关键词所在的位置区域。

当然，也可以由用户终端10a识别文本图像中文本的位置区域，以及识别关键词所在的位置区域，同样地可以在屏幕上显示文本图像，并在屏幕上的文本图像中标记出文本所在的位置区域，以及关键词所在的位置区域。

下述以用户终端10a如何识别文本在图像中的位置区域，以及识别关键字在文本中的位置区域为例进行具体的说明。其中，图1所示的用户终端10a、用户终端10b、用户终端10c等可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobileinternet device)、可穿戴设备(例如智能手表、智能手环等)等。

请参见图2a-图2b，是本发明实施例提供的一种图像处理的场景示意图。如图2a中的界面20a所示，用户终端10a获取待识别的图像20b，其中图像20b中包含文本“新华字典”。用户终端10a将图像20b输入区域提取网络，基于区域提取网络，可以提取图像20b的卷积特征信息，按照预设的尺寸和长宽比，从图像20b的卷积特征信息中提取多个单位卷积特征信息，例如，单位卷积特征信息的尺寸为4×4×256，长宽比为1:1；或者单位卷积特征信息的尺寸为8×16×256，长宽比为1:2。

下述以从图像20b的卷积特征信息中提取2个单位卷积特征信息(单位卷积特征信息1以及单位卷积特征信息2)为例进行说明。基于区域提取网络中的池化层分别对单位卷积特征信息1和单位卷积特征信息2进行池化，依次得到池化特征信息20c与池化特征信息20d。

基于区域提取网络中的分类器，可以识别与池化特征信息20c对应的前景系数，基于区域提取网络中的回归器，可以识别与池化特征信息20c对应的偏移系数。需要说明的，每个池化特征信息都可以对应于图像20b中的一个区域，且池化特征信息的尺寸是要大于对应图像20b中区域的尺寸，前述中的前景系数是用于标识对应区域中包含文本的概率，偏移系数是用于标识对应区域的偏移量(或者可以理解为区域的调整量)。

如图2a所示，根据池化特征信息20c与图像20b之间的映射关系，以及池化特征信息20c对应的偏移系数，可以在图像20b中确定对应的区域20e。同样地，基于区域提取网络中的分类器以及回归器可以确定池化特征信息20d的前景系数和偏移系数，同样根据池化特征信息20d与图像20b之间的映射关系，以及池化特征信息20d对应的偏移系数，可以在图像20b中确定对应的区域20f。

可以知道，每个池化特征信息在图像20b中都存在与之对应的区域，该区域可以看做是文本“新华字典”在图像20b中的兴趣区域，由于多个兴趣区域之间存在重叠部分，因此还需要从多个兴趣区域中选择出最佳的候选区域。

对区域20e和区域20f来说，可以根据NMS(Non Maximum Suppression，非极大值抑制)、区域20e的前景系数、区域20f的前景系数，以及区域20e和区域20f之间的重叠面积，从区域20e和区域20f中选择区域20f作为候选区域。

用户终端10a将选择出来的候选区域(即是区域20f)的池化特征信息20d输入文本检测网络，文本检测网络可以输出2个类别的文本掩模，其中一个类别为文本背景类别，另一个类别为文本类别。用户终端10a根据上述两个文本掩模可以确定文本“新华字典”在图像20b中的位置区域20p，并将该位置区域20p以实线矩形框的形式在图像20b中标记出来。

用户终端10a将选择出来的候选区域(即是区域20f)的池化特征信息20d输入关键词检测网络，关键词检测网络可以输出k+1个类别的关键词掩模，其中一个类别为关键词背景类别，另外k个类别对应k个预设关键词(例如，关键词“字典”，关键词“手机”...)。用户终端10a根据上述k+1个关键词掩模，可以确定文本“新华字典”中的关键词“字典”在图像20b中的位置区域20q，并将该位置区域20q以虚线矩形框的形式在图像20b中标记出来。

位置区域20p以及位置区域20q不仅可以采用实线矩形框、虚线矩形框在图像中标记出来，还可以采用不同的粗细线条的矩形框，或者不同颜色的矩形框在图像20b中标记出来，这样可以在图像20b中区分区域20p和区域20q。

用户终端10a确定了文本“新华字典”中的关键词在图像20b中的位置区域后，根据该位置区域，计算k个关键词中每个关键词的置信度，将最大置信度0.85对应的关键词“字典”作为区域20q中所包含的关键词，可以将关键词“字典”以及最大置信度0.85标记在图像20b中。

如图2a所示，可以得到使用矩形框标记了文本“新华字典”的位置区域、使用矩形框标记了关键词“字典”的位置区域、标记了关键词“字典”以及对应置信度0.85的图像20h。

如图2b中的界面20x所示，用户终端10a在识别图像20b的过程中，可以在屏幕上播放预设的动画。当检测到图像20b识别完毕时，如界面20y所示，停止播放动画，将位置标记后的图像20h显示在屏幕上。

其中，提取第一池化特征信息(如上述实施例中的池化特征信息20c与池化特征信息20d)，识别文本在图像中的位置信息以及识别关键词在图像中的位置信息的具体过程可以参见下述图3-图10对应的实施例。

请参见图3，是本发明实施例提供的一种图像处理方法的流程示意图，如图3所示，图像处理方法可以包括：

步骤S101，获取包含文本对象的目标图像，确定所述文本对象在所述目标图像中的候选区域。

具体的，终端设备(如上述图2a对应实施例中的用户终端10a)获取待识别的图像，称为目标图像(如上述图2a对应实施例中的图像20b)，其中目标图像中包含文本对象(如上述图2a对应实施例中的文本“新华字典”)，且文本对象中包括关键词，文本对象可以是文本信息。

终端设备获取目标特征金字塔网络(Feature Pyramid Networks，FPN)，该目标特征金字塔网络是用于从目标图像中提取多个尺寸(或者说是多个层次、多个尺度)的特征信息，以解决文本检测中的多尺度问题。目标特征金字塔网络包括多个卷积层，每个卷积层可以提取不同数据尺寸的卷积特征信息(如上述图2a对应实施例中的卷积特征信息)。

下述以第一卷积层和第二卷积层为例来进行说明，其中在目标特征金字塔网络中，位于最上方的是第二卷积层，其余的是第一卷积层，换句话说，第一卷积层提取到的卷积特征信息的数据尺寸是大于第二卷积层提取到的卷积特征信息的数据尺寸。

当目标特征金字塔网络中包含多个卷积层时，首先将位于目标特征金字塔网络中最顶层卷积层的作为第二卷积层，将剩余的卷积层都作为第一卷积层；然后再从第一卷积层中提取位于目标特征金字塔网络最上方的卷积层作为新的第二卷积层，再将剩余的卷积层的作为新的第一卷积层，以此类推，直到所有的卷积层都参与了运算。

下面对第一卷积层和第二卷积层分别提取不同尺寸的卷积特征信息进行详细说明：基于目标特征金字塔网络中的第一卷积层，对目标图像进行卷积运算，得到的特征信息称为第一原始特征信息，第一原始特征信息也可以看做是多个特征图(feature map)。

每个卷积层对应1个或者多个卷积核(kernel，也可以称为滤波器，或者称为感受野)，卷积运算是指卷积核与位于输入数据不同位置的子数据进行矩阵乘法运算，每一个卷积层的输出数据的通道数是由该卷积层中的卷积核的数量决定的，且输出数据(即是特征图)的高度H_out和宽度W_out是由输入数据的尺寸、卷积核的尺寸、步长(stride)以及边界填充(padding)共同决定的，即H_out＝(H_in-H_kernel+2*padding)/stride+1，W_out＝(W_in-W_kernel+2*padding)/stride+1。H_in,H_kernel分别表示输入数据的高度和卷积核的高度；W_in,W_kernel分别表示输入数据的宽度和卷积核的宽度。

基于目标特征金字塔网络中的第二卷积层，对上述第一原始特征信息进行卷积运算，得到的特征信息称为第二原始特征信息，随着卷积运算的次数增多，得到的特征信息的数据尺寸在不断减少，特征信息的通道数在不断增加。

请参见图4，是本发明实施例提供的一种确定卷积特征信息的示意图。如图4所示，目标图像C1的尺寸为(H,W,3)，经过第一卷积层的卷积运算后，得到的第一原始特征信息C2的尺寸为即是第一原始特征信息C2的数据尺寸为数据通道数为256；第一原始特征信息C2经过第二卷积层的卷积运算后，得到的第二原始特征信息C3的尺寸为

调整第一原始特征信息的数据通道数，得到第一转换特征信息；调整第二原始特征信息的数据通道数，得到第二转换特征信息，其中第一转换特征信息和第二转换特征信息具有相同的数据通道数，且该数据通道数就等于位于目标金字塔网络中最低卷积层所确定的原始特征信息的数据通道数。调整特征信息的数据通道数是为了后续可以将不同卷积层提取的特征信息进行叠加。

需要说明的是，调整数据通道数同样是通过卷积运算来调整的，此时的卷积核尺寸为1×1，且卷积核的数量等于位于目标金字塔网络中最低卷积层所确定的原始特征信息的数据通道数。这样调整后，可以保证每个层的特征信息(或者是特征图)的数据尺寸没有变化，但数据通道数相同。

对第二转换特征信息进行上采样，得到第三转换特征信息，上采样可以采用插值的方式，也可以采用反卷积的方式，第三转换特征信息的数据尺寸等于第一转换特征信息的数据尺寸。终端设备将第三转换特征信息与第一转换特征信息叠加为第四转换特征信息，可以知道，第四转换特征信息是由高层的特征信息(第二转换特征信息)和底层的特征信息(第一转换特征信息)结合而来。

终端设备将第四转换特征信息作为第一卷积特征信息，将第二转换特征信息作为第二卷积特征信息，第一卷积特征信息和第二卷积特征信息可以组合为目标图像的层次卷积特征信息，且第一卷积特征信息对应第一尺寸，第二卷积特征信息对应第二尺寸，可以知道第一尺寸是大于第二尺寸的，尺度越小，对应的特征信息的数据尺寸越大(即是特征图的高和宽越大)。

仍以图4例，调整第一原始特征信息的数据通道数，得到第一转换特征信息调整第二原始特征信息的数据通道数，得到第二转换特征信息由于此处只有2个原始特征信息，那么在2个原始特征信息中，具有较低数据通道数的第一原始特征信息的数据通道数256不变，具有较高数据通道数的第二原始特征信息的数据通道数由512调整为与256。

可以将第二转换特征信息作为第二卷积特征信息对第二转换特征信息上采样，得到第三转换特征信息将第三转换特征信息与第一转换特征信息叠加为第四转换特征信息M2(M2＝I2+2I3)，第四转换特征信息M2的尺寸为且可以将第四转换特征信息作为第一卷积特征信息。

总的说来，基于目标特征金字塔网络，可以提取不同层次、不同尺寸、不同尺度的卷积特征信息。每一层的特征信息feature map都融合了不同分辨率、不同语义强度的特征，这样保证了每一层都有合适的分辨率以及强语义特征。同时，由于此方法只是在CNN(卷积神经网络，Convolutional Neural Networks,CNN)基础上加上了额外的跨层连接(即是前述中的叠加步骤)，几乎不增加额外的时间和计算量。

基于目标候选区域提取网络(Region Proposal Network，RPN)从第一卷积特征信息中确定兴趣区域(ROI，Region Of Interest)，作为第一兴趣区域；基于目标候选区域提取网络从第二卷积特征信息中确定兴趣区域，作为第二兴趣区域，即是基于目标候选区域提取网络在不同层次对应的卷积特征信息上分别确定兴趣区域。需要说明的是，第一兴趣区域与第二兴趣区域指示的是目标图像中的区域。

目标候选区域提取网络包括卷积层、池化层、分类器和回归器，其中卷积层是用于提取区域卷积特征信息；池化层是用于将区域卷积特征信息池化至相同尺寸；分类器是用于识别池化后的区域卷积特征信息对应的图像区域中包含文本的概率；回归器是用于调整池化后的区域卷积特征信息对应的图像区域。

下面以目标候选区域提取网络从第一卷积特征信息中确定第一兴趣区域为例进行详细的说明，同样可以基于该目标候选区域提取网络从第二卷积特征信息中确定第二兴趣区域。

基于目标候选区域提取网络中的卷积层，对第一卷积特征信息再进行卷积运算，得到的特征信息称为区域卷积特征信息。区域卷积特征信息也是特征图，例如，区域卷积特征信息的尺寸为(128,128,256)，那么可以将上述区域卷积特征信息看做是256张分辨率为128×128的特征图组合而成，特征图中的每个像素点可以认为是256维的向量，一共有128×128个像素点。由于特征图的尺寸是小于目标图像的，因此特征图中的任何一个像素点都可以对应目标图像的一个锚点区域Anchor(当然这个区域比较小，例如4×4，或者8×8)等，这个锚点区域的大小是由目标图像和第一卷积特征信息之间的比例关系决定的。

终端设备获取多个长宽比系数，例如长宽比系数可以是0.1:1、0.2:1、0.5:1、1:1、1:2、5:1、10:1，以及获取与第一卷积特征信息的第一尺寸对应的尺寸系数，终端设备可以在目标图像中锚点区域为中心，划分多个辅助区域，每个辅助区域的面积都是相同的，辅助区域的面积是由尺寸系数决定的，辅助区域的长宽比是由长宽比系数决定的。这样以每个锚点区域作为中心，都可以得到多个辅助区域，且多个辅助区域是具有不同形状的。

例如，尺寸系数为32×32，长宽比系数包括：1:2；1:1和2:1，那么以1个锚点区域为中心可以确定3个辅助区域，分别是：16×64的辅助区域1、32×32的辅助区域2以及64×16的出区域3。对特征图中的每个像素点，都可以确定与之对应的辅助区域，若特征图A中像素点的数量是n，长宽比系数的数量是m个，那么可以根据特征图A确定n×m个辅助区域。

同样地，每个辅助区域可以映射回区域卷积特征信息中的一个特征信息块，可以将该特征信息块称为单位区域卷积特征信息。

上述确定单位区域卷积特征信息，是从第一卷积特征信息对应到目标图像，再从目标图像对应到第一卷积特征信息来描述的，在实际操作过程中，可以直接根据长宽比系数、尺寸系数以及目标图像与第一卷积特征信息之间的比例关系，在第一卷积特征信息中确定多个单位区域卷积特征信息。

基于目标候选区域提取网络中的池化层，将每个单位区域卷积特征信息进行池化运算，分别得到池化特征信息(均称为第一池化特征信息，如上述图2a对应实施例中的池化特征信息20c与池化特征信息20d)，所有的第一池化特征信息的数据尺寸和数据通道数都是相同的，第一池化特征信息的数据尺寸可以是7×7，数据通道数为256。当第一池化特征信息的数据尺寸为p×p时，池化运算是指将单位区域卷积特征信息划分为p×p的数据块，在每个数据块中计算最大值(即是最大池化)作为这个数据块的代表或者计算平均值(即是平均池化)作为这个数据块的代表。

基于目标候选区域提取网络中的分类器，识别每个第一池化特征信息与文本背景类别以及文本类别之间的匹配概率，将第一池化特征信息与文本类别之间的概率称为前景系数，将第一池化特征信息与文本背景类别之间的概率称为背景系数。当然背景系数+前景系数＝1，前景系数(或者背景系数)可以理解为第一池化特征信息在目标图像中对应的区域包含文本对象(或者非文本对象)的概率，若前景系数越高，说明第一池化特征信息在目标图像中对应区域越可能包含文本对象。

基于目标候选区域提取网络中的回归器，识别每个第一池化特征信息的区域偏移系数，此处的区域偏移系数是第一池化特征信息对应于目标图像中的区域的偏移系数，偏移系数可以包括：dx(表示区域中心横坐标偏移量)、dy(表示区域中心纵坐标偏移量)、dh(表示区域的高度偏移量)、dw(表示区域的宽度偏移量)。

终端设备获取分数阈值，将前景分数大于分数阈值的第一池化特征信息作为待确定池化特征信息，根据第一尺寸对应的尺寸系数和待确定池化特征信息的区域偏移系数，将待确定池化特征信息投影至目标图像，在目标图像中所确定的区域称为第一兴趣区域(如上述图2a对应实施例中的区域20e、区域20f)。

可以采用下述公式(1)确定第一兴趣区域：

其中，dx、dy、dh、dw表示区域偏移系数；x、y、h、w分别表示第一兴趣区域的中心横坐标、中心纵坐标、第一兴趣区域的高度以及第一兴趣区域的宽度；xa、ya、ha、wa分别表示第一池化特征信息在目标图像中对应区域(或者可以理解为区域偏移系数未调整前，仅仅根据尺寸系数以及第一池化特征信息在目标图像中所确定的图像区域)的中心横坐标、中心纵坐标、区域的高度以及区域的宽度。

对第二卷积特征信息同样可以基于目标候选区域提取网络的卷积层，对第二卷积特征信息进行卷积，得到关于第二卷积特征信息的区域卷积特征信息，根据第二尺寸的尺寸系数以及长宽比系数，在上述区域卷积特征信息中确定与第二卷积特征信息对应的多个单位区域卷积特征信息。基于目标候选区域提取网络的池化层，对第二卷积特征信息对应的多个单位区域卷积特征信息分别进行池化运算，得到多个第二池化特征信息(第一池化特征信息和第二池化特征信息的数据尺寸以及数据通道数都是相同的)。同样根据目标候选区域提取网络中的分类器和回归器确定每个第二池化特征信息的前景系数和区域偏移系数，同样地，从多个第二池化特征信息中选择大于分数阈值的第二池化特征信息，根据选择出来的第二池化特征信息的区域偏移系数、第二尺寸的尺寸系数以及公式(1)，将选择出来的第二池化特征信息映射至目标图像，在目标图像中所确定的区域称为第二兴趣区域。

按照上述方式确定的第一兴趣区域和第二兴趣区域是具有不同尺寸，不同长宽比的图像区域，这样可以保证无论文本对象在目标图像中是横向排列或者纵向排列或者斜线排列，总是存在一个或者多个兴趣区域是可以包含文本对象的。

终端设备可以将第一兴趣区域以及第二兴趣区域均确定为兴趣区域，并将所有的兴趣区域组合为兴趣区域集合。

兴趣区域集合中的兴趣区域的前景分数虽然都大于分数阈值的，但兴趣区域之间可能存在重合，因此还需要基于NMS，从兴趣区域集合中再选择候选区域。基于NMS选择候选区域的具体过程是：确定兴趣区域集合中每个兴趣区域的前景系数，将具有最大前景系数的兴趣区域作为轮询兴趣区域，分别确定兴趣区域集合中的每个兴趣区域与轮询兴趣区域之间的重叠面积，将重叠面积小于面积阈值的兴趣区域，再组合为兴趣区域集合。再从新的兴趣区域集合中再选择具有最大前景系数的兴趣区域，作为新的轮询兴趣区域，再计算新的轮询兴趣区域与新的兴趣区域集合中的兴趣区域之间的重叠面积，同样将重叠面积小于面积阈值的兴趣区域再组合为兴趣区域集合。不断循环，直至兴趣区域集合为空集时，将所有的轮询兴趣区域均作为候选区域。

举例来说，兴趣区域集合中包括：兴趣区域A(前景分数为0.9)、兴趣区域B(前景分数为0.8)、兴趣区域C(前景分数为0.7)、兴趣区域D(前景分数为0.6)，从上述4个兴趣区域中选择兴趣区域A为轮询兴趣区域，分别确定兴趣区域A与兴趣区域B、兴趣区域C、兴趣区域D之间的重叠面积，将重叠面积小于面积阈值的兴趣区域C、兴趣区域D又组合为兴趣区域集合。再选择兴趣区域C为轮询兴趣区域，若兴趣区域C与兴趣区域D之间的重叠面积是大于面积阈值的，此时兴趣区域集合为空集，那么兴趣区域A和兴趣区域C就是候选区域。

基于NMS从兴趣区域集合中选择出来的候选区域，不仅包含文本对象，且文本对象处于候选区域的中心，文本对象在目标图像中按照任意方向排列，选择出来的候选区域都是精确包含文本对象的，例如，文本对象在目标文本图像中是按照垂直向下的方向排列的，那么选择出来的候选区域的高度也是大于候选区域的宽度的。

步骤S102，获取所述候选区域的候选区域特征信息，根据所述候选区域特征信息生成初始掩模。

具体的，从前述中可知，每个第一兴趣区域都存在与之对应的第一池化特征信息，每个第二兴趣区域都存在与之对应的第二池化特征信息，而候选区域是从第一兴趣区域以及第二兴趣区域中确定的，因此在第一池化特征信息和第二池化特征信息中，终端设备将与候选区域对应的池化特征信息，作为候选区域特征信息，可以知道，每个候选区域都存在对应的候选区域特征信息。

终端设备获取文本检测网络以及关键词检测网络，将候选区域特征信息输入文本检测网络，可以得到文本背景掩模和文本内容掩模；终端设备将候选区域特征信息输入关键词检测网络，可以得到关键词背景掩模和多个关键词类别掩模。终端设备可以将前述中的文本背景掩模、文本内容掩模、关键词背景掩模和多个关键词类别掩模确定为初始掩模。

根据文本背景掩模可以确定目标图像中每个像素点(称为目标像素点)的文本对象属性。文本对象属性包括文本属性和非文本属性，文本对象属性可以标识目标像素点是否是文本对象所在的像素点。举例来说，若目标像素点A的文本对象属性为文本属性，那么目标像素点A是文本对象所在的像素点；即是若目标像素点A的文本对象属性为非文本属性，那么目标像素点A不是文本对象所在的像素点。

根据关键词背景掩模可以确定目标图像中每个目标像素点的关键词对象属性。关键词对象属性包括关键词属性和非关键词属性，关键词对象属性可以标识目标像素点是否是关键词所在的像素点。若目标像素点A的关键词对象属性为关键词属性，那么目标像素点A是文本对象中的关键词所在的像素点；若目标像素点A的关键词对象属性为非关键词属性，那么目标像素点A不是关键词所在的像素点；文本对象属性和关键词对象属性属于对象属性。

识别每个目标像素点的的文本对象属性和关键词对象属性属于图像语义分割，简单来说，存在2个图像语义分割分支(即是文本检测网络和关键词检测网络)，一个图像语义分割分支是用于确定每个目标像素点的文本对象属性；另一个图像语义分割分支是用于确定每个目标像素点的关键词对象属性。通过两个分支，可以确定每个目标像素点是属于文本属性或者非文本属性，以及属于关键词属性和非关键词属性。需要说明的是，两个分支可以是两个完全独立的分支，只是共用候选区域特征信息，因此每个目标像素点都是存在两种属性的。

步骤S103，将所述初始掩模还原为目标二值掩模，并确定所述目标二值掩模中的掩模联通区域，根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域。

具体的，终端设备将初始掩模还原为与目标图像相同尺寸的目标二值掩模，其中目标二值掩模的取值中只包括两种数值，分别为第一数值和第二数值。第一数值可以是数值0；第二数值可以是数值1。

终端设备从目标二值掩模中确定联通区域，作为掩模联通区域，其中联通区域中所包含的单位矩阵的取值都相同，且联通区域中包含的单位矩阵的数量大于数量阈值，目标二值掩模包括多个单位矩阵。

终端设备在目标二值掩模中确定掩模联通区域的位置信息，在目标图像中将该位置信息对应的图像区域作为与文本对象相关联的文本图像区域(如上述图2a对应实施例中的图像区域20p，以及如上述图2a对应实施例中的图像区域20q)。

从目标像素点的对象属性角度来说，确定文本图像区域的过程即是：终端设备从所有的目标像素点中，选择可以组合为联通区域，且该联通区域中所有的目标像素点的文本对象属性均是文本属性的目标像素点，作为待组合目标像素点，其中联通区域是指在该区域包含目标像素点的数量大于数量阈值。在目标图像中，将包含上述待组合目标像素点的最小矩形框对应的区域作为文本对象在目标图像中的文本区域。

终端设备从所有的目标像素点中，选择可以组合为联通区域，且该联通区域中所有的目标像素点的关键词对象属性均是关键词属性的目标像素点，作为待合并目标像素点，其中联通区域是指在该区域包含目标像素点的数量大于数量阈值。在目标图像中，将包含上述待合并目标像素点的最小矩形框对应的区域作为文本对象中的关键词在目标图像中的关键词区域，终端设备将确定的文本区域和关键词区域作为文本图像区域。

请参见图5，是本发明实施例提供的一种生成初始掩模的示意图，生成初始掩模包括步骤S201-步骤S203，且步骤S201-步骤S203是上述图3对应实施例中步骤S102的一个具体实施例：

步骤S201，获取所述候选区域的候选区域特征信息，对所述候选区域特征信息进行上采样，得到输入特征信息。

具体的，终端获取候选区域的候选区域特征信息，获取候选区域特征信息的具体过程可以参见上述图3对应实施例中的步骤S101-步骤S102。

终端设备将候选区域特征信息进行上采样，以扩大候选区域特征信息的数据尺寸，上采样后得到的特征信息可以称为输入特征信息，例如可以将7×7×256的候选区域特征信息上采样为14×14×256的输入特征信息，其中可以通过反卷积或者插值的方式，进行上采样。

步骤S202，基于文本检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述文本背景掩模。

具体的，终端设备获取文本检测网络，该文本检测网络可以对应前述中确定每个目标像素点的文本对象属性的图像语义分割分支。基于文本检测网络中的卷积层，对输入特征信息进行卷积，文本检测网络中的卷积层可以包括4个卷积层和1个反卷积层，卷积运算和反卷积运算后生成28×28×2的文本掩模，文本掩模包括属于文本背景类别、数据尺寸为28×28的文本背景掩模，以及属于文本类别、数据尺寸为28×28的文本内容掩模。

步骤S203，基于关键词检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述关键词背景掩模。

具体的，终端设备获取关键词检测网络，该关键词检测网络可以对应前述中确定每个目标像素点的关键词对象属性的图像语义分割分支。基于关键词检测网络中的卷积层，对输入特征信息进行卷积，关键词检测网络中的卷积层可以包括4个卷积层和1个反卷积层，卷积后生成尺寸为28×28×(K+1)的关键词掩模，该关键词掩模包括属于关键词背景类别、数据尺寸为28×28的关键词背景掩模，以及与K个预选关键词分别对应、数据尺寸均为28×28的K个关键词类别掩模。

例如，预选关键词包括：“手机”、“酒店”和“字典”，那么生成28×28×4的关键词掩模，其中上述关键词掩模包括属于关键词背景类别的关键词背景掩模、与预选关键词“手机”对应的关键词类别掩模、与预选关键词“酒店”对应的关键词类别掩模、与预选关键词“字典”对应的关键词类别掩模。

终端设备可以将前述中的文本背景掩模、文本内容掩模、关键词背景掩模和多个关键词类别掩模确定为初始掩模。

上述关系可以总结为：初始掩模包括文本掩模和关键词掩模，文本掩模又包括文本背景掩模和文本内容掩模；关键词掩模又包括关键词背景掩模和关键词类型掩模。文本背景掩模可以用来确定文本区域，关键词背景掩模可以用来确定关键词区域。

请参见图6，是本发明实施例提供的一种确定文本图像区域的示意图，确定文本图像区域的包括步骤S301-步骤S306，且步骤S301-步骤S306是上述图3对应实施例中步骤S103的一个具体实施例：

步骤S301，对所述初始掩模进行插值处理，得到与所述目标图像尺寸相同的掩模矩阵。

具体的，终端设备将初始掩模中的文本背景掩模插值为文本矩阵，并将初始掩模中的关键词背景掩模插值为第一关键词矩阵，文本矩阵的尺寸＝第一关键词矩阵的尺寸＝目标图像的尺寸。

终端设备可以将文本矩阵与第一关键词矩阵确定为掩模矩阵。

文本矩阵中任意一个单位矩阵的取值表示对应目标像素点属于非文本属性(即是非文本)的概率；若将属于文本类别的文本内容掩模插值为与目标图像相同尺寸的矩阵，该矩阵中的任意一个单位矩阵的取值表示对应目标像素点属于文本属性的概率。

第一关键词矩阵中任意一个单位矩阵的取值表示对应目标像素点属于非关键词属性的概率；若将预选关键词A对应的关键词类别掩模插值为与目标图像相同尺寸的矩阵，该矩阵中任意一个单位矩阵的取值表示对应目标像素点属于预选关键词A的概率。

步骤S302，将所述掩模矩阵中小于或等于预设掩模阈值的单位矩阵的取值调整为第一数值，将所述掩模矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为第二数值，得到目标二值掩模。

具体的，当掩模矩阵为文本矩阵时，终端设备可以将文本矩阵中小于或者等于预设掩模阈值的单位矩阵的取值设置为第一数值(例如数值0)，将文本矩阵中大于预设掩模阈值的单位矩阵的取值设置为第二数值(例如数值1)，得到的矩阵称为文本背景二值掩模，即文本背景二值掩模中只有数值0或者数值1。

当掩模矩阵为第一关键词矩阵时，终端设备可以将第一关键词矩阵中小于或者等于预设掩模阈值的单位矩阵的取值设置为第一数值(例如数值0)，将第一关键词矩阵中大于预设掩模阈值的单位矩阵的取值设置为第二数值(例如数值1)，得到的矩阵称为关键词背景二值掩模，即关键词背景二值掩模中只有数值0或者数值1。

终端设备可以将文本背景二值掩模以及关键词背景二值掩模确定为目标二值掩模。

举例来说，请参见图7，是本发明实施例提供的一种确定文本背景二值掩模的示意图，文本矩阵中的单位矩阵1、单位矩阵2、单位矩阵3以及单位矩阵4分别与目标图像中的目标像素点A、目标像素点B、目标像素点C以及目标像素点D一一对应。预设掩模阈值等于0.5，终端设备可以将小于0.5的单位矩阵3以及单位矩阵4对应的取值设置为数值0；终端设备可以将大于0.5的单位矩阵1以及单位矩阵2对应的取值设置为数值1，可以得到文本背景二值掩模。

从目标像素点的对象属性角度来看，确定目标二值掩模即是：将在文本矩阵中，小于或者等于预设掩模阈值的单位矩阵对应的目标像素点的文本对象属性，作为文本属性；对应地，将在文本矩阵中，大于预设掩模阈值的单位矩阵对应的目标像素点的文本对象属性，作为非文本属性。通过文本背景掩模确定文本矩阵，进而确定可以确定目标图像中每个目标像素点要么是属于文本属性的，要么是属于非文本属性的。

终端设备将在第一关键词矩阵中，小于或者等于掩模阈值的单位矩阵对应的目标像素点的关键词对象属性，作为关键词属性；对应地，将在第一关键词矩阵中，大于掩模阈值的单位矩阵对应的目标像素点的关键词对象属性，作为非关键词属性。通过关键词背景掩模确定第一关键词矩阵，进而可以确定目标图像中每个目标像素点要么是属于关键词属性的，要么是属于非关键词属性的。

需要说明的是，根据关键词背景掩模只能确定目标像素点是否是属于关键词的像素点，而不能确定具体是哪个预选关键词。

步骤S303，在所述文本背景二值掩模中，确定第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述文本联通区域。

具体的，在文本背景二值掩模中，将具有第一数值的单位矩阵所组成的联通区域，作为文本联通区域，联通区域是指在该区域中任意单位矩阵的取值都相同，且该区域中包含单位矩阵的数量大于数量阈值。

从目标像素点的属性角度来看，文本联通区域对应的目标像素点的文本对象属性均是文本属性。

步骤S304，在所述关键词背景二值掩模中，确定所述第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述关键词联通区域。

具体的，终端设备在关键词背景二值掩模中，将具有第一数值的单位矩阵所组成的联通区域，作为关键词联通区域，联通区域是指在该区域中任意单位矩阵的取值都相同，且该区域中包含单位矩阵的数量大于数量阈值。

从目标像素点的属性角度来看，关键词联通区域对应的目标像素点的关键词对象属性均是关键词属性。

终端设备可以将文本联通区域和关键词联通区域确定为掩模联通区域。

步骤S305，获取包含所述文本联通区域的最小矩形框在所述文本背景二值掩模中的第一位置信息，将在所述目标图像中与所述第一位置信息对应的图像区域作为所述文本区域。

具体的，获取包含文本联通区域的最小矩形框，并确定该最小矩形框在文本背景二值掩模中的位置信息(称为第一位置信息)，第一位置信息可以包括：该最小矩形框在文本背景二值掩模中的中心点横坐标、中心点纵坐标、最小矩形框的高、最小矩形框的宽。

终端设备将目标图像中与第一位置信息对应的图像区域，作为文本对象在目标图像中的文本区域(如上述图2a对应实施例中的图像区域20p)，可以将该文本区域以矩形框的形式标记在目标图像上。

可选的，将属于文本类别、数据尺寸为28×28的文本内容掩模插值为辅助矩阵，辅助矩阵与前述中的文本矩阵、文本背景二值掩模以及目标图像的尺寸都是相同的。获取在前述文本背景二值掩模中确定的文本联通区域，在所述辅助矩阵中确定与该文本联通区域对应的辅助子矩阵，计算辅助子矩阵的平均值，将该平均值作为文本区域的置信度，可以在目标图像中的文本区域中，标记出该文本区域的置信度。

上述过程可以总结为：文本掩模中属于背景的文本背景掩模是用于确定文本对象所在的文本区域，文本掩模中属于文本的文本内容掩模是用于确定该文本区域的置信度。

仍沿用图7中的例子进行说明，预设掩模阈值为0.5，那么根据文本矩阵可以确定文本背景二值掩模。文本背景二值掩模中的文本联通区域包括：单位矩阵3和单位矩阵4。那么在文本背景二值掩模中，包含单位矩阵3和单位矩阵4的最小矩形框(即是图7中的最小包围矩形框)的位置信息即是第一位置信息，该第一位置信息在目标图像中对应的区域，即是文本区域，可以将文本区域以矩形框的形式标记在目标图像上。

终端设备获取属于文本类别、数据尺寸为28×28的文本内容掩模，并插值为辅助矩阵(如图7中的辅助矩阵)。可以知道，辅助矩阵和文本矩阵在同一个单位矩阵上的取值之和等于1，由于文本联通区域为单位矩阵3和单位矩阵4，那么辅助子矩阵包括单位矩阵3和单位矩阵4，计算单位矩阵3和单位矩阵4的平均值：(0.8+0.9)/2＝0.85，那么该文本区域的置信度就为0.85。

后续在不同的业务场景下，可以根据文本区域的置信度进一步选择满足业务需求的文本区域。

步骤S306，获取包含所述关键词联通区域的最小矩形框在所述关键词背景二值掩模中的第二位置信息，将在所述目标图像中与所述第二位置信息对应的图像区域作为所述关键词区域。

具体的，终端设备获取包含关键词联通区域的最小矩形框，并确定该最小矩形框在关键词背景二值掩模中的位置信息(称为第二位置信息)，第二位置信息可以包括：该最小矩形框在关键词背景二值掩模中的中心点横坐标、中心点纵坐标、最小矩形框的高、最小矩形框的宽。

终端设备将目标图像中与第二位置信息对应的图像区域，作为文本对象中的关键词在目标图像中的关键词区域(如上述图2a对应实施例中的图像区域20q)，可以将该关键词区域以矩形框的形式标记在目标图像上。

终端设备可以将文本区域和关键词区域确定为与文本对象相关联的文本图像区域。

在目标图像上，用于标记文本区域的矩形框和标记关键词区域的矩形框可以采用不同的颜色，或者是不同粗细的线条，或者是实线矩形框和虚线矩形框，这样在目标图像中，可以区分属于文本区域的矩形框和属于关键词区域的矩形框。

可选的，将与多个预选关键词对应的、数据尺寸为28×28的多个关键词类别掩模分别插值为第二关键词矩阵，第二关键词矩阵的尺寸与前述中的第一关键词矩阵、关键词背景二值掩模以及目标图像的尺寸都是相同的，下述以一个第二关键词矩阵为例进行说明。

获取在前述关键词背景二值掩模中确定的关键词联通区域，在第二关键词矩阵中确定与该关键词联通区域对应的第二关键词子矩阵，计算第二关键词子矩阵的平均值，作为该第二关键词矩阵对应的关键词类别掩模的置信度，对每个第二关键词矩阵，都可以采用上述方式，确定与之对应的置信度，可以知道置信度的数量就等于关键词掩模中包含的关键词类别掩模的数量。终端设备从每个关键词类别掩模对应的置信度中，将具有最大置信度的关键词类别掩模对应的预选关键词，作为关键词区域所包含的目标关键词，可以在目标图像中标记该目标关键词以及对应的置信度(即是最大置信度)，例如可以将目标关键词以及对应的置信度显示在目标图像中的关键词区域周边。

上述过程可以总结为：关键词掩模中属于背景的关键词背景掩模是用于确定关键词所在的关键词区域，关键词掩模中与多个预选关键词分别对应的关键词类别掩模是用于确定该关键词区域中具体包含哪个关键词，以及置信度。

请参见图8，是本发明实施例提供的一种图像处理的结构示意图，本发明的结构示意图主要包括2个主要部分，一部分是基于目标特征金字塔网络(FPN)以及目标候选区域提取网络(RPN)提取文本对象所在的候选区域；另一部分是基于图像语义分割的两个实例分割分支(文本检测网络和关键词检测网络)，用于并行预测文本区域和关键词区域。

具体执行过程为：终端设备获取目标图像后，将包含文本对象(即是“开卷有益”)，且该文本对象包括关键词(即是“开卷”)的目标图像输入目标特征金字塔网络中，用于提取不同尺寸下的卷积特征信息。终端设备再将不同尺寸下的卷积特征信息分别输入目标候选区域提取网络，用于提取在不同尺寸下的单位区域卷积特征信息，对所有的单位区域卷积特征信息进行池化，得到池化特征信息(即是前述中的第一池化特征信息和第二池化特征信息)，基于RPN中的分类器，识别每个池化特征信息的前景系数，以及区域偏移系数，将前景分数大于分数阈值的池化特征信息，根据对应的区域偏移系数投影至目标图像，在目标图像中确定兴趣区域(即是前述中的第一兴趣区域和第二兴趣区域)。终端设备采用NMS从多个兴趣区域中选择候选区域，将候选区域对应的池化特征信息作为候选区域特征信息。

通过上采样，将候选区域特征信息上采样为输入特征信息，将输入特征信息输入文本检测网络，输出文本掩模；将输入特征信息输入关键词检测网络，输出关键词掩模。根据文本掩模中的文本背景掩模可以确定文本对象在目标图像中的文本区域(该文本区域在图5中以虚线矩形框进行标记)，根据关键词掩模中的关键词背景掩模可以确定文本对象中的关键词在目标图像中的关键词区域(该关键词区域在图5中以实线矩形框进行标记)。

可选的，上述基于两个独立的检测网络并行确定文本区域和关键词区域，还可以按照串行的方式确定文本区域和关键词区域。由于关键词区域必然是在文本区域中的，因此终端设还可以首先按照前述方式只确定文本区域，在确定了文本区域后，从目标图像中裁剪出文本区域，得到目标子图像，即目标子图像中只包含文本对象，且目标子图像中干扰信息较少。后续终端设备可以将目标子图像输入训练好的关键词检测模型中，关键词检测模型可以识别出目标子图像中的关键词所在的参考区域，终端设备再将识别到的参考区域映射到目标图像中，从而确定目标图像中的关键词所在的关键词区域。

可选的，不仅可以确定目标图像中的文本区域以及关键词区域，还可以确定目标图像中的超链接区域，即初始掩模还包括超链接掩模(可以增加一个超链接检测网络，用于生成超链接掩模)。超链接掩模包括超链接背景掩模以及超链接内容掩模。类似地，终端设备将超链接背景掩模还原为与目标图像相同大小的超链接背景二值掩模，根据超链接背景二值掩模确定超链接联通区域，进而在目标图像中确定超链接所在的超链接区域，而超链接内容掩模可以用于确定超链接区域的置信度。

请参见图9，是本发明实施例提供的另一种图像处理方法的流程示意图，图像处理方法包括步骤S401-步骤S418：

步骤S401，流程开始。

步骤S402，基于目标特征金字塔网络和目标候选区域提取网络中的卷积层，确定的多个单位区域卷积特征信息。

步骤S403，基于目标候选区域提取网络中的池化层，对每个单位区域卷积特征信息进行池化，用于提取多个池化特征信息。

步骤S404，基于目标候选区域提取网络中的分类器和回归器，确定每个池化特征信息的前景系数和区域偏移系数。

其中，提取多个单位区域卷积特征信息、确定每个单位区域卷积特征信息的池化特征信息以及确定每个池化特征信息的前景系数和区域偏移系数的具体过程可以参见上述图3对应实施例中的步骤S101。

步骤S405，判断前景系数是否大于分数阈值。

具体的，分别判断每个池化特征信息的前景系数是否大于分数阈值，若否，执行步骤S406，若是，执行步骤S407-步骤S418。

步骤S406，将前景系数小于或等于分数阈值的池化特征信息舍弃。

步骤S407，将前景系数大于分数阈值的池化特征信息映射至目标图像，得到兴趣区域，采用NMS从多个兴趣区域中确定候选区域，并将候选区域的池化特征信息作为候选区域特征信息。

其中，采用NMS确定候选区域的具体过程可以参见上述图3对应实施例中的步骤S101。

步骤S408，文本检测网络中的卷积层对候选区域特征信息进行卷积。

步骤S409，文本检测网络中的反积层对候选区域特征信息进行反卷积。

步骤S410，从文本检测网络中输出文本掩模。

步骤S411，对文本掩模中的文本背景掩模和文本内容掩模进行掩模后处理。

步骤S412，输出文本区域，以及文本区域的置信度。

其中，基于文本检测网络确定文本掩模，以及根据文本掩模确定文本区域和文本区域的置信度的具体过程可以参见上述图6对应实施例中的步骤S301-步骤S303以及步骤S305。

步骤S413，关键词检测网络中的卷积层对候选区域特征信息进行卷积。

步骤S414，关键词检测网络中的反积层对候选区域特征信息进行反卷积。

步骤S415，从关键词检测网络中输出关键词掩模。

步骤S416，对关键词掩模中的关键词背景掩模和关键词类别掩模进行掩模后处理。

步骤S417，输出关键词区域、关键词区域中的目标关键词以及该目标关键词的置信度。

其中，基于关键词检测网络确定关键词掩模，以及根据关键词掩模确定关键词区域、目标关键词以及目标关键词的置信度的具体过程可以参见上述图6对应实施例中的步骤S301-步骤S302、步骤S304以及步骤S306。

步骤S418，流程结束。

可选的，下面对上述图像处理方法过程中涉及的网络模型的训练过程进行说明。终端设备获取用于网络训练的样本文本图像，其中样本文本图像包括文本对象(称为样本文本对象)，样本文本对象包括样本预选关键词。样本预选关键词包括前述中K个预选关键词中一个或多个预选关键词。

与网络的使用过程类似，首先基于样本特征金字塔网络以及样本候选区域提取网络确定样本文本对象在样本文本图像中的候选区域(称为样本候选区域)，并确定样本候选区域的样本候选区域特征信息。

基于样本文本检测网络、样本候选区域特征信息识别样本文本对象在样本文本图像中的第一预测区域；基于样本关键词检测网络、样本候选区域特征信息识别样本文本对象中的样本预选关键词在样本文本图像中的第二预测区域，并预测第二预测区域中的关键词(称为样本预测关键词)，终端设备可以将前述中的第一预测区域和第二预测区域确定为预测区域。

终端设备获取样本文本对象在样本文本图像中的真实区域(称为第一样本区域，且该第一样本区域可以是矩形)，获取样本文本对象中的样本预选关键词在样本文本图像中的真实区域(称为第二样本区域，且该第二样本区域也可以是矩形)，终端设备可以将第一样本区域和第二样本区域确定为样本区域。

终端设备确定第一预测区域与第一样本区域之间的第一预测误差，根据该第一预测误差采用反向传播调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本文本检测网络中的模型参数。终端设备确定第二预测区域与第二样本区域之间的第二预测误差，根据该第二预测误差采用反向传播调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本关键词检测网络中的模型参数。终端设备根据公式(2)、样本预测关键词、样本预选关键词确定第三分类误差：

其中，K是预选关键词的数量，N是掩模中像素数目，Y是样本预测关键词对应的关键词类别掩模，X是样本预选关键词对应的关键词类别掩模。

根据该第三预测误差采用反向传播调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本关键词检测网络中的模型参数。

可以知道，预测误差包括第一预测误差、第二预测误差和第三分类误差。

当调整次数达到次数阈值，或者调整后的的预测误差在误差范围内，或者上述网络中的模型参数的变化量小于变化量阈值，终端设备将调整后的样本特征金字塔网络确定为目标特征金字塔网络，将调整后的样本候选区域提取网络确定为目标候选区域提取网络，将调整后的样本文本检测网络确定为文本检测网络，将调整后的样本检测网络确定为关键词检测网络。

下面对如何获取样本文本图像进行说明，终端设备获取样本图像，样本图像中可以不包括任何文本，获取包含样本预选关键词的样本文本对象。

终端设备将样本文本对象添加至样本图像中，得到样本文本图像，这样的样本文本图像是已知样本文本对象的真实位置信息、已知样本预选关键词的真实位置信息，以及已知样本预选关键词的图像，即该样本文本图像是可以用于同时调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本文本检测网络中的模型参数，以及样本关键词检测网络中的模型参数的图像。

终端设备获取辅助样本图像，其中辅助样本图像仍包括文本对象(称为辅助文本对象)，但辅助文本对象不包括预选关键词，此时就只能确定前述中的第一预测误差，因此就根据第一误差只调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本文本检测网络中的模型参数，相对地，样本关键词检测网络的模型参数就不调整。

对上述样本文本图像也可以理解为是合成图像，辅助样本图像可以理解为是真实图像，可以按照合成图像的数量与真实图像的数量之间的比例为2:1，调整前述中所有网络的模型参数。

当两个关键词相邻时，尤其是在尺寸较小的关键词中，常常会遇到粘连问题，因此在训练网络时，可以采用收缩策略来解决粘连问题。具体过程请参见图10，是本发明实施例提供的收缩策略示意图，终端设备在获取样本文本对象中的样本预选关键词在样本文本图像中的真实区域60a时，首先将获取到的真实区域60a确定为第三样本区域60a，且该第三样本区域60a是矩形框形式。按照顺时针顺序第三样本区域60a的四个顶点(A、B、C以及D)可以表示为：A1(x₁,y₁)、B1(x₂,y₂)、C1(x₃,y₃)、D1(x₄,y₄)，按照下述公式(3)进行收缩，

其中，r是顶点A1(x₁,y₁)、顶点C1(x₃,y₃)之间的欧式距离，shrink是收缩比例系数，可以将shrink设置为0.8，顶点A2(x'₁,y'₁)是顶点A1(x₁,y₁)收缩后得到的新的顶点，顶点C2(x'₃,y'₃)是顶点C1(x₃,y₃)收缩后得到的新的顶点。可以对顶点B1(x₂,y₂)、顶点D1(x₄,y₄)采用相同的方式收缩，确定新的顶点B2(x'₂,y'₂)、顶点D2(x'₄,y'₄)，可以将收缩后的顶点A2(x'₁,y'₁)、顶点B2(x'₂,y'₂)、顶点C2(x'₃,y'₃)以及顶点D2(x'₄,y'₄)在样本文本图像中确定的区域作为第二样本区域60b。后续再基于该第二样本区域60b与第二预测区域之间的第二预测误差，调整样本特征金字塔网络中的模型参数、样本候选区域提取网络中的模型参数、样本关键词检测网络中的模型参数。

为了进一步说明本发明对图像中的文本区域以及关键词区域的识别效果，在2个数据集上进行验证。2个数据集包括中文检测数据集以及多类型网络图像数据集。

中文检测数据集实验结果对比如表1所示，对比方法包括文本盒(TextBoxes++)、基于合成图像所训练的网络，以及基于合成图像+真实图像训练的网络，其中文本盒方法是从整图提取关键词的方法；合成图像即是前述中的样本文本图像，真实图像即是前述中的辅助样本图像；合成图像与真实图像之间的比例可以为2:1。从表1可以看出，使用基于合成图像+真实图像训练的网络，所预测关键词区域的准确率可以达到79.55％，高于文本盒方法的准确率67.82％，以及高于仅仅根据合成图像训练的网络的准确率70.49％。

表1中文检测数据集实验结果对比

方法	混合比例	关键词区域准确率
			文本盒(TextBoxes++)	\	0.6782
合成图像训练的网络	\	0.7049
			合成图像+真实图像训练的网络	2:1	0.7955

多类型网络图像数据集实验结果对比如表2所示，对比方法包括文本盒、基于合成图像所训练的网络，以及基于合成图像+真实图像训练的网络，其中合成图像与真实图像之间的比例仍为2:1。从表2可以看出，使用基于合成图像+真实图像训练的网络，所预测关键词区域的准确率可以达到92.12％，高于文本盒方法的准确率88.26％，以及高于仅仅根据合成图像训练的网络的准确率89.37％。

表2多类型网络图像数据集实验结果对比

方法	混合比例	关键词区域准确率
			文本盒(TextBoxes++)	\	0.8826
合成图像训练的网络	\	0.8937
			合成图像+真实图像训练的网络	2:1	0.9212

从表1和表2可以看出，采用本发明对预测关键词区域的准确率都是高于文本盒方法的准确率的，说明本发明对图像中的关键词区域具有更准确的识别效果。

上述可知，通过自动化的方式识别图像中文本所在的位置以及关键词所在的位置，相比人工识别，可以提高识别文本位置以及关键词位置的效率；进步一地，在同一个框架下同时完成识别文本位置以及关键词位置的任务，避免串行问题，可以节约计算资源；且本发明仅在文本行候选区域内进行确定关键词的区域和确定目标关键词，可以很大程度地缩小了搜索区域，进一步提高确定关键词区域和确定目标关键词的效率。

进一步的，请参见图11，是本发明实施例提供的一种图像处理装置的结构示意图。如图11所示，图像处理装置1可以应用于上述图3-图10对应实施例中的终端设备，图像处理装置1可以包括：图像获取模块11、候选区域确定模块12、特征获取模块13、识别模块14、还原模块15、联通区域确定模块16、目标区域确定模块17。

图像获取模块11，用于获取包含文本对象的目标图像；

候选区域确定模块12，用于确定所述文本对象在所述目标图像中的候选区域；

特征获取模块13，还用于获取所述候选区域的候选区域特征信息；

识别模块14，用于根据所述候选区域特征信息生成初始掩模；

还原模块15，用于将所述初始掩模还原为目标二值掩模；

联通区域确定模块16，用于确定所述目标二值掩模中的掩模联通区域；

目标区域确定模块17，用于根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域。

其中，图像获取模块11、候选区域确定模块12、特征获取模块13、识别模块14、还原模块15、联通区域确定模块16、目标区域确定模块17的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S103，这里不再进行赘述。

请参见图11，所述初始掩模包括文本背景掩模和关键词背景掩模；

识别模块14可以包括：上采样单元141、文本确定单元142、关键词确定单元143。

上采样单元141，用于对所述候选区域特征信息进行上采样，得到输入特征信息；

文本确定单元142，用于基于文本检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述文本背景掩模；

关键词确定单元143，用于基于关键词检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述关键词背景掩模。

其中，上采样单元141、文本确定单元142、关键词确定单元143的具体功能实现方式可以参见上述图5对应实施例中的步骤S201-步骤S203，这里不再进行赘述。

请参见图11，还原模块15可以包括：还原单元151、调整单元152。

还原单元151，用于对所述初始掩模进行插值处理，得到与所述目标图像尺寸相同的掩模矩阵；

调整单元152，用于将所述掩模矩阵中小于或等于预设掩模阈值的单位矩阵的取值调整为第一数值，将所述掩模矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为第二数值，得到目标二值掩模。

初始掩模包括文本背景掩模和关键词背景掩模；所述掩模矩阵包括文本矩阵和第一关键词矩阵；

还原单元151具体用于，分别对所述文本背景掩模和所述关键词背景掩模进行插值处理，得到与所述文本背景掩模对应的所述文本矩阵以及与所述关键词背景掩模对应的所述第一关键词矩阵。

其中，还原单元151、调整单元152的具体功能实现方式可以参见上述图6对应实施例中的步骤S301-步骤S302，这里不再进行赘述。

请参见图11，所述目标二值掩模包括文本背景二值掩模和与关键词背景二值掩模；

调整单元152可以包括：第一转换子单元1521、第二转换子单元1522。

第一转换子单元1521，用于当所述掩模矩阵为所述文本矩阵时，将所述文本矩阵中小于或等于所述预设掩模阈值的单位矩阵的取值调整为所述第一数值，将所述文本矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为所述第二数值，得到与所述文本背景掩模对应的文本背景二值掩模；

第二转换子单元1522，用于当所述掩模矩阵为所述第一关键词矩阵时，将所述第一关键词矩阵中小于或等于所述预设掩模阈值的单位矩阵的取值调整为所述第一数值，将所述第一关键词矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为所述第二数值，得到与所述关键词背景掩模对应的所述关键词背景二值掩模。

其中，第一转换子单元1521、第二转换子单元1522的具体功能实现方式可以参见上述图6对应实施例中的步骤S302，这里不再进行赘述。

请参见图11，掩模联通区域包括与文本背景二值掩模对应的文本联通区域以及与关键词背景掩模对应的关键词联通区域；所述文本背景二值掩模和所述关键词联通区域属于所述目标二值掩模；

联通区域确定模块16可以包括：文本区域确定单元161、关键词区域确定单元162。

文本区域确定单元161，用于在所述文本背景二值掩模中，确定第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述文本联通区域；

关键词区域确定单元162，用于在所述关键词背景二值掩模中，确定所述第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述关键词联通区域。

其中，文本区域确定单元161、关键词区域确定单元162的具体功能实现方式可以参见上述图6对应实施例中的步骤S303-步骤S304，这里不再进行赘述。

请参见图11，所述与所述文本对象相关联的文本图像区域包括文本区域和关键词区域；

目标区域确定模块17可以包括：第一获取单元171、第二获取单元172；

第一获取单元171，用于获取包含所述文本联通区域的最小矩形框在所述文本背景二值掩模中的第一位置信息，将在所述目标图像中与所述第一位置信息对应的图像区域作为所述文本区域；

第二获取单元172，用于获取包含所述关键词联通区域的最小矩形框在所述关键词背景二值掩模中的第二位置信息，将在所述目标图像中与所述第二位置信息对应的图像区域作为所述关键词区域。

其中，第一获取单元171、第二获取单元172的具体功能实现方式可以参见上述图9对应实施例中的步骤S305-步骤S306，这里不再进行赘述。

请参见图11，初始掩模还包括与多种预选关键词分别各自对应的关键词类别掩模；

图像处理装置1还可以包括：提取模块18、关键词确定模块19。

提取模块18，用于对所述关键词类别掩模进行插值处理，得到与所述目标图像尺寸相同的第二关键词矩阵；

所述提取模块18，还用于在所述第二关键词矩阵中提取与所述关键词联通区域对应的第二关键词子矩阵，根据所第二关键词子矩阵确定与所述关键词类别掩模对应的置信度；

关键词确定模块19，用于将具有最大置信度的关键词类别掩模对应的预选关键词确定为与所述关键词区域对应的目标关键词，并在所述目标图像中标记所述目标关键词。

其中，提取模块18、关键词确定模块19的具体功能实现方式可以参见上述图6对应实施例中的步骤S306，这里不再进行赘述。

请参见图11，候选区域确定模块12可以包括：第一提取单元121、第二提取单元122、第三提取单元123、组合单元124。

第一提取单元121，用于基于目标特征金字塔网络，提取所述目标图像的层次卷积特征信息；所述层次卷积特征信息包括与第一尺寸对应的第一卷积特征信息以及与第二尺寸对应的第二卷积特征信息；

第二提取单元122，用于基于目标候选区域提取网络从所述第一卷积特征信息中确定第一兴趣区域；

第三提取单元123，用于基于所述目标候选区域提取网络从所述第二卷积特征信息中确定第二兴趣区域；

组合单元124，用于从所述第一兴趣区域和所述第二兴趣区域组成的兴趣区域集合中，选择所述候选区域。

其中，第一提取单元121、第二提取单元122、第三提取单元123、组合单元124的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

请参见图11，第一提取单元121可以包括：第一卷积子单元1211、调整子单元1212。

第一卷积子单元1211，用于基于所述目标特征金字塔网络中的第一卷积层，对所述目标图像进行卷积，得到第一原始特征信息；

所述第一卷积子单元1211，还用于基于所述目标特征金字塔网络中的第二卷积层，对所述第一原始特征信息进行卷积，得到第二原始特征信息；

调整子单元1212，用于调整所述第一原始特征信息的数据通道数，得到第一转换特征信息；

所述调整子单元1212，还用于调整所述第二原始特征信息的数据通道数，得到第二转换特征信息；所述第一转换特征信息和所述第二转换特征信息具有相同的数据通道数；

所述调整子单元1212，还用于对所述第二转换特征信息进行上采样，得到第三转换特征信息；

所述调整子单元1212，还用于将所述第三转换特征信息与所述第一转换特征信息叠加为第四转换特征信息；

所述调整子单元1212，还用于将所述第四转换特征信息确定为所述第一卷积特征信息，并将所述第二转换特征信息确定为所述第二卷积特征信息。

其中，第一卷积子单元1211、调整子单元1212的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

请参见图11，第二提取单元122可以包括：第二卷积子单元1221、池化子单元1222。

第二卷积子单元1221，用于基于所述目标候选区域提取网络中的卷积层，对所述第一卷积特征信息进行卷积，得到区域卷积特征信息，并根据所述第一尺寸对应的尺寸系数，在所述区域卷积特征信息中确定多个单位区域卷积特征信息；

池化子单元1222，用于基于所述目标候选区域提取网络中的池化层，对每个单位区域卷积特征信息分别进行池化，得到多个第一池化特征信息；

所述池化子单元1222，还用于基于所述目标候选区域提取网络中的的分类器，确定与每个第一池化特征信息分别对应的前景系数；

所述池化子单元1222，还用于基于所述目标候选区域提取网络中的的回归器，确定与所述每个第一池化特征信息分别对应的区域偏移系数；

所述池化子单元1222，还用于将前景系数大于分数阈值的第一池化特征信息作为待确定池化特征信息，根据所述尺寸系数和所述待确定池化特征信息对应的区域偏移系数，将所述待确定池化特征信息映射至目标图像，得到所述第一兴趣区域。

其中，第二卷积子单元1221、池化子单元1222的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

请参见图11，组合单元124可以包括：选择子单元1241、区域确定子单元1242。

选择子单元1241，用于将所述第一兴趣区域和所述第二兴趣区域组合为所述兴趣区域集合；

所述选择子单元1241，还用于获取所述兴趣区域集合中每个兴趣区域的前景系数，从所述兴趣区域集合中选择最大前景系数对应的兴趣区域，作为轮询兴趣区域，在所述兴趣区域集合包含的多个兴趣区域中，将与所述轮询兴趣区域之间的重叠面积小于面积阈值的兴趣区域，组合为所述兴趣区域集合；

区域确定子单元1242，用于当所述兴趣区域集合为空集时，将所有的轮询候选区域均确定为所述候选区域。

其中，选择子单元1241、区域确定子单元1242的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

请参见图11，特征获取模块13可以包括：第一池化特征确定单元131、第二池化特征确定单元132。

第一池化特征确定单元131，用于基于所述目标候选区域提取网络中的卷积层和池化层，确定与所述第二卷积特征信息对应的第二池化特征信息；

第二池化特征确定单元132，用于从所述第一池化特征信息和所述第二池化特征信息中，提取与所述候选区域对应的池化特征信息，作为所述候选区域特征信息。

其中，第一池化特征确定单元131、第二池化特征确定单元132的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

请参见图11，图像处理装置1还可以包括：样本获取模块20、样本区域确定模块21。

样本获取模块20，用于获取包含样本文本对象的样本文本图像；所述样本文本对象包括样本预选关键词；

样本区域确定模块21，用于确定所述样本文本对象在所述样本文本图像中的样本候选区域，获取所述样本候选区域的样本候选区域特征信息；

所述样本区域确定模块21，还用于根据所述样本候选区域特征信息识别所述样本文本对象在所述样本文本图像中的预测区域，识别与所述预测区域对应的样本预测关键词；

所述样本区域确定模块21，还用于获取所述样本文本对象在所述样本文本图像中的样本区域；

所述样本区域确定模块21，还用于根据所述预测区域、所述样本区域、所述样本预选关键词和所述样本预测关键词确定预测误差；

所述样本区域确定模块21，还用于根据所述预测误差生成目标特征金字塔网络、目标候选区域提取网络、文本检测网络和关键词检测网络；所述目标特征金字塔网络、目标候选区域提取网络、文本检测网络和所述关键词检测网络是用于识别所述目标图像中与文本对象相关联的文本图像区域。

其中，样本获取模块20、样本区域确定模块21的具体功能实现方式可以参见上述图9对应实施例中的步骤S418，这里不再进行赘述。

请参见图11，样本获取模块20可以包括：样本获取单元201、添加单元202。

样本获取单元201，用于获取样本图像，并获取包含所述样本预选关键词的样本文本对象；

添加单元202，用于将所述样本文本对象添加至所述样本图像中，得到所述样本文本图像。

其中，样本获取单元201、添加单元202的具体功能实现方式可以参见上述图9对应实施例中的步骤S418，这里不再进行赘述。

进一步地，请参见图12，是本发明实施例提供的一种电子设备的结构示意图。上述图3-图10对应实施例中的终端设备可以为电子设备1000，如图12所示，所述电子设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。

编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至电子设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图12所示的电子设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

在一个实施例中，初始掩模包括文本背景掩模和关键词背景掩模；

处理器1004在执行根据所述候选区域特征信息生成初始掩模时，具体执行以下步骤：

对所述候选区域特征信息进行上采样，得到输入特征信息；

基于文本检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述文本背景掩模；

基于关键词检测网络中的卷积层，对所述输入特征信息进行卷积，得到所述关键词背景掩模。

在一个实施例中，处理器1004在执行将所述初始掩模还原为目标二值掩模时，具体执行以下步骤：

对所述初始掩模进行插值处理，得到与所述目标图像尺寸相同的掩模矩阵；

将所述掩模矩阵中小于或等于预设掩模阈值的单位矩阵的取值调整为第一数值，将所述掩模矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为第二数值，得到目标二值掩模。

在一个实施例中，初始掩模包括文本背景掩模和关键词背景掩模；所述掩模矩阵包括文本矩阵和第一关键词矩阵；

处理器1004在执行对所述初始掩模进行插值处理，得到与所述目标图像尺寸相同的掩模矩阵时，具体执行以下步骤：

分别对所述文本背景掩模和所述关键词背景掩模进行插值处理，得到与所述文本背景掩模对应的所述文本矩阵以及与所述关键词背景掩模对应的所述第一关键词矩阵。

在一个实施例中，目标二值掩模包括文本背景二值掩模和与关键词背景二值掩模；

处理器1004在执行将所述掩模矩阵中小于或等于预设掩模阈值的单位矩阵的取值调整为第一数值，将所述掩模矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为第二数值，得到目标二值掩模时，具体执行以下步骤：

当所述掩模矩阵为所述文本矩阵时，将所述文本矩阵中小于或等于所述预设掩模阈值的单位矩阵的取值调整为所述第一数值，将所述文本矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为所述第二数值，得到与所述文本背景掩模对应的所述文本背景二值掩模；

当所述掩模矩阵为所述第一关键词矩阵时，将所述第一关键词矩阵中小于或等于所述预设掩模阈值的单位矩阵的取值调整为所述第一数值，将所述第一关键词矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为所述第二数值，得到与所述关键词背景掩模对应的所述关键词背景二值掩模。

在一个实施例中，掩模联通区域包括与文本背景二值掩模对应的文本联通区域以及与关键词背景掩模对应的关键词联通区域；所述文本背景二值掩模和所述关键词联通区域属于所述目标二值掩模；

处理器1004在执行确定所述目标二值掩模中的掩模联通区域时，具体执行以下步骤：

在所述文本背景二值掩模中，确定第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述文本联通区域；

在所述关键词背景二值掩模中，确定所述第一数值的单位矩阵所组成的联通区域，以确定的联通区域作为所述关键词联通区域。

在一个实施例中，与所述文本对象相关联的文本图像区域包括文本区域和关键词区域；

处理器1004在执行根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域时，具体执行以下步骤：

获取包含所述文本联通区域的最小矩形框在所述文本背景二值掩模中的第一位置信息，将在所述目标图像中与所述第一位置信息对应的图像区域作为所述文本区域；

获取包含所述关键词联通区域的最小矩形框在所述关键词背景二值掩模中的第二位置信息，将在所述目标图像中与所述第二位置信息对应的图像区域作为所述关键词区域。

在一个实施例中，初始掩模还包括与多种预选关键词分别各自对应的关键词类别掩模；

处理器1004还执行以下步骤：

对所述关键词类别掩模进行插值处理，得到与所述目标图像尺寸相同的第二关键词矩阵；

在所述第二关键词矩阵中提取与所述关键词联通区域对应的第二关键词子矩阵，根据所第二关键词子矩阵确定与所述关键词类别掩模对应的置信度；

将具有最大置信度的关键词类别掩模对应的预选关键词确定为与所述关键词区域对应的目标关键词，并在所述目标图像中标记所述目标关键词。

在一个实施例中，处理器1004在执行确定所述文本对象在所述目标图像中的候选区域时，具体执行以下步骤：

基于目标特征金字塔网络，提取所述目标图像的层次卷积特征信息；所述层次卷积特征信息包括与第一尺寸对应的第一卷积特征信息以及与第二尺寸对应的第二卷积特征信息；

基于目标候选区域提取网络从所述第一卷积特征信息中确定第一兴趣区域；

基于所述目标候选区域提取网络从所述第二卷积特征信息中确定第二兴趣区域；

从所述第一兴趣区域和所述第二兴趣区域组成的兴趣区域集合中，选择所述候选区域。

在一个实施例中，处理器1004在执行基于目标特征金字塔网络，提取所述目标图像的层次卷积特征信息时，具体执行以下步骤：

基于所述目标特征金字塔网络中的第一卷积层，对所述目标图像进行卷积，得到第一原始特征信息；

基于所述目标特征金字塔网络中的第二卷积层，对所述第一原始特征信息进行卷积，得到第二原始特征信息；

调整所述第一原始特征信息的数据通道数，得到第一转换特征信息；

调整所述第二原始特征信息的数据通道数，得到第二转换特征信息；所述第一转换特征信息和所述第二转换特征信息具有相同的数据通道数；

对所述第二转换特征信息进行上采样，得到第三转换特征信息；

将所述第三转换特征信息与所述第一转换特征信息叠加为第四转换特征信息；

将所述第四转换特征信息确定为所述第一卷积特征信息，并将所述第二转换特征信息确定为所述第二卷积特征信息。

在一个实施例中，处理器1004在执行基于目标候选区域提取网络从所述第一卷积特征信息中确定第一兴趣区域时，具体执行以下步骤：

基于所述目标候选区域提取网络中的卷积层，对所述第一卷积特征信息进行卷积，得到区域卷积特征信息，并根据所述第一尺寸对应的尺寸系数，在所述区域卷积特征信息中确定多个单位区域卷积特征信息；

基于所述目标候选区域提取网络中的池化层，对每个单位区域卷积特征信息分别进行池化，得到多个第一池化特征信息；

基于所述目标候选区域提取网络中的的分类器，确定与每个第一池化特征信息分别对应的前景系数；

基于所述目标候选区域提取网络中的的回归器，确定与所述每个第一池化特征信息分别对应的区域偏移系数；

将前景系数大于分数阈值的第一池化特征信息作为待确定池化特征信息，根据所述尺寸系数和所述待确定池化特征信息对应的区域偏移系数，将所述待确定池化特征信息映射至目标图像，得到所述第一兴趣区域。

在一个实施例中，处理器1004在执行从所述第一兴趣区域和所述第二兴趣区域组成的兴趣区域集合中，选择所述候选区域时，具体执行以下步骤：

将所述第一兴趣区域和所述第二兴趣区域组合为所述兴趣区域集合；

获取所述兴趣区域集合中每个兴趣区域的前景系数，从所述兴趣区域集合中选择最大前景系数对应的兴趣区域，作为轮询兴趣区域，在所述兴趣区域集合包含的多个兴趣区域中，将与所述轮询兴趣区域之间的重叠面积小于面积阈值的兴趣区域，组合为所述兴趣区域集合；

当所述兴趣区域集合为空集时，将所有的轮询候选区域均确定为所述候选区域。

在一个实施例中，处理器1004在执行获取所述候选区域的候选区域特征信息时，具体执行以下步骤：

基于所述目标候选区域提取网络中的卷积层和池化层，确定与所述第二卷积特征信息对应的第二池化特征信息；

从所述第一池化特征信息和所述第二池化特征信息中，提取与所述候选区域对应的池化特征信息，作为所述候选区域特征信息。

在一个实施例中，处理器1004还执行以下步骤：

获取包含样本文本对象的样本文本图像；所述样本文本对象包括样本预选关键词；

确定所述样本文本对象在所述样本文本图像中的样本候选区域，获取所述样本候选区域的样本候选区域特征信息；

根据所述样本候选区域特征信息识别所述样本文本对象在所述样本文本图像中的预测区域，识别与所述预测区域对应的样本预测关键词；

获取所述样本文本对象在所述样本文本图像中的样本区域；

根据所述预测区域、所述样本区域、所述样本预选关键词和所述样本预测关键词确定预测误差；

根据所述预测误差生成目标特征金字塔网络、目标候选区域提取网络、文本检测网络和关键词检测网络；所述目标特征金字塔网络、目标候选区域提取网络、文本检测网络和所述关键词检测网络是用于识别所述目标图像中与文本对象相关联的文本图像区域。

应当理解，本发明实施例中所描述的电子设备1000可执行前文图3到图10所对应实施例中对所述图像处理方法的描述，也可执行前文图11所对应实施例中对所述图像处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的图像处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3到图10所对应实施例中对所述图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述初始掩模包括文本背景掩模和关键词背景掩模；

所述根据所述候选区域特征信息生成初始掩模，包括：

对所述候选区域特征信息进行上采样，得到输入特征信息；

3.根据权利要求1所述的方法，其特征在于，所述将所述初始掩模还原为目标二值掩模，包括：

4.根据权利要求3所述的方法，其特征在于，所述初始掩模包括文本背景掩模和关键词背景掩模；所述掩模矩阵包括文本矩阵和第一关键词矩阵；

所述对所述初始掩模进行插值处理，得到与所述目标图像尺寸相同的掩模矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标二值掩模包括文本背景二值掩模和与关键词背景二值掩模；

所述将所述掩模矩阵中小于或等于预设掩模阈值的单位矩阵的取值调整为第一数值，将所述掩模矩阵中大于所述预设掩模阈值的单位矩阵的取值调整为第二数值，得到目标二值掩模，包括：

6.根据权利要求1所述的方法，其特征在于，所述掩模联通区域包括与文本背景二值掩模对应的文本联通区域以及与关键词背景掩模对应的关键词联通区域；所述文本背景二值掩模和所述关键词联通区域属于所述目标二值掩模；

所述确定所述目标二值掩模中的掩模联通区域，包括：

7.根据权利要求6所述的方法，其特征在于，所述与所述文本对象相关联的文本图像区域包括文本区域和关键词区域；

所述根据所述掩模联通区域在所述目标图像中确定与所述文本对象相关联的文本图像区域，包括：

8.根据权利要求7所述的方法，其特征在于，所述初始掩模还包括与多种预选关键词分别各自对应的关键词类别掩模；

所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述确定所述文本对象在所述目标图像中的候选区域，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于目标特征金字塔网络，提取所述目标图像的层次卷积特征信息，包括：

11.根据权利要求9所述的方法，其特征在于，所述基于目标候选区域提取网络从所述第一卷积特征信息中确定第一兴趣区域，包括：

12.根据权利要求9所述的方法，其特征在于，所述从所述第一兴趣区域和所述第二兴趣区域组成的兴趣区域集合中，选择所述候选区域，包括：

13.根据权利要求11所述的方法，其特征在于，所述获取所述候选区域的候选区域特征信息，包括：

14.根据权利要求1所述的方法，其特征在于，还包括：

获取所述样本文本对象在所述样本文本图像中的样本区域；

15.一种图像处理装置，其特征在于，包括：

图像获取模块，用于获取包含文本对象的目标图像；

识别模块，用于根据所述候选区域特征信息生成初始掩模；

还原模块，用于将所述初始掩模还原为目标二值掩模；

16.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-14任一项所述的方法。

17.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-14任一项所述的方法。