CN111507352A

CN111507352A - 一种图像处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN111507352A
Application number: CN202010299553.7A
Authority: CN
Inventors: 熊唯; 黄飞; 柯戈扬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-07
Anticipated expiration: 2040-04-16
Also published as: CN111507352B

Abstract

本申请实施例公开了一种图像处理方法、装置、计算机设备以及存储介质，图像处理方法包括：获取输入图像，确定输入图像的前景区域；从输入图像中抽取前景区域对应的前景图像，识别前景图像得到输入图像的前景内容；根据前景区域获取输入图像的背景内容；对前景内容和背景内容进行处理，生成目标可编辑文件。采用本申请，可以提高图像识别的准确率。

Description

一种图像处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、装置、计算机设备以及存储介质。

背景技术

现在越来越多的资源信息是以图像的方式进行存储，采用图像存储的好处是后续不论采用任何平台、任何版本的图像软件打开图像时，图像内容以及内容的排版都不会发生变化。

但是采用图像存储用户就不能对图像中的内容进行编辑，目前可以采用字符识别技术识别图像中文字，将识别到的文字添加至可编辑文档中，后续用户就可以对可编辑文档中的文字进行编辑。

但字符识别技术仅仅能识别图像中的字符，不能识别图像中的表格或者图像等非文字内容，在图像还原为可编辑文档过程中，存在图像内容丢失的情况，导致图像识别的准确率低下。

发明内容

本申请实施例提供一种图像处理方法、装置、计算机设备以及存储介质，可以提高图像识别的准确率。

本申请实施例一方面提供了一种图像处理方法，包括：

获取输入图像，确定输入图像的前景区域；

从输入图像中抽取前景区域对应的前景图像，识别前景图像得到输入图像的前景内容；

根据前景区域获取输入图像的背景内容；

对前景内容和背景内容进行处理，生成目标可编辑文件。

本申请实施例一方面提供了一种图像处理方法，包括：

显示类型选择页面，类型选择页面包括文稿演示选项以及输入图像；

当文稿演示选项被触发时，获取输入图像对应的目标可编辑文件；目标可编辑文件是对输入图像的前景内容以及输入图像的背景内容还原处理得到，目标可编辑文件的文件类型属于文稿演示类型；

在文件显示页面显示目标可编辑文件，目标可编辑文件的前景内容与输入图像的前景内容一致，目标可编辑文件的背景内容与输入图像的背景内容一致。

其中，图像处理方法由第一终端执行，目标可编辑文件存储于服务器；

图像处理方法还包括：

当第一终端中不存在目标可编辑文件时，从服务器拉取目标可编辑文件。

本申请实施例一方面提供了一种图像处理装置，包括：

第一获取模块，用于获取输入图像，确定输入图像的前景区域；

抽取模块，用于从输入图像中抽取前景区域对应的前景图像；

识别模块，用于识别前景图像得到输入图像的前景内容；

第二获取模块，用于根据前景区域获取输入图像的背景内容；

还原模块，用于对前景内容和背景内容进行处理，生成目标可编辑文件。

其中，目标可编辑文件的文件类型属于文稿演示类型；

还原模块，具体用于调用文稿演示类型对应的链接库，创建原始可编辑文件；原始可编辑文件的文件类型属于文稿演示类型；以及根据背景内容修改原始可编辑文件的文件背景，获取前景图像在输入图像中的位置信息，根据位置信息将前景内容添加至修改后的原始可编辑文件的文件背景，得到目标可编辑文件。

其中，前景区域包括第一单位区域和第二单位区域，在输入图像中第一单位区域与第二单位区域满足包含关系；

抽取模块，具体用于从输入图像中抽取包含第一单位区域的最小矩形框对应的第一图像，获取第一图像的相对前景区域，根据第一图像和输入图像之间的对应关系，确定第二单位区域在第一图像中的参考区域，将参考区域和相对前景区域融合为第三单位区域，从第一图像中抽取包含第三单位区域的最小矩形框对应的第二图像，在第一图像中将第三单位区域设置为空白区域，将设置后的第一图像作为第三图像，将第二图像和第三图像组合为前景图像。

其中，识别模块，包括：

第一获取单元，用于获取第二图像的图像内容类型，根据第二图像的图像内容类型识别第二图像，得到第一单位前景内容；

补全单元，用于补全第三图像中的空白区域，并对补全后的第三图像进行边缘平滑处理得到第二单位前景内容，将第一单位前景内容和第二单位前景内容组合为前景内容。

其中，前景图像包括N个单位前景图像；N是大于0的整数；

识别模块，包括：

第二获取单元，用于获取单位前景图像的图像内容类型；

识别单元，用于根据单位前景图像的图像内容类型识别单位前景图像，得到单位前景内容；

第二获取单元，还用于将N个单位前景内容组合为前景内容。

其中，单位前景图像的图像内容类型包括文本类型；

识别单元，包括：

尺寸确定子单元，用于根据单位前景图像确定字符尺寸；

颜色确定子单元，用于根据单位前景图像确定字符颜色；

第一生成子单元，用于识别单位前景图像中的字符，根据字符尺寸、字符颜色以及单位前景图像中的字符生成文本，将文本作为单位前景内容。

其中，尺寸确定子单元，具体用于在N个单位前景图像中确定与单位前景图像满足相邻关系的相邻单位前景图像；相邻单位前景图像的图像内容类型包括文本类型；以及根据单位前景图像的图像尺寸以及相邻单位前景图像的图像尺寸确定字符尺寸。

其中，颜色确定子单元，具体用于识别单位前景图像的文本前景区域和文本背景区域；文本前景区域包括多个单位前景像素；以及根据多个单位前景像素的颜色确定字符颜色。

其中，单位前景图像的图像内容类型包括图像类型；

识别单元，包括：

平滑子单元，用于对单位前景图像进行边缘平滑处理，得到平滑图像，将平滑图像作为单位前景内容。

其中，单位前景图像的图像内容类型包括表格类型；

识别单元，包括：

第二生成子单元，用于将单位前景图像拆分为多个单位表格图像，根据多个单位表格图像确定表格样式，识别每个单位表格图像中的字符，根据表格样式以及每个单位表格图像中的字符生成表格，将表格作为单位前景内容。

其中，第二获取模块，具体用于在输入图像中将前景区域设置为空白区域，将设置后的输入图像作为原始背景图像，补全原始背景图像中的空白区域，得到背景内容。

其中，第一获取模块，包括：

预处理单元，用于获取原始图像，对原始图像进行图像预处理，得到输入图像；图像预处理包括图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理中的至少一个，输入图像的长宽比和目标可编辑文件的长宽比相同；

分割单元，用于对输入图像进行语义分割处理，确定输入图像的前景区域。

其中，分割单元，具体用于调用双向语义分割模型中的空间特征提取单位模型，提取输入图像的空间特征，调用双向语义分割模型中的语义特征提取单位模型，提取输入图像的语义特征，将空间特征和语义特征融合为输入图像的空间语义特征，对空间语义特征上采样，得到M个前景掩模，将M个前景掩模均转换为二值掩模；二值掩膜的尺寸和输入图像的尺寸相同；以及在M个二值掩模中确定联通区域集合，获取联通区域集合在M个二值掩模中的区域位置信息集合；M是大于0的整数；将在输入图像中与区域位置信息集合对应的图像区域作为前景区域。

本申请实施例一方面提供了一种图像处理装置，包括：

显示模块，用于显示类型选择页面，类型选择页面包括文稿演示选项以及输入图像；

第三获取模块，用于当文稿演示选项被触发时，获取输入图像对应的目标可编辑文件；目标可编辑文件是对输入图像的前景内容以及输入图像的背景内容还原处理得到，目标可编辑文件的文件类型属于文稿演示类型；

显示模块，还用于在文件显示页面显示目标可编辑文件，目标可编辑文件的前景内容与输入图像的前景内容一致，目标可编辑文件的背景内容与输入图像的背景内容一致。

其中，装置应用于第一终端，文件显示页面还包括文件分享选项；

装置还包括：

响应模块，用于响应于对文件分享选项的触发操作，在对象选择页面显示多个用户选项，响应于对目标用户选项的触发操作，将目标可编辑文件发送至目标用户选项对应的第二终端；目标用户选项是多个用户选项中的任一用户选项；以及获取与第二终端相关联的针对目标可编辑文件的用户行为数据，根据用户行为数据调整目标可编辑文件，在文件显示页面显示调整后的目标可编辑文件。

其中，装置应用于第一终端，目标可编辑文件存储于服务器；

装置还包括：

拉取模块，用于当第一终端中不存在目标可编辑文件时，从服务器拉取目标可编辑文件。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请通过识别输入图像的前景区域，由前景区域获取输入图像的前景内容和背景内容，分别对前景内容和背景内容还原，生成可编辑文件。可见，无论是图像的前景内容还是背景内容，都进行了还原，保证图像内容没有丢失，可以提高图像识别的准确率；进一步地，由设备自动将图像的前景内容和背景内容还原为可编辑文件，在保证图像的全部内容都被还原为可编辑文件的前提下，不需要人工参与由设备自动完成，可以缩短图像识别的耗时，提高图像识别的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理的系统架构图；

图2a-图2b是本申请实施例提供的一种图像处理的场景示意图；

图3是本申请实施例提供的一种图像处理方法的流程示意图；

图4是本申请实施例提供的一种图像预处理的流程示意图；

图5是本申请实施例提供的一种图像预处理的结果示意图；

图6是本申请实施例提供的一种语义分割的结果示意图；

图7a-图7c是双向语义分割模型的结构示意图；

图8a-图8d是本申请实施例提供的一种确定背景内容的示意图；

图9是本申请实施例提供的一种图像处理的流程框架图；

图10是本申请实施例提供的一种图像处理方法的流程示意图；

图11a-图11g是本申请实施例提供的一种确定字符颜色的示意图；

图12a-图12f是本申请实施例提供的一种图像还原的示意图；

图13是本申请实施例提供的一种图像处理方法的流程示意图；

图14a-图14d是本申请实施例提供的一种确定前景内容的示意图；

图15a-图15d是本申请提供的图像还原的结果示意图；

图16a-图16d是本申请提供的图像还原的结果示意图；

图17a-图17d是本申请提供的图像还原的结果示意图；

图18a-图18d是本申请提供的图像还原的结果示意图；

图19是本申请实施例提供的一种图像处理方法的流程示意图；

图20a-图20d是本申请实施例提供的一种图像处理的示意图；

图21a-图21c是本申请实施例提供的一种图像处理的示意图；

图22是本申请实施例提供的一种图像处理方法的流程示意图；

图23是本申请实施例提供的一种图像处理装置的结构示意图；

图24是本申请实施例提供的一种图像处理装置的结构示意图；

图25是本发明实施例提供的一种计算机设备的结构示意图；

图26是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)。计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

在本申请中，主要涉及识别图像的前景区域，以及根据前景区域识别图像的前景内容和背景内容，以保证在图像被还原为可编辑文件过程中图像内容不丢失，提高图像识别的准确率。

本申请可以应用于如下场景：当用户对着电子文档(或者纸质文档)拍摄了照片后，可以采用本申请可以将照片中的内容全部还原为可编辑文件(例如，演示文稿文件，文档文件或者工作表文件)，且可编辑文件的内容排版与照片的内容排版相同，后续用户就可以在可编辑文件中对照片中的内容进行编辑。

请参见图1，是本申请实施例提供的一种图像处理的系统架构图。本申请涉及服务器10d以及终端设备集群，终端设备集群可以包括多个终端设备，如终端设备10a、终端设备10b、终端设备10c等等。

以终端设备10a为例，当用户需要将图像中的内容还原为可编辑文件时，用户可以向终端设备10a输入待还原的输入图像，终端设备10a将输入图像发送至服务器10d。服务器10d确定该输入图像的前景区域，从输入图像中抽取前景区域对应的前景图像，识别前景图像以获取输入图像的前景内容，同时根据前景区域获取输入图像的背景内容。分别对输入图像的前景内容和背景内容进行还原，以得到目标可编辑文件，服务器10d可以将目标可编辑文件发送至终端设备10a。终端设备10a显示该目标可编辑文件，后续用户就可以对目标可编辑文件中的内容进行编辑操作(例如，修改操作，删除操作或者新增操作等)。

当然，将图像还原为目标可编辑文件也可以由终端设备10a来执行，即由终端设备10a确定输入图像的前景区域，进而确定输入图像的前景内容和背景内容，以及将前景内容和背景内容还原为目标可编辑文件。

其中，图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、可穿戴设备或者其他可进行文件操作的智能设备。

下述图2a-图2b以服务器10d如何将一张图像还原为可编辑文件为例进行说明：

请参见图2a-图2b，是本申请实施例提供的一种图像处理的场景示意图。如图2a所示，服务器10d获取当前待还原的图像20a，调用语义分割模型识别图像20a中每个像素的图像内容类型，图像内容类型可以包括文本类型，图像类型，表格类型以及背景类型等。若某个像素的图像内容类型是文本类型，说明该像素是图像20a中的文本所在的像素；若某个像素的图像内容类型是图像类型，说明该像素是图像20a中的图像所在的像素；若某个像素的图像内容类型是表格类型，说明该像素是图像20a中的表格所在的像素；若某个像素的图像内容类型是背景类型，说明该像素是图像20a中的背景所在的像素。

服务器10d可以将属于文本类型的像素所组成的联通区域作为文本区域，将属于图像类型的像素所组成的联通区域作为图像区域，将属于背景类型的像素所组成的联通区域作为背景区域。

如图2a所示，图像20b是图像20a语义分割后的结果示意图，从图像20b可以看出，语义分割后可以将图像20a划分为文本区域20c、文本区域20d、文本区域20x，图像区域20e，其余的区域是背景区域。

服务器10d可以从图像20a中抽取文本区域20c对应的文本图像，采用字符识别技术识别该文本图像中的字符，如图2b所示服务器10d将识别到的字符组合为文本20f。服务器10d从图像20a中抽取文本区域20d对应的文本图像，采用字符识别技术识别该文本图像中的字符，如图2b所示服务器10d将识别到的字符组合为文本20g。服务器10d可以从图像20a中抽取文本区域20x对应的文本图像，采用字符识别技术识别该文本图像中的字符，如图2b所示服务器10d将识别到的字符组合为文本20y。服务器10d可以从图像20a中抽取图像区域20e对应的图像，得到图2b中的图像20h。

服务器10d将图像20a中的文本区域20c、文本区域20d、文本区域20x以及图像区域20e设置为空白区域，得到原始背景图像。服务器10d补全原始背景图像中的空白区域，即是向原始背景图像中的空白区域填充内容，以得到背景图像20j。

需要说明的是，服务器10d重建文本20f、文本20g、文本20y、图像20h以及背景图像20j的前后顺序没有限定。

服务器10d可以创建空白可编辑文件，将背景图像20j设置为空白可编辑文件的文件背景，得到原始可编辑文件。获取文本区域20c在图像20a中的位置信息，根据图像20a和原始可编辑之间的对应关系，确定文本区域20c在原始可编辑文件中的位置坐标，按照该位置坐标将文本20f添加至原始可编辑文件；按照同样的方式，服务器10d将文本20g以及文本20y添加至原始可编辑文件。服务器10d获取图像区域20e在图像20a中的位置信息，根据图像20a和原始可编辑之间的对应关系，确定图像区域20e在原始可编辑文件中的位置坐标，按照该位置坐标将图像20h添加至原始可编辑文件。

至此，得到了可编辑文件20k，后续用户可以对可编辑文件20k中的文本、图像以及背景进行进一步地编辑，可编辑文件20k的文件类型可以是文稿演示类型(文稿演示类型的文件后缀名为ppt或者pptx)，可以是文档类型(文档类型的文件后缀名为doc或者docx)，可以是工作表类型(工作表类型的文件后缀名为xls或者xlsx)，还可以是在线协作文件类型，当可编辑文件20k属于在线协作文件类型时，说明多个用户可以对可编辑文件20k进行协同编辑。

需要说明的是，由于文本20f、文本20g、文本20y以及图像20h在图像20a中不存在重叠，服务器10d将文本20f、文本20g、文本20y以及图像20h添加至原始可编辑文件的顺序没有限定。

其中，获取输入图像(如上述实施例中的图像20a)的前景内容(如上述实施例中的文本20f、文本20g、文本20y以及图像20h)以及背景内容(如上述实施例中的背景图像20j)，以及将前景内容和背景内容还原为目标可编辑文件(如上述实施例中的可编辑文件20k)的具体过程可以参见下述图3-图22对应的实施例。

请参见图3，是本申请实施例提供的一种图像处理方法的流程示意图，本实施例主要涉及如何将图像还原为可编辑文件，图像处理方法可以包括如下步骤：

步骤S101，获取输入图像，确定输入图像的前景区域。

由于将图像还原为可编辑文件涉及大量的运算，下述实施例以性能更好的服务器为执行主体进行描述：

具体的，服务器(如上述图2a-图2b对应实施例中的服务器10d)获取当前待还原的图像(称为输入图像，如上述图2a-图2b对应实施例中的图像20a)，输入图像可以是用户通过成像软件(例如，相机软件)对电子文档或者纸质文档实时拍摄生成的，也可以是用户从相册中选择的。

由于实时拍摄的照片或者从相册中选择的照片可能存在噪声，因此服务器可以先将实时拍摄的照片或者从相册中选择的照片作为原始图像，对原始图像进行图像预处理，将图像预处理后原始图像再作为输入图像。

其中，图像预处理可以包括图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理中的至少一个。

图像框选处理是指对原始图像中需要被还原为可编辑文件的区域进行自动框选，删除原始图像中与还原内容无关的背景部分。

图像旋转处理是指以某一个点为中心对原始图像进行旋转，使得旋转后的图像处于正常平面状态。

摩尔纹去除处理是指去除原始图像中的摩尔纹，其中摩尔纹是一种在数码照相机或者扫描仪等设备上，感光元件出现的高频干扰造成图像中出现的不规则的条纹。

扭曲恢复处理是指矫正原始输入图中的扭曲内容，使得扭曲恢复后的原始输入图像处于正常平面状态。

尺寸调整处理是指调整原始输入图像的长和宽，以及调整原始输入图像的长宽比。

图像预处理后的输入图像的长宽比和还原生成的目标可编辑文件的长宽比相同。举例来说，若还原生成的目标可编辑文件的文件类型是文档类型(即目标可编辑文件的后缀名为doc或者docx)，说明目标可编辑文件的长宽比为4：5，那么预处理后的输入图像的长宽比也是4：5；若还原生成的目标可编辑文件的文件类型是文稿演示类型(即目标可编辑文件的后缀名为ppt或者pptx)，说明目标可编辑文件的长宽比为4：3，那么预处理后的输入图像的长宽比也是4：3。

如图4所示，是本申请实施例提供的一种图像预处理的流程示意图。当图像预处理包括图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理时，图像预处理包括如下步骤：

步骤S201，对用户输入的原始图像进行图像框选处理，以删除原始图像中与还原内容无关的背景。

步骤S202，对图像框选后的原始图像进行图像旋转，使得旋转后的图像处于正常平面状态。

步骤S203，去除步骤S202输出的图像中的摩尔纹。

步骤S204，对摩尔纹去除后的图像进行扭曲恢复处理，以矫正图像中的扭曲内容。

步骤S205，调整扭曲恢复处理后的图像的尺寸以及长宽比，使得调整后的图像的长宽比和还原生成的目标可编辑文件的长宽比相同。

对原始图像的图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理的前后顺序没有限定。

请参见图5，是本申请实施例提供的一种图像预处理的结果示意图，如图4所示，图像30a是原始图像，从图5中看出图像30a中包括与还原内容无关的背景部分以及摩尔纹，同时原始图像30a还存在文本扭曲的情况。服务器可以对原始图像30a进行图像框选处理，以删除原始图像30a中的背景部分；服务器对原始图像30a进行摩尔纹去除处理，以去除原始图像30a中的摩尔纹；服务器对原始图像30a进行扭曲恢复处理，以矫正原始图像30a中的文本；服务器调整原始图像30a的长宽比以尺寸，可以得到输入图像30b。

服务器可以对输入图像进行语义分割处理，确定输入图像中的每个像素的图像内容类型，图像内容类型可以包括前景类型和背景类型，前景类型又可以进一步包括文本类型，图像类型以及表格类型等。服务器可以在输入图像中将属于前景类型的像素所构成的联通区域称为前景区域(如上述图2a-图2b对应实施例中的文本区域20c、文本区域20d、文本区域20x以及图像区域20e)，对应地，输入图像中剩余的区域称为背景区域。

其中，前景区域是指输入图像的主要内容所在的区域(例如文本所在的区域，表格所在的区域，前景图像所在的区域等)，一般来说，前景区域对应的前景内容是叠加于背景区域对应的背景内容之上的。换句话说，距离镜头更近是前景内容，距离镜头更远的是背景内容。

下面对如何对输入图像进行语义分割处理进行具体的说明：本申请通过调用双向语义分割模型来确定每个像素的图像内容类型，语义分割模型可以是Bisetnet框架+Resnet结构。双向语义分割模型包括空间特征提取单位模型以及语义特征提取单位模型，空间特征提取单位模型可以提取输入图像的空间特征；语义特征提取单位模型可以提取输入图像的语义特征。将输入图像的空间特征以及语义特征融合为空间语义特征，对空间语义特征进行上采样，得到M个前景掩模和1个背景掩模，M是大于0的整数。前景掩模的数量和前景类型所包含的类型的数量相同，前景掩模和背景掩模的尺寸相同，一般来说前景掩模(或者背景掩模)的尺寸小于输入图像的尺寸的。

每个前景掩模都对应1个掩模标签，该掩模标签可以表明该前景掩模所对应的图像内容类型。例如，若前景类型包含文本类型和图像类型，那么前景掩模的数量就是2，且其中一个前景掩模的掩膜标签是文本类型，另一个前景掩模的掩膜标签是图像类型。

将M个前景掩模分别进行插值得到M个前景插值掩模，将背景掩模进行插值得到背景插值掩模，每个前景插值掩模的尺寸和背景插值掩模的尺寸都与输入图像的尺寸相同，每个前景插值掩模包括多个单位前景插值掩模，背景插值掩模也包括多个单位背景插值掩模，一个像素与M个单位前景插值掩模和1个单位背景插值掩模具有对应关系。

对M个前景掩模中的每个一个单位前景插值掩模来说，若该单位前景插值掩模的掩模值大于掩模阈值，则将该单位前景插值掩模的掩模值设置为1，否则设置为0，对每一个单位背景插值掩模来说，若该单位背景插值掩模的掩模值大于掩模阈值，则将该单位背景插值掩模的掩模值设置为1，否则设置为0。对1个像素对应的M个单位前景插值掩模的M个掩模值和1个单位背景插值掩模的1个掩模值来说，只有1个为1，其余的都是0。对1个像素来说，若在M个单位前景插值掩模的M个掩模值中存在数值1，说明该像素属于前景类型，若单位背景插值掩模的掩模值等于数值1，说明该像素属于背景类型。

这样就将M个前景插值掩模转换为了M个二值掩模，每个二值掩模包括多个单位二值掩模。对1个二值掩模来说，在该二值掩模中确定联通区域，且联通区域中的单位二值掩模的掩模值均等于1。获取该联通区域在该二值掩模中的区域位置信息，在输入图像中将该区域位置信息对应的图像区域作为单位前景区域，获取该单位前景区域对应的前景掩模的掩模标签，根据掩模标签确定单位前景区域的图像内容类型。对其余的二值掩模来说，可以采用同样的方式确定联通区域以及确定联通区域在二值掩模中的区域位置信息，进而根据区域位置信息确定单位前景区域以及单位前景区域的图像内容类型。所有的联通区域可以称为联通区域集合，所有的区域位置信息可以称为区域位置信息集合。

其中，连通区域(Connected Component)是指图像中具有相同像素值且位置相邻的像素组成的图像区域，位置相邻是指两个像素满足邻接关系(可以是4邻接关系或者8邻接关系)。例如，若在图像中像素A位于像素B的上方(或者下方，或者左方，或者右方)，说明像素A和像素B满足4邻接关系；若在图像中像素A位于像素B的上方(或者下方，或者左方，或者右方，或者左上方，或者右上方，或者左下方，或者右下方)，说明像素A和像素B满足8邻接关系。

服务器可以将多个单位前景区域(如上述图2a-图2b对应实施例中的文本区域20c、文本区域20d、文本区域20x以及图像区域20e)组合为前景区域。

请参见图6，是本申请实施例提供的一种语义分割的结果示意图，从图6可以看出，输入图像30c包含2个文本和1个表格，其中一个文本记载的字符为“大标题”，另一个文本记载的字符为“小标题1”，对输入图像30c进行语义分割处理后，可以确定每个像素的图像内容类型是文本类型，表格类型或者背景类型。图像30d是输入图像30c的语义分割结果示意图，图像30d的尺寸和输入图像30c的尺寸相同，将图像内容类型是文本类型的像素所构成的联通区域称为文本区域，将图像内容类型是表格类型的像素所构成的联通区域称为表格区域，剩余的区域即是背景区域。将输入图像30c语义分割后，可以识别到2个文本区域，1个表格区域，剩余的都是背景区域。

请参见图7a-图7c，图7a是双向语义分割模型的结构示意图，图7b是双向语义分割模型中的注意力补充模块示意图，图7c是双向语义分割模型中的特征融合模块示意图。图7a中的空间路径即对应本申请中的空间特征提取单位模型，语义路径即对应本申请中的语义特征提取单位模型。从图7a可以看出，将输入图像输入双向语义分割模型后，空间路径所对应的卷积运算，规范化运算以及激活函数会提取输入图像的空间特征，语义路径所对应的下采样以及注意力补充模块会提取输入图像的语义特征，特征融合模块会将提取的空间特征以及语义特征融合为空间语义特征，对空间语义特征进行上采样，得到多个前景掩模。通过前景掩模确定每个像素的图像内容类型，进而确定多个单位前景区域和背景区域，以及确定每个单位前景区域的图像内容类型，其中前景区域包括多个单位前景区域。

步骤S102，从输入图像中抽取前景区域对应的前景图像，识别前景图像得到输入图像的前景内容。

具体的，当前景区域包括N个单位前景区域(N是大于0的整数)，且这N个单位前景区域中的任意两个单位前景区域在输入图像中均不满足包含关系时，对1个单位前景区域来说，服务器可以在输入图像中确定包含该单位前景区域的最小矩形框，从输入图像中抽取该最小矩形框对应的图像，将抽取的图像作为单位前景图像，将该单位前景区域的图像内容类型作为该单位前景图像的图像内容类型，可以知道，单位前景图像的图像内容类型可以包括文本类型，图像类型以及表格类型中的至少一个。

对其余的单位前景区域来说，也采用相同的方式确定与之对应的单位前景图像，以及确定该单位前景图像的图像内容类型。服务器可以将N个单位前景图像组合为前景图像。

对每个单位前景图像来说，根据该单位前景图像的图像内容类型识别该单位前景图像，得到该单位前景图像的单位前景内容，N个单位前景内容可以组合为输入图像的前景内容(如上述图2a-图2b对应实施例中的文本20f、文本20g、文本20y以及图像20h)。

其中，当在输入图像中其中一个单位前景区域包围另一个单位前景区域，说明这两个单位前景区域满足包含关系，否则就说明这两个单位前景区域不满足包含关系。

当前景区域包括两个单位前景区域(称为第一单位区域和第二单位区域)，且第一单位区域和第二单位区域满足包含关系时，服务器从输入图像中抽取第一区域对应的第一图像，对第一图像进行语义分割处理，以确定第一图像的前景区域(称为相对前景区域)。服务器确定输入图像的第二单位区域在第一图像中的参考区域，将参考区域和上述相对前景区域融合为第三单位区域，也就相当于在第一图像中修正第二单位区域。从第一图像中抽取第三单位区域对应的图像(称为第二图像)，在第一图像中将第三单位区域设置为空白区域，将设置后的图像作为第三图像。服务器可以将第二图像和第三图像组合为前景图像，根据第二图像的图像内容类型，确定第二图像的第一单位前景内容。补全第三图像中的空白区域，得到第三图像的第二单位前景内容，将第一单位前景内容和第二单位前景内容组合为前景内容。换句话说，第一单位前景内容即是第二单位区域中的图像内容，第二单位前景内容即是第一单位区域中的图像内容。

需要说明的是，这两种情况可以同时存在，当前景区域包括第一单位区域和第二单位区域，以及N个单位前景区域时，其中第一单位区域和第二单位区域满足包含关系，且N个单位前景区域中的任意两个单位前景区域在输入图像中均不满足包含关系。参见上述方式，服务器可以将根据第一单位区域和第二单位区域获取到第一单位前景内容和第二单位前景内容，根据N个单位前景区域获取到N个单位前景内容，此时将前述第一单位前景内容、第二单位前景内容以及N个单位前景内容一起组合为前景内容。

步骤S103，根据前景区域获取输入图像的背景内容。

具体的，服务器在输入图像中将前景区域设置为空白区域，将设置后的输入图像作为原始背景图像，可以知道，此时原始背景图像的尺寸和输入图像的尺寸一致，只是原始背景图像中存在空白区域。

服务器补全原始背景图像中的空白区域，补全是指向原始背景图像中的空白区域填充内容，且填充的内容与原始背景图像中的非空白区域的内容相同。补全后的原始背景图像即是输入图像的背景内容(如上述图2a-图2b对应实施例中的背景图像20j)。

补全方式是从空白区域的边界向空白区域的中心补全。下述以补全空白区域中的一个空白像素为例进行说明：

获取与空白像素相邻的像素集合，此处的相邻可以是4个方向上的相邻，也可以是8个方向上的相邻，每个像素都包括R、G、B 3个通道的颜色值。服务器将像素集合中所有像素的R通道颜色均值作为空白像素的R通道颜色值，将像素集合中所有像素的G通道颜色均值作为空白像素的G通道颜色值，将像素集合中所有像素的B通道颜色均值作为空白像素的B通道颜色值。这样就补全了该空白像素。

其余的空白像素可以按照相同的方式进行补全，采用这种方式可以向原始背景图像的空白区域填充内容，以得到输入图像的背景内容。

请参见图8a-图8d，是本申请实施例提供的一种确定背景内容的示意图，图8a对应的图像是输入图像，对输入图像进行语义分割后可以确定图像内容类型为文本类型的单位前景区域(即对应图8b中的文本区域)，将输入图像中的文本区域设置为空白区域，即可得到原始背景图像，如图8c对应的图像即是原始背景图像。从图8c可以看出，若不补全原始背景图像，直接将原始背景图像作为背景内容，背景内容就会有一些突兀的空白区域，还原效果不好。因此，本方案还会对原始背景图像进行补全，如图8d对应的图像即是补全原始图像后得到的图像。从图8d可以看出，补全后的图像更自然，没有突兀的白色区域，还原效果更好。

步骤S104，对前景内容和背景内容进行处理，生成目标可编辑文件。

具体的，最后还原的目标可编辑文件的文件类型可以是文稿演示类型，可以是文档类型也可以是工作表类型。

当目标可编辑文件的文件类型是文稿演示类型时，服务器可以调用文稿演示类型对应的链接库，创建原始可编辑文件，根据输入图像的背景内容调整原始可编辑文件的文件背景。获取前景图像在输入图像中的位置信息，根据输入图像和原始可编辑文件之间的对应关系，确定前景图像在原始可编辑文件中的目标位置信息。根据该目标位置信息将前景内容添加至原始可编辑文件的文件背景，得到目标可编辑文件(如上述图2a-图2b对应实施例中的可编辑文件20k)。换句话说，输入图像的前景内容和目标可编辑文件的前景内容相同，输入图像的背景内容和目标可编辑文件的背景内容相同。

举例来说，若前景图像在输入图像中的位置信息是：([0,0]、[10,0]、[10,10]、[0,10])，上述4项分别表示前景图像的4个顶点在输入图像中的位置坐标，此时的位置坐标的单位是像素。假设输入图像的尺寸是100pi×100pi，且原始可编辑文件的尺寸是20cm×20cm，因此，前景图像在原始可编辑文件中的目标位置信息可以是：([0,0]、[2,0]、[2,2]、[2,2])，上述4项分别表示前景图像的4个顶点在原始可编辑文件中的目标位置信息，此时目标位置信息的单位是cm。可以将前景内容添加至原始可编辑文件中[0,0]、[2,0]、[2,2]、[2,2]对应的区域中。

进一步地，目标可编辑文件可以是在线文件，属于在线文件的目标可编辑文件是与用户账号关联存储在服务器中，在任何终端中启动与上述服务器对应的客户端，且与目标可编辑文件关联的用户账号登录了该客户端，任何终端中的客户端可以显示上述目标可编辑文件。

请参见图9，是本申请实施例提供的一种图像处理的流程框架图，图像处理包括获取原始图像，对原始图像进行图像框选以及图像增强，图像框选是为了删除输入图像中与图像还原内容无关的背景，图像增强是为了增强前景和背景之间的对比度。将图像框选以及图像增强后的原始图像作为输入图像，对输入图像进行语义分割，以确定输入图像中的前景区域。根据前景区域抽取出前景图像，根据前景图像对前景内容和背景内容进行重建(背景内容重建即是图9中的背景重建)，前景内容重建可以包括：表格重建，图片重建以及文本重建。将重建得到的前景内容和背景内容插入原始可编辑文件，得到目标可编辑文件，可以将目标可编辑文件导出至终端本地。

上述可知，输入图像是经过图像预处理后的图像，删除了原始图像中与图像还原内容无关的背景以及矫正了原始图像中的扭曲内容，可以提高后续图像还原的准确率；同时，属于图像类型以及表格类型的单位前景图像都可以还原为目标可编辑文件，避免图像中的非字符内容不能被还原的情况；输入图像的背景内容是进行了图像补全处理的图像，背景内容自然不会存在空白区域，可以提高还原效果；再有，还原后的可编辑文件属于文稿演示类型，可以丰富由图像还原为可编辑文件的文件类型，扩大应用范围。

请参见图10，是本申请实施例提供的一种图像处理方法的流程示意图，本实施例主要涉及当单位前景图像不存在叠加时，如何获取前景内容。图像处理方法可以包括如下步骤：

步骤S401，获取输入图像，确定输入图像的前景区域。

其中，步骤S401的具体过程可以参见上述图3对应实施例中的步骤S101。

步骤S402，从输入图像中抽取前景区域对应的前景图像。

具体的，前景区域包括N个单位前景区域，且N个单位前景区域中的任意两个单位前景区域在输入图像中均不满足包含关系，对1个单位前景区域来说，服务器可以在输入图像中确定包含该单位前景区域的最小矩形框，从输入图像中抽取该最小矩形框对应的图像，将抽取的图像作为单位前景图像，根据该单位前景图像对应的前景掩模的掩模标签获取该单位前景图像的图像内容类型。单位前景图像的图像内容类型可以包括文本类型，图像类型以及表格类型中的至少一个。

对其余的单位前景区域来说，服务器也采用相同的方式确定与之对应的单位前景图像，以及该单位前景图像的图像内容类型。

服务器可以将N个单位前景图像组合为前景图像。

下述步骤S403-步骤S406以一个单位前景图像为例进行说明如何确定该单位前景图像的单位前景内容：

当单位前景图像的图像内容类型包括文本类型时，执行步骤S403-步骤S404；当单位前景图像的图像内容类型包括图像类型时，执行步骤S405：当单位前景图像的图像内容类型包括表格类型时，执行步骤S406。

步骤S403，根据单位前景图像确定字符尺寸，根据单位前景图像确定字符颜色。

具体的，当图像内容类型包括文本类型时，说明此时单位前景图像的图像内容是字符。服务器检测剩余的N-1个单位前景图像中，是否存在与该单位前景图像满足相邻关系的单位前景图像，若不存在，那么服务器仅根据该单位前景图像就可以确定该单位前景图像的字符尺寸；若存在，服务器将与该单位前景图像满足相邻关系的单位前景图像作为相邻单位前景图像，服务器根据该单位前景图像以及相邻单位前景图像共同确定该单位前景图像的字符尺寸。

其中，在输入图像中，单位前景图像对应的单位前景区域和相邻单位前景图像对应的单位前景区域之间的距离小于距离阈值，且相邻单位前景图像的图像内容类型包括文本类型。

下面对第一种情况(即仅根据1个单位前景图像)，如何确定字符尺寸进行说明：

服务器可以获取单位前景图像的图像高度TH，单位前景图像的图像宽度TW，以及文本长度为TL(其中，文本长度TL＝该单位前景图像的单位前景区域的区域长度)，输入图像的图像高度CH，以及获取目标可编辑文件的文件高度OH和文件宽度OW。单位前景图像的图像高度TH、单位前景图像的图像宽度TW、文本长度为TL以及输入图像的图像高度CH的单位是像素，文件高度OH和文件宽度OW的单位是EMUs，当目标可编辑文件的文件类型属于文稿演示类型时，此时文件高度OH＝6858000EMUs，OW＝9144000EMUs，EMUs是用于基于矢量的绘图和嵌入图片中的坐标，是厘米(cm)和英寸(in)间的一个虚拟单位。1in等于914400Emus，1cm等于360000Emus，1in等于2.54cm。。

首先计算输入图像和可编辑文件之间的比例：ratio＝OH/CH。

字符尺寸f_size＝ratio*TH。

如果字符尺寸f_size*TL＞OW，f_size＝f_size*alpha，其中alpha可以等于0.9。每一行文本都对应一个单位前景图像，以行为单位来确定每一行的字符尺寸，可以保证在输入图像中是属于同一行的字符还原为目标可编辑文件后仍然属于同一行，行数不会发生变化，进而输入图像中的版式和目标可编辑文件的版式也保持不变。

下面对第二种情况(即根据单位前景图以及相邻单位前景图像)，如何共同确定字符尺寸进行说明：

和上面的方式一样，根据该单位前景图像确定第一字符尺寸f_size_1，确定的方式和前面一致，只需要将字符尺寸f_size调整为第一字符尺寸f_size_1即可。根据相邻单位前景图像确定第二字符尺寸f_size_2，确定的方式和也前面一致。将第一字符尺寸f_size_1和第二字符尺寸f_size_2的均值作为单位前景图像的字符尺寸f_size＝(f_size_1+f_size_)/2。

进一步地，当服务器处理相邻单位前景图像时，此时可以将上述确定的字符尺寸f_size直接作为相邻单位前景图像的字符尺寸。

第二种情况，主要应用于当属于文本类型的多个单位前景区域距离相近时，让这些相近的单位前景区域的单位前景图像的字符尺寸相同，使得目标可编辑文件的排版更加规范。

上述说明了如何确定单位前景图像的字符尺寸，下面对如何确定单位前景图像的字符颜色进行说明：

单位前景图像的图像内容类型虽然包括属于文本类型，但单位前景图像只有部分像素点是文本像素，其余的像素点是文本背景像素。服务器识别单位前景图像，确定文本前景区域和文本背景区域，其中服务器可以采用自适应二值化确定文本前景区域和文本背景区域。文本前景区域包括多个单位前景像素，将这多个单位前景像素的颜色均值作为该单位前景图像的字符颜色。

请参见图11a-图11g，是本申请实施例提供的一种确定字符颜色的示意图，图11a为输入图像，从图11a中抽取图像内容类型为文本类型的单位前景图像，假设抽取出图11b中的单位前景图像和图11c中的单位前景图像。图11b中的单位前景图像的背景内容为灰色图像，前景内容为白色文本，文本内容为“标题1”。识别图11b的单位前景图像的文本前景区域和文本背景区域，识别结果如图11d所示(文本前景区域用白色标识，文本背景区域的颜色用黑色标识)。将文本前景区域的颜色均值作为字符颜色，对图11b来说，字符颜色为白色。

图11c中的单位前景图像的背景内容为白色图像，前景内容为黑色文本，文本内容为“标题2”。识别图11c中的单位前景图像的文本前景区域和文本背景区域，识别结果如图11e所示(文本前景区域用白色标识，文本背景区域的颜色用黑色标识)。将文本前景区域的颜色均值作为字符颜色，对图11b来说，字符颜色为黑色。

图11f为输入图像，图11g是对输入图像还原后生成目标可编辑文件，从图11g可以看出，输入图像中“标题1”的字符颜色为白色，还原后的目标可编辑文件中“标题1”的字符颜色也为白色；输入图像中“标题2”的字符颜色为黑色，还原后的目标可编辑文件中“标题2”的字符颜色也为黑色。

步骤S404，识别单位前景图像中的字符，根据字符尺寸、字符颜色以及单位前景图像中的字符生成文本，将文本作为单位前景内容。

具体的，采用字符识别技术识别该单位前景图像中字符，根前述确定的字符尺寸、字符颜色以及识别到的字符生成文本，将该文本作为该单位前景图像的单位前景内容

需要说明的是，服务器确定字符尺寸、字符颜色以及识别单位前景图像中的字符的前后顺序没有限定。

步骤S405，对单位前景图像进行边缘平滑处理，得到平滑图像，将平滑图像作为单位前景内容。

具体的，当单位前景图像的图像内容类型包括图像类型时，说明此时单位前景图像的图像内容是图像。服务器直接对单位前景图像进行边缘平滑处理，得到平滑图像，边缘平滑处理是指消除单位前景图像中的噪声，使得单位前景图像更“清晰”。服务器可以将平滑图像作为该单位前景图像的单位前景内容。

步骤S406，将单位前景图像拆分为多个单位表格图像，根据多个单位表格图像确定表格样式，识别每个单位表格图像中的字符，根据表格样式以及每个单位表格图像中的字符生成表格，将表格作为单位前景内容。

具体的，当单位前景图像的图像内容类型包括表格类型时，说明此时单位前景图像的图像内容是表格。服务器可以识别单位前景图像中的横线和纵线，以将单位前景图像拆分为多个单位表格图像，每个单位表格图像对应一个单位表格。根据拆分得到的多个单位表格图像确定表格样式，表格样式可以包括：行列数，行高以及行宽等。采用字符识别技术识别每个单位表格图像中的字符，根据表格样式以及每个单位表格图像中的字符生成表格。服务器可以将该表格作为该单位前景图像的单位前景内容。

步骤S407，将N个单位前景内容组合为前景内容。

具体的，服务器可以采样上述方式来确定每个单位前景图像的单位前景内容，以及将N个单位前景内容组合为输入图像的前景内容。

步骤S408，根据前景区域获取输入图像的背景内容，对前景内容和背景内容进行处理，生成目标可编辑文件。

具体的，根据前景区域获取输入图像的背景内容具体过程可以参见上述图3对应实施例中的步骤S103。

请参见图12a-图12f，是本申请实施例提供的一种图像还原的示意图，图12a对应的图像是输入图像，从图12a可以看出输入图像的前景内容是3个文本，3个文本记载的字符分别为：“标题1”、“标题2”以及“标题3”，背景内容是灰色五角星图像。确定了前景区域后，将输入图像的前景区域设置为空白区域，可以得到原始背景图像(如图12b所示)。若不将原始背景图像补全，直接将原始背后图像作为输入图像的背景内容，还原前景内容和背景内容得到的结果如图12c所示。从图12c可以看出，直接将原始背景图像作为背景内容，前景区域中的白色和周围灰色背景差别太大，显得突兀，而且如果待插入的前景内容的字符颜色也是白色，还会导致文本看不清楚。

因此，本方案还会对原始背景图像进行补全，补全后原始图像后得到的背景内容如图12d所示。图12e对应的图像是输入图像，对前景内容和补全后的背景内容进行还原后，得到的目标编辑文件如图12f所示。从图12f可以看出，补全后的背景内容更自然，没有突兀的白色区域，还原效果更好。

当目标可编辑文件的文件类型是文稿演示类型时，服务器可以调用文稿演示类型对应的链接库，创建原始可编辑文件，原始可编辑文件的文件类型是文稿演示类型。服务器根据输入图像的背景内容调整原始可编辑文件的文件背景。从前述可知，前景内容包括N个单位前景内容，且这N个单位前景内容是由N个单位前景图像得到的，服务器在还原前景内容时，获取每个单位前景图像在输入图像中的位置信息，根据输入图像和原始可编辑文件之间的对应关系，确定每个单位前景图像在原始可编辑文件的位置信息，根据该位置信息将每个单位前景内容添加至原始可编辑文件，即可得到目标可编辑文件。由于N个单位前景区域之间不满足包含关系，也就是说N个单位前景内容之间没有重叠，因此N个单位前景内容还原的先后顺序没有限定。

上述可知，输入图像中的图像以及表格都可以被还原为目标可编辑文件，可以避免还原过程中图像内容被遗漏的情况，提高图像识别的准确率；再有，将文本的字符尺寸以及字符颜色都进行了还原，保证图像的内容版式和可编辑文件的内容版式一致，进一步提高图像识别的准确率。

请参见图13，是本申请实施例提供的一种图像处理方法的流程示意图，本实施例主要涉及当单位前景图像存在叠加时，如何获取前景内容。图像处理方法可以包括如下步骤：

步骤S501，获取输入图像，确定输入图像的前景区域。

其中，步骤S501的具体过程可以参见上述图3对应实施例中的步骤S101。

步骤S502，从输入图像中抽取包含第一单位区域的最小矩形框对应的第一图像，获取第一图像的相对前景区域，根据第一图像和输入图像之间的对应关系，确定第二单位区域在第一图像中的参考区域。

具体的，前景区域包括两个单位前景区域(称为第一单位区域和第二单位区域)，在输入图像中第一单位区域和第二单位区域满足包含关系，且第一单位区域包含第二单位区域。其中，当在输入图像中单位前景区域A包围单位前景区域B，说明这两个单位前景区域满足包含关系且是单位前景区域A包含单位前景区域B。

服务器在输入图像中确定包含第一单位区域的最小矩形框，从输入图像中抽取最小矩形框对应的图像，称为第一图像。

对第一图像进行语义分割处理，确定第一图像中的前景区域(称为相对前景区域)，相对前景区域可以是第一图像中文本所在的区域，或者表格所在的区域等。根据第一图像和输入图像之间的对应关系，确定输入图像的第二单位区域在第一图像中的区域(称为参考区域)。

步骤S503，将参考区域和相对前景区域融合为第三单位区域，从第图像中抽取第三单位区域对应的第二图像，在第一图像中将第三单位区域设置为空白区域，将设置后的第一图像作为第三图像。

具体的，服务器在第一图像中将参考区域和相对前景区域融合为第三单位区域，此处的融合可以是平均融合，这样可以修正第二单位区域，以提高后续识别第二单位区域中的内容的准确率。此时的第三单位区域是指第一图像中的区域。

服务器从第一图像中抽取包含第三单位区域的最小矩形框对应的图像(称为第二图像)，在第一图像中将第三单位区域设置为空白区域(即空白区域中的像素RGB值都是255)，将设置后的第一图像作为第三图像。可以认为，第二图像是第二单位区域对应的单位前景图像，第三图像是第一单位区域对应的单位前景图像。

步骤S504，将第二图像和第三图像组合为前景图像。

步骤S505，获取第二图像的图像内容类型，根据第二图像的图像内容类型识别第二图像，得到第一单位前景内容。

具体的，第三图像的图像内容类型可以是图像类型。服务器根据第二单位区域对应的前景掩模的掩模标签，确定第二图像的图像内容类型，第二图像的图像内容类型可以是文本类型或者表格类型。

当第二图像的图像内容类型包括文本类型时，根据第二图像确定字符尺寸，以及字符颜色，采用字符识别技术获取第二图像中的字符，根据第二图像的字符以及上述字符尺寸和字符颜色生成文本，将该文本作为第二图像的图像内容(称为第一单位前景内容)。

当第二图像的图像内容类型包括文本类型时，获取第一单位前景内容具体过程可以参见上述图10对应实施例中的步骤S403--步骤S404，只需要将处理对象由单位前景图像调整为第二图像即可。

当第二图像的图像内容类型包括表格类型时，识别第二图像确定表格样式，以及采用字符识别技术确定第二图像中的字符，根据上述表格样式以及识别到的字符生成表格，将生成的表格作为第二图像的第一单位前景内容。

当第二图像的图像内容类型包括表格类型时，获取第一单位前景内容具体过程可以参见上述图10对应实施例中的步骤S406，只需要将处理对象由单位前景图像调整为第二图像即可。

步骤S506，补全第三图像中的空白区域，并对补全后的第三图像进行边缘平滑处理得到第二单位前景内容，将第一单位前景内容和第二单位前景内容组合为前景内容。

具体的，从前述可知，第三图像中存在部分空白区域，服务器补全第三图像中的空白区域，补全是指向第三图像中的空白区域填充内容，且填充的内容与第三图像中的非空白区域的内容相同。服务器再对补全后的第三图像进行边缘平滑处理，得到第三图像的图像内容(称为第二单位前景内容)。

获取与空白像素相邻的像素集合，此处的相邻可以是4个方向上的相邻，也可以是8个方向上的相邻。每个像素都包括R、G、B 3个通道的颜色值，将像素集合中所有像素的R通道颜色均值作为空白像素的R通道颜色值，将像素集合中所有像素的G通道颜色均值作为空白像素的G通道颜色值，将像素集合中所有像素的B通道颜色均值作为空白像素的B通道颜色值。这样就补全了该空白像素。

其余的空白像素可以按照相同的方式进行补全，采用这种方式可以向第三图像的空白区域填充内容，以得到补全后的第三图像。

服务器可以将前述中的第一单位前景内容和第二单位前景内容组合为输入图像的前景内容。

需要说明的是，服务器获取第一单位前景内容和第二单位前景内容的前后顺序没有限定。

请参见图14a-图14d，是本申请实施例提供的一种确定前景内容的示意图，图14a对应的图像是输入图像，对输入图像进行语义分割后，可以确定文本区域和图像区域，文本区域可以对应前述中的第二单位区域，图像区域可以对应前述中的第一单位区域。服务器将图像区域对应的图像抽取出来得到第一图像，在第一图像中将文本区域设置为空白区域，即可得到如图14c所示的第三图像。对第三图像进行补全，得到图14d所示的图像，图14d对应的图像即是前述中的第二单位前景内容。

步骤S507，根据前景区域获取输入图像的背景内容，对前景内容和背景内容进行处理，生成目标可编辑文件。

当目标可编辑文件的文件类型是文稿演示类型时，服务器可以调用文稿演示类型对应的链接库，创建原始可编辑文件。根据输入图像的背景内容调整原始可编辑文件的文件背景。从前述可知，前景内容包括第一单位前景内容和第二单位前景内容，且第一单位前景内容是第二单位区域的图像内容，第二单位前景内容是第一单位区域的图像内容。服务器在还原第一单位内容和第二单位内容时，首先还原第二单位前景内容，再还原第一单位前景内容，就等同于将第一单位前景内容叠加于第二单位前景内容之上。

需要说明的是，图10对应的实施例描述了前景区域包括N个不存在包含关系的单位前景区域时，如何还原输入图像以得到目标可编辑文件，图13对应的实施例描述了前景区域包括2个存在包含关系的第一单位区域和第二单位区域时，如何还原输入图像以得到目标可编辑文件。进一步地，可以将这两个情况进行叠加，即前景区域包括N个不存在包含关系的单位前景区域以及第一单位区域和第二单位区域时，此时通过N个单位前景区域获取N个单位前景内容，通过第一单位区域和第二单位区域获取第一单位前景内容和第二单位前景内容。将N个单位前景内容、第一单位前景内容和第二单位前景内容一起组合为输入图像的前景内容。后续同样地，对输入图像的前景内容和背景内容进行还原，以得到目标可编辑文件。

请参见图15a-图15d，是本申请提供的图像还原的结果示意图，图15a和图15c是待还原的输入图像，图15b是采用现有文档恢复技术对输入图像还原后得到参照可编辑文件，图15d是采用本申请的方案对输入图像还原后得到的目标可编辑文件。比较图15b和图15d可以知道，采用现有文档恢复技术不能还原输入图像中的排版方式，参照可编辑文件中的内容排版混乱，不利于阅读。但采用本申请，由于前景内容是根据前景图像在输入图像中的位置信息添加至可编辑文件中的，因此还原得到的目标可编辑文件不仅保留了图像内容，排版方式也进行了还原。

请参见图16a-图16d，是本申请提供的图像还原的结果示意图，图16a和图16c是待还原的输入图像，图16b是采用现有文档恢复技术对输入图像还原后得到参照可编辑文件，图16d是采用本申请的方案对输入图像还原后得到的目标可编辑文件。比较图16b和图16d可以知道，采用现有文档恢复技术虽然还原文本中的字符，但没有还原字符大小，导致在输入图像中原本是5行的文本被还原为了6行。但采用本申请，由于是以行为单位来确定单位前景图像，可以自适应地调整确定每一行的字符尺寸，这样在重建文本时，重建文本的文本行数量和输入图像中的文本行数量相同，可以保证还原效果。

请参见图17a-图17d，是本申请提供的图像还原的结果示意图，图17a和图17c是待还原的输入图像，图17b是采用现有文档恢复技术对输入图像还原后得到参照可编辑文件，图17d是采用本申请的方案对输入图像还原后得到的目标可编辑文件。比较图17b和图17d可以知道，采用现有文档恢复技术只能恢复输入图像中的前景内容，不仅丢失排版方式，更丢失了输入图像的背景内容。但采用本申请，对输入图像的背景内容也进行了还原，可以提高图像识别准确率以及还原效果。

请参见图18a-图18d，是本申请提供的图像还原的结果示意图，图18a和图18c是待还原的输入图像，图18b是采用现有文档恢复技术对输入图像还原后得到参照可编辑文件，图18d是采用本申请的方案对输入图像还原后得到的目标可编辑文件。比较图18b和图18d可以知道，当在前景图像中插入了文本时，采用现有文档恢复技术将前景图像中的文本区域设置为空白区域，在该空白区域直接添加文本，白色区域在前景图像中显得很突兀，还原效果较差。但采用本申请，对包含空白区域的前景图像进行了补全，使得空白区域填充了和周围区域相似的颜色，再向补全后的前景图像添加文本，就不会存在突兀的白色区域，保证图像还原效果。

上述可知，当第一单位区域和第二单位区域存在重叠时，不仅要修正第二单位区域以提高识别第二单位区域中的图像内容的准确率，还要补全第一单位区域对应的图像中的空白区域，使得还原得到的目标可编辑文件的内容和输入图像的内容一致，以及目标可编辑文件的排版和输入图像的排版一致。

请参见图19，是本申请实施例提供的一种图像处理方法的流程示意图，本实施例主要涉及如何将图像还原为可编辑文件，该图像处理方法可以由第一终端来执行，该图像处理方法具体由第一终端中的客户端(或者小程序)来执行，且该客户端(或者小程序)与前述服务器具有对应关系，图像处理方法可以包括如下步骤：

步骤S601，显示类型选择页面，类型选择页面包括文稿演示选项以及输入图像。

具体的，第一终端(或者是客户端，或者小程序)显示类型选择页面，类型选择页面包括文稿演示选项、文档选项、表格选项以及图像选择区域。第一用户可以触发图像选择区域，第一用户在相册中选择一张照片，或者第一用户使用成像软件实时拍摄一张照片，第一终端可以将第一用户选择的照片或者实时拍摄的照片作为当前待还原的输入图像。

第一终端在显示类型选择页面中的图像选择区域显示输入图像，此时类型选择页面包括文稿演示选项、文档选项、表格选项以及输入图像。

由于用户选择的照片(或者拍摄的照片)可能包含噪声，或者图像亮度较低，因此第一终端可以对第一用户选择的照片或者实时拍摄的照片进行图像预处理后，再作为输入图像。其中，图像预处理的过程可以参见上述图3对应实施例中的步骤S101，只需将执行主体由服务器调整为第一终端即可。

步骤S602，当文稿演示选项被触发时，获取输入图像对应的目标可编辑文件；目标可编辑文件是对输入图像的前景内容以及输入图像的背景内容还原处理得到，目标可编辑文件的文件类型属于文稿演示类型。

具体的，第一用户可以从文稿演示选项、文档选项、表格选项任意选择一个选项，该选项表示用户想要还原的可编辑文件的文件类型。当第一用户选择文稿演示选项时，说明第一用户希望还原的可编辑文件的文件类型是文稿演示类型。第一终端可以将输入图像发送至服务器，由服务器将输入图像还原为目标可编辑文件，目标可编辑文件是对输入图像的前景内容和背景内容还原处理得到，且目标可编辑文件的文件类型属于文稿演示类型。

服务器将输入图像还原为目标可编辑文件的过程可以参见上述图3-图18d对应的实施例，此处不再赘述。服务器可以将还原后的目标可编辑文件发送至第一终端。

或者，服务器生成目标可编辑文件的截图，将该截图发送至第一终端，第一终端展示该截图，第一用户预览该截图后，可以点击确定选项或者取消选项。待第一用户选择确定选项后，服务器再将目标可编辑文件发送至第一终端。若第一用户选择取消选项，服务器可以删除目标可编辑文件。

步骤S603，在文件显示页面显示目标可编辑文件，目标可编辑文件的前景内容与输入图像的前景内容一致，目标可编辑文件的背景内容与输入图像的背景内容一致。

具体的，第一终端接收到目标可编辑文件后，在文件显示页面显示目标可编辑文件，其中目标可编辑文件的前景内容与输入图像的前景内容一致，目标可编辑文件的背景内容与输入图像的背景内容一致。

总的来说，还原得到的目标可编辑文件，图像内容全部保留，且图像内容在图像中的排版和在目标可编辑文件中的排版一致。

请参见图20a-图20d，是本申请实施例提供的一种图像处理的示意图，如图20a所示，类型选择页面40a包括文稿演示选项、文档选项、表格选项以及图像选择区域，第一用户可以点击图像选择区域，选择当前待还原的输入图像。第一用户选择输入图像后，如图20b所示在类型选择页面40a中的图像选择区域显示该输入图像。第一用户可以从文稿演示选项、文档选项、表格选项中选择任一选项，假设第一用户选择的是文稿演示选项，第一终端将输入图像以及用户选择的选项发生至服务器，由服务器生成目标可编辑文件。如图20c所示，服务器发送目标可编辑文件的截图至第一终端，第一终端显示该截图。若第一用户选择确定选项，服务器再将目标可编辑文件发送至第一终端，如图20d所示第一终端在文件显示页面40d中显示目标可编辑文件。

后续，第一用户可以对目标可编辑文件进行编辑操作。

可选的，文件显示页面还包括文件分享选项，第一用户可以点击该文件分享选项，第一终端在对象选择页面显示多个用户选项，这多个用户选项对应的用户都是第一用户的社交用户。

第一用户可以在这多个用户选项中选择任一用户选项(称为目标用户选项)，第一终端可以将目标可编辑文件发送至目标用户选项对应的第二用户所在的第二终端。

第二用户可以在第二终端中打开目标可编辑文件，以及对目标可编辑文件进行编辑，第二终端获取第二用户对目标可编辑文件的用户行为数据，用户行为数据可以包括针对目标可编辑文件的修改行为数据，新增行为数据以及删除行为数据中的至少一个。

第二终端可以将用户行为数据直接发送至第一终端，或者通过服务器将用户行为数据发送至第一终端，第一终端根据该用户行为数据调整目标可编辑文件。第一终端响应对文件显示页面的刷新操作，在文件显示页面显示调整后的目标可编辑文件。上述过程即是多个用户对目标可编辑文件进行协同编辑。

请参见图21a-图21c，是本申请实施例提供的一种图像处理的示意图，如图21a所示，文件显示页面40d还包括文件分享选项。第一用户可以点击该文件分享选项，第一终端在图21b中的对象选择页面40f显示多个用户选项，这多个用户选项对应的用户都是第一用户的社交用户。第一用户可以在这多个用户选项中选择任一用户选项，假设选择用户D对应的用户选项，第一终端可以将目标可编辑文件发送至用户D所在的第二终端。用户D可以在第二终端中对目标可编辑文件进行编辑，第二终端获取第二用户对目标可编辑文件的用户行为数据(假设用户行为数据是新增字符“和副标题”)。第二终端可以将用户行为数据直接发送至第一终端，第一终端根据该用户行为数据调整目标可编辑文件。如图21c所示的文件显示页面40g，此时文件显示页面40g显示调整后的目标可编辑文件，从比较图21a和图21c可以看出，新的目标可编辑文件多了字符“和副标题”。

可选的，为了保证目标可编辑文件的安全性，当目标可编辑文件的显示时长达到时长阈值时，第一终端就会自动删除目标可编辑文件。后续当第一用户请求再次显示目标可编辑文件时，第一终端可以从服务器拉取目标可编辑文件，目标可编辑文件与第一用户的用户账号关联存储于服务器中的。

可选的，目标可编辑文件与第一用户的用户账号关联存储于服务器，当第一用户在第三终端中启动该服务器对应的客户端(或者小程序)，且在该客户端(或者小程序)中登录自己的用户账号时，第三终端中的客户端(或者小程序)会从服务器中拉取目标可编辑文件，以及显示目标可编辑文件。

请参见图22，是本申请实施例提供的一种图像处理方法的流程示意图，图像处理方法包括如下步骤：

步骤S701，客户端获取待还原的原始图像，其中原始图像可以是用户基于终端中的成像软件对纸质文件/电子文件拍摄所生成的照片，也可以是用户对手机/电脑截屏所生成的截屏图片。

步骤S702，客户端获取用户在文稿演示选项、文档选项、表格选项中选择的文件类型。

步骤S703，客户端将原始图像以及用户选择的文件类型发送至服务器，服务器根据文件类型，将原始图像还原为目标可编辑文件，且目标可编辑文件的文件类型与用户选择的文件类型一致。

还原目标可编辑文件的具体过程如下：

步骤S7031，服务器对原始图像进行自动选框，以删除原始图像中与还原内容无关的背景。

步骤S7032，服务器对原始图像进行图像增强，以增强前景和背景之间的对比度。

步骤S7033，服务器将自动选框以及图像增强后的原始图像称为输入图像，对输入图像采用图像语义分割，识别输入图像中的前景区域。

步骤S7034，服务器根据前景区域抽取出前景图像，对前景图像进行字符识别，得到前景内容。

步骤S7035，服务器将输入图像中的前景区域设置为空白区，补全该空白区域，得到背景内容。

步骤S7036，服务器根据用户的所选择的文件类型，创建原始可编辑文件，原始可编辑文件的文件类型和用户选择的文件类型相同，将前景内容和背景内容插入原始可编辑文件中。

步骤S7037，服务器将前景内容和背景内容插入后的原始可编辑文件作为目标可编辑文件。目标可编辑文件的文本类型与用户所选择的文件类型相同，且目标可编辑文件属于在线文件，属于在线文件的目标可编辑文件和当前用户账号关联存储至服务器的。后续在任何终端中启动上述客户端，且与目标可编辑文件关联的用户账号登录了该客户端，任意终端中的客户端都可以显示上述目标可编辑文件。

步骤S704，客户端显示目标可编辑文件，用户可以对目标可编辑文件进行编辑。

进一步的，请参见图23，是本申请实施例提供的一种图像处理装置的结构示意图。如图23所示，图像处理装置1可以应用于上述图3-图18d对应实施例中的服务器，图像处理装置1可以包括第一获取模块11、抽取模块12、识别模块13、第二获取模块14以及还原模块15。

第一获取模块11，用于获取输入图像，确定输入图像的前景区域；

抽取模块12，用于从输入图像中抽取前景区域对应的前景图像；

识别模块13，用于识别前景图像得到输入图像的前景内容；

第二获取模块14，用于根据前景区域获取输入图像的背景内容；

还原模块15，用于对前景内容和背景内容进行处理，生成目标可编辑文件。

目标可编辑文件的文件类型属于文稿演示类型；

还原模块15，具体用于调用文稿演示类型对应的链接库，创建原始可编辑文件；原始可编辑文件的文件类型属于文稿演示类型；以及根据背景内容修改原始可编辑文件的文件背景，获取前景图像在输入图像中的位置信息，根据位置信息将前景内容添加至修改后的原始可编辑文件的文件背景，得到目标可编辑文件。

前景区域包括第一单位区域和第二单位区域，在输入图像中第一单位区域与第二单位区域满足包含关系；

抽取模块12，具体用于从输入图像中抽取包含第一单位区域的最小矩形框对应的第一图像，获取第一图像的相对前景区域，根据第一图像和输入图像之间的对应关系，确定第二单位区域在第一图像中的参考区域，将参考区域和相对前景区域融合为第三单位区域，从第一图像中抽取包含第三单位区域的最小矩形框对应的第二图像，在第一图像中将第三单位区域设置为空白区域，将设置后的第一图像作为第三图像，将第二图像和第三图像组合为前景图像。

第二获取模块14，具体用于在输入图像中将前景区域设置为空白区域，将设置后的输入图像作为原始背景图像，补全原始背景图像中的空白区域，得到背景内容。

其中，第一获取模块11、抽取模块12、识别模块13、第二获取模块14以及还原模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104以及图13对应实施例中的步骤S502-步骤S504，这里不再进行赘述。

请参见图23，识别模块13可以包括：第一获取单元131以及补全单元132。

第一获取单元131，用于获取第二图像的图像内容类型，根据第二图像的图像内容类型识别第二图像，得到第一单位前景内容；

补全单元132，用于补全第三图像中的空白区域，并对补全后的第三图像进行边缘平滑处理得到第二单位前景内容，将第一单位前景内容和第二单位前景内容组合为前景内容。

其中，第一获取单元131以及补全单元132的具体功能实现方式可以参见上述图13对应实施例中的步骤S505-步骤S506，这里不再进行赘述。

再参见图23，前景图像包括N个单位前景图像；N是大于0的整数；

识别模块13可以包括：第二获取单元133以及识别单元134。

第二获取单元133，用于获取单位前景图像的图像内容类型；

识别单元134，用于根据单位前景图像的图像内容类型识别单位前景图像，得到单位前景内容；

第二获取单元133，还用于将N个单位前景内容组合为前景内容。

其中，第二获取单元133以及识别单元134的具体功能实现方式可以参见上述图10对应实施例中的步骤S403步骤S407，这里不再进行赘述。

请参见图23，单位前景图像的图像内容类型包括文本类型；

识别单元134可以包括：尺寸确定子单元1341、颜色确定子单元1342以及第一生成子单元1343。

尺寸确定子单元1341，用于根据单位前景图像确定字符尺寸；

颜色确定子单元1342，用于根据单位前景图像确定字符颜色；

第一生成子单元1343，用于识别单位前景图像中的字符，根据字符尺寸、字符颜色以及单位前景图像中的字符生成文本，将文本作为单位前景内容。

尺寸确定子单元1341，具体用于在N个单位前景图像中确定与单位前景图像满足相邻关系的相邻单位前景图像；相邻单位前景图像的图像内容类型包括文本类型；以及根据单位前景图像的图像尺寸以及相邻单位前景图像的图像尺寸确定字符尺寸。

颜色确定子单元1342，具体用于识别单位前景图像的文本前景区域和文本背景区域；文本前景区域包括多个单位前景像素；以及根据多个单位前景像素的颜色确定字符颜色。

其中，尺寸确定子单元1341、颜色确定子单元1342以及第一生成子单元1343的具体功能实现方式可以参见上述图10对应实施例中的步骤S403-步骤S404，这里不再进行赘述。

请参见图23，单位前景图像的图像内容类型包括图像类型；

识别单元134可以包括：平滑子单元1344。

平滑子单元1344，用于对单位前景图像进行边缘平滑处理，得到平滑图像，将平滑图像作为单位前景内容。

其中，平滑子单元1344的具体功能实现方式可以参见上述图10对应实施例中的步骤S405，这里不再进行赘述。

请参见图23，单位前景图像的图像内容类型包括表格类型；

识别单元134可以包括：第二生成子单元1345。

第二生成子单元1345，用于将单位前景图像拆分为多个单位表格图像，根据多个单位表格图像确定表格样式，识别每个单位表格图像中的字符，根据表格样式以及每个单位表格图像中的字符生成表格，将表格作为单位前景内容。

其中，第二生成子单元1345的具体功能实现方式可以参见上述图10对应实施例中的步骤S406，这里不再进行赘述。

再参见图23，第一获取模块11可以包括：预处理单元111以及分割单元112。

预处理单元111，用于获取原始图像，对原始图像进行图像预处理，得到输入图像；图像预处理包括图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理中的至少一个，输入图像的长宽比和目标可编辑文件的长宽比相同；

分割单元112，用于对输入图像进行语义分割处理，确定输入图像的前景区域。

分割单元112，具体用于调用双向语义分割模型中的空间特征提取单位模型，提取输入图像的空间特征，调用双向语义分割模型中的语义特征提取单位模型，提取输入图像的语义特征，将空间特征和语义特征融合为输入图像的空间语义特征，对空间语义特征上采样，得到M个前景掩模，将M个前景掩模均转换为二值掩模；二值掩膜的尺寸和输入图像的尺寸相同；以及在M个二值掩模中确定联通区域集合，获取联通区域集合在M个二值掩模中的区域位置信息集合；M是大于0的整数；将在输入图像中与区域位置信息集合对应的图像区域作为前景区域。

其中，预处理单元111以及分割单元112的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

进一步的，请参见图24，是本申请实施例提供的一种图像处理装置的结构示意图。如图24所示，图像处理装置2可以应用于上述图19-图22对应实施例中的第一终端，图像处理装置2可以包括：显示模块21以及第三获取模块22。

显示模块21，用于显示类型选择页面，类型选择页面包括文稿演示选项以及输入图像；

第三获取模块22，用于当文稿演示选项被触发时，获取输入图像对应的目标可编辑文件；目标可编辑文件是对输入图像的前景内容以及输入图像的背景内容还原处理得到，目标可编辑文件的文件类型属于文稿演示类型；

显示模块21，还用于在文件显示页面显示目标可编辑文件，目标可编辑文件的前景内容与输入图像的前景内容一致，目标可编辑文件的背景内容与输入图像的背景内容一致。

其中，显示模块21以及第三获取模块22的具体功能实现方式可以参见上述图19对应实施例中的步骤S601-步骤S603，这里不再进行赘述。

请再参见图24，文件显示页面还包括文件分享选项；

图像处理装置2可以包括显示模块21以及第三获取模块22，还可以包括：响应模块23。

响应模块23，用于响应于对文件分享选项的触发操作，在对象选择页面显示多个用户选项，响应于对目标用户选项的触发操作，将目标可编辑文件发送至目标用户选项对应的第二终端；目标用户选项是多个用户选项中的任一用户选项；以及获取与第二终端相关联的针对目标可编辑文件的用户行为数据，根据用户行为数据调整目标可编辑文件，在文件显示页面显示调整后的目标可编辑文件。

其中，响应模块23的具体功能实现方式可以参见上述图19对应实施例中的步骤S603，这里不再进行赘述。

请再参见图24，目标可编辑文件存储于服务器；

图像处理装置2可以包括显示模块21以及第三获取模块22，还可以包括：拉取模块24。

拉取模块24，用于当第一终端中不存在目标可编辑文件时，从服务器拉取目标可编辑文件。

其中，拉取模块24的具体功能实现方式可以参见上述图19对应实施例中的步骤S603，这里不再进行赘述。

进一步地，请参见图25，是本发明实施例提供的一种计算机设备的结构示意图。上述图3-图18d对应实施例中的服务器可以为计算机设备1000，如图25所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图25所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

获取输入图像，确定输入图像的前景区域；

根据前景区域获取输入图像的背景内容；

对前景内容和背景内容进行处理，生成目标可编辑文件。

应当理解，本发明实施例中所描述的计算机设备1000可执行前文图3到图18d所对应实施例中对图像处理方法的描述，也可执行前文图23所对应实施例中对图像处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的图像处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3到18d所对应实施例中对图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

进一步地，请参见图26，是本发明实施例提供的一种计算机设备的结构示意图。上述图19-图22对应实施例中的第一终端可以为电子设备2000，如图26所示，电子设备2000可以包括：用户接口2002、处理器2004、编码器2006以及存储器2008。信号接收器2016用于经由蜂窝接口2010、WIFI接口2012、...、或NFC接口2014接收或者发送数据。编码器2006将接收到的数据编码为计算机处理的数据格式。存储器2008中存储有计算机程序，处理器2004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器2008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器2008可进一步包括相对于处理器2004远程设置的存储器，这些远程存储器可以通过网络连接至电子设备2000。用户接口2002可以包括：键盘2018和显示器2020。

在图26所示的电子设备2000中，处理器2004可以用于调用存储器2008中存储计算机程序，以实现：

应当理解，本发明实施例中所描述的电子设备2000可执行前文图19到图22所对应实施例中对图像处理方法的描述，也可执行前文图24所对应实施例中对图像处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的图像处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图19到图22所对应实施例中对图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括:

获取输入图像，确定所述输入图像的前景区域；

从所述输入图像中抽取所述前景区域对应的前景图像，识别所述前景图像得到所述输入图像的前景内容；

根据所述前景区域获取所述输入图像的背景内容；

对所述前景内容和所述背景内容进行处理，生成目标可编辑文件。

2.根据权利要求1所述的方法，其特征在于，所述目标可编辑文件的文件类型属于文稿演示类型；

所述对所述前景内容和所述背景内容进行处理，生成目标可编辑文件，包括：

调用所述文稿演示类型对应的链接库，创建原始可编辑文件；所述原始可编辑文件的文件类型属于所述文稿演示类型；

根据所述背景内容修改所述原始可编辑文件的文件背景；

获取所述前景图像在所述输入图像中的位置信息，根据所述位置信息将所述前景内容添加至所述修改后的原始可编辑文件的文件背景，得到所述目标可编辑文件。

3.根据权利要求1所述的方法，其特征在于，所述前景区域包括第一单位区域和第二单位区域，在所述输入图像中所述第一单位区域与所述第二单位区域满足包含关系；

所述从所述输入图像中抽取所述前景区域对应的前景图像，包括：

从所述输入图像中抽取包含所述第一单位区域的最小矩形框对应的第一图像，获取所述第一图像的相对前景区域；

根据所述第一图像和所述输入图像之间的对应关系，确定所述第二单位区域在所述第一图像中的参考区域；

将所述参考区域和所述相对前景区域融合为第三单位区域；

从所述第一图像中抽取包含所述第三单位区域的最小矩形框对应的第二图像，在所述第一图像中将所述第三单位区域设置为空白区域，将设置后的第一图像作为第三图像；

将所述第二图像和所述第三图像组合为所述前景图像。

4.根据权利要求3所述的方法，其特征在于，所述识别所述前景图像得到所述输入图像的前景内容，包括：

获取所述第二图像的图像内容类型，根据所述第二图像的图像内容类型识别所述第二图像，得到第一单位前景内容；

补全所述第三图像中的空白区域，并对补全后的第三图像进行边缘平滑处理得到第二单位前景内容；

将所述第一单位前景内容和所述第二单位前景内容组合为所述前景内容。

5.根据权利要求1所述的方法，其特征在于，所述前景图像包括N个单位前景图像；所述N是大于0的整数；

所述识别所述前景图像得到所述输入图像的前景内容，包括：

获取单位前景图像的图像内容类型，根据所述单位前景图像的图像内容类型识别所述单位前景图像，得到单位前景内容；

将N个单位前景内容组合为所述前景内容。

6.根据权利要求5所述的方法，其特征在于，所述单位前景图像的图像内容类型包括文本类型；

所述根据所述单位前景图像的图像内容类型识别所述单位前景图像，得到单位前景内容，包括：

根据所述单位前景图像确定字符尺寸；

根据所述单位前景图像确定字符颜色；

识别所述单位前景图像中的字符，根据所述字符尺寸、所述字符颜色以及所述单位前景图像中的字符生成文本，将所述文本作为所述单位前景内容。

7.根据权利要求6所述的方法，其特征在于，所述根据所述单位前景图像确定字符尺寸，包括：

在所述N个单位前景图像中确定与所述单位前景图像满足相邻关系的相邻单位前景图像；所述相邻单位前景图像的图像内容类型包括所述文本类型；

根据所述单位前景图像的图像尺寸以及所述相邻单位前景图像的图像尺寸确定所述字符尺寸。

8.根据权利要求6所述的方法，其特征在于，所述根据所述单位前景图像确定字符颜色，包括：

识别所述单位前景图像的文本前景区域和文本背景区域；所述文本前景区域包括多个单位前景像素；

根据所述多个单位前景像素的颜色确定所述字符颜色。

9.根据权利要求5所述的方法，其特征在于，所述单位前景图像的图像内容类型包括图像类型；

对所述单位前景图像进行边缘平滑处理，得到平滑图像；

将所述平滑图像作为所述单位前景内容。

10.根据权利要求5所述的方法，其特征在于，所述单位前景图像的图像内容类型包括表格类型；

将所述单位前景图像拆分为多个单位表格图像，根据所述多个单位表格图像确定表格样式；

识别每个单位表格图像中的字符，根据所述表格样式以及每个单位表格图像中的字符生成表格，将所述表格作为所述单位前景内容。

11.根据权利要求1所述的方法，其特征在于，所述根据所述前景区域获取所述输入图像的背景内容，包括：

在所述输入图像中将所述前景区域设置为空白区域，将设置后的输入图像作为原始背景图像；

补全所述原始背景图像中的空白区域，得到所述背景内容。

12.根据权利要求1所述的方法，其特征在于，所述获取输入图像，确定所述输入图像的前景区域，包括：

获取原始图像，对所述原始图像进行图像预处理，得到所述输入图像；所述图像预处理包括图像框选处理，图像旋转处理，摩尔纹去除处理，扭曲恢复处理以及尺寸调整处理中的至少一个，所述输入图像的长宽比和所述目标可编辑文件的长宽比相同；

对所述输入图像进行语义分割处理，确定所述输入图像的所述前景区域。

13.根据权利要求12所述的方法，其特征在于，所述对所述输入图像进行语义分割处理，确定所述输入图像的所述前景区域，包括：

调用双向语义分割模型中的空间特征提取单位模型，提取所述输入图像的空间特征，调用所述双向语义分割模型中的语义特征提取单位模型，提取所述输入图像的语义特征；

将所述空间特征和所述语义特征融合为所述输入图像的空间语义特征，对所述空间语义特征上采样，得到M个前景掩模，将所述M个前景掩模均转换为二值掩模；二值掩膜的尺寸和所述输入图像的尺寸相同；所述M是大于0的整数；

在M个二值掩模中确定联通区域集合，获取所述联通区域集合在所述M个二值掩模中的区域位置信息集合；

将在所述输入图像中与所述区域位置信息集合对应的图像区域作为所述前景区域。

14.一种图像处理方法，其特征在于，包括：

显示类型选择页面，所述类型选择页面包括文稿演示选项以及输入图像；

当所述文稿演示选项被触发时，获取所述输入图像对应的目标可编辑文件；所述目标可编辑文件是对所述输入图像的前景内容以及所述输入图像的背景内容还原处理得到，所述目标可编辑文件的文件类型属于文稿演示类型；

在文件显示页面显示所述目标可编辑文件；所述目标可编辑文件的前景内容与所述输入图像的前景内容一致，所述目标可编辑文件的背景内容与所述输入图像的背景内容一致。

15.根据权利要求14所述的方法，其特征在于，所述图像处理方法由第一终端执行，所述文件显示页面还包括文件分享选项；

所述方法还包括：

响应于对所述文件分享选项的触发操作，在对象选择页面显示多个用户选项；

响应于对目标用户选项的触发操作，将所述目标可编辑文件发送至所述目标用户选项对应的第二终端；所述目标用户选项是所述多个用户选项中的任一用户选项；

获取与所述第二终端相关联的针对所述目标可编辑文件的用户行为数据，根据所述用户行为数据调整所述目标可编辑文件；

在所述文件显示页面显示调整后的目标可编辑文件。